MySQL高级应用窗口函数(一)

MySQL高级应用窗口函数(一)

[TOC]前言一般我们经常使用的函数分为两类:普通函数和聚合函数。但是这两类函数对于一些相对复杂的报表统计分析场景实现起来相对麻烦。本篇将讲述第三种函数:窗口函数。MYSQL 从 8.0.2 版本起开始支持窗口函数,这个功能在大多商业数据库和部分开源数据库中早已支持。我们平常使用SQL语句中Hive、SparkSQL、Oracle、SQL Server都很早就开始支持窗口函数。本来本篇内容想通过SparkSQL来进行叙述,但是考虑到MySQL对大家来说相对较熟悉,所以窗口函数系列文章将围绕MySQL 8.0版本进行叙述。安装MySQL 8.0数据库可以看本篇教程:CentOS7.X安装M...

Java 2021-11-17 PM 38℃ 0条
CentOS7.X安装MySQL8.0教程

CentOS7.X安装MySQL8.0教程

[TOC]一、下载下载地址:https://dev.mysql.com/downloads/mysql/目前下载的版本是mysql-8.0.27-1.el7.x86_64,本次安装使用的是mysql-8.0.23-1.el7.x86_64。如果需要安装mysql-8.0.23-1.el7.x86_64在微信公众号【Java和大数据进阶】回复mysql即可。二、卸载2.1 查看mariadb的安装包[root@hadoopserver ~]# rpm -qa | grep mariadb mariadb-libs-5.5.44-2.el7.centos.x86_642.2 卸载mariad...

Java 2021-11-16 PM 53℃ 0条
SparkSQL案例实操(五)

SparkSQL案例实操(五)

[TOC]一、需求统计用户上网流量统计用户上网流量,如果两次上网的时间小于10min,就可以rollup(合并)到一起二、数据准备merge.dat文件id start_time end_time flow 1 14:20:30 14:46:30 20 1 14:47:20 15:20:30 30 1 15:37:23 16:05:26 40 1 16:06:27 17:20:49 50 1 17:21:50 18:03:27 60 2 14:18:24 15:01:40 20 2 15:20:49 15:30:24 30 2 16:01:23 16:40:32 40 2 16:44:5...

大数据 2021-11-14 PM 69℃ 0条
SparkSQL案例实操(四)

SparkSQL案例实操(四)

[TOC]一、需求统计有过连续3天以上销售的店铺,并计算销售额结果示例+-----+----------+----------+-----+-----------+ | sid|begin_date| end_date|times|total_sales| +-----+----------+----------+-----+-----------+ |shop1|2019-02-10|2019-02-13| 4| 1900| +-----+----------+----------+-----+-----------+二、数据准备order.csvsid,data...

大数据 2021-11-14 AM 62℃ 0条
SparkSQL案例实操(三)

SparkSQL案例实操(三)

[TOC]一、需求统计连续登录三天及以上的用户这个问题可以扩展到很多相似的问题:连续几个月充值会员、连续天数有商品卖出、连续打滴滴、连续逾期。示例uidtimesstart_dateend_dateguid0142018-03-042018-03-07guid0232018-03-012018-03-03二、数据准备v_user_login.csvuid,datatime guid01,2018-02-28 guid01,2018-03-01 guid01,2018-03-02 guid01,2018-03-04 guid01,2018-03-05 guid01,2018-03-06 g...

大数据 2021-11-13 PM 55℃ 0条
SparkSQL案例实操(二)

SparkSQL案例实操(二)

[TOC]一、需求1.1 需求简介各区域热门商品 Top3这里的热门商品是从点击量的维度来看的,计算各个区域前三大热门商品备注上每个商品在主要城市中的分布比例超过两个城市用其他显示示例地区商品名称点击次数城市备注华北商品 A100000北京 21.2%,天津 13.2%,其他 65.6%华北商品 P80200北京 63.0%,太原 10%,其他 27.0%华北商品 M40000北京 63.0%,太原 10%,其他 27.0%东北商品 J92000大连 28%,辽宁 17.0%,其他 55.0%1.2 需求分析查询出来所有的点击记录,并与 city_info 表连接,得到每个城市所在的地区...

大数据 2021-11-13 PM 60℃ 0条
SparkSQL案例实操(一)

SparkSQL案例实操(一)

[TOC]一、需求统计每个用户的累计访问次数要求使用SQL统计出每个用户的累积访问次数,如下表所示:用户id月份小计累积u012021-011111u012021-021223u022021-011212u032021-0188u042021-0133说明:累计访问次数按照月份进行排序,根据每个用户逐月进行累加二、数据准备user_access_count.csv文件userid,visitdate,visitcount u01,2021/1/21,5 u02,2021/1/23,6 u03,2021/1/22,8 u04,2021/1/20,3 u01,2021/1/23,6 u01,...

大数据 2021-11-11 PM 75℃ 0条
SparkCore之广播变量

SparkCore之广播变量

[TOC]一、定义广播变量:分布式共享只读变量二、作用在多个并行操作中(Executor)使用同一个变量,Spark默认会为每个任务(Task)分别发送,这样如果共享比较大的对象,会占用很大工作节点的内存。广播变量用来高效分发较大的对象。向所有工作节点发送一个较大的只读值,以供一个或多个Spark操作使用。比如,如果你的应用需要向所有节点发送一个较大的只读查询表,甚至是机器学习算法中的一个很大的特征向量,广播变量用起来都很顺手。三、原理说明说明如果不采用广播变量的方式,list需要将数据发送给每一个task采用广播变量的方式,只需要将数据发送到每一个Executor,其他任务在执行的时候...

大数据 2021-11-09 PM 59℃ 0条
SparkCore之累加器

SparkCore之累加器

[TOC]前言本篇将先从一个案例入手,对Driver端和Executer端执行过程进行一个简单了解,在深入讲解累加器。一、累加操作案例案例需求将1,2,3,4进行累加求和操作代码import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} /** * @author lilinchao * @date 2021/11/9 * @description 1.0 **/ object Spark_WordCount { def main(args: Array[St...

大数据 2021-11-09 PM 63℃ 0条
Spark Core案例实操(十)

Spark Core案例实操(十)

[TOC]一、需求影评分析:按照年份进行分组。计算每部电影的平均评分,平均评分保留小数点后一位,并按评分大小进行排序。评分一样,按照电影名排序。相同年份的输出到一个文件中。结果展示形式(年份,电影id,电影名字,平均评分)要求:尝试使用自定义分区、自定义排序和缓冲。二、数据说明说明:以::对数据进行分隔movies.dat电影列表文件第一列:电影ID第二列:电影名称第三列:电影类型ratings.dat用户评分文件第一列:用户ID第二列:电影ID第三列:评分第四列:评分时间戳三、实现代码3.1 思路1. 先处理评分数据,计算出电影id、平均评分 2. 再处理电影数据,提取出电影id、电影...

大数据 2021-11-06 AM 68℃ 0条