05.Hive元数据配置到MySQL

05.Hive元数据配置到MySQL

[TOC]前言环境准备Hive3.1.2环境(伪分布式)MySQL8.0.23环境一、下载JDBC驱动包1.1 下载地址https://dev.mysql.com/downloads/connector/j/1.2 选址之前的文件1.3 选择相应版本Product Version选择8.0.23,因为本次安装使用的MySQL是该版本,大家可以根据自身MySQL版本自行选择Operating ...

大数据 2021-12-01 AM 8次 0条
04.Hive3.1.2安装教程

04.Hive3.1.2安装教程

[TOC]前言本篇安装的是单机版Hive3.1.2安装教程。环境准备CentOS 7.X环境JDK1.8hadoop3.2.1(伪分布式)可参考文章:CentOS7 Hadoop安装教程一、安装1.1 将apache-hive-3.1.2-bin.tar.gz安装包上传到服务器[hadoop@hadoop001 sources]$ sudo rz1.2 将安装包解压到/opt/softwar...

大数据 2021-11-30 PM 9次 0条
03.Hive和数据库比较

03.Hive和数据库比较

[TOC]前言​ 由于Hive采用了SQL的查询语言HQL,因此很容易将Hive理解为数据库。其实从结构上来看,Hive和数据库除了拥有类似的查询语言,再无类似之处。数据库可以用在Online的应用中,但是Hive是为数据仓库而设计的,清楚这一点,有助于从应用角度理解Hive的特性。一、Hive和传统数据库对比属性Hive传统数据库查询语言HQLSQL数据存储位置HDFSRaw...

大数据 2021-11-27 PM 20次 0条
02.Hive架构原理

02.Hive架构原理

[TOC]前言本篇Hive架构原理在来回顾一下Hive的本质。Hive本质:是将HQL语句转化成MapReduce程序。在它的底层:HDFS负责存储数据;YARN负责进行资源管理;MapReduce负责数据处理。一、Hive架构说明用户接口:ClientCLI(command-line interface)、JDBC/ODBC(jdbc 访问 hive)、WEBUI(浏览器访问 hive)元...

大数据 2021-11-27 PM 20次 0条
01.Hive基本概念

01.Hive基本概念

[TOC]一、Hive简介最初,Hive是由Facebook开发,后来由Apache软件基金会开发,并作为进一步将它作为名义下Apache Hive为一个开源项目。Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将...

大数据 2021-11-27 PM 18次 0条
SparkSQL案例实操(五)

SparkSQL案例实操(五)

[TOC]一、需求统计用户上网流量统计用户上网流量,如果两次上网的时间小于10min,就可以rollup(合并)到一起二、数据准备merge.dat文件id start_time end_time flow 1 14:20:30 14:46:30 20 1 14:47:20 15:20:30 30 1 15:37:23 16:05:26 40 1 16:06:27 17:20:49 50 1...

大数据 2021-11-14 PM 69次 0条
SparkSQL案例实操(四)

SparkSQL案例实操(四)

[TOC]一、需求统计有过连续3天以上销售的店铺,并计算销售额结果示例+-----+----------+----------+-----+-----------+ | sid|begin_date| end_date|times|total_sales| +-----+----------+----------+-----+-----------+ |shop1|2019-02-10|...

大数据 2021-11-14 AM 62次 0条
SparkSQL案例实操(三)

SparkSQL案例实操(三)

[TOC]一、需求统计连续登录三天及以上的用户这个问题可以扩展到很多相似的问题:连续几个月充值会员、连续天数有商品卖出、连续打滴滴、连续逾期。示例uidtimesstart_dateend_dateguid0142018-03-042018-03-07guid0232018-03-012018-03-03二、数据准备v_user_login.csvuid,datatime guid01,20...

大数据 2021-11-13 PM 55次 0条
SparkSQL案例实操(二)

SparkSQL案例实操(二)

[TOC]一、需求1.1 需求简介各区域热门商品 Top3这里的热门商品是从点击量的维度来看的,计算各个区域前三大热门商品备注上每个商品在主要城市中的分布比例超过两个城市用其他显示示例地区商品名称点击次数城市备注华北商品 A100000北京 21.2%,天津 13.2%,其他 65.6%华北商品 P80200北京 63.0%,太原 10%,其他 27.0%华北商品 M40000北京 63.0...

大数据 2021-11-13 PM 60次 0条
SparkSQL案例实操(一)

SparkSQL案例实操(一)

[TOC]一、需求统计每个用户的累计访问次数要求使用SQL统计出每个用户的累积访问次数,如下表所示:用户id月份小计累积u012021-011111u012021-021223u022021-011212u032021-0188u042021-0133说明:累计访问次数按照月份进行排序,根据每个用户逐月进行累加二、数据准备user_access_count.csv文件userid,visit...

大数据 2021-11-11 PM 75次 0条