欢迎投稿

今日深度:

hive的介绍,

hive的介绍, 首先我们要知道hive到底是做什么的。下面这几段文字很好的描述了hive的特性: 1.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提...(发布于2020-01-06 01:54:09)

Hive 操作,

Hive 操作, (一)表操作 Hive 和 Mysql 的表操作语句类似,如果熟悉 Mysql,学习Hive 的表操作就非常容易了,下面对 Hive 的表操作进行深入讲解。 (1)先来创建一个表名为student1的内部表...(发布于2020-01-06 01:54:05)

[hive的部署],

[hive的部署], 1.hive(数据仓库:data warehouse) 构建再Hadoop之上的数据仓库 数据:HDFS 执行:MR(2.0过时)Spark Tez 运行:YARN Hive 是一个使用SQL来操作分布式存储系统上面的大数据集的读写...(发布于2020-01-06 01:54:02)

Hive深入浅出,

Hive深入浅出, 1. Hive是什么 1) Hive是什么? 这里引用 Hive wiki 上的介绍: Hive is a data warehouse infrastructure built on top of Hadoop. It provides tools to enable easy data ETL, a mechanism to put structures on the...(发布于2020-01-06 01:53:57)

hive 调优,

hive 调优, 1. LIMIT 限制调整 一般情况下, LIMIT 语句需要执行整个查询局域,然后在返回部分结果的。因此这种情况通常是浪费的,所以应该进可能地避免出现这种情况。 Hive 有一个配...(发布于2020-01-06 01:53:54)

Hive 安装,

Hive 安装, mysql 安装参考:   cmake http://www.cnblogs.com/mophee/archive/2013/03/19/2969456.html   mysql  http://www.2cto.com/database/201201/117241.html questions 1、先查看 /etc/rc.d/init.d/mysqld status 看看m y s q l 是否...(发布于2020-01-06 01:53:45)

hive安装,

hive安装, 1,hadoop安装 参考:https://blog.csdn.net/pucao_cug/article/details/71773665 本博主的所有大数据相关都不是原创,都是参考别人的,再这里只是做一笔记; 2,mysql安装 hive需要mysql,自己...(发布于2020-01-05 01:47:51)

Hive crud,

Hive crud, hadoop fs -put test.data /user/hive/warehouse/test.db/lzq 将数据放到表中,这种表在warehouse中的被称为内部表 而外部表可以存放在hdfs的任意位置 在mysql中存放的是其元数据,创建的sql语句...(发布于2020-01-05 01:47:47)

Hive join,

Hive join, a 1 a 2 b 3 c 4 d 7 y 8 u b 2 bb 3 cc 7 yy 9 pp 左链接:返回左表全部,如果右表有相对应的则返回,否则返回null select * from a left join b on a.id=b.id; 1 a NULL NULL 2 b 2 bb 3 c 3 cc 4 d NULL NULL 7...(发布于2020-01-05 01:47:43)

hive语法,

hive语法, 创建数据库 CREATE DATABASE IF NOT EXISTS hive; SHOW DATABASES; SHOW CREATE DATABASE hive; DESCRIBE DATABASE hive; 删除数据库 DROP DATABASE IF EXISTS hive CASCADE ; 创建表 创建普通表 CREATE TABLE IF NOT EXISTS...(发布于2020-01-05 01:47:40)

hive的函数,

hive的函数, hive的函数 按照类型 udf 一对一 udaf 多对一 udtf 一对多 explode炸裂 按照来源 内置函数 显示内置函数:show functions 查看函数详细信息:desc function 函数名 查看函数详细的描述...(发布于2020-01-05 01:47:36)

hive的优化,

hive的优化, -》大表拆分成小表 -》包含临时表、分区表、外部表 -》sql语句: -》优化sql:复杂的sql-》子查询+join -》简化,拆分成多个简单的语句 join、filter:先过滤再join -》设置ma...(发布于2020-01-05 01:47:31)

优化hive,

优化hive, 下面给你建议:使用过程中该如何优化hive: 一、    控制hive任务中的map数:  1.    通常情况下,作业会通过input的目录产生一个或者多个map任务。  主要的决定因素有: inp...(发布于2020-01-05 01:47:28)

hive基本操作,

hive基本操作, 1.显示所有数据库 show databases; 2.使用某个数据库 use XX(XX表示某个数据库名) 3.显示某数据库下的所有表 show tables; 4.查看表结构(显示各字段) desc 表名 5.数据导出到本...(发布于2020-01-05 01:47:24)

Hive 安装使用,

Hive 安装使用, Hive安装 1. 解压安装包 2. 设置环境变量 3. 修改hive -site . xml 配置文件 4. 将mysql连接包放入hive安装路径下的lib包 /usr/ local /hive/lib 5. 启动hive mysql安装 1 .更新软件源 2 .安装...(发布于2020-01-05 01:47:20)

Hive的复杂数据类型,

Hive的复杂数据类型, Hive复杂数据类型 1、Array数据类型的使用 1.1、创建数据库表,以array作为数据类型 0: jdbc:hive2://192.168.230.10:10000 create table person(name string,worklocations arraystring) row for...(发布于2020-01-05 01:47:10)

hive权限问题,

hive权限问题, 1. 给某个用户授权 grant select on database ffcs_cheny to user ffcs_cheny; 2. ddlStatement : ( createDatabaseStatement | switchDatabaseStatement | dropDatabaseStatement | createTableStatement | dr...(发布于2020-01-03 22:19:19)

hive优化,

hive优化, hive优化 1.  设置文件数、最大返回行 使用简单limit抽样数据时是否开启优化选项,默认是false set hive.limit.optimize.enable=true ; 使用limit做数据的子集查询时保证的最小行数据量...(发布于2020-01-03 22:19:15)

Hive杂谈,

Hive杂谈, 构建在Hadoop上的数据仓库平台,为数据仓库管理提供了许多功能 定义了一种类SQL语言HiveQL。可以看成是仍SQL到Map-Reduce的映射器 提供Hive shell、JDBC/ODBC、Thrift客户端等接 先上一...(发布于2020-01-03 22:19:11)

HIVE 命令行,

HIVE 命令行, 使用静音模式执行一个查询 $HIVE_HOME/bin/hive -S -e 'select a.col from tab1 a' 加入-S,终端上的输出不会有mapreduce的进度,执行完毕,只会把查询结果输出到终端上。这个静音模式...(发布于2020-01-03 22:19:07)