Hive优化技巧,
Hive优化技巧, Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。 使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别, 所以需要去掉...(发布于2019-12-24 22:51:53)
Hive数据迁移,
Hive数据迁移, 简介 基于全表导出和全表导入。流程为Source Hive - Source HDFS Cluster - Destination HDFS Cluster - Destination Hive (Source端)群集操作 1. 创建导出临时目录 这里定为hdfs://tmp/hi...(发布于2019-12-24 22:51:49)
hive学习笔记,
hive学习笔记,...(发布于2019-12-24 22:51:44)
hive bucket,
hive bucket, hive中table可以拆分成partition,table和partition可以通过‘CLUSTERED BY ’进一步分bucket,bucket中的数据可以通过‘SORT BY’排序。 bucket主要作用: 1. 数据sampling 2. 提升某些查询操作...(发布于2019-12-24 22:51:40)
hadoop配置hive,
hadoop配置hive, hive的配置步骤 我用的是VMware Workstation 14 ,centOS 7. 先到官网下载最新版本linux系统的hive,我用的是2.3.2版本的,官网apache.hive 下载下来传到Hadoop上, 之后解压,开始配...(发布于2019-12-24 22:51:36)
Hive介绍,
Hive介绍, 一.简介 1.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是...(发布于2019-12-24 22:51:32)
Hive分区表,
Hive分区表, http://blog.csdn.net/lichangzai/article/details/18816515...(发布于2019-12-24 22:51:29)
安装hive,
安装hive, 其它项目组需要一套hive环境,原来想会很快搭好,没想到还颇费了些周折。这里记录一下。 hadoop用现成的脚本安装。 mysql也用现成的。 hive搭建的主要过程是按照这个教程做...(发布于2019-12-24 22:51:25)
Hive笔记,
Hive笔记, 一、概述 1.1 简介 (1)Hive提供了一个被称为Hive查询语言(简称HiveQL或HQL)的SQL语言,来查询存储在HDFS中的结构化数据文件,它把HQL语句的查询转换为MapReduce任务。(2)Hive应用场景...(发布于2019-12-24 22:51:16)
hive的安装,
hive的安装, 1.Hive 1.1在hadoop生态圈中属于数据仓库的角色。他能够管理hadoop中的数据,同时可以查询hadoop中的数据。 本质上讲,hive是一个SQL解析引擎。Hive可以把SQL查询转换为MapRed...(发布于2019-12-23 22:56:33)
hive 时间函数,
hive 时间函数, 语法: from_unixtime( bigint unixtime[, string format]) 返回: string 说明: 转化UNIX时间戳(从1970-01-01 00:00:00 UTC到指定时间的秒数)到当前时区的时间式 举例: hive select from_unixtime(...(发布于2019-12-23 22:56:29)
Hive 优化,
Hive 优化, 1、尽量不用 select * 2、输入文件不要是大量的小文件,hive默认的分片是128M小文件可以先合并成大文件 对于 group by 引起的倾斜,优化措施 set hive.map.aggr=true; set hive.groupby.sk...(发布于2019-12-23 22:56:25)
hiveSql优化,
hiveSql优化, 1. 对查询进行优化,要尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。 2. 应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使...(发布于2019-12-23 22:56:22)
hive自定义函数,
hive自定义函数, 生产中自定义函数用于公司特有的公式UDF 操作单个数据行,产生单个数据行;1. [hadoop@h91 hhh]$ vi TimeFormat.javaimport java.sql.Date; import java.text.SimpleDateFormat; import org.apach...(发布于2019-12-23 22:56:18)
hive 基本操作,
hive 基本操作, 一、创建表 1、创建分区表: CREATE TABLE page_view(viewTime INT,userid BIGINT, page_url STRING, reffer_url STRING, ip STRING COMMENT 'IP Address of user') COMMENT 'this is table' PARTITIONED BY(dt STRING,coun...(发布于2019-12-23 22:56:14)
hive总结,
hive总结, 1、数据库存储位置 1、默认存储路径:hdfs的/user/hive/warehouse 在hive-site.xml中由hive.metastore.warehouse.dir决定。 2、创建数据库时可以指定存储路径 create database myhive2 location '/myhiv...(发布于2019-12-23 22:56:10)
Hive数据类型,
Hive数据类型, 数据类型 Hive基本的数据类型: Hive集合数据类型: 另外还有一个复合数据类型,可以综合上面的数据类型组合到一起。 · union: UNIONTYPEdata_type,...(发布于2019-12-23 22:56:06)
Hive的基本数据类型,
Hive的基本数据类型, Hive的基本数据类型 复杂数据类型 Array 数组,每一列相同数据类型的元素组成 Map 集合 key-value Struct 结构 ,可以包含不同数据类型的元素,这些元素可以通过"点语法...(发布于2019-12-23 22:56:02)
Hive 入门,
Hive 入门, Hive官网 Hive概述 Hive 的底层执行引擎有 :MapReduce,Tez,Spark- Hive on MapReduce- Hive on Tez- Hive on spark 压缩:GZIP,LZO,Snappy,Bzip2...存储:Textfile,SequenceFile,RcFile,ORC,ParquetUDF:自定...(发布于2019-12-23 22:55:57)
HIVE的常用函数,
HIVE的常用函数, 1时间函数 from_unixtime(string/timestamp,pattern)返回的类型是bigint unix_timestamp(bigint,pattern)返回的是string 举个转换格式的例子,从格式yyyymmdd转换成yyyy-mm-dd的格式from_unixtime(u...(发布于2019-12-22 23:32:54)