欢迎投稿

今日深度:

Hive优化,

Hive优化, hive.optimize.cp=true:列裁剪 hive.optimize.prunner:分区裁剪 hive.limit.optimize.enable=true:优化LIMIT n语句 hive.limit.row.max.size=1000000: hive.limit.optimize.limit.file=10:最大文件数 1. 本地模式...(发布于2020-02-02 22:11:01)

hive学习笔记,

hive学习笔记, hive 对海量数据进行管理 简单来说hive是建立在hdfs上的数据仓库,并且对数据进行分析处理。 https://cwiki.apache.org/confluence/display/Hive/Home 特点 1.一种工具,通过sql访问hado...(发布于2020-02-02 22:10:57)

Hive基础知识,

Hive基础知识,     对于Hive一直都是听说,今天趁机正好学习,了解一下Hive到底是什么呢? 首先记住这三句话 Hive 不是 一个关系数据库 一个设计用于联机事务处理(OLTP) 实时查询和...(发布于2020-02-02 22:10:53)

hive bucket,

hive bucket, hive中table可以拆分成partition,table和partition可以通过‘CLUSTERED BY ’进一步分bucket,bucket中的数据可以通过‘SORT BY’排序。 bucket主要作用: 1. 数据sampling 2. 提升某些查询操作...(发布于2020-02-01 22:55:34)

Hive参数,

Hive参数, hive 参数、变量 hive当中的参数、变量,都是以命名空间开头 |命名空间 | 读写权限 | 含义 |hiveconf | 可读写 |hive-site.xml当中的各配置变量例:hive --hiveconf hive.cli.print.header=true...(发布于2020-02-01 22:55:30)

Hive环境安装,

Hive环境安装, Hive安装 1、到下载地址http://apache.fayea.com/hive/,下载apache-hive-1.2.1-bin.tar.gz,解压 tar -xzvf apache-hive-1.2.1-bin.tar.gz 2、配置环境变量, vi /etc/profile export HIVE_HOME=/home/liqqc/app/...(发布于2020-02-01 22:55:26)

Hive的严格模式,

Hive的严格模式, 在公司人员技术水平层次不齐的时候,很有必要开启严格模式! 情况有三: 对于分区表,除非where语句中含有分区字段过滤条件来限制范围,否则不允许执行。换句话...(发布于2020-02-01 22:55:22)

hive安装,

hive安装, Hive只在一个节点上安装即可 1.上传tar包 2.解压 tar -zxvf hive-0.9.0.tar.gz -C /cloud/ 3.安装mysql数据库(切换到root用户)(装在哪里没有限制,只有能联通hadoop集群的节点) mysql安装...(发布于2020-02-01 22:55:18)

Hive疑难杂症,

Hive疑难杂症, 1.Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient Logging initialized using configuration in jar:file:/home/hadoop/apps/hive/lib/hive-common-1.2.1.jar!/hive-log4j.propertiesException i...(发布于2020-02-01 22:55:14)

HIVE 数据模型,

HIVE 数据模型, 体系结构: 元数据 /HQL的执行 安装: 嵌入 /远程 /本地 管理: CLI /web界面 /远程服务 数据类型: 基本 /复杂 /时间 数据模型: 数据存储 /内部表 /分区表 /外部表 /桶表...(发布于2020-02-01 22:55:10)

Hive时间函数,

Hive时间函数, 天数 current_date 不是参数,只能取到当时真实的那天,所以如果要调度之前的日期,不可以用current_date,要把${date}转换成 ‘yyyy-MM-dd’ 的格式 ${date}与current_date的转换 u...(发布于2020-02-01 22:55:06)

hive安装,

hive安装, 三种模式 • 内嵌模式:元数据保持在内嵌的derby模式,只允许一个会话连接 • 本地独立模式:在本地安装Mysql,吧元数据放到mySql内 • 远程模式:元数据放置在远程的Mysq...(发布于2020-02-01 22:55:03)

hive报错,

hive报错, 楔子 记录hive报错信息 1 java.lang.NoClassDefFoundError: org/apache/hadoop/mapred/MRVersion 因为使用的是 CDH版本的hive,而hadoop 是 原生态 的。 解决办法 下载 hadoop-core-2.6.0-mr1-cdh5.7.0-2016021...(发布于2020-02-01 22:54:58)

hive基本操作,

hive基本操作, 启动hive   启动成功后, 配置的mysql数据库会创建一些表来保存元信息。(此时元信息表为空,因为还未创建表)    4. 创建表  create table test1(tid int, tname string); 此时表...(发布于2020-01-31 22:51:43)

Hive (一),

Hive (一), Hive 数据仓库,理解为hadoop的客户端,可以通过Hive来操作hadoop。Hive的功能是把脚本变成MapReduce程序,方便不熟悉MapReduce的开发者来分析数据。 数据存储 Hive的元素存储在关系...(发布于2020-01-31 22:51:39)

Hive常用函数,

Hive常用函数, 1.修改表:ALTER TABLE table_name SET TBLPROPERTIES('comment' = '这是表注释!'); 2.修改字段: ALTER TABLE table_name CHANGE COLUMN muid muid_new STRING COMMENT '这里是列注释!';  3.json字段解析(get_json...(发布于2020-01-31 22:51:35)

hive搭建,

hive搭建, 1.简单启动 hive下载官方包解压进入bin目录可以直接使用./hive进入客户端 2.元数据 这时创建数据库与表,(没有配置元数据,元数据使用默认的derby内嵌的方式),会在当前目录下创...(发布于2020-01-31 22:51:31)

Hive调优,

Hive调优, Hive存储格式选择 和Hive 相关优化: 压缩参考 Hive支持的存储数的格式主要有:TEXTFILE 、SEQUENCEFILE、ORC、PARQUET。 文件存储格式 列式存储和行式存储 行存储的特点:查询满足条...(发布于2020-01-31 22:51:26)

Hive简介,

Hive简介, Hive最初是应Facebook每天产生的海量新兴社会网络数据进行管理和机器学习的需求而产生和发展的 是建立在Hadoop上的数据仓库基础架构 作为Hadoop的一个数据仓库工具,Hive可以...(发布于2020-01-31 22:51:23)

hive参数,

hive参数, $HIVE_HOME/bin/Hive是一个shell工具,它可以用来运行于交互或者批处理方式配置单元查询,语法如下: 1. -i filename 执行脚本文件filename, 会在终端上显示mapreduce的进度,执行完毕...(发布于2020-01-31 22:51:19)