Hive(入门)，

和通数据库htsjk.Com2019-12-28 23:00 来源:未知阅读:13604 评论 284 热度3

标签：

Hive(入门)，

复习Hadoop
1) Hadoop是什么
存储 HDFS
计算 MapReduce
资源调度 YARN

2) HDFS的访问方式
Shell CLI : hadoop/hdfs fs ....
Java API : FileSystem
Web UI : HUE/Hadoop自带UI

3) Hadoop的常用操作
HDFS: mkdir put get rm mv ...
Q: copy vs mv
MR: mr的执行流程(一定要掌握的)
YARN：mr作业跑在yarn之上，杀死yarn上的作业，提交的时候指定一些重要的参数

Q: 让你们使用mapreduce来实现join、mapjoin的功能
==> 非常繁琐
wordcount

一点：MR是非常麻烦的

Hive的产生背景
1) MR编程不便性
2) 传统RDBMS人员的需要
HDFS上面的文件就是普通的文件，它并没有schema的概念
schema: RDBMS中的表结构
people.txt <== id name age address
sql ===> 搞定海量数据的统计分析

==> Hive

Hive
distributed storage： HDFS/S3
Q: HDFS存的是近期的数据
1min：几百G
冷数据: 定期的移走S3 table的location指向s3
Facebook 解决海量结构化日志数据的统计文件
构建在Hadoop之上的数据仓库
数据存储在HDFS之上
计算是使用MR
弹性：线性扩展
Hive底层的执行引擎：MapReduce、Tez、Spark
Hive定义一种类SQL的查询语言: HQL
Q: HQL和SQL的关系：毛线都没有，只是语法类似
很多的SQL on Hadoop的语法都是和RDBMS非常类似的
Hive常用于：离线批处理
SQL ==> MR ：把SQL语句翻译成MapReduce作业，并提交到YARN上运行
Q：是否智能、执行计划(sql是如何翻译成mr作业,打死都要知道!!!)

高级：UDF 一般不用,一般用scala自己开发

Hive的优化线下班要求:必要要源源不断20分钟..从数据倾斜,压缩文件格式之类 !!!!!!!!!!!!!!!!!

Stinger Plan
Phase 1 0.11 ORC HiveServer2
Phase 2 0.12 ORC improvement
Phase 3 0.13 Vectorized query engine & Tez
Stinger.next Phase 1 0.14 CBO

CBO?????

为什么要使用Hive
1) 简单易用
2) 弹性
3) 统一的元数据管理
元数据存放在哪里呢? metadata mysql
Q: Hive的数据存放在哪里
统一：SQL on Hadoop都是能够共享的
Hive/Impala/Spark SQL/Presto
就是再Hive创建了一张表,可以在Impala/Spark SQL/Presto的架构上使用,很方便移植

Hive体系架构
ODBC???

Hive部署架构

Hive VS RDBMS
Hive的缺点

Hive环境搭建
wget http://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0.tar.gz

tar -zxvf hive-1.1.0-cdh5.7.0.tar.gz -C ~/app

hadoop/hadoop
~
app
software
source

1) 添加HIVE_HOME到系统环境变量
mvn clean package -Pdist

export HIVE_HOME=/home/hadoop/app/hive-1.1.0-cdh5.7.0
export PATH=$HIVE_HOME/bin:$PATH

2) Hive配置修改
hive-env.sh
HADOOP_HOME=/home/hadoop/app/hadoop-2.6.0-cdh5.7.0

hive-site.xml 统一元数据管理
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://localhost:3306/ruozedata_basic02?createDatabaseIfNotExist=true</value>
</property>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
</property>

<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>root</value>
</property>

<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>root</value>
</property>
</configuration>

3) 拷贝mysql驱动包到$HIVE_HOME/lib

The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPATH.
Please check your CLASSPATH specification,
and the name of the driver.

4) 权限问题

创建表失败
FAILED: Execution Error,
return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask.
MetaException(message:For direct MetaStore DB
connections, we don't support retries at the client
level.)

思路：找日志
日志在哪里： $HIVE_HOME/conf/hive-log4j.properties.template

hive.log.dir=${java.io.tmpdir}/${user.name}
hive.log.file=hive.log

能不能改？如何改？

ERROR [main]: Datastore.Schema (Log4JLogger.java:error(115)) - An exception was thrown while adding/validating class(es) :
Specified key was too long; max key length is 767 bytes
com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: Specified key was too long; max key length is 767 bytes

作业
1) 下载Hive的源码：hive-1.1.0-cdh5.7.0-src.tar.gz
编译出来Hive的安装包，并部署Hive
2) 使用hive完成wordcount统计

create table helloworld (id int,name string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';
alter database ruozedata_basic02 character set latin1;