Hive(入门),
复习Hadoop1) Hadoop是什么
存储 HDFS
计算 MapReduce
资源调度 YARN
2) HDFS的访问方式
Shell CLI : hadoop/hdfs fs ....
Java API : FileSystem
Web UI : HUE/Hadoop自带UI
3) Hadoop的常用操作
HDFS: mkdir put get rm mv ...
Q: copy vs mv
MR: mr的执行流程(一定要掌握的)
YARN:mr作业跑在yarn之上,杀死yarn上的作业,提交的时候指定一些重要的参数
Q: 让你们使用mapreduce来实现join、mapjoin的功能
==> 非常繁琐
wordcount
一点:MR是非常麻烦的
Hive的产生背景
1) MR编程不便性
2) 传统RDBMS人员的需要
HDFS上面的文件就是普通的文件,它并没有schema的概念
schema: RDBMS中的表结构
people.txt <== id name age address
sql ===> 搞定海量数据的统计分析
==> Hive
Hive
distributed storage: HDFS/S3
Q: HDFS存的是近期的数据
1min:几百G
冷数据: 定期的移走S3 table的location指向s3
Facebook 解决海量结构化日志数据的统计文件
构建在Hadoop之上的数据仓库
数据存储在HDFS之上
计算是使用MR
弹性:线性扩展
Hive底层的执行引擎:MapReduce、Tez、Spark
Hive定义一种类SQL的查询语言: HQL
Q: HQL和SQL的关系:毛线都没有,只是语法类似
很多的SQL on Hadoop的语法都是和RDBMS非常类似的
Hive常用于:离线批处理
SQL ==> MR :把SQL语句翻译成MapReduce作业,并提交到YARN上运行
Q:是否智能、执行计划(sql是如何翻译成mr作业,打死都要知道!!!)
高级:UDF 一般不用,一般用scala自己开发
Hive的优化 线下班要求:必要要源源不断20分钟..从数据倾斜,压缩文件格式之类 !!!!!!!!!!!!!!!!!
Stinger Plan
Phase 1 0.11 ORC HiveServer2
Phase 2 0.12 ORC improvement
Phase 3 0.13 Vectorized query engine & Tez
Stinger.next Phase 1 0.14 CBO
CBO?????
为什么要使用Hive
1) 简单易用
2) 弹性
3) 统一的元数据管理
元数据存放在哪里呢? metadata mysql
Q: Hive的数据存放在哪里
统一:SQL on Hadoop都是能够共享的
Hive/Impala/Spark SQL/Presto
就是再Hive创建了一张表,可以在Impala/Spark SQL/Presto的架构上使用,很方便移植
Hive体系架构
ODBC???
Hive部署架构
Hive VS RDBMS
Hive的缺点
Hive环境搭建
wget http://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0.tar.gz
tar -zxvf hive-1.1.0-cdh5.7.0.tar.gz -C ~/app
hadoop/hadoop
~
app
software
source
1) 添加HIVE_HOME到系统环境变量
mvn clean package -Pdist
export HIVE_HOME=/home/hadoop/app/hive-1.1.0-cdh5.7.0
export PATH=$HIVE_HOME/bin:$PATH
2) Hive配置修改
hive-env.sh
HADOOP_HOME=/home/hadoop/app/hadoop-2.6.0-cdh5.7.0
hive-site.xml 统一元数据管理
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://localhost:3306/ruozedata_basic02?createDatabaseIfNotExist=true</value>
</property>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>root</value>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>root</value>
</property>
</configuration>
3) 拷贝mysql驱动包到$HIVE_HOME/lib
The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPATH.
Please check your CLASSPATH specification,
and the name of the driver.
4) 权限问题
创建表失败
FAILED: Execution Error,
return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask.
MetaException(message:For direct MetaStore DB
connections, we don't support retries at the client
level.)
思路:找日志
日志在哪里: $HIVE_HOME/conf/hive-log4j.properties.template
hive.log.dir=${java.io.tmpdir}/${user.name}
hive.log.file=hive.log
能不能改?如何改?
ERROR [main]: Datastore.Schema (Log4JLogger.java:error(115)) - An exception was thrown while adding/validating class(es) :
Specified key was too long; max key length is 767 bytes
com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: Specified key was too long; max key length is 767 bytes
作业
1) 下载Hive的源码:hive-1.1.0-cdh5.7.0-src.tar.gz
编译出来Hive的安装包,并部署Hive
2) 使用hive完成wordcount统计
create table helloworld (id int,name string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';
alter database ruozedata_basic02 character set latin1;
本站文章为和通数据库网友分享或者投稿,欢迎任何形式的转载,但请务必注明出处.
同时文章内容如有侵犯了您的权益,请联系QQ:970679559,我们会在尽快处理。