欢迎投稿

今日深度:

Hive(入门),

Hive(入门),


复习Hadoop
1) Hadoop是什么
存储  HDFS
计算  MapReduce
资源调度  YARN


2) HDFS的访问方式
Shell CLI : hadoop/hdfs fs ....
Java API : FileSystem
Web UI : HUE/Hadoop自带UI
 
3) Hadoop的常用操作
HDFS: mkdir put get rm mv ...
Q: copy vs mv 
MR: mr的执行流程(一定要掌握的)
YARN:mr作业跑在yarn之上,杀死yarn上的作业,提交的时候指定一些重要的参数
 
 
Q: 让你们使用mapreduce来实现join、mapjoin的功能
   ==> 非常繁琐
       wordcount
 
一点:MR是非常麻烦的 
 
 
Hive的产生背景 
1) MR编程不便性
2) 传统RDBMS人员的需要 
HDFS上面的文件就是普通的文件,它并没有schema的概念
schema: RDBMS中的表结构
people.txt  <==  id  name age  address
sql ===>  搞定海量数据的统计分析


==> Hive



 
Hive 
distributed storage: HDFS/S3
Q: HDFS存的是近期的数据
1min:几百G
冷数据: 定期的移走S3   table的location指向s3
Facebook  解决海量结构化日志数据的统计文件
构建在Hadoop之上的数据仓库
数据存储在HDFS之上
计算是使用MR
弹性:线性扩展
Hive底层的执行引擎:MapReduce、Tez、Spark
Hive定义一种类SQL的查询语言: HQL
Q: HQL和SQL的关系:毛线都没有,只是语法类似
很多的SQL on Hadoop的语法都是和RDBMS非常类似的
Hive常用于:离线批处理
SQL ==> MR :把SQL语句翻译成MapReduce作业,并提交到YARN上运行
Q:是否智能、执行计划(sql是如何翻译成mr作业,打死都要知道!!!)
    
高级:UDF   一般不用,一般用scala自己开发 
 
Hive的优化 线下班要求:必要要源源不断20分钟..从数据倾斜,压缩文件格式之类 !!!!!!!!!!!!!!!!!


Stinger Plan
Phase 1  0.11  ORC HiveServer2
Phase 2  0.12  ORC improvement
Phase 3  0.13  Vectorized query engine & Tez
Stinger.next Phase 1  0.14  CBO    


CBO?????  


为什么要使用Hive
1) 简单易用
2) 弹性
3) 统一的元数据管理
元数据存放在哪里呢? metadata  mysql
Q: Hive的数据存放在哪里
统一:SQL on Hadoop都是能够共享的
Hive/Impala/Spark SQL/Presto
  就是再Hive创建了一张表,可以在Impala/Spark SQL/Presto的架构上使用,很方便移植
 
 
Hive体系架构
ODBC???


Hive部署架构 
 




Hive VS RDBMS 
Hive的缺点 
 
Hive环境搭建 
wget http://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0.tar.gz


tar -zxvf hive-1.1.0-cdh5.7.0.tar.gz -C ~/app

hadoop/hadoop
~
app
software
source

1) 添加HIVE_HOME到系统环境变量
mvn clean package -Pdist


export HIVE_HOME=/home/hadoop/app/hive-1.1.0-cdh5.7.0
export PATH=$HIVE_HOME/bin:$PATH

2) Hive配置修改
hive-env.sh
HADOOP_HOME=/home/hadoop/app/hadoop-2.6.0-cdh5.7.0

hive-site.xml   统一元数据管理
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>


<configuration>
<property>
  <name>javax.jdo.option.ConnectionURL</name>
    <value>jdbc:mysql://localhost:3306/ruozedata_basic02?createDatabaseIfNotExist=true</value>
    </property>
    <property>
      <name>javax.jdo.option.ConnectionDriverName</name>
        <value>com.mysql.jdbc.Driver</value>
        </property>


<property>
  <name>javax.jdo.option.ConnectionUserName</name>
    <value>root</value>
    </property>


<property>
  <name>javax.jdo.option.ConnectionPassword</name>
    <value>root</value>
    </property>
</configuration>

3) 拷贝mysql驱动包到$HIVE_HOME/lib

The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPATH. 
Please check your CLASSPATH specification, 
and the name of the driver.


4) 权限问题
 
创建表失败
FAILED: Execution Error, 
return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. 
MetaException(message:For direct MetaStore DB 
connections, we don't support retries at the client 
level.)




思路:找日志 
日志在哪里: $HIVE_HOME/conf/hive-log4j.properties.template


hive.log.dir=${java.io.tmpdir}/${user.name}
hive.log.file=hive.log


能不能改?如何改?




ERROR [main]: Datastore.Schema (Log4JLogger.java:error(115)) - An exception was thrown while adding/validating class(es) : 
Specified key was too long; max key length is 767 bytes
com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: Specified key was too long; max key length is 767 bytes 
 


 
 
作业
1) 下载Hive的源码:hive-1.1.0-cdh5.7.0-src.tar.gz
编译出来Hive的安装包,并部署Hive
2) 使用hive完成wordcount统计



create table helloworld (id int,name string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';
alter database ruozedata_basic02 character set latin1;

 
 
 

www.htsjk.Com true http://www.htsjk.com/hive/40577.html NewsArticle Hive(入门), 复习Hadoop 1) Hadoop是什么 存储  HDFS 计算  MapReduce 资源调度  YARN 2) HDFS的访问方式 Shell CLI : hadoop/hdfs fs .... Java API : FileSystem Web UI : HUE/Hadoop自带UI   3) Hadoop的常用操作 HDFS:...
相关文章
    暂无相关文章
评论暂时关闭