欢迎投稿

今日深度:

Hive简介,

Hive简介,


Hive

什么是Hive

  • Hive是建立在Hadoop HDFS之上的数据仓库基础架构(开源)
  • Hive可以用来进行数据提取转化加载(ETL)
  • Hive定义了简单的类似SQL查询语言,成为HQL,它允许熟悉SQL的用户查询数据
  • Hive允许熟悉MapReduce开发者的开发自定义的mapper和reducer来处理内建的mapper和reducer无法完成的复杂的分析工作
  • Hive是SQL解释引擎,他将SQL语句转移成M/R Job,然后在Hadoop执行
  • Hive的表其实就是HDFS的目录/文件

数据仓库就是数据库,也就是说我们可以用数据仓库来保存数据

数据仓库是一个面向主题的、集成不可更新的、随时间不变化的数据集合,它用于支持企业或组织的决策分析处理

数据仓库的结构和建立过程

OLTP应用与OLAP

OLTP(OnLine Transition Procession)联机事务处理,关注焦点是事务处理,例:银行转帐
OLAP(OnLine Analysis Processing)联机分析处理,最典型应用是商品推荐系统,基于历史数据进行分析挖掘然后提供给别的系统进行使用。主要面向查询,一般不进行更新或者删除或者插入操作,因为里面数据都属于历史数据

数据仓库中的数据模型

Hive的体系结构

  • Hadoop
    • 用HDFS进行存储,利用MapReduce进行计算
  • Hive的元数据
    • Hive将元数据存储在数据库中(metastore),支持mysql,derby等数据库
    • Hive中的元数据包括表的名字,表的咧和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等

一条HQL语句如何在hive中进行查询

  • 解释器、编译器、优化器完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划(Plan)的生成。生成的查寻计划存储在HDFS中,并在随后有MapReduce调用执行

www.htsjk.Com true http://www.htsjk.com/hive/38090.html NewsArticle Hive简介, Hive 什么是Hive Hive是建立在Hadoop HDFS之上的 数据仓库 基础架构(开源) Hive可以用来进行数据提取转化加载(ETL) Hive定义了简单的类似SQL查询语言,成为HQL,它允许熟悉SQL的用...
相关文章
    暂无相关文章
评论暂时关闭