欢迎投稿

今日深度:

Hive初识,

Hive初识,


背景

mapreduce编程的不变性,开发成本较高。比较死板。

  • MapReduce is hard to program

【八股文】格式编程,三大部分

  • No Schema, lack of query lanaguages, eg. SQL(没有库,缺乏查询语言slq等)

数据分析,针对DBA、SQL语句,如何对数据分析
MapReduce编程成本高
FaceBook 实现并开源Hive

如何简化MapReduce的开发???

700

hive介绍

hive把HDFS、yarn、MapReduce封装了。数据存储在hdfs、转换为MapReduce、运行在yarn上。hive是一个数据仓库。

什么是HIVE?

  • 由Facebook开源用于解决海量结构化日志的数据统计;

  • Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一张表,并提供类SQL查询功能;

  • 构建在Hadoop之上的数据仓库;
    使用HQL作为查询接口;
    使用HDFS存储;
    使用MapReduce计算;

  • 本质是:将HQL转化成MapReduce程序

  • 灵活性和扩展性比较好:支持UDF,自定义存储格式等;

  • 适合离线数据处理;

  • HQL的核心是Engine。引擎的作用是把HQL转换为mapreduce

HIVE在hadoop生态中的位置

700

www.htsjk.Com true http://www.htsjk.com/hive/11018.html NewsArticle Hive初识, 背景 mapreduce编程的不变性,开发成本较高。比较死板。 MapReduce is hard to program 【八股文】格式编程,三大部分 No Schema, lack of query lanaguages, eg. SQL(没有库,缺乏查询语言slq等...
评论暂时关闭