初始Hive —— 深入浅出学Hive,
第一部分:Hive简介 什么是Hive •Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 •本质是将SQL转换为MapReduce程序 第二部分:为什么使用Hive 面临的问题 人员学习成本太高 项目周期要求太短 我只是需要一个简单的环境 MapReduce 如何搞定 复杂查询好难 Join如何实现 为什么要使用Hive •操作接口采用类SQL语法,提供快速开发的能力 •避免了去写MapReduce,减少开发人员的学习成本 •扩展功能很方便 Hive的特点 •可扩展 Hive可以自由的扩展集群的规模,一般情况下不需要重启服务 •延展性 Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数 •容错 良好的容错性,节点出现问题SQL仍可完成执行 第三部分:Hive与Hadoop的关系 第四部分:Hive与传统数据库对比
|
|
Hive | RDBMS |
| 查询语言 | HQL | SQL |
| 数据存储 | HDFS | Raw Device or Local FS |
| 执行 | MapReduce | Excutor |
| 执行延迟 | 高 | 低 |
| 处理数据规模 | 大 | 小 |
| 索引 | 0.8版本后加入位图索引 | 有复杂的索引 |
转载自 http://sishuok.com/forum/blogPost/list/6220.html
本站文章为和通数据库网友分享或者投稿,欢迎任何形式的转载,但请务必注明出处.
同时文章内容如有侵犯了您的权益,请联系QQ:970679559,我们会在尽快处理。