《Hadoop权威指南》，

和通数据库htsjk.Com2019-11-30 21:49 来源:未知阅读:3821 评论 11 热度4

标签：

《Hadoop权威指南》，

Hadoop 因MapReduce 及其分布式文件系统(HDFS ，由NDFS 改名而来)而出名

但Hadoop 这个名字也用于一组相关项目的统称，这些相关项目都使用这个基础平台进行分布式计算和海量数据处理。

本书所提到的Hadoop 项目简述如下：

Common一组分布式文件系统和通用I10 的组件与接口(序列化、Java RPC 和持久化数据结构)。

Avro一种支持高效、跨语言的RPC 以及永久存储数据的序列化系统。
MapReduce分布式数据处理模型和执行环境，运行于大型商用机集群。
HDFS分布式文件系统，运行于大型商用机集群。
Pig一种数据流语言和运行环境，用以检索非常大的数据集。Pig 运行在MapReduce 和HDFS 的集群上。
Hive一个分布式、按列存储的数据仓库。Hive 管理HDFS 中存储的数据，并提供基于SQL 的查询语言(由运行时引擎翻译成MapReduce 作业)用以查询数据。
HBase一个分布式、按列存储数据库。HBase 使用HDFS 作为底层存储，同时支持MapReduce 的批量式计算和点查询(随机读取)。
ZooKeeper一个分布式、可用性高的协调服务。ZooKeeper 提供分布式锁之类的基本服务用于构建分布式应用。
Sqoop在数据库和HDFS 之间高效传输数据的工具。