Hadoop技术内幕之Hadoop基本结构，

和通数据库htsjk.Com2019-12-13 21:49 来源:未知阅读:7885 评论 281 热度4

标签：

Hadoop技术内幕之Hadoop基本结构，

Hadoop基本结构

Hadoop 由两部分组成，分别是分布式文件系统和分布式计算框架 MapReduce。
分布式文件系统主要用于大规模数据的分布式存储，而 MapReduce 则构建在分布式文件系
统之上，对存储在分布式文件系统中的数据进行分布式计算。

HDFS结构

HDFS 是一个具有高度容错性的分布式文件系统，适合部署在廉价的机器上。 HDFS 能
提供高吞吐量的数据访问，非常适合大规模数据集上的应用。

总体上采用了 master/slave 架构，主要由以下几个组件组成：Client、NameNode、 Secondary NameNode(在Hadoop 0.21.0中，SecondaryNameNode 被Checkpoint Node代替) 和 DataNode。

Hadoop MapReduce结构

也采用Mater/Slave结构。它主要由以下几个组件组成： Client、 JobTracker、 TaskTracker 和 Task。

Map Task 先将对应的 split 迭代解析成一个个 key/value 对，依次调用用户自定义的 map() 函数进行处理，最终将临时结果存放到本地磁盘上，其中临时数据被分成若干个 partition，每个 partition 将被一个 Reduce Task 处理。

该过程分为三个阶段
①从远程节点上读取 MapTask 中间结果（称为“Shuffle 阶段” ）； ②按照 key 对 key/value 对进行排序（称为“Sort 阶段” ）；
③依次读取 <key, value list>，调用用户自定义的 reduce() 函数处理，并将最终结果存到 HDFS 上（称为“Reduce 阶段” ）。