欢迎投稿

今日深度:

Hadoop技术内幕之Hadoop基本结构,

Hadoop技术内幕之Hadoop基本结构,


Hadoop基本结构

Hadoop 由两部分组成, 分别是分布式文件系统和分布式计算框架 MapReduce。
分布式文件系统主要用于大规模数据的分布式存储, 而 MapReduce 则构建在分布式文件系
统之上, 对存储在分布式文件系统中的数据进行分布式计算。

HDFS结构

HDFS 是一个具有高度容错性的分布式文件系统, 适合部署在廉价的机器上。 HDFS 能
提供高吞吐量的数据访问, 非常适合大规模数据集上的应用。

总体上采用了 master/slave 架构, 主要由以下几个组件组成 :ClientNameNodeSecondary NameNode(在Hadoop 0.21.0中,SecondaryNameNodeCheckpoint Node代替) 和 DataNode

Hadoop MapReduce结构

也采用Mater/Slave结构。它主要由以下几个组件组成 : Client、 JobTracker、 TaskTracker 和 Task。

Map Task 先将对应的 split 迭代解析成一个个 key/value 对, 依次调用用户自定义的 map() 函数进行处理, 最终将临时结果存放到本地磁盘上, 其中临时数据被分成若干个 partition, 每个 partition 将被一个 Reduce Task 处理。

该过程分为三个阶段
①从远程节点上读取 MapTask 中间结果( 称为“Shuffle 阶段” ); ②按照 key 对 key/value 对进行排序( 称为“Sort 阶段” ) ;
③依次读取 <key, value list>, 调用用户自定义的 reduce() 函数处理, 并将最终结果存到 HDFS 上( 称为“Reduce 阶段” )。

www.htsjk.Com true http://www.htsjk.com/Hadoop/39973.html NewsArticle Hadoop技术内幕之Hadoop基本结构, Hadoop基本结构 Hadoop 由两部分组成, 分别是分布式文件系统和分布式计算框架 MapReduce。 分布式文件系统主要用于大规模数据的分布式存储, 而 MapRedu...
相关文章
    暂无相关文章
评论暂时关闭