Hadoop技术内幕之Hadoop基本结构,
Hadoop基本结构
Hadoop 由两部分组成, 分别是分布式文件系统和分布式计算框架 MapReduce。
分布式文件系统主要用于大规模数据的分布式存储, 而 MapReduce 则构建在分布式文件系
统之上, 对存储在分布式文件系统中的数据进行分布式计算。
HDFS结构
HDFS 是一个具有高度容错性的分布式文件系统, 适合部署在廉价的机器上。 HDFS 能
提供高吞吐量的数据访问, 非常适合大规模数据集上的应用。
总体上采用了 master/slave 架构, 主要由以下几个组件组成 :Client、NameNode、 Secondary NameNode(在Hadoop 0.21.0中,SecondaryNameNode 被Checkpoint Node代替) 和 DataNode。
Hadoop MapReduce结构
也采用Mater/Slave结构。它主要由以下几个组件组成 : Client、 JobTracker、 TaskTracker 和 Task。
Map Task 先将对应的 split 迭代解析成一个个 key/value 对, 依次调用用户自定义的 map() 函数进行处理, 最终将临时结果存放到本地磁盘上, 其中临时数据被分成若干个 partition, 每个 partition 将被一个 Reduce Task 处理。
该过程分为三个阶段
①从远程节点上读取 MapTask 中间结果( 称为“Shuffle 阶段” ); ②按照 key 对 key/value 对进行排序( 称为“Sort 阶段” ) ;
③依次读取 <key, value list>, 调用用户自定义的 reduce() 函数处理, 并将最终结果存到 HDFS 上( 称为“Reduce 阶段” )。
本站文章为和通数据库网友分享或者投稿,欢迎任何形式的转载,但请务必注明出处.
同时文章内容如有侵犯了您的权益,请联系QQ:970679559,我们会在尽快处理。