Hadoop基本原理，

和通数据库htsjk.Com2019-07-20 21:53 来源:未知阅读:9368 评论 327 热度4

标签：

Hadoop基本原理，

Getting Started

Hadoop是一个用于海量数据统计分析的分布式计算框架，封装了分布式计算中比较困难的进程间通信、负载均衡，任务调度等模块，降低了学习门槛。在最简单的程序实现中，仅仅需要重写map和reduce方法，并实现任务提交逻辑。接下来，就让我们一起推开Hadoop的大门，走进大数据的神奇世界。

Hadoop的组成

Hadoop目前主要包括Hadoop1.x和hadoop2.x，两种版本差距较大，目前常用的是Hadoop2.x版本，所以主要基于Hadoop2.x进行讲解

主要组成模块

Hadoop Distributed File System（HDFS）：分布式文件存储系统。
MapReduce：并行计算框架（可以自定义计算逻辑的部分）
Yet Another Resource Negotiator（YARN）：另一种资源协调者（顾名思义，Hadoop1.x采用的不是这一个资源管理器）

MapReduce的工作机制

上图是MapReduce的工作原理，首先解释一下各个组成模块的作用。

为了便于理解，下面有一个并不是太恰当的比喻。类似一个学生宿舍的构成，RM相当于宿舍管理处的大BOSS，而Task则相当于一个学生，大BOSS（RM）负责分配一片区域给某个班（Job）的学生（Task）住，而具体每个学生（Task）住哪儿，则由班主任（AM）和楼管（NM）商量（当然一个班级的学生还是可以住在多个楼里边的）。

接下来具体解释图中每一步的作用：