欢迎投稿

今日深度:

Hadoop基本原理,

Hadoop基本原理,


Getting Started

Hadoop是一个用于海量数据统计分析的分布式计算框架,封装了分布式计算中比较困难的进程间通信、负载均衡,任务调度等模块,降低了学习门槛。在最简单的程序实现中,仅仅需要重写map和reduce方法,并实现任务提交逻辑。接下来,就让我们一起推开Hadoop的大门,走进大数据的神奇世界。

Hadoop的组成

Hadoop目前主要包括Hadoop1.x和hadoop2.x,两种版本差距较大,目前常用的是Hadoop2.x版本,所以主要基于Hadoop2.x进行讲解

主要组成模块

  • Hadoop Distributed File System(HDFS):分布式文件存储系统。
  • MapReduce:并行计算框架(可以自定义计算逻辑的部分)
  • Yet Another Resource Negotiator(YARN):另一种资源协调者(顾名思义,Hadoop1.x采用的不是这一个资源管理器)

MapReduce的工作机制


上图是MapReduce的工作原理,首先解释一下各个组成模块的作用。

为了便于理解,下面有一个并不是太恰当的比喻。类似一个学生宿舍的构成,RM相当于宿舍管理处的大BOSS,而Task则相当于一个学生,大BOSS(RM)负责分配一片区域给某个班(Job)的学生(Task)住,而具体每个学生(Task)住哪儿,则由班主任(AM)和楼管(NM)商量(当然一个班级的学生还是可以住在多个楼里边的)。

接下来具体解释图中每一步的作用:

www.htsjk.Com true http://www.htsjk.com/Hadoop/29269.html NewsArticle Hadoop基本原理, Getting Started Hadoop是一个用于海量数据统计分析的分布式计算框架,封装了分布式计算中比较困难的进程间通信、负载均衡,任务调度等模块,降低了学习门槛。在最简...
相关文章
    暂无相关文章
评论暂时关闭