大数据(七) --Hadoop简介，数据--hadoop简介

和通数据库htsjk.Com2019-06-04 21:56 来源:未知阅读:14872 评论 285 热度5

标签：

大数据(七) --Hadoop简介，数据--hadoop简介

Hadoop生态圈

What is Hadoop?

Hadoop思想来源
Hadoop的历史

三大发行版本
Hadoop的优势
Hadoop的组成

Hadoop1.*和2.*的区别
Hadoop组成

HDFS
Yarn
MapReduce

大数据技术生态体系

What is Hadoop?

Hadoop思想来源

Google是Hadoop思想和技术的来源. 具体来说就是Hadoop的" 三驾马车" --Google 发布的三篇技术思想论文:

The Google File System
MapReduce_Simplified Data Processing on Large Clusters
Bigtable_A Distributed Storage System for Structured Data

Hadoop的历史

Hadoop作者Doug Cutting , 他在Yahoo就职期间开发了Hadoop项目. 2003-2004年, Google公开GFS和MapReduce思想细节后, Doug Cutting等人以此为基础利用业余时间实现DFS和MapReduce机制. Hadoop名字的来源是Doug儿子的大象玩具.

2005年Hadoop作为Lucene的子项目Nutch的一部分被正式引入Apache基金会. 06年MapReduce和Nutch Distributed File System(NDFS)被纳入Hadoop项目.

至此, Hadoop作为一个分布式系统基础架构由Apache基金会所开发并以开源的形式提供给开发者. 主要用来解决海量数据的存储和计算处理.

广义上来讲, Hadoop一般指Hadoop生态圈, 圈中有如下图众多的技术:

三大发行版本

Hadoop的优势

Hadoop的组成

Hadoop1.和2.的区别

Hadoop1.*的组成

Hadoop2.*的组成

从这两幅图中可以看出, 1.*的版本中, MapReduce除了负责计算之外, 还要对系统资源进行调度, 包括CPU, 内存, 磁盘等. 因此, MapReduce负责的功能太多太复杂, 容易出现问题, 耦合性较大.

于是2.*版本中, 将资源调度模块从MapReduce中抽离, 让它成为单独的一个模块, 实现该模块功能的工具就是Yarn. Yarn的出现, 成功让MapReduce功能解耦, 更加模块化

Hadoop组成

HDFS

NameNode
- 接受客户端读写请求
- 管理元数据
- 管理DataNode
DataNode
- 接受客户端读请求
- 存储源数据
- 向NameNode汇报心跳
- 构建PipeLine
- 管理本机上Block块的元数据
SecondaryNameNode
- 持久化元数据

Yarn

ResourceManager
- 处理客户端请求
- 监控NodeManager
- 启动并监控ApplicationMaster
- 资源调度与分配
NodeManager
- 管理单节点上的资源
- 处理来自RM的命令
- 处理来自ApplicationMaster的命令
ApplicationMaster
- 辅助数据切分
- 申请程序资源并分配给内部任务
- 任务监控与容错
Container
- Yarn中的资源抽象, 它封装了某个节点上多维度资源, 例如: 内存, CPU, 磁盘, 网络等.

MapReduce

MapReduce将计算分两个阶段, Map和Reduce.