大数据(七) --Hadoop简介,数据--hadoop简介
Hadoop生态圈
- What is Hadoop?
- Hadoop思想来源
- Hadoop的历史
- 三大发行版本
- Hadoop的优势
- Hadoop的组成
- Hadoop1.*和2.*的区别
- Hadoop组成
- HDFS
- Yarn
- MapReduce
- 大数据技术生态体系
What is Hadoop?
Hadoop思想来源
Google是Hadoop思想和技术的来源. 具体来说就是Hadoop的" 三驾马车" --Google 发布的三篇技术思想论文:
- The Google File System
- MapReduce_Simplified Data Processing on Large Clusters
- Bigtable_A Distributed Storage System for Structured Data
Hadoop的历史
Hadoop作者Doug Cutting , 他在Yahoo就职期间开发了Hadoop项目. 2003-2004年, Google公开GFS和MapReduce思想细节后, Doug Cutting等人以此为基础利用业余时间实现DFS和MapReduce机制. Hadoop名字的来源是Doug儿子的大象玩具.
2005年Hadoop作为Lucene的子项目Nutch的一部分被正式引入Apache基金会. 06年MapReduce和Nutch Distributed File System(NDFS)被纳入Hadoop项目.
至此, Hadoop作为一个分布式系统基础架构由Apache基金会所开发并以开源的形式提供给开发者. 主要用来解决海量数据的存储和计算处理.
广义上来讲, Hadoop一般指Hadoop生态圈, 圈中有如下图众多的技术:
三大发行版本
Hadoop的优势
Hadoop的组成
Hadoop1.*和2.*的区别
Hadoop1.*的组成
Hadoop2.*的组成
从这两幅图中可以看出, 1.*的版本中, MapReduce除了负责计算之外, 还要对系统资源进行调度, 包括CPU, 内存, 磁盘等. 因此, MapReduce负责的功能太多太复杂, 容易出现问题, 耦合性较大.
于是2.*版本中, 将资源调度模块从MapReduce中抽离, 让它成为单独的一个模块, 实现该模块功能的工具就是Yarn. Yarn的出现, 成功让MapReduce功能解耦, 更加模块化
Hadoop组成
HDFS
- NameNode
- 接受客户端读写请求
- 管理元数据
- 管理DataNode
- DataNode
- 接受客户端读请求
- 存储源数据
- 向NameNode汇报心跳
- 构建PipeLine
- 管理本机上Block块的元数据
- SecondaryNameNode
- 持久化元数据
Yarn
- ResourceManager
- 处理客户端请求
- 监控NodeManager
- 启动并监控ApplicationMaster
- 资源调度与分配
- NodeManager
- 管理单节点上的资源
- 处理来自RM的命令
- 处理来自ApplicationMaster的命令
- ApplicationMaster
- 辅助数据切分
- 申请程序资源并分配给内部任务
- 任务监控与容错
- Container
- Yarn中的资源抽象, 它封装了某个节点上多维度资源, 例如: 内存, CPU, 磁盘, 网络等.
MapReduce
MapReduce将计算分两个阶段, Map和Reduce.
大数据技术生态体系
本站文章为和通数据库网友分享或者投稿,欢迎任何形式的转载,但请务必注明出处.
同时文章内容如有侵犯了您的权益,请联系QQ:970679559,我们会在尽快处理。