HADOOP:Hadoop生态系统,
主要针对hadoop 2.x
Hadoop是什么 ?
Hadoop是一个开源框架(平台),能够对大量数据进行分布式处理。 Hadoop框架的核心是HDFS和MapReduce,YARN(Yet Another Resource Negotiator)。其中 HDFS 是分布式文件系统,MapReduce 是分布式数据处理模型和执行环境,YARN是分布式执行框架。
下面是hadoop2.x的生态系统图。
目前Hadoop项目主要包括四个模块
Hadoop Common: 提供对其他模块的支持
Hadoop Distributed File System (HDFS):高吞吐量的分布式文件系统
Hadoop YARN: 任务调度和资源管理的一个框架
Hadoop MapReduce: 并行计算模型
一些有关的项目
HDFS(Hadoop分布式文件系统)
HDFS(Distributed File System)是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行。HDFS简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。
Client:切分文件;访问HDFS;与NameNode交互,获取文件位置信息;与DataNode交互,读取和写入数据。
NameNode:Master节点,在hadoop1.X中只有一个,管理HDFS的名称空间和数据块映射信息,配置副本策略,处理客户端请求。
DataNode:Slave节点,存储实际的数据,汇报存储信息给NameNode。
Secondary NameNode:辅助NameNode,分担其工作量;定期合并fsimage和fsedits,推送给NameNode;紧急情况下,可辅助恢复NameNode,但SecondaryNameNode并非NameNode的热备。
HDFS具有如下特点:
1 良好的扩展性
2 高容错性
3 适合PB级以上海量数据的存储
HDFS的基本原理
1 将文件切分成等大的数据块,存储到多台机器上
2 将数据切分、容错、负载均衡等功能透明化
3 可将HDFS看成容量巨大、具有高容错性的磁盘
HDFS的应用场景
1 海量数据的可靠性存储
2 数据归档
HDFS的详细信息可参考官网,这里只是做一个简单的印象介绍
http://hadoop.apache.org/
Yarn(资源管理系统)
Yarn是Hadoop2.0新增的系统,负责集群的资源管理和调度,使得多种计算框架可以运行在一个集群中。
Yarn具有如下特点:
良好的扩展性、高可用性
对多种数据类型的应用程序进行统一管理和资源调度
自带了多种用户调度器,适合共享集群环境
MapReduce(分布式计算框架/模型)
MapReduce具有如下特点:
良好的扩展性
高容错性
适合PB级以上海量数据的离线处理
参考文章:
- http://hadoop.apache.org
- http://blog.csdn.net/u010270403/article/details/51493191
- http://blog.csdn.net/woshiwanxin102213/article/details/19688393
本站文章为和通数据库网友分享或者投稿,欢迎任何形式的转载,但请务必注明出处.
同时文章内容如有侵犯了您的权益,请联系QQ:970679559,我们会在尽快处理。