欢迎投稿

今日深度:

HADOOP:Hadoop生态系统,

HADOOP:Hadoop生态系统,


主要针对hadoop 2.x


Hadoop是什么 ?

Hadoop是一个开源框架(平台),能够对大量数据进行分布式处理。 Hadoop框架的核心是HDFS和MapReduce,YARN(Yet Another Resource Negotiator)。其中 HDFS 是分布式文件系统,MapReduce 是分布式数据处理模型和执行环境,YARN是分布式执行框架。


    下面是hadoop2.x的生态系统图。


目前Hadoop项目主要包括四个模块

    Hadoop Common: 提供对其他模块的支持
    Hadoop Distributed File System (HDFS):高吞吐量的分布式文件系统
    Hadoop YARN: 任务调度和资源管理的一个框架
    Hadoop MapReduce: 并行计算模型

一些有关的项目

HDFS(Hadoop分布式文件系统)

HDFS(Distributed File System)是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行。HDFS简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。
Client:切分文件;访问HDFS;与NameNode交互,获取文件位置信息;与DataNode交互,读取和写入数据。
NameNode:Master节点,在hadoop1.X中只有一个,管理HDFS的名称空间和数据块映射信息,配置副本策略,处理客户端请求。
DataNode:Slave节点,存储实际的数据,汇报存储信息给NameNode。
Secondary NameNode:辅助NameNode,分担其工作量;定期合并fsimage和fsedits,推送给NameNode;紧急情况下,可辅助恢复NameNode,但SecondaryNameNode并非NameNode的热备。

HDFS具有如下特点:

1 良好的扩展性
2 高容错性
3 适合PB级以上海量数据的存储

HDFS的基本原理

1 将文件切分成等大的数据块,存储到多台机器上
2 将数据切分、容错、负载均衡等功能透明化
3 可将HDFS看成容量巨大、具有高容错性的磁盘

HDFS的应用场景

1 海量数据的可靠性存储
2 数据归档

HDFS的详细信息可参考官网,这里只是做一个简单的印象介绍
http://hadoop.apache.org/


Yarn(资源管理系统)

Yarn是Hadoop2.0新增的系统,负责集群的资源管理和调度,使得多种计算框架可以运行在一个集群中。
Yarn具有如下特点:
    良好的扩展性、高可用性
    对多种数据类型的应用程序进行统一管理和资源调度
    自带了多种用户调度器,适合共享集群环境


MapReduce(分布式计算框架/模型)

MapReduce具有如下特点:
    良好的扩展性
    高容错性
    适合PB级以上海量数据的离线处理


参考文章:

  • http://hadoop.apache.org
  • http://blog.csdn.net/u010270403/article/details/51493191
  • http://blog.csdn.net/woshiwanxin102213/article/details/19688393

www.htsjk.Com true http://www.htsjk.com/Hadoop/36105.html NewsArticle HADOOP:Hadoop生态系统, 主要针对hadoop 2.x Hadoop是什么 ? Hadoop是一个开源框架(平台),能够对大量数据进行分布式处理。 Hadoop框架的核心是HDFS和MapReduce,YARN(Yet Another Resource Negotiator)。其...
相关文章
    暂无相关文章
评论暂时关闭