HADOOP：Hadoop生态系统，

和通数据库htsjk.Com2019-09-23 21:52 来源:未知阅读:17423 评论 373 热度2

标签：

HADOOP：Hadoop生态系统，

主要针对hadoop 2.x

Hadoop是什么？

Hadoop是一个开源框架(平台)，能够对大量数据进行分布式处理。 Hadoop框架的核心是HDFS和MapReduce，YARN(Yet Another Resource Negotiator)。其中 HDFS 是分布式文件系统，MapReduce 是分布式数据处理模型和执行环境，YARN是分布式执行框架。

    下面是hadoop2.x的生态系统图。

目前Hadoop项目主要包括四个模块

    Hadoop Common: 提供对其他模块的支持
    Hadoop Distributed File System (HDFS):高吞吐量的分布式文件系统
    Hadoop YARN: 任务调度和资源管理的一个框架
    Hadoop MapReduce: 并行计算模型

一些有关的项目

HDFS（Hadoop分布式文件系统）

HDFS(Distributed File System)是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统，能检测和应对硬件故障，用于在低成本的通用硬件上运行。HDFS简化了文件的一致性模型，通过流式数据访问，提供高吞吐量应用程序数据访问功能，适合带有大型数据集的应用程序。
Client：切分文件；访问HDFS；与NameNode交互，获取文件位置信息；与DataNode交互，读取和写入数据。
NameNode：Master节点，在hadoop1.X中只有一个，管理HDFS的名称空间和数据块映射信息，配置副本策略，处理客户端请求。
DataNode：Slave节点，存储实际的数据，汇报存储信息给NameNode。
Secondary NameNode：辅助NameNode，分担其工作量；定期合并fsimage和fsedits，推送给NameNode；紧急情况下，可辅助恢复NameNode，但SecondaryNameNode并非NameNode的热备。

HDFS具有如下特点：

1 良好的扩展性
2 高容错性
3 适合PB级以上海量数据的存储

HDFS的基本原理

1 将文件切分成等大的数据块，存储到多台机器上
2 将数据切分、容错、负载均衡等功能透明化
3 可将HDFS看成容量巨大、具有高容错性的磁盘

HDFS的应用场景

1 海量数据的可靠性存储
2 数据归档

HDFS的详细信息可参考官网，这里只是做一个简单的印象介绍
http://hadoop.apache.org/

Yarn(资源管理系统)

Yarn是Hadoop2.0新增的系统，负责集群的资源管理和调度，使得多种计算框架可以运行在一个集群中。
Yarn具有如下特点：
    良好的扩展性、高可用性
    对多种数据类型的应用程序进行统一管理和资源调度
    自带了多种用户调度器，适合共享集群环境

MapReduce(分布式计算框架/模型)

MapReduce具有如下特点：
    良好的扩展性
    高容错性
    适合PB级以上海量数据的离线处理

参考文章：

http://hadoop.apache.org
http://blog.csdn.net/u010270403/article/details/51493191
http://blog.csdn.net/woshiwanxin102213/article/details/19688393

HADOOP：Hadoop生态系统，

Hadoop是什么 ？

HDFS（Hadoop分布式文件系统）

Yarn(资源管理系统)

MapReduce(分布式计算框架/模型)

Hadoop是什么？