欢迎投稿

今日深度:

hadoop基本概念,

hadoop基本概念,


一、什么是hadoop

hadoop是一种能够对大量数据进行处理的软件框架。hadoop的核心是:

⑴hdfs                       分布式文件系统

⑵mapreduce           实现在很多机器上分布式并行运算

⑶yarn                      帮用户调度大量的mapreduce程序,并合理分配运算资源

二、hadoop的优缺点

 

 

三、hdfs

1.什么是hdfs

即Hadoop Distributed Filesystem,分布式文件系统,以流式数据访问模式来存储超大文件,是管理跨多机器存储的文件系统。

hdfs不适用的场景:要求低时间延迟数据访问的应用,存储大量小文件,多用户写入,任意修改文件

2.hdfs的一些概念、

⑴hdfs数据块

hdfs上的文件被划分为多个分块作为独立存储安远,默认64MB,这样一个文件所有块可以分布在不同的磁盘

⑵hdfs的三个节点

①Namenode

HDFS守护进程,用来管理文件系统命名空间,负责记录文件是如何分割成数据块的,以及这些数据库分别存储在哪些数据节点上,它的主要功能是对内存和IO进行集中管理。

②Datanode

文件系统的工作节点,根据需要存储和检索数据块,并定期向namenode发送它们所存储的块的列表。

③Secondary Namenode

辅助后台程序,与Namenode进行通讯,定期保存HDFS元数据的快照。

⑶HDFS Federation

通过添加

⑷HDFS高可用性(High-Availability)

hadoop2.X开始支持,配置一对活动备用的namenode,当活动namenode失效,备用的就会开始接受任务。

这里还有一个很重要的东西叫做:故障转移器

故障转移器负责从活动namenode向备用namenode转换,基于zookeeper,确保同时有且仅有一个活动的namenode。

四、mapreduce
 

 

www.htsjk.Com true http://www.htsjk.com/Hadoop/41535.html NewsArticle hadoop基本概念, 一、什么是hadoop hadoop是一种能够对大量数据进行处理的软件框架。hadoop的核心是: ⑴hdfs                       分布式文件系统 ⑵mapreduce           实现在很多机...
相关文章
    暂无相关文章
评论暂时关闭