hadoop基本概念,
一、什么是hadoop
hadoop是一种能够对大量数据进行处理的软件框架。hadoop的核心是:
⑴hdfs 分布式文件系统
⑵mapreduce 实现在很多机器上分布式并行运算
⑶yarn 帮用户调度大量的mapreduce程序,并合理分配运算资源
二、hadoop的优缺点
三、hdfs
1.什么是hdfs
即Hadoop Distributed Filesystem,分布式文件系统,以流式数据访问模式来存储超大文件,是管理跨多机器存储的文件系统。
hdfs不适用的场景:要求低时间延迟数据访问的应用,存储大量小文件,多用户写入,任意修改文件
2.hdfs的一些概念、
⑴hdfs数据块
hdfs上的文件被划分为多个分块作为独立存储安远,默认64MB,这样一个文件所有块可以分布在不同的磁盘
⑵hdfs的三个节点
①Namenode
HDFS守护进程,用来管理文件系统命名空间,负责记录文件是如何分割成数据块的,以及这些数据库分别存储在哪些数据节点上,它的主要功能是对内存和IO进行集中管理。
②Datanode
文件系统的工作节点,根据需要存储和检索数据块,并定期向namenode发送它们所存储的块的列表。
③Secondary Namenode
辅助后台程序,与Namenode进行通讯,定期保存HDFS元数据的快照。
⑶HDFS Federation
通过添加
⑷HDFS高可用性(High-Availability)
hadoop2.X开始支持,配置一对活动备用的namenode,当活动namenode失效,备用的就会开始接受任务。
这里还有一个很重要的东西叫做:故障转移器
故障转移器负责从活动namenode向备用namenode转换,基于zookeeper,确保同时有且仅有一个活动的namenode。
四、mapreduce