初识Hadoop，

和通数据库htsjk.Com2020-02-13 21:54 来源:未知阅读:7198 评论 191 热度3

标签：

初识Hadoop，

一、简介 Hadoop是一个世界上优秀的分布式数据处理框架，用户可以在不了解底层的情况下开发分布式处理程序，充分利用集群的威力进行高速运算和存储。二、Hadoop的特点： 1、扩容能力（Scalable）：能可靠地（reliably）存储和处理千兆字节（PB）数据。 2、成本低（Economical）：可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。 3、高效率（Efficient）：通过分发数据，hadoop可以在数据所在的节点上并行地（parallel）处理它们，这使得处理非常的快速。 4、可靠性（Reliable）：hadoop能自动地维护数据的多份副本，并且在任务失败后能自动地重新部署（redeploy）计算任务。三、Hadoop体系结构 Hadoop包含两个核心部分：HDFS（Hadoop Distributed File System）、MapReduce。HDFS用于分布式文件管理和存储，MapReduce用于分布式计算。 1、HDFS（Hadoop Distributed File System），分布式文件管理和存储，包含一个namenode节点，多个datanode节点，可以有多个secondarynamenode节点，其中 namenode：主节点，只有一个，负责：管理数据块（block）和datanode之间的关系，管理文件和数据块（block）之间的关系

管理文件系统的目录结构
接收用户操作请求

datanode：从节点，有多个，用于存储数据（block）。

存储文件
文件被分成多个block存储在磁盘上
为保证数据安全，文件会有多个副本

2、MapReduce，分布式计算架构，用于分布式计算加工。包含一个JobTracker，多个TaskTrackers。其中 JobTracker：主节点，只有一个

接收客户提交的计算任务

把计算任务分给TaskTrackers执行
监控TaskTracker的执行情况

TaskTrackers：从节点，可以有多个

执行JobTracker分配的计算任务

所有的NameNode、Datanode、JobTracker、TaskTrackers都是java进程，一个Datanode节点可以同时开启多个JVM线程达到并行计算。下图是Hadoop的集群体系架构图：
四、hadoop的部署方式 1、本地部署 2、伪分布部署模式：运行在一个物理机上的进程 3、集群部署模式