欢迎投稿

今日深度:

初识Hadoop,

初识Hadoop,


一、简介 Hadoop是一个世界上优秀的分布式数据处理框架,用户可以在不了解底层的情况下开发分布式处理程序,充分利用集群的威力进行高速运算和存储。 二、Hadoop的特点: 1、扩容能力(Scalable):能可靠地(reliably)存储和处理千兆字节(PB)数据。 2、成本低(Economical):可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群 总计可达数千个节点。 3、高效率(Efficient):通过分发数据,hadoop可以在数据所在的节点上并行地(parallel)处理它们,这使得处理非常的快速。 4、可靠性(Reliable):hadoop能自动地维护数据的多份副本,并且在任务失败后能自动地重新部署(redeploy)计算任务。 三、Hadoop体系结构 Hadoop包含两个核心部分:HDFS(Hadoop Distributed File System)、MapReduce。HDFS用于分布式文件管理和存储,MapReduce用于分布式计算。 1、HDFS(Hadoop Distributed File System),分布式文件管理和存储,包含一个namenode节点,多个datanode节点,可以有多个secondarynamenode节点,其中 namenode:主节点,只有一个,负责:  管理数据块(block)和datanode之间的关系,管理文件和数据块(block)之间的关系
  • 管理文件系统的目录结构
  • 接收用户操作请求
datanode:从节点,有多个,用于存储数据(block)。
  • 存储文件
  • 文件被分成多个block存储在磁盘上
  • 为保证数据安全,文件会有多个副本
2、MapReduce,分布式计算架构,用于分布式计算加工。包含一个JobTracker,多个TaskTrackers。其中 JobTracker:主节点,只有一个
  • 接收客户提交的计算任务
  • 把计算任务分给TaskTrackers执行
  • 监控TaskTracker的执行情况
TaskTrackers:从节点,可以有多个
  • 执行JobTracker分配的计算任务
所有的NameNode、Datanode、JobTracker、TaskTrackers都是java进程,一个Datanode节点可以同时开启多个JVM线程达到并行计算。 下图是Hadoop的集群体系架构图:
四、hadoop的部署方式 1、本地部署 2、伪分布部署模式:运行在一个物理机上的进程 3、集群部署模式

www.htsjk.Com true http://www.htsjk.com/Hadoop/41884.html NewsArticle 初识Hadoop, 一、简介 Hadoop是一个世界上优秀的分布式数据处理框架,用户可以在不了解底层的情况下开发分布式处理程序,充分利用集群的威力进行高速运算和存储。二、Hadoop的特点...
相关文章
    暂无相关文章
评论暂时关闭