hadoop，

和通数据库htsjk.Com2019-11-07 22:05 来源:未知阅读:4505 评论 149 热度3

标签：

hadoop，

http://www.powerxing.com/install-hadoop/

单机与伪分布式区别就是

伪分布式依靠软件实现了一个hdfs 伪分布式读取的则是 HDFS 上的数据

在单节点上以伪分布式的方式运行节点既作为 NameNode 也作为 DataNode

直接运行hadoop 都是在hadoop目录下运行

sbin/start-dfs.sh 这样的操作来运行hadoop功能

而eclipse 下有hadoop插件封装之后方便直接运行hadoop 的map reduce类似的模型

hadoop是一个分布式系统架构核心架构就是hdfs namenode datanode linux集群但集群只是底层架构基于之上的具体数据处理又是另一个层面的事了集群对于编程只是一个底层的架构具体数据处理则主要如hadoop权威指南上所讲的内容那样的东西了到了那一个层面集群概念本身又不是那么重要
hadoop->分布式系统架构 hadoop最先提供了一个可以在集群上运行的架构实现了集群之后在这架构之上则是具体的编程实现用户可以在不了解分布式底层细节的情况下，开发分布式程序
MapReduce和Hadoop是相互独立的

HDFS和MapReduce实现是完全分离的，并不是没有HDFS就不能MapReduce运算。

datanode 必须有两个保证数据的冗余 (同时也是 tasktracker)

namenode(dfs/master)

job tracker (map/reduce的master)

集群是由一个Namenode和若干datanode组成，而secondary作为Namenode的一个备份'

jobtracker负责任务的调度，而tasktracker则是负责任务的执行

因此，tasktracker是运行在datanode的，而Namenode和jobtracker则无需在同一机器上面

hadoop2以后就没有tasktracker 与jobtracker 了，master包含如下进程

zxc7928932@zxc7928932-X550VC:~$ jps
11763 ResourceManager
11892 NodeManager
18054 DataNode
19399 Jps
18279 SecondaryNameNode
17915 NameNode
18716 org.eclipse.equinox.launcher_1.3.0.v20140415-2008.jar

Hadoop 新 MapReduce 框架 Yarn 详解

http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/

http://www.aboutyun.com/thread-7678-1-1.html