Hadoop概述,
通过存储海量数据、快速处理海量数据、从海量数据中进行分析,以产生价值
- Hadoop 2.x核心组件
- HDFS
- MapReduce
MapReduce是一种“分而治之”的计算思想,将任务分为map和reduce两个阶段, map阶段主要是“分”的操作:将任务分成多个小任务执行,reduce阶段主要是“合” 的操作:将map阶段的输出进行合并,并将合并之后的最终结果输出到磁盘文件中。
MapReduce主要由5个阶段组成,其中编程人员主要负责map和reduce阶段,其它阶 段由MapReduce框架实现。
- Yarn
处理客户端请求,启动/监控ApplicationMaster,监控NodeManager,集群资源分配与调度
2. ApplicationMaster
为应用程序申请资源,并分配给内部任务,任务监控与容错,每个运行在Spark上的应用都有一个该进程运行 3. NodeManager 单个节点上的资源管理,处理来自ResourceManager的命令,处理来自ApplicationMaster的命令 4. Container对任务运行环境的抽象,封装了CPU、 内存等多维资源以及环境变量、启动命令等任务运行相关的信息
本站文章为和通数据库网友分享或者投稿,欢迎任何形式的转载,但请务必注明出处.
同时文章内容如有侵犯了您的权益,请联系QQ:970679559,我们会在尽快处理。