Hadoop实战(1)hadoop简介,
hadoop四大模块
HDFS系统架构
HDFS服务功能
YARN架构
YARN服务功能
MapReduce
MapReduce on Yarn
简化版的 MapReduce on Yarn
hadoop生态系统
hadoop2.x的知识回顾
common是存放公共的东西
hdfs 分布式文件系统 存储数据 存放3个分本
主节点namenode 存储文件系统的元数据 命名空间namespace
从节点datanode 真正的存储数据
secondarynamdenode 辅助namenode工作 合并2个文件 定时周期性合并
bin/hdfs dfs -put 写数据 先询问namenode得到位置,datanode写
YARN hadoop的操作系统 data的操作系统 完成各台资源的管理
把资源放在容器当中container 资源隔离
resourcemanager整个集群资源的管理和调度
nodemanager管理每一个节点的资源与调度
mapreduce框架 分而治之的思想
map 就是 分 把文件拆分500G 分为20个任务
reduce 就是合并
input -> map ->shuffle(洗牌,排序) reduce ->output (默认不能存在 存在则报错)
分布式并行计算框架
mapreduce运行模式 1.本地模式 2yarn模式
常用的命令
bin/hdfs dfs 查询所有的命令
cat 直接输出文件
text 把文件转换为文本输出
本站文章为和通数据库网友分享或者投稿,欢迎任何形式的转载,但请务必注明出处.
同时文章内容如有侵犯了您的权益,请联系QQ:970679559,我们会在尽快处理。