【读书笔记—Hadoop实战】认识hadoop,
认识hadoop:- hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据。
- hadoop与其他分布式系统的比较
- hadoop与SQL的比较
| hadoop | SQL | |
| 扩 展 | 需要更多的机器(向外扩展) | 要运行一个更大的数据库,就要买一个更大的机器(向上扩展) |
| 数据模式 | 键/值对 | 关系表 |
| 查询方式 | 使用脚本和代码 | 使用查询语句 |
| 适 用 | 离线处理和大规模数据分析而设计,适合一次写入,多次读取 | 几个记录随机读写的在线事务处理模式 |
- 认识MapReduce——数据处理模型
我们要数图书馆中的所有书。你数1号书架,我数2号书架。这就是“Map”。我们人越多,数书就更快。
Now we get together and add our individual counts. That's reduce.
现在我们到一起,把所有人的统计数加在一起。这就是“Reduce”。 ——注:这里也并不仅仅是一个人在统计,可以很多人参与
map:输入过滤及转换 reduce:完成聚合
————————————————————————————————————————————————————————————————————————————— hadoop的构造模块
运行hadoop=在网络分布的不同服务器上运行一组守护进程
- NameNode——名字节点
- DataNode——数据节点
- Secondary NameNode(SNN)——次名字节点
- JobTracker——作业跟踪节点
- TaskTracker——任务跟踪节点
————————————————————————————————————————————————————————————————————————————— 为hadoop集群安装SSH ∵如上图,主端要去联络并激活从端上的守护进程(DataNode&TaskTracker) ∴采用无口令的SSH协议来支持远程访问(公钥存在集群的每个节点上,私钥存在主节点) 验证SSH安装:
生成密钥对:
将公钥分布并登陆验证 运行hadoop
本站文章为和通数据库网友分享或者投稿,欢迎任何形式的转载,但请务必注明出处.
同时文章内容如有侵犯了您的权益,请联系QQ:970679559,我们会在尽快处理。