Hadoop简介，

和通数据库htsjk.Com2020-02-04 21:52 来源:未知阅读:6793 评论 222 热度3

标签：

Hadoop提供的功能

（1）Hadoop Distributed File System（一个类是google file system）

（2）Hadop Map-reduce

前者是一个文件系统，后者是一种分布式计算

Hadoop起源

互联网公司用Hadoop做什么

Hadoop适合于大规模数据处理的，不具有实时性。

Hadoop构建集群的规模

（Yahoo）

2007年4月，1000个节点

2009年，2.5万台机器，10个集群

最大的集群，300台机器

压缩后，3000T的数据

每周1W个任务

总而言之，现在的Hadoop不能支持更大的规模的集群

GFS文件系统

设计目标：处理大规模分布式密集数据的可扩展系统

（1）基于廉价的商业硬件（比如磁盘经常坏）

（2）适量的大文件（每个几百MB到GB）：文件不要太小，不然太浪费了

（3）对于文件处理主要是进行大型的顺序读（几百MB或者GB）和小型的随机读（几十KB）、大型的追加写

（4）一次写入，多次读取

（5）主要是为了优化吞吐量，而不是延迟（不适合做及时搜索）

（6）可靠，容灾，大集群，多个IDC

GFS的构架图

部署HDFS

DataNode硬盘尽量插满，4*300G要好于2*600G（300G便宜，更换成本小）

DataNode的硬盘使用量可通过配置文件限制

NameNode是单点

Ps：根据hadoop指南介绍，HDFS在少于5个DataNodes的情况下工作效率不高

使用HDFS

命令行、JavaApi、C++ Jni、Proxy server ，或者基于HDFS的新协议，自己实现一套，或者使用更高级的接口：BigTable、Flume等等

每个文件可单独设置replica参数

命令行：bin/hadoop hdfs command

详细参见：http://hadoop.apache.org/common/docs/current/file_system_shell.html

MapReduce

mapreduce和HDFS部署在一起：

其他项目