《Hadoop权威指南》第一章初始Hadoop，

和通数据库htsjk.Com2019-12-10 21:44 来源:未知阅读:9831 评论 148 热度2

标签：

1.1数据！数据！

我们已经进入了一个数据大爆炸的时代！（有大量数据需要存储和处理）

硬盘存储容量多年来不断提升的同时，访问速度却没有与时俱进。可采用分布式存储。但是存在两个问题，1.硬件故障问题。解决办法：a.冗余硬盘阵列（RAID）；b.Hadoop的文件系统HDFS。 2.多数任务需要某种方式结合大部分数据来共同分析。

关系型数据库的弊端是，需要寻址，而寻址时间的提升不敌于传输速率的提升，模型是B树。可以将MapReduce视为关系型数据库的补充。 Map Reduce适合以批处理需要分析的整个数据集的问题，尤其是动态分析，适合一次写入多次读取数据，关系型数据库适合持续更新的数据。

高性能计算和网格计算采用的方法是将作业分散到集群的各台机器上，这些机器访问存储网络所组成的共享文件系统。比较适合于计算密集型，但是如果所需数据很大，计算节点就需要停止等待。 MapReduce尽量在计算节点上存储数据，数据本地化是其核心特征。

MapReduce三大目标：1.为只需要短短几分钟或几个小时就可以完成的左右提供服务；2.运行于一个内部有告诉网络连接的数据中心内；3.数据中心内的计算机都是可靠的，定制的硬件。