Hadoop入门（1）--Hadoop的前生，

和通数据库htsjk.Com2019-12-02 21:50 来源:未知阅读:15950 评论 438 热度5

标签：

无处不在的大数据

随着科技的发展，数据越来越多，也越来越有价值。更有形象的描述：数据就是未来的石油。

云端的服务器也越多，也是未来的发展方向。
越来越多的企业把数据存储在云端，并从中获取有用的价值。
马云多次强调;alibaba是一家数据公司！！！

系统瓶颈
存储容量读写速率计算效率

MapReduce BigTable GFS
革命性变化

但是Google只发表了技术论文并没有开源

百度百科

Hadoop由 Apache Software Foundation 
公司于 2005 年秋天作为
Lucene的子项目Nutch的一部分正式引入。
它受到最先由 Google Lab 开发的
 Map/Reduce 和 Google File System(GFS) 的启发

名字起源
Hadoop这个名字不是一个缩写，而是一个虚构的名字。该项目的创建者，Doug Cutting解释Hadoop的得名：“这个名字是我孩子给一个棕黄色的大象玩具命名的。我的命名标准就是简短，容易发音和拼写，没有太多的意义，并且不会被用于别处。小孩子恰恰是这方面的高手。”

0.海量数据

1byte = 8bit
1024B = 1M
1024M = 1G
1024G = 1T
1024T = 1P
1024P = 1E
1024E = 1Z
1024Z = 1Y
1024Y = 1N

1.分布式

分布在不同主机上的进程协同在一起，才能构成整个应用。

2.存储
分布式存储
3计算
分布式计算
4.Hadoop

writer：doug cutting.
Apache顶级开源项目

0 可靠 可伸缩 开源
1 HDFS Hadoop Distributed file system
2 去IOE
    IBM + Oracle + EMC
3 MapReduce
        MR //映射和化简，编程模型。
4 推荐系统

Google

1.2002 Apache Nutch
    抓取网页，数十亿存储瓶颈
2.2003 GFS论文
3.
4.YaHoo和Google相互竞争排序1T，100+节点 ，90s。

BIG data 4v

1 volumn        //体量大
2 variaty       //样式多
3 Velocity      //速度快
4Valueless      //价值密度低