欢迎投稿

今日深度:

Hadoop入门(1)--Hadoop的前生,

Hadoop入门(1)--Hadoop的前生,


无处不在的大数据

随着科技的发展,数据越来越多,也越来越有价值。更有形象的描述:数据就是未来的石油。

云端的服务器也越多,也是未来的发展方向。
越来越多的企业把数据存储在云端,并从中获取有用的价值。
马云多次强调;alibaba是一家数据公司!!!

如何对数据进行存储和分析

系统瓶颈
存储容量 读写速率 计算效率

Google三大革命技术

MapReduce BigTable GFS
革命性变化

  • 成本降低,能用pc就不用大型机和高端存储(针对非重要数据)
  • 软件容错 硬件故障视为常态,通过软件保证高可靠性
  • Map Reduce简化并行分布式计算 无须控制节点同步和数据交换

    • -

但是Google只发表了技术论文 并没有开源

Hadoop发明

百度百科

Hadoop由 Apache Software Foundation 
公司于 2005 年秋天作为
Lucene的子项目Nutch的一部分正式引入。
它受到最先由 Google Lab 开发的
 Map/Reduce 和 Google File System(GFS) 的启发

名字起源
Hadoop这个名字不是一个缩写,而是一个虚构的名字。该项目的创建者,Doug Cutting解释Hadoop的得名 :“这个名字是我孩子给一个棕黄色的大象玩具命名的。我的命名标准就是简短,容易发音和拼写,没有太多的意义,并且不会被用于别处。小孩子恰恰是这方面的高手。”

bigdata

0.海量数据

1byte = 8bit
1024B = 1M
1024M = 1G
1024G = 1T
1024T = 1P
1024P = 1E
1024E = 1Z
1024Z = 1Y
1024Y = 1N

1.分布式

分布在不同主机上的进程协同在一起,才能构成整个应用。

2.存储
分布式存储
3计算
分布式计算
4.Hadoop

writer:doug cutting.
Apache顶级开源项目
0 可靠 可伸缩 开源
1 HDFS Hadoop Distributed file system
2 去IOE
    IBM + Oracle + EMC
3 MapReduce
        MR //映射和化简,编程模型。
4 推荐系统

Google

1.2002 Apache Nutch
    抓取网页,数十亿存储瓶颈
2.2003 GFS论文
3.
4.YaHoo和Google相互竞争排序1T,100+节点 ,90s。

BIG data 4v

1 volumn        //体量大
2 variaty       //样式多
3 Velocity      //速度快
4Valueless      //价值密度低

www.htsjk.Com true http://www.htsjk.com/Hadoop/39584.html NewsArticle Hadoop入门(1)--Hadoop的前生, 无处不在的大数据 随着科技的发展,数据越来越多,也越来越有价值。更有形象的描述:数据就是未来的石油。 云端的服务器也越多,也是未来的发展方...
相关文章
    暂无相关文章
评论暂时关闭