Hadoop入门(1)--Hadoop的前生,
无处不在的大数据
随着科技的发展,数据越来越多,也越来越有价值。更有形象的描述:数据就是未来的石油。
云端的服务器也越多,也是未来的发展方向。
越来越多的企业把数据存储在云端,并从中获取有用的价值。
马云多次强调;alibaba是一家数据公司!!!
如何对数据进行存储和分析
系统瓶颈
存储容量 读写速率 计算效率
Google三大革命技术
MapReduce BigTable GFS
革命性变化
- 成本降低,能用pc就不用大型机和高端存储(针对非重要数据)
- 软件容错 硬件故障视为常态,通过软件保证高可靠性
- Map Reduce简化并行分布式计算 无须控制节点同步和数据交换
-
- -
但是Google只发表了技术论文 并没有开源
Hadoop发明
百度百科
Hadoop由 Apache Software Foundation
公司于 2005 年秋天作为
Lucene的子项目Nutch的一部分正式引入。
它受到最先由 Google Lab 开发的
Map/Reduce 和 Google File System(GFS) 的启发
名字起源
Hadoop这个名字不是一个缩写,而是一个虚构的名字。该项目的创建者,Doug Cutting解释Hadoop的得名 :“这个名字是我孩子给一个棕黄色的大象玩具命名的。我的命名标准就是简短,容易发音和拼写,没有太多的意义,并且不会被用于别处。小孩子恰恰是这方面的高手。”
bigdata
0.海量数据
1byte = 8bit
1024B = 1M
1024M = 1G
1024G = 1T
1024T = 1P
1024P = 1E
1024E = 1Z
1024Z = 1Y
1024Y = 1N
1.分布式
分布在不同主机上的进程协同在一起,才能构成整个应用。
2.存储
分布式存储
3计算
分布式计算
4.Hadoop
writer:doug cutting.
Apache顶级开源项目
0 可靠 可伸缩 开源
1 HDFS Hadoop Distributed file system
2 去IOE
IBM + Oracle + EMC
3 MapReduce
MR //映射和化简,编程模型。
4 推荐系统
1.2002 Apache Nutch
抓取网页,数十亿存储瓶颈
2.2003 GFS论文
3.
4.YaHoo和Google相互竞争排序1T,100+节点 ,90s。
BIG data 4v
1 volumn //体量大
2 variaty //样式多
3 Velocity //速度快
4Valueless //价值密度低
本站文章为和通数据库网友分享或者投稿,欢迎任何形式的转载,但请务必注明出处.
同时文章内容如有侵犯了您的权益,请联系QQ:970679559,我们会在尽快处理。