Hadoop学习1:Hadoop概述,
1.Hadoop是Google的集群系统的开源实现
Google集群系统:GFS(Google File System)、MapReduce(分析、读取大数据)、BigTable(Hbase)
Hadoop主要由HDFS(Hadoop Distributed File System:Hadoop分布式文件系统)、MapReduce和Hbase组成
- Hadoop的初衷是为了解决Nutch的海量数据爬取和存储的需要。
Hadoop与2005年作为Lucene的子项目Nutch的一部分正式引入Apache基金会。
名字起源:Doug Cutting儿子的黄色大象玩具的名字。
2.两大核心设计
- HDFS(NameNode DataNode Client):解决大数据存储问题
- MapReduce(Map:任务的分解 Reduce:结果的汇总)
3.大数据和传统数据
传统数据 大数据
数据量 GB - TB TB - PB 以上
速度 数据量稳定,增长不快 持续实时产生数据
多样化 主要结构化数据 半结构化、非结构化,多维数据
价值 统计和报表 数据挖掘和预测性分析
4.结构化数据、非结构化数据、半结构化数据
结构化数据,简单来说就是数据库。
结合到典型场景中更容易理解,比如企业ERP、财务系统;医疗HIS数据库;教育一卡通;政府行政审批;其他核心数据库等非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。
包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。半结构化数据:是结构化的数据,但是结构变化很大
5.传统并行关系数据库(MPP)和 Hadoop区别
MPP:多个独立的关系数据库服务器,访问共享的存储资源池。
优势:采用多个关系数据库服务器,多个存储
劣势:计算和存储发呢里;支持的关系数据库服务器数量有限;只能向上扩展,不能横向扩展。
适合复杂的需要事务处理的应用。Hadoop:由大量独立的服务器通过网络互联形成集群,每个服务器带存储。
优势:计算和存储融合,支持横向扩展
劣势:解决数据冲突需要节点间协作
适用范围:数据仓库和离线数据分析(MPP Hadoop/Hbase);大规模在线实时应用(Hbase)
6.Hadoop的子项目
Core:一套分布式文件系统及支持MapReduce的计算框架
HDFS
- Map/Reduce:使用简易的软件框架,基于其的应用程序可运行在由上千个商用机器组成的大型集群,并以一种可靠容错的方式进行处理。
- ZooKeeper:高可用的和可靠的分布式协同系统;
- Hive
- Hbase
- Flume
- Sqoop
- Mahout
本站文章为和通数据库网友分享或者投稿,欢迎任何形式的转载,但请务必注明出处.
同时文章内容如有侵犯了您的权益,请联系QQ:970679559,我们会在尽快处理。