今日深度：

和通数据库 > 大数据 > Hadoop > 正文

Hadoop学习1：Hadoop概述，

和通数据库htsjk.Com2019-12-26 23:04 来源:未知阅读:14228 评论 316 热度4

标签：

Hadoop学习1：Hadoop概述，

1.Hadoop是Google的集群系统的开源实现

Google集群系统：GFS(Google File System)、MapReduce(分析、读取大数据)、BigTable(Hbase)
Hadoop主要由HDFS(Hadoop Distributed File System:Hadoop分布式文件系统)、MapReduce和Hbase组成
Hadoop的初衷是为了解决Nutch的海量数据爬取和存储的需要。
Hadoop与2005年作为Lucene的子项目Nutch的一部分正式引入Apache基金会。
名字起源：Doug Cutting儿子的黄色大象玩具的名字。

2.两大核心设计

HDFS(NameNode DataNode Client):解决大数据存储问题
MapReduce(Map:任务的分解 Reduce:结果的汇总)

3.大数据和传统数据

         传统数据                   大数据
数据量    GB - TB                TB - PB 以上
速度      数据量稳定，增长不快      持续实时产生数据
多样化    主要结构化数据           半结构化、非结构化，多维数据
价值      统计和报表               数据挖掘和预测性分析

4.结构化数据、非结构化数据、半结构化数据

结构化数据，简单来说就是数据库。
结合到典型场景中更容易理解，比如企业ERP、财务系统；医疗HIS数据库；教育一卡通；政府行政审批；其他核心数据库等
非结构化数据是数据结构不规则或不完整，没有预定义的数据模型，不方便用数据库二维逻辑表来表现的数据。
包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。
半结构化数据：是结构化的数据，但是结构变化很大

5.传统并行关系数据库（MPP）和 Hadoop区别

MPP：多个独立的关系数据库服务器，访问共享的存储资源池。
优势：采用多个关系数据库服务器，多个存储
劣势：计算和存储发呢里；支持的关系数据库服务器数量有限；只能向上扩展，不能横向扩展。
适合复杂的需要事务处理的应用。
Hadoop：由大量独立的服务器通过网络互联形成集群，每个服务器带存储。
优势：计算和存储融合，支持横向扩展
劣势：解决数据冲突需要节点间协作
适用范围：数据仓库和离线数据分析(MPP Hadoop/Hbase)；大规模在线实时应用(Hbase)

6.Hadoop的子项目

Core:一套分布式文件系统及支持MapReduce的计算框架
HDFS
Map/Reduce:使用简易的软件框架，基于其的应用程序可运行在由上千个商用机器组成的大型集群，并以一种可靠容错的方式进行处理。
ZooKeeper:高可用的和可靠的分布式协同系统；
Hive
Hbase
Flume
Sqoop
Mahout

本站文章为和通数据库网友分享或者投稿，欢迎任何形式的转载，但请务必注明出处.
同时文章内容如有侵犯了您的权益，请联系QQ：970679559，我们会在尽快处理。

相关文章

暂无相关文章

评论暂时关闭