欢迎投稿

今日深度:

Hadoop学习1:Hadoop概述,

Hadoop学习1:Hadoop概述,


1.Hadoop是Google的集群系统的开源实现

  • Google集群系统:GFS(Google File System)、MapReduce(分析、读取大数据)、BigTable(Hbase)

  • Hadoop主要由HDFS(Hadoop Distributed File System:Hadoop分布式文件系统)、MapReduce和Hbase组成

  • Hadoop的初衷是为了解决Nutch的海量数据爬取和存储的需要。
  • Hadoop与2005年作为Lucene的子项目Nutch的一部分正式引入Apache基金会。

  • 名字起源:Doug Cutting儿子的黄色大象玩具的名字。

2.两大核心设计

  • HDFS(NameNode DataNode Client):解决大数据存储问题
  • MapReduce(Map:任务的分解 Reduce:结果的汇总)

3.大数据和传统数据

         传统数据                   大数据
数据量    GB - TB                TB - PB 以上
速度      数据量稳定,增长不快      持续实时产生数据
多样化    主要结构化数据           半结构化、非结构化,多维数据
价值      统计和报表               数据挖掘和预测性分析

4.结构化数据、非结构化数据、半结构化数据

  • 结构化数据,简单来说就是数据库。
    结合到典型场景中更容易理解,比如企业ERP、财务系统;医疗HIS数据库;教育一卡通;政府行政审批;其他核心数据库等

  • 非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。
    包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。

  • 半结构化数据:是结构化的数据,但是结构变化很大

5.传统并行关系数据库(MPP)和 Hadoop区别

  • MPP:多个独立的关系数据库服务器,访问共享的存储资源池。
    优势:采用多个关系数据库服务器,多个存储
    劣势:计算和存储发呢里;支持的关系数据库服务器数量有限;只能向上扩展,不能横向扩展。
    适合复杂的需要事务处理的应用。

  • Hadoop:由大量独立的服务器通过网络互联形成集群,每个服务器带存储。
    优势:计算和存储融合,支持横向扩展
    劣势:解决数据冲突需要节点间协作
    适用范围:数据仓库和离线数据分析(MPP Hadoop/Hbase);大规模在线实时应用(Hbase)

6.Hadoop的子项目

  • Core:一套分布式文件系统及支持MapReduce的计算框架

  • HDFS

  • Map/Reduce:使用简易的软件框架,基于其的应用程序可运行在由上千个商用机器组成的大型集群,并以一种可靠容错的方式进行处理。
  • ZooKeeper:高可用的和可靠的分布式协同系统;
  • Hive
  • Hbase
  • Flume
  • Sqoop
  • Mahout

www.htsjk.Com true http://www.htsjk.com/Hadoop/40472.html NewsArticle Hadoop学习1:Hadoop概述, 1.Hadoop是Google的集群系统的开源实现 Google集群系统: GFS (Google File System)、 MapReduce (分析、读取大数据)、BigTable(Hbase) Hadoop主要由 HDFS (Hadoop Distributed File System:Ha...
相关文章
    暂无相关文章
评论暂时关闭