初识Hadoop，Hadoop是什么？，

和通数据库htsjk.Com2020-01-22 21:50 来源:未知阅读:3798 评论 199 热度4

标签：

初识Hadoop，Hadoop是什么？，

前言：

Hadoop是一个分布式系统基础架构。

基本概述：

Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。

HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large dataset）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。

Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算

优点：

高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。

高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇 - 可以方便地扩展到数以千计的节点中。

高效性。Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。

高容错性。Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。

低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比，hadoop是开源的，项目的软件成本因此会大大降低。

Haddop与并行关系数据库：

并行关系数据库：
常见的关系型数据库有：SQL SERVER \MYSQL\ ORACLE
1、多个独立的关系数据库服务器，访问共享的存储资源池。
2、优势：
① 采用多个关系数据库服务器，多个存储，与原有的架构相比，扩展了存储容量和计算能力。
3、劣势：
① 计算与存储分离，数据访问存在竞争和带宽瓶颈。
② 支持的关系数据库服务器熟练有限。
③ 只能向上扩展，不能横向扩展。
4、适合复杂的需要事务处理的应用。

Hadoop:
1、 Hadoop由大量独立的服务器同构网络互连形成集群，每个服务器带村粗。
2、优势：计算与存储融合，支持横向扩展，更好的扩展属性。
3、劣势：解决数据冲突时需要节点间协作。
4、适合范围：
① 数据仓库和离线数据分析（MPP,Hadoop/HBase）
②大规模在线实时应用（单行事务处理能满足的场景）（HBase）

Hadoop的子项目

Core ：一套分布式文件系统以及支持Map-Reduce的计算框架。

HDFS：Hadoop分布式文件系统。

Map/Reduce：是一个使用简易的软件框架，基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上，并以一种可靠容错的方式并行处理上T级别的数据集。

ZooKeeper：是高可用的和可靠分布式协同系统。

Pig：建立与Hadoop Core之上为并行计算环境提供了一套数据工作流语言和执行框架。

Hive：是为提供简单的数据操作而设计的下一代分布式数据仓库，它提供了简单的类似SQL语句的HiveQL语句进行数据查询。

HBase：建立于Hadoop Core之上提供一个可扩展的数据库系统。

Flume：一个分布式、可靠、和高可用的海量日志聚合的系统，支持在系统中定制各类数据发送方，用于收集数据。

Mahout：是一套具有可扩充能力的机器学习类库。

Sqoop：是Apache下用于RDBMS和HDFS相互数据的工具。

接下来从 HDFS 进行学习。