欢迎投稿

今日深度:

Hadoop小结连载:Hadoop概述,

Hadoop小结连载:Hadoop概述,


结合自己学习Hadoop的过程,将每天的点滴记录下来。


一 Hadoop简介


二 Hadoop分布式文件系统


三 Hadoop安装与配置


四 Hadoop I/O


五 MapReduce应用开发


六 MapReduce工作机制


七 MapReduce类型和格式


八 MapReduce特性


九管理Hadoop


Hadoop简介

1 Hadoop概述

2 Hadoop历史

3 功能与作用

4 Hadoop的优势

5 Hadoop应用现状和发展趋势

6 Hadoop项目及其结构


1:Hadoop简介


2:Hadoop历史


3:功能与作用


4:Hadoop的优势


5:Hadoop应用现状和发展趋势


6:Hadoop项目及其结构


6.1 Core/Common

为Hadoop及其他子项目提供常用工具,主要包括FileSystem(一组分布式文件系统)和通用的IO组件与接口(序列化、Java RPC和持久化数据结构)。 FileSystem:是Hadoop中的一个文件系统接口,适用于多种文件系统,如: Local、HDFS(Hadoop分布式文件系统)、FTP(有Ftp服务器支持的文件系统)、HFTP(在HTTP上提供对HDFS只读访问的文件系统,用户多个Hadoop集群并行复制)、S3(由Amazon S3)支持的文件系统。 RPC(RemoteProcedure Call Protocol)——远程过程调用协议:它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。 序列化:将对象转化为字节流的方法,或者用字节流描述对象的方法,反序列化是将字节流转化为对象的方法,目的是进程间通信和数据持久化存储。 持久化数据结构:文本文件、SequenceFile(二进制文件,可存储对象blob)、MapFile(有顺序和索引的SequenceFile ) 6.2 Avro:独立于编程语言的数据序列化系统,用于非Java客户端对Hadoop调用(C、C++、Python和Ruby等) 。 6.3 MapReduce:一种编程模型,用与大规模数据集(大于1TB)的并行计算 6.4 HDFS:分布式文件系统,用于大规模数据分布式存储。 6.5 Chukwa:开源的数据搜集系统,用于监控和分析大型分布式系统 6.6 Hive:SQL语言编译成MapReduce程序 6.7 HBase:分布式、面向列的开源数据库 6.8 Pig:Pig Latin语言编译成MapReduce程序 6.9 ZooKeeper: 分布式协调服务,提供分布式锁之类的基本服务用于构建分布式应用

www.htsjk.Com true http://www.htsjk.com/Hadoop/39861.html NewsArticle Hadoop小结连载:Hadoop概述, 结合自己学习Hadoop的过程,将每天的点滴记录下来。 一 Hadoop简介 二 Hadoop分布式文件系统 三 Hadoop安装与配置 四 Hadoop I/O 五 MapReduce应用开发 六 MapReduce工作...
相关文章
    暂无相关文章
评论暂时关闭