欢迎投稿

今日深度:

hadoop简介,

hadoop简介,


hadoop是什么

         1.hadoop是一个开源, 可以更容易开发和处理大规模数据软件平台,包括2部分:HDFS和MapReduce

                  它提供云平台的基础架构,便以开发分布式程序。

         2.hadoop依据google的论文 gfs\mapreduce模型\bigtable衍生而来。

         3.优点:

                  a. 可扩展

                  b. 经济: 可以运行在普通的pc上

                  c. 可靠

                  d. 高效

         4.hadoop的相关构件:

                  Pig有一套自己的原语,可以不用写 MapReduce 程序

                  Hive 是一个数据仓库,提供类SQL,将数据映射成表

                  Hbase 是一个分布式数据库

                  Zookeeper  是一个分布式的协调框架

         5.hdfs是一个分布式的文件系统

                  特点:   a.高容错性

                                   b.它可以部署在廉价的硬件上

                                   c.提高IO吞吐量

                  三个节点:    NameNode : 管理节点

                                            DataNode : 数据节点

                                            SecondaryNamenode: 数据源信息备份整理节点

 

         6.MapReduce是分布式的计算模型,其中

                  Map函数,用于处理数据

                  Reduce 函数,用于合并结果

                  JobTracker  :任务管理节点

                  TaskTracker  :任务运行节点

 

         7.发行版本

                  a.apache版本  http://hadoop.apache.org

                  b.cloudear发行版http://www.cloudera.com

                          Cloudera让Hadoop的配置标准化,可以帮助企业安装,配置,运行hadoop 以达到大规模企业数据的处理和分析。

        

 

 

www.htsjk.Com true http://www.htsjk.com/Hadoop/41830.html NewsArticle hadoop简介, hadoop是什么          1.hadoop是一个开源, 可以更容易开发和处理 大规模数据 的 软件平台 ,包括2部分:HDFS和MapReduce                   它提供云平台的基础架构...
相关文章
    暂无相关文章
评论暂时关闭