欢迎投稿

今日深度:

hadoop问题集合,

hadoop问题集合,


1、hadoop是什么:

Apache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop是根据Google公司发表的MapReduceGoogle档案系统的论文自行实作而成。简而言之,就是一个分布式计算平台。核心为Hadoop Distributed System(Hadoop分布式文件系统)和MapReduce编程框架。Hadoop框架透明地为应用提供可靠性和数据移动;实现了名为MapReduce的编程范式:应用程序被分割成许多小部分,而每个部分都能在集群中的任意节点上执行或重新执行。hadoop的整个框架能够自动处理节点故障。

  hadoop的相关项目:hbase(列数据库)、hive(数据仓库工具)、zookeeper(分布式锁设施)、avro(新的数据序列化格式与传输工具,可取代Hadoop原有的IPC机制)。

2、基本原理:

      http://my.csdn.net/my/album/show/273809

        Map->shuffle->Reduce.

3、文件的权限问题

      用户目录权限为 755 或者 700,不能是其他权限;.ssh目录权限必须为755;

  id_rsa.pub 及authorized_keys权限必须为644;id_rsa权限必须为600 .

4、HDFS的数据块:

      这个数据块的大小不大于64MB。


www.htsjk.Com true http://www.htsjk.com/Hadoop/41330.html NewsArticle hadoop问题集合, 1、hadoop是什么: Apache Hadoop 是一款支持数据密集型 分布式应用 并以Apache 2.0许可协议发布的 开源软件框架 。它支持在商品硬件构建的大型集群上运行的应用程序。Ha...
相关文章
    暂无相关文章
评论暂时关闭