hadoop问题集合,
1、hadoop是什么:
Apache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop是根据Google公司发表的MapReduce和Google档案系统的论文自行实作而成。简而言之,就是一个分布式计算平台。核心为Hadoop Distributed System(Hadoop分布式文件系统)和MapReduce编程框架。Hadoop框架透明地为应用提供可靠性和数据移动;实现了名为MapReduce的编程范式:应用程序被分割成许多小部分,而每个部分都能在集群中的任意节点上执行或重新执行。hadoop的整个框架能够自动处理节点故障。
hadoop的相关项目:hbase(列数据库)、hive(数据仓库工具)、zookeeper(分布式锁设施)、avro(新的数据序列化格式与传输工具,可取代Hadoop原有的IPC机制)。
2、基本原理:
http://my.csdn.net/my/album/show/273809
Map->shuffle->Reduce.
3、文件的权限问题
用户目录权限为 755 或者 700,不能是其他权限;.ssh目录权限必须为755;
id_rsa.pub 及authorized_keys权限必须为644;id_rsa权限必须为600 .
4、HDFS的数据块:
这个数据块的大小不大于64MB。
本站文章为和通数据库网友分享或者投稿,欢迎任何形式的转载,但请务必注明出处.
同时文章内容如有侵犯了您的权益,请联系QQ:970679559,我们会在尽快处理。