Hadoop,
文章目录
- Hadoop
- 简介
- 入门资料
- Hadoop项目模块
- 大数据体系构成
- 大数据工程师技术栈
Hadoop
简介
Hadoop是一个框架,能使用简单的编程模型搭建数千台计算机的集群,从而对海量数据进行分布式处理。Hadoop为分布式计算提供了开源软件。
入门资料
官网:http://hadoop.apache.org/index.html;
官方文档:http://hadoop.apache.org/docs/current/;
中文文档:http://hadoop.apache.org/docs/r1.0.4/cn/index.html;
其他中文教程
https://www.yiibai.com/hadoop/;
Hadoop项目模块
- Hadoop Common - 通用模块;
- Hadoop Distributed File System (HDFS) - 对应用程序提供高吞吐量的分布式文件系统,作用是提供数据集的分布式;
- Hadoop YARN - 调度作业、管理集群资源;
- Hadoop MapReduce - 基于YARN的大数据并行处理系统;
- 其他与Hadoop相关的组件包括:
- Ambari
- Avro
- Cassandra
- HBase
- Hive
- Mahout
- Pig
- Spark
- Tez
- ZooKeeper
Hadoop生态组件可见下图:
大数据体系构成
大数据工程师技术栈
本站文章为和通数据库网友分享或者投稿,欢迎任何形式的转载,但请务必注明出处.
同时文章内容如有侵犯了您的权益,请联系QQ:970679559,我们会在尽快处理。