步入Hadoop，

和通数据库htsjk.Com2020-02-09 21:50 来源:未知阅读:5183 评论 174 热度2

标签：

步入Hadoop，

数据的存储与分析 数据存储：90年代普通磁盘存储1370M数据，读取速度 4.4M/s 读取时间需五分钟二十年后 1T数据，读取速度100M/s 读取时间2.5H 减少速去时间：同时从多个磁盘并行读取数据。 1个磁盘数据分成100个磁盘存储，同时读取。存储100个数据集产生硬件问题，导致数据丢失数据分析任务需集合大部分数据共同完成。 Hadoop两部分核心：HDFS实现存储，MapReduce实现分析处理。
MapReduce：采用一种蛮力方法。每个查询需要处理整个数据集或大部分数据集，是一个批量查询处理器。
关系型数据库管理系统 数据分析选择MapReduce？RDBMS? 磁盘的发展趋势：寻址时间的提高远远慢于传输速率的提高寻址：将磁头移动到磁盘位置进行读写操作的过程（导致磁盘操作延迟的主要原因）传输速率取决于带宽关系型数据库和MapReduce的比较

数据大小	GB	PB
访问	交互式和批处理	批处理
更新	多次读写	一次写入多次读取
结构	静态模式	动态模式
完整性	高	低
横向扩展	非线性	线性

数据集：结构化数据：具有既定格式的实体化数据半结构化数据：比较松散。如一张电子表格，单元格对应任何形式的数据非结构化数据：没什么特别的内部结构。如纯文本或图像数据
Hadoop项目如下： Common：一组分布式文件系统和通用I/O的组件与接口 Avro：一种支持高效的、跨语言的RPC以及永久存储数据的序列化系统 MapReduce：分布式数据处理模型和执行环境，运行于大型商用机集群 HDFS：分布式文件系统 Pig:一种数据流语言和运行环境，用以检索非常大的数据集 Hive：一个分布式，按列存储的数据仓库 Hbase:一个分布式按列存储数据库 Zookeeper:一个分布式、可用性高的协调服务 Sqoop：在数据库和HDFS之间高效传输数据工具。

20171007