步入Hadoop,
数据的存储与分析 数据存储:90年代 普通磁盘存储1370M数据,读取速度 4.4M/s 读取时间需五分钟 二十年后 1T数据,读取速度100M/s 读取时间2.5H 减少速去时间:同时从多个磁盘并行读取数据。 1个磁盘 数据分成100个磁盘存储,同时读取 。存储100个数据集 产生硬件问题,导致数据丢失 数据分析任务需集合大部分数据共同完成。 Hadoop两部分核心:HDFS实现存储,MapReduce实现分析处理。MapReduce:采用一种蛮力方法。每个查询需要处理整个数据集或大部分数据集,是一个批量查询处理器。
关系型数据库管理系统 数据分析选择MapReduce?RDBMS? 磁盘的发展趋势:寻址时间的提高远远慢于传输速率的提高 寻址:将磁头移动到磁盘位置进行读写操作的过程(导致磁盘操作延迟的主要原因) 传输速率取决于带宽 关系型数据库和MapReduce的比较
数据大小 | GB | PB |
访问 | 交互式和批处理 | 批处理 |
更新 | 多次读写 | 一次写入多次读取 |
结构 | 静态模式 | 动态模式 |
完整性 | 高 | 低 |
横向扩展 | 非线性 | 线性 |
Hadoop项目如下: Common:一组分布式文件系统和通用I/O的组件与接口 Avro:一种支持高效的、跨语言的RPC以及永久存储数据的序列化系统 MapReduce:分布式数据处理模型和执行环境,运行于大型商用机集群 HDFS:分布式文件系统 Pig:一种数据流语言和运行环境,用以检索非常大的数据集 Hive:一个分布式,按列存储的数据仓库 Hbase:一个分布式按列存储数据库 Zookeeper:一个分布式、可用性高的协调服务 Sqoop:在数据库和HDFS之间高效传输数据工具。
20171007
本站文章为和通数据库网友分享或者投稿,欢迎任何形式的转载,但请务必注明出处.
同时文章内容如有侵犯了您的权益,请联系QQ:970679559,我们会在尽快处理。