欢迎投稿

今日深度:

步入Hadoop,

步入Hadoop,


数据的存储与分析 数据存储:90年代 普通磁盘存储1370M数据,读取速度 4.4M/s 读取时间需五分钟 二十年后 1T数据,读取速度100M/s 读取时间2.5H 减少速去时间:同时从多个磁盘并行读取数据。 1个磁盘 数据分成100个磁盘存储,同时读取 。存储100个数据集 产生硬件问题,导致数据丢失 数据分析任务需集合大部分数据共同完成。 Hadoop两部分核心:HDFS实现存储,MapReduce实现分析处理。
MapReduce:采用一种蛮力方法。每个查询需要处理整个数据集或大部分数据集,是一个批量查询处理器。
关系型数据库管理系统 数据分析选择MapReduce?RDBMS? 磁盘的发展趋势:寻址时间的提高远远慢于传输速率的提高 寻址:将磁头移动到磁盘位置进行读写操作的过程(导致磁盘操作延迟的主要原因) 传输速率取决于带宽 关系型数据库和MapReduce的比较
数据大小 GB PB
访问 交互式和批处理 批处理
更新 多次读写 一次写入多次读取
结构 静态模式 动态模式
完整性
横向扩展 非线性 线性
数据集: 结构化数据:具有既定格式的实体化数据 半结构化数据:比较松散。如一张电子表格,单元格对应任何形式的数据 非结构化数据:没什么特别的内部结构。如纯文本或图像数据
Hadoop项目如下: Common:一组分布式文件系统和通用I/O的组件与接口 Avro:一种支持高效的、跨语言的RPC以及永久存储数据的序列化系统 MapReduce:分布式数据处理模型和执行环境,运行于大型商用机集群 HDFS:分布式文件系统 Pig:一种数据流语言和运行环境,用以检索非常大的数据集 Hive:一个分布式,按列存储的数据仓库 Hbase:一个分布式按列存储数据库 Zookeeper:一个分布式、可用性高的协调服务 Sqoop:在数据库和HDFS之间高效传输数据工具。
20171007

www.htsjk.Com true http://www.htsjk.com/Hadoop/41774.html NewsArticle 步入Hadoop, 数据的存储与分析 数据存储:90年代 普通磁盘存储1370M数据,读取速度 4.4M/s 读取时间需五分钟 二十年后 1T数据,读取速度100M/s 读取时间2.5H 减少速去时间:同时从多个磁盘...
相关文章
    暂无相关文章
评论暂时关闭