Hadoop实战-中高级部分 之 Hadoop IO,hadoop实战部分io
Hadoop RestFul Hadoop HDFS原理1 Hadoop HDFS原理2 Hadoop作业调优参数调整及原理 Hadoop HA Hadoop MapReduce高级编程 Hadoop IO Hadoop MapReduce工作原理 Hadoop 管理 Hadoop 集群安装 Hadoop RPC 第一部分:数据完整性 数据完整性及其采用的技术 保证数据在传输过程中不损坏 ,常见的保证数据完整性采用的技术 A.奇偶校验技术 B.ECC校验纠错技术 C.CRC-32循环冗余校验技术 HDFS的数据完整性 HDFS以透明方式校验所有写入它的数据,并在默认设置下,会在读取数据时验证校验和。针对数据的每个io.bytes.per.checksum(默认512字节)字节,都会创建一个单独的校验和。 数据节点负责在存储数据及其校验和之前验证它们收到的数据。 从客户端和其它数据节点复制过来的数据。客户端写入数据并且将它发送到一个数据节点管线中,在管线的最后一个数据节点验证校验和。 客户端读取数据节点上的数据时,会验证校验和,将其与数据节点上存储的校验和进行对比。每个数据节点维护一个连续的校验和验证日志,因此它知道每个数据块最后验证的时间。每个数据节点还会在后台线程运行一个DataBlockScanner(数据块检测程序),定期验证存储在数据节点上的所有块,为了防止物理存储介质中位衰减锁造成的数据损坏。 HDFS通过复制完整的副本来产生一个新的,无错的副本来“治愈”哪些出错的数据块。工作方式:如果客户端读取数据块时检测到错误,抛出Checksum Exception前报告该坏块以及它试图从名称节点中药读取的数据节点。名称节点将这个块标记为损坏的,不会直接复制给客户端或复制该副本到另一个数据 节点。它会从其他副本复制一个新的副本。 本地文件系统 Hadoop的本地文件系统执行客户端校验。意味着,在写一个名filename的文件时,文件系统的客户端以透明的方式创建一个隐藏.filename.crc。在同一个文件夹下,包含每个文件块的校验和。 数据块大小由io.bytes.per.checksum属性控制,块的大小作为元数据存储在.crc文件中。也可能禁用校验和:底层文件系统原生支持校验和。这里通过 RawLocalFileSystem来替代LocalFileSystem完成。要在一个应用中全局使用,只需要设置fs.file.impl值为 org.apache.hadoop.fs.RawLocalFileSystem来重新map执行文件的URL。或者只想对某些读取禁用校验和校验。例子: Configuration conf = ... FileSystem fs = new RawLocalFileSystem(); fs.initialize(null, conf); ChecksumFileSystem LocalFileSystem使用ChecksumFileSystem(校验和文件系统)为自己工作,这个类可以很容易添加校验和功能到其他文件系统中。因为ChecksumFileSystem也包含于文件系统中。 第二部分:压缩 编码/解码 编码/解码器:用以执行压缩解压算法。 •DEFLATE org.apache.hadoop.io.compress.DefaultCodec •gzip org.apache.hadoop.io.compress.GzipCodec •bzip2 org.apache.hadoop.io.compress.Bzip2Codec •LZO com.hadoop.compression.lzo.LzopCodec •CompressionCodec 对流进行进行压缩与解压缩 •CompressionCodecFactory 方法来推断CompressionCodec Hadoop支持的压缩形式
| 压缩格式 | 工具 | 算法 | 文件扩展名 | 多文件 | 可分割性 |
| DEFLATE | 无 | DEFLATE | .deflate | 不 | 不 |
| gzip | gzip | DEFLATE | .gz | 不 | 不 |
| bzip2 | bzip2 | bzip2 | .bz2 | 不 | 是 |
| LZO | lzop | LZO | .lzo | 不 | 不 |
| 压缩格式 | Java 实现 | 本地实现 |
| DEFLATE | 是 | 是 |
| Gzip | 是 | 是 |
| Bzip2 | 是 | 否 |
| LZO | 否 | 是 |
第三部分:序列化 什么是Hadoop的序列化 •序列化(serialization) 序列化指的是将结构化对象转为字节流以便于通过网络进行传输或写入持久存储的过程。反序列化指的是将字节流转为一系列结构化对象的过程。 序列化用于:进程间通信与持久存储。 RPC序列化建议的特性 1.紧凑(Compact)即方便网络传输,充分利用存储空间 2.快速(Fast)即序列化及反序列化性能要好 3.扩展性(Extensible)即协议有变化,可以支持新的需求 4.互操作性(Interoperable)即客户端及服务器端不依赖语言的实现 Hadoop使用Writables,满足紧凑、快速,不满足扩展能及互操作性 •Hadoop的序列化不是java的序列化,Hadoop自己实现了自己的序列化机制。格式Writables。 •Hadoop中定义了两个序列化相关的接口:Writable接口和Comparable接口,这两个接口可以合成一个接口WritableComparable. Writable接口 Writable 接口 Writable 接口定义了两个方法: (1)一个用于将其状态写入二进制格式的 DataOutput 流; (2)另一个用于从二进制格式的 DataInput 流读取其状态;
我们可以使用 set() 函数来创建和设置 Writable 的值: IntWritable wirtable = new IntWritable(); writable.set(163); 同样我们也可以使用构造函数: IntWritable writable = new IntWritable(163); package org.apache.hadoop.io; import java.io.DataOutput; import java.io.DataInput; import java.io.IOException; public interface Writable { void write(DataOutput out) throws IOException; void readFields(DataInput in) throws IOException;} Writable 接口 Writable 接口定义了两个方法: (1)一个用于将其状态写入二进制格式的 DataOutput 流; (2)另一个用于从二进制格式的 DataInput 流读取其状态;
我们可以使用 set() 函数来创建和设置 Writable 的值: IntWritable wirtable = new IntWritable(); writable.set(163); 同样我们也可以使用构造函数: IntWritable writable = new IntWritable(163); WritableComparable 与 comparator IntWritable 实现了 WritableComparable 接口 ,后者是 Writable 与java.lang.Comprable 接口的子接口 package org.apache.hadoop.io; public interface WritableComparable<T> extends Writable,Comparable<T> {} Hadoop 优化比对,不需要反序列化即可比较。 package org.apache.hadoop.io; import java.util.Comparator; public interface RawComparator<T> extends Comparator<T> { public int compare( byte [] b1, int s1, int l1, byte [] b2, int s2, int l2); } WritableComparator 是一个 RawComparator 通用的实现 ,为WritableComparable classes. 它做了两件事 1.实现了 compare() 方法(返序列化) 2.它充当的是 RawComparator 的工厂类 Hadoop自带的序列化接口(Writable类) Hadoop 自带的序列化接口 实现了 WritableComparable 接口的类: 基础: BooleanWritable | ByteWritable 数字: IntWritable | VIntWritable | FloatWritable | LongWritable |VLongWritable | DoubleWritable 高级: NullWritable | Text | BytesWritable | MDSHash | ObjectWritable |GenericWritable 仅实现了 Writable 接口的类: 数组: ArrayWritable | TwoDArrayWritable 映射: AbstractMapWritable | MapWritable | SortedMapWritable •Text Text是UTF-8的Writable。可以将它理解为一种与java.lang.String 相类似的Writable。Text类代替了UTF-8类。 Text是可变的,其值可以通过调用set()方法来改变。最大存储是2GB。 •NullWritable NullWritable是一种特殊的Writable类型,因为它的序列化的长度是零。可以做占位符。 •BytesWritable
BytesWritable 是一个二进制的数据数组封装。它的序列化格式是一个int字段. BytesWritable是可变的,其值可以通过调用set()方法来改变。 •ObjectWriable ObjectWriable 适用于字段可以使用多种类型时。 •Writable集合 一共 四种: ArrayWritable和TwoDArrayWritable是针对数组与二维数组 MapWritable和SortededMapWritable 针对是Map与SortMap 自定义Writable •实现WritableComparable •实现 /** * 将对象转换为字节流并写入到输出流out中 */ write() /** * 从输入流in 中读取字节流并反序列化为对象 */ readFields(), /** * 将this对像与对象O比较*/ compareTo()方法。
第四部分:基于文件的数据结构 SequenceFile类 SequeceFile是Hadoop API提供的一种二进制文件支持。这种二进制文件直接将<key, value>对序列化到文件中。 Key是任意的Writable,Value是任意的Writable 这种文件格式 有以下好处: A.支持压缩,且可定制为基于Record或Block压缩(Block级压缩性能较优) B.本地化任务支持:因为文件可以被切分,因此MapReduce任务时数据的本地化情况应该是非常好的。 C.难度低:因为是Hadoop框架提供的API,业务逻辑侧的修改比较简单。 写SequenceFile 步骤: 1. 设置 Configuration 2. 获取 File System 3. 设置文件输出路径 4. SequenceFile.createWriter 创建 SequenceFile.Writer 然后写入 5. 调用 SequenceFile.Writer .append 追加写入 6. 关闭流 读SequenceFile 步骤: 1. 设置 Configuration 2. 获取 File System 3. 设置文件输出路径 4. SequenceFile.Reader 创建读取类 SequenceFile.Reader 5. 拿到 Key 与 Value 的 class 6. 读取 在SequenceFile使用压缩 写:压缩分为Record和Block两种。 读时自动解压。 步骤: 增加如下代码 SequenceFile.createWriter(fs, conf, path, key.getClass(), value.getClass(), SequenceFile.CompressionType.RECORD, new Bzip2Codec()) MapFile MapFile 是经过排序的带索引的 SequenceFile ,可以根据键值进行查找 . 由两部分组成,分别是 data 和 index 。 index 作为文件的数据索引,主要记录了每个 Record 的 key 值,以及该 Record 在文件中的偏移位置。在 MapFile 被访问的时候 , 索引 文件会被加载到内存,通过索引映射关系可迅速定位到指定Record 所在文件位置, 因此,相对 SequenceFile 而言, MapFile 的检索效率是高效的,缺点是会消耗一部分 内存来存储 index 数据 . 读MapFile 步骤: 1. 设置 Configuration 2. 获取 File System 3. 设置文件输出路径 4. MapFile Reader 创建读取类 . MapFile Reader 5. 拿到 Key 与 Value 的 class 6. 读取 写MapFile 步骤: 1. 设置 Configuration 2. 获取 File System 3. 设置文件输出路径 4. MapFile .createWriter 创建 MapFile .createWriter 然后写入 5. 调用 MapFile .Writer .append 追加写入 6. 关闭流 转载请注明出处【 http://sishuok.com/forum/blogPost/list/5963.html】
本站文章为和通数据库网友分享或者投稿,欢迎任何形式的转载,但请务必注明出处.
同时文章内容如有侵犯了您的权益,请联系QQ:970679559,我们会在尽快处理。