HBase源码分析之写入流程（一），hbase源码写入流程

和通数据库htsjk.Com2019-07-15 23:13 来源:未知阅读:2239 评论 350 热度2

标签：

HBase源码分析之写入流程（一），hbase源码写入流程

注：本博客的HBase源码基于1.0.2发布版本。

HBase的写分两部分，第一部分是客户端写，二是服务端的写。先看看客户端写流程：

（一）客户端先检验用户提交的Put请求的KeyValue长度是否超出配置最大长度，然后计算KeyValue的heapSize并将KeyValue放入本地的writeAsyncBuffer中。这个步骤由BufferedMutatorImpl类实现。

（二）当buffer符合一定条件，会通过AsyncProcess异步提交。HBase默认配置是自动提交的（autoFlush=true), 或者currentWriteBufferSize大于2M（默认）。

（三）提交前，AsyncProcess先检查提交任务是否已经达到阈值（默认100），达到阈值会阻塞等待。然后根据row找到对应的Region Server，查找方式是在本地缓存中获取，没有命中缓存再通过Scan方式扫描meta表，这个过程通过HConnection的locateRegion方法获取（具体实现是ConnectionManager.HConnectionImplementation)。获取RegionServer后, Put对象转换为Action<Row>对象，并根据server进行分组为Map<ServerName, MultiAction<Row>>，MultiAction是一个基于region分组的Action容器。

（四）最后程序会为每一个MultiAction构造MultiServerCallable，并通过RpcRetryingCaller进行远程rpc调用。由RpcClient建立链接管道。

配置项及默认值：

hbase.client.write.buffer = 2097152

hbase.client.keyvalue.maxsize = 10485760

hbase.client.max.total.tasks = 100

补充，autoFlush=false代表批量提交，比较适合MapReduce等离线场景，在实时应用场景需承担数据丢失风险。