大数据（二十八）HBASE【Hbase 体系架构】，

和通数据库htsjk.Com2019-11-12 23:25 来源:未知阅读:17099 评论 574 热度2

标签：

大数据（二十八）HBASE【Hbase 体系架构】，

一、Hbase 体系架构
        其中Client是客户端，连接Hbase的工具；Zookeeper实现Hbase高可用；HMaster是调度者，告诉我们的访问程序那张表在哪；HRegionServer存放数据；HRegion是表的一部分（表数据过大可能会分为若干个HRegion）；每个HRegion中有一个HLog，用于版本恢复；每个HRegion中有若干个Store（0--n个）；Store中有MemStore（内存），当MenStore满了之后，将数据写入StoreFile/HFile（注：StoreFile和HFile是一个东西，前者是相对于HBase来说的，后者是相对Hadoop来说的）。         其官方解释如下：         – Client
                • 包含访问HBase的接口并维护cache来加快对HBase的访问
        – Zookeeper
• 保证任何时候，集群中只有一个master
                • 存贮所有Region的寻址入口。
                • 实时监控Region server的上线和下线信息。并实时通知Master
                • 存储HBase的schema和table元数据         – Master
                • 为Region server分配region
          • 负责Region server的负载均衡
          • 发现失效的Region server并重新分配其上的region
      • 管理用户对table的增删改操作
        – RegionServer
          • Region server维护region，处理对这些region的IO请求
                • Region server负责切分在运行过程中变得过大的region

二、HBase数据模型
        – Region
        – HBase自动把表水平划分成多个区域(region)，每个region会保存一个表里面某段连续的数据；每个表一开始只有一个region，随着数据不断插入表，region不断增大，当增大到一个阀值的时候，region就会等分会两个新的region （裂变）；
        – 当table中的行不断增多，就会有越来越多的region。这样一张完整的表被保存在多个Regionserver 上。
        – Memstore 与 storefile
        – 一个region由多个store组成，一个store对应一个CF（列族）
        – store包括位于内存中的memstore和位于磁盘的storefile写操作先写入memstore，当memstore中的数据达到某个阈值，hregionserver会启动flashcache进程写入storefile，每次写入形成单独的一个storefile
        – 当storefile文件的数量增长到一定阈值后，系统会进行合并（minor、major compaction），在合并过程中会进行版本合并和删除工作（majar），形成更大的storefile
        – 当一个region所有storefile的大小和超过一定阈值后，会把当前的region分割为两个，并由hmaster分配到相应的regionserver服务器，实现负载均衡
        – 客户端检索数据，先在memstore找，找不到再找storefile
        – HRegion是HBase中分布式存储和负载均衡的最小单元。最小单元就表示不同的HRegion可以分布在不同的 HRegion server上。
    – HRegion由一个或者多个Store组成，每个store保存一个columns family。
        – 每个Strore又由一个memStore和0至多个StoreFile组成。如图：StoreFile以HFile格式保存在HDFS上。