HBASE介绍，

和通数据库htsjk.Com2019-11-22 23:22 来源:未知阅读:1622 评论 495 热度3

标签：

HBASE介绍，

HBASE介绍

HBase是Apache下Hadoop项目的子项目，该技术来源于 Fay Chang 所写的Google论文《Bigtable》。
HBase是一个分布式、面向列存储（Column-Based）的开源数据库，可以存储海量数据（基于Hadoop的HDFS），具有低延迟的数据查询能力（秒级甚至毫秒级），属于NoSQL型数据库，即非关系型数据库。（mysql，oracle都是面向行存储）

行存储 VS 列存储

什么是行存储（Row-Based）？什么是列存储（Column-Based）？它们有什么区别，简单来说两者的区别就是如何组织表：
Ø Row-based storage stores atable in a sequence of rows.
Ø Column-based storage storesa table in a sequence of columns.
首先我们来看下这张图：

从上图可以清楚的看出，行式存储下一张表的数据都是放在一起的，但是列式存储下都是被分开保存的，所以它们就有了如下这些优缺点：
数据写入上对比
1）行存储写入是一次性完成，如果这种写入建立在操作系统的文件上，可以保证写入过程的成功或者失败，因此可以确定数据的完整性。
2）列存储由于把一行记录拆分成单列写入，写入的次数明显比行存储方式多,如果是机械硬盘，意味着磁头调度的次数多，而磁头调试是需要时间的（一般在1ms~10ms），再加上磁头在磁片上移动和定位也花费时间，所以从写入上来说行存储有老大的优势。
3）数据修改实际上也是一次写入过程，不同的是，数据修改是对磁盘上的记录做删除标记，行存储是在指定位置写入一次，列存储是将磁盘定位到多个列上分别写入，这个过程仍是行存储方式占优。
数据读取上对比
1）数据读取是时，行存储通常是将一行的数据完全读出，如果只需要其中几列的数据，就会产生冗余列，出于缩短处理时间的考量，消除冗余列的过程通常都是在内存中进行的。
2）列存储每次读取的数据是集合的一段或者全部，不存在冗余问题。
3）两种存储方式的数据分布，由于列存储的每一列数据类型都是同质的，不存在两义性情况，比如说某列数据类型为整型（Int），那么它的数据集合一定是整型数据，这种情况使数据解析变得非常不易。相比之下，行存储则要复杂的多，因为每一行中保存了多种数据类型，数据解析需要在多种数据类型之间转换，这个过程很消耗CPU，增加了解析的时间，所以列存储的解析过程更有利于分析处理大数据。
经上，显而易见两种存储方式各有各的优缺点，总结为：
行存储方式的写入时消耗时间比列存储方式的少，并且能保证数据完整性，缺点是读取过程中会产生冗余数据，如果在数据量大时会影响到数据处理效率。
列存储在写入、保证数据完整性上都不如行存储，但优点是读取过程中不会产生冗余数据，这对于数据完整性不高时的大数据处理领域，犹为重要。
行式存储和列式存储数据库的特性
传统行式数据库的特性如下：
①数据是按行存储的。
②没有索引的查询使用大量I/O，一般的数据库表都会建立索引，通过索引加快查询效率。
③建立索引和物化视图需要花费大量的时间和资源。
④面对查询需求，数据库必须被大量膨胀才能满足需求。
列式数据库的特性如下：
①数据按列存储，即每一列单独存放。
②数据即索引。
③只访问查询涉及的列，可以大量降低系统I/O。
④每一列由一个线程来处理，即查询的并发处理性能高。
⑤数据类型一致，数据特征相似，可以高效压缩。比如有增量压缩、前缀压缩算法都是基于列存储的类型定制的，所以可以
大幅度提高压缩比，有利于存储和网络输出数据带宽的消耗。

HBASE基本概念

HBase以表的形式存储数据，表由行键（Row Key）和列族（Column Family）组成，列族可以有若干个列。
行键（Row Key）
HBase本质上也是一种key-value结构的存储，行键（Row Key）相当于key，列族数据的集合相当于Value。与其它nosql数据库一样，行键（Row Key）就用来检索记录的主键，访问HBase table中的行只有3种方式：1.通过单个行键（Row Key）访问，2.通过行键（Row Key）的 range，3.全表扫描。
行键（Row Key）可以是任意字符串（最大长度是64KB，实际应用中长度一般为10~100bytes），在HBade内部，row key保存不字节数组。存储时数据按照row key的字典序（byte order）排序存储（设计key时要充分利用这一特性，将经常一起读取的行存储到一起）。
注：字典序对int排序的结果是
1,10,100，11,12,13,14,15,16,17,18,19,
2,20,21…,9,91,92,93,94,95,96,97,98,99。如果想要保持整形的自然顺序，行键必须用0作左填充。
列族 (Column Family）
hbase表中的每个列，都归属与某个列族,列族是表schema的一部分(列不是)，列族必须在使用表之前定义,列名都以列族作为前缀。例如 courses:history ， courses:math 中history和math都属于courses 这个列族。
访问控制、磁盘和内存的使用统计都是在列族层面进行的。实际应用中，列族上的控制权限能帮助我们管理不同类型的应用：我们允许一些应用可以添加新的基本数据、一些应用可以读取基本数据并创建继承的列族、一些应用则只允许浏览数据（甚至可能因为隐私的原因不能浏览所有数据）。

建议建表时，列族数量不宜过多，此外最好将具有相似I/O特征的列放在一个列族下，能有效的提高数据写入时效率。

cell与时间戳
cell由{Row key,column(=+),version}唯一确定的单元，cell中的数据是没有类型的，全部是字节码形式存储。每个cell都保存着同一份数据的多个版本，版本通过时间戳来索引。时间戳的类型是64位整形，时间戳可以由HBase(数据写入时自动）赋值，此时时间戳是精确到毫秒的当前系统时间。时间戳也可以由客户显示赋值，如果应用程序要避免数据版本的冲突，就必须自己生成具有唯一性的时间戳。
每个cell中，不同版本的数据按照时间倒序排序，即最新的数据排在最前面。为了避免数据存在过多版本造成的管理负担，HBase提供了两种数据版本回收方式，一是保存数据的最后N个版本，二是保存最近一段时间内的版本（例如最近3天），用户可对针对每个列族进行设置。（如果不设置默认是保存最近的3个版本）

HBASE基础指令

常用命令
create：创建表
示例：create ‘table1’,‘cf1’,‘cf2’ //创建了table1表，有cf1和cf2两个列族
注：建表时可以指定VERSION，配置当前列族在持久化到文件系统中时，要保留几个最新的版本数据，这并不影响内存中的历史数据版本
示例：create ‘table1’,{NAME=>‘cf1’,VERSION=>3},{NAME=>‘cf2’,VERSION=>3}//创建table1表时指定cf1和cf2列族保存的最新版本为3个，如果有第4个版本时，会把时间最久的那个版本删除。
list: 查看一共有哪些表
put：向表里插入数据
示例：put ‘table1’,‘row1’,‘cf1:name’,‘tom’ //向table1表中插入一条数据，其中行键是row1，cf1列族下插入name列，name列下插入tom数据
get :查询数据，可以根据表名和行键查询
示例:get ‘table1’,‘row1’//查询table1表中行键为row1的所有数据
get ‘table1’,‘row1’,‘cf1’
get ‘table1’,‘row1’,‘cf1’,‘cf2’
get ‘table1’,‘row1’,‘cf1:name’
scan:扫描全表，可以跟指定的条件
示例：scan ‘table1’//扫描全表，会查出table1表中所有的数据
scan ‘tabl1’,{COLUMNS=>[‘cf1’]}//查询table1表中行键为row1的所有数据
scan ‘tabl1’,{COLUMNS=>[‘cf1’,‘cf2’]}
scan ‘tabl1’,{COLUMNS=>[‘cf1:name’]}
scan ‘tabl1’,{COLUMNS=>[‘cf1:name’,‘cf2:salary’]}
scan ‘tabl1’,{RAW=>true,VERSION=>3}//RAW=>true表示开启对历史版本数据的查询，VERSION=>3指定查询最新的3 个版本数据
deleteall:删除数据，根据表名、行键删除整行数据
示例：deleteall ‘table1’,‘row1’
drop:删除表，//hbase中如果要删除表，必须先把要删除的表禁用
示例:drop ‘table1’
disable:禁用表
示例：disable ‘table1’
exit:退出
使用说明
当我们第一次使用HBase时，在命令行下不能使用Backspace键回删输入的内容，可以使用ctrl+Backspace组合键删除，也可以修改自己使用的shell工具的配置，我使用的Xshell，配置如下：

HBASE API

首先在自己的开发工具中要导入HBase jar包，如果没有可以去网上找。
创建表
import java.util.ArrayList;
import java.util.Iterator;
import java.util.List;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.HColumnDescriptor;
import org.apache.hadoop.hbase.HTableDescriptor;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.Delete;
import org.apache.hadoop.hbase.client.Get;
import org.apache.hadoop.hbase.client.HBaseAdmin;
import org.apache.hadoop.hbase.client.HTable;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.client.ResultScanner;
import org.apache.hadoop.hbase.client.Scan;
import org.junit.Test;
//以上是我所用到的架包
public class TestDemo {
@Test
public void createTable() throws Exception{
//–获取HBase的环境参数对象
Configuration conf=HBaseConfiguration.create();
conf.set(“hbase.zookeeper.quorum”,
“hadoop01:2181,hadoop02:2181,hadoop03:2181”);//如果写的是服务器名，需要配置自己的hosts文件，一般路径都是：C:\Windows\System32\drivers\etc
HBaseAdmin admin=new HBaseAdmin(conf);
//指定表名
HTableDescriptor table=
new HTableDescriptor(TableName.valueOf(“tb2”));
//指定列族名
HColumnDescriptor cf1=
new HColumnDescriptor(“cf1”.getBytes());
HColumnDescriptor cf2=
new HColumnDescriptor(“cf2”.getBytes());
//–将指定的列族和表绑定
table.addFamily(cf1);
table.addFamily(cf2);
//–执行建表
admin.createTable(table);
admin.close();
}
插入数据:
@Test
public void insertData() throws Exception{
Configuration conf=HBaseConfiguration.create();
//–zk的集群地址可以只写一个，通过一个地址找到整个zk集群
//–但风险是如果这台zk宕机，则无法连接
conf.set(“hbase.zookeeper.quorum”,“hadoop01:2181”);
//–创建表对象，并指定操作的表名
HTable table=new HTable(conf,“tb1”);
//–创建行对象，并指定行键
Put put=new Put(“row1”.getBytes());
//–①参:列族名 ②参:列名 ③参：列值
//–对应的指令：put ‘tb1’,‘row1’,‘cf1:name’,‘tom’
put.add(“cf1”.getBytes(),“name”.getBytes(),“tom”.getBytes());
put.add(“cf1”.getBytes(),“age”.getBytes(),“30”.getBytes());
put.add(“cf2”.getBytes(),“city”.getBytes(),“bj”.getBytes());
//–执行插入
table.put(put);
table.close();
}
试验：插入100条数据
@Test
public void batchInsert() throws Exception{
Configuration conf=new Configuration();
conf.set(“hbase.zookeeper.quorum”,“hadoop01:2181”);
HTable table=new HTable(conf,“tb1”);
List puts=new ArrayList<>();
for(int i=0;i<100;i++){
Put put=new Put((“row”+i).getBytes());
put.add(“cf1”.getBytes(),“num”.getBytes(),(i+"").getBytes());
//–插入一行数据到HBase表
//–注意这种写法是一行一行插入，性能不高
//table.put(put);
puts.add(put);
}
//–执行批量插入，本例中是100行数据一起插入
//–在生产环境下，都是批量插入
table.put(puts);
}
获取数据
@Test
public void getData() throws Exception{
Configuration conf=new Configuration();
conf.set(“hbase.zookeeper.quorum”,“hadoop01:2181”);
HTable table=new HTable(conf, “tb1”);
//–通过行键去指定表读取数据
Get get=new Get(“row1”.getBytes());
//–执行查询,把结果集封装到Result对象
Result result=table.get(get);
//–根据指定的列族名和列名获取值
byte[] name=result.getValue(“cf1”.getBytes(),“name”.getBytes());
byte[] age=result.getValue(“cf1”.getBytes(),“age”.getBytes());
byte[] city=result.getValue(“cf2”.getBytes(),“city”.getBytes());
System.out.println(new String(name)+":"+new String(age)+":"+new String(city));
table.close();
}
获取数据集：
@Test
public void scanTable() throws Exception{
Configuration conf=new Configuration();
conf.set(“hbase.zookeeper.quorum”,“hadoop01:2181”);
HTable table=new HTable(conf, “tb1”);
//–创建扫描对象，可以通过此对象扫描整表数据
Scan scan=new Scan();
//–将整表数据封装到结果集(包含多行数据)
//–指定扫描的起始行键和终止行键,(不包含终止的行键)
//–需要记住
scan.setStartRow(“row10”.getBytes());
scan.setStopRow(“row19”.getBytes());
ResultScanner rs=table.getScanner(scan);
//–获取行数据的迭代器
Iterator it=rs.iterator();
while(it.hasNext()){
//–每迭代一次，就获取一行数据
Result result=it.next();
byte[] num=result.getValue(“cf1”.getBytes(),“num”.getBytes());
System.out.println(new String(num));
}
table.close();
}
删除数据
@Test
public void delete() throws Exception{
Configuration conf=new Configuration();
conf.set(“hbase.zookeeper.quorum”,“hadoop01:2181”);
HTable table=new HTable(conf, “tb1”);
//–根据指定行键删除
Delete delete=new Delete(“row0”.getBytes());
table.delete(delete);
//–还可以通过List 来实现批量删除
//–在生产环境下,尽可能实现批量操作
table.close();
}
删除表
@Test
public void dropTable() throws Exception{
Configuration conf=new Configuration();
conf.set(“hbase.zookeeper.quorum”,“hadoop01:2181”);
HBaseAdmin admin=new HBaseAdmin(conf);
//–先禁用tb2表
admin.disableTable(“tb2”);
//–再删除表
admin.deleteTable(“tb2”);
admin.close();
}
}
以上内容如果有帮助到你，请给笔者点个赞、转个发，不胜感激！！！！~~