欢迎投稿

今日深度:

HBASE介绍,

HBASE介绍,


HBASE介绍

HBase是Apache下Hadoop项目的子项目,该技术来源于 Fay Chang 所写的Google论文《Bigtable》。
HBase是一个分布式、面向列存储(Column-Based)的开源数据库,可以存储海量数据(基于Hadoop的HDFS),具有低延迟的数据查询能力(秒级甚至毫秒级),属于NoSQL型数据库,即非关系型数据库。(mysql,oracle都是面向行存储)

行存储 VS 列存储

什么是行存储(Row-Based)?什么是列存储(Column-Based)?它们有什么区别,简单来说两者的区别就是如何组织表:
Ø Row-based storage stores atable in a sequence of rows.
Ø Column-based storage storesa table in a sequence of columns.
首先我们来看下这张图:

从上图可以清楚的看出,行式存储下一张表的数据都是放在一起的,但是列式存储下都是被分开保存的,所以它们就有了如下这些优缺点:
数据写入上对比
1)行存储写入是一次性完成,如果这种写入建立在操作系统的文件上,可以保证写入过程的成功或者失败,因此可以确定数据的完整性。
2)列存储由于把一行记录拆分成单列写入,写入的次数明显比行存储方式多,如果是机械硬盘,意味着磁头调度的次数多,而磁头调试是需要时间的(一般在1ms~10ms),再加上磁头在磁片上移动和定位也花费时间,所以从写入上来说行存储有老大的优势。
3)数据修改实际上也是一次写入过程,不同的是,数据修改是对磁盘上的记录做删除标记,行存储是在指定位置写入一次,列存储是将磁盘定位到多个列上分别写入,这个过程仍是行存储方式占优。
数据读取上对比
1)数据读取是时,行存储通常是将一行的数据完全读出,如果只需要其中几列的数据,就会产生冗余列,出于缩短处理时间的考量,消除冗余列的过程通常都是在内存中进行的。
2)列存储每次读取的数据是集合的一段或者全部,不存在冗余问题。
3)两种存储方式的数据分布,由于列存储的每一列数据类型都是同质的,不存在两义性情况,比如说某列数据类型为整型(Int),那么它的数据集合一定是整型数据,这种情况使数据解析变得非常不易。相比之下,行存储则要复杂的多,因为每一行中保存了多种数据类型,数据解析需要在多种数据类型之间转换,这个过程很消耗CPU,增加了解析的时间,所以列存储的解析过程更有利于分析处理大数据。
经上,显而易见两种存储方式各有各的优缺点,总结为:
行存储方式的写入时消耗时间比列存储方式的少,并且能保证数据完整性,缺点是读取过程中会产生冗余数据,如果在数据量大时会影响到数据处理效率。
列存储在写入、保证数据完整性上都不如行存储,但优点是读取过程中不会产生冗余数据,这对于数据完整性不高时的大数据处理领域,犹为重要。
行式存储和列式存储数据库的特性
传统行式数据库的特性如下:

①数据是按行存储的。
②没有索引的查询使用大量I/O,一般的数据库表都会建立索引,通过索引加快查询效率。
③建立索引和物化视图需要花费大量的时间和资源。
④面对查询需求,数据库必须被大量膨胀才能满足需求。
列式数据库的特性如下:
①数据按列存储,即每一列单独存放。
②数据即索引。
③只访问查询涉及的列,可以大量降低系统I/O。
④每一列由一个线程来处理,即查询的并发处理性能高。
⑤数据类型一致,数据特征相似,可以高效压缩。比如有增量压缩、前缀压缩算法都是基于列存储的类型定制的,所以可以
大幅度提高压缩比,有利于存储和网络输出数据带宽的消耗。

HBASE基本概念

HBase以表的形式存储数据,表由行键(Row Key)和列族(Column Family)组成,列族可以有若干个列。
行键(Row Key)
HBase本质上也是一种key-value结构的存储,行键(Row Key)相当于key,列族数据的集合相当于Value。与其它nosql数据库一样,行键(Row Key)就用来检索记录的主键,访问HBase table中的行只有3种方式:1.通过单个行键(Row Key)访问,2.通过行键(Row Key)的 range,3.全表扫描。
行键(Row Key)可以是任意字符串(最大长度是64KB,实际应用中长度一般为10~100bytes),在HBade内部,row key保存不字节数组。存储时数据按照row key的字典序(byte order)排序存储(设计key时要充分利用这一特性,将经常一起读取的行存储到一起)。
注:字典序对int排序的结果是
1,10,100,11,12,13,14,15,16,17,18,19,
2,20,21…,9,91,92,93,94,95,96,97,98,99。如果想要保持整形的自然顺序,行键必须用0作左填充。
列族 (Column Family)
hbase表中的每个列,都归属与某个列族,列族是表schema的一部分(列不是),列族必须在使用表之前定义,列名都以列族作为前缀。例如 courses:history , courses:math 中history和math都属于courses 这个列族。
访问控制、磁盘和内存的使用统计都是在列族层面进行的。实际应用中,列族上的控制权限能帮助我们管理不同类型的应用:我们允许一些应用可以添加新的基本数据、一些应用可以读取基本数据并创建继承的列族、一些应用则只允许浏览数据(甚至可能因为隐私的原因不能浏览所有数据)。

  • 建议建表时,列族数量不宜过多,此外最好将具有相似I/O特征的列放在一个列族下,能有效的提高数据写入时效率。

cell与时间戳
cell由{Row key,column(=+

HBASE基础指令

常用命令
create:创建表
示例:create ‘table1’,‘cf1’,‘cf2’ //创建了table1表,有cf1和cf2两个列族
注:建表时可以指定VERSION,配置当前列族在持久化到文件系统中时,要保留几个最新的版本数据,这并不影响内存中的历史数据版本
示例:create ‘table1’,{NAME=>‘cf1’,VERSION=>3},{NAME=>‘cf2’,VERSION=>3}//创建table1表时指定cf1和cf2列族保存的最新版本为3个,如果有第4个版本时,会把时间最久的那个版本删除。
list: 查看一共有哪些表
put:向表里插入数据
示例:put ‘table1’,‘row1’,‘cf1:name’,‘tom’ //向table1表中插入一条数据,其中行键是row1,cf1列族下插入name列,name列下插入tom数据
get :查询数据,可以根据表名和行键查询
示例:get ‘table1’,‘row1’//查询table1表中行键为row1的所有数据
get ‘table1’,‘row1’,‘cf1’
get ‘table1’,‘row1’,‘cf1’,‘cf2’
get ‘table1’,‘row1’,‘cf1:name’
scan:扫描全表,可以跟指定的条件
示例:scan ‘table1’//扫描全表,会查出table1表中所有的数据
scan ‘tabl1’,{COLUMNS=>[‘cf1’]}//查询table1表中行键为row1的所有数据
scan ‘tabl1’,{COLUMNS=>[‘cf1’,‘cf2’]}
scan ‘tabl1’,{COLUMNS=>[‘cf1:name’]}
scan ‘tabl1’,{COLUMNS=>[‘cf1:name’,‘cf2:salary’]}
scan ‘tabl1’,{RAW=>true,VERSION=>3}//RAW=>true表示开启对历史版本数据的查询,VERSION=>3指定查询最新的3 个版本数据
deleteall:删除数据,根据表名、行键删除整行数据
示例:deleteall ‘table1’,‘row1’
drop:删除表,//hbase中如果要删除表,必须先把要删除的表禁用
示例:drop ‘table1’
disable:禁用表
示例:disable ‘table1’
exit:退出
使用说明
当我们第一次使用HBase时,在命令行下不能使用Backspace键回删输入的内容,可以使用ctrl+Backspace组合键删除,也可以修改自己使用的shell工具的配置,我使用的Xshell,配置如下:

HBASE API

首先在自己的开发工具中要导入HBase jar包,如果没有可以去网上找。
创建表
import java.util.ArrayList;
import java.util.Iterator;
import java.util.List;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.HColumnDescriptor;
import org.apache.hadoop.hbase.HTableDescriptor;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.Delete;
import org.apache.hadoop.hbase.client.Get;
import org.apache.hadoop.hbase.client.HBaseAdmin;
import org.apache.hadoop.hbase.client.HTable;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.client.ResultScanner;
import org.apache.hadoop.hbase.client.Scan;
import org.junit.Test;
//以上是我所用到的架包
public class TestDemo {
@Test
public void createTable() throws Exception{
//–获取HBase的环境参数对象
Configuration conf=HBaseConfiguration.create();
conf.set(“hbase.zookeeper.quorum”,
“hadoop01:2181,hadoop02:2181,hadoop03:2181”);//如果写的是服务器名,需要配置自己的hosts文件,一般路径都是:C:\Windows\System32\drivers\etc
HBaseAdmin admin=new HBaseAdmin(conf);
//指定表名
HTableDescriptor table=
new HTableDescriptor(TableName.valueOf(“tb2”));
//指定列族名
HColumnDescriptor cf1=
new HColumnDescriptor(“cf1”.getBytes());
HColumnDescriptor cf2=
new HColumnDescriptor(“cf2”.getBytes());
//–将指定的列族和表绑定
table.addFamily(cf1);
table.addFamily(cf2);
//–执行建表
admin.createTable(table);
admin.close();
}
插入数据:
@Test
public void insertData() throws Exception{
Configuration conf=HBaseConfiguration.create();
//–zk的集群地址可以只写一个,通过一个地址找到整个zk集群
//–但风险是如果这台zk宕机,则无法连接
conf.set(“hbase.zookeeper.quorum”,“hadoop01:2181”);
//–创建表对象,并指定操作的表名
HTable table=new HTable(conf,“tb1”);
//–创建行对象,并指定行键
Put put=new Put(“row1”.getBytes());
//–①参:列族名 ②参:列名 ③参:列值
//–对应的指令:put ‘tb1’,‘row1’,‘cf1:name’,‘tom’
put.add(“cf1”.getBytes(),“name”.getBytes(),“tom”.getBytes());
put.add(“cf1”.getBytes(),“age”.getBytes(),“30”.getBytes());
put.add(“cf2”.getBytes(),“city”.getBytes(),“bj”.getBytes());
//–执行插入
table.put(put);
table.close();
}
试验: 插入100条数据
@Test
public void batchInsert() throws Exception{
Configuration conf=new Configuration();
conf.set(“hbase.zookeeper.quorum”,“hadoop01:2181”);
HTable table=new HTable(conf,“tb1”);
List puts=new ArrayList<>();
for(int i=0;i<100;i++){
Put put=new Put((“row”+i).getBytes());
put.add(“cf1”.getBytes(),“num”.getBytes(),(i+"").getBytes());
//–插入一行数据到HBase表
//–注意这种写法是一行一行插入,性能不高
//table.put(put);
puts.add(put);
}
//–执行批量插入,本例中是100行数据一起插入
//–在生产环境下,都是批量插入
table.put(puts);
}
获取数据
@Test
public void getData() throws Exception{
Configuration conf=new Configuration();
conf.set(“hbase.zookeeper.quorum”,“hadoop01:2181”);
HTable table=new HTable(conf, “tb1”);
//–通过行键去指定表读取数据
Get get=new Get(“row1”.getBytes());
//–执行查询,把结果集封装到Result对象
Result result=table.get(get);
//–根据指定的列族名和列名获取值
byte[] name=result.getValue(“cf1”.getBytes(),“name”.getBytes());
byte[] age=result.getValue(“cf1”.getBytes(),“age”.getBytes());
byte[] city=result.getValue(“cf2”.getBytes(),“city”.getBytes());
System.out.println(new String(name)+":"+new String(age)+":"+new String(city));
table.close();
}
获取数据集:
@Test
public void scanTable() throws Exception{
Configuration conf=new Configuration();
conf.set(“hbase.zookeeper.quorum”,“hadoop01:2181”);
HTable table=new HTable(conf, “tb1”);
//–创建扫描对象,可以通过此对象扫描整表数据
Scan scan=new Scan();
//–将整表数据封装到结果集(包含多行数据)
//–指定扫描的起始行键和终止行键,(不包含终止的行键)
//–需要记住
scan.setStartRow(“row10”.getBytes());
scan.setStopRow(“row19”.getBytes());
ResultScanner rs=table.getScanner(scan);
//–获取行数据的迭代器
Iterator it=rs.iterator();
while(it.hasNext()){
//–每迭代一次,就获取一行数据
Result result=it.next();
byte[] num=result.getValue(“cf1”.getBytes(),“num”.getBytes());
System.out.println(new String(num));
}
table.close();
}
删除数据
@Test
public void delete() throws Exception{
Configuration conf=new Configuration();
conf.set(“hbase.zookeeper.quorum”,“hadoop01:2181”);
HTable table=new HTable(conf, “tb1”);
//–根据指定行键删除
Delete delete=new Delete(“row0”.getBytes());
table.delete(delete);
//–还可以通过List 来实现批量删除
//–在生产环境下,尽可能实现批量操作
table.close();
}
删除表
@Test
public void dropTable() throws Exception{
Configuration conf=new Configuration();
conf.set(“hbase.zookeeper.quorum”,“hadoop01:2181”);
HBaseAdmin admin=new HBaseAdmin(conf);
//–先禁用tb2表
admin.disableTable(“tb2”);
//–再删除表
admin.deleteTable(“tb2”);
admin.close();
}
}
以上内容如果有帮助到你,请给笔者点个赞、转个发,不胜感激!!!!~~

www.htsjk.Com true http://www.htsjk.com/hbase/39379.html NewsArticle HBASE介绍, HBASE介绍 HBase是Apache下Hadoop项目的子项目,该技术来源于 Fay Chang 所写的Google论文《Bigtable》。 HBase是一个分布式、面向列存储(Column-Based)的开源数据库,可以存储海量数据...
相关文章
    暂无相关文章
评论暂时关闭