欢迎投稿

今日深度:

HBase实操 | 如何使用HBase存储文本文件,hbase实操

HBase实操 | 如何使用HBase存储文本文件,hbase实操


1.文档编写目的


Fayson在前面的文章中介绍了《如何在CDH中使用Solr对HDFS中的JSON数据建立全文索引》和《如何使用Flume准实时建立Solr的全文索引》,假如我们有大量的文本文件,我们应该如何保存到Hadoop中,并实现文本文件的全文检索呢。为了介绍如何对文本文件进行全文检索,本文会先介绍如何使用HBase保存文本文件。虽然HDFS中也可以直接保存这种非结构化数据,但是我们知道像这种文本文件,一般都是10KB~1MB的小文件,因为HDFS并不擅长存储大量小文件,所以这里选择HBase来保存。


内容概述
1.文件处理流程
2.准备上传文件的Java代码
3.运行代码
4.Hue中查询验证


测试环境
1.RedHat7.4
2.CM5.14.3
3.CDH5.14.2
4.集群未启用Kerberos


2.文件处理流程 1c8408383a69d8d993159338c0f95cd662e27ea2

1.如上图所示,Fayson先在本地准备了一堆记事本文件,有中文内容的,英文内容的,有中文名的,也有英文名的。
f9530ddc6a953ec5b2bf7e8989c22d5a602bf083

中文内容示例
3e45c12e913f4401b050df807682261234d73a44
04a590dc077ca79e0fcecf37de7f4ec51439591e
2.然后通过Java程序遍历本地的文件夹所有文本文件入库到HBase,在入库过程中,我们读取文本文件的文件名作为Rowkey,另外将整个文本内容转为bytes存储在HBase表的一个column里。
3.最后可以通过Hue来进行查看文本文件的内容,当然你也可以考虑对接到你自己的查询系统。


3.准备上传文件的Java代码


1.首先是准备Maven文件 cd5f304c0029e86d56ce26bbe869a95faaffaea3
6fac34262525b483de0c7e3de37ae038f3036fa7
8f5f6ffb00e5bc35c24cbe0b666cbdb98f5bbb66

2.准备上传文件到HBase的Java代码2.准备上传文件到HBase的Java代码
380d33cf4b2ace7ee5d759c62e0e854ce2719c63
09b86b3bc5d9fed80f4b06660f9a0ee7d313cb17
dba17e82ba9364edf1336bcee8ecbf5bc1eee678

2.准备上传文件到HBase的Java代码
b95ec03053b8165a641f75f27250ad45b9e0a753
3f7d4fb23bc21943b041d558cf21934c6734c6ae
ae240e656afc90a695f55965f7fc899ffc61a488
56271bf7854fd07a0a2a87e41f402660952f92f9
4.运行代码



1.首先我们在HBase中建一张表用来保存文本文件 578df5fde4df90a0cc855234b602169cfeb38829

2.配置客户端Windows机器的hosts文件
bdc123038f73e44ee48296ae5d4af7c95d0b95dd

3.注意修改代码中的配置项,如文本文件所在的目录,集群的Zookeeper地址等。Fayson这里为了使用方便,就不打成jar包到集群运行,直接在Eclipse里运行代码。
b748a6c10abdc722bab062f58e3750b1f496ca83
4.到HBase中进行查询确认
ec43454d107500a78c0127c278650b314ad9b43c


一共21条,表明全部入库成功
a1151e340a5fbdbbdcabbe6c52c21e5011f50a25

5.Hue中查询验证



1.从Hue中进入HBase的模块 472f505b05f4b6a1de0947b7e14a579749cfce66

单击某个column,可以查看整个文本内容 0808f16b91bd495752ec62087ab49c9d5bf2d0e2


2.查询某一个Rowkey进行测试
57f7d39d56669f970176df0e16da86a99fc611a6

本文所使用的代码源码GitHub地址:

https://github.com/fayson/cdhproject/blob/master/hbasedemo/src/main/java/com/cloudera/hbase/Text2HBase.java

https://github.com/fayson/cdhproject/tree/master/hbasedemo/full-text-index


d3f2f0da5b6761a64c7049db7719525a2c492a0c


大家工作学习遇到HBase技术问题,把问题发布到HBase技术社区论坛http://hbase.group,欢迎大家论坛上面提问留言讨论。想了解更多HBase技术关注HBase技术社区

www.htsjk.Com true http://www.htsjk.com/hbase/11194.html NewsArticle HBase实操 | 如何使用HBase存储文本文件,hbase实操 1.文档编写目的 Fayson在前面的文章中介绍了《如何在CDH中使用Solr对HDFS中的JSON数据建立全文索引》和《如何使用Flume准实时建立Solr的全文...
评论暂时关闭