欢迎投稿

今日深度:

hive查询hbase

hive查询hbase


查询的确是不太方便,除了指定,或者通过指定 进行之外,没有更有效的查询方式 如果想通过列值过滤,只能全表扫描了 如果要搞什么或者(除非你的做了相应设计) 更是没法弄 在传统的得心应手的查询在上就是束手束脚

解决问题,但为了查询去写,代价未免有点高 于是出现了

    ,这个会直接操作HBase,可能会对线上产生影响

    将HBase表导入到HDFS上,比如

  1. , 
     cid ,
     content ,
     ctime ,
     gmt_create ,
     hostName ,
     item ,
     mtime ,
     otags ,
     priority ,
     retry ,
     result ,
     srcImages ,
     src_url ,
     status ,
     summary ,
     task_type ,
     title ,
     userId ,
     userNick ,
     utags ,
     writer 
     ) 
     ROW FORMAT DELIMITED FIELDS TERMINATED BY 
     LOCATION ;

  2.  cid,result  task_history limit ;
     Total MapReduce jobs = 1
     Launching Job 1 out of 1
     Number of reduce tasks is    since there

  1.   task_history;
  2. , 
    cid ,
    content ,
    ctime ,
    gmt_create ,
    hostName ,
    item ,
    mtime ,
    otags ,
    priority ,
    retry ,
    result ,
    srcImages ,
    src_url ,
    status ,
    summary ,
    task_type ,
    title ,
    userId ,
    userNick ,
    utags ,
    writer 
    )
    PARTITIONED BY (dt ) 
    ROW FORMAT DELIMITED FIELDS TERMINATED BY 
    LOCATION ;
  3.   task_history  PARTITION(dt=) LOCATION ;
  4. 或者其他导出工具将HBase表导出到HDFS,正如前面提到的每天一个目录(以日期命名)
  5. `) LOCATION '/group/wireless-arctic/task/`date -d yesterday +`';"
  6.  *  task_history  dt= limit ;

www.htsjk.Com true http://www.htsjk.com/shujukunews/350.html NewsArticle hive查询hbase 查询的确是不太方便,除了指定 ,或者通过指定 进行 之外,没有更有效的查询方式 如果想通过列过滤,只能全表扫描了 如果要搞什么 或者 (除非你的 做了相应设计)...
相关文章
    暂无相关文章
评论暂时关闭