Hive进阶,
对于离线批处理的方式,如何把数据插入进hive表;案例:传统关系型数据库的BI人员转大数据,表里面差一列,使用insert插入。hive支持insert,只支持一条一条记录插入。支持load的当时插入。
一、分区表
举例每个用户进行的每一个操作都有操作日志,便于追踪;拨打10086,点击1、2、3会跳转不同的界面;还会根据电话高级程度由不同人员接听
这些日志记录会存入关系型数据库(RDBMS)
记录表根据每天日期进行分表:
call_record_20190411
call_record_201904112
call_record_20190413
在hive中,也是如此叫分区表
/usr/hive/warehouse/emp/d=20190412
/usr/hive/warehouse/emp/d=20190413
select xxx from table where d=‘20190412’
在大数据中非常多的瓶颈是在io上面的,(1)、磁盘IO (2)、网络IO
会减少磁盘IO,因为给定了目录。
二、分区表与普通表使用无区别
本站文章为和通数据库网友分享或者投稿,欢迎任何形式的转载,但请务必注明出处.
同时文章内容如有侵犯了您的权益,请联系QQ:970679559,我们会在尽快处理。