hive group by，

和通数据库htsjk.Com2019-10-14 22:12 来源:未知阅读:17232 评论 275 热度5

标签：

hive group by，

group by 操作：

1，Map端聚合：Map端进行部分聚合

hive.map.aggr用于设定是否在Map端进行聚合，默认hive.map.aggr=true,version:0.10.0

另外，hive.groupby.mapaggr.checkinterval=100000用于设定Map端进行聚合的操作条目

2，数据倾斜：

hive.groupby.skewdata设定是否在数据分布不均衡，即发生倾斜时进行负载均衡，当选项为hive.groupby.skewdata=true时，生成的查询计划会有两个MapReduce,在第一个MapReduce中，Map的输出结果会随机地分不到Reduce中，对Reduce做部分聚合操作并输出结果，是相同的Group by key有可能分发到

不同的reduce中，从而达到负载均衡的目的，第二个MapReduce任务在根据预处理的数据按照Group by key分不到Reduce中（保证Group by　key 分布同一个Reduce），最后完成最终的聚合操作

本站文章为和通数据库网友分享或者投稿，欢迎任何形式的转载，但请务必注明出处.
同时文章内容如有侵犯了您的权益，请联系QQ：970679559，我们会在尽快处理。

返回首页

暂无相关文章

评论暂时关闭