[Hive]Hive排序优化,
1、从order by 到 sort by
order by:全局排序,大数据集会消耗太过漫长的时间
sort by:只会在每个reducer 中对数据进行排序,也就是执行局部排序过程,只能保证每个reducer的输出数据都是有序的(但并非全局有序)
2、sort by+distribute by
distribute by控制map的输出在reducer中是如何划分的。假设我们希望具有相同股票交易码的数据在一起处理。那么我们可以使用distribute by来保证具有相同股票交易码的记录会分发到同一个reducer中进行处理,然后使用sort by来按照我们的期望对数据进行排序。
3、cluster by
如果distribute by和sort by涉及到的列完全相同,且采用的是升序排序方式,则相当于cluster by。
注意:使用distribute by 与sort by语句或简化版的cluster by语句会剥夺sort by的并行性,然而可以实现输出文件是全局排序的。
本站文章为和通数据库网友分享或者投稿,欢迎任何形式的转载,但请务必注明出处.
同时文章内容如有侵犯了您的权益,请联系QQ:970679559,我们会在尽快处理。