Hive优化，

和通数据库htsjk.Com2019-11-11 05:34 来源:未知阅读:6234 评论 385 热度4

标签：

Hive优化，

Hive 优化
    核心思想：把Hive SQL 当做Mapreduce程序去优化
    以下SQL不会转为Mapreduce来执行（HDFS执行的）
        select 仅查询本表字段
        where 仅对本表字段做条件过滤

Explain 显示执行计划
    explain extended select count(*) from psn; 

strict 严格模式，防止误操作！
效率太低，要做限制
也很随意！

split map shuffle* reduce
竭尽全力去不经过shuffle

本地模式

开启本地模式：set hive.exec.mode.local.auto=true;
hive.exec.mode.local.auto.inputbytes.max 默认值为128M，表示加载文件的最大值，若大于该配置仍会以集群方式来运行！

并行计算(速度快)

通过设置以下参数开启并行模式：set hive.exec.parallel=true;
注意：hive.exec.parallel.thread.number 一次SQL计算中允许并行执行的job个数的最大值

严格模式下查询限制：

hive> select * from psn3; // 报错❎
FAILED: SemanticException [Error 10041]: No partition predicate found for Alias "psn22" Table "psn22"
hive> select * from psn3 where age=10 and sex='man'; // ✅

hive> select * from psn order by id desc;
FAILED: SemanticException 1:27 In strict mode, if ORDER BY is specified, LIMIT must also be specified. Error enc
ountered near token 'id'
hive> select * from psn order by id desc limit 5;
开启map-reduce操作！

Hive排序

Hive Join

Map-Side聚合

通过设置以下参数开启在Map端的聚合：set hive.map.aggr=true;

控制Hive中Map以及Reduce的数量

（1）Map数量相关的参数

mapred.max.split.size一个split的最大值，即每个map处理文件的最大值
mapred.min.split.size.per.node一个节点上split的最小值
mapred.min.split.size.per.rack一个机架上split的最小值

（2）Reduce数量相关的参数

mapred.reduce.tasks强制指定reduce任务的数量
hive.exec.reducers.bytes.per.reducer每个reduce任务处理的数据量
hive.exec.reducers.max每个任务最大的reduce数

Hive - JVM重用

通过set mapred.job.reuse.jvm.num.tasks=n; 来设置（n为task插槽个数）
缺点：设置开启之后，task插槽会一直占用资源，不论是否有task运行，直到所有的task即整个job全部执行完成时，才会释放所有的task插槽资源！

适用场景：

参考资料

Hadoop集群上搭建Hive
Hive建表并加载数据
Hive参数和动态分区
Hive分桶
Hive视图和索引
Hive运行方式和授权

Hive优化，

Hive优化，

本地模式

并行计算(速度快)

严格模式下查询限制：

Hive排序

Hive Join

相关配置参数：

Map-Side聚合

相关配置参数：

控制Hive中Map以及Reduce的数量

（1）Map数量相关的参数

（2）Reduce数量相关的参数

Hive - JVM重用

适用场景：

参考资料