hive的自定义函数，

和通数据库htsjk.Com2019-10-09 01:26 来源:未知阅读:14451 评论 532 热度2

标签：

hive的自定义函数，

自定义函数有三种
一：一个输入对应一个输出，比较常用，UDF
二：多个输入对应一个输出，又称为聚合函数，跟count函数类似，名叫UDAF
三：一个输入对应对个输出，即一个输入对应输出一张表，名叫UDTF

UDF:
写udf函数的时候需要继承UDF类，并且写至少一个evaluate方法，执行的时候会根据参数的多少调用对应的函数

UDAF:
写UDAF的时候需要继承UDAF类，并且需要实现以下方法
init() 方法 init()方法负责初始化数据和加载资源，只会调用一次
iterate()方法每次聚合都会调用，每次就算都会更新内部状态，方法会先检查参数是否为null，如果是会将该参数忽略，如果该参数是合法的我们需要返回true
terminatePaetial()方法这个方法—
merge() 方法在
terminate()方法

UDTF：
这里不进行介绍了，一般用不到

UDF 实例：

import org.apache.hadoop.hive.ql.exec.UDF;

public class MyFirstUDF extends UDF{
    public String evaluate(int a){
        if(a>10){
            return "bigdata";
        }
        return a+"";
    }
}

需要在hive里面使用

#加载jar包
hive>add jar /udf.jar
#加载临时函数
hive>create temporary function firstUDF as 'hive.MyFirstUDF';
#使用临时函数
hive>select  firstUDF() from t_sql;
#删除临时函数
hive>drop temporary function firstUDF;

UDAF实例：
未完待续—-