欢迎投稿

今日深度:

hive的自定义函数,

hive的自定义函数,


自定义函数有三种
一:一个输入对应一个输出,比较常用,UDF
二:多个输入对应一个输出,又称为聚合函数,跟count函数类似,名叫UDAF
三:一个输入对应对个输出,即一个输入对应输出一张表,名叫UDTF

UDF:
写udf函数的时候需要继承UDF类,并且写至少一个evaluate方法,执行的时候会根据参数的多少调用对应的函数

UDAF:
写UDAF的时候需要继承UDAF类,并且需要实现以下方法
init() 方法 init()方法负责初始化数据和加载资源,只会调用一次
iterate()方法 每次聚合都会调用,每次就算都会更新内部状态,方法会先检查参数是否为null,如果是会将该参数忽略,如果该参数是合法的我们需要返回true
terminatePaetial()方法 这个方法—
merge() 方法 在
terminate()方法

UDTF:
这里不进行介绍了,一般用不到

UDF 实例:

import org.apache.hadoop.hive.ql.exec.UDF;

public class MyFirstUDF extends UDF{
    public String evaluate(int a){
        if(a>10){
            return "bigdata";
        }
        return a+"";
    }
}

需要在hive里面使用

#加载jar包
hive>add jar /udf.jar
#加载临时函数
hive>create temporary function firstUDF as 'hive.MyFirstUDF';
#使用临时函数
hive>select  firstUDF() from t_sql;
#删除临时函数
hive>drop temporary function firstUDF;

UDAF实例:
未完待续—-

www.htsjk.Com true http://www.htsjk.com/hive/37276.html NewsArticle hive的自定义函数, 自定义函数有三种 一:一个输入对应一个输出,比较常用,UDF 二:多个输入对应一个输出,又称为聚合函数,跟count函数类似,名叫UDAF 三:一个输入对应对个输出...
相关文章
    暂无相关文章
评论暂时关闭