欢迎投稿

今日深度:

hive 认证,

hive 认证, Pluggable custom authentication : Pluggable custom authentication provides a custom authentication provider for HiveServer2. To enable it, confgure the settings as follows: property namehive.server2.authentication/name valueC...(发布于2020-02-08 22:08:28)

hive基础知识,

hive基础知识, 1. 查看hive版本号: hive --version -------- 1.2.1 2. GROUP BY 可以通过字段所在的位置进行groupby:对于1.2.1版本: SET hive.groupby.orderby.position.alias = true; 没有hive-287的版本,只能使用...(发布于2020-02-07 23:16:05)

avro in hive,

avro in hive, //HEADER HQLCREATE EXTERNAL TABLE HeaderROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe'STORED ASINPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat'OUTPUTFORMAT 'org.apache.hadoop.hive.ql....(发布于2020-02-07 23:16:01)

hive UDF,

hive UDF, use mwd;--prepare data, c_ip 为左补足0转换后值-- ETL: spv datacreate temporary function row_sequence as 'com.mwd.hive.udf.RowSequence';create temporary function parse_agent as 'com.mwd.hive.udf.HdfsRegexParseUdf';create...(发布于2020-02-07 23:15:57)

Hive体系结构,

Hive体系结构, Hive是一种建立在hadoop上的数据仓库架构,可以用来进行数据ETL,并对存储在hdfs中的数据进行查询、分析和管理。 1、Hive架构与基本组成 下面是Hive的架构图。 图1.1 Hive体...(发布于2020-02-07 23:15:53)

hive常用命令,

hive常用命令, 创建新表 hive CREATE TABLE t_hive (a int, b int, c int) ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘\t’; 导入数据t_hive.txt到t_hive表 hive LOAD DATA LOCAL INPATH ‘/home/cos/demo/t_hive.txt’ OVERWRITE INT...(发布于2020-02-07 23:15:50)

hive 导出数据,

hive 导出数据, 1. 导出到hdfs insert overwrite directory '$hdfs_dir' select distinct concat(query,'\t',query_hash) from table_name  where day='$day'; 导出到hdfs ,不能指定分隔符,只能用默认的^A ,且不可见。想...(发布于2020-02-07 23:15:46)

hive安装配置,

hive安装配置, HIVE是一个基于Hadoop的数据仓库,适用于一些高延迟性的应用。如果对延迟性要求比较高,则可以选择Hbase。 前提:需要已经安装配置好hadoop参考:hadoop2.7.3伪分布式环境...(发布于2020-02-07 23:15:42)

hive参数,

hive参数, hive.exec.mode.local.auto 决定 Hive 是否应该自动地根据输入文件大小,在本地运行(在GateWay运行) true hive.exec.mode.local.auto.inputbytes.max 如果 hive.exec.mode.local.auto 为 true,当输入文件...(发布于2020-02-07 23:15:39)

HIVE与mysql,

HIVE与mysql, hive是一个基于Hadoop的数据仓库平台。通过hive,我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言:HQL,能 够将用户编写的QL转化为相应的Mapreduce程序基于...(发布于2020-02-07 23:15:35)

hive优化,

hive优化, 1.hive小文件合并 输出合并 合并输出小文件。输出时,若是太多小文件,每个小文件会与一个block进行对应,而block存在的意义是为了方便在namenode中存储,那么过多的block将会...(发布于2020-02-07 23:15:30)

HIVE一,

HIVE一, Hive的数据存储 1、Hive中所有的数据都存储在 HDFS 中,没有专门的数据存储格式(可支持Text,SequenceFile,ParquetFile,RCFILE等) Mysql有自己的数据存储格式,如window的mysql 表的存储...(发布于2020-02-06 22:53:05)

hive内置函数,

hive内置函数, 数学函数 Return Type Name (Signature) Description DOUBLE round(DOUBLE a) Returns the rounded BIGINT value of a . 返回对a四舍五入的BIGINT DOUBLE round(DOUBLE a, INT d) Returns a rounded to d decimal places. 返回...(发布于2020-02-06 22:53:00)

hive笔记,

hive笔记, 纯笔记: Hive: 读写及管理分布式数据集的机制,使用SQL来读写及管理分布式数据集的机制,是一个数据仓库软件,重在分析过程,对时效性不敏感,只读数据放到hive进行分析...(发布于2020-02-06 22:52:56)

Hive调优,

Hive调优, 1. join连接时的优化:当三个或多个以上的表进行join操作时,如果每个on使用相同的字段连接时只会产生一个mapreduce。                                     当多个表进行查...(发布于2020-02-06 22:52:52)

HIVE自定义函数,

HIVE自定义函数, -》自定义函数 1)创建工程,加载hive的依赖包 2)编写代码,需要继承 UDF 3)打包 export jar file 4)双传jar包到linux目录下 5)启动hive  6)add jar jar路径   //不要加引号 ad...(发布于2020-02-06 22:52:47)

hive的启动,

hive的启动, 一、通过 Hive CLI (command line interface)方式启动 $ bin/hive15/10/20 15:12:01 INFO Configuration.deprecation: mapred.input.dir.recursive is deprecated. Instead, use mapreduce.input.fileinputformat.input.dir.rec...(发布于2020-02-06 22:52:43)

HIVE 命令行,

HIVE 命令行, 执行一个查询 $HIVE_HOME/bin/hive -e 'select a.col from tab1 a' 之后过程中,会在终端上显示mapreduce的进度,执行完毕后,最后把查询结果输出到终端上,接着hive进程退出,不会进入...(发布于2020-02-06 22:52:39)

hive级联查询,

hive级联查询, 级联查询练习建表:create table t_access_times(name string,month string,salary int)row format delimitedfields terminated by ',';数据:load data local initdb '/root/jilian_data.txt' into table t_access_times;A,...(发布于2020-02-06 22:52:35)

HIVE 简介,

HIVE 简介, 1、什么是Hive? Hive是基于Hadoop文件系统之上的数据仓库架构,它为数据仓库的管理提供了许多功能:数据ETL(抽取、转换、加载)工具、数据存储管理和大型数据集的查询和...(发布于2020-02-06 22:52:32)