欢迎投稿

今日深度:

Hive与HBase,

Hive与HBase, hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成...(发布于2019-11-17 04:53:34)

hive常用函数,

hive常用函数, 字符串函数 字符串长度函数:length   Java代码   语法: length(string A)   返回值:  int    说明:返回字符串A的长度   举例:   hive select length(‘abcedfg’) from dual; ...(发布于2019-11-17 04:53:30)

hive bucket,

hive bucket, hive中table可以拆分成partition,table和partition可以通过‘CLUSTERED BY ’进一步分bucket,bucket中的数据可以通过‘SORT BY’排序。 bucket主要作用: 1. 数据sampling 2. 提升某些查询操作...(发布于2019-11-17 04:53:26)

hive简介,

hive简介, Hive 由 Facebook 实现并开源,是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能,底层数据是存储在 HDFS 上。Hive的本质是...(发布于2019-11-17 04:53:21)

Hive 权限,

Hive 权限, 一. 简要介绍 1.Storage Based Authorization in the Metastore Server 2.SQL Standards Based Authorization in HiveServer2 3.Default Hive Authorization (Legacy Mode)    二.版本 通过 hive.security.authorization.manager 来...(发布于2019-11-15 22:10:27)

Hive基础,

Hive基础, 一.hive的数据类型 基本类型:整数类型,浮点类型,布尔类型,字符串类型;复杂的数据类型(新增): 数组类型array: 创建表: create table student (sid int,game string,grade arrayfloat)...(发布于2019-11-15 22:10:23)

hive的mapjoin,

hive的mapjoin, 今天遇到一个Hive的问题,如下hive sql: select f.a,f.b from A t join B f  on ( f.a=t.a and f.ftime=20110802)   该语句中B表有30亿行记录,A表只有100行记录,而且B表中数据倾斜特别严重...(发布于2019-11-15 22:10:19)

Spark--Datasource(Hive),

Spark--Datasource(Hive), package com .spark .sparksql .datasource .java ; import org .apache .spark .SparkConf ; import org .apache .spark .api .java .JavaSparkContext ; import org .apache .spark .sql .DataFrame ; import org .apache ....(发布于2019-11-15 22:10:15)

hive 备忘,

hive 备忘, 关于数字类型支持的位数类型 支持数字位数 tinyint 3位数字 smallint 5位数字 int 10位数字 bigint 19位数字 join on left semi join: 发现是由于子表中存在重复的数据,当使用JOIN ON的时...(发布于2019-11-15 22:10:11)

hive初体验,

hive初体验, Hive 基于Hadoop的一个数据仓库工具,构建于hadoop的hdfs和mapred之上,用于管理和查询结构化/非结构化数据的数据仓库。可以将结构化的数据文件映射为一张数据库表,并提供...(发布于2019-11-15 22:10:07)

Hive介绍,

Hive介绍, 目录 1 Hive架构 2 Hive工作原理 3 Hive特点 4 Hive与RDBMS的对比 5 Hive部署 6 Hive数据类型 6.1 列类型 6.2 文字类型 6.3 NULL类型 6.4 复杂类型 7 HQL与代码实例 7.1 创建数据库 7.2 创建表...(发布于2019-11-15 22:10:03)

Hive相关,

Hive相关, Hive介绍 Hive是一个数据仓库工具。 可以通过类SQL的语句快速实现MR统计,十分适合数据仓库的统计分析。 Hive是建立在Hadoop上的数据仓库基础架构,可以用来进行数据提取,转...(发布于2019-11-15 22:09:59)

Hive数据类型,

Hive数据类型, 概述 Hive的内置数据类型可以分为两大类:(1)、基础数据类型;(2)、复杂数据类型。 基础数据类型 数据类型 所占字节 开始支持版本 TINYINT 1byte,-128 ~ 127   SMALLINT 2byte,...(发布于2019-11-15 22:09:55)

hive性能调优,

hive性能调优, 原文:http://www.tuicool.com/articles/rMvQvm ---------------------------------------------------------------------- limit 限制调整 -- 因为使用 limit 语句时候,是先执行整个查询语句,然后再返...(发布于2019-11-15 22:09:51)

hive日志分析,

hive日志分析, 一、数据来源: 对技术论坛网站的tomcat access log日志进行分析,计算该论坛的一些关键指标,供运营者进行决策时参考。 开发该系统的目的是为了获取一些业务相关的指...(发布于2019-11-14 22:57:55)

Hive数据倾斜,

Hive数据倾斜, map/reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时...(发布于2019-11-14 22:57:51)

Hive Tips,

Hive Tips, 原文链接:http://blog.hesey.net/2012/04/hive-tips.html 在Hive中,某些小技巧可以让我们的Job执行得更快,有时一点小小的改动就可以让性能得到大幅提升,这一点其实跟SQL差不多。 首...(发布于2019-11-14 22:57:47)

初识HIVE,

初识HIVE, Hive概述 基本组成(用户接口) CLI JDBC/ODBC Web UI 元数据存储 1)元数据是什么? 存储在Hive中的数据的描述信息 2)有哪些? 表的名、表的列和分区以及属性(内部表和外部表...(发布于2019-11-14 22:57:43)

hive 命令,

hive 命令, 1) 查看配置项 set javax.jdo.option.ConnectionURL; 2) DDL 新建表: create table logs(ts bigint, line string)  partitioned by (dt string, country string)   row format delimited fields terminated by '\t';  插入记...(发布于2019-11-14 22:57:39)

hive的安装,

hive的安装, 1.brew install hive 2. 进入mysql: mysql -uroot -proot进入mysql show databases; 查看databases,若进入hive数据库,则是use hive; 3. conf文件夹中新建两个文件hive-site.xml,conf文件是配置文件 hive-s...(发布于2019-11-14 22:57:35)