hive数据模型,
hive数据模型, Hive 中所有的数据都存储在 HDFS 中, Hive 中包含以下数据模型: Table , ExternalTable , Partition , Bucket 。 Hive 中的 Table 和数据库中的 Table 在概念上是类似的,每一个...(发布于2019-12-13 22:10:25)
源码编译hive,
源码编译hive, hive -hiveconf hive.root.logger=DEBUG,console(debug模式运行hive) ========================================================== 源码编译hive 环境:hadoop 0.20.2 hive 0.6 $ svn co http:/...(发布于2019-12-13 22:10:21)
HIVE快速入门,
HIVE快速入门, (一)简单入门 1、创建一个表 create table if not exists ljh_emp( name string, salary float, gender string) comment 'basic information of a employee' row format delimited fields terminated by ',’; 2、准备数...(发布于2019-12-13 22:10:17)
hive学习笔记,
hive学习笔记, 1.创建hive表 CREATE TABLE records (year STRING, name STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'; 第二行表示文件是由制表符分隔的文本, 且每行以换行符分隔。 2 .加载数据 LOAD...(发布于2019-12-13 22:10:13)
Hive的连接,
Hive的连接, oracle/mysql操作与Hive不同时会特别标注 Hive的表连接 -等值连接 -不等值连接 -外连接 -自连接 等值连接/不等值连接:就看连接是不是用= --等值连接查询员工信息:员工号,姓...(发布于2019-12-12 22:56:51)
Hive 内置函数,
Hive 内置函数, 原文见:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF 1.内置运算符 1.1关系运算符 运算符 类型 说明 A = B 所有...(发布于2019-12-12 22:56:47)
Hive简介,
Hive简介, Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数...(发布于2019-12-12 22:56:43)
hive体系结构,
hive体系结构, 用户接口:包括 CLI,Client,WUI 元数据存储:通常是存储在关系数据库如 mysql, derby 中。 解释器、编译器、优化器、执行器。 Hadoop:用 HDFS 进行存储,利用 MapReduce 进行计...(发布于2019-12-12 22:56:39)
安装Hive,
安装Hive, 从[url]http://archive.cloudera.com/cdh/3/[/url]中下载hive-0.7.1-cdh3u1.tar.gz。 在安装了Hadoop的namenode上解压Hive: $tar zxvf hive-0.7.1-cdh3u1.tar.gz -C /home/hadoop/cdh3 修改hive安装目录下/conf/hive-env.s...(发布于2019-12-12 22:56:36)
Hive 优化,
Hive 优化, 1、介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? 数据量大不是问题,数据倾斜是个问题。 jobs数比较多的作业运行效率相对比较低,比如即使...(发布于2019-12-12 22:56:32)
hive 基本语法,
hive 基本语法, DDL Operations 创建表 hive CREATE TABLE pokes (foo INT, bar STRING); 创建表并创建索引字段ds hive CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING); 显示所有表 hive SHOW TABLES; 按正...(发布于2019-12-12 22:56:28)
Hive数据倾斜,
Hive数据倾斜, 一、数据倾斜产生原因 1.操作 join 一个表很小,但是key集中;分发到某一个或者几个Reduce上的数据远高于平均值。 大表与大表,但是字段的空值很多;这些空值都由一个...(发布于2019-12-12 22:56:24)
Hive QL,
Hive QL, Hive 的官方文档中对查询语言有了很详细的描述,请参考:http://wiki.apache.org/hadoop/Hive/LanguageManual ,本文的内容大部分翻译自该页面,期间加入了一些在使用过程中需要注意到的...(发布于2019-12-12 22:56:20)
Hive笔记,
Hive笔记, 创建表同时设置字段间隔 ? 123 CREATE TABLE table_test (f_sid STRING,f_bookid STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE; 将HDFS 文件导入到HIVE表中 LOAD DATA INPATH ‘/test/’ I...(发布于2019-12-12 22:56:16)
Flink Batch SQL 1.10 实践,
Flink Batch SQL 1.10 实践, 作者:李劲松(之信) Flink作为流批统一的计算框架,在1.10中完成了大量batch相关的增强与改进。1.10可以说是第一个成熟的生产可用的Flink Batch SQL版本,它一扫...(发布于2019-12-12 22:40:09)
Hive 安装操作,
Hive 安装操作, 本篇为安装篇较简单: 前提: 1: 安装了hadoop-1.0.4(1.0.3也可以)正常运行 2:安装了hbase-0.94.3, 正常运行 接下来,安装Hive,基于已经安装好的hadoop,步骤如下: 1:下载...(发布于2019-12-11 22:10:12)
hive参数优化,
hive参数优化, 目录 小文件处理的参数 数据倾斜参数 分区表参数 并行执行参数 代码块中的参数值都是cdh 5.7的默认值. 查看hive配置的方式为 [root@namenode1 ~]# hive -e "set"| grep hive.merge.map...(发布于2019-12-11 22:10:08)
Hive分区,
Hive分区, 创建分区表 dt 是分区列 create table pt1 (id int, name string) partitioned by (dt string) row format delimited fields terminated by ',' stored as textfile; 增加分区 alter table pt1 add partition (dt='2018-07-13')...(发布于2019-12-11 22:10:04)
hive安装配置,
hive安装配置, 在MySQL和hive链接过程中出的错误耽误了好几天。今天终于解决了。 原因是在hive配置文件中 property namejavax.jdo.option.ConnectionURL/name valuejdbc:mysql://hadoop4:3306/hive_168?characterEn...(发布于2019-12-11 22:10:00)
Hive相关,
Hive相关, collect_set使用详解 http://blog.csdn.net/liyantianmin/article/details/48262109...(发布于2019-12-10 22:06:58)