欢迎投稿

今日深度:

hive sql,

hive sql, hive -e中不能有"",会解析失败,但是hive -f可以有; curl 删除索引的type失败,只好直接删掉索引重建...(发布于2019-12-18 00:09:05)

Hive之partition,

Hive之partition, 概述 hive的 partition可以认为是 RMDB中的分区,目的是query时减少全表扫描。 使用: 创建分区: create EXTERNAL TABLE IF NOT EXISTS p(id STRING COMMENT 'id') partitioned by (seq int)STORED AS...(发布于2019-12-18 00:09:01)

仅1年GitHub Star数翻倍,Flink 做了什么?,

仅1年GitHub Star数翻倍,Flink 做了什么?, 阿里妹导读: Apache Flink 是公认的新一代开源大数据计算引擎,其流水线运行系统既可以执行批处理程序也可以执行流处理程序。目前,Flink 已...(发布于2019-12-17 22:41:18)

仅1年GitHub Star数翻倍,Flink 做了什么?,

仅1年GitHub Star数翻倍,Flink 做了什么?, 作者:王峰(莫问) Apache Flink 是公认的新一代开源大数据计算引擎,其流水线运行系统既可以执行批处理程序也可以执行流处理程序。目前,...(发布于2019-12-17 22:41:06)

Hive的优化,

Hive的优化, 首先是表的优化: 1.当数据量比较大的时候常用的手段就是拆分表,大表拆小表,分区表,临时表,外部表。 2.尽量小表join大表,要把数据量小的表放在join的左边,先进行...(发布于2019-12-16 22:50:08)

Hive体系结构,

Hive体系结构, Hive体系结构 一、用户接口 用户接口主要有三个:CLI,JDBC 和 WUI 1.CLI,最常用的模式。实际上在hive 命令行下操作时,就是利用CLI用户接口。 2.JDBC,通过java代码操作,需...(发布于2019-12-16 22:50:04)

Hive的安装,

Hive的安装, 一 准备工作 安装Hive之前需要安装mysql (往mysql中存hdfs的目录) https://mp.csdn.net/postedit/89221701 注意:Hive安装在一台电脑就行,首先保证HDFS和MySql是启动的 (hive需要去hdfs上...(发布于2019-12-16 22:50:00)

hive的压缩,

hive的压缩, hive支持存储的表的文件压缩 ,压缩可以减少空间,但同时耗费性能 建表语句 create table if not exists tb02(name string,age int ,male varchar(2) )row format delimited fields terminated by "," stor...(发布于2019-12-16 22:49:57)

Hive权限控制,

Hive权限控制, 关于hive的权限控制,有些建议的做法是为不同的user建立不同的conf目录配置不同metastore,而后不同的user使用hive时就能达到很好的数据隔离的目的,但是这样有一个严重的...(发布于2019-12-16 22:49:53)

Apache Hive,

Apache Hive, http://hive.apache.org/ http://baike.baidu.com hive是基于Hadoop的一个 数据仓库 工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为M...(发布于2019-12-16 22:49:49)

Hive安装配置,

Hive安装配置, 1.下载解压安装包 下载链接:apache-hive-1.2.1-bin.tar.gz tar -xvf apache -hive - 1.2 .1 -bin . tar . gz 2.启动Hadoop 可以参考:Hadoop2.x配置HA 4.在$HIVE_HOME/bin目录下执行 ./hive 5.创建表test...(发布于2019-12-16 22:49:45)

Hive PPD,

Hive PPD, https://hortonworks.com/blog/orcfile-in-hdp-2-better-compression-better-performance/...(发布于2019-12-16 22:49:41)

hive metastore,

hive metastore, metadata时通过JPOX ORM来维护的 metadata database local derby javax.jdo.option.ConnectionURL javax.jdo.option.ConnectionDriverName RDBMS javax.jdo.option.ConnectionURL jdbc:mysql://host/db?createDatabaseIfNotExist=tr...(发布于2019-12-16 22:49:37)

hive编译,

hive编译, 1.      下载apache-hive-2.0.0-src.tar.gz,解压 2.      进入根目录, export  MAVEN_OPTS="-Xmx2g-XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m export _JAVA_OPTIONS="-Xms64m -Xmx1600m" 3. 编译:mv...(发布于2019-12-16 22:49:33)

hive应用,

hive应用, 1:hive是一个构建在hadoop上的数据仓库平台,hive提供一个被称为Hive查询语言,来查询存储在Hadoop集群中的数据。hive的查询语句会被解析为mapreduce任务,由hadoop集群执行mapRe...(发布于2019-12-15 22:07:57)

Hive基本命令,

Hive基本命令, 创建表: hive CREATE TABLE pokes (foo INT, bar STRING);         Creates a table called pokes with two columns, the first being an integer and the other a string 创建一个新表,结构与其他一样 hive...(发布于2019-12-15 22:07:54)

hive 执行计划,

hive 执行计划, 1,hive sql 的执行顺序 from... where.... select...group by... having ... order by... 2,explain查看执行计划 explain   selectcity,ad_type,device,sum(cnt)as cnt  from tb_pmp_raw_log_basic_analysis where da...(发布于2019-12-15 22:07:50)

Hive 之 优化,

Hive 之 优化, 转自:http://blog.sina.com.cn/s/blog_5745722a0102v34h.html Hive优化总结 优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。 理解hadoop的核心能力,是hive优化的根本。这是...(发布于2019-12-15 22:07:46)

Hive工作流程,

Hive工作流程, Hive工作流程 1.通过客户端提交一条Hql语句 2.通过complier(编译组件)对Hql进行词法分析、语法分析。在这一步,编译2器要知道此Hql语句到底要操作哪张表 3.去元数据库找...(发布于2019-12-15 22:07:41)

hive数据处理,

hive数据处理, 刚工作两周,大量使用到hive,总结一下使用过程中遇到的问题和容易犯的错误! 示例一.解析出http://www.test.com/catalog1/catalog2/12345678中的12345678,类似于这样的需求。 一眼...(发布于2019-12-15 22:07:37)