欢迎投稿

今日深度:

MaxCompute SQL与Hive对比分析及使用注意事项,

MaxCompute SQL与Hive对比分析及使用注意事项, 摘要: 一个使用过Hadoop的Hive框架的大数据开发工程师,往往基本掌握了和通数据库的大数据计算服务MaxCompute的90%。本次分享主要通过详细对...(发布于2020-02-25 22:46:26)

102万行代码,1270 个问题,Flink 新版发布了什么?,

102万行代码,1270 个问题,Flink 新版发布了什么?, 阿里妹导读: Apache Flink 是公认的新一代开源大数据计算引擎,可以支持流处理、批处理和机器学习等多种计算形态,也是Apache 软件...(发布于2020-02-24 22:47:45)

102万行代码,1270 个问题,Flink 新版发布了什么?(附最佳实践

102万行代码,1270 个问题,Flink 新版发布了什么?(附最佳实践电子书), 作者:李钰(绝顶) 导读:Apache Flink 是公认的新一代开源大数据计算引擎,可以支持流处理、批处理和机器...(发布于2020-02-24 22:47:34)

浅析Hive/Spark SQL读文件时的输入任务划分,在搜索文件时若用户

浅析Hive/Spark SQL读文件时的输入任务划分,在搜索文件时若用户输入 Hive以及Spark SQL等大数据计算引擎为我们操作存储在HDFS上结构化数据提供了易于上手的SQL接口,大大降低了ETL等操作...(发布于2020-02-24 22:47:30)

浅析Hive/Spark SQL读文件时的输入任务划分,

浅析Hive/Spark SQL读文件时的输入任务划分, 作者: 王道远,花名健身,和通数据库EMR技术专家,Apache Spark活跃贡献者,主要关注大数据计算优化相关工作。 Hive以及Spark SQL等大数据计算...(发布于2020-02-24 22:47:23)

Flink 1.10 和 Hive 3.0 性能对比(附 Demo 演示 PPT),

Flink 1.10 和 Hive 3.0 性能对比(附 Demo 演示 PPT), 作者:李劲松(之信) 如今的大数据批计算,随着 Hive 数仓的成熟,普遍的模式是 Hive metastore + 计算引擎。常见的计算引擎有 Hive on...(发布于2020-02-20 21:51:52)

自建Hive数据仓库迁移到阿里云EMR,

自建Hive数据仓库迁移到阿里云EMR, 场景描述 客户在IDC或者公有云环境自建Hadoop集群构建数据仓库和分析系统,购买和通数据库EMR集群之后,涉及到将数据仓库和Hive元数据的数据库迁移...(发布于2020-02-14 22:40:42)

Apache Flink 1.10.0 重磅发布,年度最大规模版本升级!,

Apache Flink 1.10.0 重磅发布,年度最大规模版本升级!, Flink 1.10 同时还标志着对 Blink[1] 的整合宣告完成,随着对 Hive 的生产级别集成及对 TPC-DS 的全面覆盖,Flink 在增强流式 SQL 处理能力...(发布于2020-02-13 22:38:47)

《从开源到云原生,你不得不知的大数据实战》| 2020 大数据技术

《从开源到云原生,你不得不知的大数据实战》| 2020 大数据技术公开课第一季, 在这特殊的日子里,MaxCompute开发者社区始终与大数据开发者们一起,我们化禁足为学习,化长体重为长...(发布于2020-02-12 21:51:27)

hive原理,

hive原理, 什么是Hive?        Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在...(发布于2020-02-09 22:50:36)

Hive原理,

Hive原理, HIVE是一个构架在HADOOP之上的数据存储框架,要想使用HIVE,首先要在系统中安装并启动了HADOOP。 HIVE的安装方式很简单,从apache原网站即可down下来HIVE的各个版本,down下以后,...(发布于2020-02-09 22:50:32)

Hive深入浅出,

Hive深入浅出, 1.  Hive是什么 1) Hive是什么? 这里引用 Hive wiki 上的介绍: Hive is a data warehouse infrastructure built on top of Hadoop. It provides tools to enable easy data ETL, a mechanism to put structures on t...(发布于2020-02-08 22:09:04)

Hive UDF,

Hive UDF, 长时间没写java了, 对于myeclipse都用的不是很6了, 现在说下我的简单的hive udf咋写。 准备如下: myeclipse+hive相应jar包(两个:一个在hadoop里,叫做:hadoop-common-2.2.0.jar  一个在...(发布于2020-02-08 22:09:00)

Hive installation,

Hive installation, 目标:用mysql作为hive的metastore存储; 版本:hive-1.0.0; 环境:hadoop-2.4.1; 1、安装mysql  #query all rpm -qa | grep mysql # remove mysql with no dependency  rpm -e mysql-libs-5.1.66-2.el6_3.i686 --...(发布于2020-02-08 22:08:56)

Hive安装,

Hive安装, 前言 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 Hive本质是将SQL转换为MapReduce程序 安装前提 linux环境(实测...(发布于2020-02-08 22:08:52)

hive udf,

hive udf, set  hive . exec . dynamic . partition = true ;   set  hive . exec . dynamic . partition . mode = nonstrict ;   set  hive . exec . max . dynamic . partitions . pernode = 1000 ; 创建真实表:create external table bi_rg....(发布于2020-02-08 22:08:49)

hive优化,

hive优化, hive优化 1、列裁剪    读取数据时,只读取查询中需要的列,忽略其他列     select a,b from t where e10;    需要设置hive.optimize.cp=true 2、分区裁剪    经过分区裁剪优化的查询,...(发布于2020-02-08 22:08:44)

Hive 数据仓库,

Hive 数据仓库, 原创  2017年09月09日 20:18:37 标签: hive 198 OLAP //online analyze process. //数量量大,并发低,延迟高。hive //hadoop mr,效率高。sql //类似sql语句。 1 2 3 4 5 数据库 mysql,OLTP //在线事...(发布于2020-02-08 22:08:41)

hive的数据类型,

hive的数据类型, 1.  hive 的数据类型 Hive的内置数据类型可以分为两大类:(1)、基础数据类型;(2)、复杂数据类型 2.  hive 基本数据类型 基础数据类型包括: TINYINT,SMALLINT,INT,BIGINT,BOOLE...(发布于2020-02-08 22:08:37)

hive bucket,

hive bucket, http://blog.csdn.net/yfkiss/article/details/7816916 http://wenku.baidu.com/view/ff1e30e39b89680203d8258e.html hive中table可以拆分成partition,table和partition可以通过‘CLUSTERED BY ’进一步分bucket,bucket中...(发布于2020-02-08 22:08:33)