欢迎投稿

今日深度:

Hive 基础,

Hive 基础, 1、Hive 分区表 在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。分区表...(发布于2020-01-27 22:54:57)

Hive 环境搭建,

Hive 环境搭建, Hive搭建模式 远程服务器模式 版本说明:hadoop2.6.5 解释远程?谁1远程谁2?谁1是metastore,谁2是Mysql Server。 用于非Java客户端访问元数据库Mysql:在hive服务器端启动 MetaSto...(发布于2020-01-27 22:54:53)

hive优化,

hive优化, 查看表结构信息   desc formatted table_name;   desc table_name; 查看分区信息   show partitions table_name; 查看hdfs文件信息   dfs -ls /user/hive/warehouse/table_name; hive之于数据民工,就如同锄...(发布于2020-01-27 22:54:47)

Hive优化,

Hive优化, Hive优化 Hive优化思想: Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具,所以学习MapReduce的原理对我们使用hive,优化hive有很大的帮助。 使用Hive尽量按...(发布于2020-01-26 23:07:55)

Hive限制,

Hive限制, 1.更新,事务,索引,不支持,是全表扫描 2.创建表的字段类型和java类型是对应的。不支持日期类型,提供转换为字符串类型的函数。 3.查询语句中,不支持having,可写嵌套...(发布于2020-01-26 23:07:52)

Hive限制,

Hive限制, 1.更新,事务,索引,不支持,是全表扫描 2.创建表的字段类型和java类型是对应的。不支持日期类型,提供转换为字符串类型的函数。 3.查询语句中,不支持having,可写嵌套...(发布于2020-01-26 23:07:48)

hive安装,

hive安装, http://blog.csdn.net/hguisu/article/details/7282050 hadoop、hbase的安装见前面的文章 下面是hive的安装 1、下载 http://mirror.bit.edu.cn/apache/hive/stable/ Hadoop Hive与Hbase整合 一 、简介 Hive是基于...(发布于2020-01-26 23:07:44)

Hive详细介绍,

Hive详细介绍, 概述 The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. Structure can be projected onto data already in storage. A command l...(发布于2020-01-26 23:07:41)

Hive 学习笔记,

Hive 学习笔记,   1. Hive是一个基于Hadoop的数据仓库工具,它提供了简单的SQL查询功能   2.支持批量插入,不支持单条插入   3.它是将简单的SQL语句转换成MapReduce程序来执行,创建的表可...(发布于2020-01-26 23:07:37)

Hive实战下,

Hive实战下, 实践一:Bucket 数据集:create_rating_table_b.sql(创建bucket) create external table rating_table_b(userId INT,movieId STRING,rating STRING)clustered by (userId) into 32 buckets; 创建userid  movieid,  rating三个...(发布于2020-01-26 23:07:33)

Hive实战,

Hive实战, 实战一:创建表 数据集: movies.csv 用,隔开,三列数据分别表示movie_id,movie_name,genres(电影id,电影名字,电影风格) 数据集: rating.csv 用,隔开,四列数据分别表示use...(发布于2020-01-26 23:07:29)

Hive 初识,

Hive 初识, Hive 是一个构建在Hadoop上的数据仓库框架。可以将 结构化 的数据文件 映射 为一张 数据库表 ,并提供简单的 sql 查询 功能。 它把SQL查询转换为一系列MapReduce作业。元数据存...(发布于2020-01-26 23:07:25)

Hive 安装配置,

Hive 安装配置, 1.hive-config.sh 添加 export HIVE_HOME=/home/hadoop/hive-0.13.1-cdh5.2.1 export HADOOP_HOME=/home/hadoop/hadoop-2.5.0-cdh5.2.1 export JAVA_HOME=/usr/java/jdk1.8.0_20 2.hive-site.xml (mysql) configuration       pro...(发布于2020-01-26 23:07:16)

Hive入门,

Hive入门, Hive的基本概念 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类S...(发布于2020-01-25 22:55:08)

hive笔记,

hive笔记, hive --------------------------------------------------------------------------- --------------------------------------------------------------------------- 对MySQL数据库进行初始化   进入到hive的bin目录 执行命...(发布于2020-01-25 22:55:04)

Hive的配置,

Hive的配置,         将下载下来的hive解压后进入conf目录下,创建一个叫hive-site.xml的文件,配置为:(前提为mysql都是专门为hive配置好的) ?xml version="1.0" encoding="UTF-8" standalone="no"??x...(发布于2020-01-25 22:54:59)

hive结构,

hive结构, 主要分为以下几个部分: 用户接口,包括 CLI,Client,WUI。 元数据存储,通常是存储在关系数据库如 mysql, derby 中。 解释器、编译器、优化器、执行器。 Hadoop:用 HDFS 进行存...(发布于2020-01-25 22:54:56)

Hive 优化,

Hive 优化, Hive 优化 问题: 数据倾斜(sum ,count 不存在数据倾斜) jobs 多 count(distinct)效率低,数据量一多就出问题方案: 设计一个好的数据模型 减少jobs数 设置合理的mapper reducd 数...(发布于2020-01-25 22:54:52)

hive基本语法,

hive基本语法, 1 基本的Select 操作 SELECT [ALL | DISTINCT] select_expr, select_expr, ... FROM table_reference [WHERE where_condition] [GROUP BY col_list [HAVING condition]] [ CLUSTER BY col_list | [DISTRIBUTE BY col_list] [SORT BY...(发布于2020-01-25 22:54:48)

XIP与HIVE,

XIP与HIVE, 我们的Image主要由两部分组成:XIPKERNEL.bin和NK.bin,XIPKERNEL.bin中的东西就是那些WinCE中比较核心的又需要经常加载的一些程序和DLL文件,这些文件会被Boot Loader在刚启动的时候拷...(发布于2020-01-25 22:54:45)