Hive问题,
Hive问题, [root@jy-agent-981 ~]# pwd/root[root@jy-agent-981 ~]# cd //[root@jy-agent-981 //]# cd etc/security/keytabs[root@jy-agent-981 keytabs]# klist -kt hive.service.keytabKeytab name: FILE:hive.service.keytabKVNO Timestamp Principal-...(发布于2019-11-24 22:10:40)
hive数据倾斜,
hive数据倾斜, hive数据倾斜 定义: key分布不均匀 导致分发到不同的reduce上 个别reduce任务特别重 导致其他reduce都完成 而这些个别的reduce迟迟不完成 原因: 1.key分布不均匀 2.map端数据...(发布于2019-11-23 22:07:52)
Hive优化,
Hive优化, hive.optimize.cp=true:列裁剪 hive.optimize.prunner:分区裁剪 hive.limit.optimize.enable=true: 优化 LIMIT n语句 hive.limit.row.max.size=1000000: hive.limit.optimize.limit.file=10:最大文件数 1. 本地模式...(发布于2019-11-23 22:07:48)
hive join,
hive join, 原文:http://blog.csdn.net/yfkiss/article/details/8073608 hive(0.9.0): 1.支持equality joins, outer joins, and left semi joins 2.只支持等值条件 3.支持多表join 原理 hive执行引擎会将HQL“翻译”成为m...(发布于2019-11-23 22:07:44)
hive 索引,
hive 索引, 设置索引: hive set hive.optimize.index.groupby=false; hive set hive.optimize.index.filter=true; 注意 hive.optimize.index.groupby必须设置生false,不然 hive.optimize.index.filt...(发布于2019-11-23 22:07:40)
hive(一),
hive(一), 数据库: 数据库(Database)是按照 数据结构 来组织、 存储 和管理数据的建立在计算机存储设备上的仓库。 简单来说是本身可视为 电子化 的 文件柜 ——存储电子 文件 的处...(发布于2019-11-23 22:07:36)
安装HIVE,
安装HIVE, 下载地址: http://archive.cloudera.com/cdh/3/ 以版本 hive-0.7.1 为例 解压到安装路径: tar -xvf hive-0.7.1.tar.gz 将/conf/hive-env.sh.template 配置环境模板 拷贝一份 cp hive-env.sh.template hive-env....(发布于2019-11-23 22:07:32)
Hive优化,
Hive优化, 优化手段 合理控制Map和Reduce数 合并小文件 避免数据倾斜,解决数据倾斜 减少job数(合并Job、大Job分拆……) 一、 Map数和Reduce数 Hive官方: https://cwiki.apache.org/confluence...(发布于2019-11-23 22:07:28)
Hive使用,
Hive使用, Hive数据库和表 Hive在HDFS上的默认存储路径 Hive的数据都是存储在HDFS上的,默认有一个根目录,在 hive-site.xml 中,由参数 hive.metastore.warehouse.dir 指定。默认值为/user/hive/ware...(发布于2019-11-23 22:07:24)
Hive的函数,
Hive的函数, 在Hive中,函数包括以下类型: 一、内置函数 1、数学函数 (1)round:四舍五入 select round(数值,小数点位数); (2)ceil:向上取整 select ceil(45.6); --46 (3)floor:向下取整...(发布于2019-11-23 22:07:19)
Hive的环境搭建,
Hive的环境搭建, Hive是一种数据仓库,可以使用sql语句去操作haoop中hdfs中的文件查询。(本质上是把Hive发送的sql语句在内部转换成可以执行的mapreduce程序),(迭代数据无法表达,处理...(发布于2019-11-23 22:07:15)
Hive的安装配置,
Hive的安装配置, 首先, 安装java, mysql, hadoop环境,Hive只在一个节点上安装即可, 这里我安装在master上面。 1.上传tar包至/usr/myapp/hadoop 2.解压 tar -zxvf hive-0.9.0.tar.gz 重命名为hive 3.检查mys...(发布于2019-11-22 22:07:42)
Hive——命令操作,
Hive——命令操作, Hive语法 与关系型数据库的SQL 略有不同,但支持了绝大多数的语句如DDL、DML 以及常见的聚合函数、连接查询、条件查询。HIVE不适合用于联机,也不提供实时查询功能...(发布于2019-11-22 22:07:38)
hive分区,
hive分区, ** hive分区 ** 1、为什么要分区 随着系统的运行,数据量越来越大,而hive的查询时全表扫描,这样将会导致大量的不必要的数据扫描,从而查询效率低下。 引进分区技术,避...(发布于2019-11-22 22:07:35)
HIVE严格模式,
HIVE严格模式, 一、启动 nohup hive - - service hiveserver2 - - hiveconf hive . mapred . mode=strict 二、作用 严格模式,可以防止用户执行那些可能产生意想不到的不好的效果的查询。即某些查询在严...(发布于2019-11-22 22:07:31)
hive搭建,
hive搭建, hive搭建 安装mysql 1.在安装mysql之前先删除mariadb rpm -qa |grep -i mariadb (查看mariadb是否存在) rpm -e --nodeps m...(发布于2019-11-22 22:07:27)
hive命令,
hive命令, 1.hive模糊搜索表 show tables like '*name*'; 2.查看表结构信息 desc formatted table_name; desc table_name; 3.查看分区信息 show partitions table_name; 4.根据分区查询数据 select table_coulm...(发布于2019-11-22 22:07:23)
hive优化,
hive优化, hive之于数据民工,就如同锄头之于农民伯伯。hive用的好,才能从地里(数据库)里挖出更多的数据来。 用过hive的朋友,我想或多或少都有类似的经历:一天下来,没跑几...(发布于2019-11-22 22:07:19)
Hive(DLL),
Hive(DLL), Hive DDL Data Definition Language create drop alter Database 数据库:必然是包含一系列的表 是对应HDFS上的一个文件夹 default: /user/hive/warehouse CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name...(发布于2019-11-22 22:07:15)
HIVE的使用,
HIVE的使用, hive笔记 数据库的创建和删除 CREATE DATABASE | SCHEMA IF NOT EXISTS database name; DROP DATABASE IF EXISTS database name; # ----------------------------------------- 创建时添加db文件保存在HDFS的路径 C...(发布于2019-11-22 22:07:11)