Hive(一)，

和通数据库htsjk.Com2019-07-23 22:51 来源:未知阅读:6118 评论 217 热度4

标签：

Hive(一)，

Hive(一) - 初识Hive

什么是hive？

概念：

Hive是基于Hadoop的一个数据仓库工具，可以讲结构化的数据映射为一张数据库表，并提供HQL查询方式，底层的数据是存储在HDFS上，Hive的本质是将SQL语句转换为MapReduce任务运行

Hive的特点

和数据库的对比

数据库	数据仓库
为线上系统提供实时数据	为离线分析存储历史数据
具有完整的增删改查的能力	只支持一次写入多次查询，不支持行级别的增删改
具有完整的事务能力	不强调事务的特性
尽量的避免冗余，提高存储和处理的效率	人为的制造冗余，提高查询的效率

Hive的优缺点

优点：

缺点：

Hive不是一种数据库，而是基于Hadoop的数据仓库工具，适合用来做海量数据的离线分析

Hive安装

入门操作

create database park;     -- 创建一个库
create table stu(id int ,name string);   -- 创建一个表
create table stu2(id int,name string) row format delimited fields terminated by '\t';       -- 创建一个表并指定文件中数据字段之间的分割符
select count(*) from stu; -- hql会转换为底层的MR来执行
load data local inpath '/home/txt/stu.txt' into table stu; -- 插入数据
select * from stu; -- 查询所有的数据

Hive中的数据库就是底层HDFS中的一个[库名.db]文件夹

Hive中的的表就是底层HDFS中库名文件夹下以表名为名字的子文件夹

Hive表中的数据其实就是在HDFS中Hive表对应的文件夹下的文件

Hive中的hql会转换为底层的MR来执行

hive内置的default库，对应的就是hdfs中/user/hive/warehouse目录