欢迎投稿

今日深度:

Hive(一),

Hive(一),


Hive(一) - 初识Hive

什么是hive?

概念:

Hive是基于Hadoop的一个数据仓库工具,可以讲结构化的数据映射为一张数据库表,并提供HQL查询方式,底层的数据是存储在HDFS上,Hive的本质是将SQL语句转换为MapReduce任务运行

Hive的特点

和数据库的对比

数据库数据仓库
为线上系统提供实时数据为离线分析存储历史数据
具有完整的增删改查的能力只支持一次写入多次查询,不支持行级别的增删改
具有完整的事务能力不强调事务的特性
尽量的避免冗余,提高存储和处理的效率人为的制造冗余,提高查询的效率

Hive的优缺点

优点:

缺点:

Hive不是一种数据库,而是基于Hadoop的数据仓库工具,适合用来做海量数据的离线分析

Hive安装

入门操作

create database park;     -- 创建一个库
create table stu(id int ,name string);   -- 创建一个表
create table stu2(id int,name string) row format delimited fields terminated by '\t';       -- 创建一个表并指定文件中数据字段之间的分割符
select count(*) from stu; -- hql会转换为底层的MR来执行
load data local inpath '/home/txt/stu.txt' into table stu; -- 插入数据
select * from stu; -- 查询所有的数据

Hive中的数据库就是底层HDFS中的一个[库名.db]文件夹

Hive中的的表就是底层HDFS中库名文件夹下以表名为名字的子文件夹

Hive表中的数据其实就是在HDFS中Hive表对应的文件夹下的文件

Hive中的hql会转换为底层的MR来执行

hive内置的default库,对应的就是hdfs中/user/hive/warehouse目录

www.htsjk.Com true http://www.htsjk.com/hive/29598.html NewsArticle Hive(一), Hive(一) - 初识Hive 什么是hive? 概念: Hive是基于Hadoop的一个数据仓库工具,可以讲结构化的数据映射为一张数据库表,并提供HQL查询方式,底层的数据是存储在HDFS上,Hive的本...
相关文章
    暂无相关文章
评论暂时关闭