Hive(一),
Hive(一) - 初识Hive
什么是hive?
概念:
Hive是基于Hadoop的一个数据仓库工具,可以讲结构化的数据映射为一张数据库表,并提供HQL查询方式,底层的数据是存储在HDFS上,Hive的本质是将SQL语句转换为MapReduce任务运行
Hive的特点
和数据库的对比
| 数据库 | 数据仓库 |
| 为线上系统提供实时数据 | 为离线分析存储历史数据 |
| 具有完整的增删改查的能力 | 只支持一次写入多次查询,不支持行级别的增删改 |
| 具有完整的事务能力 | 不强调事务的特性 |
| 尽量的避免冗余,提高存储和处理的效率 | 人为的制造冗余,提高查询的效率 |
Hive的优缺点
优点:
缺点:
Hive不是一种数据库,而是基于Hadoop的数据仓库工具,适合用来做海量数据的离线分析
Hive安装
入门操作
create database park; -- 创建一个库
create table stu(id int ,name string); -- 创建一个表
create table stu2(id int,name string) row format delimited fields terminated by '\t'; -- 创建一个表并指定文件中数据字段之间的分割符
select count(*) from stu; -- hql会转换为底层的MR来执行
load data local inpath '/home/txt/stu.txt' into table stu; -- 插入数据
select * from stu; -- 查询所有的数据
Hive中的数据库就是底层HDFS中的一个[库名.db]文件夹
Hive中的的表就是底层HDFS中库名文件夹下以表名为名字的子文件夹
Hive表中的数据其实就是在HDFS中Hive表对应的文件夹下的文件
Hive中的hql会转换为底层的MR来执行
hive内置的default库,对应的就是hdfs中/user/hive/warehouse目录
本站文章为和通数据库网友分享或者投稿,欢迎任何形式的转载,但请务必注明出处.
同时文章内容如有侵犯了您的权益,请联系QQ:970679559,我们会在尽快处理。