HIVE,
HIVE概念:是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并停工简单的类sql查询
理解为mapReduce的客户端,总之hive的开发成本很低 好学
体系架构:
1 用户接口:
(1) Hive命令模式
(2)Hive的web模式
(3)Hive的远程服务
2 元数据存储
一般存在RDBMS ,Mysql(支持多用户会话)或Derby(单一会话)
元数据存储依赖于Metastore DB
以用户自定义的hive-site.xml为准
存储方式:HiveQL语句-----解析----分解表、字段、分区等Hive对象
根据解析信息构建对象,获取SEQUENCE_TABLE最新的ID,与构建对象信息一同通过DAO方法写入源数据表,成功后SEQUENCE_TABLE+5
3Hive的数据存储
以目录的形式存储在hdfs中,路径hive-site.xml ,hive.metastore.warehouse.dir指定目录
4 hive 解析器
解析器
语义分析器
逻辑策略分析器
优化器
5语法
CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name
[(col_name data_type [COMMENT col_comment], ...)]
[COMMENT table_comment]
[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]
[CLUSTERED BY (col_name, col_name, ...)
[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]
[ROW FORMAT row_format]
[STORED AS file_format]
[LOCATION hdfs_path]