hive入门及dbeaver连接hive，需要注意如果为远程机

和通数据库htsjk.Com2023-03-26 02:01 来源:未知阅读:11853 评论 236 热度2

标签：Hive

hive入门及dbeaver连接hive，需要注意如果为远程机

hive入门

hive简介
安装
使用dbeaver连接自己的hive

学HIVE上官网 hive官网

hive简介

hadoop广义：是大数据生态圈，其中hive是使用SQL完成大数据统计分析的工具
hadoop狭义：HDFS MR yarn
hive是Facebook公司开源的工具，用来解决海量的结构化日志的统计问题
hive是构建在hadoop之上的数据仓库
HDFS：hive的数据是存放在HDFS（distributed storge），元数据（metadata）存放在对应的底层数据库，并且一般是MySQL
MR（计算引擎）：hive的作业（SQL）是通过hive的框架翻译成MR作业
这里的计算引擎也可以是Tez，Spark，
但是不管底层用的什么引擎，对于用户来说是不感知的
同样的SQL，只需要通过参数切换，就可以实现
Yarn：hive的作业提交到Yarn上去运行的

Hadoop开发可以使用单机，但生产上一定是分布式
hive其实就是一个客户端，没有集群的概念，提交作业到集群的Yarn上去运行（没有感情的提交机器）
SQL==>Hive==>MR==>Yarn
生产环境上，哪台机器需要提交hive，就在哪台机器上配置hive，不同机器上的hive是相互独立的

而Hive的职责：将SQL翻译成底层对应的执行引擎作业

对于distributed storge（文件存储系统）
HDFS，AWS S3，各种云 OSS COS
这些系统，hive都可以对接，只要有对应的jar包
本地的文件系统（file开头）也可以对接

metadata
有统一的元数据管理
hive中有2个同名的容易搞混的概念
元数据与源数据
元数据：描述数据的数据
源数据：来源系统的数据，HDFS的数据，各个数据库的数据

例如：
源数据：HDFS上有一个emp.txt
KING，5000
JHON，1000
CINDY，2800
这样的数据叫源数据，也就是原始的数据

元数据：
table：emp
ename：string
sal：int
seq（分隔符）：，
列的顺序：第一列是ename，第二列是sal
数据存放位置也是共享的

所以spark/impala/presto 等等，都是统一使用metadata
也就是说在hive里建的表，sparkSQL也能使用

hive官网怎么说？
那就上官网看看
官网怎么说？
那就上官网看
The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. Structure can be projected onto data already in storage. A command line tool and JDBC driver are provided to connect users to Hive.

hive VS RDBMS（关系型数据库）
分布式：11 均支持
节点：11 均支持
成本：廉价 VS 昂贵
数据量：TB级别，加起来有PB级别甚至更高 VS GB
事务（开始于insert、update、delete，结束于commit、rollback或ddl语句）：均支持
延时性：高 VS 低
DML（增删改）：0.14版本之后（但是不建议用） VS 支持
大数据里几乎不用update也不允许用

Hive适用场景
批处理/离线处理

Hive优缺点
优点：易上手，比MR使用起来简单多了
缺点：延时性高

初学者容易问的一些问题：
Q：hive的执行速度，对比于mysql谁快谁慢?
A：这个问题其实没法回答，需要看数据量来决定谁快，这个问题就好比再问詹姆斯和C罗谁的成就更高？不是一个领域的东西没法比较

Q：hive sql和MySQL的sql有什么关系？
A：虽然他们都叫sql但是除了语法类似之外，没有任何关系

安装

hive的安装过程与hadoop较为类似

使用dbeaver连接自己的hive

这里我也是踩了一些坑的，听我慢慢说来

<property>
    <name>hadoop.proxyuser.root.hosts</name>
    <value>*</value>
</property>
<property>
    <name>hadoop.proxyuser.root.groups</name>
    <value>*</value>
</property>

这里的root是你拥有hive以及hadoop的linux用户。

将各种服务启动起来，包括hadoop和mysql ，
然后依次启动metastore服务
hive --service metastore
用root用户或者有sudo权限的用户使用netstat -nlp |grep 9083查看 9083端口是否被监听。
然后启动hiveserver2服务
hive --service hiveserver2
用上面同样方法查看是否监听10000端口。
到这里就有人发现了dbeaver里面的端口号为什么是默认10000并且不用修改了
一般来说到这里dbeaver就能成功连上hive了，hiveserver也会显示ok
但是我做到这里，却并没有成功，
然后我去查看hive的日志（也是百度了好久才知道hive日志在哪里）一般来说是/tmp/hive的用户/hive.log文件，
我查看后发现是hive-site.xml里面配置有问题，由于我的xml文件是直接问别人要的写好的文件，并没有把别人的主机名改成自己的主机名，导致hiveserver2启动了半天没成功，报错一直是找不到主机名。
修改过后果然一下子就成了

本站文章为和通数据库网友分享或者投稿，欢迎任何形式的转载，但请务必注明出处.
同时文章内容如有侵犯了您的权益，请联系QQ：970679559，我们会在尽快处理。

返回首页

评论暂时关闭