百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

Hive三种安装方式区别和搭建

itomcoil 2025-01-13 14:31 11 浏览

Hive中metastore(元数据存储)的三种模式:

  • 内嵌Derby模式
  • 直连数据库模式
  • 远程服务器模式

内嵌Derby模式

链接参数

参数

描述

演示

javax.jdo.option.ConnectionURL

JDBC链接url信息,包含了数据库名称元数据

jdbc:derby::databaseName=metastore_db;create=true

javax.jdo.option.ConnectionDriverName

JDBC链接驱动的名称,使用的derby的单用户模式

org.apache.derby.jdbc.EmbeddedDriver

javax.jdo.option.ConnectionUserName

Derby数据库的用户名称

APP

javax.jdo.option.ConnectionPassword

数据库的密码

mine

此模式链接到一个In-memory的数据库Derby, 一般用于Unit Test,一台服务器即可,基本不可用。

直连数据库(mysql)模式

链接参数

参数

描述

演示

javax.jdo.option.ConnectionURL

JDBC链接url信息,包含了数据库名称元数据

jdbc:mysql::databaseName=metastore_db;create=true

javax.jdo.option.ConnectionDriverName

JDBC链接驱动的名称,使用的derby的单用户模式

com.mysql.jdbc.Driver

javax.jdo.option.ConnectionUserName

Derby数据库的用户名称


javax.jdo.option.ConnectionPassword

数据库的密码


远程服务器模式

链接参数

用于非Java客户端访问源数据库,在服务器端启动MetaStoreServer,客户端利用Thrift协议通过MetaStoreServer访问源数据库。起到了解耦的作用,如果更换其他数据库只需要修改MetaStoreServer即可。

链接参数

参数

描述

例子

hive.metastore.urls

metastore server所在的服务地址

thrift://:9083

hive.metastore.local


false

安装

在开始安装Hive之前,需要先从Index of /dist/hive中获取自己需要的Hive的版本,我这里使用的是2.3.9版本。同时Hive是依赖Hadoop做数据存储的,Hadoop安装可以参考Hadoop HA集群搭建

tar -zxvf apache-hive-2.3.9.tar.gz
cp conf/hive-default.xml.template conf/hive-site.xml

 # 在/etc/profile中,将HIVE_HOME配置到PATH路径,并支持hive命令的访问

mysql模式安装

在mysql模式安装中,mysql只是负责存储hive的元数据信息,不做真实的数据存储。同时,hive的lib依赖包下,并没有mysql的依赖包,需要自己将mysql的依赖包上传到$HIVE_HOME/lib下面。

hive-site.xml

<configuration>
  <!-- WARNING!!! This file is auto generated for documentation purposes ONLY! -->
  <!-- WARNING!!! Any changes you make to this file will be ignored by Hive.   -->
  <!-- WARNING!!! You must make your changes in hive-site.xml instead.         -->
        <!-- Hive Execution Parameters -->

        <property>
                <name>hive.metastore.warehouse.dir</name>
                <value>/opt/apps/hive/apache-hive-2.3.9/warehouse</value>
        </property>
        <property>
                <name>javax.jdo.option.ConnectionURL</name>
                <value>jdbc:mysql://node1:3306/hive?createDatabaseIfNotExist=true&llowPublicKeyRetrieval=true</value>
        </property>

        <property>
                <name>javax.jdo.option.ConnectionDriverName</name>
                <value>com.mysql.cj.jdbc.Driver</value>
        </property>

        <property>
                <name>javax.jdo.option.ConnectionUserName</name>
                <value>root</value>
        </property>

        <property>
                <name>javax.jdo.option.ConnectionPassword</name>
                <value>123456</value>
        </property>
</configuration>

在有了以上的配置之后,然后就需要初始化Hive所需要的数据表信息:

schematool --dbType mysql --initSchema

初始化工具的使用,可以参考Hive Schema Tool – Apache Hive – Apache Software Foundation

在执行完成之后,就可以在mysql数据库中查看到hive有关的数据库信息:

在有了以上信息之后,则可以启动hive命令:

# 启动hive
hive


# 在hive客户端中,额可以创建数据库,创建表
show databases;
# 创建数据库
create mydb;
# 使用数据库
use mydb;
# 创建数据表
create table test(id int, age int);
# 插入一条数据
insert into test(id,age) values (1,1)

在执行以上的insert语句的时候,就可以看到会将对应的雨具转换成为MapReduce任务执行。

然后我们查看mysql中hive表中的数据,则可以看到与Hive有关的原始表的数据信息。

这时我们可以查看HDFS中的文件存储,就可以看到对应的数据存储方式了:


到这里,关于mysql模式的安装Hive就完成。

远程服务器模式

在以上的mysql的安装模式后,我们可以配置一个metastore server用来处理远程的Hive请求。

hive-site.xml

该文件在服务端则不需要修改任何内容,主要还是配置元数据存储的方式这些内容。因此可以跟上面mysql模式安装保持一致。

启动metastore server

启动server则需要用到命令:

hive --service metastore

这种方式会阻塞线程的执行,我们可以让hive在后端运行:

nohup hive --service metastore &

这里默认端口为9083,可以通过命令的方式查看是否启动完成:

netstat -ntlp | grep 9083

可以看到metastore server已经启动成功。

如果不想使用9083这个端口,也可以使用hive --service metastore -p <端口号>指定其他的端口。AdminManual Metastore Administration – Apache Hive – Apache Software Foundation

客户端链接配置

客户端链接的时候,则只需要配置metastore server的地址就可以了,具体配置信息如下:

<configuration>
  <!-- WARNING!!! This file is auto generated for documentation purposes ONLY! -->
  <!-- WARNING!!! Any changes you make to this file will be ignored by Hive.   -->
  <!-- WARNING!!! You must make your changes in hive-site.xml instead.         -->
        <!-- Hive Execution Parameters -->

        <property>
                <name>hive.metastore.warehouse.dir</name>
                <value>/opt/apps/hive/apache-hive-2.3.9/warehouse</value>
        </property>

        <property>
                <name>hive.metastore.local</name>
                <value>false</value>
        </property>

        <property>
                <name>hive.metastore.uris</name>
                <value>thrift://node4:9083</value>
        </property>
</configuration>

在经过了以上配置之后,我们可以直接连接metastore server进行操作了:

hive

以上就是远程模式的安装方式。

相关推荐

Python 上下文管理器魔法手册:with 语句的终极艺术

对话实录小白:(抓狂)我写了f=open("data.txt"),结果忘记关闭文件了!专家:(掏出魔法书)用with语句,文件自动关闭,永不泄露!上下文管理器基础三连击1.基...

【验证码逆向专栏】某安登录流程详解与验证码逆向分析与识别

声明本文章中所有内容仅供学习交流使用,不用于其他任何目的,不提供完整代码,抓包内容、敏感网址、数据接口等均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关!本文章未经许可禁...

Python常用内置模块介绍——文件与系统操作详解

Python提供了多个强大的内置模块用于文件和系统操作,下面我将详细介绍最常用的几个模块及其核心功能。1.os模块-操作系统交互os模块提供了与操作系统交互的接口,包括文件/目录操作、进程管理、环...

21-Python-文件操作

在Python中,文件操作是非常重要的一部分,它允许我们读取、写入和修改文件。下面将详细讲解Python文件操作的各个方面,并给出相应的示例。1-打开文件在Python中,使用`open()`函数来打...

Python 开发工程师必会的 5 个文件操作库

在Python开发的世界里,文件操作是一项基础且高频的任务。从日常的数据处理到复杂的项目部署,熟练掌握文件操作库能让我们的开发工作事半功倍。本文和大家聊聊我眼中开发必备的5个文件操作库,它们各...

你应该知道的 50 个 Python 单行代码

使用Python总是可以轻松完成一些特定任务,这让人惊奇。一些比较繁琐的任务可以使用Python在单行代码中完成。下面是我收集的50个Python单行代码实例。1.移位词:猜字母的个...

Python10个了不起的10个库,用于文件操作、接口测试

日常接口测试中需要大量的操作文件,譬如:用户登录信息、数据库信息等等。了解下方10个文件操作库,可以快速提升在工作中的效率。os:提供了与操作系统交互的功能,包括文件和目录操作、进程管理等。示例代码参...

手把手教你开发智能备份神器,小白也能30分钟搞定!

一、你的电脑是不是也总在“重复备份”?每次备份文件夹时,是不是总觉得“好麻烦”?特别是遇到几十G的文件库,整个备份过程像在坐过山车——明明大部分文件都没改,却还要从头来一遍!今天,我用Python开发...

几行代码教你zip打包

01准备有时我们不想去手动一个个去操作,然后傻等他打包完,python依赖库zipfile很方便地帮助我们封装了解压压缩,shutil用于文件目录处理,方法类似于linux命令。1、安装pipin...

Python操作目录

获取当前工作目录获取执行命令的位置路径拼接路径拆分文件重命名删除文件复制文件遍历文件夹下的文件判断文件是否存在判断目录是否存在获取当前工作目录importsysprint(sys.path[0]...

Python 开发工程师必会的 5 个系统命令操作库

当我们需要编写自动化脚本、部署工具、监控程序时,熟练操作系统命令几乎是必备技能。今天就来聊聊我在实际项目中高频使用的5个系统命令操作库,这些可都是能让你效率翻倍的"瑞士军刀"。一...

文件备份用Python,照着复制粘贴代码就可以了

引言在日常开发和运维工作中,数据安全尤为重要,定期备份重要文件是防范数据丢失的有效手段之一。本文将详细介绍如何使用Python实现一个简单的定时备份脚本,该脚本可以按照设定周期自动将指定文件夹或文件复...

2025年必学的Python自动化办公的15个实用脚本

2025年必学的Python自动化办公的6个实用脚本及其代码示例。这些脚本涵盖了文件备份、邮件通知、网页抓取、报告生成、数据处理和团队协作等多个场景,帮助用户高效完成日常办公任务。1.自动备份文件自...

一天学一点,今天学习掌握Python:异常处理与文件操作全攻略

这一笔记记录了我学习python的异常和文件的操作,这也是针对Python异常和文件操作教程的进一步优化建议和注意事项:异常处理优化1.避免过度捕获异常o不要为了捕获异常而捕获异常,应根据实际需求...

「亲测可用」如何用python脚本批量旋转图片为任意角度?

最近在训练图片方向分类器,需要对原始图片进行批量旋转操作,那如何用python脚本实现批量旋转图片为任意角度呢?此处,以将我的头像旋转90度为例进行演示。实现图片批量旋转的python源代码如下:#-...