本地Oracle数据库复制数据到Apache Hive的Linux服务器集群的分步流程

news/2025/2/25 5:24:23

我们已经有安装Apache Hive的Linux服务器集群,它可以连接到一个Oracle RDS数据库,需要在该Linux服务器上安装配置sqoop,然后将Oracle RDS数据库中所有的表数据复制到Hive。

为了将本地Oracle数据库中的所有表数据复制到Apache Hive Linux服务器集群中,您可以遵循以下详细步骤:

第一步:安装和配置Sqoop

1. 下载并安装Sqoop

您可以从Apache Sqoop官方网站下载最新版本的Sqoop。


wget https://downloads.apache.org/sqoop/1.4.8/sqoop-1.4.8.bin__hadoop-2.6.0-cdh5.7.0.tar.gz

2. 解压Sqoop包


tar -xzvf sqoop-1.4.8.bin__hadoop-2.6.0-cdh5.7.0.tar.gz -C /opt/

sudo mv /opt/sqoop-1.4.8.bin__hadoop-2.6.0-cdh5.7.0 /usr/local/sqoop

3. 配置Sqoop环境变量

编辑~/.bashrc或者/etc/profile.d/sqoop.sh文件,添加Sqoop路径:


echo 'export SQOOP_HOME=/usr/local/sqoop' >> ~/.bashrc

echo 'export PATH=$PATH:$SQOOP_HOME/bin' >> ~/.bashrc

source ~/.bashrc

4. 下载Oracle JDBC驱动

由于Sqoop需要通过JDBC连接Oracle数据库,因此请确保已下载适用于Oracle数据库的JDBC驱动(通常是从Oracle官方提供的ojdbc*.jar)。将其放置在Sqoop的lib目录下:


cp ojdbc8.jar $SQOOP_HOME/lib/

第二步:测试Sqoop是否能成功连接到Oracle及Hive

测试与Oracle的连接性

尝试列出Oracle数据库的所有表名以确认Sqoop能否正常连接到Oracle数据库


sqoop list-tables \

--connect jdbc:oracle:thin:@//your_oracle_host:port/service_name \

--username your_username \

--password-file file:///path/to/password_file.txt # 使用密码文件存储敏感信息更安全

测试与Hive的连接性

同样地,检查Sqoop是否能够写入Hive。可以创建一个小规模的示例表来进行初步验证。


sqoop import \

--connect jdbc:oracle:thin:@//your_oracle_host:port/service_name \

--table example_table \

--target-dir hdfs_path_for_example_data \

--create-hive-table \

--hive-import \

--m 1 \ 

--null-string '\\N' \

--null-non-string '\\N'

第三步:批量导入Oracle数据库中的所有表到Hive

虽然Sqoop没有提供一键式导入整个数据库的功能,但我们可以通过Shell脚本来遍历Oracle数据库中的每一个表,并逐个调用上述导入命令来实现这一目的。

注意: 批量导入前,请务必备份重要数据以防万一出现问题导致数据损坏或丢失!

以下是简单的shell脚本模板供参考:


#!/bin/bash

ORACLE_HOST=your_oracle_host

PORT=port_number

SERVICE_NAME=service_name

USERNAME=username

PASSWORD_FILE=file:///path/to/orapasswordfile.txt

DATABASE_SCHEMA=schema_to_import_from_having_tables_in_it

TABLES=$(sqoop eval \

--connect "jdbc:oracle:thin:@//$ORACLE_HOST:$PORT/$SERVICE_NAME" \

--query "SELECT table_name FROM all_tab_columns WHERE owner='$DATABASE_SCHEMA'" \

--columns-only)

for TABLE in ${TABLES[@]}; do

echo "Importing Table : "$TABLE""

sqoop import \

--connect "jdbc:oracle:thin:@//$ORACLE_HOST:$PORT/$SERVICE_NAME" \

--username $USERNAME \

--password-file $PASSWORD_FILE \

--table $TABLE \

--split-by id_column_if_applicable_else_remove_this_option \

--num-mappers m_value_based_on_your_cluster_capacity_and_network_speed \

--compress \

--compression-codec org.apache.hadoop.io.compress.SnappyCodec \

--as-parquetfile \

--warehouse-dir "/user/hive/warehouse/" \

--hive-database default \

--hive-overwrite \

--hive-drop-partition-if-exists \

--hive-import

done;

说明:

  • id_column_if_applicable: 如果存在合适的主键或其他唯一标识符,则利用其加速MapReduce作业的速度;否则删除此选项。

  • -m value: 根据您的集群容量和网络速度调整Mapper的数量。

  • --as-parquetfile, --compress, 和 --compression-codec: 提升性能的同时减少磁盘空间占用率。


http://www.niftyadmin.cn/n/5865000.html

相关文章

Go语言设计模式之迭代器模式Iterator

迭代器模式 Iterator 提供了一种方法顺序访问一个聚合对象中的各个元素,而又不需要暴露该对象的内部表示。迭代器模式的核心思想是将遍历逻辑从聚合对象中分离出来,使得聚合对象和遍历逻辑可以独立变化。 实际应用场景 集合类库: 如 Go 的…

Sui链开发:技术架构与生态实践深度解析(2025年最新进展)

一、Sui链的核心技术架构 1. 并行执行与对象模型 ui采用对象导向模型,将链上资产(如NFT、代币)视为独立对象,通过并行处理机制实现高吞吐量。每个对象的交易可独立验证,无需全局共识,显著提升处理效率&…

HTTP代理与HTTPS代理的区别及HTTPS的工作原理

在互联网世界中,数据的传输与访问安全性是用户和企业共同关注的焦点。HTTP和HTTPS代理作为两种常用的网络协议代理,它们在工作原理和应用场景上存在显著区别。本文将深入浅出地解析HTTP代理与HTTPS代理的区别,并简明扼要地介绍HTTPS的工作原理…

DeepSeek开源周首日:发布大模型加速核心技术可变长度高效FlashMLA 加持H800算力解码性能狂飙升至3000GB/s

FlashMLA的核心技术特性包括对BF16精度的全面支持,以及采用块大小为64的页式键值缓存(Paged KV Cache)系统,实现更精确的内存管理。在性能表现方面,基于CUDA12.6平台,FlashMLA在H800SXM5GPU上创下了显著成绩…

大模型在术后认知功能障碍预测及临床方案制定中的应用研究

目录 一、引言 1.1 研究背景与意义 1.2 研究目的与方法 1.3 研究创新点 二、术后认知功能障碍概述 2.1 定义与表现 2.2 危害与影响 2.3 发病机制与相关因素 三、大模型技术原理与应用现状 3.1 大模型技术原理 3.2 大模型在医疗领域的应用 四、基于大模型的术后认知…

Web刷题之PolarDN(中等)

1.到底给不给flag呢 代码审计 一道典型的php变量覆盖漏洞 相关知识 什么是变量覆盖漏洞 自定义的参数值替换原有变量值的情况称为变量覆盖漏洞 经常导致变量覆盖漏洞场景有:$$使用不当,extract()函数使用不当,parse_str()函数使用不当&…

npm : 无法加载文件 E:\ProgramFiles\Nodejs\npm.ps1,因为在此系统上禁止运行脚本。

这个错误是因为 Windows 系统的 PowerShell 执行策略 限制了脚本的运行。默认情况下,PowerShell 的执行策略是 Restricted,即禁止运行任何脚本。以下是解决该问题的步骤: 1. 检查当前执行策略 打开 PowerShell(管理员权限&#x…

人工智能、机器学习、深度学习和大语言模型之间的关系

人工智能(AI)、机器学习(ML)、深度学习(DL)和大语言模型(LLM)之间是逐层包含且技术递进的关系,具体如下: 1. 层级关系 人工智能(AI)…