當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Apache Hive JdbcStorageHandler 编程入门指南

發布時間：2024/9/27 编程问答 19 豆豆

生活随笔收集整理的這篇文章主要介紹了 Apache Hive JdbcStorageHandler 编程入门指南小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

以下博文轉載自：https://www.iteblog.com/archives/2525.html

Apache Hive 從 HIVE-1555 開始引入了 JdbcStorageHandler ，這個使得 Hive 能夠讀取 JDBC 數據源，關于 Apache Hive 引入 JdbcStorageHandler 的背景可以參見《Apache Hive 聯邦查詢（Query Federation）》。本文主要簡單介紹 JdbcStorageHandler 的使用。

語法

JdbcStorageHandler 使得 Hive 能夠讀取 JDBC 數據源，目前 JdbcStorageHandler 不支持將數據寫入到 JDBC 數據源。為了使用 JdbcStorageHandler ，我們需要在 Hive 中創建外部表，具體如下：

CREATE EXTERNAL TABLE iteblog (name string,age int,gpa double ) STORED BY 'org.apache.hive.storage.jdbc.JdbcStorageHandler' TBLPROPERTIES ("hive.sql.database.type" = "MYSQL","hive.sql.jdbc.driver" = "com.mysql.jdbc.Driver","hive.sql.jdbc.url" = "jdbc:mysql://www.iteblog.com/sample","hive.sql.dbcp.username" = "hive","hive.sql.dbcp.password" = "hive","hive.sql.table" = "STUDENT","hive.sql.dbcp.maxActive" = "1" );

我們可以使用 alter table 命令來修改表的 JdbcStorageHandler 屬性，就和正常的表一樣，如下：

ALTER TABLE iteblog SET TBLPROPERTIES ("hive.sql.dbcp.password" = "passwd");

JdbcStorageHandler 支持的表屬性

必選屬性
在 Hive 中使用 JdbcStorageHandler ，下面的屬性是必須指定的

hive.sql.database.type ：JDBC數據庫類型，支持 MYSQL, POSTGRES, ORACLE, MSSQL, DERBY;

hive.sql.jdbc.url: jdbc 鏈接字符串；

hive.sql.jdbc.driver: jdbc driver 類；

hive.sql.dbcp.username: jdbc 連接用戶名；

hive.sql.dbcp.password: jdbc 明文密碼。強烈建議不要通過這個參數設置密碼。推薦將密碼存儲在keystore 中，詳情參見下面的安全密碼設置章節。

hive.sql.table / hive.sql.query: 我們需要指定 “hive.sql.table” 或 “hive.sql.query” 來說明如何從 jdbc 數據庫獲取數據。 “hive.sql.table” 表示單個表，“hive.sql.query” 表示任意 sql 查詢。

可選屬性：
除了上面的必選屬性，JdbcStorageHandler 還支持以下幾個可選屬性：

hive.sql.catalog: jdbc catalog 名字(僅僅在 hive.sql.table 被指定的時候才支持)

hive.sql.schema: jdbc schema 名稱 (僅僅在 hive.sql.table 被指定的時候才支持)

hive.sql.jdbc.fetch.size: 每個批次獲取的行數

hive.sql.dbcp.xxx: 所有 dbcp 參數都將傳遞給 commons-dbcp。

https://commons.apache.org/proper/commons-dbcp/configuration.html。比如如果你在表的屬性里面指定了 hive.sql.dbcp.maxActive=1 ， Hive 將會傳遞 maxActive=1 到 commons-dbcp。

支持的數據類型

JdbcStorageHandler 表中列支持的數據類型有：

數字數據類型： byte, short, int, long, float, double

Decimal，支持 scale 和 precision

String 數據類型： string, char, varchar

Date

Timestamp
復雜的數據類型，比如 struct, map, array 目前還不支持。

列和數據類型映射

hive.sql.table / hive.sql.query 使用模式定義表格數據，模式定義必須與表模式定義相同。例如，以下 create table 語句將失敗：

CREATE EXTERNAL TABLE iteblog (name string,age int,gpa double ) STORED BY 'org.apache.hive.storage.jdbc.JdbcStorageHandler' TBLPROPERTIES (. . . . . ."hive.sql.query" = "SELECT name, age, gpa, gender FROM STUDENT", );

但是 hive.sql.table / hive.sql.query 模式的列名和列類型可能與表的模式不同。在這種情況下，數據庫列按位置映射到 hive 列；如果數據類型不同，Hive 將嘗試根據 Hive 表模式轉換它。例如：

CREATE EXTERNAL TABLE iteblog (sname string,age int,effective_gpa decimal(4,3) ) STORED BY 'org.apache.hive.storage.jdbc.JdbcStorageHandler' TBLPROPERTIES (. . . . . ."hive.sql.query" = "SELECT name, age, gpa FROM STUDENT", );

In case the conversion is not possible, Hive will produce null for the field.

Hive 將嘗試將 STUDENT 表的 gpa 的 double 類型轉換為 decimal(4,3) 作為 iteblog 表的 effective_gpa 字段。如果無法進行轉換，Hive 將把該字段的值轉換為 null。

Auto Shipping

如果在查詢中使用了 JdbcStorageHandler，JdbcStorageHandler 會自動將所需的 jar 發送到 MR/Tez/LLAP 后端。用戶無需手動添加 jar。如果在 classpath 中檢測到任何 jdbc 驅動程序的 jar（包括mysql、postgres、oracle 和 mssql），JdbcStorageHandler 還會將所需的 jdbc 驅動程序 jar 發送到后端。但是，用戶仍然需要將 jdbc 驅動程序 jar 復制到 hive 的 classpath（通常是 hive 的 lib 目錄）。

密碼保護（Securing Password）

在大多數情況下，我們不希望在表屬性“hive.sql.dbcp.password”中以明文的形式存儲 jdbc 密碼。相反，用戶可以使用以下命令將密碼存儲在 HDFS 上的 Java 密鑰庫文件中：

hadoop credential create host1.password -provider jceks://hdfs/user/foo/test.jceks -v passwd1 hadoop credential create host2.password -provider jceks://hdfs/user/foo/test.jceks -v passwd2

這將在 hdfs://user/foo/test.jceks 里面創建一個 keystore 文件，其中包含兩個密鑰：host1.password 和 host2.password。在 Hive 中創建表時，我們需要在 create table 語句中指定“hive.sql.dbcp.password.keystore”和“hive.sql.dbcp.password.key”而不是“hive.sql.dbcp.password”，具體如下：

CREATE EXTERNAL TABLE iteblog (name string,age int,gpa double ) STORED BY 'org.apache.hive.storage.jdbc.JdbcStorageHandler' TBLPROPERTIES (. . . . . ."hive.sql.dbcp.password.keystore" = "jceks://hdfs/user/foo/test.jceks","hive.sql.dbcp.password.key" = "host1.password",. . . . . . );

我們需要通過僅授權目標用戶讀取此文件來保護 keystore 文件。Hive 將檢查 keystore 文件的權限，以確保用戶在創建/更改表時具有讀取權限。

分區

Hive 能夠拆分 jdbc 數據源并以并行的方式處理每個分片。用戶可以使用以下表屬性來決定是否拆分以及拆分的分片數：

hive.sql.numPartitions: 為數據源生成多少個分片，如果不需要拆分則設置為 1

hive.sql.partitionColumn: 需要對哪個列進行拆分。如果指定了這個，Hive 會將此列拆分成hive.sql.numPartitions，每個分區的拆分點需要使用 hive.sql.lowerBound 和 hive.sql.upperBound 計算。如果沒有指定這個參數，但 numPartitions > 1，Hive 將使用 offset 拆分數據源。但是，對于某些數據庫，偏移量并不總是可靠的。如果要拆分數據源，強烈建議定義partitionColumn。partitionColumn 必須存在于"hive.sql.table"/“hive.sql.query” 模式中。

hive.sql.lowerBound / hive.sql.upperBound: 用于拆分 partitionColumn 計算間隔的下限/上限。兩個屬性都是可選的。如果未定義，Hive 將對數據源執行 MIN/MAX 查詢以獲得下限/上限。請注意，hive.sql.lowerBound 和 hive.sql.upperBound 都不能為 null。

使用示例如下：

TBLPROPERTIES (. . . . . ."hive.sql.table" = "DEMO","hive.sql.partitionColumn" = "num","hive.sql.numPartitions" = "3","hive.sql.lowerBound" = "1","hive.sql.upperBound" = "10",. . . . . . );

這種表將會拆分成3個分片，num<4 or num is null, 4< =num<7, num>=7

TBLPROPERTIES (. . . . . ."hive.sql.query" = "SELECT name, age, gpa/5.0*100 AS percentage FROM STUDENT","hive.sql.partitionColumn" = "percentage","hive.sql.numPartitions" = "4",. . . . . . );

Hive 將執行 jdbc 查詢以獲取 percentage 列的 MIN/MAX，這張表對應的 min/max 為 60/100。然后表將創建4個分片：(,70),[70,80),[80,90),[90,)。第一個分片還包括空值。

如果要查看 JdbcStorageHandler 生成的分片，可以在 hiveserver2 日志或 Tez AM 日志中查找以下消息：

jdbc.JdbcInputFormat: Num input splits created 4 jdbc.JdbcInputFormat: split:interval:ikey[,70) jdbc.JdbcInputFormat: split:interval:ikey[70,80) jdbc.JdbcInputFormat: split:interval:ikey[80,90) jdbc.JdbcInputFormat: split:interval:ikey[90,)

計算下推

Hive 會積極地將計算推送到 jdbc 表，因此我們可以充分利用 jdbc 數據源的計算能力。比如，我們有另外一張名為 iteblog_hadoop 表，如下：

CREATE EXTERNAL TABLE iteblog_hadoop (name string,age int,registration string,contribution decimal(10,2) ) STORED BY 'org.apache.hive.storage.jdbc.JdbcStorageHandler' TBLPROPERTIES ("hive.sql.database.type" = "MYSQL","hive.sql.jdbc.driver" = "com.mysql.jdbc.Driver","hive.sql.jdbc.url" = "jdbc:mysql://www.iteblog.com/sample","hive.sql.dbcp.username" = "hive","hive.sql.dbcp.password" = "hive","hive.sql.table" = "VOTER" );

那么下面的 Join 操作將會下推到 MySql 執行：

select * from iteblog join iteblog_hadoop on student_jdbc.name=voter_jdbc.name;

可以通過explain查看生成的執行計劃：

explain select * from iteblog join iteblog_hadoop on student_jdbc.name=voter_jdbc.name;. . . . . .TableScanalias: iteblog properties:hive.sql.query SELECT `t`.`name`, `t`.`age`, `t`.`gpa`, `t0`.`name` AS `name0`, `t0`.`age` AS `age0`, `t0`.`registration`, `t0`.`contribution` FROM (SELECT * FROM `STUDENT` WHERE `name` IS NOT NULL) AS `t` INNER JOIN (SELECT * FROM `VOTER` WHERE `name` IS NOT NULL) AS `t0` ON `t`.`name` = `t0`.`name`. . . . . .

計算下推僅在 jdbc 表由 hive.sql.table 定義時才會發生。 Hive 將重寫 hive.sql.query，并在 jdbc 表上進行更多計算。在上面的例子中，mysql 將運行查詢并檢索 join 的結果，而不是獲取兩個表的數據，然后在 Hive 中進行 join 操作。

目前支持算子下推的操作符包括 filter, transform, join, union, aggregation 以及 sort。

總結

以上是生活随笔為你收集整理的Apache Hive JdbcStorageHandler 编程入门指南的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。