kettle优化抽取数据速度_数据异构工具介绍
一:Data Migration(DM)
1、Data Migration 簡介:
Data Migration (DM) 是一體化的數據同步任務管理平臺,支持從 MySQL 到 TiDB或者MySQL 的全量數據遷移和增量數據同步。使用 DM 工具有利于簡化錯誤處理流程,降低運維成本。
2、DM 架構:
DM 主要包括三個組件:DM-master,DM-worker 和 dmctl。
- DM-master 負責管理和調度數據同步任務的各項操作。
- DM-worker 負責執行具體的數據同步任務。
- dmctl 是用來控制 DM 集群的命令行工具。
3、核心功能:
- 路由表(Table routing) :是指將上游 MySQL 或 MariaDB 實例的某些表同步到下游指定表的路由功能,可以用于分庫分表的合并同步。
- 黑白名單(Black & white table lists) :是指上游數據庫實例表的黑白名單過濾規則。其過濾規則類似于 MySQL ?replication-rules-db?/?replication-rules-table?,可以用來過濾或只同步某些數據庫或某些表的所有操作。
- 事件過濾器(Binlog event filter)是比庫表同步黑白名單更加細粒度的過濾規則,可以指定只同步或者過濾掉某些 ?schema?/?table? 的指定類型的 binlog events,比如 INSERT,TRUNCATE TABLE,DELETE等。
- 列映射(Column mapping): 提供對表的列值進行修改的功能。可以根據不同的表達式對表的指定列做不同的修改操作,目前只支持 DM 提供的內置表達式。partition id 表達式用于解決分庫分表合并同步的自增主鍵的沖突。
- 分庫分表合并:此功能用于將上游 MySQL/MariaDB 實例中結構相同的表同步到下游 TiDB 的同一個表中。DM 不僅支持同步上游的 DML 數據,也支持協調同步多個上游分表的 DDL表結構變更。
二:DataX
1、DataX3.0簡介:
DataX 是阿里巴巴集團內被廣泛使用的離線數據同步工具/平臺,實現包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各種異構數據源之間高效的數據同步功能。
為了解決異構數據源同步問題,DataX將復雜的網狀的同步鏈路變成了星型數據鏈路,DataX作為中間傳輸載體負責連接各種數據源。當需要接入一個新的數據源的時候,只需要將此數據源對接到DataX,便能跟已有的數據源做到無縫數據同步。
- Reader:Reader為數據采集模塊,負責采集數據源的數據,將數據發送給Framework。
- Writer: Writer為數據寫入模塊,負責不斷向Framework取數據,并將數據寫入到目的端。
- Framework:Framework用于連接reader和writer,作為兩者的數據傳輸通道,并處理緩沖,流控,并發,數據轉換等核心技術問題。
三:kettle
1、Kettle簡介:
Kettle 是一款使用 Java 編寫的功能強大的 ETL ( Extract Transform and Load )工具,支持關系型數據庫( MySQL 、 Oracle 等)、非關系型數據庫( MongoDB 、 ElasticSearch 等)以及文件之間的大規模數據遷移。功能相對完善,任務執行可以監控報警。
- Kettle這個ETL工具集,它允許你管理來自不同數據庫的數據,通過提供一個圖形化界面來操作數據的轉換和輸出等。
- Kettle中有兩種腳本文件,transformation(.ktr)和job(.kjb),transformation完成針對數據的基礎轉換,job則完成整個工作流的控制。
2、DataX和kettle對比:
總結
以上是生活随笔為你收集整理的kettle优化抽取数据速度_数据异构工具介绍的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: javafx应用启动自动执行函数_一张图
- 下一篇: 如何保证战略落地_战略如何规划落地?值得