四十、ETL工具的输入步骤
生活随笔
收集整理的這篇文章主要介紹了
四十、ETL工具的输入步骤
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
1. ETL工具Kettle的輸入步驟
1.1 Kettle輸入步驟主要分為以下幾類:
- 生成記錄和自定義常量。
- 獲取系統(tǒng)信息
- 輸入方式
2 生成記錄和自定義常量
2.1 Kettle組件生成記錄
- 生成記錄的每行數(shù)據(jù)都是相同的,所以便誕生了自定義常量數(shù)據(jù)來手工模擬數(shù)據(jù)。
2.2 Kettle組件自定義常量
- 用于生成自定義的數(shù)據(jù)
- 一般用于測試數(shù)據(jù)的構(gòu)建
3 獲取系統(tǒng)信息
獲得各類系統(tǒng)信息,常見的包括:
- 轉(zhuǎn)換開始時間
- 關(guān)鍵時間點信息
- 最多十個命令行參數(shù)
- 主機(jī)名/ip/進(jìn)程號/虛擬機(jī)內(nèi)存等
- 上一個作業(yè)的完成情況參數(shù)
4 Kettle的輸入方式
4.1 表輸入
- 執(zhí)行select語句,從數(shù)據(jù)庫中獲取數(shù)據(jù)
- 可以通過?和${var}方式使用變量
- ?變量要求前面步驟傳來的參數(shù)的熟悉一致
- 表輸入的數(shù)據(jù)類型如何和Kettle數(shù)據(jù)類型對應(yīng) ResultSetMetaData
4.1 文本文件輸入
- 文本文件輸入
- 處理有列分隔符(限定符、逃逸字符)的文本文件
- 功能選項豐富、有錯誤處理機(jī)制
- CSV文件輸入
- 簡化了文本文件輸入
- 通過NIO、并行、延遲轉(zhuǎn)換提高性能
- 固定寬度文件輸入
- 列固定寬度的文件,不用解析字符串,性能好。
XML文件輸入(DOM方式)
- 自動選擇XMLPath循環(huán)路徑
- 優(yōu)點:使用簡單
- 缺點:不能使用大XML文件,占用內(nèi)存
XML文件輸入(流方式方式)
- 自動選擇XMLPath循環(huán)路徑
- 優(yōu)點:可用于處理大的XML文件
- 缺點:使用較復(fù)雜,要寫腳本或Java程序,有一定使用難度。
JSON輸入方式
- 直接選地本地輸入
- 從上個步驟傳遞文件名
- JSON Path需要手動設(shè)置
使用較復(fù)雜,要寫腳本或Java程序,有一定使用難度。
JSON輸入方式
- 直接選地本地輸入
- 從上個步驟傳遞文件名
- JSON Path需要手動設(shè)置
總結(jié)
以上是生活随笔為你收集整理的四十、ETL工具的输入步骤的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 自然语言处理之长短时记忆网络(六)
- 下一篇: 四十一、ETL工具kettle输出步骤