KNIME快速入门指南
一、介紹
KNIME Analytics Platform是用于創(chuàng)建數(shù)據(jù)科學(xué)應(yīng)用程序和服務(wù)的開源軟件。KNIME直觀,開放,不斷整合新的開發(fā),使人們可以理解數(shù)據(jù),設(shè)計(jì)數(shù)據(jù)科學(xué)工作流程和可重用組件。
借助KNIME Analytics Platform,您可以使用直觀的拖放式圖形界面創(chuàng)建可視化工作流程,而無需編碼。
在本快速入門指南中,我們將引導(dǎo)您完成KNIME Workbench,并向您展示如何構(gòu)建您的第一個(gè)工作流程。
二、啟動(dòng)KNIME Analytics Platform
如果您尚未安裝KNIME Analytics Platform,則可以在此https://www.knime.com/downloads下載。
啟動(dòng)KNIME Analytics Platform,當(dāng)KNIME Analytics Platform Launcher窗口出現(xiàn)時(shí),在此處定義KNIME工作區(qū),如圖1所示。
圖1. KNIME Analytics Platform Launcher
KNIME工作區(qū)是本地計(jì)算機(jī)上的一個(gè)文件夾,用于存儲(chǔ)KNIME工作流,節(jié)點(diǎn)設(shè)置和工作流生成的數(shù)據(jù)。存儲(chǔ)在工作區(qū)中的工作流程和數(shù)據(jù)可通過KNIME Workbench左上角的KNIME Explorer獲得。
選擇文件夾作為項(xiàng)目的KNIME工作區(qū)后,單擊“啟動(dòng)”。在使用時(shí),KNIME Analytics Platform用戶界面 - KNIME Workbench - 看起來就像圖2中所示的屏幕截圖。
圖2. KNIME Workbench
KNIME Workbench由以下組件組成:
lKNIME Explorer:活動(dòng)KNIME工作區(qū)中可用工作流和工作流組的概述,即本地工作區(qū)和KNIME服務(wù)器。
lWorkflow Coach(工作流指導(dǎo)):根據(jù)廣泛的KNIME用戶社區(qū)構(gòu)建的工作流程列出節(jié)點(diǎn)建議。如果您不允許KNIME收集您的使用情況統(tǒng)計(jì)信息,則它處于非活動(dòng)狀態(tài)。
lNode Repository(節(jié)點(diǎn)存儲(chǔ)庫):此處列出了核心KNIME Analytics Platform和您已安裝的擴(kuò)展中可用的所有節(jié)點(diǎn)。節(jié)點(diǎn)按類別組織,但您也可以使用Node Repository頂部的搜索框來查找節(jié)點(diǎn)。
lWorkflow Editor(工作流編輯):用于編輯當(dāng)前活動(dòng)的工作流。
lDescription(描述):當(dāng)前活動(dòng)工作流或所選節(jié)點(diǎn)的描述(在Workflow Editor或Node Repository中)。
lOutline(大綱):當(dāng)前活動(dòng)工作流程的概述。
lConsole(控制臺(tái)):顯示執(zhí)行消息,指示引擎蓋下發(fā)生了什么。
三、節(jié)點(diǎn)和工作流程
在KNIME Analytics Platform中,各個(gè)任務(wù)由節(jié)點(diǎn)表示。每個(gè)節(jié)點(diǎn)都帶有輸入和輸出端口、以及狀態(tài),如圖3所示。輸入是節(jié)點(diǎn)要處理的數(shù)據(jù),輸出是處理后的數(shù)據(jù)結(jié)果集。每個(gè)節(jié)點(diǎn)都有特定的設(shè)置,我們可以在配置對(duì)話框中進(jìn)行調(diào)整。每個(gè)節(jié)點(diǎn)都有四種狀態(tài),未配置的、已配置的、已執(zhí)行的、錯(cuò)誤的。節(jié)點(diǎn)可以執(zhí)行各種任務(wù),包括讀/寫文件,轉(zhuǎn)換數(shù)據(jù),訓(xùn)練模型,創(chuàng)建可視化等等。
圖3.節(jié)點(diǎn)端口和節(jié)點(diǎn)狀態(tài)
互連節(jié)點(diǎn)的集合構(gòu)成工作流,并且通常代表特定數(shù)據(jù)分析項(xiàng)目的一部分 或者可能全部。
四、建立你的第一個(gè)工作流程
現(xiàn)在讓我們開始構(gòu)建一個(gè)示例工作流,我們分析一些銷售數(shù)據(jù)。當(dāng)我們完成它時(shí),它看起來就像圖4中所示的工作流程。
圖4.示例工作流程
圖4中的示例工作流從CSV文件中讀取數(shù)據(jù),過濾列的子集,過濾掉一些行,并在兩個(gè)圖中可視化數(shù)據(jù):堆積面積圖和餅圖,您可以在圖5中看到:一個(gè)顯示銷售額隨時(shí)間的變化,另一個(gè)顯示不同國(guó)家在總銷售額上的份額。
圖5.示例工作流的輸出視圖
首先,請(qǐng)先下載包含我們將在工作流程中使用的數(shù)據(jù)的CSV文件。下載地址:https://files.knime.com/sites/default/files/sales_data.csv。接下來,通過以下方式創(chuàng)建新的空工作流:
l單擊新建在KNIME工作臺(tái)的頂部工具欄面板
l或者右鍵單擊KNIME Explorer中本地工作區(qū)的文件夾,如圖6所示
圖6.創(chuàng)建一個(gè)新的空工作流程
您需要的第一個(gè)節(jié)點(diǎn)是文件讀取器節(jié)點(diǎn),您可以在節(jié)點(diǎn)存儲(chǔ)庫中找到該節(jié)點(diǎn)。您可以導(dǎo)航到IO→讀取→文件讀取器,或在節(jié)點(diǎn)存儲(chǔ)庫面板的搜索框中鍵入名稱的一部分。
要在工作流程中使用該節(jié)點(diǎn),您可以:
l將其從節(jié)點(diǎn)存儲(chǔ)庫拖放到工作流編輯器
l或者雙擊節(jié)點(diǎn)存儲(chǔ)庫中的節(jié)點(diǎn)。它會(huì)自動(dòng)顯示在工作流編輯器中。
現(xiàn)在讓我們定義這個(gè)節(jié)點(diǎn)的設(shè)置:
l打開配置對(duì)話框或者通過雙擊文件讀取器節(jié)點(diǎn),或通過右鍵單擊并選擇配置...,如圖7。
圖7.配置節(jié)點(diǎn)
l在配置對(duì)話框中,單擊“瀏覽”按鈕定義文件路徑,然后檢查其他可用設(shè)置,并預(yù)覽數(shù)據(jù),如圖8所示。
圖8. File Reader節(jié)點(diǎn)的Configuration對(duì)話框
您現(xiàn)在可能需要檢查輸出表以查看數(shù)據(jù)文件是否按預(yù)期讀取。要檢查輸出表:
l右鍵單擊節(jié)點(diǎn)并選擇“執(zhí)行”,執(zhí)行“文件讀取器”節(jié)點(diǎn)
l通過右鍵單擊執(zhí)行的節(jié)點(diǎn)并選擇菜單中的最后一個(gè)選項(xiàng)打開輸出表:文件表
如果正確讀取了數(shù)據(jù),請(qǐng)將Column Filter節(jié)點(diǎn)添加到工作流編輯器并將其連接到File Reader節(jié)點(diǎn):
l單擊File Reader節(jié)點(diǎn)的輸出端口,按住鼠標(biāo)按鈕并在Column Filter節(jié)點(diǎn)的輸入端口釋放它
l或者,通過在工作流中單擊一次選擇“文件讀取器”節(jié)點(diǎn),然后雙擊節(jié)點(diǎn)存儲(chǔ)庫中的“列過濾器”節(jié)點(diǎn)。此方法自動(dòng)將Column Filter節(jié)點(diǎn)連接到File Reader節(jié)點(diǎn)。
在繼續(xù)之前,必須配置“列過濾器”節(jié)點(diǎn):
l將“country”,“date”和“amount”列移動(dòng)到綠框Include字段中,方法是雙擊它們,或者使用圖9所示配置對(duì)話框中Exclude和Include字段之間的按鈕。
圖9.配置Column Filter節(jié)點(diǎn)
l單擊“確定”完成配置
繼續(xù)構(gòu)建工作流程:
l將“行過濾器”節(jié)點(diǎn)添加到工作流編輯器并將其連接到“列過濾器”節(jié)點(diǎn)
l打開“行過濾器”節(jié)點(diǎn)的配置對(duì)話框,并從輸入表中排除“country”列的值為“unknown”的行,如圖10所示。
圖10.配置Row Filter節(jié)點(diǎn)
現(xiàn)在已經(jīng)過濾了數(shù)據(jù),讓我們繼續(xù)進(jìn)行數(shù)據(jù)可視化:
l在節(jié)點(diǎn)存儲(chǔ)庫中搜索節(jié)點(diǎn)Stacked Area Chart(JavaScript)和Pie / Donut Chart(JavaScript),并將它們添加到工作流編輯器,兩者都連接到Row Filter節(jié)點(diǎn)
l打開Stacked Area Chart(JavaScript)節(jié)點(diǎn)的配置對(duì)話框。選擇“date”列作為x軸列,如圖11所示。
圖11.配置Stacked Area Chart(JavaScript)節(jié)點(diǎn)
l現(xiàn)在打開餅圖/圓環(huán)圖(JavaScript)節(jié)點(diǎn)的配置對(duì)話框,選擇“country”作為類別列,選擇“Sum”作為聚合方法,將“amount”作為餅圖的頻率列。這兩種配置選項(xiàng)如圖12所示。
圖12.配置餅圖/圓環(huán)圖(JavaScript)節(jié)點(diǎn)
工作流程已完成,下一步是執(zhí)行它并查看輸出。您可以通過單擊圖13中所示工具欄中的“執(zhí)行所有可執(zhí)行節(jié)點(diǎn)”按鈕來執(zhí)行此操作...
圖13.從工具欄中執(zhí)行所有可執(zhí)行節(jié)點(diǎn)
...,或者通過選擇工作流的不同分支的最后一個(gè)節(jié)點(diǎn),右鍵單擊選擇,然后單擊菜單中的“執(zhí)行”。
要檢查基于JavaScript的節(jié)點(diǎn)的交互式輸出視圖:
l為未執(zhí)行的節(jié)點(diǎn)選擇Execute和Open Views選項(xiàng),如圖14所示
圖14.執(zhí)行和打開交互式視圖
l或者,一旦執(zhí)行一個(gè)節(jié)點(diǎn),右鍵單擊該節(jié)點(diǎn)并選擇交互視圖:...相反,如圖15
圖15.打開已執(zhí)行節(jié)點(diǎn)的交互視圖
目前,餅圖使用數(shù)據(jù)中不同國(guó)家/地區(qū)的默認(rèn)顏色。使用Color Manager節(jié)點(diǎn),您可以為國(guó)家/地區(qū)指定其他顏色,而不是圖5中所示的默認(rèn)顏色。在構(gòu)建圖形之前必須分配顏色,因此您必須在顏色管理器中間添加顏色管理器節(jié)點(diǎn)。流程。
添加Color Manager節(jié)點(diǎn):
l通過從節(jié)點(diǎn)存儲(chǔ)庫中拖動(dòng)節(jié)點(diǎn)并在連接變?yōu)榧t色時(shí)在工作流中的行過濾器節(jié)點(diǎn)和餅圖圓點(diǎn)圖表節(jié)點(diǎn)之間將其釋放,如圖16所示。紅色連接表示它已準(zhǔn)備好接受釋放鼠標(biāo)時(shí)的新節(jié)點(diǎn)。
圖16.在工作流中的兩個(gè)節(jié)點(diǎn)之間插入一個(gè)節(jié)點(diǎn)
五、示例工作流程
使用KNIME Hub上的示例工作流程快速開始分析。您可以直接在hub.knime.com上瀏覽示例工作流,也可以通過KNIME Explorer中的EXAMPLES掛載點(diǎn)瀏覽。您可以將工作流程復(fù)制到本地工作區(qū),根據(jù)用例進(jìn)行修改,或?qū)⑵渲械牟糠謨?nèi)容復(fù)制到工作流程中。KNIME Hub上的工作流程也是了解KNIME Analytics Platform中不同用例的有用資源。
要從KNIME Analytics Platform中訪問示例工作流程:
l在KNIME Explorer中展開EXAMPLES掛載點(diǎn)
l接下來,雙擊以查看按類別排序的示例工作流,如圖17所示。無需憑據(jù)。
圖17.登錄EXAMPLES掛載點(diǎn)
l在這些類別中,一些工作流組以單個(gè)操作命名,例如過濾
l其他工作流程組的名稱涉及更廣泛的主題,例如時(shí)間序列分析
l“50_Applications”工作流程組包含的工作流程涵蓋整個(gè)用例,如流失預(yù)測(cè)或欺詐檢測(cè)
要下載示例工作流程:
l拖放
l或者,復(fù)制并粘貼
工作流進(jìn)入LOCAL工作區(qū)。雙擊下載的示例工作流副本,以打開和編輯它,就像任何其他工作流程一樣。
六、擴(kuò)展和集成
如果要向KNIME Analytics Platform添加功能,可以安裝擴(kuò)展和集成。可用的擴(kuò)展包括KNIME提供的免費(fèi)開源擴(kuò)展和集成,以及由社區(qū)和商業(yè)擴(kuò)展提供的免費(fèi)擴(kuò)展。
由KNIME開發(fā)和維護(hù)的KNIME擴(kuò)展和集成包含Keras提供的深度學(xué)習(xí)算法,H2O提供的高性能機(jī)器學(xué)習(xí),Apache Spark提供的大數(shù)據(jù)處理,以及Python和R提供的腳本,僅舉幾例。
安裝擴(kuò)展程序:
l單擊文件菜單欄上,然后安裝KNIME擴(kuò)展...。將打開如圖18所示的對(duì)話框。
l選擇要安裝的擴(kuò)展程序
l單擊“下一步”并按照說明操作
l重新啟動(dòng)KNIME Analytics Platform
圖18.安裝擴(kuò)展和集成
默認(rèn)情況下,KNIME擴(kuò)展和受信任的社區(qū)擴(kuò)展可通過其更新站點(diǎn)的URL獲得。可以通過首先添加其更新站點(diǎn)來安裝其他擴(kuò)展。
要添加更新站點(diǎn):
l導(dǎo)航到“文件”→“首選項(xiàng)”→“安裝/更新”→“可用軟件站點(diǎn)”
l點(diǎn)擊“添加...”
l并通過“位置”字段提供URL來添加新的更新站點(diǎn)
l或者,通過提供包含本地更新站點(diǎn)的zip文件的文件路徑,通過“存檔...”
l最后,給更新站點(diǎn)一些有意義的名稱并單擊“確定”
完成此操作后,可以如上所述安裝擴(kuò)展。
通過以下方式更新到最新的KNI??ME版本:
l單擊文件,然后更新KNIME ......以確保您使用KNIME軟件的最新版本,并已安裝的擴(kuò)展
l在打開的窗口中,選擇更新,接受條款和條件,等待更新完成,然后重新啟動(dòng)KNIME Analytics Platform
七、提示與技巧
在KNIME論壇上獲得幫助和討論
登錄KNIME社區(qū)論壇,加入KNIME分析平臺(tái),擴(kuò)展和集成,特殊興趣小組和KNIME開發(fā)等不同類別的討論。論壇是一個(gè)充滿活力的社區(qū),KNIME的工作人員以及其他經(jīng)驗(yàn)豐富的KNIME用戶可以回答您的問題。
導(dǎo)入和導(dǎo)出工作流程
要導(dǎo)入工作流程或工作流程組,在KNIME Explorer–>LOCAL的任意位置單擊右鍵,然后選擇Import(Export)KNIME Workflow...,如圖19
圖19.導(dǎo)入和導(dǎo)出工作流和工作流組
要導(dǎo)出工作流程或工作流程組,請(qǐng)首先選擇要導(dǎo)出的工作流程(或組)
接下來,寫入目標(biāo)文件夾的路徑和文件名。如果導(dǎo)出工作流組,則可以從文件夾中選擇要導(dǎo)出的元素。如圖20所示
圖20.定義要導(dǎo)入或?qū)С龅奈募穆窂?/p>
通過拖放數(shù)據(jù)文件
導(dǎo)入數(shù)據(jù)您可以從KNIME工作區(qū)或系統(tǒng)上的任何位置導(dǎo)入數(shù)據(jù)文件,方法是將其從KNIME Explorer,桌面或文件資源管理器拖放到工作流編輯器,如圖21所示。方法自動(dòng)創(chuàng)建正確的節(jié)點(diǎn)以讀取文件類型,并通過使用相對(duì)于KNIME Explorer位置的文件路徑URL填充文件路徑設(shè)置來預(yù)先配置節(jié)點(diǎn)。
圖21.通過拖放讀取數(shù)據(jù)文件
替換工作流中的節(jié)點(diǎn)
您可以通過從存儲(chǔ)庫拖動(dòng)節(jié)點(diǎn)并在其中出現(xiàn)白色箭頭和方框時(shí)將其放在現(xiàn)有節(jié)點(diǎn)之上來替換工作流中的節(jié)點(diǎn),如圖22所示。
圖22.替換工作流中的節(jié)點(diǎn)
展開您的節(jié)點(diǎn)搜索:模糊搜索和清晰搜索
如果您不確定要搜索的節(jié)點(diǎn)的名稱,請(qǐng)通過單擊搜索字段旁邊的圖標(biāo)切換到節(jié)點(diǎn)存儲(chǔ)庫中的模糊搜索模式,如圖23所示您的搜索結(jié)果現(xiàn)在將包含與搜索詞相關(guān)的任何節(jié)點(diǎn)。在清晰搜索模式下,搜索文本必須與節(jié)點(diǎn)名稱本身完全匹配。通過更多練習(xí)構(gòu)建工作流程,您將記住越來越多的節(jié)點(diǎn)名稱。一段時(shí)間后,您可能會(huì)切換回清晰的搜索模式,以便更快地找到您正在尋找的節(jié)點(diǎn)。
圖23. Crisp和模糊搜索模式
監(jiān)視節(jié)點(diǎn)的狀態(tài)
如果要查看工作流中的中間輸出表,可以將節(jié)點(diǎn)監(jiān)視器面板添加到KNIME Workbench:
n單擊View→Other→KNIME Views→Node Monitor,如圖24所示
圖24.將節(jié)點(diǎn)監(jiān)視器添加到KNIME Workbench
n接下來,在Node Monitor右上角的View菜單中選擇Show Output Table,如圖25所示。此面板現(xiàn)在顯示您在工作流程中選擇的節(jié)點(diǎn)的輸出。
圖25.在節(jié)點(diǎn)監(jiān)視器中顯示輸出表
l除了輸出表之外,您還可以讓面板顯示節(jié)點(diǎn)的執(zhí)行時(shí)間。您還可以固定一個(gè)節(jié)點(diǎn)的輸出。這意味著當(dāng)前所選節(jié)點(diǎn)的輸出與工作流編輯器中的選擇無關(guān)。
掃碼關(guān)注獲取 KNIME 最新動(dòng)態(tài)
公眾號(hào):Spark技術(shù)學(xué)習(xí)
總結(jié)
以上是生活随笔為你收集整理的KNIME快速入门指南的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 现代移动通信技术能在军队干什么?
- 下一篇: 养生误区(养生知识大全集100条)