使用DataWorks来调度AnalyticDB任务
DataWorks作為阿里云上廣受歡迎的大數據開發調度服務,最近加入了對于AnalyticDB的支持,意味著所有的AnalyticDB客戶可以獲得任務開發、任務依賴關系管理、任務調度、任務運維等等全方位強大的能力,現在就給大家仔細介紹下如何使用DataWorks來調度AnalyticDB任務。
開通AnalyticDB
進入阿里云分析型數據庫 MySQL版產品詳情頁,點擊免費試用。最近上線了15天免費試用活動,需要首先填寫申請表單,審批通過后即可享受免費試用AnalyticDB活動。進入購買頁面,選擇好地域、可用區、ECU類型、ECU數量和數據庫名,點擊立即購買,稍等幾分鐘時間就可以開通AnalyticDB實例。
開通DataWorks
開通完AnalyticDB服務后,緊接著要開通DataWorks。選擇好region后點擊下一步。
填寫工作空間名稱,注意模式要改成“標準模式”,創建工作空間。
AnalyticDB中表和數據準備
為了演示如何在DataWorks上調度AnalyticDB的任務,我們后面會用到一些測試數據,這里我們用著名的TPCH的測試數據集中的ORDERS表, 數據已經提前存入表中。
前面開通成功后,我們就可以在AnalyticDB中找到數據庫,登陸數據庫后,創建ORDERS表,如下:
任務調度其中一個重要的功能是任務之間的依賴,為了演示這個功能,我們這里會在DataWorks里面創建兩個AnalyticDB任務, 我們的表、任務之間的關系如下圖:
- 任務一: 我們從orders表清洗出已經完成的訂單: o_orderstatus = 'F' , 并寫入 finished_orders 表。
- 任務二: 再從 finished_orders 表里面找出總價大于10000的訂單: o_totalprice > 10000, 并寫入 high_value_finished_orders 表。
在 DataWorks 上創建AnalyticDB任務
在開通了?DataWorks + AnalyticDB?的功能后,我們可以在DataWorks的數據開發IDE里面創建AnalyticDB的任務了,如下圖:
我們把第一個任務命名為:?finished_orders?, 點擊確定會進入一個SQL編輯的頁面,要寫AnalyticDB SQL一定要告訴DataWorks我們寫的SQL運行在哪個服務上,這個在DataWorks里面被包裝成了"數據源"的概念。
剛進來的時候沒有數據源,點擊新建數據源
填寫必要的信息點擊確定完成。
DataWorks為了安全的考慮,對可以連接的服務進行了安全控制,因此我們需要把我們要連的AnalyticDB數據庫的地址+端口加到白名單里面去,這個配置是在DataWorks工作空間的配置里面:
具體配置如下(需要換成你實際的域名+端口):
做了這么多之后,我們終于可以在編輯頁面看到AnalyticDB的數據源了,下面我們在?finished_orders的任務里面填入如下SQL, 并點擊執行:
如下圖:
重復上述步驟,我們創建第二個任務: high_value_finished_orders
配置任務依賴
單個任務單次運行沒什么太大意思,任務調度的核心在于多個任務按照指定的依賴關系在指定的時間進行運行,下面我們讓:?task_finished_orders?在每天半夜2點開始運行:
high_value_finished_orders?在?finished_orders?成功運行之后再運行:
任務發布
任務配置好之后,就可以進行任務的發布、運維了。任務要發布首先必須提交:
提交之后,我們在待發布列表可以看到所有待發布的任務
選擇我們剛剛提交的兩個任務,我們就可以發布了。在發布列表頁面可以查看我們剛剛的發布是否成功:
發布成功之后,我們就可以進入任務運維頁面查看我們的任務,進行各種運維操作了。
總結
在這篇文章里面,我帶大家一起體驗了一下如何用DataWorks來開發、調度AnalyticDB的任務,有了這個能力之后大家可以更方便地進行每天任務的開發、運維了。
原文鏈接
本文為云棲社區原創內容,未經允許不得轉載。
總結
以上是生活随笔為你收集整理的使用DataWorks来调度AnalyticDB任务的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 阿里开源!轻量级深度学习端侧推理引擎 M
- 下一篇: 双11期间,请关爱程序员!