想要AI优先?数据优先才行
戳藍字“CSDN云計算”關注我們哦!
來源 |?forbes
編譯 | shawn
責編 |?Carol
出品 | CSDN云計算(ID:CSDNcloud)?
? ? ? ? ? ? ? ? ? ? ? ? ? ??
開展人工智能和機器學習項目的人很早就知道,機器學習項目不是應用程序開發項目。機器學習項目的大部分價值在于模型、訓練數據和配置信息,這些信息指導模型如何應用于特定的機器學習問題。
應用程序代碼主要用于在生產環境中實現機器學習算法和“操作化設計”機器學習模型,是一種實現方式。這并不是說應用程序代碼是不必要的,畢竟,計算機需要某種方式來操作化設計機器學習模型。
但是,如果把機器學習項目的重點放在應用程序代碼上,就舍本逐末了。如果你希望你的項目AI優先,那么你就先需要有一個數據優先的認識。
使用以數據為中心的方法
和以數據為中心的技術
如果遵循數據優先,就需要使用數據優先的方法。作為一種迭代成功的方式,敏捷方法論當然沒有什么錯,但敏捷方法本身還有很多不足之處,因為它專注于功能和應用程序邏輯的傳達。
目前已經有了一些以數據為中心的方法,這些方法已經在許多現實場景中得到了驗證。其中最流行的是數據挖掘的跨行業標準過程(Cross Industry Standard Process for Data Mining,CRISP-DM) ,它側重于研究成功的數據項目所需的步驟。
在當今時代,我們將非敏捷的CRISP-DM與敏捷方法相融合,以獲得更好的效果。盡管對于大多數開展人工智能項目的企業來說,這仍然是一個新領域,但我們看到,相比敏捷方法中,將人工智能項目的所有東西硬塞進現有的以應用程序為中心的特點,這種融合的方法論顯然更成功。
如果你對AI有以數據為中心的認識,那么你就需要將以數據為中心的方法與以數據為中心的技術結合起來。也就是說,你選擇的用于實現所有上文所述的構件的工具首先要以數據為中心。
應該使用數據筆記本時,不要使用以代碼為中心的IDE;應該使用專注于模型開發和維護的工具時,不要使用企業集成中間件平臺。
不要使用所謂的機器學習平臺,這些平臺實際上只是一堆基于云的技術或過度發展的大數據管理平臺。你使用的工具應該支持你制定的機器學習目標,而這些目標又由你要完成的活動和你需要創建的構件支持。
某個 GPU廠商提供有一組工具,并不意味著用這組工具就是正確的。企業服務供應商或者云供應商提供有一個“堆棧”,并不意味著用這個所有是正確的。你應從可交付成果和機器學習目標開始,向后推進。
另一個重要的考慮因素是機器學習模型將在何處以及如何部署,或用人工智能的術語來說就是“操作化”。人工智能模型應用廣泛,從與互聯網斷開連接的“邊緣”設備到移動和桌面應用程序,從企業服務器到基于云計算的實例,以及各種各樣的自動車輛和飛行器,處處可見其身影。這些應用都是人工智能模型和實現可以派上用場的地方。
模型操作化的大量異質性更加凸顯了單一機器學習平臺的荒謬。一個平臺如何同時在無人機、移動應用、企業服務實現和云實例中提供人工智能功能。即使從一家供應商那里獲得所有這些技術,它也將是一系列不同工具的組合,而不是一個單一的、統一的、可互用且可用的平臺。
培養以數據為中心的人才
所有這些方法和技術都不是現成的。如果你想在人工智能項目上取得成功,就需要成功地建立一個人工智能團隊。如果以數據為中心的觀點在AI領域是正確的,那么你的團隊也需要以數據為中心。
開發應用程序或管理企業系統或數據的人才不同于開發人工智能模型、調整算法、處理培訓數據集和操作機器學習模型的人才。你的人工智能團隊的主要核心成員應該是數據科學家,數據工程師,以及那些負責機器學習模型的人。雖然編碼、開發和項目管理的人才是必需的,但發現和培養以數據為中心的人才是人工智能項目能否取得長期成功的關鍵。
培養數據人才的主要挑戰是很難找到這些人才并幫助他們成長。這主要是因為數據不是代碼。你需要知道如何處理大量數據源,將它們編譯成干凈的數據集,然后從海量數據中提取特定信息的人才。
此外,人工智能的語言是數學,而不是編程邏輯。因此,一個強大的數據團隊還應該精通特定的數學知識,有了這些數學知識,才能懂得如何選擇和實現人工智能算法,正確調整超參數,理解測試和驗證結果。
簡單地猜測和隨機改變訓練數據集和超參數并不是創造有價值的人工智能項目的好方法。因此,對機器學習數學和算法有基本理解,懂得如何處理大數據集的理解,這樣的以數據為中心的人才才是人工智能項目成功的關鍵。
準備好繼續長期投資
現階段,人工智能應用很大程度上以數據為中心,活動、組件、工具和團隊都需要遵循以數據為中心的理念。最大的挑戰在于很多生態系統仍在開發中,大多數企業沒辦法用上。人工智能專用的方法仍然在大規模的項目中進行測試。人工智能專用的工具和技術仍在開發、改進中,并且正在快速地進行演變。人工智能人才仍然緊缺,我們才剛剛開始看到對特定技能的投資有所增長。
因此,那些打算在人工智能領域取得成功的組織,即使有從以數據為中心的觀念,也需要做好長期投資的準備。找到同行的團隊,看看哪些方法適合他們,在這些方法的基礎上繼續迭代,直到找到適合你的方法。找到不斷更新團隊技能和開發方法的途徑。告誡自己,你正處于人工智能技術的前沿,并準備定期對新技術進行再投資,或者在必要時發明自己的技術。
盡管人工智能的歷史至少已有70年,但是我們仍然處于人工智能應用于大規模項目的早期階段。這就像互聯網、移動或大數據時代的早期階段,那些早期的先驅者不得不艱難地學習,在找到“正確”的方法之前犯許多錯誤。但是一旦這些方法被發現,組織就會獲得巨大的回報。
只要你秉持以數據為中心的理念,并準備繼續長期投資,你在人工智能,機器學習和認知技術上花費努力終將為你帶來成功。
?
福利掃描添加小編微信,備注“姓名+公司職位”,入駐【CSDN博客】,加入【云計算學習交流群】,和志同道合的朋友們共同打卡學習! 推薦閱讀:GitHub 標星 14000+,阿里開源的 SEATA 如何應用到極致? Serverless 終結 Kubernetes? 享受夢幻技術盛宴,相約 Unite 2020 JavaScript 造就年薪超過 10 萬美元的開發者們! 只需1分鐘,這個網站用AI分離歌曲的人聲、伴奏和樂器聲 10 大趨勢帶你預見 DeFi 2020! 真香,朕在看了!總結
以上是生活随笔為你收集整理的想要AI优先?数据优先才行的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 盘点丨2019十大边缘计算项目
- 下一篇: 七大新品集中亮相,腾讯云AI大数据全线升