机器学习领域中的六大误区
誤區
機器學習已經不再僅限于科幻電影——從Siri與Alexa語音識別到Facebook的照片自動標記,再到Amazon與Spotify商品推薦,機器學習技術開始越來越多地融入日常生活。目前,眾多企業渴望著利用機器學習算法以改進自身網絡效率。
與任何技術一樣,機器學習如果未經正確實施,同樣有可能對網絡造成嚴重危害。因此在采取這項技術之前,企業應當了解機器學習可能引發的問題,同時盡量加以避免。在今天的文章中,瞻博網絡公司安全智能軟件得Roman Sinayev列舉了以下六種機器學習領域的認識誤區。
忽視意料外的變量行為
有些事物計算機認為很重要,而人類卻會瞬間將其判斷為毫無價值。正因為如此,部署機器學習算法之前,必須盡可能考慮更多相關變量與潛在結果。
以模型訓練為例,我們假定需要幫助算法區圖片中的兩類載具——卡車與轎車。如果所有卡車圖片皆拍攝于夜間,而全部轎車圖片皆拍攝于白天,那么這套模型就會認為夜間出現的一定是卡車。
處理關鍵性變量及結果將有助于降低解決方案出現不必要及意外行為的可能性。
忽略數據作業
為了構建起一套訓練有素的統計模型,我們必須了解被分析數據的來源與集合。這部分信息很可能給算法性能、變量以及潛在結果帶來至關重要的影響。
另外,如果模型對數據進行了錯誤分類,很可能是因為其沒有利用具備理想解的最佳代表性數據進行訓練。
開發、測試,而后發布模型
模型的實用性來源于訓練數據的結構與質量。在將機器學習方案在企業內發布之前,數據科學家會利用數據集進行算法模型測試,從而確保其性能及結果符合要求。這部分數據必須認真加以可視化處理,同時監控整個新數據訓練流程。如果數據科學家急于完成測試,或者未能為模型提供充足的數據作為變量加權素材,那么這些數據集恐怕無法表達算法在現實世界中可能遇到的情況。
最重要的是提供充足的數據作為變量加權。在測試階段當中,提供更多數據有助于大幅提升模型質量,并確保其在生產環境中能夠真正發揮作用。
忽略潛在失誤
項目的最終目標很可能會帶來新的障礙,并引發潛在失誤。某家大型企業就曾經推出一款社交媒體機器人,旨在利用其模仿青少年的語言模式,從而實現順暢交互。然而,用戶向機器人提出大量有爭議性的話題,導致其因此調整自身學習方式——最終,該公司在不到24個小時內就撤回了這套聊天機器人。
并非每個機器學習項目都應進行公開或者允許用戶訪問并操縱其數據,意識到算法所處的環境將有效避免此類失誤。
選擇更多數據
當測試模型的性能與預期結果不符時,我們擁有兩種選擇——設計一套更出色的學習算法,或者收集更多數據。添加更多數據有助于工程師們了解當前模型的性能限制。如果收集更多數據的作法更易于實現,那么請繼續將其饋送至算法當中,看看能否得出更具實際意義的結果。
不要忽略整體性的意義
最近在實際應用當中獲得普遍成功的算法類型為集合學習——即通過多套模型組合以解決計算智能問題。集合學習的典型示例包括堆疊簡單分類器,例如邏輯回歸。這些集合學習方法相較于其中各類獨立分類器能夠顯著改善預測性能。
本文作者:核子可樂
來源:51CTO
總結
以上是生活随笔為你收集整理的机器学习领域中的六大误区的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 五年之后的私有云和公有云会是什么样子
- 下一篇: spring cloud config注