6 个核心理念!诠释了吴恩达新书《Machine Learning Yearning》
點擊上方“AI有道”,選擇“星標”公眾號
重磅干貨,第一時間送達
編譯 | 紅色石頭
吳恩達的《Machine Learning Yearning》主要講的是如何構建好的機器學習項目。這本書包含了很難在其他地方找到的實際見解,其格式很容易與隊友和合作者分享。大多數人工智能技術課程都會向你解釋不同的 ML 算法如何在框架下工作,但是這本書教你如何實際使用它們。如果你渴望成為人工智能的技術領導者,這本書將幫助你的道路。歷史上,學習如何對人工智能項目做出戰略決策的唯一方法是參加研究生課程或獲得在公司工作的經驗。《Machine Learning Yearning》是有助于你快速獲得這種技能,這使你能夠更好地建立復雜的人工智能系統。
關于作者
吳恩達是一位計算機科學家、執行官、投資者、企業家,也是人工智能領域的 Top 專家之一。他是百度的前副總裁兼首席科學家,斯坦福大學的兼職教授,最受歡迎的機器學習在線課程之一的創建者,coursera.com 的聯合創始人和谷歌大腦的前任負責人。在百度,他曾將人工智能團隊擴展到數千人。
介紹
《Machine Learning Yearning》這本書從一個小故事開始。想象一下,你想在公司里建立一個性能領先的貓識別系統。您已經構建了一個原型,但不幸的是,您的系統的性能沒有那么好。您的團隊提出了幾個關于如何改進系統的想法,但是您對遵循哪個方向感到困惑。你可能建立世界領先的貓識別系統,或者在錯誤的方向上浪費數月的時間。
這本書是要告訴你如何在這樣的情況下作出決定,找到最優解決方案。吳恩達提出大多數機器學習問題都會留下關于下一步該如何做的線索,以及你應該避免做的事情。他繼續解釋說,學習“閱讀”這些線索是我們領域的一項關鍵技能。
簡而言之,ML Yearning 為你提供一份關于如何設置機器學習項目技術方向的深層次的理解。
由于你的團隊成員在你提出新想法時可能會持懷疑態度,所以吳恩達把這些章節寫得很短(1-2 頁),這樣你的團隊成員就可以在幾分鐘內讀懂它來理解這些概念背后的概念。如果你有興趣讀這本書,請注意,它不適合完全初學者,因為它需要基本熟悉監督學習和深入學習。
在這篇文章中,我將用我自己的語言總結這本書的 6 個核心理念。
1. 迭代、迭代、再迭代
吳恩達在書中強調,快速迭代非常重要,因為機器學習是一個迭代過程。不要考慮如何為您的問題構建完美的 ML 系統,您應該盡可能快地構建一個簡單的原型。如果你不是問題領域的專家,這一點尤其正確,因為很難正確猜測最有希望的方向。
你應該在幾天內構建第一個原型,然后彈出提示,向你展示改進原型性能的最有希望的方向。在下一個迭代中,你將根據其中的一個提示繼續改進系統,并構建下一個版本的系統。你會一次又一次地這樣做。
吳恩達繼續解釋說,迭代的越快,你將取得更多的進展。這本書的其它概念,都是建立在這一原則的基礎上。但請注意,這是為那些只想構建基于人工智能的應用程序而不想在該領域進行研究的人設計的。
2. 使用單一的評價指標
這個概念建立在前一個概念的基礎上,關于為什么選擇單個數字的評估度量的解釋非常簡單:它使您能夠快速評估算法,因此您能夠更快地迭代。使用多個評估指標只會使比較算法變得更加困難。
假設你有兩個算法。第一個具有 94% 的精確率和 89% 的召回率。第二種方法的精確率為 88%,召回率為 95%。
如果你沒有選擇一個評估指標,那么不知道哪個分類器是更好的,因此可能需要花費一些時間來弄清楚。問題是,在每次迭代中都會為這個任務浪費大量時間,并且從長遠來看,累積起來耗費的時間更多。你將嘗試許多關于體系結構、參數、功能等想法。如果使用單個數字評估指標(如精確率或 F1 分數),則可以根據模型的性能對所有模型進行排序,并快速確定哪個模型最有效。改進評估過程的另一種方法是將多個度量合并為一個度量,例如,通過平均多個錯誤度量。
然而,仍然存在需要滿足多個指標的 ML 問題,例如:運行時間。吳恩達解釋說,你應該定義一個“可接受的”運行時間,這使你能夠快速地整理出速度太慢的算法,并根據你的單個評估指標得到令人滿意的算法。
簡言之,單個評估指標能使你能夠快速評估算法,從而更快地迭代。
3. 錯誤分析是關鍵
錯誤分析是查看分析算法輸出錯誤的過程。例如,假設你的貓識別器把鳥誤認為貓,并且你已經對如何解決這個問題有了一些想法。
通過適當的錯誤分析,你可以估計改進的想法實際上會提高系統性能的程度,而無需花費數月的時間來實現這個想法,然后發現它對提升系統并不重要。這使你能夠決定哪種想法是值得花最多的資源去實現的。如果你發現錯誤分類的圖像中只有 9% 是鳥,那么無論你多大程度上改進算法在鳥分類上的性能,結果并不重要,因為它不會提高超過 9% 的性能。
此外,吳恩達提出幾個使你能夠快速進行錯誤分析的想法。您只需要創建一個電子表格,然后從驗證集中選取 100 個錯誤分類的圖像。在電子表格中,為每一個錯誤分類的圖像創建一行,為每一個需要改進的想法創建一列。然后你檢查每一個錯誤分類的圖像,并記錄哪些改進想法能夠使該錯誤圖像被正確分類。
比如,這樣做之后你會發現,使用 IDEA-1,系統將正確分類 40% 的錯誤分類圖像,使用 IDEA-2,正確分類 12%,使用 IDEA-3,正確分類只有 9%。然后你就會知道,IDEA-1 是你的團隊應該做的最有希望的改進。
此外,一旦你開始查看這些錯誤分類的圖像,你還可能會發現改進算法的新想法。
4. 定義一個最佳錯誤率
最佳錯誤率有助于指導您接下來的步驟。在統計學中,它也經常被稱為貝葉斯誤差率。
想象一下,你正在構建一個語音轉文本的系統,你發現用戶提交的 19% 的音頻文件有比較大的背景噪音,甚至人都無法識別其中所說的內容。如果是這樣的話,即使是最好的系統也可能有高達 19% 的誤差。相反,如果你處理的是一個最佳錯誤率接近 0% 的數據集,你的系統應該會表現得更好。
定義一個最佳錯誤率還會幫助你檢測算法是否存在高偏差或方差,這有助于你定義下一步改進算法。
但我們如何知道最佳錯誤率是多少呢?對于人類擅長的任務,您可以將系統的性能與人類的性能進行比較,從而估計出最佳錯誤率。在其他情況下,通常很難定義一個最佳錯誤率,這就是為什么你應該研究人類在某些問題上能夠做得很好的問題,我們將在下一部分討論。
5.?努力解決人類能做得很好的問題
在整本書中,吳恩達解釋了好幾次為什么建議專注于人類擅長的領域上研究機器學習。例如語音識別、圖像分類、目標檢測等。這有幾個原因。
首先,更容易獲得或創建一個標記的數據集,因為如果人們能夠自己解決問題,那么他們很容易為你的學習算法提供高精度的標簽。
其次,你可以使用人工性能作為希望用機器算法達到的最佳錯誤率。吳恩達解釋說,定義了一個合理且可實現的最佳錯誤有助于加快團隊的進度。它還可以幫助你檢測你的機器算法是否存在高偏差或方差。
第三,它能使你能夠根據人類直覺進行錯誤分析。例如,如果你正在構建語音識別系統,并且你的模型對輸入進行了錯誤的分類,那么你可以嘗試了解人類將使用哪些信息來獲得正確的識別,并使用這些信息相應地修改學習算法。雖然算法在越來越多的任務上超過了人類,而人類自己卻做不好,但是你應該盡量避免這些問題。
總的來說,你應該避免這些人類不擅長的任務,因為這會使你的數據更難獲得標簽,你不能再依靠人類的直覺,而且很難知道最佳錯誤率是什么。
6. 如何劃分數據集
吳恩達還提出了一種如何分割數據集的方法。他建議如下:
訓練集:使用它,你可以訓練你的算法,而不需要其他任何東西。
驗證集:這個集合用于進行超參數調整、選擇和創建適當的特性以及進行錯誤分析。它基本上是用來決定你的算法的。
測試集:測試集用于評估系統的性能,但不用于做決定。它只是用來評估的,沒有別的。
驗證集和測試集允許你的團隊快速評估算法的性能。它們的目的是指導你對系統進行最重要的更改。
吳恩達建議使用驗證集和測試集,以便在未來系統部署之后,你希望在哪個數據集上表現得更好。如果你實際用到的數據與當前訓練的數據不同,這一點尤其重要。例如,你訓練模型的時候使用的普通相機拍攝的圖片,但實際應用中系統將只接收手機拍攝的照片,因為它是一個手機 app 應用。如果你沒有足夠的手機照片來訓練你的系統,這可能就會出問題。因此,您應該選擇測試集,這些測試集反映出你希望在以后的實際情況中表現出色的數據類型,而不是用于訓練的數據。
另外,您應該選擇來自同一分布的驗證集和測試集。否則,你的團隊有可能會在驗證集上構建一些性能良好的模型,結果發現它在測試數據上的性能非常差,這是你最關心的。
總結
在這篇文章中,我向大家介紹了《Machine Learning Yearning》這本書的 6 個核心概念。現在你知道了,為什么快速迭代很重要,為什么應該使用單個評估指標,以及什么是錯誤分析,為什么它至關重要。此外,你還了解了最佳錯誤率、為什么你應該處理人類可以做得很好的機器學習問題以及如何劃分數據。另外,您應該選擇來自同一分布的驗證集和測試集。希望這篇文章能給你介紹一下這本書的一些關鍵概念,我可以肯定地說這本書值得一讀。
資源
最后,附上吳恩達《Machine Learning Yearning》的電子書,包含英文版和官方授權翻譯的中文版!供大家參考學習。
獲取方式是直接在本公眾號『AI有道』后臺回復:【mly】即可。中英文版對照合集將一同放送哦!
原文鏈接:
https://towardsdatascience.com/6-concepts-of-andrew-ngs-book-machine-learning-yearning-abaf510579d4
【推薦閱讀】
干貨 | 公眾號歷史文章精選(附資源)
我的深度學習入門路線
我的機器學習入門路線圖
?加入AI視界,離AI更近一步!
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的6 个核心理念!诠释了吴恩达新书《Machine Learning Yearning》的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2020年学习编程最好的10个网站,绝对
- 下一篇: 深度学习 500 问!一份火爆 GitH