如何做机器学习项目规划?一个事半功倍的checklist
一只小狐貍帶你解鎖 煉丹術&NLP?秘籍
前言
在接到一個新項目的時候,對其進行合理的安排和規劃往往會有事半功倍的效果。
下面是從規劃30 多個機器學習項目的經驗中,提煉出的一個簡單有效的checklist。一起來看看叭~
項目動機
明確你的項目的更廣泛的意義。
你要解決的問題是什么?What is the problem you want to solve?
相關聯的目標策略是什么?
如果項目團隊不理解你的動機,那么他們就很難提出好的建議。有很多方法可以解決機器學習的問題。所以幫助你的團隊以你最感興趣的方式工作——退一步告訴他們為什么這個項目是重要的。
問題定義
你想要預測的具體輸出是什么?
對于給定的輸入,你的機器學習模型將理想地學會預測非常具體的輸出。所以這里你要盡可能的清楚。“預測機器故障”可能意味著很多事情 —— “告訴我,在未來24小時內,意外停機的風險何時增加 50%以上”更好。
你的算法有什么輸入數據?
模型預測輸出的唯一方法是從模型的輸入因子中派生出來。所以,為了有機會做出好的預測,你必須有與輸出相關的數據。數據越多越好。
什么是預測你的具體輸出的最相關因素?
算法不能理解我們的世界。重要的是,你要給數據科學家一些提示,告訴他哪些數據實際上是相關的,這樣他就可以用算法能夠理解的方式選擇和分割數據。
你能提供多少訓練樣本 ?
一個算法需要的練習比一個人要多得多。你最少需要 200 個樣本。越多越好。
性能度量
你怎么知道什么是好的結果?
你有一個簡單的基準測試來比較你的結果嗎?
有沒有一種簡單的方法來利用你已有的數據進行預測?也許你可以根據去年的數字預測銷售額,或者通過計算客戶上一次登錄后的天數來評估客戶離開的風險。一個簡單的基準測試可以為你的團隊提供有價值的問題洞察力。它給你一些東西來衡量模型。
你將如何衡量預測的準確性 ?
你期望的最低準確度是多少?
你希望預測的準確率平均在 5% 以內,還是更重要的是預測誤差不超過 10%?你的模型可以以任何一種方式進行調優。哪種方式更好取決于什么對你來說是重要的。
一個完美的解決方案是什么樣的?
即使這對你來說是顯而易見的,把它寫在紙上也能幫助你理清思路。
是否有參考解決方案(如研究論文)?
如果有人以前解決過類似的問題,就把他們的解決方案當作靈感。這為每個人提供了一個共同的起點,這樣他們就可以看到要使用哪些數據,可能會出現哪些問題,以及要嘗試哪些算法。
時間線
一個性能驗證項目的時間線示例。
是否有截止日期需要注意?
你什么時候需要看到第一個結果?
你想什么時候有一個完整的解決方案?
人工智能解決方案可以無限地改進。明確的最后期限有助于讓團隊集中精力。
聯系人
誰負責項目(PM)?
誰可以授權訪問數據集?
誰能幫助理解當前的流程和/或簡單的基準測試(領域專家)?
在一個項目的過程中會出現許多問題。明確你的工程師可以向誰求助。
合作
在業務和工程團隊之間建立一個雙/周的更新。
每周安排一次會議來查看當前的結果,并討論那些不需要通過電子郵件來回答的問題。
應該涉及誰 ?
他們應該學什么?
在學習如何管理人工智能方面,沒有什么比實際項目的實踐經驗更有價值。如果你想讓你的團隊的其他成員學習,從一開始就要說清楚。
定義代碼和問題的位置以及如何訪問代碼。
讓所有的開發從一開始就透明。這樣任何人都可以很容易地加入,給出提示,并檢查進展。
回答這個清單上的問題,并與大家分享
世界仍在研究如何最好地運行人工智能/機器學習項目。填寫這份清單將會給你所有成功的機器學習項目的要素之一:理解。
可
能
喜
歡
斯坦福大學最甜網劇:知識圖譜CS520面向大眾開放啦!
Google|突破瓶頸,打造更強大的Transformer
ACL2020|對話數據集Mutual:論對話邏輯,BERT還差的很遠
ACL2020|FastBERT:放飛BERT的推理速度
LayerNorm是Transformer的最優解嗎?
13個offer,8家SSP,談談我的秋招經驗
夕小瑤的賣萌屋
_
關注&星標小夕,帶你解鎖AI秘籍
訂閱號主頁下方「撩一下」有驚喜哦
總結
以上是生活随笔為你收集整理的如何做机器学习项目规划?一个事半功倍的checklist的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 为什么每次有人大声通电话时,我就很烦躁.
- 下一篇: 巨省显存的重计算技巧在TF、Keras中