03.结构化机器学习项目 W1.机器学习策略(1)
文章目錄
- 1. 機(jī)器學(xué)習(xí)策略
- 2. 正交化 Orthogonalization
- 3. 單一數(shù)字評(píng)估指標(biāo)
- 4. 滿(mǎn)足和優(yōu)化指標(biāo)
- 5. 訓(xùn)練/開(kāi)發(fā)/測(cè)試集劃分
- 6. 開(kāi)發(fā)集和測(cè)試集的大小
- 7. 什么時(shí)候該改變開(kāi)發(fā)/測(cè)試集和指標(biāo)
- 8. 人類(lèi)的表現(xiàn)水準(zhǔn)
- 9. 可避免偏差
- 10. 理解人的表現(xiàn)
- 11. 超過(guò)人的表現(xiàn)
- 12. 改善你的模型的表現(xiàn)
- 測(cè)試題作業(yè)
 
參考:
 吳恩達(dá)視頻課
 深度學(xué)習(xí)筆記
1. 機(jī)器學(xué)習(xí)策略
如何改善模型的性能
- 收集更多數(shù)據(jù)
- 訓(xùn)練集多樣性(如,識(shí)別貓,收集各種姿勢(shì)的貓,以及反例)
- 訓(xùn)練的時(shí)間更長(zhǎng)一些
- 嘗試不同的優(yōu)化算法(如 Adam優(yōu)化)
- 規(guī)模 更大 / 更小 的神經(jīng)網(wǎng)絡(luò)
- 嘗試 DropOut 正則化
- 嘗試添加 L2 正則化
- 新的網(wǎng)絡(luò)結(jié)構(gòu)(修改激活函數(shù),隱藏單元數(shù)目)
你可以去嘗試,但是萬(wàn)一花了半年時(shí)間,最后發(fā)現(xiàn)是錯(cuò)誤的?那就哭吧!
需要判斷哪些是有效的,哪些是可以放心舍棄的。
2. 正交化 Orthogonalization
各個(gè)調(diào)整的變量之間最好沒(méi)有耦合關(guān)系
定位出模型的性能瓶頸在哪個(gè)環(huán)節(jié),利用對(duì)應(yīng)的方法去改善
early stopping,就是一個(gè)不那么正交化的方法
 過(guò)早停止,影響訓(xùn)練集準(zhǔn)確率,同時(shí)它又可以改善在開(kāi)發(fā)集的準(zhǔn)確率
 它同時(shí)影響兩件事情,盡量用其他的正交化控制方法
3. 單一數(shù)字評(píng)估指標(biāo)
- 準(zhǔn)確率、召回率、F1值(前兩者的平均)
F1=21precision+1recall=2?precison??recallprecison?+recall=TPTP+FN+FP2F 1=\frac{2}{\frac{1}{\text {precision}}+\frac{1}{\text {recall}}}=2 * \frac{\text {precison } * \text {recall}}{\text {precison }+\text {recall}}=\frac{T P}{T P+\frac{F N+F P}{2}}F1=precision1?+recall1?2?=2?precison?+recallprecison??recall?=TP+2FN+FP?TP?
 有一個(gè)單實(shí)數(shù)評(píng)估指標(biāo)可以提高你的效率 或 做出決策的效率
4. 滿(mǎn)足和優(yōu)化指標(biāo)
 考慮 N 個(gè)指標(biāo),有時(shí)候選擇其中一個(gè)做為優(yōu)化指標(biāo)是合理的。
盡量?jī)?yōu)化那個(gè)指標(biāo),然后剩下 N-1 個(gè)指標(biāo)都是滿(mǎn)足指標(biāo),意味著只要它們達(dá)到一定閾值,你不再關(guān)心指標(biāo)在閾值內(nèi)的大小
5. 訓(xùn)練/開(kāi)發(fā)/測(cè)試集劃分
 舉例:前4個(gè)區(qū)域的數(shù)據(jù)作為開(kāi)發(fā)集,后4個(gè)作為測(cè)試集
- 非常不好,他們很可能來(lái)自不同的分布
- 應(yīng)該隨機(jī)打亂所有的數(shù)據(jù),重新劃分
6. 開(kāi)發(fā)集和測(cè)試集的大小
 
7. 什么時(shí)候該改變開(kāi)發(fā)/測(cè)試集和指標(biāo)
 更改測(cè)試指標(biāo):
 誤差:1∑w(i)∑i=1mdevw(i)L{(y^(i)≠y(i))}誤差: \frac{1}{\sum w^{(i)}} \sum_{i=1}^{m_{d e v}} w^{(i)} \mathcal{L}\left\{\left(\hat{y}^{(i)} \neq y^{(i)}\right) \bigg\}\right.誤差:∑w(i)1?i=1∑mdev??w(i)L{(y^?(i)?=y(i))}
w(i)={1if?x(i)是非色情圖片?10if?x(i)是色情圖片w^{(i)}=\left\{\begin{array}{cl}1 & \text { if } x^{(i)} \text { 是非色情圖片 } \\ 10 & \text { if } x^{(i)} \text { 是色情圖片}\end{array}\right.w(i)={110??if?x(i)?是非色情圖片??if?x(i)?是色情圖片?
以上方法,你必須自己過(guò)一遍數(shù)據(jù),把色情圖片標(biāo)記出來(lái)
在比如:你的開(kāi)發(fā)/測(cè)試集都是很清晰的專(zhuān)業(yè)圖片,而應(yīng)用最終上線(xiàn)是針對(duì)不專(zhuān)業(yè)的圖片(模糊,角度不好等)
那么就要更改開(kāi)發(fā)/測(cè)試集,加入不專(zhuān)業(yè)圖片作為訓(xùn)練數(shù)據(jù)
8. 人類(lèi)的表現(xiàn)水準(zhǔn)
把機(jī)器學(xué)習(xí)的水平和人類(lèi)的水平相比較是很自然的。我們希望機(jī)器比人做的更好
對(duì)于人類(lèi)擅長(zhǎng)的任務(wù),只要機(jī)器學(xué)習(xí)算法比人類(lèi)差,就可以讓人幫你標(biāo)記數(shù)據(jù),就有更多的數(shù)據(jù)可以喂給學(xué)習(xí)算法,改進(jìn)算法
9. 可避免偏差
10. 理解人的表現(xiàn)
 
11. 超過(guò)人的表現(xiàn)
情況B:超過(guò) 0.5% 的門(mén)檻(比最好的醫(yī)生的誤差還低),要進(jìn)一步優(yōu)化你的機(jī)器學(xué)習(xí)問(wèn)題就沒(méi)有明確的選項(xiàng)和前進(jìn)的方向了
12. 改善你的模型的表現(xiàn)
總結(jié):
以上的方法就是一種正交化的改進(jìn)思路。
- 訓(xùn)練集誤差 與 貝葉斯估計(jì)誤差 之間的差距:可避免偏差
- 訓(xùn)練集誤差 與 開(kāi)發(fā)集誤差 之間的差距:方差
改進(jìn)偏差:
- 更大規(guī)模的模型
- 訓(xùn)練更久、迭代次數(shù)更多
- 更好的優(yōu)化算法(Momentum、RMSprop、Adam)
- 更好的新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 更好的超參數(shù)
- 改變激活函數(shù)、網(wǎng)絡(luò)層數(shù)、隱藏單元數(shù)
- 其他模型(循環(huán)NN,卷積NN)
改進(jìn)方差:
- 收集更多的數(shù)據(jù)去訓(xùn)練
- 正則化(L2正則、dropout正則、數(shù)據(jù)增強(qiáng))
- 更好的新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 更好的超參數(shù)
測(cè)試題作業(yè)
參考博文鏈接
我的CSDN博客地址 https://michael.blog.csdn.net/
長(zhǎng)按或掃碼關(guān)注我的公眾號(hào)(Michael阿明),一起加油、一起學(xué)習(xí)進(jìn)步!
 
總結(jié)
以上是生活随笔為你收集整理的03.结构化机器学习项目 W1.机器学习策略(1)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
 
                            
                        - 上一篇: LeetCode 1655. 分配重复整
- 下一篇: LeetCode 1220. 统计元音字
