机器学习视觉图像算法工程师--面试笔试--常考知识点乱找总结
目錄
經驗風險最小化
結構風險最小化
最大似然估計
歸一化,標準化
激活函數(Sigmoid, tanh, Relu)
特征圖大小計算?
凸集概念
是否需要歸一化
無監督學習方法
增大感受野方法
正則化作用和方法
計算進行了多少次乘-加操作
梯度下降法和牛頓法的優缺點
CNN中感受野大小的計算
L1和L2正則化項區別
深度學習優化方法
——————————————————————
經驗風險最小化
用模型f(x)在這個給定的樣本集上的平均損失最小化來代替無法求得得期望風險最小化。
根據大數定律,當樣本數趨于無窮大時,經驗風險趨于期望風險。
即用部分數據的模型代總的。
經驗風險是模型關于訓練樣本集的平均損失。?
經驗風險最小化(empirical risk minimization,ERM)的策略認為,經驗風險最小的模型是最優的模型。根據這一策略,按照經驗風險最小化求最優模型就是求解最優化問題:?
?
當樣本容量足夠大時,經驗風險最小化能保證有很好的學習效果,在現實中被廣泛采用。例如,極大似然估計(MLE)就是經驗風險最小化的一個例子。當模型是條件概率分布,損失函數是對數損失函數時,經驗風險最小化就等于極大似然估計。
對于小樣本問題,經驗風險效果并不理想,因為經驗風險最小化容易帶來過擬合現象。過擬合現象其實就是模型的選擇太在意訓練誤差了,反而導致預測誤差隨著訓練誤差減小而增大,造成訓練結果不理想。
?
結構風險最小化
而結構風險最小化(structural risk minimization, SRM)是為了防止過擬合而提出的策略。結構風險最小化等價于正則化。結構風險在經驗風險的基礎上加上表示模型復雜度的正則化項。在假設空間、損失函數以及訓練集確定的情況下,結構風險的定義是:?
其中,J(f)為模型的復雜度,是定義在假設空間上的泛函。模型f越復雜,復雜度J(f)就越大。也就是說,復雜度表示了對復雜模型的懲罰。結構風險小的模型往往對訓練數據和未知的測試數據都有較好的預測。
比如,貝葉斯估計中的最大后驗概率估計(MAP)就是結構風險最小化的例子。當模型是條件概率分布,損失函數是對數損失函數,模型復雜度由模型的先驗概率表示時,結構風險最小化就等價于最大后驗概率估計(不太懂)。
結構風險最小化的策略認為結構風險最小的模型是最優的模型。所以求解模型,就是求解最優化問題:
?
參考:
https://www.cnblogs.com/zf-blog/p/7794871.html
https://blog.csdn.net/zhang_shuai12/article/details/53064697
https://blog.csdn.net/w5688414/article/details/79381136
?
?
最大似然估計
參考:https://blog.csdn.net/qq_39355550/article/details/81809467
極大似然估計提供了一種給定觀察數據來評估模型參數的方法,即:“模型已定,參數未知”。通過若干次試驗,觀察其結果,利用試驗結果得到某個參數值能夠使樣本出現的概率為最大,則稱為極大似然估計。
利用已知的樣本結果,反推最有可能(最大概率)導致這樣結果的參數值。
? ? ? 求最大似然估計量的一般步驟:
? ? ? ? (1)寫出似然函數;
? ? ? ? (2)對似然函數取對數,并整理;
? ? ? ? (3)求導數;
? ? ? ? (4)解似然方程。
?
?
歸一化
就是將訓練集中某一列數值特征(假設是第i列)的值縮放到0和1之間。方法如下所示:
?
標準化
就是將訓練集中某一列數值特征(假設是第i列)的值縮放成均值為0,方差為1的狀態。如下所示:
標準化歸一化的好處:提升模型精度,提升收斂速度。
如果你不用正則,那么,標準化并不是必須的,如果你用正則,那么標準化是必須的。
?
激活函數(Sigmoid, tanh, Relu)
Sigmoid
?
?
?
優點:連續,方便求導。 把數值映射到0-1,壓縮數據。二分類輸出。
缺點:
?
Tanh?
?
仍梯度飽和。計算復雜。沒有不對稱問題。
?
ReLU
參考:https://blog.csdn.net/weixin_41417982/article/details/81437088
?
特征圖大小計算?
輸入圖片大小 W×W?
Filter大小 F×F?
步長 S?
padding的像素數 P?
于是我們可以得出?
N = (W ? F + 2P )/S+1?
輸出圖片大小為 N×N
?
凸集
實數R上(或復數C上)的向量空間中,如果集合S中任兩點的連線上的點都在S內,則稱集合S為凸集。?
所以直線是凸集。
?
是否需要歸一化
概率模型(決策樹)不需要歸一化,因為他們不關心變量的值,而是關心變量的分布和變量之間的條件概率。
像SVM、線性回歸之類的最優化問題需要歸一化。歸一化之后加快了梯度下降求最優解的速度,并有可能提高精度。
?
無監督學習方法
強化學習、K-means 聚類、自編碼、受限波爾茲曼機 、DBSCN 等
?
增大感受野方法
dilated 卷積(空洞卷積)、池化、增大卷積核
?
正則化作用和方法
防止過擬合,提高泛化能力
early stopping、數據集擴增(Data augmentation)
L1、L2(L2 regularization也叫weight decay):L1、L2正則化是通過修改代價函數來實現的
Dropout: 我們隨機地“刪除”一半的隱層單元,視它們為不存在
(減少神經網絡層數。錯誤,減少網絡層數實際上是減弱了網絡的擬合能力
? ? 減小權重衰減參數。錯誤,應該是增大權重衰減系數,類似于 L2 正則化項中參數 lambda 的作用)
?
?
算進行了多少次乘-加操作
100×100×3,3×3 卷積核,輸出是 50×50×10,算進行了多少次乘-加操作?
?解答:輸出的每個像素點都要經過 3×3×3 = 27 次乘-加操作,因此總共需要進行 50×50×10×27 次乘-加操作。
?
?
梯度下降法和牛頓法的優缺點
隨機梯度下降法:適用于樣本量大的情況,需要內存小;但每一步可能并不是向著最優解方向
牛頓法:收斂速度快;但對目標函數有嚴格要求,必須有連續的一、二階偏導數,計算量大
CNN中感受野大小的計算
參考:https://blog.csdn.net/lx_xin/article/details/82713045
其中RFn為當前層的感受野大小,RFn-1為上一層感受野大小,kernelsize為當前層卷積核大小,stride為之前所有層的stride的乘積。當n=0時RF=1。可用遞歸或者循環實現。
?
L1和L2正則化項區別
L1和L2是正則化項,又叫做罰項,是為了限制模型的參數,防止模型過擬合而加在損失函數后面的一項。
相同點:都用于避免過擬合。
不同點:L1可以讓一部分特征的系數縮小到0,從而間接實現特征選擇。所以L1適用于特征之間有關聯的情況。?
L2讓所有特征的系數都縮小,但是不會減為0,它會使優化求解穩定快速。所以L2適用于特征之間沒有關聯的情況
區別:
L1是模型各個參數的絕對值之和。
L2是模型各個參數的平方和的開方值。
L1會趨向于產生少量的特征,而其他特征都是0。因為最優參數值很大概率出現在坐標軸上,這樣就會導致某一維的權重為0 ,產生稀疏權重矩陣。
L2會選擇更多的特征,這些特征都會接近于0。 最優的參數值很小概率出現在坐標軸上,因此每一維的參數都不會是0。當最小化||w||時,就會使每一項趨近于0。
?
深度學習優化方法
https://blog.csdn.net/u014595019/article/details/52989301
https://blog.csdn.net/weixin_40170902/article/details/80092628
?
?
總結
以上是生活随笔為你收集整理的机器学习视觉图像算法工程师--面试笔试--常考知识点乱找总结的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数据结构——线性表:顺序表、单向链表、循
- 下一篇: Poisson Image Editin