深度学习笔记4:Self-Taught Learning and Unsupervised Feature Learning
這個主題我很喜歡,嘿嘿~
1. 無監督特征學習
用稀疏自編碼器從大量無標注數據中學習好的特征描述。
2. 數據預處理
無監督特征學習前,要對數據進行預處理。 如均值標準化,PCA,PCA白化,ZCA白化。但是需要記錄下訓練時的參數,即均值和U,在后面訓練時要使用相同的參數。
3. 無監督特征學習的術語
自學習:不要求無標注數據和已標注的數據來自相同的分布。比如可以用汽車圖像提取的W,用于摩托車的特征提取。
半監督學習:要求無標注數據和已標注的數據來自相同的分布。即要提取摩托車的特征,只能用摩托車的圖像學習。
4. 把學習到的特征(W*data+b)輸入到Softmax中訓練model,就可以進行分類啦。
5. 教程練習
(1) 讀取MINIST(手寫數字庫),包括圖片和labels,進行如下劃分:
數字0~4的圖片作為有標簽數據(其中一半trainData用于訓練softmax模型,另一半testData用于測試)
數字5~9的圖片作為無標簽數據(unlabeledData),用于學習特征。
——自學習哦!
(2)程序結構
第一部分:訓練
a. 把unlabeledData輸入到稀疏自編碼器,訓練參數W1,b1。
b. 把trainData進行變換:W1*trainData+b1
得到提取的特征trainFeature.
c. 把trainFeature和對應label輸入到softmax,得參數theta
現在稀疏自編碼器和softmax模型都有了,下面就開始測試了!
第二部分:測試
a. 把testData進行變換:W1*testData+b1
得到提取的特征testFeature.
b. theta*testFeature,就可以進行預測了!
##后記
對稀疏自編碼器提取特征的理解:在實驗中能看到稀疏自編碼得到的W1可視化后是一些筆畫特征,有些地方稱W1就是提取的特征。可以認為W1是從圖像中提取出的基本組成部分,如這里的筆畫;對于一個給定的圖像從稀疏自編碼中提取特征就是sigmoid(W1*inputData+b1),即隱藏層的激活值——這才是給定圖像提取出的特征,然后把此特征送入分類器進行分類。而圖像提取出的特征的每一維都可以看成是W1這些基本特征的某個線性組合運用非線性激活函數激活后的結果。
總結
以上是生活随笔為你收集整理的深度学习笔记4:Self-Taught Learning and Unsupervised Feature Learning的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 深度学习笔记三:Softmax Regr
- 下一篇: 深度学习笔记5:Building Dee