几种典型的半监督学习方法
半監督學習前提假設
1.連續性假設(Continuity Assumption)
分類問題- input是比較接近的時候,ouput的后驗概率矩陣也應該距離比較小
2.聚類假設(Cluster Assumption)
類類內聚,類間分開
3.流形假設(Manifold Assumption)
- 所有數據點可以被多個低維流形表達。簡單理解就是,將高維冗余特征降維到低維空間
- 相同流形上的數據點,標簽一樣。換句話說,降維之后同樣標簽的數據要接近或一致
半監督學習數學定義
半監督學習本質上就是設計了一個損失函數,三個部分組成:有監督loss,無監督loss以及正則項
半監督學習的實施方法
生成式模型:Semi-supervised GANs ; Semi-supervised VAEs
Re-using Discriminator
?Discriminator 鑒別器其實就充當的是二分類器,對輸入或生成的圖片判定真假;在半監督中重用這個鑒別器,是將這個鑒別器做成k分類分類器,構建方法是輸入數據不僅是有標簽的數據對,還有生成的數據,以及沒有標簽的數據。用這三塊構建損失。
Generated Samples to regularize a classifier
圖片表征學習。Discriminator還是一個二分類器,設計了輸入。XG是生成樣本,m:binary mask(矩陣,只有0和1)相當于 特征抽取器?
inference model
?在Discriminator部分增加了C-類別。這里的是k+1類分類器,多的一類別是生成器產生,多出來的這個類別要跟真實的某一個類別接近。當模型訓練完備以后,可以認為這個Discriminator具有分類能力。
Generate Data
?增廣數據,產生更多數據
一致性損失(Consistency Regularization一致性正則)
設計思路:
II Model?
x是unlabeled數據,Aug是增廣策略(隨機翻轉,增加噪聲等等),送入模型進行識別,輸出兩個接近的后驗概率或特征。每個訓練的epoch,X會被前向推理兩次,這兩次的輸入雖然經過不同的隨機增廣,但輸出應該是具有一致性的。
圖神經網絡:AutoEncoder-based models ; GNN-based models
偽標簽: Disagreement-based models ; Self-training models
Pseudo-label偽標簽,標簽是預測出來的。loss設計:第一項是有標記的損失,第二項是預測的偽標簽進入模型的loss
偽標簽方法設計:結構上,訓練流程,偽標簽預測方法上做設計。但是偽標簽存在弊端,即1.標簽選擇不易,因為模型在訓練初期并不是完備的模型,預測一個偽標簽若是錯的,那么在迭代過程中會使模型誤差變大。2.alpha值(權重系數)很難確定。(也有基于這兩個弊端進行改進的方法)
混合方法
結合上述方法的優點以提升訓練結果。
總結
以上是生活随笔為你收集整理的几种典型的半监督学习方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 兄弟打印机1608更换墨粉后怎么清零?
- 下一篇: 公路贴图都是用什么软件制作