sklearn自学指南(part31)--半监督学习
生活随笔
收集整理的這篇文章主要介紹了
sklearn自学指南(part31)--半监督学习
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
學習筆記,僅供參考,有錯必糾
文章目錄
- 半監(jiān)督學習
- 自我訓練
- 標簽傳播
半監(jiān)督學習
Semi-supervised learning是指在你的訓練數(shù)據(jù)中,有些樣本是沒有標簽的情況。sklearn.semi_supervised中的半監(jiān)督估計器能夠利用這些額外的未標記數(shù)據(jù)來更好地捕捉底層數(shù)據(jù)分布的形狀,并更好地泛化到新的樣本。當我們有非常少的標注點和大量的未標注點時,這些算法可以表現(xiàn)得很好。
- y中的未標記項
在用擬合方法訓練模型時,將未標記的點與標記的數(shù)據(jù)一起分配一個標識符是很重要的。本實施例使用的標識符是整數(shù)值-1。注意,對于字符串標簽,y的dtype應(yīng)該是object,這樣它就可以同時包含字符串和整數(shù)。
自我訓練
這個自訓練的實現(xiàn)是基于Yarowsky算法。使用該算法,給定的監(jiān)督分類器可以作為半監(jiān)督分類器,使其能夠從未標記的數(shù)據(jù)中學習。
SelfTrainingClassifier可以與任何實現(xiàn) predict_proba的分類器一起調(diào)用,作為參數(shù) base_classifi
總結(jié)
以上是生活随笔為你收集整理的sklearn自学指南(part31)--半监督学习的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: sklearn自学指南(part30)-
- 下一篇: 养老基数是什么意思 养老保险基数是什么