Kaggle知识点:对比学习基础
對比表示學習的目標是學習一個嵌入空間,其中相似的樣本對彼此靠近,而不同的樣本對相距很遠。對比學習可以應用于有監督和無監督設置。在處理無監督數據時,對比學習是自監督學習中最強大的方法之一。
對比學習損失函數
在早期版本的對比學習損失函數中,只涉及一個正樣本和一個負樣本。最近訓練目標的趨勢是在一批中包含多個正負對。
對比損失
對比損失(Chopra et al. 2005)是以對比方式用于深度度量學習的最早訓練目標之一。
給定輸入樣本列表,每個都有對應的標簽之中的類。我們想學習一個函數編碼嵌入向量中,使得來自同一類的示例具有相似的嵌入,而來自不同類的樣本具有非常不同的嵌入。
因此對比損失需要一對輸入當它們來自同一類時最小化嵌入距離,否則最大化距離。
Triplet Loss
Triplet loss最初是在 FaceNet ( Schroff et al. 2015 ) 論文中提出的,用于學習同一個人在不同姿勢和角度的人臉識別。
給定一個錨輸入,我們選擇一個正樣本和一個負樣本。Triplet Lss最小化錨輸入與正樣本之間的距離,并最大化錨輸入與負樣本的距離:
402 Payment Required
NCE
噪聲對比估計NCE是一種估計統計模型參數的方法,由Gutmann 在2010年提出。其想法是運行邏輯回歸以區分目標數據和噪聲。
其中為目標樣本,為噪音樣本。
InfoNCE
InfoNCE使用分類交叉熵損失來識別一組不相關的噪聲樣本中的正樣本。InfoNCE 損失優化了正確分類正樣本的負對數概率:
402 Payment Required
對比學習關鍵點
數據增強
給定一個訓練樣本,可使用數據增強技術來創建自身的噪聲版本,以作為正樣本輸入損失。正確的數據增強設置非常重要,它可以不修改語義的情況下引入樣本的非本質變化,從而鼓勵模型學習樣本的核心語義。
例如,SimCLR中的實驗表明,隨機裁剪和隨機顏色失真的組合是圖像菲比學習的關鍵數據增強方法。
大 Batch Size
在訓練期間Batch Size設置的很大是許多對比學習方法(例如SimCLR、CLIP)成功的另一個關鍵因素。
只有當批大小足夠大時,損失函數才能覆蓋足夠多樣化的負樣本集合,具有足夠的挑戰性,使模型能夠學習有意義的表示來區分不同的示例。
Hard Negative Example
Hard Negative Example應該具有與錨樣本不同的標簽,但具有非常接近錨嵌入的嵌入特征。通過訪問監督數據集中的真實標簽,很容易識別特定于任務的硬否定。
Vision: Image Embedding
基本圖像增強
有很多方法可以修改圖像,同時保留其語義。我們可以使用以下任何一種擴充或多個操作的組合。
隨機裁剪
隨機顏色失真
隨機高斯模糊
隨機顏色抖動
隨機水平翻轉
隨機灰度轉換
AutoAugment
RandAugment
UDA
Mixup
CutMix
Parallel Augmentation
SimCLR計算同一樣本的不同數據增強下的對比損失,使用InfoNCE搭配大Batch Size進行訓練。
Language: Sentence Embedding
基礎的文本數據增強
EDA定義了一組簡單但功能強大的文本增強操作。給定一個句子,EDA 隨機選擇并應用四個簡單操作之一:
同義詞替換(SR)
隨機插入(RI)
隨機交換(RS)
隨機刪除(RD)
SimCSE使用Dropout噪聲從一個句子來從無監督數據中學習。SimCSE將Dropout視為文本序列的數據增強。一個樣本被簡單地輸入編碼器兩次,構成了一個正樣本對,而其他批內樣本被視為負對。
Sentence-BERT
SBERT (Sentence-BERT) 使用孿生網絡學習句子嵌入,通過嵌入對之間的余弦相似度來估計句子相似度。
往期精彩回顧適合初學者入門人工智能的路線及資料下載(圖文+視頻)機器學習入門系列下載中國大學慕課《機器學習》(黃海廣主講)機器學習及深度學習筆記等資料打印《統計學習方法》的代碼復現專輯 AI基礎下載機器學習交流qq群955171419,加入微信群請掃碼: 與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的Kaggle知识点:对比学习基础的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 后台返回给前端json字段的大小写问题,
- 下一篇: c++ _mkdir无法创建文件夹_Py