当前最好的非深度迁移学习方法:流形空间下的分布对齐
作者丨王晉東
學校丨中國科學院計算技術研究所博士生
研究方向丨遷移學習、機器學習
本文即將發表在國際頂級會議 ACM Multimedia conference 2018 上,被評為 ORAL,而且是 Top 10 Paper。論文提出了一個叫 MEDA (Manifold Embedded Distribution Alignment) 的方法進行遷移學習,取得了對比當前眾多最新的深度和非深度方法的最好結果。
我們系統性地解決了如何定量估計邊緣分布和條件分布在遷移學習中的重要性的問題,這也是當前所有文章沒有考慮過的。我們的方法是首次完成這個估計。
■?論文 | Visual Domain Adaptation with Manifold Embedded Distribution Alignment
■ 鏈接 | https://www.paperweekly.site/papers/2123
■ 源碼 | http://transferlearning.xyz/
主要思路
我們提出通過自適應的分布適配的方式,來減小流形空間中的特征之間的距離,最終構建一個分類器 f?,F有的工作通常都只是在原始的數據空間中學習此分類器 f,然而由于原始空間下的特征往往存在扭曲,因而會使得學習結果出現欠適配。根據流形假設,嵌入在流形空間中的點和它們的鄰居通常都有著相似的性質。因此,我們提出流形特征變換,以此來減小域之間的數據漂移;然后進行自適應的分布適配,最后學習分類器 f。
流形特征變換之后,我們在結構風險最小化的框架下,通過自適應的分布適配來學習分類器 f??紤]到 Ds 和 Dt 之間不同的數據分布,即和,我們需要適配此二者的分布,以此來確保在 Ds 上學習到的知識能夠成功地被遷移到 Dt 上。特別地,我們提出動態衡量邊緣分布和條件分布重要性,以此來進行自適應的分布適配。最后,分類器 f 可以被很好地學習到。
可以用下面的圖進行表示。
流形特征變換
由于在流形空間中的特征通常都有著很好的幾何性質,可以避免特征扭曲,因此我們首先將原始空間下的特征變換到流形空間中。在眾多已知的流形中,Grassmann 流形 G (d) 可以通過將原始的 d 維子空間(特征向量)看作它基礎的元素,從而可以幫助學習分類器。
在 Grassmann 流形中,特征變換和分布適配通常都有著有效的數值形式,因此在遷移學習問題中可以被很高效地表示和求解。因此,利用Grassmann流形空間中來進行分類器 f 的學習是可行的。
現存有很多方法可以將原始特征變換到流形空間,在現存的這些方法中,我們選擇測地線流式核方法(Geodesic Flow Kernel, GFK)來集成進MEDA 方法中,完成流形特征變換,因為 GFK 有著很好的計算高效性。GFK 的細節可以在它的原始文獻中找到,我們下面介紹它的基本思想。
在學習流形特征變換時,MEDA 試圖用 d 維子空間來對數據領域進行建模,然后將這些子空間嵌入到流形 G 中。用 Ss 和 St 分別表示源域和目標域經過主成分分析(PCA)之后的子空間,則 G 可以視為所有的 d 維子空間的集合。每一個 d 維的原始子空間都可以被看作 G 上的一個點。因此,在兩點之間的測地線 {Φ(t):0≤t≤1} 可以在兩個子空間之間構成一條路徑。
如果我們令 Ss=Φ(0) ,St=Φ(1) ,則尋找一條從 Φ(0) 到 Φ(1) 的測地線就等同于將原始的特征變換到一個無窮維度的空間中,最終減小域之間的漂移現象。這種方法可以被看作是一種從 Φ(0) 到 Φ(1) 的增量式"行走"方法。特別地,流形空間中的特征可以被表示為 z=Φ(t)Tx 。從文獻中可以知道,變換后的特征 zi 和 zj 的內積定義了一個半正定(positive semidefinite)的測地線流式核(GFK)。
因此,通過,在原始空間中的特征就可以被變換到 Grassmann 流形空間中。核 G 可以通過矩陣奇異值分解來有效地計算。然后,我們將會進行自適應分布適配,最終在 Grassmann 流形空間中學習一個域不變的分類器 f,以此來極大地減小域之間的漂移。
動態分布對齊
現存的分布適配方法通常假定邊緣分布 (P) 和條件分布 (Q) 是同等重要的。然而,這種假設并不成立。例如,當源域和目標域數據本身存在較大的差異性時,邊緣分布適配更重要;當源域和目標域數據集有較高的相似性時,條件概率分布適配更加重要。
因此,我們需要能夠動態衡量 P 和 Q 的不同作用,而不是簡單地對它們以同樣的權重相加。為了達到這個目的,我們引入一個自適應因子來自適應地條件這兩種分布的重要性。用形式化的語言來講,自適應的分布適配可以被表示為:
其中,μ∈[0,1] 表示自適應因子,c∈{1,?,C} 是類別指示。Df(Ps,Pt) 表示邊緣分布適配,表示對類別 c 的條件分布適配。
當 μ→0,這表示源域和目標域數據本身存在較大的差異性,因此,邊緣分布適配更重要;當 μ→1 時,這表示源域和目標域數據集有較高的相似性,因此,條件概率分布適配更加重要。當 μ=0.5 時,表示將邊緣分布和條件分布適配同等看待,這也是目前流行的方法的核心工作。因此,這些現有方法可能被看作是 MEDA 方法的特例。通過學習最優的自適應因子,MEDA 可以被應用于不同的遷移學習任務中。
另外,由于目標域數據 Dt 沒有標簽,直接評價目標域的條件概率分布 Qt=Qt(yt|zt) 是不可行的。所以我們用類條件概率 Qt(zt|yt) 秋近似 Qt,因為當樣本個數足夠大時,Qt(zt|yt) 和 Qt 有著很好的相似性。
為了近似 Qt(zt|yt),我們在源域 Ds 上訓練一個弱分類器,然后用此弱分類器到 Dt 上進行預測,得到目標域的偽標記。這些偽標記的置信度可能不高,因此我們迭代式地修正預測結果。注意到,我們僅僅在第一輪的迭代中使用了分類器。在第一輪之后,MEDA 使用它先前的結果,自動地修正目標域 Dt 的標簽。
我們用最大均值差異(Maximum Mean Discrepancy, MMD)來計算兩個概率分布之間的差異性。MMD 是一種非參數化的分布估計方法,已經被廣泛地應用于多種遷移學習方法。
兩個概率分布 p 和 q 之間的 MMD 距離被定義為,其中 HK 是由特征映射 ?(?) 所張成的再生核希爾伯特空間(reproducing kernel Hilbert space, RKHS), E[?] 表示嵌入樣本的均值。
為了使得 MMD 與分類器 f 保持一致性,我們采用映射的 MMD 距離(projected MMD),對我們問題中的邊緣分布差異按如下方式計算:
同理,條件分布差異可以被表示為:
然后,自適應分布適配可以被表示為:
值得注意的是,從技術角度上說,自適應因子 μ 并不是一個自由參數,它必須根據數據的分布來進行設定。我們在這里提供一個簡單的思路和近似地估計 μ。
我們采用 A-distance 來估計不同分布之間的距離。A-distance 被定義為建立一個線性分類器來區分兩個數據領域的 hinge 損失(也就是進行二類分類的 hinge 損失)。
對于邊緣分布差異,我們直接計算 Ds,Dt 之間的 A-distance,將得到的結果記為 AM;對于條件分布差異,我們首先對目標域聚類成 C 個類,然后,對于兩個域中來自同一個類別的數據,我們計算它們的 A-distance。我們記 AC 為所有類別之間 A-distance的 平均值。然后,自適應因子 μ 可以被估計為。
這是首次對兩種分布的精確估計!
學習 f 的過程不再贅述???paper 即可。
實驗
精度
我們的方法在 Office31、Office+Caltech10、MNIST、USPS、ImageNet、VOC2007 上都取得了當前最好的效果。我們的對比方法包括了傳統方法,一直到 CVPR 2017、PAMI 2017、AAAI 2018; 深度方法包括 DDC、DAN、RevGrad 等流行方法。具體實驗步驟可以看文章。下面是實驗結果:
對μ的估計
我們的方法是首次成功估計 μ 的!為了對比估計的精度,我們對 μ 進行了從 0 到 1,間隔 0.1 的遍歷,以此為近似的最優的 μ。下面是我們的估計結果和遍歷結果對比??梢郧宄乜吹?#xff0c;我們估計的 μ 整體上和遍歷結果并沒有太大差異,并且還可能在精度上超過它!因為遍歷的結果只是 0.1 為區間,我們可以精確地進行計算。
這個方法具有劃時代意義,因為我們現在可以精確地知道哪部分分布更重要!
本文由 AI 學術社區 PaperWeekly 精選推薦,社區目前已覆蓋自然語言處理、計算機視覺、人工智能、機器學習、數據挖掘和信息檢索等研究方向,點擊「閱讀原文」即刻加入社區!
點擊標題查看更多論文解讀:?
??ACL2018高分論文:混合高斯隱向量文法
??基于詞向量的簡單模型 | ACL 2018論文解讀
??COLING 2018最佳論文:序列標注經典模型復現
??圖像壓縮哪家強?請看這份超詳細對比
??CVPR 2018 最佳論文解讀:探秘任務遷移學習
??深度學習模型復現難?句子對模型復現論文
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 下載論文
總結
以上是生活随笔為你收集整理的当前最好的非深度迁移学习方法:流形空间下的分布对齐的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 回归理性 务实推进 迎接AI新时代
- 下一篇: CVPR 2018论文解读 | 基于域适