你真正了解使用过的数据集吗?数据集有什么关系?数据集之间有多像?
?PaperWeekly 原創 ·?作者?|?張一帆
學校?|?中科院自動化所博士生
研究方向?|?計算機視覺
深度學習盛行的現在,作為一名合格的調參俠,至少都下載/使用過很多個數據集了。而現在 DL 中各種 setting 都涉及著對數據集之間關系的研究,幾個典型的例子如下。
但是你真正了解使用過的數據集嗎?數據集有什么關系?數據集之間有多像?我們或許對此一無所知。來自 Microsoft 的資深研究員 David Alvarez-Melis 連發多篇 ML 頂會對這個問題加以研究。
本文將其一系列工作分為三部分介紹:1)如何進行數據集對齊;2)如何定義數據集之間的距離測度;3)如何優化數據集。我們首先介紹知識背景即最優運輸理論,然后分別介紹 David Alvarez-Melis 組關于三方面工作的三篇頂會文章。
最優運輸理論
最優運輸是一種尋找成本最低“將土堆從一個地方運送到另一個地方的方法”的方案。把概率分布想象成一堆泥土,最優傳輸直觀地量化了它們的不同,即“泥土”或概率質量必須鏟多少和多遠才能將一堆泥土變成另一堆。
但是土堆和鏟子與統計或機器學習有什么關系?我們將概率密度函數視為土堆,其中堆的“高度”對應于該點的概率密度,在堆之間鏟土作為從一個點移動到另一個點的概率,其成本為這兩點之間的距離。最優運輸為我們提供了一種量化兩個概率密度函數之間相似性的方法,即通過將一堆堆完全鏟成另一堆的形狀和位置所產生的最低總成本。對兩個概率分布,最優運輸理論較為正式的定義為:
這里是邊緣分布的聯合分布,“鏟土”的花費記作樣本距離,這就是我們熟知的 p-Wasserstein distance?,也是 Wasserstein GAN 的理論基礎,更相信的定義可以參閱這里?[1]。作者使用的是離散型的 OT,即用狄拉克分布的概率密度函數,這時候 OT 是有能力為每個數據點分配對應關系的。
Dataset alignment
Towards Optimal Transport with Global Invariances(AISTATS'19)
這里使用機器翻譯作為例子,正常的機器翻譯中我們都需要成對的數據,但是如果沒有這種標注,一種可能的策略是通過數據的共現關系來分析詞之間的關系。而 embedding 是詞的一種更 compact 的表示方式,因此通過 embedding,我們是否能夠更好地尋找這種關系?
一種可行的策略是,我們將兩個 dataset 的 embedding 全部拿出來,然后計算點對之間的距離,將這個距離設置為 OT 中的花費。但是看下圖,我們的“pink”之所以能對應到“rosa”,是因為坐標系是給定的(我們稱之為 registered),
此時考慮我們將右側的坐標系進行旋轉,這個過程雖然 point 的位置變了,但是對模型來說依然線性可分,但是此時他與左側圖中的 embedding 顯然不能構成一一對應的關系了。所以我們說直接計算一對一的距離是沒有意義的。
這篇 paper 中給了一個簡單有效的計算策略,即我們選擇數據轉化的集合來約束 OT 的整個過程,我們稱這個為 invariant OT。
我們先使用一些人工設計的數據進行試驗,如下圖所示,傳統的 OT 只會根據最小的距離進行匹配,而 invariant OT 則對 transformation 具有不變性。
在翻譯數據集上,invariant 取得了 sota 的性能,同時效率很高。
注意到這里的數據集對齊是基于這樣一個假設:“這些數據之間本身具有一對一的關系”。那么我們不妨考慮一個更難的問題,對任意兩個數據集,他們可能有不同大小,不同標簽,我們能否對齊他們,或者說,對齊他們的難度如何?這就引出了下一個問題,數據集距離的測度。
Dataset Distance
NeurIPS 2020: Geometric Dataset Distances via Optimal Transport
首先我們要知道,測量兩個數據集間的距離有如下幾個挑戰
數據集大小不同,甚至差異非常懸殊(mnist 和 imagenet).
數據大小不同,圖像分辨率相差非常的大。
標簽不同。
前兩個挑戰對于無監督的數據集同樣適用。而最后一個往往是最難的。如下圖所示
對于(1), 我們可以將數據集看作概率分布,從中抽取有限數量的樣本,并對它們進行比較,從而將這種不變性強加到數據集大小上。同樣,輸入的維度不應該在我們的距離中起主要作用。例如,不管圖像大小如何,MNIST 的本質都是相同的。
在這里,我們將假設圖像根據需要進行了向上采樣或向下采樣,以使兩個數據集中的圖像進行相同大小的比較。對于標簽不同的兩個數據集,一方面是標簽數目不同,一方面是標簽的含義不同。為了處理這兩種差異,我們還是將每個標簽代表的類看作是分布,即用標簽對應的數據們來代替標簽本身的含義,這樣就可以在特征層面比較兩個標簽。
下圖是文章的核心圖,根據標簽之間的距離,特征之間的距離成功計算兩個數據集間的最優傳輸成本以及單個樣本之間的對應關系。
具體而言,我們通過條件分布 來表示標簽并計算距離,因此這里又可以用到最優運輸理論。總的來說,我們在測量數據集相似度時,OT 中的距離測度形式如下:
那么總的距離測度定義為:
下圖展示了五個常用小數據集之間的關系和 sample 之間的 coupling。
文中也對問題進行了特別的分析,使得最優運輸理論在 neural network 上進行更加高效的計算。
3.1 Experiments
本文的關鍵觀察之一是,我們提出的距離測度高度預測了數據集之間的可遷移性——也就是說,在一個數據集中訓練模型,然后在另一個數據集中微調它能取得大概怎樣的效果。這個性質是很有意義的,因為它表明我們的方法可以通過選擇 OTDD 中與目標數據集“最接近”的數據集來選擇要預訓練的數據集。下圖 M:MNIST, ?E:EMNIST, ?K:KMNIST, ?F:FASHION-MNIST, ?U:USPS 上的遷移情況。
除此之外,它在 NLP 的任務上也是適用的
大多數最先進的圖像分類方法都涉及對大規模源數據集進行預訓練,這些數據集通過某種形式的數據增強,例如添加旋轉或裁剪過的圖像版本。選擇最有益的轉換是困難的,而且常常需要對大型模型進行昂貴的反復訓練。本文的另一個結論是,我們的工具也可以通過評估哪些轉換使源數據更接近于感興趣的目標數據集來提供決策信息。作為一個例子,下面的可視化顯了通過裁剪和旋轉來修改 MNIST,同時保持 USPS 不變時模型性能的變化。
總結一下,本文的優點或者說貢獻如下
方法屬于 Model-agnostic 的而且比較高效。
給出了一個性質很好的距離測度,滿足對稱以及三角不等式。
只要 feature dim 相同,兩個數據集就是可比的。
到目前為止,我們可以對數據集進行對齊,進行距離的測度,那么是否還可以進行更復雜的操作呢?答案是肯定的,我們可以進一步對數據集進行優化,正如我們訓練模型一樣,數據集也可以用來訓練。
Dataset Optimization
ICML 2021: Dataset Dynamics via Gradient Flows in Probability Space
這篇 paper 可以看作是上一篇的擴展版本,本文的目標是“dataset shaping”。目前來說在很多場景下,有 label 的數據還是少數,大多數都是無標簽的數據,特別是對于 DA 的任務而言。這篇文章想要設計一個框架,在這個中做到如下幾件事情
最大化數據集之間的相似度,直觀來看,如果 A,B 兩個數據集非常相似,那么在 A 上訓練的模型可以很好的部署在 B 數據集上,不需要任何的模型調整。
提升類間的辨識度,這是分類的基礎。
隱藏一些敏感屬性。
本文并不是 model-centric 的方法,相反,文章想做的是優化數據分布,使得數據分布本身滿足這些要求。
本文選擇了 gradient flow 來進行優化,通過對 gradient flow 進行有限維空間的近似,作者也給出了在 NN 中的實現方式。
4.1 Application
最直觀的應用就是 DA 了,與傳統 DA 不同,傳統 DA 在 source 上訓練然后 adapt 到目標域上。
本文提出的第一種策略即所謂的 data-bsed adaptation,先將 source 轉化到 target 的附近,然后在兩個數據集上進行訓練,adapt 的是數據而不是模型。因為文中的 flow 依賴于標簽,所以作者在這里的 setting 是 k-shot learning,即目標域每個 clss 給 100 個 sample,然后源域給 1000.
具體來說,我們從源域? 出發,將數據集使用 flow 進行改造?,目標是目標域分布?。作者選擇了多個 baseline,target only 表示用只使用目標域數據,+source 表示使用源域 + 目標域數據一起進行訓練,flow 初始狀態就是源域,最終狀態是轉化的最后一步,full-flow trajectory 即將所有中間狀態也用于訓練,
同樣,作者將 fine-tune 的策略也用在同樣的 setting 上,發現 model-finetune 的結果比文中的方法表現差
本文提出的第二種策略:model repurposing,即將目標域的數據轉化為源域的 style,然后直接使用源域的模型。如下圖所示我們將 cifar10 上訓練的模型,直接勇哉 Cameylon17-》cifar10 的 flow上。表中紅線是模型直接在 Cameylon17 上測試的結果,綠線是模型直接在目標域上訓練得到的結果,藍線則代表了在 cifar10 上的模型,直接用在 flows 上得到的結果。可以看到 flow step 的最后效果竟然超過了直接在 Cameylon17 上訓練的結果。
這就表明,我們可能只需要訓練一個模型,然后將其他所有數據集 flow 到訓練所用的數據集上,就能取得很好的效果。
Conclusion
那么總結一下,傳統的 model-based DA 和 data-centric DA 有什么區別?
當然 data-centric 的很多東西都是剛剛起步而已,都還有很大的潛力。個人觀點,其實 nlp 中的 prompt 也可以看作是 data-centric 的例子之一。目前來看,這種范式都缺少理論上的保證。同時,如何在其他任務上設計 data-centric 的范式,也不妨是一個很有前景的研究課題。
參考文獻
[1] https://zhuanlan.zhihu.com/p/82424946
特別鳴謝
感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的你真正了解使用过的数据集吗?数据集有什么关系?数据集之间有多像?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 大一去当兵回来后学习毕业,8月中旬24岁
- 下一篇: 新赛题上线!2021CCF大数据与计算智