清华大学刘知远组:基于Prompt Tuning对低维本征任务子空间进行探索
?作者 | 曾偉豪
學(xué)校 | 北京郵電大學(xué)
研究方向 | 對(duì)話摘要生成
論文標(biāo)題:
Exploring Low-dimensional Intrinsic Task Subspace via Prompt Tuning
論文鏈接:
https://arxiv.org/abs/2110.07867
作者提出了大家都非常關(guān)心的問(wèn)題:預(yù)訓(xùn)練模型是如何通過(guò)任務(wù)無(wú)關(guān)的預(yù)訓(xùn)練目標(biāo)(比如 BERT 的 MLM, NSP; PEGASUS 的 GSG)來(lái)學(xué)到知識(shí),并且能使用少量的數(shù)據(jù)就能將預(yù)訓(xùn)練模型運(yùn)用到下游差異巨大的任務(wù)中(fine-tuning; prompt-tuning)。
在論文中,作者提出了假設(shè):將預(yù)訓(xùn)練模型遷移到各種下游任務(wù)的優(yōu)化問(wèn)題可以重參數(shù)化為在同一低維參數(shù)子空間中只優(yōu)化少數(shù)幾個(gè)自由參數(shù)的問(wèn)題,作者稱之為 intrinsic task subspace. (本征子空間)如下圖所示:
注:Intrinsic dimension(ID)指的是用來(lái)表示數(shù)據(jù)或者近似函數(shù)所需要的最小的變量的數(shù)目。之前有工作直接將 PLM 的參數(shù)投影到線性子空間上,然后發(fā)現(xiàn)許多的 NLP 任務(wù)的 Intrinsic dimension 可以低于萬(wàn)維,這也啟發(fā)了作者的工作)
如果上述假設(shè)成立,那么 task-specific optimization subspaces 的存在可以解釋 PLMs 的通用性,同時(shí)本征子空間的低維度的特性可以解釋 adaptations(fine-tuing; prompt-tuning)可以在相對(duì)小規(guī)模數(shù)據(jù)集上訓(xùn)練。從這個(gè)觀點(diǎn)來(lái)看,PLMs 可以看成通用的 compressive frameworks,可以將不同任務(wù)的學(xué)習(xí)復(fù)雜度從高維降到低維。
為了證明上述假設(shè),就需要找出 PLMs 的本征子空間(intrinsic task subspaces)。在論文中,作者通過(guò) Prompt Tuning 來(lái)尋找公共 intrinsic subspace。因?yàn)橹苯幼屗械?PLMs 的參數(shù)直接降維在計(jì)算上是困難的,并且 Prompt Tuning 在結(jié)構(gòu)上不復(fù)雜,方便降維。
作者將論文中采用的方法稱之為 intrinsic prompt tuning(IPT),IPT 主要包括兩個(gè)階段:multi-task subspace finding(MSF)和 intrinsic subspace tuning (IST)。在 MSF 的階段,我們獲得多任務(wù)下的經(jīng)過(guò)優(yōu)化的 soft prompts,然后訓(xùn)練一個(gè)自動(dòng)編碼器將這些 soft prompt 投影到低維的子空間上,最后將這些低維子空間上反向投影,重建成新的 prompt。這樣經(jīng)過(guò)優(yōu)化的自動(dòng)編碼器就可以定義目標(biāo)的本征子空間。在 IST 階段,對(duì)于之前陌生的任務(wù)和數(shù)據(jù),只需要調(diào)節(jié)在 MSF 階段找到的低維子空間上的參數(shù)然后通過(guò)逆投影就可解決問(wèn)題。
作者在實(shí)驗(yàn)上發(fā)現(xiàn)這個(gè)本征子空間不僅存在,而且維度非常低。在由 100 個(gè)隨機(jī)任務(wù)上利用 MSF 得到的 5 維的本征子空間上,利用 IST 的方法可以對(duì)那些 100 個(gè)已經(jīng)見(jiàn)過(guò)的任務(wù)(但是不同的數(shù)據(jù))達(dá)到 prompt tuning 87% 的效果。對(duì)于 20 個(gè)沒(méi)見(jiàn)過(guò)的任務(wù),能達(dá)到 prompt tuning 65% 的效果。同時(shí)作者也表示通過(guò)? MSF 找到的本征子空間和 IPT 具有使用價(jià)值,比如可以用來(lái)分析 nlp 任務(wù)上的區(qū)別以及提升模型的穩(wěn)定性。
Methodology
1.1 Preliminaries
對(duì)于給定的一系列 NLP 任務(wù), , 其中既包括了 NLU 任務(wù),又包括了 NLG 任務(wù)。但不失一般性,可以將任務(wù)定義為 , 其中 , ,目標(biāo)就是習(xí)得映射函數(shù): 。
1.2 Intrinsic Prompt Tuning
1.2.1 Multi-task Subspace Finding
在 MSF 的階段,對(duì)于每一個(gè)下游任務(wù) ,都會(huì)得到得到一個(gè)訓(xùn)練好的 soft prompts ? 。會(huì)使用 auto-encoder 將 投影到 維上,再逆投影回原來(lái)的維度得到重建后的 prompt 。
其中 ,是用來(lái)投影到低維度的網(wǎng)絡(luò),是一層 FNN, 則是兩層的感知機(jī)用來(lái)做逆投影:
同時(shí)還引入重建的 Prompt 在對(duì)應(yīng)任務(wù)上的損失 。得到 MSF 階段的訓(xùn)練目標(biāo):
其中 是控制兩種 loss 比率的超參, 表示 和 的參數(shù)。
1.2.2 Intrinsic Subspace Tuning
在這個(gè)階段,作者希望驗(yàn)證在 MSF 階段找到的子空間的有效性。具體而言,保持在 MSF 階段參數(shù) 以及預(yù)訓(xùn)練模型參數(shù)固定,對(duì)每一個(gè)任務(wù),僅僅是調(diào)節(jié)本征子空間上 個(gè)自由參數(shù),然后通過(guò) 逆投影成 soft prompts,目標(biāo)函數(shù)如下:
Experiment and Analysis
2.1 Experimental Settings
2.1.1 任務(wù)和數(shù)據(jù)集
從 Cross Fit Gym 隨機(jī)抽取的 120 個(gè) few-shot NLP 任務(wù),既包含 NLU 又包括 NLG。每個(gè)任務(wù) 可以表示為 () 。
2.1.2 Evaluation Metrics
定義了兩個(gè)指標(biāo) :
其中 表示在任務(wù) 上 IPT 的結(jié)果對(duì)應(yīng)的測(cè)試分?jǐn)?shù)。 則表示在 prompt tuning()的表現(xiàn)或者在 fine tuning 上的表現(xiàn)( )。
在論文中,作者使用 作為主要評(píng)價(jià)指標(biāo), 作為輔助評(píng)價(jià)指標(biāo)。
3.1.3 任務(wù)設(shè)置
將 120 個(gè) NLP 任務(wù)劃分成訓(xùn)練任務(wù)集 ,測(cè)試任務(wù)集 ,滿足 。
在 MSF 的階段,模型在 上訓(xùn)練,然后在 上測(cè)試 和 的結(jié)果。用來(lái)測(cè)試重建的 prompts 效果,這也為模型在 unseen data 和 tasks 上的表現(xiàn)提供一個(gè)經(jīng)驗(yàn)性的上界。在 上測(cè)試了 soft prompts 重建的結(jié)果,用來(lái)探究 auto-encoder 對(duì)于未見(jiàn)過(guò)的 prompts 的重建能力。
在 IST 階段,在 上使用 IST 來(lái)探究在子空間上的優(yōu)化的表現(xiàn)。為了檢驗(yàn) IPT 的泛化能力,設(shè)計(jì)了兩種任務(wù):
1. unseen-data challenge. 在 上使用重新采樣的 K-shot 來(lái)進(jìn)行 IST 的過(guò)程。
2. unseen-task challenge. 在 上檢驗(yàn)由 IPT 獲得的 soft prompts 的效果。檢驗(yàn) IPT 在 unseen-task 上的效果,以此來(lái)證明不同 NLP 任務(wù)對(duì)應(yīng)的子空間是不相互獨(dú)立的。
2.2 Main Result
2.2.1 Q1 PLMs是否真的將few-shot設(shè)置下多樣的NLP任務(wù)重參數(shù)化為低維子空間任務(wù)?
Figure 3(a)顯示,在 unseen-data challenge 上,使用 的 IST 能夠恢復(fù)完整的 prompt tuning 的效果的 80%;在 unseen-task challenge 上,只需調(diào)節(jié)本征子空間上的 5-100個(gè) 參數(shù)就可以達(dá)到 prompt tuning 的 60% 的效果。作者認(rèn)為這為他們的猜想也就是 PLMs 將多樣的 NLP 任務(wù)重參數(shù)化為低維子空間任務(wù)提供了證據(jù)。或者至少證明了這些任務(wù)被重參數(shù)化為低維子空間后存在交集,否則由 得到的子空間幾乎不可能對(duì) 有效。
2.2.2 Q2 什么限制了IPT?
1. 在 MSF 階段,重建 soft prompts 的效果甚至要優(yōu)于原始的 prompt tunning。說(shuō)明(1)MSF 可以通過(guò)促進(jìn)在低維度上的多任務(wù)技能的分享來(lái)提升? prompt tuning 的表現(xiàn)。(2)在本征子空間上至少存在較優(yōu)的解,能被 MSF 找到。但是即使是同樣的訓(xùn)練數(shù)據(jù) IST 也不能找到這些 good solutions, 因此 與 之間存在差距,說(shuō)明采取的優(yōu)化算法限制了 IST 的表現(xiàn)。
2.? 與 存在差距,說(shuō)明直接在未知任務(wù)上進(jìn)行 soft prompts 的重構(gòu)表現(xiàn)不佳。說(shuō)明 MSF 的重構(gòu)能力限制了它的泛化性。
3. IPT相對(duì) fine-tuning 的表現(xiàn)要遜于相對(duì)于在 prompt-tunning 下的表現(xiàn)。是因?yàn)?prompt-tuning 在 few-shot 場(chǎng)景下要比 fine-tuning 弱,啟發(fā)設(shè)計(jì)更有效的 prompt-tuning 算法。
2.2.3 Q3 任務(wù)類型的影響
Figure3 (c)-(f)表示
1. 分類任務(wù)和非分類任務(wù)存在較大的差異。
2.?當(dāng)提升 時(shí),non-cls 任務(wù)的表現(xiàn)會(huì)下降,cls 任務(wù)的表現(xiàn)會(huì)上升。這表明 non-cls 任務(wù)的本征子空間的維度可能遠(yuǎn)小于 cls 任務(wù)。
2.3 Analyses and Properties
2.3.1 Visualization of the Found Intrinsic Subspace
將本征子空間的向量利用 PCA 進(jìn)行降維
1. 分類任務(wù)和非分類任務(wù)之間較大的差異,這也解釋了之前的問(wèn)題。
2.? 和 對(duì)應(yīng)的向量在空間上是混合的,說(shuō)明被找到的子空間對(duì)于未知的任務(wù)具有一定的泛化能力。
3. 從(C)和(D)中還可以觀察到,屬于同一類別的點(diǎn)表現(xiàn)為緊密的簇。說(shuō)明學(xué)習(xí)到的 intrinsic 向量可以作為任務(wù)的低維表示,可以用來(lái)分析多種 NLP 任務(wù)之間的異同。
2.3.2 Impacts of the Number of Training Tasks
隨著訓(xùn)練數(shù)據(jù)的增加,MSF 和 IST 的差距逐漸縮小,說(shuō)明數(shù)據(jù)的增加能夠有利于 IST 的優(yōu)化。
2.3.3 Impacts of the Number of Shots
隨著訓(xùn)練數(shù)據(jù)的增加,MSF 和 IST 的差距逐漸縮小,說(shuō)明數(shù)據(jù)的增加能夠有利于 IST 的優(yōu)化。
2.3.4 Improving Prompt Tuning Stability
Prompt 是最不穩(wěn)定的策略,會(huì)影響到 Prompt tuning 的使用,IPT 可以幫助 Prompt tuning 更穩(wěn)定。可以用 IPT 的結(jié)果去初始化 Prompt Tuning。
Conclusion
作者并沒(méi)有直接得出在 PLMs 上的不同 NLP 任務(wù)可以重參數(shù)化為在相同子空間上的優(yōu)化。但找到了一個(gè)可信的結(jié)果:不同任務(wù)被重參數(shù)化在低維子空間上后存在交集,并且能被 MSF 找到。作者希望未來(lái)的工作能不能設(shè)計(jì)更好的框架去證明這個(gè)本征子空間的存在,使 IPT 具有更好的泛化性能。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析、科研心得或競(jìng)賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。
📝?稿件基本要求:
? 文章確系個(gè)人原創(chuàng)作品,未曾在公開(kāi)渠道發(fā)表,如為其他平臺(tái)已發(fā)表或待發(fā)表的文章,請(qǐng)明確標(biāo)注?
? 稿件建議以?markdown?格式撰寫(xiě),文中配圖以附件形式發(fā)送,要求圖片清晰,無(wú)版權(quán)問(wèn)題
? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競(jìng)爭(zhēng)力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來(lái)稿請(qǐng)備注即時(shí)聯(lián)系方式(微信),以便我們?cè)诟寮x用的第一時(shí)間聯(lián)系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長(zhǎng)按添加PaperWeekly小編
🔍
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
·
總結(jié)
以上是生活随笔為你收集整理的清华大学刘知远组:基于Prompt Tuning对低维本征任务子空间进行探索的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 防臭地漏为什么不下水?
- 下一篇: 寺,庙,祠,庵,观的区别?