为什么每次有人大声通电话时,我就很烦躁...
文 | Chaos
編 | 小戲
不知你是否有過(guò)這樣的體驗(yàn),當(dāng)你周圍有人在大聲講電話時(shí),你會(huì)不自覺(jué)的感覺(jué)到煩躁。為什么呢?有一種委婉的說(shuō)法是因?yàn)槟懵?tīng)到了不完整的對(duì)話。直白點(diǎn)說(shuō)其實(shí)就是講電話的人通過(guò)放大聲音強(qiáng)行讓你接收了他說(shuō)的信息,但你又無(wú)法接受到電話那邊的人所回復(fù)的信息,因此對(duì)這個(gè)講電話的人,你也可能不知所云,心情自然變得煩躁。
正如我們以前在做閱讀理解時(shí)經(jīng)常碰到的問(wèn)題“請(qǐng)結(jié)合上下文談?wù)劥颂幾髡呦胍磉_(dá)的思想感情” 一樣,很多的自然語(yǔ)言處理的問(wèn)題——諸如問(wèn)答,對(duì)話,文本摘要等——都需要在一個(gè)豐富的文本環(huán)境下去預(yù)測(cè)某個(gè)單句的意思。
近期 Google 的大佬們就對(duì)這一問(wèn)題進(jìn)行了深入細(xì)致的研究,他們提出句子的 Decontextualization (去情境化,注意這里不是 Bert ,并不是一個(gè)新的模型名,就是一個(gè)名詞),目的是讓句子都能表述自己的 Truth-Conditional Meaning (真值條件義)。
論文題目:
Decontextualization: Making Sentences Stand-Alone
論文鏈接:
https://arxiv.org/pdf/2102.05169.pdf
定義
Definition 1 (Decontextualization)
Given a sentence-context pair , a sentence is a valid decontextualization of s if:
(1) the sentence is interpretable in the empty context; and (2) the truth-conditional meaning of in the empty context is the same as the truth-conditional meaning of in content?
這里涉及到的是一個(gè)句子文本對(duì),其中是將被去情境化的句子,是包含句子的文本,那么作為的有效去情境化句子必須滿足:(1)在沒(méi)有上下文的情況下是可以被理解的;(2)句子所表達(dá)的真值條件義和在文本里的句子所表達(dá)的真值條件義是一致的。舉個(gè)例子吧,如下圖:
如果不結(jié)合上下文單看paragraph里灰色背景的句子,你就不知道是哪個(gè)隊(duì)在什么比賽上的最好成績(jī)是2018年決賽2-4輸給了法國(guó)隊(duì)。但是如果你看 Decontextualized Sentence,你就可以不再需要上下文,而直接明白文本里的灰色句子的意思,這個(gè)就是作者定義的去情境化。
那這個(gè)" Truth-Conditional Meaning " 又是什么呢?作者專門強(qiáng)調(diào)并且引用了一系列語(yǔ)義學(xué)理論。筆者并未深究,感覺(jué)就是"話語(yǔ)顯義",也就是字面意思,不涉及含義以及引申義。還是引用上面的例子,換個(gè)語(yǔ)境如下圖:
這里 Jon 說(shuō)的話和之前文本里的句子一模一樣,所以 Decontextualized Sentence 也可以沿用之前的句子,但是實(shí)際上語(yǔ)境里 Susan 問(wèn)的是 Croatia 是否拿過(guò)冠軍, Jon 的回答從表面上看并不直接,但卻間接包含了 Croatia 并未奪冠的含義,這個(gè)含義在去情境化的句子里也沒(méi)有直接表達(dá)。
這也就是在 Decontextualiation 過(guò)程中只要求字面意思一樣,并不涉及含義,于是便出現(xiàn)了在兩種不同語(yǔ)境里的同一句話實(shí)際上 Decontextualized 之后是一樣的,這是不是真就是"去情境化"呢?無(wú)論你是在哪里"飆車",反正超速就得扣駕照分。
通過(guò)對(duì)" Truth-Conditional Meaning "的考究,我們確實(shí)可以看出 Google 大佬們工作真是細(xì)致,確實(shí)對(duì)現(xiàn)階段的 NLP 模型來(lái)說(shuō),能理解話語(yǔ)顯義感覺(jué)就很不錯(cuò)了,要是不久的將來(lái), NLP 模型能理解你說(shuō)的"內(nèi)涵",那可真就厲害了。扯遠(yuǎn)了...拉回來(lái),如圖1所示,像" thus far "這樣的額外的語(yǔ)境,在去情境化的過(guò)程中是不需要處理的。
任務(wù)
訓(xùn)練語(yǔ)言模型完成這樣一個(gè)去情境化的任務(wù)其實(shí)是一個(gè)有監(jiān)督的學(xué)習(xí)任務(wù),既然是有監(jiān)督的學(xué)習(xí),就離不開(kāi)"打標(biāo)"。一個(gè)注釋者——即打標(biāo)的人,需要對(duì)一份包含目標(biāo)句子(首尾用,和標(biāo)注)的完整文本進(jìn)行打標(biāo)。
首先他需要判斷這個(gè)句子是否可以去情境化,即標(biāo)注 FEASIBLE 或者 INFEASIBLE, 如果例子被標(biāo) FEASIBLE ,那么注釋者需要提供滿足 Definition 1 的去情境化后的句子。
被標(biāo) FEASIBLE 的句子指的是那些不需要或者只需稍微編輯就能去情境化的句子,而那被標(biāo) INFEASIBLE 的句子就是很難被去情境化的句子,比方說(shuō):
筆者碰巧學(xué)過(guò)物理,這句去情境化后應(yīng)該是“金屬的相變潛熱與熱容之比要比水高出許多,這個(gè)比值通常在400到1200之間”,但是這個(gè)過(guò)于專業(yè)就算去情境化后也很難被人理解,所以便被標(biāo)注 INFEASIBLE ,此外還有一些敘述性比較強(qiáng)或者過(guò)于依賴上下文的句子也很難被去情境化。
對(duì)于被標(biāo)注為 FEASIBLE 的句子,編輯的方式也是有套路的,通??梢苑譃?大類:
(1) Name Completion , Pronoun / NP Swap 名稱補(bǔ)全和代詞轉(zhuǎn)換。
(2) DM Removal 包括對(duì)一些語(yǔ)篇標(biāo)記( Discourse Markers )詞的刪除,比方說(shuō)( therefore )。
(3) Bridging , Global scoping 包括加一些短語(yǔ)(通常是介詞短語(yǔ))來(lái)對(duì)某些名詞詞組或者是整個(gè)句子進(jìn)行補(bǔ)充說(shuō)明。
(4) Addition 通常是加入一些背景元素增強(qiáng)可讀性。
示例如下:
數(shù)據(jù)與模型
數(shù)據(jù)使用的是英文維基百科,采用人工打標(biāo)的方式,注釋者都是美國(guó)本土的 English speaker ??偣?8個(gè)注釋者,其中11個(gè)注釋者注釋了超過(guò)1K個(gè) examples (有必要說(shuō)的這么詳細(xì)嗎?額, Google 大佬,有必要,為了保持樣本的一致性,那為什么不讓1個(gè)人注釋?嘿嘿,你想累死那位老哥...) 。
數(shù)據(jù)統(tǒng)計(jì)如下:
仔細(xì)看一下數(shù)據(jù)統(tǒng)計(jì),你就會(huì)發(fā)現(xiàn)其實(shí)絕大部分的 examples 都是那11位注釋者注釋的(所以說(shuō)是一致性嘛),這個(gè)里面文本長(zhǎng)度( par.len )和句子長(zhǎng)度( sent.len )都是用字節(jié)( bytes )計(jì)算的,其中訓(xùn)練集只有一個(gè) Reference ,驗(yàn)證和測(cè)試集有5個(gè) Reference ,另外 Expert 那一行的樣本是作者們自己注釋的。
作者提供了兩套模型用來(lái)進(jìn)行自動(dòng)去情境化,一個(gè)是指代消解模型,還有一個(gè)是 Seq2seq 模型,數(shù)據(jù)的輸入形式如下:
其中是分隔符,是維基百科的頁(yè)標(biāo)題,是該段文本的小標(biāo)題,是文本里的句子,是目標(biāo)句子。
指代消解模型使用的是開(kāi)源的 SpanBert-Large (保持原始的超參數(shù)),對(duì)輸入的 Sequence 采用這個(gè)模型,將所有和目標(biāo)句子存在指代關(guān)系的部分都篩選出來(lái),然后選擇其中在文本里最靠前的和目標(biāo)句有指代關(guān)系的實(shí)體進(jìn)行替換,平均下來(lái)有36.5%的 examples 是通過(guò)這種方式改進(jìn)的。
Seq2seq 模型采用的是 T5 模型,兩個(gè)變種,一個(gè)是 Base 版本一個(gè)是11B,主要區(qū)別在模型容量上。
這里訓(xùn)練時(shí)將 Target Sequence 設(shè)置為 ,其中
當(dāng) 時(shí) 是去情境化后的句子,當(dāng)時(shí),是文本原句。
結(jié)果與評(píng)估
對(duì)于去情境化的可行性檢測(cè),也就是判斷 FEASIBLE 和 INFEASIBLE 的一個(gè)二分類問(wèn)題, T5 預(yù)測(cè) FEASIBLE 達(dá)到了88%的準(zhǔn)確率, T5-11B 達(dá)到了89%的準(zhǔn)確率,都優(yōu)于人的判斷(85%的準(zhǔn)確率),再次說(shuō)明預(yù)訓(xùn)練語(yǔ)言模型在分類問(wèn)題上的良好表現(xiàn)。另外指代消解模型并不能判斷可行性。
對(duì)于去情境化句子生成結(jié)果,作者給了4種評(píng)估方法:(1) Length Increase :長(zhǎng)度增量為;
(2) % edited:在去情境化的過(guò)程中,修改部分所占得比例;
(3) Sentence match:句子匹配程度, 描述模型預(yù)測(cè)結(jié)果和 Reference 之間的相似性;
(4) ?SARI(System Output Against References And Against The Input Sentence):這里主要是將模型預(yù)測(cè)結(jié)果和 Reference 一起和輸入原句進(jìn)行對(duì)比,采用一元模型,對(duì)每個(gè) Reference ,可以算它的 Add Edits,也就是在 Reference 里而不在原句里的部分,同理也可以計(jì)算 Delete edits ,以這個(gè)為標(biāo)準(zhǔn),計(jì)算模型輸出在 Add/Delete Edits 上相對(duì)于 Reference 的準(zhǔn)確率/召回率/F1值,作者主要以 SARI 作為模型的評(píng)估標(biāo)準(zhǔn)。
評(píng)估結(jié)果如下:
可以看出 T-5 模型在各項(xiàng)指標(biāo)上明顯優(yōu)于指代消解模型,其中容量更大的 11B Model 表現(xiàn)更好 而且在 Sentencematch 上更是超過(guò)了 Human ,不過(guò) Human 在更具代表性的 SARI 值上表現(xiàn)是最好的
作者還做了人工評(píng)估,也就是將模型輸出與注釋者注釋的句子放在一塊讓專家評(píng)估。主要有兩個(gè)指標(biāo),一是語(yǔ)句的流暢程度,二是是否正確的去情境化了。評(píng)估結(jié)果模型預(yù)測(cè)在流暢程度上得分88%,在正確性上得分67.5%,Human Reference 在流暢程度上得分84.5%,在準(zhǔn)確性上得分 78.5%。
另外作者還做了一個(gè)喜好測(cè)試,即讓兩位專家選擇是更喜歡模型的輸出還是注釋者的注釋,也可以兩者都不選。結(jié)果如下:
行與列分別代表兩位專家,結(jié)果還是比較一致的,兩位專家還是更喜歡注釋者的句子,不過(guò)對(duì)于一些 Samples 專家也會(huì)選擇T5模型的輸出。
總結(jié)
論文作者定義了何為句子的去情境化,構(gòu)建了一個(gè)用于此任務(wù)的數(shù)據(jù)集,而且還給出了一個(gè)去情境化相對(duì)效果還不錯(cuò)的模型( T5-11B )。
總的來(lái)說(shuō),對(duì)于一個(gè)相對(duì)較新的NLP任務(wù),作者們?cè)谌蝿?wù)的確立,數(shù)據(jù)集的構(gòu)建,模型的篩選,甚者到最后的應(yīng)用與推廣等方方面面都做了細(xì)致的工作,確實(shí)給眾多NLPer樹(shù)立了一個(gè)良好的榜樣!
尋求報(bào)道、約稿、文案投放:
添加微信xixiaoyao-1,備注“商務(wù)合作”
后臺(tái)回復(fù)關(guān)鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
后臺(tái)回復(fù)關(guān)鍵詞【頂會(huì)】
獲取ACL、CIKM等各大頂會(huì)論文集!
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來(lái)咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)總結(jié)
以上是生活随笔為你收集整理的为什么每次有人大声通电话时,我就很烦躁...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 学PyTorch还是TensorFlow
- 下一篇: 如何做机器学习项目规划?一个事半功倍的c