谁说发 paper 一定要追快打新?2021年,研究 word2vec 也能中顶会!
文 | jxyxiangyu
前言
“小夕,小夕,你關(guān)注的任務sota又被刷新了!”
“什么?!”
還在跑實驗的小夕默默流下了辛酸淚
不得不說nlp領域的發(fā)展真的太快了,煉丹師們不光要時刻關(guān)注前沿熱點,還要快速做出實驗,高強度堪比996:導師,臣妾真的做不到啊(っ╥╯﹏╰╥c)
正巧,小編我最近看到一篇研究詞向量 word2vec 的論文,中了今年的EMNLP。What?!依稀記得頭一次聽說word2vec還在三年前。這么古老的東西還有人在研究嗎?現(xiàn)在不都是XX-BERT、XX-transformer的時代了嗎?
今天讓我們一起來看看,到底是咋回事。
論文標題:
Analyzing the Surprising Variability in Word Embedding Stability Across Languages
論文鏈接:
https://arxiv.org/abs/2004.14876
詞向量穩(wěn)定性
在介紹論文之前,先讓我們來了解下詞向量的穩(wěn)定性。詞向量的穩(wěn)定性指的是一個詞在不同的向量空間中的最近鄰的重疊程度,常用來衡量由數(shù)據(jù)集、算法和詞的屬性特征的變化引起的詞向量的變化。
這時候一定有小伙伴要問了,都1202年了,還有研究靜態(tài)詞向量的必要嗎?No,no,no,如果這么想,格局就小了,我們常用的BERT、GPT這些模型都是建立在大規(guī)模語料上預訓練得到的,如果面對的是小語種,沒有像漢語、英語這么豐富的語料庫,是很難喂飽預訓練語言模型的,另外,為了某些小語種專門花費大量的資源訓練預訓練模型,從工業(yè)的角度來看,成本也是非常高的。這時,自然而然就會想到利用上下文無關(guān)的靜態(tài)詞向量來解決這類問題。
穩(wěn)定性的計算
文章研究的是在多個不同的語言中的詞向量穩(wěn)定性的變化,首先提出了穩(wěn)定性的計算方式。給定兩個向量空間集合,,那么兩個向量空間的組合可以表示成,其中,,,對于某個詞在向量空間,的穩(wěn)定性可以用在這兩個空間中最近的10個鄰居的重疊百分比來表示,而在和這兩個集合中,任意兩個向量空間的組合下的穩(wěn)定性均值,就被定義為詞在這兩個向量空間集合的穩(wěn)定性。
舉個栗子,下面的圖展示的是詞“rock”在三個向量空間下最近的10個鄰居詞,粗體表示向量空間重疊的詞,可以看到 和 有6個鄰居是重疊的, 、 和 、分別有7個詞重疊,那么詞“rock”在這三個向量空間的穩(wěn)定性就是這三個值的均值(0.667)。
實驗
數(shù)據(jù)集
作者采用的是Wikipedia和Bible兩個數(shù)據(jù)集,其中,Wikipedia包含40種語言,Bible包含97種語言,以及世界語言結(jié)構(gòu)圖譜(World Atlas of Language Structures,WALS),包含了近兩千種語言屬性知識。
數(shù)據(jù)集下采樣
為減小不同語言數(shù)據(jù)量對詞向量穩(wěn)定性的影響,論文對原始的數(shù)據(jù)集做了下采樣處理,具體方法是對數(shù)據(jù)集不重復地下采樣(downsampling without replacement)。
為研究不同的下采樣方法對穩(wěn)定性的影響,用作者的話來說,希望通過下采樣得到跨語言且有可比性的穩(wěn)定性結(jié)果。為此,作者專門對比了可重復采樣和不可重復采樣兩種下采樣方法對穩(wěn)定性的影響。
可以看到可重復采樣的方法導致下采樣數(shù)據(jù)集無論采樣覆蓋比例如何,穩(wěn)定性基本趨于一致,沒有區(qū)分度,而不可重復采樣的方法得到的數(shù)據(jù)集有較為明顯的穩(wěn)定性區(qū)分,這也是作者選擇不重復下采樣方法的原因。
數(shù)據(jù)集上的穩(wěn)定性
作者針對Wikipedia和Bible兩個數(shù)據(jù)集重疊的26種語言,研究了不同語言,不同詞向量生成算法和數(shù)據(jù)對詞向量穩(wěn)定性的影響,總共三種情況:
由五個下采樣的數(shù)據(jù)集訓練得到的GloVe詞向量的穩(wěn)定性
由五個下采樣的數(shù)據(jù)集訓練得到的word2ve詞向量的穩(wěn)定性
由一個下采樣的數(shù)據(jù)集隨機五次訓練得到的word2ve詞向量的穩(wěn)定性
由于Bible數(shù)據(jù)集過小,因此,只對Bible數(shù)據(jù)集研究了情況3下穩(wěn)定性的分布
可以看到在穩(wěn)定性25%~75%之間,穩(wěn)定性分布和變化較為平緩,低穩(wěn)定性和高穩(wěn)定性的詞數(shù)量變化明顯。
實驗結(jié)果也表明在相同的訓練數(shù)據(jù)下,不同的訓練算法得到的詞向量穩(wěn)定性分布和變化趨于一致,相比而言,訓練語料的不同對穩(wěn)定性有較大的影響。因此,在對比不同語言下的詞向量穩(wěn)定性時,應該減小語料的內(nèi)容對穩(wěn)定性的影響。
為了研究同一數(shù)據(jù)集的不同上下文對研究不同語言間穩(wěn)定性的影響程度,作者分別選擇了圣經(jīng)在德語和法語的多個不同譯本,在一個下采樣數(shù)據(jù)集上用五個不同的隨機數(shù)種子訓練生成五個word2vec詞向量,并取均值作為該譯本下的詞向量穩(wěn)定性。可以看到除個別譯文外,不同譯本之間的穩(wěn)定性趨勢基本一致,基本可以忽略相同語義的不同上下文對詞向量穩(wěn)定性的影響。
▲不同bible譯本的穩(wěn)定性分布(德語)▲不同bible譯本的穩(wěn)定性分布(法語)回歸模型
前述的實驗對比了多個語言下的穩(wěn)定性分布與走勢,下面作者用嶺回預測特定語言下的所有詞的平均穩(wěn)定性的方式,研究語言屬性本身對詞向量穩(wěn)定性的影響因素。
模型的輸入是特定語言的語言學特征(屬性),輸出是穩(wěn)定性的均值。在講特征輸入模型前,作者做了相應的數(shù)據(jù)預處理,包括過濾出現(xiàn)頻次較低的特征和屬性(WALS)以及屬性較少的語言,特征分組等,這里就不詳細說明了。
評價指標
作者用了兩種方式來評估模型:和留一法交叉驗證的絕對誤差。選擇擬合效果較好的模型,通過權(quán)重的大小來確定特征(或?qū)傩?#xff09;對穩(wěn)定性的貢獻度程度。
實驗結(jié)論
作者選擇的模型達到了的和的留一法交叉驗證的絕對誤差,足以證明模型擬合效果非常好,相應的權(quán)重也可以表示屬性對穩(wěn)定性的貢獻程度。下面是嶺回歸模型擬合后得到的屬性對穩(wěn)定性的貢獻度權(quán)重和對特征分組的平均權(quán)重。相應地,作者還對某些屬性特征做了詳細的研究分析,這里不再贅述。
小結(jié)
與常見的在某個任務上提模型、刷sota不同,這篇論文著眼于詞向量在不同語言之間的差異的研究,本質(zhì)上更像是數(shù)據(jù)分析。文章從數(shù)據(jù)采樣方式入手,分別研究了數(shù)據(jù)集、訓練算法對不同語言的穩(wěn)定性的分布和走勢的影響,并使用嶺回歸模型擬合了語言的屬性特征對穩(wěn)定性的貢獻程度,分析不同屬性特征對穩(wěn)定性的影響。相比提出一個新的模型刷sota而言,可復現(xiàn)性和解釋性更高,對詞向量的應用有不小的貢獻。
當然,這篇文章研究的是經(jīng)典的靜態(tài)詞向量,和主流的transformer架構(gòu)相比,確實顯得有點“out”,但文章投了七次才中,不也證明了只要是金子都會發(fā)光嗎?小編認為,誰說nlp一定要追快打新,只要是真正有益于nlp領域發(fā)展的研究工作,都值得發(fā)表,都值得中。(無卡黨和少卡黨狂喜bushi)
▲狂喜后臺回復關(guān)鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
后臺回復關(guān)鍵詞【頂會】
獲取ACL、CIKM等各大頂會論文集!
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅持創(chuàng)作打卡瓜分現(xiàn)金大獎總結(jié)
以上是生活随笔為你收集整理的谁说发 paper 一定要追快打新?2021年,研究 word2vec 也能中顶会!的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 改变世界,改善生活:我从科沃斯扫地机器人
- 下一篇: 文本分类问题不需要ResNet?小夕解析