Cross-lingual Transfer of Correlations between Parts of Speech and Gaze Features 阅读笔记
Cross-lingual Transfer of Correlations between Parts of Speech and Gaze Features
0723 COLING 2016
Abstract
最近的幾項研究表明,閱讀過程中的眼球運動提供了關于語法和句法處理的信息,這有助于NLP模型的誘導。然而,所有這些研究都僅限于英語。這項研究表明,注視和詞性(PoS)的相關性在很大程度上在英語和法語之間轉移。這意味著我們可以復制之前關于法語中基于注視的PoS標記的研究,但我們也可以使用英語注視數據來幫助法國NLP模型的誘導。
1 Introduction
在正常的,熟練的閱讀過程中的眼球運動反映了與閱讀相關的處理負荷。最近,眼動數據已被整合到自然語言處理模型中,用于弱監督詞性(PoS)歸納、句子壓縮、監督PoS標記和監督分析。
Barrett等人使用了一個大型眼球跟蹤語料庫的英語部分,即Dundee語料庫,對英語進行弱監督PoS誘導,與沒有注視特征的基線相比獲得了顯著改善。他們使用了二階隱馬爾可夫模型,該模型受維基詞典的類型約束。這些結果表明,一種方法,僅使用字典和眼動數據的弱監督的PoS誘導。這種方法將適用于資源匱乏的語言,因此很難找到專業的注釋者。
本研究進一步探討了本地讀者對PoS的處理在多大程度上適用于相關語言。作者使用了與Barrett等人類似的模型,但對鄧迪語料庫中的法語和英語部分進行了跨語言實驗。
Contribution
本文第一個探索告知PoS模型的本地讀者的眼球運動如何從一種語言泛化到另一種語言的研究。作者還介紹了一種新的資源來研究法語語法類和眼球運動之間的關系:通過調整法國樹庫的形態句法注釋,提供了大多數法國Dundee語料庫的PoS注釋。
2 Data preparation
本實驗使用的數據是Dundee語料庫的英語和法語部分。Dundee語料庫是按標記計數計算的最大的可用眼動語料庫。對于英語和法語,每種語言的母語為10人,他們閱讀了20篇來自《獨立報》(《英語》)或《世界報》(法語)的報紙文章。該語料庫包含每種語言約5萬個token。
對于Dundee語料庫中的英語和法語部分,最初的符號化遵循文本的視覺單位,縮寫和標點符號附加在它們屬于其視覺單位的單詞上。例如,s’entendre or rappelle-t-il在法國語料庫中是一個token,而在法國樹庫中分別是2和5個標志。在英國的Dundee語料庫中,don’t! 是一個token,但在鄧提樹庫有三個。因此,眼球運動測量只適用于整個視覺單位。作者通過復制所有包含Dundee token(即一個視覺單元)的樹庫token的眼動測量方法來解決這個問題。這與Barrett等人使用的方法相同。因此,在pos標記版本的Dundee語料庫中,標記的數量增加了;此外,一些標記與眼動測量有關,反映了多個標記的處理。
對于英語來說,樹庫tokenization導致token增加13.8%,達到58,599個token。對于法語來說,樹庫tokenization導致token增加了17.7%,達到56,683個token。對于英語訓練集,76%的Dundee語料庫token被映射到一個樹庫token。62%的法語鄧迪語料庫token也是如此。
2.1 English
The Dundee Treebank是一個最近的手冊,語法注釋層,用于Dundee語料庫的英語部分,遵循通用依賴形式主義。對于評估,本文使用該資源中的PoS標簽,將Dundee樹庫中使用的賓夕法尼亞州樹庫標簽集自動映射到通用PoS標簽集。
英語Dundee語料庫的訓練、開發和測試集與Barrett等人使用的分割相同,80%的標記用于訓練,10%的標記用于開發和測試,而沒有分割句子。這種分裂的結果是1896個句子中的46879個,230個句子中的5868個,241個句子中的5832個。
2.2 French
Dundee語料庫的法語部分的文本最初來自French Treebank1.4版,作者為這個實驗重新對齊了兩個語料庫。首先手動識別了法國樹庫的相關子集(它是不連續的)。Dundee語料庫的一小部分(2518個標記,相當于法國Dundee token的5.31%)在法國樹庫中無法不到,因此在實驗中省略。只有整個句子都被刪除了。法國樹庫的形態句法注釋通過一組啟發式規則和手動修復所有異常,與Dundee語料庫進行了半手動對齊。由于法國樹庫和Dundee語料庫的標記化不一致,需要人工干預。
對于法語,有一些樹庫token沒有token字符串,只有PoS,引理等。例如,du應該被分割為de和le,但在某些情況下缺少le的標記字符串。這些缺失的標記在這個實驗中被省略了。
法國Dundee語料庫沒有訓練開發測試。本文使用了與英語類似的方法,前80%的token用于培訓,后10%的token用于驗證,最后10%用于測試。沒有一個句子被分成不同的幾組。結果是1585個句子中43383個token進行訓練,240個句子中5407個token進行開發,178個句子中5444個token進行測試。
法國樹庫的標簽集被自動映射到通用PoS標簽集。作者在https://bitbucket.org/lowlands/release上提供了法國鄧迪語料庫的對齊、形態語法注釋。
2.3 Reading differences between English and French
本節討論現有的比較法語和英語閱讀的研究結果。這兩項主要的研究使用了這兩個Dundee語料庫來進行分析。Pynte和Kennedy比較了法語和英語Dundee語料庫的眼球運動,以探索五種眼動指標上的局部效應(如單詞頻率、單詞長度、局部語境)和全局效應(如可預測性、閱讀策略、檢查策略)。
他們首先注意到,法語的閱讀速度比英語慢,注視時間更長。這種效應是顯著的,對于長單詞更明顯,與英語相比,法語也有更多的重新注視。Kennedy and Pynte認為,重新定位反映了法語和英語之間最關鍵的區別。除了在對目標單詞的處理上有明顯的差異外,更多的重新注視也能增強對下一個單詞的預覽。Pynte和Kennedy報告說,英語和法語實驗的參與者匹配(雖然不是因素),包括校準技術、設備、控制軟件,指令,和數據縮減軟件,是相同的語言,盡管法國數據收集在艾克斯普羅旺斯,法國和英語數據在Dundee,UK。因此,他們將這種差異歸因于文本本身。盡管他們發現法語單詞(5.2個字符)平均比英語單詞(4.7個字符)長,且法語單詞(19.7%)多于英語單詞(17.2%)。因此,Kennedy and Pynte認為,閱讀上的差異是由于信息在一個給定單詞的字母中的分布,而這在這兩種語言中是不同的。例如,在法語中,終端重音、病例標記、性別和時態標記傳達了關鍵的形態學信息。這與他們的發現是一致的,即Dundee語料庫中英語部分的眼球運動對下一個單詞的長度更為敏感,而法語則對單詞開頭的三字組的信息量有同等的影響。
總體而言,Pynte and Kennedy認為英語和法語的檢查策略非常相似,這與Sparrow等人在另一個134個法語單詞的眼動語料庫上測試英語EZ閱讀器模型時得出的結論相同。Kennedy和Pynte提供了英語和法語之間的統計差異的分析,但除了在法語中更頻繁,他們似乎得出結論,閱讀在許多方面是相似的,這也支持了他們選擇主要聯合分析法語和英語。
樹庫注釋包含了句子邊界,這使得比較兩種語言的句子的長度和復雜性成為可能。我們發現,英語訓練集的平均句子長度為24.7個標記(SD13.1)。對于法語來說,它是28.7代幣(SD17.8)。Pynte和肯尼迪(2005;2006)沒有考慮句子長度。句子越長的結果是閱讀難度越大。科爾曼-Liau指數(科爾曼和Liau,1975)的英語訓練集為10.38,法國人為12.98。這可能源于《世界報》和《獨立報》中不同的寫作風格,或者是一種有偏見的文章抽樣。
這個結論只能說,法語和英語的讀者在匹配的條件下閱讀文本時,可以顯示出或多或少相似的檢查策略。一些影響,例如,單詞首字母在法語中比在英語中更重要,可能是由于兩種語言拼寫的跨語言差異,導致重新固定以增加預覽。但閱讀速度較慢也可能是由于法語語料庫中存在更困難的文本。有關不同語言間的語法處理差異的進一步討論,請參見第7節。
2.3.1 Comparing reading of PoS for English and French
下一節中提供的統計數據是根據法語和英語訓練集計算的,并擴展了第2.3節中關于PoS的比較。作者表明,PoS類在兩種語言中的總體讀取是相似的,由于系統偏差很少例外。
圖1顯示了英語和法語數據中PoS類的分布情況。最大的區別是在法語中沒有NUM標簽。這是由于注釋方案和我們的自動映射,其中沒有標簽映射到NUM。與英語相比,法國的數據中的粒子也很少。
圖2顯示了兩種不同的閱讀指標的箱形圖:注視的次數和第一次通過的持續時間,跨越了英語和法語的PoS類。第一次通過持續時間是第一次通過文本的固定持續時間之和。這種方法據說包括了早期的句法和詞匯處理。注視的數量包括重新注視和回歸到一個標記,并反映了后來的句法和語義處理。
請注意,標點符號幾乎總是粘在一個單詞上,而標點符號上的任何眼球運動都將主要反映——如果不是完全反映的話——反映其他符號的處理過程。因此,圖2中排除了標點符號。
當比較圖2d和圖2b時,可以證實Pynte和Kennedy的發現,法國部分的注視通常比Dundee的英國部分更長。訓練集的平均注視時間為英語為236 ms,法語為303 ms。
從圖2中可以看出,大多數類的PoS的度量直觀地不同。例如,CONJ、ADP、PRON和DET等短類、頻繁類單詞的PoS類比NOUN、VERB、ADJ和ADV的注視時間更少、更短。這似乎在兩種語言中都是一致的,并符合對英語的類似分析,即對來自五個不同領域的自然發生的文本的一個較小的數據集。
PRT類別似乎是個例外。在法語中,PRT似乎需要廣泛的早期和晚期處理。請記住,從圖1中看出,英語的PRT更多(3.6%),法語的PRT更少(0.05%)。兩種語言的PRT詞集顯示了注釋方案或自動映射中的系統偏差。對于法語訓練集,PRTs的集合是{vice-, pseudo-, post-, contre-, anti-,non-, quasi-, sovi′,eto-, supra-, n′eo-, inter-}。對于英語來說,它是{off, down, To, about, on, in, over, around,back, up, out, to, away, ’, ’s}。因此,法國的粒子總是至少兩個標志性的視覺單位,似乎非常長,而英國的粒子則短而頻繁。
3 Features
在我們的弱監督PoS標記實驗中,我們使用了22個注視特征來測量早期處理和晚期處理。它們相當于Barrett等人使用的22個注視特征。早期加工措施被認為反映了早期句法和語義加工的不同方面,包括第一次通過時間和第一次注視時間。后期處理度量反映了后期句法和語義整合。
非注視特征通常包含在眼球運動模型中,因為它們解釋了許多注視時間的許多差異。Word頻率和單詞長度一起可以解釋平均注視時間的69%的方差。與Barrett等人一樣,作者使用單詞長度、來自一個大語料庫的日志單詞頻率和來自目標單詞的Dundee訓練集的日志單詞頻率,以及前一個單詞和下一個單詞。從鄧迪訓練集中,作者還提取了正向和向后過渡概率,即給定下一個或前一個單詞的條件概率。本文非凝視特征幾乎等同于Barrett等人。唯一的區別是,他們還使用了來自一個大語料庫的正向和反向過渡概率。
大的語料庫日志頻率來自British National Corpus,用KenLM和法語的Lexique提取。使用CMU語言建模工具包4和Witten-Bell平滑,在各自的訓練集上計算Dundee對數頻率。
本文總共有29個特征。所有特征首先在語料庫的所有10個閱讀器上取平均值,然后通過最小縮放來縮放到0到1之間的值。Barrett等人的特征消融研究的最佳模型使用了所有特征,這表明廣泛的PoS類別的語法處理反映在許多特征上,也需要非凝視特征。
4 Experiment
作者復制巴雷特等人的工作,使用最好的模型從Li等人,二階隱藏馬爾可夫模型最大熵排放(SHMM-ME)受維基標簽,這樣排放局限于允許的維基標簽鑒于token存在于維基。Li等人報告說,與無監督方法相比,維基禁忌有相當大的改進。
二階模型包括來自一階模型的轉移概率以及二階先行狀態的轉移概率。作者使用了Li等人的原始實現,我們還包括了他們的單詞級特征的一個子集,即,檢測連字符、數字、標點符號和大寫的四個特征。我們忽略了Li等人的三個后綴特征。這是他的基本特征模型,因為這些特征不會跨語言傳輸。Barrett等人也包括了這些特征。
作者使用李等人提供的英語維基轉儲。法國維基轉儲來自Wisniewski等人,不包括任何標點符號。因此,作者用英語維基詞典中的所有標點符號來增加它。此外,標記ADP的標記在法國維基詞典中完全缺失,而類DET的標記則非常稀疏。因此,作者將從法國訓練集中獲得的DET和ADP的所有例子添加到法國維基詞典中。對于跨語言實驗,作者使用法語和英語維基詞典詞典的結合。Barrett等人使用Li等人的模型,對英語注視特征對PoS誘導進行弱監督,并進行了模型調優和特征消融。作者使用它們的最佳超參數設置,即5次EM迭代,以及最好的特征組合:所有特征。繼Barrett等人之后,作者嘗試了token級和類型級的特性。對于標記級實驗,每個標記都由其特征向量表示。對于類型級實驗,每個標記由訓練集中所有低單詞類型的特征向量的平均值表示。
5 Results
訓練集和測試集上所有訓練和測試語言組合的標記精度如表1所示。
對于所有條件,類型級特性比標記級別工作得更好,盡管FR-EN的類型級比基線的改進并不顯著。
英語單語條件加上suff-修復幾乎等同于Barrett等人中的最佳模型。唯一的區別是在第3節中描述的兩個缺失的非注視特征。在測試集上,他們報告的基線精度為79.77,token級精度為81.00,類型級精度為82.44,這與我們的結果一致。我們觀察到,后綴特征似乎在單語情況下有幫助。對于單語條件,我們確認類型級的注視特征和令牌級的特征優于基線。這些差異是顯著的,除了EN-EN標記級別加后綴條件。
FR-FRPoS標記似乎比EN-ENPoS標記稍微容易一些,總體上實現了更高的準確性??缯Z言條件的表現通常低于單語條件。在英語訓練和法語測試時,token級和類型級的條件都明顯優于基線。
6 Error Analysis
正如預期的那樣,在使用跨語言注視數據時會有更多的錯誤。本節將通過比較跨語言實驗的預測和單語言實驗的預測來探討這些錯誤。所有的分析都是關于類型級模型的開發集輸出的。我們將它們與類型級單語模型的輸出進行了比較
圖3顯示了使用相同測試集的實驗進行比較的每個PoS類的準確性分數。標點的準確性是由于基本特征模型和維基詞典的約束,而不是眼球運動測量。與EN-EN相比,PRT和NUM是FR-EN面臨的真正挑戰。這可以假定是由于在第2.3.1節中描述的法國數據集中,PRT標記和缺失的NUM類的不同使用所致。ADJ似乎也是一個跨語言的挑戰,盡管在英語和法語訓練上比其他方法更困難。
圖4顯示了每個黃金PoS標簽的錯誤預測,使我們能夠比較不同實驗中的錯誤類型。當比較圖4a和圖4c時,兩者都用英語評估,大多數類似乎有幾乎相同的錯誤分類標簽,盡管有些標簽的大小或比例不同,取決于他們是用英語還是法語訓練。主要區別在于:在法語訓練中,ADP和ADJ通常更容易被誤分類,ADP不主要被誤分類為CONJ,而更多為ADV,DET也被誤分類為VERB和ADV,PRT被誤分類為ADV,而不是主要為ADP。
當比較圖4b和圖4d時,兩者都評估了法語,我們還發現,對于許多PoS類,錯誤分類是相同的類型,盡管在大小或比例上不同。在英語訓練時,我們觀察到的主要區別是:ADJ主要被誤分類為NOUN,而不是ADP、ADV、DET、NOUN和PRT;ADV被誤分類為VERB;DET從不被誤分類為PRT,但更多的是被誤分類為NOUN和ADJ;NOUN很少被誤分類為PRT。最后一個錯誤可能與法國數據中PRT的注視時間較長
表2顯示了所有注視特征的英文和法語pos平均注視向量之間的余弦相似性。這就提供了關于法語和英語詩人的注視特征平均值不同的信息。Pynte和Kennedy(2006)發現法語比英語有更多的重新定位,而英語在表格中被重新引用。與再注視相關的測量方法,如重讀概率、注視次數和總注視時間,在不同的語言中自然也是不同的。第一次通過的持續時間與再注視的次數并不直接相關,必須被認為是一種獨特的模式。
6.1 Wiktionary agreement
圖5顯示了英語和法語開發集的單詞類型,根據它們在各自的單語維基詞典中的表示。這個數字的靈感來自于Li等人(2012)。對于英語,更多的職業生涯類型同意維基詞典(相同或子集的wik),而不是法語。我們還計算了token級別的準確性,其中由維基詞典許可的標簽計算是正確的。對于法語開發集,這個最大的字典精度是0.95,而對于英語,它則是0.92。
7 Discussion
我們在單語和跨語言設置中進行了四個PoS誘導實驗。我們的實驗證實了Barrett等人(2016)的主要結論,即類型水平的注視向量改善了PoS誘導。我們在英語中復制了他們的結果,并在訓練英語注視矢量時,在法語和法語中報告了同樣的發現。
很難確定法語和英語語言的相關性在多大程度上決定了該模型的跨語言概括的能力。心理語言學文獻并沒有揭示不同的PoS類別是如何處理的;文獻中的大多數實驗工作研究一種語言的單一現象。例如,在反應時間研究詞匯決策任務已經發現英語復數和單數名詞的處理受表面頻率只有6,而荷蘭和法語,單數和復數名詞的詞匯處理受基本頻率7。因此,英語數據支持全存儲的認知模型,而法語和荷蘭的數據支持并行雙路徑模型,即一個單詞被處理為片段,與整個單詞處理并行處理。這些結果表明,母語為不同語言的人的大腦中對名詞的處理是不同的。這意味著我們的研究結果可能不適用于其他語言的組合,而在名詞的具體情況下,這表明荷蘭語和法語名詞的處理方式比法語和英語更相似。
8 Conclusion
本文是第一個探索凝視特征是否從一種語言推廣到另一種語言的一套廣泛的語法類別的研究。作者使用類型約束的二階HMM對鄧迪眼球追蹤語料庫的英語和法語部分進行單語和跨語PoS誘導。作者對標記級和類型級特征進行了實驗,證實了類型級凝視特征可以了英語和法語的單語PoS誘導。作者還發現,類型水平的注視特征顯著提高了法語的PoS誘導,即使該模型是在英語注視向量上進行訓練的。
總結
以上是生活随笔為你收集整理的Cross-lingual Transfer of Correlations between Parts of Speech and Gaze Features 阅读笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 苹果ttc转ttf_ttf转ttc字体格
- 下一篇: .NET框架和发展历史介绍