當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文学习4-An Attentive Neural Architecture for Fine-grained Entity Type Classification

發(fā)布時(shí)間：2024/7/5 编程问答 62 豆豆

生活随笔收集整理的這篇文章主要介紹了论文学习4-An Attentive Neural Architecture for Fine-grained Entity Type Classification 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文章目錄

1.introduction
2.相關(guān)工作
3. 本文model
- 3.1general model
- 3.2 mention represent
- 3.3 context model
- - 3.3.1 averaging encoder
  - 3.3.2 LSTM encoder
  - 3.3.3 Attention Encoder
4. 實(shí)驗(yàn)

在這項(xiàng)工作中，我們提出了一種新的基于注意的神經(jīng)網(wǎng)絡(luò)模型來完成細(xì)粒度實(shí)體類型分類的任務(wù)。我們的模型在現(xiàn)有的FIGER數(shù)據(jù)集上獲得了74.94%的微F1-分?jǐn)?shù)，相對提高了2.59%。我們還研究了我們的模型的注意機(jī)制的行為，并觀察到它可以學(xué)習(xí)表明實(shí)體的細(xì)粒度類別成員關(guān)系的上下文語言表達(dá)式

1.introduction

遞歸地組合實(shí)體上下文的表示
本文貢獻(xiàn)
- 細(xì)粒度實(shí)體類型分類的第一個(gè)遞歸的模型，該模型學(xué)會(huì)遞歸地組合每個(gè)mention和上下文的表示，并在數(shù)據(jù)集上取得最先進(jìn)的性能上。
- 通過將注意機(jī)制合并到我們的模型中，我們不僅可以獲得更好的性能，還可以觀察到模型學(xué)習(xí)了表示實(shí)體的細(xì)粒度類別成員關(guān)系的上下文語言表達(dá)式

2.相關(guān)工作

據(jù)我們所知，

Lee等人(2006)是第一個(gè)解決細(xì)粒度實(shí)體類型分類任務(wù)的人。他們定義了147個(gè)細(xì)粒度實(shí)體類型，并在一個(gè)手動(dòng)注釋的韓國數(shù)據(jù)集上評估了一個(gè)基于條件隨機(jī)字段的模型。
Sekine(2008)主張實(shí)體類型分類需要大量的類型集合，并定義了200個(gè)類型，作為將來細(xì)粒度實(shí)體類型分類工作的基礎(chǔ)
Ling和Weld(2012)在Freebase的基礎(chǔ)上定義了112種類型，并使用Mintz等人(2009)提出的遠(yuǎn)程監(jiān)控方法從Wikipedia創(chuàng)建了一個(gè)培訓(xùn)數(shù)據(jù)集。為了進(jìn)行評估，他們創(chuàng)建了一個(gè)小型的手工注釋的報(bào)紙文章數(shù)據(jù)集，并證明了他們的系統(tǒng)FIGER可以通過提供細(xì)粒度實(shí)體類型預(yù)測作為特性來改進(jìn)關(guān)系提取系統(tǒng)的性能。
Yosef等人(2012)將505種類型進(jìn)行了分級(jí)分類，其中數(shù)百種類型處于不同的級(jí)別。在此基礎(chǔ)上，他們開發(fā)了一個(gè)多標(biāo)簽分級(jí)分類系統(tǒng)。
在Yogatama等人(2015)中，作者提議使用標(biāo)簽嵌入來允許相關(guān)標(biāo)簽之間的信息共享。這種方法改進(jìn)了FIGER數(shù)據(jù)集，并且證明了細(xì)粒度的標(biāo)簽可以作為特性來改進(jìn)粗粒度實(shí)體類型的類化性能。
Del Corro等人(2015)引入了迄今為止最細(xì)粒度的實(shí)體類型分類系統(tǒng)，它在整個(gè)WordNet層次結(jié)構(gòu)上運(yùn)行，有超過16000個(gè)類型。
以前所有的模型都依賴于手工制作的特征，
Dong等人(2015)定義了22種類型，并創(chuàng)建了兩部分神經(jīng)分類器。他們使用遞歸神經(jīng)網(wǎng)絡(luò)遞歸地獲得每個(gè)mention實(shí)體的向量表示，并使用固定大小的窗口捕獲每個(gè)提及的上下文。我們的工作和他們的工作的關(guān)鍵區(qū)別在于，我們使用遞歸神經(jīng)網(wǎng)絡(luò)來組成上下文表示，并且我們使用注意力機(jī)制來允許我們的模型關(guān)注相關(guān)的表達(dá)式。

3. 本文model

這篇文章最核心的地方來了，也是用RecNN（遞歸神經(jīng)網(wǎng)絡(luò)）來表示向量，然后用了attention，并且，是用了一個(gè)窗口來獲取上下文的
$l_1,l_2,...,l_C,m_1,m_2,...,m_M,r_1,...,r_C,C是window size,l,r是上下文，mi是一個(gè)mention word$
我們的模型學(xué)習(xí)mention比學(xué)習(xí)上下文容易–>泛化性能差
–》用不同的模型來建模mention和上下文

3.1general model

這是先分別計(jì)算mention和兩邊的context的表達(dá)，然后拼接起來，然后乘以權(quán)重，再邏輯回歸層（Sigmoid)
無偏置的原因
- 請注意，我們在上述公式中沒有包含偏倚項(xiàng)，因?yàn)橛?xùn)練和測試語料庫中的類型分布可能由于域差異而存在顯著差異。也就是說，在邏輯回歸中，偏差與訓(xùn)練集中類型的經(jīng)驗(yàn)分布相吻合，這將導(dǎo)致在具有不同類型分布的測試集中的糟糕表現(xiàn)。（經(jīng)驗(yàn)主義）
損失函數(shù)

3.2 mention represent

V：vocabulary
u：V->R—embedding
在我們的實(shí)驗(yàn)中，我們驚訝地發(fā)現(xiàn)，與Dong等人(2015)的觀察結(jié)果不同，與上面描述的簡單模型相比，復(fù)雜的神經(jīng)模型不能很好地學(xué)習(xí)提及表征。一個(gè)可能的解釋是標(biāo)簽訓(xùn)練集和測試集之間的差異。例如,時(shí)間標(biāo)簽分配給一星期的天(例如周五,周一和周日）是測試集合,但不是在訓(xùn)練集,而明確的日期(例如2月24日和6月4日)被分配的時(shí)間標(biāo)簽的訓(xùn)練集和測試集。這可能是有害的對于復(fù)雜模型由于其傾向overfit訓(xùn)練數(shù)據(jù)。—測試集和訓(xùn)練集時(shí)間標(biāo)簽不一樣，復(fù)雜模型過擬合導(dǎo)致結(jié)果不好

3.3 context model

比較了三種方法

3.3.1 averaging encoder

3.3.2 LSTM encoder

左、右上下文使用一個(gè)lstm cell進(jìn)行遞歸編碼
$l1,l2,...,lC??得到h1l→,...,hCl→l_1,l_2,...,l_C--得到\overrightarrow{h_1^l},...,\overrightarrow{h_C^l}$
$rC,...,r1??得到h1r←,...,hCr←r_C,...,r_1--得到\overleftarrow{h_1^r},...,\overleftarrow{h_C^r}$

3.3.3 Attention Encoder

雖然LSTM可以對順序數(shù)據(jù)進(jìn)行編碼，但它仍然很難學(xué)習(xí)長期依賴關(guān)系。受最近自然語言處理中注意力機(jī)制的研究啟發(fā)(Hermann et al.， 2015;我們通過引入一種新的注意力機(jī)制來規(guī)避這個(gè)問題。我們還假設(shè)，通過引入注意機(jī)制，該模型可以識(shí)別分類的信息表達(dá)，使模型行為更具可解釋性。

用attention:為了處理長期依賴關(guān)系。使有可解釋性
首先，對于左右上下文，我們使用雙向編碼序列
LSTMs（每一個(gè)位置都有個(gè)雙向的表達(dá)）
其次：
- ai關(guān)注度–已經(jīng)normalize
- 我們將這些標(biāo)準(zhǔn)化標(biāo)量值ai∈R稱為關(guān)注度。最后，我們以雙向LSTMs輸出層的加權(quán)和作為上下文的關(guān)注人工智能加權(quán)表示

4. 實(shí)驗(yàn)

使用預(yù)訓(xùn)練word embeddings(300d)
measure
也就是說這N和標(biāo)簽中，兩個(gè)標(biāo)簽相同的，占多少，計(jì)數(shù)
超參數(shù)設(shè)置
- Dm=300維度的word embedding
- lstm隱層：Dh=100
- attention module的隱層Da=50
- 學(xué)習(xí)率=0.005
- mini-batch size=1000
- dropout=0.5–正則化項(xiàng)
- window:
  - mention M=5
  - context C=15
    值得注意的是，我們的方法并不局限于使用固定的窗口大小，而是一個(gè)由當(dāng)前處理動(dòng)態(tài)寬度遞歸神經(jīng)網(wǎng)絡(luò)時(shí)所使用的機(jī)器學(xué)習(xí)庫的局限性而產(chǎn)生的實(shí)現(xiàn)細(xì)節(jié)。對于每個(gè)epoch，我們對訓(xùn)練數(shù)據(jù)集迭代10次，然后評估開發(fā)集上的模型性能。在訓(xùn)練之后，我們挑選出最好的模型

表2是在人工選出的數(shù)據(jù)上進(jìn)行的（開發(fā)集）

總結(jié)

以上是生活随笔為你收集整理的论文学习4-An Attentive Neural Architecture for Fine-grained Entity Type Classification的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：一个走过太多坑的老弟对面向对象知识的总结
下一篇： MySQL 练习创建表格2