论文学习4-An Attentive Neural Architecture for Fine-grained Entity Type Classification
文章目錄
- 1.introduction
- 2.相關(guān)工作
- 3. 本文model
- 3.1general model
- 3.2 mention represent
- 3.3 context model
- 3.3.1 averaging encoder
- 3.3.2 LSTM encoder
- 3.3.3 Attention Encoder
- 4. 實(shí)驗(yàn)
在這項(xiàng)工作中,我們提出了一種新的基于注意的神經(jīng)網(wǎng)絡(luò)模型來完成細(xì)粒度實(shí)體類型分類的任務(wù)。我們的模型在現(xiàn)有的FIGER數(shù)據(jù)集上獲得了74.94%的微F1-分?jǐn)?shù),相對提高了2.59%。我們還研究了我們的模型的注意機(jī)制的行為,并觀察到它可以學(xué)習(xí)表明實(shí)體的細(xì)粒度類別成員關(guān)系的上下文語言表達(dá)式
1.introduction
- 遞歸地組合實(shí)體上下文的表示
- 本文貢獻(xiàn)
- 細(xì)粒度實(shí)體類型分類的第一個(gè)遞歸的模型,該模型學(xué)會(huì)遞歸地組合每個(gè)mention和上下文的表示,并在數(shù)據(jù)集上取得最先進(jìn)的性能上。
- 通過將注意機(jī)制合并到我們的模型中,我們不僅可以獲得更好的性能,還可以觀察到模型學(xué)習(xí)了表示實(shí)體的細(xì)粒度類別成員關(guān)系的上下文語言表達(dá)式
2.相關(guān)工作
據(jù)我們所知,
- Lee等人(2006)是第一個(gè)解決細(xì)粒度實(shí)體類型分類任務(wù)的人。他們定義了147個(gè)細(xì)粒度實(shí)體類型,并在一個(gè)手動(dòng)注釋的韓國數(shù)據(jù)集上評估了一個(gè)基于條件隨機(jī)字段的模型。
- Sekine(2008)主張實(shí)體類型分類需要大量的類型集合,并定義了200個(gè)類型,作為將來細(xì)粒度實(shí)體類型分類工作的基礎(chǔ)
- Ling和Weld(2012)在Freebase的基礎(chǔ)上定義了112種類型,并使用Mintz等人(2009)提出的遠(yuǎn)程監(jiān)控方法從Wikipedia創(chuàng)建了一個(gè)培訓(xùn)數(shù)據(jù)集。為了進(jìn)行評估,他們創(chuàng)建了一個(gè)小型的手工注釋的報(bào)紙文章數(shù)據(jù)集,并證明了他們的系統(tǒng)FIGER可以通過提供細(xì)粒度實(shí)體類型預(yù)測作為特性來改進(jìn)關(guān)系提取系統(tǒng)的性能。
- Yosef等人(2012)將505種類型進(jìn)行了分級(jí)分類,其中數(shù)百種類型處于不同的級(jí)別。在此基礎(chǔ)上,他們開發(fā)了一個(gè)多標(biāo)簽分級(jí)分類系統(tǒng)。
- 在Yogatama等人(2015)中,作者提議使用標(biāo)簽嵌入來允許相關(guān)標(biāo)簽之間的信息共享。這種方法改進(jìn)了FIGER數(shù)據(jù)集,并且證明了細(xì)粒度的標(biāo)簽可以作為特性來改進(jìn)粗粒度實(shí)體類型的類化性能。
- Del Corro等人(2015)引入了迄今為止最細(xì)粒度的實(shí)體類型分類系統(tǒng),它在整個(gè)WordNet層次結(jié)構(gòu)上運(yùn)行,有超過16000個(gè)類型。
- 以前所有的模型都依賴于手工制作的特征,
- Dong等人(2015)定義了22種類型,并創(chuàng)建了兩部分神經(jīng)分類器。他們使用遞歸神經(jīng)網(wǎng)絡(luò)遞歸地獲得每個(gè)mention實(shí)體的向量表示,并使用固定大小的窗口捕獲每個(gè)提及的上下文。我們的工作和他們的工作的關(guān)鍵區(qū)別在于,我們使用遞歸神經(jīng)網(wǎng)絡(luò)來組成上下文表示,并且我們使用注意力機(jī)制來允許我們的模型關(guān)注相關(guān)的表達(dá)式。
3. 本文model
- 這篇文章最核心的地方來了,也是用RecNN(遞歸神經(jīng)網(wǎng)絡(luò))來表示向量,然后用了attention,并且,是用了一個(gè)窗口來獲取上下文的
- l1,l2,...,lC,m1,m2,...,mM,r1,...,rC,C是windowsize,l,r是上下文,mi是一個(gè)mentionwordl_1,l_2,...,l_C,m_1,m_2,...,m_M,r_1,...,r_C,C是window size,l,r是上下文,mi是一個(gè)mention wordl1?,l2?,...,lC?,m1?,m2?,...,mM?,r1?,...,rC?,C是windowsize,l,r是上下文,mi是一個(gè)mentionword
- 我們的模型學(xué)習(xí)mention比學(xué)習(xí)上下文容易–>泛化性能差
- –》用不同的模型來建模mention和上下文
3.1general model
- 這是先分別計(jì)算mention和兩邊的context的表達(dá),然后拼接起來,然后乘以權(quán)重,再邏輯回歸層(Sigmoid)
- 無偏置的原因
- 請注意,我們在上述公式中沒有包含偏倚項(xiàng),因?yàn)橛?xùn)練和測試語料庫中的類型分布可能由于域差異而存在顯著差異。也就是說,在邏輯回歸中,偏差與訓(xùn)練集中類型的經(jīng)驗(yàn)分布相吻合,這將導(dǎo)致在具有不同類型分布的測試集中的糟糕表現(xiàn)。(經(jīng)驗(yàn)主義)
- 損失函數(shù)
3.2 mention represent
V:vocabulary
u:V->R—embedding
在我們的實(shí)驗(yàn)中,我們驚訝地發(fā)現(xiàn),與Dong等人(2015)的觀察結(jié)果不同,與上面描述的簡單模型相比,復(fù)雜的神經(jīng)模型不能很好地學(xué)習(xí)提及表征。一個(gè)可能的解釋是標(biāo)簽訓(xùn)練集和測試集之間的差異。例如,時(shí)間標(biāo)簽分配給一星期的天(例如周五,周一和周日)是測試集合,但不是在訓(xùn)練集,而明確的日期(例如2月24日和6月4日)被分配的時(shí)間標(biāo)簽的訓(xùn)練集和測試集。這可能是有害的對于復(fù)雜模型由于其傾向overfit訓(xùn)練數(shù)據(jù)。—測試集和訓(xùn)練集時(shí)間標(biāo)簽不一樣,復(fù)雜模型過擬合導(dǎo)致結(jié)果不好
3.3 context model
比較了三種方法
3.3.1 averaging encoder
3.3.2 LSTM encoder
- 左、右上下文使用一個(gè)lstm cell進(jìn)行遞歸編碼
- l1,l2,...,lC??得到h1l→,...,hCl→l_1,l_2,...,l_C--得到\overrightarrow{h_1^l},...,\overrightarrow{h_C^l}l1?,l2?,...,lC???得到h1l??,...,hCl??
- rC,...,r1??得到h1r←,...,hCr←r_C,...,r_1--得到\overleftarrow{h_1^r},...,\overleftarrow{h_C^r}rC?,...,r1???得到h1r??,...,hCr??
3.3.3 Attention Encoder
雖然LSTM可以對順序數(shù)據(jù)進(jìn)行編碼,但它仍然很難學(xué)習(xí)長期依賴關(guān)系。受最近自然語言處理中注意力機(jī)制的研究啟發(fā)(Hermann et al., 2015;我們通過引入一種新的注意力機(jī)制來規(guī)避這個(gè)問題。我們還假設(shè),通過引入注意機(jī)制,該模型可以識(shí)別分類的信息表達(dá),使模型行為更具可解釋性。
- 用attention:為了處理長期依賴關(guān)系。使有可解釋性
- 首先,對于左右上下文,我們使用雙向編碼序列
LSTMs(每一個(gè)位置都有個(gè)雙向的表達(dá))
- 其次:
- ai關(guān)注度–已經(jīng)normalize
- 我們將這些標(biāo)準(zhǔn)化標(biāo)量值ai∈R稱為關(guān)注度。最后,我們以雙向LSTMs輸出層的加權(quán)和作為上下文的關(guān)注人工智能加權(quán)表示
4. 實(shí)驗(yàn)
- 使用預(yù)訓(xùn)練word embeddings(300d)
- measure
- 也就是說這N和標(biāo)簽中,兩個(gè)標(biāo)簽相同的,占多少,計(jì)數(shù)
- 超參數(shù)設(shè)置
- Dm=300維度的word embedding
- lstm隱層:Dh=100
- attention module的隱層Da=50
- 學(xué)習(xí)率=0.005
- mini-batch size=1000
- dropout=0.5–正則化項(xiàng)
- window:
- mention M=5
- context C=15
值得注意的是,我們的方法并不局限于使用固定的窗口大小,而是一個(gè)由當(dāng)前處理動(dòng)態(tài)寬度遞歸神經(jīng)網(wǎng)絡(luò)時(shí)所使用的機(jī)器學(xué)習(xí)庫的局限性而產(chǎn)生的實(shí)現(xiàn)細(xì)節(jié)。對于每個(gè)epoch,我們對訓(xùn)練數(shù)據(jù)集迭代10次,然后評估開發(fā)集上的模型性能。在訓(xùn)練之后,我們挑選出最好的模型
表2是在人工選出的數(shù)據(jù)上進(jìn)行的(開發(fā)集)
總結(jié)
以上是生活随笔為你收集整理的论文学习4-An Attentive Neural Architecture for Fine-grained Entity Type Classification的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 一个走过太多坑的老弟对面向对象知识的总结
- 下一篇: MySQL 练习 创建表格2