生活随笔
收集整理的這篇文章主要介紹了
                                
pcnn关系抽取论文阅读总结:尽量细节表现出来
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.                        
 
                                
                            
                            
                            目的之類的就不用說了,直接說pcnn做實體關系抽取的過程:
 
 
1、把輸入轉換成對應的向量:
 
上面的輸入是 I hired Kojo Annan,the son of Kofi Annan,in the company;兩個實體我用紅體標出來了;轉換的向量實際上包含兩部分,一是這個詞經過訓練好的矩陣looking up得到的向量,假設是d維;二是位置向量;假設hired這個字吧,離實體的距離分別是-1和-6,son距離兩個實體的距離分別是3和-2,然后呢,隨機初始化位置矩陣,再相乘得到的就是位置向量,顯然位置向量有兩個,畢竟有兩個距離,假設每個是p維;那么這個字的向量維度就是d =?d1+p*2。上面圖中一共是6維,那么輸入就是12*6.因為這個句子中一共有12個字,也就是sequence_length(包含了標點),相當于輸入是sequence_length?×(d1+p*2)
2、卷積:
 
把上面的輸入當做S,每個字的向量是q(i),每個維度是d;卷積操作實際上就是一個權重矩陣w,嗯就是這樣的哈哈,這個W是(w*d),w是濾波器的長度,這個長度是干嘛的我們后面說,這里假設w=3;論文這里提出來一個新的概念,就是q(i:j),指的的q(i)和q(j)的串聯,具體來說就是把第i的字的向量到第j個字的向量整合到一起,按道理來說這里做處理可以得到字之間潛在的關系。這里i和j之間的長度就是w,下面細說;看個論文中的公式:c(j) = w q ( j-w+1 : j );這里是點乘,所以c(j) 的維度就是1,j的取值區間是1到s+w-1,s就是sequence_length ,so向量C的維度很明顯了就是s+w-1;j = 1時,c(1) = w q ( -1 : 1?)哈?q是從1開始的呀,沒有-1呀,這個時候就是index超出輸入S的范圍,補0就好了,q(-1)和q(0)各補6個0就好了(因為我們上面說過每個字的輸入維度是6),這樣q ( -1 : 1?)的維度就是18(w*d=3*6),濾波器矩陣(權重矩陣)的維度也是18(w*d=3*6),嗯就是這樣,這樣就得到上圖中convolution層中的綠色那一列;但convolution層中有三列呀?!那就多設置幾個w就好了,這個時候整個大的W = {w1, w2, w3, ...... wn};這樣就可以得到n列的c了,這個時候C的維度就是n×(s-w-1)
3、piece Max Pooling
 
字面意思就是最大值池化,和圖像中的處理類似,但這里會損失到很多的信息,因為是從幾個值中取最大值,其余的全部拋棄,但很多論文中說取了最大特征(即保留了最大值),雖然我并不認同。論文中做了一個處理就是把一個句子根據兩個實體的位置分成三個部分(所以論文叫piecewise);然后呢,然后呢,取每個部分的最大值,(哈哈哈哈哈哈哈哈,我服了),具體過程就是convolution我們不是得到的C矩陣是n×(s-w-1),即n個列向量,每個維度是?s-w-1 ;把每個s-w-1分成三部分,取每部分的最大值,那么每個s-w-1向量經過pooling之后都會變成3維;所以經過整個pooling之后再拼接就是一個1 × (3*n)向量g = tanh(C)
4、全連接輸出
 
? ? o = W1 (g & r) + b。&符號是我隨意寫的,實際就是點乘;
 
? ? 很明顯吧,這不就是一般網絡最后一層嘛,全連接層,但本論文對倒數第二層做了dropout,具體操作就是加了個伯努利隨機? ? ? 初始化的矩陣,值的范圍0到1,然后與g點乘,論文叫masking操作。(這一部分最后論文寫了幾句話,在測試時,學習得到? ? ? 的權重矩陣W1按比例放大W1 = p * W1,dropout = 1,然后用來計算未出現過的實例的得分????)
 
5、多實例學習
 
? ? 目的:為了緩解錯誤標簽問題提出的這一部分。
 
? ? 1、參數θ?= (E,PF1, PF2, W, W1) E是字向量,PF是位置向量,其余兩個就是要學習得到的矩陣
 
? ? 2、有T個tags,每個tag(M(i))里面有q個實例,其中一個實例就是m(ij),表示第i個tag的第j個實例
 
? ? 3、輸出o中的第r個元素就是關系r的可能性
 
? ? 4、3中提到的可能性的計算就是歸一化
 
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
 
? ? 5、multi-instance learning的目的是discriminate bags而不是instances。計算每個bag水平上的交叉熵。
 
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
 
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
 
? ? ? ? ?整個過程如下圖:
 
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
 
? ? ? ? ?最大化J就好了,具體過程你們自己理解吧哈哈哈哈哈,吃東西去了!!!!
 
?
 
?
                            總結
                            
                                以上是生活随笔為你收集整理的pcnn关系抽取论文阅读总结:尽量细节表现出来的全部內容,希望文章能夠幫你解決所遇到的問題。
                            
                            
                                如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。