bert简介_关于BERT:你不知道的事
近期對BERT系列綜述了一番,但記得以前剛接觸BERT的時候有很多疑問,之后通過看博客、論文陸續弄明白了。這次就以QA的形式將關于BERT的疑問及其相應解答分享給大家,不足之處,望請指出。
(1)BERT 的MASK方式的優缺點?
答:BERT的mask方式:在選擇mask的15%的詞當中,80%情況下使用mask掉這個詞,10%情況下采用一個任意詞替換,剩余10%情況下保持原詞匯不變。
優點:1)被隨機選擇15%的詞當中以10%的概率用任意詞替換去預測正確的詞,相當于文本糾錯任務,為BERT模型賦予了一定的文本糾錯能力;2)被隨機選擇15%的詞當中以10%的概率保持不變,緩解了finetune時候與預訓練時候輸入不匹配的問題(預訓練時候輸入句子當中有mask,而finetune時候輸入是完整無缺的句子,即為輸入不匹配問題)。
缺點:針對有兩個及兩個以上連續字組成的詞,隨機mask字割裂了連續字之間的相關性,使模型不太容易學習到詞的語義信息。主要針對這一短板,因此google此后發表了BERT-WWM,國內的哈工大聯合訊飛發表了中文版的BERT-WWM。
(2)BERT中的NSP任務是否有必要?
答:在此后的研究(論文《Crosslingual language model pretraining》等)中發現,NSP任務可能并不是必要的,消除NSP損失在下游任務的性能上能夠與原始BERT持平或略有提高。這可能是由于Bert以單句子為單位輸入,模型無法學習到詞之間的遠程依賴關系。針對這一點,后續的RoBERTa、ALBERT、spanBERT都移去了NSP任務。
(3)BERT深度雙向的特點,雙向體現在哪兒?
答:BERT使用Transformer-encoder來編碼輸入,encoder中的Self-attention機制在編碼一個token的時候同時利用了其上下文的token,其中‘同時利用上下文’即為雙向的體現,而并非想Bi-LSTM那樣把句子倒序輸入一遍。
(4)BERT深度雙向的特點,深度體現在哪兒?
答:針對特征提取器,Transformer只用了self-attention,沒有使用RNN、CNN,并且使用了殘差連接有效防止了梯度消失的問題,使之可以構建更深層的網絡,所以BERT構建了多層深度Transformer來提高模型性能。
(5)BERT中并行計算體現在哪兒?
答:不同于RNN計算當前詞的特征要依賴于前文計算,有時序這個概念,是按照時序計算的,而BERT的Transformer-encoder中的self-attention計算當前詞的特征時候,沒有時序這個概念,是同時利用上下文信息來計算的,一句話的token特征是通過矩陣并行‘瞬間’完成運算的,故,并行就體現在self-attention。
(6)BERT中Transformer中的Q、K、V存在的意義?
答:在使用self-attention通過上下文詞語計算當前詞特征的時候,X先通過WQ、WK、WV線性變換為QKV,然后如下式右邊部分使用QK計算得分,最后與V計算加權和而得。?
倘若不變換為QKV,直接使用每個token的向量表示點積計算重要性得分,那在softmax后的加權平均中,該詞本身所占的比重將會是最大的,使得其他詞的比重很少,無法有效利用上下文信息來增強當前詞的語義表示。
而變換為QKV再進行計算,能有效利用上下文信息,很大程度上減輕上述的影響。
(7)BERT中Transformer中Self-attention后為什么要加前饋網絡?
答:由于self-attention中的計算都是線性了,為了提高模型的非線性擬合能力,需要在其后接上前饋網絡。
(8)BERT中Transformer中的Self-attention多個頭的作用?
答:類似于cnn中多個卷積核的作用,使用多頭注意力,能夠從不同角度提取信息,提高信息提取的全面性。下次更新內容可能包括:B站 is all your need、中文 NLP 各類任務簡介 ??下、基于序列標注的關系抽取實戰,等,敬請期待???。倉庫地址共享:
在機器學習算法與自然語言處理公眾號后臺回復“代碼”,
即可獲取195篇NAACL+295篇ACL2019有代碼開源的論文。開源地址如下:https://github.com/yizhen20133868/NLP-Conferences-Code
重磅!憶臻自然語言處理-Pytorch交流群已正式成立!
群內有大量資源,歡迎大家進群學習!
注意:請大家添加時修改備注為 [學校/公司 + 姓名 + 方向]
例如 —— 哈工大+張三+對話系統。
號主,微商請自覺繞道。謝謝!
推薦閱讀:
常用 Normalization 方法的總結與思考:BN、LN、IN、GN
人人都能看懂的LSTM
Python “偏函數” 用法全方位解析
總結
以上是生活随笔為你收集整理的bert简介_关于BERT:你不知道的事的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 代替vscode的工具_Vscode官方
- 下一篇: 群晖docker_利用群晖docker搭