李宏毅机器学习(七)自监督学习(二)BERT奇闻轶事
WHY does BERT work?
BERT會考慮上下文! 進行Word Embedding!將一個單詞表示成向量,比如蘋果單詞中的“果”和蘋果公司中的“果”,在經過Embedding后雖然同樣是同一個詞,但是由于上下文不同,所以vector距離是遠的! 不一樣的表示! 但是相同語境的“果”則距離比較近!
接下來我們計算兩個果的相似度!
為什么你能知道一個單詞的意思呢? 這個人說了: 你要知道一個單詞的意思,就得根據它的上下文決定的! 所以即使你將該單詞蓋住,這個單詞還是會被預測出。 在BERT之間其實已經有該技術了,就是word Embedding!word Embedding是一個簡單的模型,就是兩個Transformer! 有人就問,為什么只是Transformer,不能是其它的更加復雜的結構,為什么只是linear,不能是deep learning? 因為只是因為算力的問題!
Multi-lingual BERT
這有啥特別之處呢? 就是你會將加入不同語言的輸入
我們通過使用不同的語言的單詞訓練模型,在該模型English的QA上進行Fine-tune訓練模型時,居然可以回答中文問題
可以看到即便是在English上fine-tune的Bert模型,最終回答中文問題準確率也可以達到78%
為什么會這樣呢? 因為在預訓練的時候,不同語言但是相同的詞匯在經過Bert后距離很近!
我們通過實驗來驗證兩種語言的word embedding的距離! 其中MRR就是這個指標,它的值越大,表明兩個語言越接近!
起初我們使用的是200k句子來做實驗,但是各種調參都沒發現模型更好的效果;
但是后面想是不是句子的規模不夠? 索性增加到1000k,發現模型的效果很好!
但是還是感覺怪怪的! 因為你在做語言填空的時候,你將漢語輸入Bert里,它給你補全了漢語; 你用英語輸入Bert里,它給你不勸了英語,它不會給你互相補充。 這說明句子與句子之間還是有差距的!
我們通過計算兩種語言之間的總體的差距,并表示成向量! 之后再在Bert后加向量,就是最后的結果!
后面的是真實的實例: 這是無監督的!總結
以上是生活随笔為你收集整理的李宏毅机器学习(七)自监督学习(二)BERT奇闻轶事的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python自动化安装软件_python
- 下一篇: 日照华软游戏开发价格_开发区将是未来刚需