11种必知的word embeddings模型
生活随笔
收集整理的這篇文章主要介紹了
11种必知的word embeddings模型
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
作者:Fabio Chiusano
單詞嵌入為序列標注和文本分類等下游任務提供輸入特征,在過去的十年中,已經提出了幾種單詞嵌入方法。
Context-independent
每個單詞都會學習一個唯一的表達而不考慮上下文
Context-independent without machine learning
- Bag-of-words
- TFIDF
Context-independent with machine learning
- Word2Vec: CBOW & SkipGram。
- GloVe(Global Vectors for Word Representation):對語料庫中聚合的全局單詞共現統計數據進行訓練。
- FastText:與GloVe不同的是,它通過將每個單詞視為由字符n-grams組成而不是一個單詞整體來做單詞嵌入。此做法不僅可以學習罕見的單詞,還可以學習詞匯表外的單詞。
Context-dependent
相同單詞不同上下文也會embedding不一樣。
Context-dependent and RNN based
- ELMO(Embeddings from Language Model):基于字粒度的雙向lstm編碼層學習每個單詞的embedding。
- CoVe(Contextualized Word Vectors): 基于一個訓練好的用于翻譯的sequence-2-sequence的帶有attention的模型的encoder,對word進行詞嵌入。
Context-dependent and transformer-based
- Bert(Bidirectional Encoder Representations from Transformers): 大語料,基于transformer進行訓練,使用隨機mask機制做完型填空,同時通過預測下一個句子的任務挖掘句子之間的關聯。
- XLM(Cross-lingual Language Model): 同樣是transformer,預估下一個token,類似bert的mask訓練方式,和翻譯目標。
- RoBERTa(Robustly Optimized BERT Pretraining Approach):同樣是BERT,修改了超參,刪除了下個句子的任務,用更大的batch和學習率訓練。
- ALBERT(A Lite BERT for Self-supervised Learning of Language Representation):減少了參數,降低了內存,提升了訓練速度。
總結
以上是生活随笔為你收集整理的11种必知的word embeddings模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: LightGBM笔记
- 下一篇: 时间序列里面最强特征之一