Word2Vec ——gensim实战教程
生活随笔
收集整理的這篇文章主要介紹了
Word2Vec ——gensim实战教程
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
最近斯坦福的CS224N開課了,看了下課程介紹,去年google發表的Transformer以及最近特別火的Contextual Word Embeddings都會在今年的課程中進行介紹。NLP領域確實是一個知識迭代特別快速的領域,每年都有新的知識冒出來。所以身處NLP領域的同學們要時刻保持住學習的狀態啊。筆者又重新在B站上看了這門課程的第一二節課。前兩節課的主要內容基本上圍繞著詞向量進行。所以這篇文章筆者想簡單的介紹一下詞向量,以及如何利用python的gensim訓練一個自己的詞向量。
詞向量簡介
詞向量指的是一個詞的向量表示。如果你希望計算機能夠進行一些復雜點的文本語義學習,你必須得將文本數據編碼成計算機能夠處理的數值向量吧,所以詞向量是一個自然語言處理任務中非常重要的一環。
one-hot representations
很久很久之前,一個詞用onehot進行編碼,如下圖所示,這種方式簡單粗暴,將一個詞用一個只有一個位置為1,其他地方為0的向量表示。1的位置就代表了是什么詞。
詞的one-hot編碼
這種表示有如下缺點:
- 占用空間大
- 詞與詞之間的向量是正交關系,沒有任何語義關聯
總結
以上是生活随笔為你收集整理的Word2Vec ——gensim实战教程的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Tableau必知必会之巧用 Index
- 下一篇: Tableau必知必会之妙用Fixed函