word2vec应用场景_介绍Word2Vec和Glove这两种最流行的词嵌入方法背后的直觉
NLP
的首要問題就是尋求恰當的文本表示方法。
因為,
良好的文本表示形式,
是后續進一步處理的基礎。近年來,詞嵌入方法越來越流行,在各種各樣的
NLP
任務中
得到了廣泛的應用。簡單而言,詞嵌入是通過無監督方式學習單詞的向量表示。本文將首
先回顧用向量表示文本的早期模型,并通過分析其缺陷揭示詞嵌入提出的動機,
然后介紹
Word2Vec
和
Glove
這兩種最流行的詞嵌入方法背后的直覺。
向量空間模型
用向量來表示文本這一想法由來已久。早在
1975
年,
Salton
等就提出用向量空間模型來
表示文本,以更好地索引、搜索文檔。
由于向量空間模型最初的應用場景是索引、搜索,因此更關注詞和權重。由詞的權重組成
向量,并使用這一向量表示整篇文檔。
具體而言,假設文檔由
n
個單詞組成,
那么這篇文檔就可以表示為由每個單詞的權重組成
的
n
維向量(長度為
n
的數組)
,
[w1,?w2,?...,?wn]
。當然,為了降低維度,事先會移除一些
無關緊要的詞(例如
the
、
is
)
。在實踐中,使用一份停止詞(
stop?words
)列表移除常見的
無關緊要的單詞。
權重的計算有很多方法,最常用的是基于詞頻的方法。具體而言,單詞的權重由三個因素
決定:
詞頻(
Term?Frequency
,
TF
)
。詞頻的計算公式為
TF?=?t?/?m
,其中,
t
為單詞在文檔出現的
次數,
m
為文檔的長度(總詞數)
。例如,假設文檔由
1000
個單詞組成,其中某個單詞總
共出現了
3
次,那么這個單詞的詞頻就等于
3/1000.
逆向文檔頻率
(
Inverse?Document?Frequency
,
IDF
)
。
IDF
衡量單詞提供的信息量,換句話
說,某個單詞是否在所有文檔中都很常見
/
罕見。這背后的直覺很簡單。假設
100
篇文檔
中,有
80
篇都包含“手機”這個單詞,而只有
5
篇文檔包含“足球”這個單詞。那么,
對某篇特定文檔而言,如果它同時包含“足球”和“手機”這兩個單詞,這篇文檔更可能
總結
以上是生活随笔為你收集整理的word2vec应用场景_介绍Word2Vec和Glove这两种最流行的词嵌入方法背后的直觉的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 链表 队列 基本概念 为什么使用二叉查找
- 下一篇: php电商网站开发流程图,php网上购物