NLP学习笔记:word2vec
生活随笔
收集整理的這篇文章主要介紹了
NLP学习笔记:word2vec
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
1?詞嵌入(word2vec)
在自然語言這套系統中,詞是表義的基本單元。
但是在計算機以及程序運算中,詞是識別不了的。任何的內容都需要轉化成向量embedding的形式。
于是我們就需要對詞的特征進行表征,所以詞向量就應運而生了。
把詞映射為實數域向量的技術也叫詞嵌入(word embedding)。
2 用onehot表示詞向量的弊端
2.1 onehot 詞向量
假設詞典中一共有N個不同的詞,每個詞可以和從0到N?1的連續整數一一對應。這些與詞對應的整數叫作詞的索引。
假設一個詞的索引為i,那么該詞的onehot詞向量就是只有第i位位1,其他N-1位全部為0的向量。
換句話說:就是有多少個不同的詞,我就會創建多少維的向量。
2.2 onehot詞向量存在的問題
1 詞向量集合過于稀疏,需要極大的存儲空間
2 無法進行單詞之間的相似度計算。(因為每個單詞在空間中都是正交的向量,彼此之間沒有任何聯系。)【像坐標系中的向量,我們可以根據余弦相似度(兩個向量之間的夾角)來判斷兩個向量的相似程度】
2.3 onehot詞向量問題的解決方案
1,跳字模型(skip-gram):通過中心詞來推斷上下文一定窗口內的單詞。
2,連續詞袋模型(continuous bag of words,CBOW):通過上下文來推斷中心詞。
總結
以上是生活随笔為你收集整理的NLP学习笔记:word2vec的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: GNN笔记:图卷积
- 下一篇: 文巾解题 175. 组合两个表