doc2vec 文档向量
目錄
- 1 目的和思想
- 2 模型原理
- 2.1 PV-DM(段落向量的分布式存儲模型)
- 2.2 PV-DBOW (段落向量的分布式單詞包版本)
- 3 doc2vec 總結(jié)
- 4 應(yīng)用任務(wù)
1 目的和思想
doc2vec 模型的目的:創(chuàng)建文檔向量表示
doc2vec 的整體思想:在word2vec的基礎(chǔ)上增加了可訓練句子的矩陣
doc2vec 是無監(jiān)督學習
模型出自論文: Distributed Representations of Sentences and Documents
2 模型原理
模型實現(xiàn)(兩種方法):
訓練階段:給出一組文檔,為每個單詞生成詞向量W,并為每個文檔生成文檔向量D,訓練 softmax 隱藏層的權(quán)重。
預(yù)測階段:固定 softmax 等權(quán)重以計算文檔向量,隨機初始化文檔向量,不斷迭代更新文檔向量,所有參數(shù)均不變,訓練使用時間少
2.1 PV-DM(段落向量的分布式存儲模型)
在CBOW基礎(chǔ)上,增加 Paragraph Vector表示文檔的向量D,在D中取矩陣中的一列作為輸入層的輸入,在詞向量W中取一列,將段落向量和詞向量進行運算得到 X 向量,用 X 向量來預(yù)測詞
2.2 PV-DBOW (段落向量的分布式單詞包版本)
在skip-gram基礎(chǔ)上,利用句子向量預(yù)測詞,該算法實際上更快,并且消耗更少的內(nèi)存,因為不需要保存詞向量
3 doc2vec 總結(jié)
doc2vec 是在word2vec的基礎(chǔ)上進行了修改,在輸入層上增加了Paragraph vector,不僅能訓練出詞向量還能訓練出句子向量,咋子迭代更新的過程中,句子向量不斷的穩(wěn)定,更能代表一句話的主旨。在預(yù)測新句子時,參數(shù)不變,用梯度下降求得句子向量,速度也非常快
通過學出來的向量可以通過計算距離來找 sentences/paragraphs/documents 之間的相似性, 或者進一步可以給文檔打標簽
4 應(yīng)用任務(wù)
文中應(yīng)用任務(wù):
總結(jié)
以上是生活随笔為你收集整理的doc2vec 文档向量的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: QT广告屏(多显示器分屏+全屏显示图片)
- 下一篇: 《数据结构与抽象:Java语言描述(原书