Word2vec 讨论
?? ??
? ? ? 我沒有在自然語言處理完成。但基于Deep Learning 關注,自然知道一些Word2vec強大。
? ? ? Word2vec 是google 在2013年提供的一款將詞表征為實數值向量的高效工具。而Word2vec輸出的詞向量可用于做NLP 相關的工作。比方聚類、找同義詞、詞性分析等。Word2vec 大受歡迎的一個原因是其高效性。 Tomas Mikolov? 在[1] 中指出一個優化的單機版本號一天能夠訓練上千億詞(汗!
)。
? ? ? ?關于詞的概念。這里的詞能夠并不一定真的就是單詞,全然能夠是具有一定意義的單元塊,比方國外音樂站點就用word2vec來訓練用戶的聽歌記錄。這里的單元塊就是歌曲編號。假設用戶對音樂類型的喜好是一致的,那么訓練后就能找到與某個歌曲相似的歌曲,這樣就能給用戶進行推薦了。相信類似這種樣例還有非常多。
(關于這點思考:詞能夠使一個標號或者理解為一個類的對象!
)
先上圖:
? ? ?
個人感覺這個解說的非常具體~
?
注意:1。 輸入為一個窗體的待預測上下文
2. 輸入層Wj 是維度為K的列向量,(syn0 編碼?)如有 N個輸入詞。則輸入大小為k*N?
3. 隱層 Tk 是輸入層Wj 的加權,隱層大小為N*k
4. 輸出層的葉節點是語料里的詞,如紅樓夢分詞后的獨立詞
5. 葉節點有唯一的編碼。從根節點開始算第一層(二叉樹構建算法 Huffman樹)
理解非常淺顯~
以后持續更新~
參考:
[1]Distributed Representations of Words and Phrases and their Compositionality? (經典論文)
[2]?Felven----再談word2vec?? (Felven word2vec 系列非常實踐)
[3]?Felven----關鍵詞聚類
[4]?Felven-----紅樓夢人物關系
[5]?word2vec傻瓜剖析? ? ?(個人認為還是先看看Felven的實驗后。再看這個比較有感覺點!)
[6]?有道的word2vec 解說 ?(非常具體。幾個DL大牛的關系圖非常有意思!
)
[7]?word2vec 代碼解說,英文的!
[8]深度學習Word2vec 筆記之算法具體解釋!
[9]?word2vec 的Windows 編譯的版本號
[10]?word2vec使用指導?(zhoubl668的博客,有好幾篇是介紹Word2vec的,值得推薦。)
[11]?Deep Learning in NLP (一)詞向量和語言模型?(非常具體!
)
如轉載,請標明轉自:http://write.blog.csdn.net/postedit/41078835
版權聲明:本文博客原創文章,博客,未經同意,不得轉載。
本文轉自mfrbuaa博客園博客,原文鏈接:http://www.cnblogs.com/mfrbuaa/p/4645727.html,如需轉載請自行聯系原作者
總結
以上是生活随笔為你收集整理的Word2vec 讨论的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 访问日志切割
- 下一篇: PPT模板中的”书签”