句子相似度比较的归一化
生活随笔
收集整理的這篇文章主要介紹了
句子相似度比较的归一化
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
我們將不同長度的句子(預處理并分詞之后的長度)直接做比較其實是不公平的,舉個例子:
?
Sentence 1 =? 長度為2
Sentence 2 = 長度為1
Sentence 3 = 長度為3
(在取相似詞TOP4,exp=0.7,的情況下)
即便Sent2與Sent1詞的組成完全不同,base_similarity=0.2513
同樣的,Sent3與Sent1完全不同, ? ? ? base_similarity=0.2063
長度長的詞本身就處于劣勢,所以我考慮在相似度的基礎上,減去base_similarity,并加上一個常數(純粹為了好看,不然我其實應該使用正態分布作歸一化,這個后續做)
?
此外,exp取0.6是我在分析近義詞的時候得到的,講道理我應該統計得到TOP1 TOP2 TOP3...的平均值或者中位數,這個也后續做把。。。先用經驗值替代
?
轉載于:https://www.cnblogs.com/yjybupt/p/9929362.html
總結
以上是生活随笔為你收集整理的句子相似度比较的归一化的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: TCP连接之报文首部
- 下一篇: react 倒计时 countDown