基于依存句法分析的关键短语抽取算法实战
生活随笔
收集整理的這篇文章主要介紹了
基于依存句法分析的关键短语抽取算法实战
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
由于最近在做一些無監督的關鍵詞短語(實體)抽取工作,其實最大的背景還是沒有標注好的實體識別訓練數據;所以想到采用無監督的關鍵短語抽取算法折中去抽取一些實體,于是調研了一波關鍵短語抽取算法和工具。目前無監督關鍵短語抽取算法和關鍵詞抽取算法差不多:主要是TFIDF,Textrank 等特征為候選短語的打分。然后抽取得分高的候選短語。
算法流程
關鍵詞短抽取成算法主要分為兩部分:1.候選短語抽取;2.候選短語打分
- 候選短語抽?。阂话憧梢圆扇?"ngram" + 文法規則的做法:比如下方例子中的2gram短語中,[股價_n,創_v ] 中名詞(n)后面接動詞(v)很顯然就不是一個合理的短語,不應該被召回到候選詞集合中。而[阿里_ns,市值_n] 中 地名(ns)后面接名詞就是個合適候選短語。
ngram
- 候選短語打分:通過上述ngram + 文法規則我們召回候選詞集合后,之后我們就可以通過 詞語的TFIDF,Textrank等權重特征的給短語打分,當然你也可以用一
總結
以上是生活随笔為你收集整理的基于依存句法分析的关键短语抽取算法实战的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Linux 运维故障排查思路,有这篇文章
- 下一篇: IDEA 2020.2 稳定版发布,带来