分词技术
分詞
分詞技術(shù)就是搜索引擎針對用戶提交查詢的關(guān)鍵詞串進行的查詢處理后根據(jù)用戶的關(guān)鍵詞串用各種匹配方法進行的一種技術(shù)。當然,我們在進行數(shù)據(jù)挖掘、精準推薦和自然語言處理工作中也會經(jīng)常用到中文分詞技術(shù)。
詞是最小的能夠獨立活動的有意義的語言成分,英文單詞之間是以空格作為自然分界符的,而漢語是以字為基本的書寫單位,詞語之間沒有明顯的區(qū)分標記,因此中文是一定要分詞的。而且nlp的基礎(chǔ)任務(wù)中,關(guān)鍵詞抽取,詞性標注,命名實體識別,語法分析,句法分析等等都默認了詞是基本單位。
中文分詞技術(shù)的分類
第一類方法應(yīng)用詞典匹配、漢語詞法或其它漢語語言知識進行分詞,如:正向最大匹配法、逆向最大匹配法、最小匹配方法等。這類方法簡單、分詞效率較高,但漢語語言現(xiàn)象復(fù)雜豐富,詞典的完備性、規(guī)則的一致性等問題使其難以適應(yīng)開放的大規(guī)模文本的分詞處理(比如未登錄詞)。
第二類基于統(tǒng)計的分詞方法則基于字和詞的統(tǒng)計信息,如把相鄰字間的信息、詞頻及相應(yīng)的共現(xiàn)信息等應(yīng)用于分詞,由于這些信息是通過調(diào)查真實語料而取得的,因而基于統(tǒng)計的分詞方法具有較好的實用性。
第三類基于字標注的分詞方法實際上是構(gòu)詞方法。即把分詞過程視為字在字串中的標注問題。由于每個字在構(gòu)造一個特定的詞語時都占據(jù)著一個確定的構(gòu)詞位置(即詞位),假如規(guī)定每個字最多只有四個構(gòu)詞位置:即B(詞首),M (詞中),E(詞尾)和S(單獨成詞),那么下面句子(甲)的分詞結(jié)果就可以直接表示成如(乙)所示的逐字標注形式:
(甲)分詞結(jié)果:/上海/計劃/N/本/世紀/末/實現(xiàn)/人均/國內(nèi)/生產(chǎn)/總值/五千美元/。
(乙)字標注形式:上/B海/E計/B劃/E N/S 本/s世/B 紀/E 末/S 實/B 現(xiàn)/E 人/B 均/E 國/B 內(nèi)/E生/B產(chǎn)/E總/B值/E 五/B千/M 美/M 元/E 。/S
常用的分詞組件
Jieba (C++, Java, python)https://github.com/fxsjy/jieba
HanLP (Java)https://github.com/hankcs/HanLP
FudanNLP (Java)https://github.com/FudanNLP/fnlp
LTP (C++, Java, python)https://github.com/HIT-SCIR/ltp
總結(jié)
- 上一篇: 配置CKFinder(Java版)
- 下一篇: 去掉EM标签斜体样式