- 流行中英文分詞工具h(yuǎn)anlp:
- 中英文NLP處理工具包, 基于tensorflow2.0, 使用在學(xué)術(shù)界和行業(yè)中推廣最先進(jìn)的深度學(xué)習(xí)技術(shù).
>>> import hanlp
# 加載CTB_CONVSEG預(yù)訓(xùn)練模型進(jìn)行分詞任務(wù)
>>> tokenizer = hanlp.load('CTB6_CONVSEG')
>>> tokenizer("工信處女干事每月經(jīng)過(guò)下屬科室都要親口交代24口交換機(jī)等技術(shù)性器件的安裝工作")
['工信處', '女', '干事', '每', '月', '經(jīng)過(guò)', '下', '屬', '科室', '都', '要', '親口', '交代', '24口', '交換機(jī)', '等', '技術(shù)性', '器件', '的', '安裝', '工作']
# 進(jìn)行英文分詞, 英文分詞只需要使用規(guī)則即可
>>> tokenizer = hanlp.utils.rules.tokenize_english
>>> tokenizer('Mr. Hankcs bought hankcs.com for 1.5 thousand dollars.')
['Mr.', 'Hankcs', 'bought', 'hankcs.com', 'for', '1.5', 'thousand', 'dollars', '.']
?
- hanlp分詞命名實(shí)體識(shí)別:
- 命名實(shí)體: 通常我們將人名, 地名, 機(jī)構(gòu)名等專有名詞統(tǒng)稱命名實(shí)體. 如: 周杰倫, 黑山縣, 孔子學(xué)院, 24輥方鋼矯直機(jī).
- 顧名思義, 命名實(shí)體識(shí)別(Named Entity Recognition,簡(jiǎn)稱NER)就是識(shí)別出一段文本中可能存在的命名實(shí)體.
- 命名實(shí)體識(shí)別的作用:
- 同詞匯一樣, 命名實(shí)體也是人類理解文本的基礎(chǔ)單元, 因此也是AI解決NLP領(lǐng)域高階任務(wù)的重要基礎(chǔ)環(huán)節(jié).
魯迅, 浙江紹興人, 五四新文化運(yùn)動(dòng)的重要參與者, 代表作朝花夕拾.==>魯迅(人名) / 浙江紹興(地名)人 / 五四新文化運(yùn)動(dòng)(專有名詞) / 重要參與者 / 代表作 / 朝花夕拾(專有名詞)
- 使用hanlp進(jìn)行中文命名實(shí)體識(shí)別:
>>> import hanlp
# 加載中文命名實(shí)體識(shí)別的預(yù)訓(xùn)練模型MSRA_NER_BERT_BASE_ZH
>>> recognizer = hanlp.load(hanlp.pretrained.ner.MSRA_NER_BERT_BASE_ZH)
# 這里注意它的輸入是對(duì)句子進(jìn)行字符分割的列表, 因此在句子前加入了list()
# >>> list('上海華安工業(yè)(集團(tuán))公司董事長(zhǎng)譚旭光和秘書(shū)張晚霞來(lái)到美 國(guó)紐約現(xiàn)代藝術(shù)博物館參觀。')
# ['上', '海', '華', '安', '工', '業(yè)', '(', '集', '團(tuán)', ')', '公', '司', '董', '事', '長(zhǎng)', '譚', '旭', '光', '和', '秘', '書(shū)', '張', '晚', '霞', '來(lái)', '到', '美', '國(guó)', '紐', '約', '現(xiàn)', '代', '藝', '術(shù)', '博', '物', '館', '參', '觀', '。']
>>> recognizer(list('上海華安工業(yè)(集團(tuán))公司董事長(zhǎng)譚旭光和秘書(shū)張晚霞來(lái)到美國(guó)紐約現(xiàn)代藝術(shù)博物館參觀。'))
[('上海華安工業(yè)(集團(tuán))公司', 'NT', 0, 12), ('譚旭光', 'NR', 15, 18), ('張晚霞', 'NR', 21, 24), ('美國(guó)', 'NS', 26, 28), ('紐約現(xiàn)代藝術(shù)博物館', 'NS', 28, 37)]# 返回結(jié)果是一個(gè)裝有n個(gè)元組的列表, 每個(gè)元組代表一個(gè)命名實(shí)體, 元組中的每一項(xiàng)分別代表具體的命名實(shí)體, 如: '上海華安工業(yè)(集團(tuán))公司'; 命名實(shí)體的類型, 如: 'NT'-機(jī)構(gòu)名; 命名實(shí)體的開(kāi)始索引和結(jié)束索引, 如: 0, 12.
- 使用hanlp進(jìn)行英文命名實(shí)體識(shí)別:
>>> import hanlp
# 加載英文命名實(shí)體識(shí)別的預(yù)訓(xùn)練模型CONLL03_NER_BERT_BASE_UNCASED_EN
>>> recognizer = hanlp.load(hanlp.pretrained.ner.CONLL03_NER_BERT_BASE_UNCASED_EN))
# 這里注意它的輸入是對(duì)句子進(jìn)行分詞后的結(jié)果, 是列表形式.
>>> recognizer(["President", "Obama", "is", "speaking", "at", "the", "White", "House"])
[('Obama', 'PER', 1, 2), ('White House', 'LOC', 6, 8)]
# 返回結(jié)果是一個(gè)裝有n個(gè)元組的列表, 每個(gè)元組代表一個(gè)命名實(shí)體, 元組中的每一項(xiàng)分別代>表具體的命名實(shí)體, 如: 'Obama', 如: 'PER'-人名; 命名實(shí)體的開(kāi)始索引和結(jié)束索引, 如: 1, 2.
?
- hanlp分詞詞性識(shí)別:
- 詞性: 語(yǔ)言中對(duì)詞的一種分類方法,以語(yǔ)法特征為主要依據(jù)、兼顧詞匯意義對(duì)詞進(jìn)行劃分的結(jié)果, 常見(jiàn)的詞性有14種, 如: 名詞, 動(dòng)詞, 形容詞等.
- 顧名思義, 詞性標(biāo)注(Part-Of-Speech tagging, 簡(jiǎn)稱POS)就是標(biāo)注出一段文本中每個(gè)詞匯的詞性.
- 詞性標(biāo)注的作用:
- 詞性標(biāo)注以分詞為基礎(chǔ), 是對(duì)文本語(yǔ)言的另一個(gè)角度的理解, 因此也常常成為AI解決NLP領(lǐng)域高階任務(wù)的重要基礎(chǔ)環(huán)節(jié).
我愛(ài)自然語(yǔ)言處理==>我/rr, 愛(ài)/v, 自然語(yǔ)言/n, 處理/vnrr: 人稱代詞
v: 動(dòng)詞
n: 名詞
vn: 動(dòng)名詞
- 使用hanlp進(jìn)行中文詞性標(biāo)注:
>>> import hanlp
# 加載中文命名實(shí)體識(shí)別的預(yù)訓(xùn)練模型CTB5_POS_RNN_FASTTEXT_ZH
>>> tagger = hanlp.load(hanlp.pretrained.pos.CTB5_POS_RNN_FASTTEXT_ZH)
# 輸入是分詞結(jié)果列表
>>> tagger(['我', '的', '希望', '是', '希望', '和平'])
# 結(jié)果返回對(duì)應(yīng)的詞性
['PN', 'DEG', 'NN', 'VC', 'VV', 'NN']
- 使用hanlp進(jìn)行英文詞性標(biāo)注:
>>> import hanlp
# 加載英文命名實(shí)體識(shí)別的預(yù)訓(xùn)練模型PTB_POS_RNN_FASTTEXT_EN
>>> tagger = hanlp.load(hanlp.pretrained.pos.PTB_POS_RNN_FASTTEXT_EN)
# 輸入是分詞結(jié)果列表
>>> tagger(['I', 'banked', '2', 'dollars', 'in', 'a', 'bank', '.'])
['PRP', 'VBD', 'CD', 'NNS', 'IN', 'DT', 'NN', '.']
總結(jié)
以上是生活随笔為你收集整理的hanlp分词学习笔记的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。