第3章 词性标注(pos、N-gram、NER等标注器)
第3章 詞性標(biāo)注
1.什么是詞性標(biāo)注?
詞性(POS)主要指比如名詞,形容詞,動(dòng)詞等等。雖然目前最先進(jìn)的詞性標(biāo)注算法在預(yù)測(cè)給定單詞的詞性上已經(jīng)有了較高的精確度(約97%)。
首先,我們需要學(xué)習(xí)一些現(xiàn)成的POS標(biāo)注器。
主要的詞性有哪些呢?
| NNP | 專(zhuān)用名詞的單數(shù)形式 |
| NNPS | 專(zhuān)用名詞的復(fù)數(shù)形式 |
| PDT | 前置限定詞 |
| POS | 所有格結(jié)束符 |
| PRP | 人稱(chēng)代詞 |
| PRP$ | 所有格代詞 |
| RB | 副詞 |
| RBR | 相對(duì)副詞 |
| RBS | 最高級(jí)副詞 |
| RP | 小品詞 |
| SYM | 符號(hào)(數(shù)學(xué)符號(hào)或特殊符號(hào)) |
| TO | To |
| UH | 嘆詞 |
| VB | 動(dòng)詞的基本形式 |
| VBD | 動(dòng)詞的過(guò)去式 |
| VBG | 動(dòng)詞的動(dòng)名詞用法 |
| VBN | 動(dòng)詞的過(guò)去分詞 |
| WP | Wh-代詞 |
| WP$ | 所有格wh-代詞 |
| WRB | Wh-副詞 |
| # | 井號(hào)符 |
| $ | 美元符 |
| . | 句號(hào) |
| , | 逗號(hào) |
| : | 分號(hào),分隔符 |
| ( | 左括號(hào) |
| ) | 右括號(hào) |
| " | 直雙引號(hào) |
| ‘ | 左單引號(hào) |
| “ | 左雙引號(hào) |
| ’ | 右單引號(hào) |
| ” | 右雙引號(hào) |
2.利用pos標(biāo)注器
簡(jiǎn)單代碼:
結(jié)果顯示:
D:\IR_lab\venv\Scripts\python.exe D:/IR_lab/learn.py[('I', 'PRP'), ('was', 'VBD'), ('watching', 'VBG'), ('TV', 'NN'), ('.', '.')]Process finished with exit code 0其中
PRP----人稱(chēng)代詞
VBD—?jiǎng)釉~的過(guò)去式
VBG—?jiǎng)釉~的動(dòng)名詞用法
NN—專(zhuān)用名詞
篩選詞性
比如篩選出名次:
結(jié)果:
D:\IR_lab\venv\Scripts\python.exe D:/IR_lab/learn.py ['TV']Process finished with exit code 0注意:不能在詞性標(biāo)注之前刪除停用詞,否則語(yǔ)義不通
雖然Pos標(biāo)注器能夠區(qū)分不同詞性,但其正確率并不高
3.順序標(biāo)注器
N-gram標(biāo)注器是一種順序標(biāo)注器,會(huì)在其所在的上下文環(huán)境中標(biāo)注出前n個(gè)單詞,并預(yù)測(cè)給定詞項(xiàng)的Pos標(biāo)簽。
結(jié)果:
D:\IR_lab\venv\Scripts\python.exe D:/IR_lab/learn.py 0.8361407355726104 0.8452108043456593 0.8433170537227154.正則表達(dá)式標(biāo)注器
比如任何以ness結(jié)尾的詞很可能是名次。NLTK的RegexpTagger參數(shù)會(huì)為我們提供基于POS模式的標(biāo)注。
代碼如下:
結(jié)果如下:
D:\IR_lab\venv\Scripts\python.exe D:/IR_lab/learn.py 0.31306687929831556正確率大約有30%
5.命名實(shí)體識(shí)別(NER)
NER主要由實(shí)體名、位置和組織等。NLTK庫(kù)提供了ne_chunk方法。需要先對(duì)語(yǔ)句進(jìn)行標(biāo)識(shí)化處理,然后再進(jìn)行語(yǔ)塊分解和詞性標(biāo)注的處理順序,之后進(jìn)行命名實(shí)體標(biāo)注。
簡(jiǎn)單看一看
結(jié)果如下:
D:\IR_lab\venv\Scripts\python.exe D:/IR_lab/learn.py (S(PERSON Mark/NNP)is/VBZstudying/VBGat/IN(ORGANIZATION Stanford/NNP University/NNP)in/IN(GPE California/NNP))no_chunk能夠識(shí)別相關(guān)人名,地點(diǎn)和組織。
本章小結(jié):
主要學(xué)習(xí)的是關(guān)于詞性標(biāo)注。主要方法有利用POS標(biāo)注器、N-gram標(biāo)注還有正則表達(dá)式標(biāo)注
也虛席了NER標(biāo)注器。
總結(jié)
以上是生活随笔為你收集整理的第3章 词性标注(pos、N-gram、NER等标注器)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 2020级CHD新生训练题题解
- 下一篇: 清华大学C++课程学习笔记——第五章 数