NLP 笔记: 序列标注与BIO标注
1 序列標注
序列標注(Sequence labeling)NLP問題中的基本問題。在序列標注中,我們想對一個序列的每一個元素標注一個標簽。一般來說,一個序列指的是一個句子,而一個元素指的是句子中的一個詞。
1.1 原始標注與聯(lián)合標注
序列標注一般可以分為兩類:
1、原始標注(Raw labeling):每個元素都需要被標注為一個標簽。
2、聯(lián)合標注(Joint segmentation and labeling):所有的分段被標注為同樣的標簽。
2 命名實體識別 NER (named entity recognition)
????????命名實體識別(Named entity recognition, NER)是信息提取問題的一個子任務(wù),需要將元素進行定位和分類,如人名、組織名、地點、時間、質(zhì)量等。
舉個NER和聯(lián)合標注的例子。一個句子為:Yesterday , George Bush told a lie. 其中包括一個命名實體:George Bush。我們希望將標簽“人名”標注到整個短語“George Bush”中,而不是將兩個詞分別標注。這就是聯(lián)合標注。
2.1 BIO 標注
? ? ? ? 如果不想用聯(lián)合標注進行NER的話,可以使用BIO標注
? ? ? ? BIO標注:將每個元素標注為“B-X”、“I-X”或者“O”。
- “B-X”表示此元素所在的片段屬于X類型并且此元素在此片段的開頭
- “I-X”表示此元素所在的片段屬于X類型并且此元素在此片段的中間位置
- “O”表示不屬于任何類型。
2.1.1 BIO標注舉例
?比如,我們將 X 表示為名詞短語(Noun Phrase, NP),則BIO的三個標記為:
(1)B-NP:名詞短語的開頭
(2)I-NP:名詞短語的中間
(3)O:不是名詞短語
?? 因此可以將一段話劃分為如下結(jié)果;
?? ? 我們可以進一步將BIO應(yīng)用到NER中,來定義所有的命名實體(人名、組織名、地點、時間等),那么我們會有許多 B 和 I 的類別,如 B-PERS、I-PERS、B-ORG、I-ORG等。然后可以得到以下結(jié)果:
?
總結(jié)
以上是生活随笔為你收集整理的NLP 笔记: 序列标注与BIO标注的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习笔记 network compr
- 下一篇: NTU 课程笔记:Nonparametr