python计算召回率_序列标注的准确率和召回率计算
最近在用BiLSTM+CRF做命名實體識別問題。關于模型效果評估,很多提到用conlleval.pl來實現,conlleval.pl是perl語言寫的,原諒我沒看懂。最后還是決定自己寫個程序算一算準確率和召回率。
公式
準確率 = 預測正確的實體個數 / 預測的實體總個數
召回率 = 預測正確的實體個數 / 標注的實體總個數
F1 = 2 *準確率 * 召回率 / (準確率 + 召回率)
實現
1、獲取實體:包括預測的全部實體和標注的全部實體
對于一個標簽序列,例如:'B-PER', 'I-PER', 'O', 'B-PER', 'I-PER', 'O', 'O', 'B-LOC', 'I-LOC'
實體對應的標簽塊是指:從B開頭標簽開始的,同一類型(PER/LOC/ORG)的,非O的連續標簽序列
因此可以采用形如{(position, type): [label1, label2, ...]}這種格式的字典來存儲實體,其中position為實體起始標簽對應的序列下標索引,type為實體對應的類型,[label1, label2, ...]為實體對應的標簽序列
從標簽序列中抽取實體的代碼如下:
def split_entity(label_sequence):
entity_mark = dict()
entity_pointer = None
for index, label in enumerate(label_sequence):
if label.startswith('B'):
category = label.split('-')[1]
entity_pointer = (index, category)
entity_mark.setdefault(entity_pointer, [label])
elif label.startswith('I'):
if entity_pointer is None: continue
if entity_pointer[1] != label.split('-')[1]: continue
entity_mark[entity_pointer].append(label)
else:
entity_pointer = None
return entity_mark
2、獲取預測正確的實體,進而計算準確率和召回率
得到標注的全部實體和預測的全部實體后,這兩個字典中鍵和值均相等的元素,即為預測正確的實體。
統計標注的實體總個數、預測的實體總個數、預測正確的實體總個數,進而可以計算出準確率、召回率以及F1值。
代碼如下:
def evaluate(real_label, predict_label):
real_entity_mark = split_entity(real_label)
predict_entity_mark = split_entity(predict_label)
true_entity_mark = dict()
key_set = real_entity_mark.keys() & predict_entity_mark.keys()
for key in key_set:
real_entity = real_entity_mark.get(key)
predict_entity = predict_entity_mark.get(key)
if tuple(real_entity) == tuple(predict_entity):
true_entity_mark.setdefault(key, real_entity)
real_entity_num = len(real_entity_mark)
predict_entity_num = len(predict_entity_mark)
true_entity_num = len(true_entity_mark)
precision = true_entity_num / predict_entity_num
recall = true_entity_num / real_entity_num
f1 = 2 * precision * recall / (precision + recall)
return precision, recall, f1
補充
1、以上只簡單計算了準確率和召回率,沒有涉及到混淆和偏移等問題。如有錯誤和疏漏之處,請不吝指正。
2、代碼寫完后,在github上發現了conlleval的python版本o(╯□╰)o,附鏈接如下:
總結
以上是生活随笔為你收集整理的python计算召回率_序列标注的准确率和召回率计算的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: delphi tabsheet多标签自适
- 下一篇: 完全二叉树最小深度_二叉树:我有多少个节