自然语言处理标注工具——Brat(安装、测试、使用)
一、Brat標(biāo)注工具安裝
1.安裝條件:
(1)運(yùn)行于Linux系統(tǒng)(window系統(tǒng)下虛擬機(jī)內(nèi)linux系統(tǒng)安裝也可以)
(2)目前brat最新版本(v1.3p1)僅支持python2版本運(yùn)行使用(我用的是python2.7版本)
2.建議到github網(wǎng)站下載最新release版本:https://github.com/nlplab/brat/release
3.下載方式
(1)windows系統(tǒng)點(diǎn)擊zip文件下載解壓
(2)在linux系統(tǒng)的/var/www/html/目錄下wget下載解壓
wget https://github.com/nlplab/brat/archive/refs/tags/v1.3p1.zip unzip brat-1.3p1.zip # 下載后zip文件名為brat-1.3p1.zip mv brat-1.3p1.zip brat # 修改文件名為brat
4.安裝
(1)在/var/www/html/brat目錄下執(zhí)行
./install.sh
(2)啟動(dòng)apache2
service apache2 start
(3)運(yùn)行服務(wù)
python2.7 standalone.py
如果出現(xiàn)了以下錯(cuò)誤:
File "standalone.py", line 257
except SystemExit, sts:
^
SyntaxError: invalid syntax
說(shuō)明需要將python3版本改為python2.7版本
(4)原始brat配置文件沒有針對(duì)中文文本的標(biāo)注,需要安裝后自行修改/var/www/html/brat/server/src/projectconfig.py配置文件162行,將其注釋更改為如下所示:
# n = re.sub(r'[^a-zA-Z0-9_-]', '_', n) n = re.sub(u'[^a-zA-Zu4e00-u9fa5<>u2014-uff1b,0-9_-]', '_', n)
(5)打開瀏覽器,輸入http://127.0.0.0:brat即可見到歡迎頁(yè)面!
點(diǎn)擊ok開始進(jìn)入使用。
5.使用
(1)/var/www/html/brat/目錄下的data目錄是供我們自己做標(biāo)注時(shí)存放項(xiàng)目的文件夾,可以在data內(nèi)mkdir一個(gè)project目錄,再根據(jù)具體項(xiàng)目創(chuàng)建對(duì)應(yīng)目錄。
例如我現(xiàn)在需要標(biāo)注10份txt文件,那么我需要在project內(nèi)創(chuàng)建項(xiàng)目目錄后label-test將這10份txt文件放進(jìn)去,但是需要注意的是,brat并不會(huì)在標(biāo)注的同時(shí)幫助我們創(chuàng)建每個(gè)txt對(duì)應(yīng)的標(biāo)注結(jié)果文件,
所以在標(biāo)注之前,我們需要先一一對(duì)應(yīng)創(chuàng)建這10份txt對(duì)應(yīng)的ann文件(空的)。下面這條命令意思是找到當(dāng)前目錄下的txt文件并復(fù)制其名稱創(chuàng)建一個(gè)空白的ann文件。
find ./ -name '*.txt' | sed -e 's|.txt|.ann|g' | xargs touch
利用上述的命令后,我們目錄下將會(huì)有10個(gè)txt文件,10個(gè)ann文件。
(2)標(biāo)注需要配置文件,因此我們要到/var/www/html/brat/目錄下找到annotation.conf以及visual.conf,復(fù)制到/var/www/html/brat/data/project/label-test/目錄下
annotation.conf是可以對(duì)標(biāo)注的實(shí)體、關(guān)系、事件、屬性等內(nèi)容。
visual.conf可以修改標(biāo)注的顏色等。
示例:
annotation.conf內(nèi)容:
[entities] # Definition of entities. # Format is a simple list with one type per line. 時(shí)間 地點(diǎn) 人名 組織名 公司名 產(chǎn)品名 [relations] [events] [attributes]
注意:即使沒有relations、events、attributes等內(nèi)容,也不能把這幾個(gè)去掉,去掉會(huì)一直報(bào)錯(cuò)!!
visual.conf內(nèi)容:
[labels] [drawing] 時(shí)間 bgColor:yellow 地點(diǎn) bgColor:blue, fgColor:white 人名 bgColor:deepskyblue 組織名 bgColor:green, fgColor:white 公司名 bgColor:purple, fgColor:white 產(chǎn)品名 bgColor:pink
注意:同理,即使沒有l(wèi)abels內(nèi)容,也不要去掉[labels]。
mayun.txt內(nèi)容:
1964年9月10日,馬云出生在杭州。 幼年的馬云在人們的眼中是典型的壞孩子:叛逆、倔強(qiáng)、愛打架、逞強(qiáng)、頑皮淘氣。 馬云的父親雖然是典型的江南人,但脾氣卻很火暴,馬云從小在父親拳腳下長(zhǎng)大。 馬云是看金庸的武俠小說(shuō)長(zhǎng)大的,行俠仗義、打抱不平的“俠義”情結(jié)在少年馬云的內(nèi)心深處早已生根、萌芽。
mayun.ann內(nèi)容為空,現(xiàn)在可以開始標(biāo)注了,打開瀏覽器http://127.0.0.0:8001,登錄后才可以進(jìn)行標(biāo)注。打開我們創(chuàng)建的目錄,鼠標(biāo)選中需要標(biāo)注的實(shí)體,馬上就會(huì)自動(dòng)顯示讓我們標(biāo)注該內(nèi)容對(duì)應(yīng)的類別:
接著打開mayun.ann,可以看到標(biāo)注的內(nèi)容已經(jīng)記錄好了。
若無(wú)apache2,則對(duì)其進(jìn)行安裝并修改配置文件
sudo apt-get install apache2 # 安裝apache2 sudo vim /etc/apache2/apache2.conf # 修改apache2配置
將下列內(nèi)容添加至配置文件中:
<Directory /home/*/public_html>
AllowOverride Options Indexes FileInfo Limit
AddType application/xhtml+xml .xhtml
AddType font/ttf .ttf
# For CGI support
AddHandler cgi-script .cgi
# Comment out the line above and uncomment the line below for FastCGI
#AddHandler fastcgi-script fcgi
</Directory>
對(duì)userdir賦權(quán):
sudo a2enmod userdir
繼續(xù)執(zhí)行:
sudo apt-get install libapache2-mod-fastcgi sudo a2enmod fastcgi sudo a2enmod rewrite
重新加載apache2配置:
sudo /etc/init.d/apache2 reload
可能會(huì)遇到如下問(wèn)題:
[....] Reloading apache2 configuration (via systemctl): apache2.serviceapache2.service is not active, cannot reload.
failed!
解決方法:
sudo apachectl stop /etc/init.d/apache2 start
此時(shí)操作無(wú)誤后,打開http://127.0.0.1即可看到apache默認(rèn)頁(yè)面。
備注:此處針對(duì)apache2的安裝配置可能有欠缺,僅供參考。
參考鏈接:
https://www.moshangxingzou.com/index.php/2019/11/27/%E6%96%87%E6%9C%AC%E6%A0%87%E6%B3%A8%E5%B7%A5%E5%85%B7brat%E9%83%A8%E7%BD%B2%E7%AC%94%E8%AE%B0/
https://www.cnblogs.com/anai/p/11474460.html
作者:xiaolanLin
聲明 :本文版權(quán)歸作者和博客園共有,來(lái)源網(wǎng)址:https://www.cnblogs.com/xiaolan-Lin 歡迎各位轉(zhuǎn)載,未經(jīng)作者本人同意轉(zhuǎn)載文章時(shí),必須在文章頁(yè)面明顯位置給出作者和原文連接,否則保留追究法律責(zé)任的權(quán)利!
致讀者 :在技術(shù)這方面我還是一個(gè)新手,若文章中的表述有誤,還請(qǐng)各位批評(píng)指點(diǎn),喜歡的話支持一下點(diǎn)個(gè)“推薦”吧。
總結(jié)
以上是生活随笔為你收集整理的自然语言处理标注工具——Brat(安装、测试、使用)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: R开发(part2)--R语言中的数学计
- 下一篇: 仿人眼设计,新型传感器让相机摆脱滤镜实现