加载中…
个人资料
Aristo
Aristo
  • 博客等级:
  • 博客积分:0
  • 博客访问:7,357
  • 关注人气:105
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

不错的标注工具BRAT

(2017-10-04 15:55:05)
分类: 计算机技术
第一次听到BRAT,是在16年南昌听社会媒体大会时候,当时北理工冯冲在边上,闲聊时候提到这个标引工具,不过后来一直没用(因为做标引的机会也少),直到这两个星期,我打算做一个2000篇文档规模的实体关系标引专利数据集,显然用我自己的txt标记法可能性为0,因为不仅文档数量多,而且我要组织一个5人小团队一起搞,使用工具是唯一可行的办法。

1.安装
我电脑是MBP,而且前面已经有现成的python,所以安装起来还算轻松,直接从官网下载安装包 http://brat.nlplab.org
解压缩后进入安装文件夹目录下使用命令,./install.sh 就自动安装了
中间需要初始化管理员账户 密码 和联系邮箱
安装完以后 运行python standalone.py,启动服务器,然后地址栏输入 http://127.0.0.1:8001,就可以直接登录BRAT了。

2.导入数据
导入数据也比较轻松,直接将包含txt数据集的文件夹放置到安装文件下一个data的目录下,然后使用命令:

find 文件夹名称 -name '*.txt'|sed -e 's|\.txt|.ann|g'|xargs touch,其意思是对每个txt文件都创建一个空的标引文件.ann,因为BRAT是要求的collection中,每个txt文件是必须有一个对应的.ann文件的,方便放置标引内容,这个ann文件的格式也挺规范,如下:

http://s13/mw690/001oZrbjzy7eKiaiggc7c&690

 

这里说明一下,对于每个实体而言,它这一行内容是这样的,T1->tab->实体类型->空格->起始位置->空格结束为止->tab->词汇;

3.标引

标引之前需要先进入安装目录的annotation.conf文件中,编辑标引规范,就是写明白都有哪些命名实体、哪些语义关系,格式如下

http://s10/mw690/001oZrbjzy7eKicg5hDd9&690

写完以后,就可以点击BRAT页面,用自己的账号登录,从页面上直接进入collection中,找到文件进行标引了。

命名实体标引直接用光标拖拽,关系标引用鼠标将一个实体指向另一个实体即可。


4.其他


还有一些高阶内容没看,比如多人协同标引;比较多个人对一个文章的标引,区分其中异同;引入第三方自动标引工具;将BRAT集成到其他平台上面,等等。



0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有