加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

台湾中央研究院平衡語料庫

(2008-07-06 18:04:52)
标签:

语料库

语言学

分类: 语言研究

中央研究院平衡語料庫簡介
黃居仁,陳克健,張莉萍,許蕙麗
摘要
中央研究院平衡語料庫(Academia Sinica Balance Corpus,簡稱研究院語料庫Sinica Corpus)是第一個有完整詞類標記的中文語料庫。這個語料庫由中央研究院詞知識庫小組蒐集標記完成。其測試版(Sinica 1.0)共計兩百萬詞,將於一九九五年九月公開開放給學術研究界使用。
帶詞類標記的平衡語料庫是計算語言學及語料庫語言學研究必需的資料。但中文一直缺乏這個基礎研究工具。中央研究院平衡語料庫構建的目的即在彌補這個研究基礎架構上的空缺。這個語料庫是以五百萬詞的平衡語料為目標,第一階段完成二百萬詞。
除了說明語料來源、文體、語式等基本統計計算資料外;重點在解說此平衡語料庫中所採用的分詞標準及標記集(tagset)。分詞標準是採用計算語言學學會的分詞標準,將向中央標準局提出為資訊用分詞國家標準草案。標記集是根據中研院詞庫小組的詞類分析簡化而成,共有四十六個標記。

http://rocling.iis.sinica.edu.tw/CKIP/20corpus.htm

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有