加载中…
正文 字体大小:

[转载]略说牛津语料库的使用(一)

(2011-09-10 06:30:10)
标签:

转载

分类: 网海拾贝

  [杨新安按]我曾经同友人老章(http://lzsq.tzblog.com http://www.lzsq.net)谈及语料库的话题。他虽是专研工科的高级工程师,对语言学并无研究,摸索了一番,居然写出了一篇“说明书”,给我发来了。现把他写的“说明书”转载如下,也许对大家有好处。

 

  友人杨新安老师在博客上提到“语料库”这个术语。到“语言库语言学论坛”http://www.corpus4u.org)进一步了解,得知语料库语言学是利用计算机技术进行语言学研究的学科。不免为好奇心所驱动,在网上狂搜了一番。除了一些网络版语料库,我还发现牛津大学提供免费的语料库下载。
  要下载牛津的语料库(http://ota.oucs.ox.ac.uk/scripts/download.php?otaid=2474),需要填写自己的电子邮箱。很快就可以收到牛津的信,根据它提供的下载网址,可以下载到一个16M的压缩文件。解压以后是一个2474.xml文件和2474文件夹,,而2474文件夹里有Lcmc等几个文件夹。
  我们知道,LCMC是兰开斯特汉语语料库的缩写,想来牛津的语料库就是在兰开斯特汉语语料库(LCMC)基础上发展的。从网上得知,LCMC语料库是与 Freiburg-LOB Corpus of British English(即FLOB)平行对应的汉语语料库,它有助于我们从事汉语的单语和英汉双语的对比研究。
  XML(eXtensible Markup Language)即可扩展标记语言,它与HTML一样,都是SGML(Standard Generalized Markup Language,标准通用标记语言)。Xml是Internet环境中跨平台的,依赖于内容的技术,是当前处理结构化文档信息的有力工具。扩展标记语言XML是一种简单的数据存储语言,使用一系列简单的标记描述数据,而这些标记可以用方便的方式建立,虽然XML占用的空间比二进制数据要占用更多的空间,但XML极其简单易于掌握和使用。
  虽然“XML与HTML一样”、“极其简单易于掌握和使用”,我化了九牛二虎之力,仍无法打开。请教了年轻的电脑高手,他们也一筹莫展。后来在网上得知,需要使用Wordsmith tools程序打开,立马在网上下载了一个免费版的。这个版本的功能有限制,要获得全部功能,必须化80英镑购买,一般人购买有一定的难度。
  继续搜索,总算找到了两个免费程序,分别叫antconc和Xaira。antconc是“开源程序”,即源代码开放的程序,既有windows版本的,也有Linux版本的。它只有一个可执行文件,可以放进U盘直接运行,虽然方便,但功能稍弱,这里不拟讨论。
  下载地址:http://www.antlab.sci.waseda.ac.jp/software.html
  视频演示:  http://www.antlab.sci.waseda.ac.jp/video_tutorials/antconc_getting_started/tutorials_antconc_getting_started.html
  下面着重谈谈Xaira,其下载地址是(请任选一个):
http://sourceforge.net/project/showfiles.php?group_id=130289&package_id=142832&release_id=495634
http://www.hope.com.tw/Download/Show2.asp?O=200504281514316454
http://www.sourceforgecn.net/Projects/x/xa/xaira/

  下载以后,安装非常简单,一路next就是了。
  安装以后,在“开始—程序—Xaira”里有两个程序,在使用牛津语料库之前要先运行“Xaira tools”。
  1)先打开“Xaira tools”,Tools,选“Index wizard”,然后点“下一步”。
 

[转载]略说牛津语料库的使用(一)


  2)给新文件夹命名,随意写一个。我这里写“牛津”的拼音。点“下一步”。

 

[转载]略说牛津语料库的使用(一)

 

  3)导入语言库的文件资料,确定它所在的位置。

 

[转载]略说牛津语料库的使用(一)

 

  4)点“下一步”。

 

[转载]略说牛津语料库的使用(一)

 

  5)点“下一步”。

 

[转载]略说牛津语料库的使用(一) 

  

    6)找到文本存储的地方,即从牛津得到的文件位置(就是2474/Lcmc/data文件夹),程序开始拷贝有关文件。

 

[转载]略说牛津语料库的使用(一)

 

  7)开始转换(p05)

 

[转载]略说牛津语料库的使用(一)

 

(由于发图限制,待续)

0

阅读 评论 收藏 转载原文 喜欢 打印举报
  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 电话:4006900000 提示音后按1键(按当地市话标准计费) 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有