语料库2 北京语言大学《当代北京口语语料库》
(2008-07-06 16:25:53)
标签:
北京口语语料库 |
分类: 语言研究 |
20世纪80年代的“北京口语调查”通过大规模的有计划的实际调查,记录了在居住地区、性别、年龄、职业、文化程度和民族等方面具有不同社会特征的北京人日常生活中的自然话语。我们在此基础上对当时调查的成果进行了更深一步的加工处理,制作成了186万字的《当代北京口语语料库》,其中精加工部分45万字。
1.被试的抽样
被试都是老北京人,所谓老北京人是指不仅本人在北京出生和长大,而且父母双方也都是北京人,这里的北京不包括北京市辖的各县,仅限于老城区和近郊区;在被试的社会特征分布上主要考虑了性别、年龄、文化程度、职业和民族五个方面,在抽取被试的时候力求其社会特征的分布比例相当。《当代北京口语语料库》共有374名被试的录音语料,在精加工时,我们采取判断抽样的方法,抽取了东城、海淀、卢沟桥、牛街、天桥、西城各20名被试,共120人。其中,男女两性各60人,老、中、青三个年龄层的被试各40人,高、中、低三个文化程度的被试各40人。
2.有声语料的采集
交谈的话题为事先设计好的,共6类28个,均为人们日常生活中所关注的家常事宜或当时的热门话题,如:居住条件、社会治安、学习就业、婚丧嫁娶等等。采访前事先对这6类话题进行排列组合,使每一个话题在每一地区都有相同的人数谈及,每个被试至少选取4个话题,6个地区同一职业的被试谈及全部话题。因为话题都是家常闲聊,因此,语料都是自然状态下的日常口语。会话形式上,也基本都是个人的即兴叙述,只是在会话中,为保持会话的连贯性或避免被试跑题,调查人适当插入一些引导性的话语,但这一部分在有声语料的后期剪辑中被删除了。因此,此次口语调查的每段录音均为被试个人连续的正常讲述,被试不存在情绪上的激烈波动(比如争吵、生气等),也不包括长时间的沉默和间断。这样,我们共获得了120盘谈话录音带,转换成数字化声音文件共8.5GB。
3.语料的转写
我们把374名被试的谈话全部转写成了文字,制作成了186万字的《当代北京口语语料库》。为了保证文本语料能客观地反映有声语料的真实面貌,我们在转写时完全采用不作任何主观干预的自然描写方法。
(1)对有声语料中的口误、脱落、赘述、重复等现象不作任何修改,照原样转写。
(2)凡有固定用字的,都以《现代汉语通用字表》所收汉字为准,没有固定用字的用同音替代的方法处理即在汉字后加等号“=”表示,而电脑库里没有的字用@表示,有音无字的用符号“□”表示。
(3)变读、文白异读、误读等情况在文字上仍用正规汉字书写。
4.语料的标注
我们对120名被试的45万语料进行了词语切分、语音标注和话语标记。
(1)词语切分:我们对语料中的每个词语都进行了切分,词与词之间用“/”隔开,联系紧密的短语用“{}”标记。
(2)语音标注:根据录音对语料中出现的轻声、儿化、清入字以及其他特殊语音现象用国际音标进行了标注,并对部分词语进行了文本和声音的链接。
(3)话语标记:在Zimmerman等人的转写框架基础上,我们制定了一套切实可用的符号,从话语分析角度对语料进行了标注。符号如下:
(#)表示不计时的停顿。
(×)表示说话人说话时的重复或口吃
(词语)表示转写人对词语没有把握
(
(↑)、(↓)表示说话人的语调
5.语料的统计、检索
我们将对语料进行信息处理,利用计算机建设语料库的查询系统、检索系统和统计系统,拟建立语料的“词频统计”、“句式统计”等信息库。
总之,我们的《当代北京口语语料库》在抽取被试、采集整理等方面都具有其他语料库不可比拟的特点,它将会为汉语本体和社会语言学研究、为北京方言和汉语史研究、为汉语信息处理和数据库语言学研究提供丰富翔实的语料,为对外汉语教学制定教学大纲、编写教材提供口语方面的依据。
N04
每天早起就是六点多就起床,起床以后回来以后,家里的这些琐碎事儿。嗯,买买,买买早点,嗯,归置归置。有时候儿呢,现在天气热,洗一洗衣服,嗯,那个,做一做早点,嗯,给孩子呢归置归置。让孩子,嗯,手底下有的时候儿,他那个做个体户儿,嗯,那个做的些服装,嗯,有时候儿帮他锁锁扣眼儿什么的,嗯,给他打打下手儿吧。嗯,在做活儿的过程当中呢,有时候儿反正出来就得,说一说呀,那个工作,今天应该抓紧,该做什么了,赶紧给人弄。嗯,一天呢,还得要那什么,嗯,连看家吧带做活儿。自己要安排好,抓紧时间,嗯,尽量地少玩儿。嗯,中午呢,嗯,那个什么,都是一,一般地都安排好了之后吧,嗯,这就出来呀,上正常班,嗯,那个带饭,中午不回家。有时候儿买点儿菜什么的。嗯,中午就跟这儿吃。上班之后呢,也是正常班儿。嗯,我做检验工作。车间里头,那个,嗯,每天都那个看一看,拿来之后都检验什么,做那个,是哪个车间啦,嗯,该做什么工作,反正一进来就先搞搞卫生什么的,嗯,检查,检查那个手底下的仪表,嗯,看一看。嗯,那个还有是,嗯,有些什么那个其它别的小事儿什么伍的,随手儿就做一下儿。嗯,吃完饭以后吧,中午休息休息。有时候儿呢,出去,嗯,到商场,嗯,逛一逛。离着商场挺近的。嗯,也是买买自己一般手用的东西吧。嗯,回去,这就下午半天儿,也就是,有什么,那个车间里头有什么检验的活儿,再做一做。嗯,没什么其它别的事儿了,到时候儿就,下午半天儿就过去了。下班之后呢也是,嗯,有时候儿上上自由市场啊,买点儿东西。嗯,看看有什么。现在,反正现在菜也不好买。排队也好是物价也好,还得看一看。嗯,这个哪个莱便宜呀,是不是,嗯,吃什么菜呀,回去还得想着晚上该做什么了。嗯,就这些事儿。嗯,回家之后呢,就赶紧地忙饭。吃完饭以后有时候儿看看电视什么的。嗯,尤其是前些日子看那个,嗯,挺喜欢看那个《四世同堂》的。看完了之后,觉着拍得还行,挺好的。嗯,一般的就这些事儿。