加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

汉语语音规则合成

(2012-08-02 01:50:17)
标签:

汉语语音合成

音调

调长

音强

音高

文化

分类: 语音信号处理

近年来,在做无限词汇量合成时,出现一种选择更小的合成基元,加入庞大的规则库将其合成词语或者句子的合成方式,由于这种合成方式更侧重于对各种合成规则的研究,称其为按规则合成。不同语种,规则不同,仅讨论汉语的按规则合成,金介绍从文本至语音,文语转换这个层次的按规则合成。

文语装换系统首先接受键盘或文件按一定格式输入的文本信息;然后按照给定的语言学规则决定各自的发音基元序列,以及基元组合时的韵律特性,如音长、重音、声调、语调等;从而决定为合成整个文本所需的代码序列(言语码);最后再用这些代码控制机器去语音库中取出相应的语音参数,进行合成运算,得到语音输出。

汉语语音输入声调语言,有复杂的韵律结构。汉语语句结构中的语音层次为:音素-音节-词语-句子。声学基元是指拼接的基本单位,可能是音素、双音素、三音素、半音节(首音、尾音)、音节、词语和句子。基元越小,语音数据库越小,拼接越灵活,韵律特征变化越复杂。

按规则合成无限词汇的汉语语音时,基元选择一般应该选择声母和韵母。音素为基元,存储量很小,但是汉语中音素的音位变体非常复杂,至今没有人能总结出这些音变的全面规则。实际上,汉语复韵母中各音素也并不是独立可分割的单元,而是一串音位串,它们应视为一个整体的语音单位。采用音素或者双音素作为基元不合适。采用音节甚至采用单词为合成单元,所需规则简单些,语音库的存储量大大增加。这种考虑,一般采用声母与韵母做为合成基元,存储量不大,而所需的规则大体上只是:辅音-元音和元音-元音转换规则和多字词中各字的声调变调规则等。合成一个句子或者一篇文章,这是语气、句调的规则等也是很重要的。与其他合成技术相比较,规则合成有两个明显的优点:语音库占用的内存很小,可以灵活控制合成语句的声学特征和韵律特征。

韵律规则:是合成规则中一个重要组成部分。语流中这种由音高、音长、强度等方面的变化所表现出来的特征。也称为超音段特征。反映了语音在基频、共振峰、能量、谱分布特性上的差异。对于同一个基元,由于语境不同和重音的表现不同,其声学特征有很大的差别。通过对语音数据的声学参数,如基频、音长、音强等修改,可以进行重音、语调的模拟,实现语速、调高的变化。韵律特征主要包括声调、语调、重音等。声调属于音节层的韵律;语调属于句子层,乃至语篇层的韵律。韵律对合成语音的自然度及是否连贯影响极大,甚至还会影响语句的可懂度。

1.重音规则

重音在语言交流中起到重要作用,汉语的重音,是指说话或者朗读时读的比较重的音节或单词,汉语重音要时间长一点,音程大一点,使低的更低,高的更高。一般可以将汉语重音非为词重音和句重音两大类。词重音,指词的某个音节可以为重清轻等级。音长特征是区分这个等级的主要标志,轻音的音长较短。另外一个重要的区分特征是声调域,轻声的声调域缩小,这就使轻声字所需的能量减少,但强度并不一定减弱。实际上一个词的轻重在长期的使用过程中“约定俗成"音节由5个级别的重度变化,声调分为低、半低、中、半高、高五度,分别用1,2,3,4,5表示调高符号。在语流中用词来组成词语是,各音节的重度分配受”位置效应“和”音节数效应“的支配”汉语重音的声学特征表现在音域加宽,音程加大,其次就是气流加强。语音实验证明,汉语语流重音主要表现在音高即上限的增高和音长的加大。对强调重音的声学特征的实验表明,基频升高是强调重音的主要声学表现。基频升高的方式与声调的音高特征及曲拱度关系密切;重音的音长普遍增加,而音节重读时,对其强度没有明显的影响。有关汉语重音节律特征的主要表现是音高和音长的变化,即增加声调域的上限,扩大音域和持续音长这两个方面,其次才是增加强度,具体的汉语重音有如下表现方式:

1.增加音高上限,扩大音域,增加音长表示

2.用加大音长和音强来表示语音的焦点

3.增加音长、减弱音量表示语音焦点

4.增加音高上限和强气流加停顿表示强调重音

5.用缩短音长,加上后面的停顿表示重音

语句重音:指的是一句话里重读的某个音节或词语。跟着句子内容走,汉语中的语句重音可以分为语法重音、强调重音、节奏重音3种。语法重音是因为句法结构或语义表达上的需要而产生的重读现象。语法重音可以非为句法重音和语音重音。句法重音是为了表达某种句法结构,有以下规律:

1.句子,尤其是短语中的谓语中心词常常重读

2.动词、形容词前面的状语性修饰语往往重读

3.靠名词中心语最近的定语性修饰语往往重读

4.程度补语一般重读

语义重音是指进入句法结构后,由于重轻音不同而表示不同语义的词。所以语义重音有着区别意义的功能。强调重音也叫表意重音,主要是用来强调特别重要的词语而特意加强的音节,往往是表意的焦点,一般随着题旨和语境的需要而变化。另外,节奏重音指语流中为了语意对比的需要而产生的,只是加强节奏感,不起表意的作用。


转接与音渡
转接与音渡是音素序列转变成语音流时的动态变化规律。人在说话时,发音器官的运动是连续的,

而声道的形状不可能突变。因此连续语音流绝不是相邻的各音素简单的组合和拼接,他们之间有着

不同程度的相互影响。特别当发音速度较快是,前一个音素还没有发完,舌、口、唇等已经向下一

个位置移动,准备或开始发下一个音了。由于实际发音时牵涉到各个发音器官,所以音素之间的过

渡现象十分复杂。在汉语发音中,存在两种基本的过渡,即辅音与元音组合和元音与元音组合。前

者出现在声母和韵母的拼接过程中,称为“转接”,后者出现在符合韵母内部,称为“音渡”。
转接就是前面的辅音对其后的元音共振峰的影响。同一元音的共振峰特性受其前面的不同辅音的影

响会有很大的变化,所变现出来的转接现象是不同的;反之,同一辅音对其后的不同的元音的影响

也不相同。关于共振峰的转接现象,至今尚未找到普遍性的规律。但也找到一些基本规律,转接对

于辅音的感知十分重要,尤其是其后接元音的第二共振峰的转接走向与程度,对于前面辅音的听辨

起着决定性的作用。如果没有这一段转接特征,听起来不像这个辅音。
对汉语所做的听辨实验也发现:
1.转接现象主要出现在第二共振峰上,第一与第三共振峰的转接规律则比较简单:一般第一共振峰

的辅元转接总是向下,音轨为0Hz,第三共振峰的转接可以忽略不计。
2.辅元转接对辅音听辨的影响,以赛音最大,塞擦音次之、擦音最小。鼻音和边音因为具有元音性

质,可以忽略不计。
3.转接音轨与辅音发音位置有密切关系,对照辅音音素表,从左到右,基本上符合音轨逐渐由小变

大的原则。
元音之间的音渡问题,汉语中有13个复元音韵母,他们是有两个以上音素组成的。习惯上吧复韵母

分为头音(韵头)、主元音(韵腹)和尾音(韵尾)3个部分,但是前已指出他们并不是若干个相

对独立的和相对稳定的元音。复合韵母实际上是一大串飞速滑动过去的音素组合,这种滑动的过程

就称为音渡或动程。复合元音的发音过程中,发音器官都处于不断的连续变化之中。这些反映在复

合元音频谱中的共振峰是连续变化的,很难确切的划分各个元音之间的界限。但可以看到在复合元

音的滑动过程中会出现一些极点,这些极点就是通常所说的头音、主元音、和尾音,也称为元音滑

动的目标值。复合元音的目标值和单个元音情况不同。实验表明:复合元音起始点的目标值要受到

前面的邻接辅音的影响,一般达不到零声母短时的极点位置;主元音的极点位置主要是受后结尾音

的影响。知道了复合元音的极点位置后,可以用内插的方法得到复合元音的近似共振峰动态轨迹。

也可以采用抛物线插值方法。一般的说,前响二和元音的共振峰动态轨迹近似线性变化;后响二合

元音的共振峰动态轨迹接近曲线,而且起始弯曲很厉害,后部比较平坦;三合元音的共振峰变化比

较复杂,可以近似看成两个二合元音。总之,适当选取极点的个数和位置,就可以在一定的范围内

改变复合元音的动程和共振峰的动态轨迹;运用极点值加内插的方法可以描述汉语韵母内的音渡现

象;而音轨到元音目标值的内插可以描述汉语声韵母的转接现象。
汉语中有16个复鼻音尾韵母,它们也都是由2-3个音素组成。发音时,发音器官由元音的发音状态

逐渐向鼻音的发音状态滑动,最后完全变成鼻音。这时,声带仍然振动,鼻腔没有阻塞,因此鼻韵

尾有元音的性质,建立共振峰轨迹时可以近似把它们当元音一样看待。

声调与变调
汉语是一种“声调语言”,汉语交谈中,人们不但凭不同的声母,韵母来辨别字和词的意义,还需

要从不同的声调来区分他们。汉语的声调具有辨义的功能,他和辅音、元音在语音的区别特征上同

样重要。声调就是音节的高低升降曲折变化,汉语音节的声调主要表现在信号的基音频率随时间而

变化的规律上。声调的调值用音高或基音的变化来描写。从现代音系学理论和方法来分析,认为汉

语声调属于超音质特征或叫做非线性特征,它是附加在整个音节上,所以他是属于音节层的节律特

征。一般可以从音调的调类、调值和调型来考虑声调特征。汉语普通话,声调调类有阴平、阳平、

上声、去声。还有轻声,是声调的变体。声调的调值就是声调的实际读法。调值确定,是他声调音

程高低变化用五度记号记录下来。声调的调型就是从声调的起始点高度向右延伸,到达声调结束点

的高度连接起来,若是曲线形的声调,就要在转折处再加上一个点,然后把这3个点连接起来,这

就得出不同的声调调型。
这与基音事变曲线的变化趋势相同,因此一般说可以用基音频率的时变规律来表示声调的变化。实

际上,声调不但是体现基音频率的变化,同时也常常伴随着音强和音长的变化。
在连续的语音流中,由于相邻音节之间的相互影响,或者由于语调和语感的需要,各音节的基音频

率时变曲线与孤立发音时的音节相比有较大的差异。特别是在多音节词中,音节的相互影响可能使

某些音节发生调值的变化,这种现象为音变。这一变化的基本趋势是使基音时变曲线在音阶间过渡

时比较平滑。在连续的语音流中,不仅声调的调值要发生变化,有时甚至连调型都会发生变化,所

以汉语的声调的调值是相对的。当两个词连在一起读时,不论他们是一个词或是一个意群,都会造

成变调。其调型原则上是两个字的原单字调型的连续,但受连读的影响会出现这两个字的变调。变

调通常是由后一个字的声调的影响所引起的,这就是所谓的逆变规律。双音调声调变化规律大致有

以下几点:
1.上声字加阴平、阳平、去声、轻声字时,前面的上声字的声调变成半上声。
2.两个上声连续,前一个上声变得像阳平。
3.两个去声字相连,前一个去声变成半去声,去声字在单独念时是个全降调,从最高的5度降到最

低的1度,即调值为51,而半去声则从最高的5度到中间值3度。
4.叠字形容词变调,二字重叠作形容词时,第二个字变为阴平。
三音节的连续变调,在汉语结构中一般都可以认为它是单音节和双音节的组合,即使在意义上也不

完全是这样,但在说话时往往有自然说成双音节的习惯。三音节在语法结构或意群上有:单-双、

双-单,单单单三种格式,其变调与意群有密切的关系。三音节的连续变调还与重音及语速有关。

对于重读音节,需要完整的调型使其读作原调,非重读音节由于收尾声调不到位,所以调型不完整

。另外,音节的起始音高又要受到前音节尾音的音高影响。语速不同,三音节的音步切分不同,变

调也有区别。连续音节变调还受到语调影响,处在句首、句中、句尾的变调情况不一样。
1.在三音节音步中,首字阴平或阳平、次字阴平或阳平的变调规则是:首字不变,此字变为阴平,

末字读原调
2.若语速稍慢,三音节词切分为两个音步,变调情况同单双双单变调。
3.语速快,三音节为一个音步,音节的音长缩短,调域也相对减少。这时,首音节调尾音高不到位

,影响了此音节的起始音高;次音节的调尾不到位,而第三个音节的调首就接不上来。这样三音节

首尾相叠的结果,会使得中间音节的音高级差减小到近乎零,从而变成段阴平。
四音节以双双结构的成语居多,所以变调也和两个双音节的连续变调相似。五音节以上视为短句。
综上所述,汉语语句中的全部声调变化都是以单音节和双音节连续变调为基础的。他们的调型比较

稳定,这对于按规则的汉语合成很有利。但注意两种因素会是声调产生一定程度的变化:一是由于

语法制约而改变了原来的变调规律,即语句中的若干字或词由于语法组合的松紧、意群的分和有所

不同,原来的变调规律会产生新的变化;二是语句中的语气影响了变调,语气是表达意义的,每一

句话都脱离不了环境的影响,可反映出说话人的态度、情绪等。因此在不同的语句中,基本单元的

调型也会产生一些调位变体,构成不同的语调。
汉语出了音节有自己的声调外,句子又有表达特定语气的语调,语调是表情达意不可缺少的节律特

征之一。有音高、音长、音强等多种要素构成语言的抑扬顿挫的旋律模式。汉语是声调语言,语调

问题更为复杂,声调和声调的连接不能构成语调,在语流中,声调的调值要受到句调调型的影响,

反过来,句调的调型也会受到声调的影响。语调是语言节律的总和,它包括有音高、音长、音强乃

至音色的方方面面形成的停延、节奏、重音、以及声调、句调、基调等在内的节律总和。汉语语调

有特殊性,语调除了本身的节律特征外,还受到声调及连续变调的影响。
音长问题
音长也是语音的重要特征之一,对语音的可懂度、自然度都有一定的影响。汉语中音长主要体现在

韵母的调型段长度上,调长和调型是密切相关的,通常认为,上声音节最长,阴平、阳平次之,去

声最短。在连续语流中调长的变化和声调一样也受到连读上上下文的牵连。可将音长和调型一致起

来:凡是平调、声调的调长始终,凡是降升调的调长较长,凡是降调的调长较短,轻声调长最短。

声母的音长相对比较稳定。句子的最后一个音节的调长应比通常情况加长20%左右。音节之间的间

隙也对合成语音效果有一定的影响,适当的间隙会使语言听起来更为生动。
汉语语音合成系统中,语句中各音节的声母和韵母的音长是按着音长协调规则来分配的。
1.单音节按原始音长配给:将声母和韵母的原始音长,按着同一比例因子变化。
2.单音节声韵音长互补。
3。词处理:首先根据音长和重度的相关性,修改声母和韵母的音长。其次,处在非词首位置的声

母,其音长要比词首位置的声母音长短些。
4.短语处理:几个词组成短语后,各音节的重度再次变化。
5.句子处理:成句后,首先要在各短语前加上适当的空隙,其次,在某些音节上有强调重音时,音

长(特别是韵母)要随之增加,最后,对于句末的非轻声音节,其音节音长(尤其是韵母),会随

该音节的声调不同而有所增加。
幅度的协调规则
也是以重度为参量在音节、词、短语、句子各层次中,调整浊音源幅度的基值。
多音节协同发音规则合成
协同发音是指与不同语音音段相联系的发音态势,前面说的韵律规则合成中的转接和音渡现象属于

音节内部的协同发音,现在是合成多音节词语时,音节间的协同发音。
合成多音节词语时,将音节间的协同发音效应归纳成协同发音规则,按规增添或修改相应音段的合

成参数,这样就可以合成出音色较为自然连贯的多音节词与。协同发音规则如下:
1.增加后过渡段。一个多音节词中,某一音节后面还有其他音节,则该音节会出现后过渡段。
2.鼻韵尾被同化。前鼻韵尾,后鼻声母。
3.鼻韵尾丢失。前鼻韵尾,后零声母。
4.边音段有动态变化。如果有一有边音声母的音节,连在另一音节之后,则该边音段将出现频谱上

的动态变化。前音节的韵尾为元音时,该边音段动态变化的起始频率为规则1中的,终点频率为边

音段的极点频率,前音节的韵尾为鼻音时,该边音段动态变化的起始频率为鼻音的极点频率终点频

率为边音段的极点频率。
5.元音段起点共振峰频率改变。

轻声音节规则合成
普通话中,任何带4个正规声调的的音节,在一定条件下都能转变为轻声。汉语轻声固定,有4类。
1.单音节中,有些结构助词、语气助词、方位词、趋向动词、词缀等读轻声;
2.双音节词的轻声处于后音节,构成重轻格
3.三音节词中的中缀和后缀轻读
4.重叠式的后面部分轻度对于规则合成,可以利用规则将非轻声音节的有关参数变为轻声音节的参

数。
轻声音节在音长、音高、音强、音色方面的合成规则
1.音长规则:轻声音节的音长为“重读音长度的一半左右。
2.音高规则:在音高方面,轻声音节全部失去本调,调域为零,声学分析表明,阴平、阳平、去声

后的轻声音节的声调曲线呈下降趋势;上声后的声调曲线则先平后降。
3音强规则:轻声音节音强比较弱,听起来不如重音音节响亮。
4音色规则:轻声音节在音色上于重读时是有差别的。在声母方面,最明显的是不送气清赛音和清

塞擦音常常浊化,在韵母方面,轻声音节的主要元音被央化,复合元音韵母的动程也缩小,鼻韵尾

会消失。

儿化音节的规则合成
儿化的卷舌作用从腹部开始,直到韵尾,韵头并不受影响。儿化韵的声学特征主要表现在f3随时间

大幅度下降,向f2接近。越是接近,听感上的卷舌色彩越重。

现在的语音合成系统不能脱离机器腔,与生动的自然的人类语言相差甚远。还有许多需要提高
1.提高合成语音的自然度,需要对连续语音的韵律规则进行总结,将其定性的描述尽量定量化
2.丰富合成语音的表现力方面,将合成语音赋予个人的感情色彩
3.降低语音合成技术的复杂度
4多语种文语合成

 

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有