《科学世界》：智能语音技术——让计算机能听会说_微软亚洲研究院

http://blog.sina.com.cn/u/1286528122

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

《科学世界》：智能语音技术——让计算机能听会说

(2015-07-01 16:16:47)

标签：

it

微软

智能语音

杂谈

分类：技术

《科学世界》：智能语音技术——让计算机能听会说

作者：《科学世界》记者/方晨

智能语音技术的应用日益普及，现在计算机已经可以进行实时语音翻译。机器到底是如何学会“听懂”一个人说的话，并翻译成另一种语言后再说出来？《科学世界》专访了微软亚洲研究院首席研究员宋謌平博士，请他为我们介绍其中的奥妙。

说话是我们人类最自然、最方便的交流方式。过去，会说话的机器人还只是出现在科幻作品中，但近年来这种技术已逐渐进入我们的生活，你或许已经使用过智能手机上的语音助手，或在开车时用过语音导航。前不久，微软推出了Skype Translator中文预览版，可以实现中英文之间的实时语音互译，也就是将一个人说的话用对方的语言说出来，让两位只会说各自的母语的用户直接对谈。那么，计算机是如何学会听懂对话内容并翻译成另一种语言说出来的？

智能语音翻译包括3个环节

科学世界：您是什么时候开始研究语音的？

宋謌平：我个人做语音的研究工作已经超过30年。我是从念研究生的时候就开始做，后来加入美国贝尔实验室，在那儿工作了20年，然后在又应邀在日本的先端语音研究院工作了两年，2004年加入微软亚洲研究院，到现在已经超过10年了。在整个过程中，我基本上做的都是语音的研究，包括说话人识别、语音合成，识别、编码、抗噪、增强等等。

微软研究院的创始人里克•雷斯特（Rick Rashid）首次提出了微软亚洲研究院要做一个不同语言间的口语翻译的项目（Speech-to-Speech），把看似不可能的梦想变为可能。这个翻译系统研究我们做了许多年，我也是最早参与这个计划的人之一，这个项目主要由微软的雷蒙德和北京两个研究院负责。

科学世界：实时语音翻译技术包括哪些内容？

宋謌平：语音到语音的翻译系统，基本上可以分成三个模块：语音识别、机器翻译和语音合成。甲跟乙说话，我们要做一个甲说的语言的语音识别，把它听出来，然后把语音变成一串词组，中文的话就是汉字；有了文字以后，第二步是机器翻译，就是把甲说的文字翻译成乙可以理解的语言文字；最后，有了文字以后，还要把它试着用模拟甲的语音，可是用乙的语言（甲不会说）说出来。同时，从乙到甲的对话，次序都都反过来。这两个沟通方向，可以说可逆，也可以说不可逆。因为两种语言，它的结构、词汇、发音的组成都很不一样，不同方向的语音翻译很可能有不同的困难。这三个模块，我们语音组负责语音识别和语音合成这两部分，机器翻译由自然语言计算组负责。

有人说为什么要那么复杂，大家都用键盘打字不就可以了？但是现在很多终端上的键盘和屏幕都很小，打字不好打，阅读显示的文字也比较费力。另外，许多情况下打字没有说话快。人机沟通，只要能够说得清晰、听得懂，语音是一种很好的交互界面。

我们当初做语音翻译，听起来就是一个梦想。做了几年之后，2012年10月，在天津召开的“二十一世纪的计算”学术研讨会上，我们做了一个现场展示，就是里克•雷斯特在台上用英文演讲，同时机器识别、翻译，并用他的中文语音合成再说出来。

科学世界：那是英文和中文之间的翻译？

宋謌平：对。语音识别技术把里克•雷斯特说的英语识别出来，在大屏幕上显示出英文。大概最多有1秒钟的迟滞，这就是语音识别的过程。认出英文以后，机器翻译成中文。翻译过程中有些因为中英文表达语序不同，所以还要重组后再做翻译。最后是语音合成器把文字变成语音。我们用里克•雷斯特说英文的语料，训练了一个说中文的系统，而且语音听起来像他本人。

科学世界：那么现在这方面有什么实际的应用？

宋謌平：现在通过Skype Translator，我们把它产品化、服务化。这个基本上包括了刚才讲的整个语音识别、机器翻译，还有语音合成的过程。现在我们有Windows Phone、Skype等平台来实现人与人之间的沟通。Skype Translator是这一种产品的先锋，希望通过它，使只能说不同语言的人相互沟通。另外并实现人和机器之间的沟通。

让计算机听懂人的语言

科学世界：回到语音翻译的第一步，语音识别。计算机是怎么听懂人说的语言？

宋謌平：你说机器能够“听懂”，我稍微修正一下，语音识别不完全等于“听懂”，但至少是要让它“听到”。如果机器真的能够直接全“听懂”，机器翻译也就不是问题了。就像我们看抽象画，每种颜色都认得，每个线条都知道，但说不定还是不明白这张抽象画是什么意思。也就是说“听到”和“听懂”之间还是有距离。

目前来讲，语音识别比“听到”可能更进了一步，因为在这个过程中，我们也利用了一些文法、词汇和习惯的说法来帮助机器“听到”，也就是说“听到”的过程中也有一些“听懂”的成分。语言或者语音的规律里，与“听懂”、“听到”都有些关系。我们希望机器不但能够清楚地听到对方说了哪些词，还能听出来是谁说的，甚至连说话时的某些情绪都能识别出来。不过，纯粹的语音识别就是要听到，希望对你说的每一个词都能够听清楚，都没有听错。

其实所有的识别，不管是图像识别还是语音识别，基本上都是一个比对的学习过程。就像小孩听父母说话、跟着学语一样，首先要让他听到，而且要通过互动来强化他的意识，让他把具体的内容和听到的声音联系起来。这就是一个学习或者训练的过程。我们也是提供数据、语料，通过训练告诉机器这些语料说的是什么内容。我们希望利用匹配好的文字和语音去训练语音识别器（用于识别语音的计算机程序）。当然，语音、语言的变化是无穷的，你不可能把世界上所有人的语音全部录下来去做比对。第一，数据量太大了；第二，人们说话总是会有一些新的内容，不可能穷尽。所以我们希望利用一个基于统计的识别模式来实现这个技术。统计的方法和我们总结现象的物理定律类似：也就是通过大量的观察和数据分析，归纳出一种最简单的方式，可以去解释现有的和未来的新数据。表示这些数据之间的关系就是一个统计模型，现在有些用马尔可夫模型，有些用比对的程序，或者用机器的深度学习和深层神经网络等，其实它们要达到的最终的目的都相同。

计算机通过学习和训练的过程，产生了一个模型，这个模型一方面可以用来解释训练数据，另外更重要的是解释一些将要被测试的数据。测试数据和训练数据始终是会有一些差别，不论是噪声的多寡、离麦克风的远近、说话人的相似或不同、发音的含混度、有没有口音、高低起伏，抑扬顿挫的变化，这些都会影响到最终识别的效果。对这些数据的解释的准确性，直接与之前在训练中有没有解释过类似的数据有关。

科学世界：这些语料信息，都要数字化吗？

宋謌平：都要把它数字化。整个模型就是一个数字模型，而且是一个经过极度压缩的数字模型。因为如果要把所有东西都放进来对比，会比到天长地久。

要让模型对于没有见过的数据进行适当的比对，而且还要尽可能少出错，这个模型本身就需要有高精度和抗噪性。因此，训练它的语料需要包括尽可能多的变量，比如说噪音、距离麦克风的远近、不同的手机、说话的环境、口音、情绪等等。让机器在这些变量当中去寻找那些是不变的内容，也就是要识别出它说了哪些话。这是一个“异中求同”的过程。

做语音识别，不仅要求训练数据越多越好，还要求训练数据有代表性，能够尽量包括可能的变量。训练数据的来源有很多，包括翻译的网页、配有字幕的视频，以及经过翻译并转录成文字的对话等。

虽然这永远是一个夸父追日的过程，训练得再多也永远不够，可是你如果能够多收一些数据，机器就能多学一点。这和小孩学语言类似，听得越多，互动越多，矫正也就越多，效果就越好。

我们前面展示的应用，用来训练的语料的时间长度差不多是2000个小时语音库，包括了几千个人说的话。经过这样训练的系统，对任何人说的英文，只要他说得比较标准、口音不很重，都可以识别了。

科学世界：一般人会觉得奇怪，计算机怎么能自己学习，或者接受训练？

宋謌平：其实很简单。可以通过一个反馈系统来学习，它包括了正向和逆向的反馈：你做（说）对了，我给你奖赏，这是正向反馈；你做（说）错了，我给你惩罚，这是逆向反馈。利用正向和逆向的反馈，就可以不断加强机器的识别能力。

对所有的训练数据，你都知道这些数据的真正内容是什么。如果这次机器识别错了，那么这个地方得要加强一些（也就是调整模型中的相关参数）把它矫正过来；如果它认对了，那很好；可是如果不是很对，就可能需要再加强一点。经过不断训练，识别的准确率就会逐步提高。

我们需要把数据分成两个部分，一部分叫做训练数据，另一部分叫做确认数据（Validation Data）。用训练数据训练出来的模型去比对确认数据，来看训练的模型是不是足够准确，再决定是不是还需要继续训练。目前来讲，最有效的就是利用深层神经网络（Deep Neural Networks, DNN）的学习。

科学世界：什么是深层神经网络？

宋謌平：神经网络是一种能够“一般化”的统计模型。

其实神经网络很早就有过研究，在20世纪80年代后期和90年代初期，那时计算机的运算和存储能力都还不够强大，虽然那时候已发现神经网络较诸典型的统计模型有较强的学习功能，但还是不及传统的统计模型做得好，所以神经网络的研究又偃息旗鼓，淡下来了。近年来，当计算机的存储和计算能力，有了大幅度的提升，于是它又重新受到关注。

深层神经网络具有一些特定的结构。所谓“深层”是指与传统的神经网络相比，它具有更多的层次。神经网络的每一层里面都有输入和输出的节点，这些节点都可以互联连接，它们互相之间的联系，可以是强联系、弱联系，可以是正联系、负联系。这些加权的参数值，都是经过整个数据库训练，通过有效快速的学习算法算出它们的最优关系值。

比如说，最后输出的结果有的错误，有的正确，那么就要看神经网络中的那些“神经元”之间的关系，是哪个部分使它识别犯错，又是哪个部分让它识别正确了。有了这些线索，我们就可以用正向、逆向的反馈学习机制去调整相关的权重。权重不断地学习调整，就是训练神经网络的进程。

科学世界：神经网络各层之间是什么关系？

宋謌平：通常最底层是输入。当中是多层网络，每一层，都有输入和输出。从下到上基本是“见微知著”，从“微观”慢慢进到了“宏观”的过程。先是识别出一些局部和细节的东西，然后再逐渐组合成某个完整的大样。比如识别猫的话，很可能起先是看到一根胡须或者面部的粗略线条，慢慢组合出耳朵、眼睛等等。一层层往上，可识别出有代表性的东西就越来越多。所以这种识别不会“见树不见林”，而是“既见树又见林”。我们发现，利用深层神经网络得到的结果，与原来最好的系统相比，语音识别的错误减少了30%。

语音识别的典型深层神经网络结构示意图

《科学世界》：智能语音技术——让计算机能听会说

科学世界：神经网络如何处理输入的音频？

宋謌平：语音信号本身是一个动态的进程，把我们说的话记录下来，看声音频率随时间的变化，实际上是一个很连续的轨迹，这个轨迹里面有一些最基本的东西，叫做音位或音素。就像我们身边的物质都是由原子、分子组成的，语音则是由音素组成的。音素经过不同的组合，就成了不同的音节、字和词，短语，句子等等。在语音识别时，就要把语音资料分解成一个个很小的单位，即音素，然后再对这些音素之间的关系进行统计、分析。经过训练，机器最后不但要“听到”这些音素组成的音节，字词，短语等，还要能“听懂”。

音频的时间变化

例如这张图片，是两个人说话的音频，一个是女声，一个是男声，但说的文字内容完全一样。黑白表示声音的强度，越黑表示强度（功率）越强。在同一个时刻，在不同频率的声音强度是不同的。在对这个音频进行处理时，先要把它分解成很小的单元，也就是将频率（纵坐标）的变化在时间（横坐标）上切成一小片，一小片。从图中可以看到，虽然一是男声，一是女声，声音的大小和频率的变化都不太相同，可是“观其大概”，又可看出它们有一些共性，这些共性被一般化以后就可以被记录学习在神经网络的统计模型里。下次输入具有这些共性特征的新的音频时，系统经过解码的过程，就可以识别出这句话的内容。如像两只不同的猫，虽然它们的毛色等可能不同，但它们的形态都具有一些共性，我们的大脑经过多次识别训练后，就可以根据这些共性认出它们都是猫。

科学世界：在分解音频的时候，相当于每一个时刻都得到一个频率的谱。

宋謌平：是的。要分解得非常细，10毫秒就要切一片（在语音分析上我们称为“一帧”），解析度相当于1秒钟的语音要分成100份。其中任何一帧，都可以看到它在某个频率上的能量分布，有些频率上能量比较高，有些频率上则比较低。

同时，可以看它左右的相关的内容是否相似。也就是说在时间上，不仅要看其中的某一帧，同时要看各帧之间的变化量。在某些地方几乎没什么变化，但有的时候突然能量上升，变化量很大，这实际上可能就是语音中的爆破音。把这些不同的数据结构结合在一起，就可以更确定地判断它是哪个音了。

解码是一个动态搜索的过程，他的算法称为动态规划。透过动态规划，我们可以找到所有的可能性，这是一个高效率的超大搜索。动态搜索中所有不可能的情况都被及早放弃，一边搜，一边扔。

科学世界：有一个概念叫“协同发音”，是什么意思？

宋謌平：协同发音，就是说发某一个音，它有上下文的问题。比如说英文单词“cat”（猫）， “mat”（垫子），“map”（地图），中间都是“a”。但这个“a”的发音，因为上下文不一样而产生了不同。通过对比能量在时间段和频率上的分布，可以发现它的变化会有相当的不同。这就是由于不同的上下文关系，而产生出了“协同发音”的变化。

我们的深层神经网络之所以比较有效，就是因为把协同发音的因素也纳入了模型，然后再按照各种情况“对号入座”，而且越分越细。它不只是单纯去认一个“a”，很可能认“a”的时候，它要考虑前面是不是“c”、是不是“m”或其他的音等等。

科学世界：计算机和婴幼儿学语言，差别在哪里？

宋謌平：婴幼儿学习语言，就有正反馈、负反馈，有加强、矫正的过程。所以这个学习的过程，器和婴儿很相近。但是婴儿学习语言主要是一个整体的学习，不会特意区分为识别、理解、合成等不同环节。除非是双语家庭，也很少有翻译的过程，合成与识别是同时训练的。而对机器来说，识别、翻译、合成，合起来太复杂，所以目前还是得分开作。对于人类的学习机制，现在还不是很清楚，只有一些模糊的概念。所以也只好一步步来，先分解成几段来作。

科学世界：将来的方向是不是整体学习？

宋謌平：将来的方向绝对是这样，在人与人之间说不同的语言，识别、翻译、合成的过程是交互的，是一个综合的过程。可是目前我们对这整个机制不是特别清楚，所以暂时只能把它们分开，个个处理。

人在讲话的时候，其实是边说边听，不仅仅是听别人说，也听到了自己说的语音。耳聋的人学说话很困难，就是因为他听不到自己说的话。这三个不同环节之间的串连叫做 “言语链”（speech chain）。就是说，人在对话的时候，双方都边说边听，还会随时调整自己的发音和表达方式。这是人与人之间对话时很正常的交流机制。

现在计算机还没有那么强的能力，对不够清晰的语音输入，识别的效果就会比较差。当然人也不见得能听得更清楚，可是人有能力根据说话时情境，语境和各自的经验进行“修补”。我们希望将来机器也可透过学习，得到这种能力。

科学世界：机器学习的时候，也会自己归纳出语法吗？

宋謌平：机器在识别的时候，不只认这个音，实际上是在认这个词语，它本身就含有语法。在机器里面储存有上百万个词汇。字跟字之间的组合很多，比如我说一个“中”，它的意思很多，如果是说“中国”、“中华”、“中间”等，它的意义就更明确。

机器的“猜”不是完全随机地猜，而是按照学习到的经验，看这个词出现的频率，或者看几个词共同出现的可能性。比如说在一个句子里面，“医生”跟“护士”、“医院”、“手术刀”、“药品”这些词常常会一起出现，它们之间的关系就比较密切。“医生”和“水沟”说不定就没那么大关系，当然也可能是说医生跳过水沟，但是这种情况出现的概率是不一样的。所以前面说到，要找有代表性的数据，就是说这些数据如果与你想做的应用有直接关系是最好的。如果没有关系，有时候就会有对不上的问题。

科学世界：我们可以先给机器输入语法规则吗？

宋謌平：我们也可以输入。但是目前来讲，大部分情况下，人工输入的语法不见得好用。语言常有很多例外，大家说话时，也未必遵守语法规则，特别是现在的许多网络用语，比如在美国，“4sale”是“for sale”的一种缩写方式。这在正规的英文里是不允许的，可是实际生活中像这样的非正规的表达非常多，在口语里更是常见。中文的同音字特别多，所以很可能在说和写的时候会产生一些新的词汇，表达了跟原来的同音词完全不同的意义。这些如果没有适当的数据去学习，就可能会遗漏。

科学世界：不同语言的翻译难度差别大不大？

宋謌平：中译英和英译中绝对是不对称的。可是总的来说，我觉得两个的难度差不多。因为一个语言如果不是太原始粗糙的语言，要涵盖和传递很多概念，它们的复杂度最后平均下来是差不多的。

科学世界：目前机器翻译的准确性如何，如何衡量？

宋謌平：日常使用现在还可以，但是还不能做很复杂的翻译，比如古诗。

我个人认为，真正的翻译不是简单地从一句A语言翻译成另外一句B语言，尤其在文学上更是如此。虽然可能词汇相同、说法类似，可是不同语境下的言外之意会相差很多。翻译李白的诗，从古到今一直是很难的事情。

关于怎样去衡量机器翻译的准确性。像语音合成、机器翻译，最后打分或者品鉴的都是人。可是人也各不相同，每个人要求的结果和预期都不一样。这主要是要看你的应用标准，对日常使用和要达到“信、达、雅”的境界来说，要求就很不相同。

语音合成的衡量，也是找人来听的。例如英语的语调，如果不是母语为英语的人，可能感觉就不对。发音的正确性，当然也是母语的说话人来判断最好。但是这也不见得就一定准，比如找山东人来听普通话的四声的话，就不见得很准，而且很可能是错误的。

用你的声音说外语

科学世界：什么是语音合成？

宋謌平：一个人可能只会说英文。我们要让机器能够合成出他的语音，用他的声音说出中文。这时，我们需要参考一个说中文的人，这两个人很可能性别不同、说话的方式不同。怎么样把中文说话人与英文说话人的语料之间在发音构造，如声带、舌头等方面的差别都消除，又是一个异中求同的事。

经过我们跨语言的语音合成以后，用里克•雷斯特的英文训练出来的语音合成器说的中文，听起来就是用他的语音说出的非常标准的普通话。

科学世界：语音合成现在能做到什么样的效果？

宋謌平：语音合成方面，我们有跨语种的应用。比如在北京用计算机或手机导航，地标是中文的，而一个英文的语音合成器是用只会说英文的人提供的语料训练的。我们希望用这个人的声音把中英文夹杂地说出来。总的来说，你可以听到从中文到英文之间几乎无缝的结合，感觉像是同样一个说的。

现在中英文混说的情况越来越多，尤其是在科技界、商业领域或者大学里面。比如一般人不会说“微软的视窗系统”，一定是说“微软的Windows”。当今交通便利，互联网实现了信息的便捷交换，不同语言之间的相互渗透也越来越多。

未来的语音技术

科学世界：计算机在口语考试中，是否可能超过真人？

宋謌平：这个很难讲。不过现在机器说的中文，找任何人来听，都不会认为这是外国人说的，因为几乎没有口音。让他读一首唐诗，可能比大部分人说的普通话都标准。所以它有可能超过真人，这就有很多可能的应用。

除了语言学习，机器学习还可以开发出很多个性化的应用。比如有人得了癌症，手术以后不能说话，那么手术以前可以把他的语音存储起来，手术后他就可以通过语音合成与人交流。对于瘫痪的患者，他甚至可以通过眼神注视的方式来控制键盘，把自己的意思用语音表达出来。

科学世界：智能语音目前还有哪些关键的问题有待突破？

宋謌平：有很多。例如目前计算机一个最大的问题就是“轻重不分”。比如从语音识别来讲，通常长的词不太容易认错，而介词像“of”、“in”、“on”、“at”这些，都比较容易认错，因为它们太短了。刚才讲到协同发音的问题，由于受到前面的词的影响，会使得说出的“of”这个词不像它原本的发音。这些“不太重要”的词，人都可以自动把它补全，但机器现在还不做不到。它如果把“of”听成了“at”，那么很可能翻译的结果就完全是驴唇不对马嘴。

科学世界：这个问题有没有可能通过学习解决？

宋謌平：通过学习都是有可能解决的，但是目前它要求得太细，我们还顾不到。

另外，虽然语音识别目前识别率还不错，可是在噪声比较大的环境里，或说在一个容易反射、有回声的环境里，识别还是很有问题的。还有，在语音合成方面，我们希望它能更多地表达情感、抑扬顿挫，不论是念诗、吟唱、说相声都能恰如其份。这些都还在需要研究人员的继续努力。

这些问题都很不容易。任何一点的突破，对于推进语音研究前沿都有帮助，而且一定非常振奋人心。未来几年智能语音可以达到什么样的水准，什么时候会产生突破也很难说，我们只能期待它不断进步。“为山九仞，功亏一篑”，所以不能停止，得努力往前推进。

科学世界：智能语音技术的“终极目标”是什么？

宋謌平：终极目标就是通过图灵测试，然机器和人做得一样好，或是更好。比如说语音合成的图灵测试便做到让人分不出来听到的话的是真人还是机器说的。其实有些能力，比如听音识别、语音翻译，人的能力未必是机器未来能力的上限。比如一个人通常能够识别出的说话人的范围很小，很可能只有几十个人。如果有个很久没联系的人打电话给你，这时候你可能就认不出来了。可是在这点上机器就比人强，它听过了就不会忘记。机器的计算能力也特别强，它不怕烦，不怕算。所以我们就继续做吧，看看机器最后能做到什么程度。

科学世界：是不是智能语音技术足够强大了以后，人就没必要学外语了？

宋謌平：有人说数学好的人，都会喜欢巴赫的音乐。巴赫的音乐，基本的内容很简单，但是变化无穷。语言也是类似的东西。你可以把学习外语当作一种兴趣、一种锻炼、甚至是一种娱乐。学习一种新东西，始终是很有趣的一件事。学习外语和学习新东西其实并没什么差别。当你去学习一个新的东西，你的思维、反应都会更灵敏一些。对学习者来说这是一种需要、兴趣和快乐。

我不认为这个世界会越来越平，大家还都是各说各话，会继续学习另外一种语言。因为语言对一个人来讲是开启另一种文化宝藏的钥匙。不懂得某种语言，自然就与这种文化隔得很，即使有了机器翻译的帮助，它还是隔，达不到那种“如人饮水，冷暖自治知”融汇贯通的妙境。

宋謌平，微软亚洲研究院首席研究员，语音研究组主任。从事语音研究工作超过30年，具有广泛的语音研究兴趣，包括语音建模、语音识别、语音合成等。已在语音与信号处理领域发表了二百余篇论文，并拥有十多项技术专利。他是美国电机电子工程师协会院士 (IEEE Fellow)，曾任IEEE主办的《声学语音及信号处理》期刊的副主编与学术与技术委员会委员。主持编写的《先进语音与说话人技术》一书广为学界同仁征引。

本文转载自《科学世界》杂志2015年第6期，已获转载许可。