会说话的3D照片_微软亚洲研究院

http://blog.sina.com.cn/u/1286528122

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

会说话的3D照片

(2012-03-27 17:27:03)

标签：

3d真人头像

tts语音合成

口型合成

隐马尔可夫模型

分类：技术

编者按：由于缺乏语言环境和专业外教，在学外语时我们往往会遇到很多困难，即便经过了努力的训练，最终练就的总是看得懂、写得了但是却说不出的哑巴外语。而微软亚洲研究院开发的3D说话头像技术则改善了这一问题，将免费外教带到了我们身边。

经过角度矫正的嘴部图片会被整理成一个口型库，在合成某语音时，系统会从库中挑出合适的图片用于口模的口型合成

本文转载自CHIP《新电脑》2012年02期

被称为3D Photo-Realistic Talking Head的技术可以为用户生成虚拟3D头像，该3D头像可以读出输入的文本，而且口型与语音能够与原用户十分近似。更为神奇的是，该3D头像不仅可以读出原用户从未说过的母语，通过与跨语言的TTS语音合成技术结合，该3D头像甚至还能精准地说外语。在前段时间微软研究院成立20周年的庆祝活动中，微软亚洲研究院首次展示了微软首席研究与战略官克雷格•蒙迪的3D头像，在现场演示中该3D头像不仅用英文与我们打招呼，还用中文与我们“聊”了一段。请看现场演示视频：

寻找基本音素

将3D“平均脸”与2D视频中的画面结合在一起，即可得到3D头像，而且眼睛、嘴等关键部位细节丰富

Talking Head的核心技术在于实现口型合成及语音合成，并将合成的语音与口型相互匹配，即可生成最终的虚拟影像。

口型和语音合成的前提条件是数据库中包含了一种语言可能发出的各种音调和口型，即便是让Talking Head模型去说全新的一段话，只要借助数据库中预先录制的基本音素和口型，同样可以拼接出十分真实的语音和口型。事实上，基本的音素数据库远没有想象中大，比如在录制必应词典英文的口模视频时，被选中的口模只是在摄像机前录制了几百个句子，就完成了数据库的建立，该数据库将包括几乎所有英语会用到的口型、发音以及大部分音与音的起承转合。

在对数据库进行建模时，微软亚洲研究院的研究员们采用了原来广泛用于语音识别的隐马尔可夫模型，这是一个基于统计的模型，并且允许数据在时间上具备延展性，这种延展性可以帮助我们忽略两次相同内容发音的差异，并进而抓取出两次发音的共同特征。在隐马尔可夫模型中一个音将被分为3段，比如发出“啊”音时，在模型中会被分为与前一个音衔接的阶段、声音稳定阶段、与下一个音的衔接阶段。无论这个“啊”声音调和长短如何变化，这3个阶段的特征总是不会改变的。使用这个模型分析之前录制的数据库，统计所有发音音素特征的方差和均值，最终也就构建出了包含所有音素发音可能的隐马尔可夫模型。

将隐马尔可夫模型反向应用，即可用来预测一个文本的语音应该怎么被读出来，简单地理解为同一个音素不管是什么人来读，在该模型中的数学均值和方差都是在一定范围内变化的，在这个变化范围中取出相对比较稳定的均值和方差数值，使用这些数值反向合成的语音能够被人们听懂。

隐马尔可夫模型广泛用于语音识别领域，将它应用于图像和音频合成同样有效

口型拼接

当然，除了使用隐马尔可夫模型外，要实现语音和口型的匹配还需要借助很多技术，例如强制对齐。在制作必应词典的口模视频时，实际上同时获取了视频、音频以及对应的文本信息，借助这些素材和语音算法，可以实现这些元素的强制对齐。借助这种方式，系统可以知道文本发出的每一个音在时间上的起始点和结束点。有了对齐的数据，隐马尔可夫模型在应用时会更加准确，效果也会更好。

在实现口型拼接时，我们看到拼接视频中的每一帧实际上都是从之前录制几百句基本音素的视频帧中抽取出来的。但如果只是简单地进行帧拼接，画面中人的头部会快速抖动。为了解决这个问题，微软亚洲研究院的研究员使用了面部特征分析技术，通过分析眼睛和嘴部的关键特征点的位置变化来判断头部的移动量，并根据移动量进行每一帧的图片校正，之后再按照一个固定形状单独把嘴的部分提取出来，进而获得所有嘴型的变化。

2D向3D迈进

通过上面的方法已经可以生成十分自然的口模视频，但是这个视频中的口模是2D的，如果想让口模按照语音的韵律自然地摆头几乎是不可能的，为了解决这个问题，微软亚洲研究院的研究员们最终开发出了3D Photo-Realistic Talking Head。

首先，微软亚洲研究院的研究员们根据一个公共数据库中激光扫描的人头3D数据生成了一个标准的3D模型，这个模型可以被理解成是这个数据库中所有3D模型数据的均值，即一张平均脸。通过适当地改变平均脸几个关键维度的参数，能够让这个平均脸更好地去适应现实中某个人的脸。借助这种方法就可以获得与某个特定人近似的3D头像模型，之后再将从2D合成视频得到的人脸2D图像通过投影的方式投射到这个3D头像模型上。这项新技术解决了传统3D人脸动画中的几个难题。首先是借助2D图像大大提高了3D模型对眉毛、眼睛、嘴等部分渲染的逼真度。另外，用物理建模的方式渲染并再现舌头的动作非常困难，因为舌头在口腔中的动作有的时候看不见。而原始图片可以十分出色地再现这些细节，使3D模型看起来更加自然。

此外，这种3D模型生成的成本也很低，以往将一个真实人物的头部转换成一个虚拟的3D模型往往要用到昂贵和复杂的设备。而3D Photo-Realistic Talking Head只需要借助一段预先录制的视频，就可以生成一个虚拟的3D模型。研究员们希望在不远的将来，每个人都能拥有自己的3D头像，这将在虚拟数字世界里给我们带来更加丰富的人生体验。

相关阅读：

微软亚洲研究院如何帮助克瑞格•蒙迪说中文

微软亚洲研究院的大数据与大智慧

自然人机交互与大数据——2012微软技术节构想未来计算愿景

创新的未来

___________________________________________________________________________________

欢迎关注

微软亚洲研究院人人网主页：http://page.renren.com/600674137

微软亚洲研究院微博：http://t.sina.com.cn/msra

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：ChronoZoom带你畅游万物历史

后一篇：IT 行业的创新 - 创新的迷思 (二)

新浪BLOG意见反馈留言板　欢迎批评指正