标签:
研究院20周年克雷格蒙迪tts语音合成3d真人头像自然用户界面 |
分类: 技术 |
从单一语言变多种语言
编者按:想象一下,不参加语言培训或是在家自学,就能够说上一口流利的外语。在微软研究院成立20周年庆祝活动中,微软亚洲研究院首次展示了微软首席研究与战略官克雷格·蒙迪的3D真人头像,不仅让头像结合嘴形和表情说了一段英文,还让它说了一段非常标准的中文普通话。这项功能结合了语音组研发的两项技术:1)跨语言的TTS语音合成(Cross-lingual Text-to-Speech);2)能说会动的3D真人头像。
编撰:任艳
庆祝微软全球研究院成立20周年时,微软亚洲研究院展示了首席研究及战略官克瑞格•蒙迪的3D真人头像,还让它了说了一段非常标准的中文普通话。这项功能是结合了微软亚洲研究院开发的两项技术——“跨语言的TTS(Cross-lingual
Text-to-Speech)语音合成”和“能说会动的3D真人头像”技术而实现的,可以让单一语言说话人跨越语言障碍,说出他从来没有学过的其他语言。
微软亚洲研究院语音组研究员王丽娟介绍了其生成过程。首先,研究员利用时长60分钟的克瑞格的英文公开演讲录音,训练了一个让克瑞格说普通话的TTS;然后将合成的普通话与3D真人头像对嘴,合成与发音同步的口型,再合成自然的头部动作和仿真的面部表情。最终经过巧妙的动画处理,使3D真人头像具备了说话自然,动作流畅和表情丰富的三种高度逼真合成的特点。
请看微软亚洲研究院王丽娟研究员的技术演讲及演示视频:
表情丰富、口型同步的虚拟化身(Avatar)
在看完演示之后,蒙迪表示:“我从来没有录过今天的这段中文普通话。但它确实是我的声音。他们对我的声音制作了一个计算模型。”
微软亚洲研究院利用最新的面部动画技术,用于控制虚拟化身(Avatar)的面部表情。在面部动画的世界里,动作捕捉和回放是高品质面部动画的基础。基本的方法是,研究员在一张生动的脸上放置一些标记点,并记录这些标记的运动。
标记的运动记录则用来绘制虚拟化身(Avatar)的面部。运动捕捉的优点在于,它能够提供大量的面部运动细节。动作捕捉的缺点是,它缺乏几何细节,因为它只能记录标记点的运动。激光扫描提供了大量的几何细节,但它不能提供有关运动的信息。这项新技术被称为“面部动作+”,它结合了两种技术的最大优势——既能像传统动作捕捉一样提供运动细节,又能像激光扫描一样提供几何细节。
微软亚洲研究院最近研发出的另一项技术是用于3D面部动画的口型同步。正如我们所知,渲染逼真的3D头像,其挑战之一是在嘴部。我们的嘴唇、牙齿和舌头是软组织,并且相互遮掩,也就是说准确的几何建模是非常困难的,也很难正确地对它们加以形变调整。嘴唇、牙齿和舌头需要与语音同步动作,否则人们就会留意到同步异常,并觉得它不够自然。
为了解决这个问题,研究小组用摄像头对一个人的声音和图像进行记录,这样可以同时记录语音和嘴部动作。然后,再对一个隐性马可夫统计模型(hidden Markv Model)进行自动训练,刻画出嘴部针对每一种声音的动作。在渲染中,统计模型将选择合适的样本,然后将2D图像样本投射到3D脸部造型上。这种方法实现了极高的真实度和高品质口形同步,并实现逼真的3D说话头像,可以将输入的任何文字转换成语音动画。
那如何把3D人脸模型和2D图像样本结合在一起呢?首先,我们建立了一个简单的头部模型。然后,我们合成一个嘴部运动图像序列,然后把这个图像序列覆盖到一个3D头部模型上。您可以想象,随着嘴的张开和闭合,投射到3D人脸模型上的2D图像序列也会张开及闭合,投影可以从不同角度观看。其结果实际上就是一个逼真的3D说话头像。这个说话头像是以微软亚洲研究院创新工程中心高级研发主管Matt Scott的头像为基础制作的,我们录制了他30分钟的2D视频。下面,让Matt的说话头像做一下自我介绍吧(视频5:07-5:45分钟)。
正如大家看到的,说话头像有自然的头部动作和面部表情。它可以很容易地根据任何用户的2D视频加以定制。它能够无缝地集成到任何3D场景中,有许多潜在应用,例如远距离呈现、在线游戏、社交网络、网上购物等。
我们把说话头像技术融入了必应字典,变身为英语教师。必应词典是必应中国的垂直搜索引擎之一。它为中英文必应用户提供了在线英语字典,用户可以通过观看许多必应词典例句合成视频,学习在朗读时嘴唇和舌头如何随着语音同步运动。必应词典的此项功能深受中国数以百万计的英语学习者的喜爱。
我们期待在语音翻译和Avatar技术方面探索更多的实际应用,像能说会动有表情的机器助理、高度逼真互动游戏和远程虚拟会议等。
自然用户界面的前景
这个为语言翻译而设计的虚拟化身(Avatar)只是微软研究院正在研究的众多新技术之一。
创建于微软雷德蒙总部的微软研究院,已经在全球其它地区设立了另外五个研究机构并且拥有850多名具备博士学位的研究员。9月27日是微软研究院建院20周年,克瑞格•蒙迪在位于北京的微软亚洲研究院拉开了全球庆祝活动的帷幕。
蒙迪管理微软全球研究院,并负责规划公司在未来20年的技术战略。他描述了通过触摸、声音,甚至用户的表情就能与机器进行交互的自然用户界面的前景。
蒙迪在接受采访时表示:“谈到自然交互,我们想到模拟人类的感觉。触摸、视觉、语音合成、识别以及让所有这些一起工作的能力,将是未来几年最重要的发展趋势。”
微软Xbox 360游戏机的Kinect就是微软在这个理念下的最新产品,让用户能够利用身体的动作玩游戏。微软希望Kinect不仅用于游戏和PC,与此同时其它自然用户界面技术也在研发中。20周年庆祝活动上,微软亚洲研究院网络搜索与数据挖掘组研究员王长虎博士展示了一个图片搜索工具MindFinder,让用户能够在互联网上通过物体的草图搜索出最匹配的图片。
微软还将其开发的自然用户界面技术扩展到了虚拟环境。虚拟化身不仅看上去像真实用户,而且能够模仿用户的声音和说话时的嘴型,让用户无需离开计算机即可实现类似真人面对面交流一样的效果,蒙迪表示。
他还表示:“我们的另一个梦想就是实现计算机的实时同声传译。我在办公室中用英语与北京说中文的人开会,也就是我的化身(Avatar)能够实时将我的英语转为中文。”
蒙迪认为,自然用户界面将改变未来的游戏规则,重塑市场。但这需要进一步改进这些技术,同时找到应用这些技术的新方式。Kinect就是其中一个很好的例子,它是微软研究院七、八个研究项目的结晶。
他还表示:“没有理由不相信这些自然用户界面将成为Windows体验的一部分。”
另一方面,蒙迪认为很难预测平板电脑属于整个计算领域的哪个部分。它属于一个特殊领域,太大无法放入口袋,而又缺乏PC的完整计算功能。
他表示:“PC和口袋型设备之间会有广泛的产品来实现各种任务,包括阅读、撰写和注解等。我认为会有这样的需求,而平板电脑可能会存在很长一段时间。或者它也有可能会被某些更好的技术所替代。”
参考文章:
How Microsoft Research Helped Craig Mundie Speak Chinese,by Michael Kan,IDG News
微软研究院20周年活动微软亚洲研究院语音组王丽娟研究员演讲稿
_______________________________________________________________________________________
欢迎关注
微软亚洲研究院人人网主页:http://page.renren.com/600674137
微软亚洲研究院微博:http://t.sina.com.cn/msra