加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

你说英语够地道吗?——必应词典“我爱说英语”来给你准确打个分

(2014-06-20 20:42:23)
标签:

微软

亚洲研究院

必应搜索团队

我爱说英语

必应词典

分类: 技术
你说英语够地道吗?——必应词典“我爱说英语”来给你准确打个分 

你的口语够地道吗?和美国人还有哪些距离?提升的空间在何处?必应词典“我爱说英语”将为你一一指出。

 

微软亚洲研究院和微软(亚洲)互联网工程院(以下简称必应产品团队)联手打造的“我爱说英语”是必应词典的全新模块,在听说以及跟读的过程中,帮助使用者评估并不断提升自己的口语水平,最终说一口流利标准的英语。

 

该模块现已实现了PC,Windows Phone、Android和iOS平台的覆盖。在各个平台的手机商城下载最新版“必应词典”应用,点开“我爱说英语”,一天一天练习,一口流利的英语指日可待!

 

“我爱说英语”如何帮助英语学习者学习英语口语?其工作原理是什么?

 

用户依据自己的英文水平,选择不同等级的语境。而后“我爱说英语”将会根据用户的选择给出相应的英文句子,并提供语音领读。用户在听完领读后跟读,随后系统会评估每个单词的发音,给出分数并提示需要改善的部分。

你说英语够地道吗?——必应词典“我爱说英语”来给你准确打个分

 

你说英语够地道吗?——必应词典“我爱说英语”来给你准确打个分

 

你说英语够地道吗?——必应词典“我爱说英语”来给你准确打个分

 

“通过‘我爱说英语’,我们希望用户就像每天都随身带着一名能说地道英语的老师一样。”来自微软(亚洲)互联网工程院的首席研发总监邹欣介绍道。

 

通过与微软亚洲研究院有着多年语音研究经验的资深研究员联手,“我爱说英语”最显著的优势是机器打分的准确率高,能真实反映跟读者的英语口语水平,因而用户能知道他的口语发音的水平和问题所在。

 

那这一强大功能背后有什么样的研究和开发故事呢?什么样的算法支撑着高准确率的打分系统?什么样的系统开发让用户享受更顺畅、舒适的使用体验?


 

深层神经网络(DNN)加速语音算法研究

 

语音识别是教电脑怎么“听”,语音合成是教电脑怎么“说”——虽然“我爱说英语”是教语言学习者说上一口流利的英语,但技术原理都是一样,先得教电脑识别语音。

 

必应词典的这个功能起源于微软亚洲研究院语音组主管研究员钱瑶所负责的一项研究项目——“用深度学习的方法训练并评估发音“。

 

介绍到这个项目时,钱瑶说道:“教电脑识别语言,必然需要很多的训练数据,随后根据这些数据训练出一个统计模型,计算机就可以自动实现语音识别。在这个项目里,我们也需要建立这样一个模型,其数据主要来源是两百多个美国人的语音数据,都是标准地道的发音数据集。”。

 

“最近比较火的机器学习方法是深层神经网络,我们也使用了这个方法,学习出一些模式(pattern),让计算机在听了跟读者的发音后自动做出判断,告诉你哪些音发得好、哪些音发得不好。”钱瑶继续介绍道。

 

那么,为什么基于此方法,模型的打分系统准确率特别高?

 

 “语音模型的学习在深层神经网络(DNN)阶段得到了很大的突破——深层神经网络(DNN)对数据建模、尤其是时变的函数建模、随机程序建模是很有效的。而语音是其中的典型例子,比如一句话就是一个时变函数,能量强度随着时间和频率而变化。” 微软研究院语音组首席研究员宋謌平解释道。

 

“在研究中,我们需要找到这个深层神经网络中的输入和输出的关系。在输入是有很多特征函数的语音后,输出对于某一些特别的语音单位的后验概率。利用这种映射,我们可以找到他们之间的关系,这是一个随机函数的概率模型。对于信号本身来讲,它要求的假设很少。使用深层神经网络的学习方法,基本上你只要找到输入和输出的对应关系,它就能训练出一个模型。而相比之下,以前所使用的高斯混合模型(Gaussian mixture models, GMMs)准确性的确不够高。” 宋謌平进一步解释道。

 

此外,计算机是把跟读者的发音与数据集中的两百个美国人的发音样本进行比较,考虑多种语音音色、声调的可能性;并且在计算计较过程中,按照音素(甚至分成比音素更小的次音素)来将用户的发音与标准发音 “对号入座”,检查差异,提供准确的发音得分。

 

“我们的数据集里有两百多个人,其中包括男男女女、老老少少,语音识别基本上也是一个概率统计分布的问题。经过比较后,你的声音(包括语音、语调、停顿、频率等)跟这两百个标准美语人当中的任何一个人较接近,那你的得分就会比较高。”钱瑶解释道。

 

 

从算法到产品

 

算法到产品之间的距离要如何填补——如何把研究仅需的桌面单机程序转化为用户能舒心使用的产品。这时微软亚洲研究院创新工程组的同事黄贤俊和郭旭就开始扮演重要的角色。他们在研究员与必应产品组开发工程师之间架设起一座桥梁,扫除各类障碍,最终实现功能的上线。

 

深层神经网络(DNN)学习方法带来极高的准确率,却也带来了一些问题。其中最主要的问题是该模型所占用的空间很大,运行速度也慢得多。

 

对于产品而言,这是大忌,既消耗和占用许多有效资源,也不能给用户带来及时反应便捷、舒适的体验。必应词典中的“我爱说英语”模块的语音评估服务基于微软公有云Microsoft Azure平台运行,如果不能有效解决这个问题,产品化将难以继续进行。

 

为实现最终的产品化,微软亚洲研究院的研究员和工程师做了不少工作,包括缩小模型、减少其占用的空间,对其进行提速。

 

“我们使用了奇异值分解(SVD, singular value decomposition),把无效没用的东西进行压缩,在不损失效用的前提下压缩模型的数据。这样,模型数据的正确性几乎没有损失,其大小却适合上线以提供用户服务。” 宋謌平说道。

 

“从算法到系统的开发过程是重复迭代的,不断发酵、优化,是螺旋式反复上升的过程。”微软亚洲研究院创新工程组的工程师黄贤俊谈道。

 

在后期的测试中,必应团队邀请了10 位参加托福考试的同学参加产品原型的测试,与他们的托福口语成绩进行比对,检测打分准确率的高低。

 

而最后,他们的托福口语实际成绩与“我爱说英语”打分结果的相关性超过80%。

 

其实早在2012年,在微软雷德蒙总部举办的微软技术节上,宋謌平和创新工程组同事郭旭合作演示了这项技术成果。在展示中,他们发现——与多数土生土长的中国人相比,外国人或有海外经历的华人的口语得分明显高出一大截,二者有质的区别。这也侧面表明”我爱说英语“打分系统的准确率是很高的。

 

 

更多的期待

谈道这次合作,宋謌平笑着说道:“这是一次很愉快的合作。其实,这不是微软亚洲研究院和必应产品团队的第一次合作了,频繁的沟通让产品转化的想法得以发酵,而多次的合作又让转化的过程更为流畅,已经是轻车熟路,顺水推舟了。”

 

微软(亚洲)互联网工程院的首席研发总监邹欣对此也深有感触。他曾经在研究院带队七年,负责产品转化和创新。他说:“ 许多创新的想法都需要快速在实践中收集反馈,  产品和研究部门需要紧密结合,   不断琢磨如何把技术的新突破通过合适的软件工程的手段和设计,  给用户带来实际的价值.    我们都期待把更多前沿研究成果带到用户面前。”

 

必应产品团队的工程师李春旭也谈了谈自己的感受:“虽然在开发初期,供用户学习发音的素材还不够丰富,但打分的准确性却非常高,让我们对开发充满信心。此外,随着访问量的上升,产品代码也相对稳定可靠。如果没有微软亚洲研究院的研究员和工程师的热心和持续合作,我们很难做出这么棒的产品!”

 

“必应团队大约花了2周左右的时间就开发出了第一个版本,还是比较快的。并且,在开发过程中,加入了互动、社交的元素,比如可以分享测试结果等,让产品变得更有意思、更有乐趣。” 微软亚洲研究院创新工程组的黄贤俊谈道。

 

贤俊对教育类应用有着不少期待,他说道:“去年,我开始接触教育类应用,一直想做所有人都能使用的好应用,真希望‘我爱说英语’能给更多英语学习者带来好处。”

 

未来,“我爱说英语”的功能将不断完善,带给用户更多的惊喜。期待科技与教育的结合,将惠及更多人!

 

相关链接

下载必应词典

用深度学习的方法训练并评估发音

技术怎样弥合语言鸿沟——语音翻译有望帮助连接我们的世界

Skype Translator,梦想照进现实——微软研究院助力Skype实现跨语言的实时对话



 

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有