语音识别（SR）的秘密_北大袁萌

http://blog.sina.com.cn/u/1317372297

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

语音识别（SR）的秘密

(2015-07-14 03:10:12)

语音识别（SR）功能是当今国外操作系统的标准特征，而国产操作系统根本不具备这种特质，而且国家队没有相关的主观动力，去开发实际可用的语音识别系统。与国外相比，国产操作系统落后了一大节子，怪谁？

怎样让机器识别人的语音？其实大道理并不复杂，首先，让机器设备听懂元音，然后听懂辅音，将两者合成起来成为单词，再做进一步的处理。但是，实际做起来就复杂了。怎么做？

建立“语料库”（Corpus），就是建立语音的声学模型库。比如，”猫“这个单词的发音，必须让机器记住“猫”的发音，设法让机器听到“猫”所对应的“声音”（所谓”生物信号“）就知道主人对它说的是“猫”。语料库就是建立单词与语音的对应关系。这是基本建设，需要投入大量的人力、物力，别无他法。

任何语音都有个人特征，虽然100个人的发音基本相同，但是，存在一定的差异。所以机器的听觉总是存在“错误率”，这是必然的。降低机器识别错误率是必要的，这是一个基本认识，对机器不能要求过高。机器耳朵永远比不过人耳。

微软、谷歌、百度语音识别巨头都拥有各自的数万小时的语料库，但是，我们却没有，Linux社区也没有GPL可用的语料库（VoxForge不带我们玩）。怎么办？天上不会自动掉馅饼。要知道，私有公司建立自己的版权大型语料库总是要付出巨大的投入成本。而我们有人喜欢天上掉馅饼，整天坐在院子里面张着大嘴巴对着蓝天等着天上掉下馅饼来。

袁萌 7月14日

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：语音识别技术为何成为当今科技研究的最大热点？

后一篇：语音识别及其应用出现“井喷式”发展

新浪BLOG意见反馈留言板　欢迎批评指正