加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

语音识别(SR)的秘密

(2015-07-14 03:10:12)

       语音识别(SR)功能是当今国外操作系统的标准特征,而国产操作系统根本不具备这种特质,而且国家队没有相关的主观动力,去开发实际可用的语音识别系统。与国外相比,国产操作系统落后了一大节子,怪谁?

    怎样让机器识别人的语音?其实大道理并不复杂,首先,让机器设备听懂元音,然后听懂辅音,将两者合成起来成为单词,再做进一步的处理。但是,实际做起来就复杂了。怎么做?

     建立“语料库”(Corpus),就是建立语音的声学模型库。比如,”猫“这个单词的发音,必须让机器记住“猫”的发音,设法让机器听到“猫”所对应的“声音”(所谓”生物信号“)就知道主人对它说的是“猫”。语料库就是建立单词与语音的对应关系。这是基本建设,需要投入大量的人力、物力,别无他法。

    任何语音都有个人特征,虽然100个人的发音基本相同,但是,存在一定的差异。所以机器的听觉总是存在“错误率”,这是必然的。降低机器识别错误率是必要的,这是一个基本认识,对机器不能要求过高。机器耳朵永远比不过人耳。

     微软、谷歌、百度语音识别巨头都拥有各自的数万小时的语料库,但是,我们却没有,Linux社区也没有GPL可用的语料库(VoxForge不带我们玩)。怎么办?天上不会自动掉馅饼。要知道,私有公司建立自己的版权大型语料库总是要付出巨大的投入成本。而我们有人喜欢天上掉馅饼,整天坐在院子里面张着大嘴巴对着蓝天等着天上掉下馅饼来。


袁萌 714



0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有