标签:
微软ibm语音android |
分类: 大牌点名 |
你在彼岸,无论几点,都能收到祝福,勿忘心安。
是的,语音是新瓶装旧酒,它不但可以操控手机,还可以练达人情关系,所以Google、微软和IBM都不遗余力动手了,希冀在这个春天重新赢得下一块阵地的主导权。其中,Google的神经元系统,无疑抢了个头彩。
Google最新发布的Android系统,改善了用户的声音控制部分。一套被命名为神经元网络的语音识别系统,可以利用强大的计算量模拟人脑的行为模式。
Google研究人员Vincent Vanhoucke坦言,神经元网络是Google多年磨一剑的成果,为语音控制领域带来了巨大惊喜。Vanhoucke说,在新版本果冻豆系统中,语音纠错率比前一个版本大幅降低了25%,这让Android用户可以更轻松地享受语音控制。你不必再像一个1甲的播音员,对着屏幕吼。你可以像调戏小黄鸡一样,随意地聊天,这无疑将进一步改善用户体验,甚至是他们的生活方式。
神经元网络的计算模式本身也是技术上的革命。这个研究领域经历了上世纪80年代的火热之后曾经被冰封了若干年,如今卷土重来,声势浩大。微软和IBM也都加入了Google的团队,力图开发更多的接地气应用。
当你对着Android手机话筒倾诉衷肠,语音识别系统可以将你的声音频谱打包,分发到Google八大全球化服务器进行分析。瞬时,Vanhoucke和他的团队所设计的神经元系统火力全开。拥有多年大型数据处理经验的Google可以迅速反应,将计算结果反馈回用户手机,这活脱就是超一流的现代数据中心。
在具体分析活动中,Vanhoucke等研究人员可以有多重路径来解析语音频谱,将其导入预设的模式,利用生物学语法将其解构为信号细胞,最终为系统所用。Google至少建立了7个语言模型。这种模拟人脑运转的系统,利用了多样化的特征层来建立更好的概念系统,但是多伦多大学的计算科学教授Geoffrey Hinton还在质疑系统的效率。
简单地说,Android获得了语音控制频谱图,然后Google利用神经元网络进行解析。Google软件首次将母音与辅音进行详细分离,这是神经元系统的一层。然后系统再进行复杂的信息推断,每一层都在不断修正,直至精确结果。神经元系统算法同样可被用于分析图片。将以像素为单位的图片进行分解,便可以建立特征识别层,获取细节。
应该说,神经元网络再度唤醒了上世纪80年代的语音识别风潮,并且将多层分析描述导入了现实的轨道。2006年,Hinton和他的团队进行了两大改变,一方面是布局深度神经元网络——多层连接初战告捷。另一方面,图形运算单元也随着数以十亿级的计算能力提升了性价比。这种改变相差30倍。
如今,神经元网络算法已经让语音识别与图形识别纳入到正常轨道,不过Hinton认为这也仅仅是提升了预测能力。去年11月,多伦多大学团队利用神经元网络成功预测了现实世界的行为。
Jeff Dean认为,Google目前掌握的神经元网络算法,其实包含了一系列试验性产品——果冻豆系统上的语音系统绝对是走得最远的。下一步,可能就轮上图像搜索了。对于像素的综合分析可能会继续巩固Google在搜索江湖的地位。甚至通过语音控制,系统可以自动识别并且连上YouTube。
微软和IBM也在研究神经元网络。去年十月,微软的研究中心主任Rick Rashid在天津展示了语音处理软件的最新研究成果,不仅能轻松进行中英文切换,而且还能模仿Rashid的语音令人拍案叫绝。Rashid也预测,语音控制系统迟早会让用户突破语言的围栏,建立一个更好的美丽新世界。