标签:
杂谈 |
语音识别技术已经发展有五年多了,虽然一些早期语音识别技术 :如语音拨号或桌面听写已经得到了广泛的应用, 但这些技术与今天蓬勃发展的虚拟代理或智能家居设备相比还是有些逊色的。如果你一直在关注语音识别技术市场的发展,你大概就会了解到早在六年前就有一大批公司开始关注这一领域,比如谷歌,苹果,亚马逊和微软(在一份简短的搜索报告中,共有26个美国公司开发了的语音识别技术)。
自那时以来,世界上最大的技术趋势制定者就已将开始加快发展速度,并在越来越多的领域设定了新的基准,例如谷歌最近向外界提供了公司新的开放式企业语音识别API。在机器学习系统方面的大规模的投资之后,谷歌目前看起来处在整个行业的领头羊地位。但这家拥有全球大量市场的科技巨头还存在着潜在的致命弱点——无法进入中国。
谷歌在中国的六年禁令是一个众所周知的事件,并且这条禁令缩短的可能性几乎为零。迄今为止,中国拥有着全世界最多的人口,世界上最多的移动用户,并且大多数中国人使用“语音到文本”的功能来启动查询搜索,并通过数字信息系统来导航。
谷歌可能会失去大量的普通话音频数据,但是百度并没有错过这个机会。作为中国最大的搜索引擎,百度已经收集了数以千计的普通话语音数据,并将这些数据存放在深度语音识别系统(Deep Speech2)中。这个系统可以依赖其自身的深度学习算法,完全独立得将普通话转换成英语(反之亦然)。
百度的深度语音识别系统的研究主要基于其在旧金山桑尼维尔的人工智能实验室。但奇怪的是,实验室里涉及到该项研究的科学家们并不能讲出一口流利的普通话、甚至对中文也了解甚少。阿里巴巴和腾讯是另外两家在中国市场中开发语音识别技术的关键公司。虽然两者都使用了深层学习平台,但这两家公司在宣传和覆盖面方面都没有达到百度的深度语音识别系统的水平。
尽管深度语音识别系统对普通话很精通,但是科学家在一开始并没有打算让它在普通话方面发展。 “我们用英语开发这个系统,但由于它的深度学习本领主要基于语音数据,而我们又拥有大量的普通话数据,所以这个机器具有强大的普通话搜索功能。”亚当·科茨博士,百度美国的人工智能实验室主任说道。
当深度语音识别系统在 2015年12月首次发布时,百度的首席科学家安德鲁·吴描述该系统在测试中已经超过了拥有10%错误率的谷歌的语音识别系统API,人工智能平台Wit.ai、微软的Bing语音和苹果听写系统。
根据百度,截至今年2月,深度语音识别2的最新发布的错误率在短句中为3.7%,而谷歌一年前宣布其错误率在8%(谷歌曾在一年中降低了15%错误率)。科茨称深度语音识别系统2的表现已经超越了人类,它甚至可以比地道的中国人翻译的更精准。此外,该系统还能够辨别“混合讲话”,就是很多中国人在说话时会夹杂这中文和英文。“因为该系统完全是数据驱动的,它可以自动进行混合转化。”科茨说。正由于这个功能,百度系统才可以在跨语言的情况下,表现得出色。
由于百度的阶段性突破,谷歌已经开始重建其语音识别系统。最新推出的云语音API系统具有将语音到文本转化到任何应用程序的能力。云语音API可以在各种嘈杂的环境中工作,并且能够识别超过80种的语言和方言。
图像分析是谷歌与亚马逊和微软公司较量中的另一个优势。通过GitHub,百度在2016年1月推出AI软件,用于扩增深度语音识别系统功能。但至今才发布类似API平台,百度和其优秀的研究团队看起来有显著影响这项科技的潜力。
百度没有完全透露它自身的科技发展方向。所以目前还很难确定在他们2015年12月推出深度语音识别系统2的后,他们接下来的产品提升方向。然而,从百度在其他业务和服务方面的技术发展中可以发现它们在语音识别系统方面的不断的进步和潜在影响力。
百度最近开始进入智能家居市场,并宣布与皮尔的智能家居平台联合,提供了一个受用户欢迎语音万能远程操控运用程序,该程序可以在智能手机和平板电脑中使用。
谷歌推出了一系列新型人工智能AI-主导产品,包括谷歌主页,允许用户用语音命令设备和娱乐系统的声控产品,这些产品都是基于“谷歌助手”语音识别技术(产品计划于今年晚些时候发布)。
科茨同时还表达了百度对人工智能助手的强烈兴趣和幕后的不断探索——出台的“百度助手”仅仅是公司一个小小的目标。
谷歌有世界上最好的科学家和庞大的技术预算,这使得它在行业中遥遥领先。但百度公司和其优秀的研究团队有更大的目标,它们希望能够在这类科技领域做出意义非凡的成就,并在利润丰厚的中国语音市场上占据一席之地。
话虽这么说,谷歌去年花了7500万美元收购中国的创业公司出门问问(Mobvoi),这家新型创企致力于移动设备的语音识别技术。随着语音识别技术的逐步发展,或许谷歌可以绕过其他美国和中国竞争对手,获得巨大的中国市场。
本文来自:加速会