独家供稿:移动Labs
当地时间2011年10月4日上午10点(北京时间10月5日凌晨1点)苹果在美国加州总部召开发布会,苹果新任CEO蒂姆·库克首次主持重大产品发布会,正式推出新一代iPhone——iPhone 4S。iPhone 4S和iPhone 4相比虽然外观变化甚微,但是却进行了全面的升级,在软硬件方面均有较大复读的提升,其中尤以Siri语音控制功能最为突出。
一、Siri分析
2010年4月,苹果公司斥资2亿美元收购了一家名叫Siri的语音技术公司。其核心技术发源于史上最大的人工智能项目:五角大楼的CALO项目。CALO是“Cognitive Assistant that Learns and
Organizes”的缩写(会学习和组织的认知助理),这个项目汇聚了全球人工智能方面的顶尖科研人员。之前该公司曾在App store上推出过一个能够识别人们的语音,并针对人们提出的问题进行回答的应用,这就是iPhone 4s语音助理的前身。之后,苹果对此技术进行了优化,和iOS进行了深度整合,并在iPhone 4s上正式发布。
Siri的主要特点:
1.
语义理解
Siri和传统的语音识别有所不同。传统的语音识别是将用户所说的语音正确的识别转化为文本,比较有代表性的即为Google的Voice Search。而Siri则是在传统语音识别的基础上更进一步,对进行了语义的理解,并根据用户语音的意图进行回答。

例如,在 Siri 被苹果并购前的演示里,演示者说:“I like a
romantic place for Italian food near my
office”
如果是传统的语音识别,会将所说的语音转化为文字,其结果是显示“I like a romantic place for Italian food near my
office”
但Siri的回答是“I am looking
for a Italian restaurants which reviews say are romantic near your
wok in San Jose…”
这个回答说明 Siri 听懂了
romantic 是个形容词。并且知道 near my
office 是个地方。并且,找到了以前存储的用户的工作地点。并且,他知道怎么判断一个餐馆是否
romantic !(去搜索
reviews )
Siri是如何做到的?核心就在于其语义识别技术。

在如上图所示的Siri技术原理中,用户语音首先被语音识别服务转换为文字(Siri的语音识别服务是Nuance公司提供,苹果为了保证Siri的部署,购买了Nuance公司全系列产品的license),发送至Siri的语义理解服务。
Siri的语义理解服务,是对语音识别所获得文字进行语义和语法的识别判断,以“I like a romantic place for Italian food near my
office”为例,Siri语义识别服务在获得文本后,根据其语法模型进行语法分析,得出此为一个“主语+谓语+宾语+副词”的句法结构。其中,主语为 “I”,即用户,“like a romantic place”说明用户希望找一个地方,此地方的特征是 “romantic”,
“for Italian food”说明用户的目的是吃饭,而且是意大利食品,并且用户要求
“near my office”。根据这些关键信息,Siri按照算法,判断用户可能是在寻找一个在自己附近的浪漫得意大利餐厅。之后,利用Siri平台之后的服务提供商的引擎(如,reviews等)搜索,并将结果的文字按照语法进行整合,形成回答。
2.
交互设计
在被Siri华丽的语义识别效果吸引的同时,用户往往忽略的Siri的另一大特点--其巧妙的交互逻辑设计。
l
对话模式:Siri以对话框的形式组织和用户的交互过程,让Siri的使用过程拟人化,更为接近用户日常人与人的交流,适应用户习惯
l
特殊状态处理:Siri在交互过程中,由于网络或算法的制约,因此不可避免的存在延迟和错误,但Siri用了巧妙的人性化方式处理,使交互过程更加流畅。如当网络延时导致响应较慢,Siri会说“Let me
think…”; 如用户语义无法理解,Siri会说“Sorry, I
don’t know XXXX”等等
l
利用幽默感:Siri的交互过程,开创性的引入了幽默感的尝试,利用一些开玩笑似的回答,使交互过程不再像传统的语音识别一样死板。在带给用户结果的同时,使用户更为愉悦,更有意愿继续和Siri聊天。即使Siri的回答出现了错误,由于幽默感的作用,也会使用户的容错心理增加,不会因为像传统的语音识别应用一样,因为错误和不准确,缺少用户黏性。
3.
与iOS深度整合
苹果在收购Siri之后,将Siri作为一个常驻进程整合进入iOS,并与消息、提醒、天气、记事本、邮件、电话、浏览器等系统应用进行互通。Siri成为iPhone各应用的第二入口,可以用语音在和iPhone交互过程中,调用目标应用。

4. 新的搜索入口模式
苹果在利用Siri对互联网第三方数据提供商,例如Wolframe
Alpha、Yelp等进行了数据整合。这种看似正常的商务合作背后却隐藏了一种全新的搜索方式--推荐式搜索。利用用户问Siri“Who
is Obama”,Siri会利用自身的语义理解能力从Wolframe
Alpha获取Obama的相关内容直接进行展现。相对于目前传统的搜索模式,此种模式更为直接方便,让用户更容易接受。无论是用语音作为入口还是用文字作为入口,在可见的1-2年内,此种搜索方式将带来搜索产业新的革命。
Siri的主要场景:
Siri的主要适用场景集中在以下十四个方面:
l
Address Book
l
Calendars
l
Alarms
l
Email
l
Friends
l
Maps
l
Messages
l
Music
l
Notes
l
Phone
l
Reminders
l
Stocks
l
Weather
l
Web Search
Siri存在的问题:
l
识别率和用户的发音标准有关。对于发音标准的Native
speaker语音识别的正确率高,从而Siri可以更准确地把握用户的语义做出正确的反应。而对发音不标准的用户以及non-native speaker,Siri的语音识别错误会导致直接执行错误指令
l
Siri对于复杂环境的鲁棒性较差。比如在车站、饭馆等嘈杂环境,Siri因为在环境噪声的干扰下,几乎无法正常工作。因此Siri对于使用环境是有要求的。
l
Siri的理解能力和句子的复杂度有关。句子越复杂,其理解正确率会逐渐下降。如测试“I like a restaurant for
dinner.”,Siri回答“I found a
number of restaurants .. 23 of them are fairly close to
you:”,但当换为复杂句“-I like a
romantic and modern restaurant which supply Chinese food for dinner
near my office.”Siri会回答“I will try
to remember that.”
小结:
Siri的出现,为沉寂多年的语音交互技术提供了一种新的思维方式,借用语义理解技术及对话管理技术,将语音交互从语音转文字的阶段,带入了智能语音交互阶段。尽管Siri的用户体验无法堪称完美,并且和人与人之间的交流相比还有距离,但Siri毫无疑问,将作为语音交互史上的重要里程碑,推动语音交互技术的不断发展。
二、行业分析
l
Google Voice
Actions:可以完成对用户语义的理解,但依赖于Google搜索引擎结果。Android系统的Voice Actions也是一项伟大的技术,并已经被许多Android用户所熟知和使用。但它和Siri不是同一个层面的产品。Voice Actions提供了非常坚实可靠的声音识别引擎,它具有的非常高的识别度,并开创了利用云计算服务进行语音转文字商用的先河。不过,其依赖于Google搜索引擎的搜索结果,并不对结果进行处理。对于搜索结果不准确的时候,其返回结果也将会有问题。但传闻Google正在进行自然语言理解相关产品研发,在今年Q4有可能发布此产品。
l
Nuance产品:具备语音识别为文字能力,通过收购完善语义理解能力。作为世界上最大的语音技术提供商,Nuance具有完善的语音识别和语音合成技术的解决方案,并且覆盖了世界上50于种语种。多年来Nuance凭借其资本运作,先后收购了Scansoft、Swype、T9等语音技术和输入法技术公司,占据了该领域1000多项专利。目前,Nuance拥有80%的语音识别市场,超过20亿用户。Nuance专注与语音识别合成技术和输入法,对于语义识别技术投入力量较少,因此目前还没有推出过类似Siri的产品,但据了解其内部也正在研发类似产品。而正因为Nuance其语音识别技术的准确性极高,致使苹果使用Nuance作为Siri的语音识别引擎,从而保证了Siri的用户体验。最新动态显示,Nuance已经将Vlingo收购,Nuance预计也将在自然语言理解上进行发力。
l
Vlingo:具备语义识别能力,但交互设计相对Siri较差,需要支持中文。作为Nuance收购Scansoft之后,出走技术骨干组建的一家语音技术公司,其继承了Scansoft的核心技术,在语音识别领域具有很强的技术实力。Vlingo在Android平台和iPhone平台都推出了类似Siri的产品Vlingo Assistant。产品本身也具有语义理解的能力,但在交互逻辑的设计依然有较强的语音命令的模式,缺少类似Siri的自然交互逻辑。虽然具有中文支持能力,但依然距离产品有一定距离。
l
科大讯飞产品:基于中文语音识别为文字能力,研发语义理解能力。作为中国语音技术的“国家队”,科大讯飞专注于中文的语音识别和合成技术,其2010年发布的“语音云”平台和基于此云计算平台的讯飞语音输入法,均已经在国内快速占据了庞大的市场份额,并且其根据中国用户特点,支持方言及少数民族语言。研究院通过与其合作已经在OPhoneOS上支持了语音识别和合成能力。但由于科大讯飞的发展模式和Nuance及其相似,因此其语音技术依然注重在中文语音识别领域的研究发展,对于语义理解刚刚开始进行研发。但经过1个季度的努力,讯飞在3月22日发布了新一代“语音云”,并利用语音云的自然语言理解能力,发布了其参考应用--“讯飞语点”,是截止目前为止最为优秀的中文类Siri产品之一。
三、语音识别技术及应用发展展望
Siri的发布,使业界对于语音技术的发展再次聚焦。回顾语音技术的发展史,上世纪90年代,以IBM ViaVoice为代表的语音产品,基于特定人连续语音识别技术,将语音技术从实验室带入了商用市场,开始了语音技术大规模商用的序幕。本世纪初,随着Nuance、科大讯飞等专注语音技术的公司对语音技术商用化的推动,使以语音识别和语音合成为代表的技术从PC平台进入了到了移动终端市场,开启语音技术发展的又一次高潮。但无论是ViaVoice还是嵌入式的语音技术,均由于其识别率的问题,制约了用户体验,未能成为一项真正实用的技术。
直到2008年Google推出Voice Search,利用云计算技术使语音识别的正确率大幅度提高,为语音技术发展注入了一针强心剂。随着后续Nuance、讯飞等专业厂商的跟进,语音云平台开始跟随IVR、输入法、微博等应用逐渐进入用户的日常生活。
而Siri的出现,让语音技术出现了一次质的飞跃。相比以前追求语音识别正确率的语音技术,Siri具备了一定的语义识别能力,不再是对用户语音的记录,而是开始理解其中的意思,并做出响应。
可以预见在今后的1-2年,Siri会成为被Google、Microsoft、Nuance、科大讯飞效仿超越的对象,也将导致语音技术可能按照如下的方向持续演进
l
语音识别与语义识别进行融合:Siri的语义理解为语音技术的发展打开一扇窗,但由于目前语义理解技术和语音识别相比依然较为薄弱,对于复杂的语言的理解还是能力有限,因此业界公司会针对语义识别加大研发,并且将语音识别技术和语义识别技术进行融合,使其由目前Siri的先识别语音后理解文字的模式变为直接对语音的理解。
l
借用辅助技术,使语音交互由被动试交互逐渐发展为主动试交互:到目前为止,语音应用都在遵循一种用户首先唤起语音应用进行交互的模式,包括Siri也是如此。但此种模式仿佛是在和一个不爱说话的人交流,而由机器主动发起的交流更符合人们日常的交互场景。因此,借用更多的生物识别技术来感知用户的情绪、周边环境等辅助信息,使语音应用可以在合适的时间发起合适的交互,也很可能会被作为超越Siri的技术点,得以发展。
l
协助用户的任务自动处理技术:Siri的发布过程已经为用户展示了对用户语义理解之后,为用户自动设定提醒等功能,极大地方便了用户。由此不难预见,语音技术衍生应用将会更深的挖掘自动处理技术,比如自动接电话的语音助手等。利用不断升级的语音语义理解技术,让手机帮助用户完成更多更为复杂的操作,可能将会是语音应用发展的下一个热点。
四、总结
作为人类最自然的交互方式之一,语音交互从其诞生开始就在人类科技发展中占据了重要的位置。从60年代到今天
,语音技术已经从只能识别基本的几个数字发展到了以Siri为代表的融合了人工智能技术的智能语音助手,从实验室产品变成了每个用户身边的热门应用,从只能处理简单的命令到可以帮助用户处理越来越复杂的事情。而这一切改变仅仅历时了5个10年….
想想下一个10年,伴随着技术的发展,智能语音交互技术必然将成为沟通人和机器之间的最有效桥梁,对人类的日常生活产生深远的影响。
本博文作者发表在移动Labs的原文链接是:http://labs.chinamobile.com/mblog/40196/168035
【相关博文】
Siri+
Wolfram Alpha……正在改变用户搜索习惯
10086智能短信回复离siri还有多远
【精彩推荐】
【独家翻译】物联网如何把城市转变成生命有机体
【独家翻译】融合物联网
【独家翻译】Charalampos
Doukas:使用Arduino构建物联网
物联网标准通过
将刺激网络智能家电发展
你身边无处不在的用户体验
什么是root?常用的root工具有哪几种?
那些年我们追过的诺基亚Symbian手机
新款iPad值得注意的10个潜在的缺陷
十大最受欢迎和最不受欢迎国产品牌出炉
全球智慧医疗应用现状及发展规划
交通运输部与北京合作开展智能交通建设
受汽车的主动安全性影响
对传感器性能要求更高
中国“织”网:物联网第一个五年计划颁布
加载中,请稍候......