加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

【国君计算机符健团队】思必驰重磅嘉宾解读苹果Siri以及语音交互产业趋势

(2016-06-14 18:31:33)
标签:

杂谈

财经

分类: 公司、行业研究

【国君计算机符健团队】思必驰重磅嘉宾解读苹果Siri以及语音交互产业趋势—电话会议纪要20160614

cbjchina2016.06.14分享

 

国君计算机是全市场最早,并且独家提出语音交互将成为下一代人机交互新范式的计算机团队。我们于6月2日第一时间外发报告(女皇诏曰:语音交互时代来了http://dwz.cn/3vD7lT),首推标的科大讯飞次日领涨人工智能板块!6月3日下午独家邀请A股人工智能龙头科大讯飞实际控制人之一、副总裁江涛召开电话会议(http://dwz.cn/3xNzFI),并于6月6日上午联合策略、TMT团队召开语音交互电话会议(http://dwz.cn/3xNtUp)!

投资建议:从语音识别、交互的角度来看,A股我们推荐科大讯飞、江南化工、东方网力、漫步者,新三板推荐捷通华声、智臻智能,一级市场建议关注思必驰、云知声、奇点机智等。

参会嘉宾:CEO 高始兴;联合创始人、首席科学家 俞凯;战略VP 郭浩然

主持人:陈宝健

会议时间:2016年6月14日

主持人:今天凌晨苹果开发者大会召开,对Siri进行开放和升级。我们国泰君安计算机团队也一直看好语音交互作为人机交互新入口,是各大计算机研究团队中最早关注语音交互领域的。今天,我们很高兴邀请思必驰的各位高管,为我们解读苹果Siri以及语音交互产业趋势。思必驰现在经历了两轮融资,而第二轮融资已经过亿。

主持人:思必驰是语音交互产业的明星公司。首先,有请介绍公司主要业务和发展规划。

高总:思必驰是语音交互业内唯一专注智能硬件的公司,包括车载、家具、机器人乃至穿戴设备。我们提供一站式语音交互服务,帮助合作伙伴提供AI系统和AI芯片模组。我们的AI系统有三个版本,面向三个垂直领域,整合各类语音能力,比如车载导航和电台等的整合。AI芯片模组则满足互联网特定状态的交互需求。我们的总部在苏州,产品和商务团队在深圳,北京也有分公司,对接大客户和市场。我们与上海交大建立了联合实验室,专门为思必驰研究底层技术,核心专利权全部归属思必驰。

主持人:思必驰的确在语音交互领域实力突出。我们也关注到,苹果在语音产业的布局相比亚马逊、谷歌稍慢,是否三者布局存在差异?与其它两家公司的产品相比,苹果Siri的竞争力如何?

俞总:有关我和苹果的渊源,我再补充一点:我在剑桥的师兄之前是全球最大的语音服务公司的首席架构师,现在是苹果语音方面的直接负责人。我们当时在剑桥的公司主要做语音交互,重点是对话技术这块。

苹果收购VocallQ后,成立新的语音交互研发公司,Siri现在最专注的是用交互的方式做自然语言的对话,而之前原始的Siri使用不太广泛,主要用来调剂、娱乐。Siri也从原先的语音合成和简单的语音交互向对话式的语音交互转变。此外,Siri还集成多模态的语音交互,针对图像、文字、语音等用户多种信息模态做不同的处理。

对比苹果和谷歌,苹果以产品为方向实现综合的交互技术,可以融合图像、用户ID和使用习惯,作为产品上综合的对话助手。与之相比,谷歌更像技术平台,更多在横向支撑更多开发者进行新的产品迭代,Google Now也在推交互式搜索。从大的方向,苹果可以做产品一体化服务体验,Google可以做一体化平台,现在苹果要做的好一些,它的用户体验更好。

苹果和亚马逊Alexa相比,Alexa只有语音,优势在于交互模态比较简单,容易上手,但缺乏多模态输入,用户体验的提升少一些。Alexa的优势则在于进入家居垂直线,把语音做到极致。但他们的共同点都是把人和机器通过语音链接起来。

而思必驰既做语音合成,也做语意理解,期望把对话做成链接人和机器的核心手段。

主持人:一级市场上,人工智能估值都很高,我们该如何判断企业竞争力?

郭总:一级市场存在周期性,14年是硬件,15年是金融,16年是人工智能。16年无论苹果还是国内厂商,都在推用户能接受的人工智能产品,用户也愿意为此产生消费,因而人工智能处在估值比较高的状态。人工智能现在相对其它板块一枝独秀,在这个阶段给予一些技术性公司较高的估值,是因为大家认为未来这个行业的技术壁垒很高,比如用公开的语音开放平台无法做到一线厂商的用户体验。

而之所以这么多创业公司涌现,是因为很多产业内很好的价值节点没有被很好的填补。未来需要更多公司来填补产业链,一级市场上供需还是存在一个平衡。

提问:怎么看待A股比较看好的语音音箱?苹果是否会开发类似亚马逊Echo的智能音箱产品?

俞总:智能音箱这个点可能成为爆品。智能家居是现在关注的热点,语音又是交互的重点,载体是什么?音箱是众多智能家居比较有优势的。首先,音箱的位置不是家庭的边边角角;其次,音箱承载语音输出功能,容易使用户接受作为语音交互载体。另外,电视也有可能。

对于苹果来讲,苹果的产品线很少,不一定推出音箱,因为Siri已经可以控制智能家居了,未来灯甚至都可能成为入口。

高总:Echo出货量现在达到400万台,大家看好它成为智能家居的生态核心,能够整合用户,撬动需求。我个人认为,音箱具备中心生态属性:1.刚性需求,高频次的应用;2.设备具有很强的服务拓展能力;3.用户有很好的交互体验;4.产品具备在用户市场很快落地的能力。音箱、电视、家庭机器人都可能成为未来入口,但家庭机器人的落地还存在问题,音箱相比更具有可能。

提问:苹果发布会主要涉及语音交互,与亚马逊的区别在于,用户数据保存在本地,但AI需要用户数据进行训练,那么,苹果将如何利用本地数据?

俞总:从技术上,第一,保存在本地的数据基本上没有办法提升性能,苹果应该是本地和云端的结合;第二,对于本地的模型本身,有一定的自身技术对本地的模型进行处理,将中间结果进行上传,而不是初始数据,可以保护用户隐私,技术上也可以实现。

提问:关于自然语言处理,Siri的上下文理解并不是很好,但智能家居和车载的用户体验还是不错,是不是自然语言处理在平时使用的场景是不是还是不错的,在Siri上就不太行?

俞总:如果进行严格对比,Siri和智能家居的性能相差不多。Siri之前专门进行了上下文理解的提升,在任何智能家居和车载领域都会用到类似Siri的语音处理技术。我们现在在做的自然语言处理,都是基于交互的自然语言处理,更关注上下文状态的理解和交互控制,会有针对地进行优化,是与之前不同的技术角度。苹果也逐步把这个技术用到Siri当中,所以未来Siri不会比车载和家居的理解能力差太多,总的来说,Siri的理解能力不算差,未来移动互联网也会更关注交互的认知计算。

提问:语音交互这一块,之前做文字交互的小Ai机器人的技术可以延续吗?

俞总:从技术上,肯定可以实现延续。交互本身就是综合的,图像、文字、语音都可以综合。但小Ai机器人主要做文字本身的理解,不是交互,当文字输入比较准确时可以比较好的应用,但如果语音识别转换成文字的准确率较低,那第二阶段的文字识别率就会受到影响。此外,现在主要是基于单句理解和简单上下文理解,扩展性和复杂的上下文理解会存在一定的限制,如果超越规则覆盖的范围,会受到限制,怎么把语音语意结合等就成为重要的问题。

提问:科大讯飞等都在做语音云平台,语音云平台的盈利模式和竞争格局如何?

高总:语音平台方面,国内包括思必驰在内,做平台尚早。整个智能硬件、物联网产业还处在早期,生态还没建立起来,开发应用都很少。在这个阶段,我们更多是和合作伙伴提升产品体验,促进生态的逐步完善,才能在之后提供面向开发者的平台。很多开发者以为注册了平台就能做出产品,其实不是,要等到整个产业成熟后才比较有优势。

整个智能语音行业,包括科大讯飞等都在做,这是好事,但大家定位不同。我们专注智能硬件、物联网,也有专注做产品,科大讯飞属于专注多个领域。但这个市场足够大,大家都会有成长,整个行业还是技术驱动的。每家公司都在高速发展,哪家公司能够迅速打穿这个市场,加速用户认知和生态完善,会为大的迭代变革创造巨大的机会。

郭总:大家现在更多地看到开放的云平台,而我们更专注场景覆盖和用户体验。我们希望提供商业闭环,未来无论从小生态和大生态都是几家公司占领市场,但目前还是跑马圈地阶段。

提问:语音识别、语音交互领域,国内公司和国外公司的差距如何?

俞总:在整体基础理论上,国内和国外还有差距,理论多是国外提出基础原创的东西,尤其是深度学习应用、新的解码方式等,但这一点也在很快地追赶。从产品技术性应用角度上,差别不大。尤其中文领域,国内巨头都是世界一流水平。国内有的公司通过平台转化,有的通过产品转化,大家角度不同,但中国有独特的用户和基础优势,各有千秋。总而言之,应用角度上国内不比国外差,但基础研究上可能还有些差距。

提问:关于多语种,尤其是中文的语音交互国内做得怎么样?亚马逊等的中文交互与国内有合作吗?

俞总:中国国内的中文语音交互不比国外差,但全系列英文交互在国内还没有,国内公司的国际化不如国外。中文只是国外公司的一部分,水平不会比国内强很多,谷歌、苹果虽然都希望自己来做这块技术,但也会选择国内公司进行合作,我们可以持续观察。

提问:俞总之前创办的公司主要针对中文还是英文的语音识别?

俞总:之前的公司主要针对语义本身的理解,和语种的关系并不是那么大。

提问:智能硬件公司、互联网公司采购服务的时候主要比较各家的产品,语音识别、语义理解的技术水平如何评估?

俞总:对于语音识别,最简单是通过错误率来评价,测试人员将口述和识别出来的内容进行对比,计算错误率。对于语义理解,也是将原始问题和最终理解结果进行对比,这是客观指标。此外,还有主观指标,自己感觉对还是不对。大的公司都会有自己的测试场景,覆盖不同的需求。

我们自己测试的时候,难度更大,我们还会附加交互过程中的状态等指标,以使得语音识别更加稳定。未来要做好整个语音领域的用户体验,需要做出整个模块级对话的成功率指标,这也是我们在内部测试时正在做的。现在还没有很完整的对话交互的测试,未来更复杂和更丰富的测试手段一定会被提出来。

提问:思必驰的收费模式如何?

高总:现在AI/OI主要通过许可模式收费,按照产品数量收费,极少按打包收费。

提问:中文语音识别的市场体系未来如何?

高总:对于不同类型的公司需要区别来看,从国内看,一类是科大讯飞布局特别广,从2B、2C的角度布局;BAT则从自己生态的角度布局;创业公司还有非常大的潜力,会出现独角兽企业,比如思必驰这类专注智能硬件平台或一些关注产品的公司。未来与垂直行业,比如教育、医疗的结合都是很有前景的,对创业公司来讲,在不同类型的商业模式领域都可能出现独角兽企业。


0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有