语音交互机器人的优缺点及商业化问题_彭军辉

http://blog.sina.com.cn/u/1584271041

首页博文目录关于我

个人资料

彭军辉

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：0

博客访问：1,483
关注人气：5
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

语音交互机器人的优缺点及商业化问题

(2020-06-21 11:53:58)

本文主要观点：

1. 给电脑手机加上语音交互并不能让它们更好用，对它们来讲语音交互只是鸡肋。

2. 拥有智能，能主动理解用户意图，主动服务的才叫机器人，否则还是电脑手机一类产品。

3. 机器人时代必将到来，但这需要许多企业许多人一起努力。让机器人普及起来的工程量比登月工程要大。

4. 要调动全民参与机器人内容建设的积极性需要先为机器人找到基本应用。

有一次在一个机器人行业的聚会上，我说“我们大家的共同梦想是让机器人能进入世界的每个角落”获得了大家一致认可。但后来我发现我们之间在很多问题上有分歧。比如对于什么是机器人这个问题，大家就很难达成一致。有人说有人形的就是机器人，有人说能自己规划路径自由行走的就是机器人，有的说能语音交互的就是机器人等等。我则认为，拥有智能的才叫机器人。

搞不清什么是机器人就贸然进入这个行业，后果必然是可悲的。比如，某家上市公司一下生产了一大批机器人（可能有几十万台）；结果直到他们退市，他们的机器人还没卖完。这听起来像个笑话，但却是真实发生了的。我们看市场上好多量产了的机器人，BOM成本三五百块钱的，现在按一两百块钱就卖。有人可能觉得我在嘲讽他，其实我只是就事论事，并没有针对任何人。我好多朋友的库房都堆着大量卖不出的机器人。

其实市场对机器人的需求一直是有的，但我们做不出来满足需求的产品。经常会有用户说“你们那个不就是人形的平板电脑吗？”对机器人的定义错了，就不可能做出来满足市场需求的产品。如果给电脑或者手机加上人形的壳子就说是机器人，那估计只有小朋友才会买单。如果只是给电脑或者手机加上语音交互就认为是机器人，那苹果手机和安装windows的电脑都是机器人了。苹果手机有SIRI，windows有cotana。

能说服用户为机器人买单的唯一理由就是，它比电脑手机更好用。把电脑手机做成人形或者仅仅是给它们加上语音交互并不能让它们变得更加好用。

其实机器人和电脑手机有本质区别，它是一个全然不同的物种。它和电脑手机的差别主要有以下几点：

1. 机器人主动为人服务，它拥有智能，它以人为中心，使用门槛低，学习成本低。而电脑手机需要我们去操作它们，需要我们去学习怎么操作它们，使用门槛高。一开始我想做个简单好用的输入法，后来发现输入法还是有学习成本，能不能让机器主动理解人，即便人说错了或者表达不清楚，机器也能理解。后来经过摸索，我觉得这个是可以实现的。比如，我们人和人说话，如果对方是个孩子或者智力低下的人，我们也能理解，因为我们有智能。如果两个都是孩子或者智力低下的人，交流就没法进行了。所以只要让机器拥有了人类的智能，就能理解人了。

2. 机器人处理的是自然语言、图像（人脸）、声音这些非格式化数据；电脑处理的是键盘输入、触屏输入、命令化操作这些格式化数据。人们把自然语言处理、人脸识别、图像识别、语音识别和语音合成等叫人工智能，它们都是处理非格式化数据的。自然语言、图像（人脸）、声音有共同特点，它们都是不稳定、不明确、不规范的。我们人和人说话经常只要对方能听懂就行了，不会按照标准语法规范去表达。人脸识别经常会出错，因为图像有时候清晰有时候模糊。语音识别也经常会出错，因为每个人的发音并不总是那么标准。拥有智能，才能处理这些非格式化数据。当语音识别把“前进”识别成“天津”，电脑手机就会按照“天津”去处理，而机器人要去推测用户的意图，如果它认为你是要它往前走，它就会往前走。

3. 机器人对用户需求的响应是思辨式处理的，而电脑手机是条件反射式处理的。电脑手机对用户输入的处理是条件反射式的。在键盘上输入什么，屏幕上显示什么。你给机器人说“前进”，它要考虑往前走是不是会撞墙或者掉沟里。如果并不能直接朝前走，它会绕过障碍物或者沟壑再朝前走。而你向遥控汽车发出前进指令，前面有墙它会撞上去，前面有坑，它会掉下去。思辨式处理就是智能，只有思辨式处理才能处理自然语言、图像、声音这些非格式化数据。

4. 能否处理未知是机器人和电脑手机的另一个区别。电脑手机处理不了未提前设置好的事项。在键盘上输入什么，屏幕上显示什么，这些都是提前设置好的。如果只能处理提前设置好的东西，就不是机器人。处理未知的能力非常重要。比如自动驾驶在路上就会遇到很多突发状况，突发状况就是未知。我一直认为在汽车没有处理未知能力之前让它上路是不负责任的。只有拥有智能才能处理未知。处理未知需要思辨，而不是条件反射。我们垃圾分类宣传员机器人只存入了“啤酒瓶是什么垃圾”就能回答“装满了啤酒的啤酒瓶是什么垃圾”“啤酒瓶打碎了是什么垃圾”“进口啤酒的啤酒瓶是什么垃圾”等等问题。而这一点，竞争对手是做不到的。（对未知的处理并不是万能的，我们机器人大脑也只能做到用现有的知识处理语义相似的未知问题。）

结论：具有思辩能力，有智能，能处理自然语言、图像、声音的是机器人，否则就不是机器人。

那为什么给电脑手机加上语音交互不是机器人呢？因为电脑手机虽然加上了语音交互，并没有增加它们的智能，它们的处理方式本质还是条件反射。

只有深刻认识什么是机器人，才可能做出来真正的机器人。用户虽然讲不清楚什么是机器人，但它们对机器人的模糊认知已经足以让它们做出正确的选择。只有真正的机器人才能替代手机电脑进入千家万户进入世界的各个角落。

语音交互机器人的优缺点都很明显。

它的缺点主要是：在嘈杂的环境不能使用，不利于保护隐私，要改变用户使用习惯，语音识别经常出错，需要大量内容支持。

它的优点主要是：解放双手和双眼；交互不一定需要近距离；使用门槛低学习成本低，老人小孩也能用；能处理复杂句子让交互变得高效。

如果语音交互机器人广泛使用起来，输入法就没有那么大价值了。

语音交互机器人生态和电脑手机生态一样需要三个角色：系统、内容、载体。电脑手机都是载体，机器人本体（硬件）也是载体。只有载体没有系统和内容的机器人就像电脑手机没装操作系统和应用一样，没有啥用。机器人装了系统，没有内容，也没有用；就像电脑手机没有装应用一样。我们氖星机器人大脑相当于机器人的操作系统，但机器人大脑又有很多和操作系统不同的地方。

语音交互机器人的优点决定了它必然会被广泛使用起来。但我们要走的路还很长。

仅仅做好机器人本体（硬件）就好像生产了一个没有操作系统的电脑一样，没有多少商业价值。给机器人本体（硬件）装上一个语音交互的APP就有商业价值了吗？还是不对。并不是所有的语音交互的APP都能让用户认可。如果那样SIRI早已让苹果手机变成机器人了。

真正的改变是在底层的，把条件反射式交互变成思辨式交互才能让机器人拥有智能。机器人大脑让机器拥有思辨能力。有大脑的才是机器人，没有大脑的产品给用户的体验和电脑手机没有啥差别，甚至可能还不如电脑手机。很多厂商不去做底层的改变，虽然做了大量的内容或者应用，但用户体验很差，导致产品用不起来，最终失败了。安卓、IOS、windows是处理格式化数据的，并不能很好处理自然语言、图像和语音这样的非格式化数据。

只有在机器人大脑的平台上构建起来的应用才能很好处理自然语言、图像和语音这样的非格式化数据，才能让机器人拥有智能，才能让用户觉得好用。

我们花了很多年把机器人大脑做到相对完善了，我们可以装在许多智能硬件上，但我们发现内容制作工程量非常大。电脑有互联网提供内容支撑，手机有移动互联网提供内容支撑，机器人只有建立与互联网和移动互联网内容规模相当的内容才能和电脑手机竞争。如果没有内容，我们机器人大脑的价值也会大打折扣。但内容制作是个大工程，需要全社会参与。怎么调动全社会参与机器人大脑内容建设呢？

电脑有基本功能是办公，手机有基本功能是通讯，而机器人目前还没有找到这样的基本功能。如果机器人能找到最适合它的应用场景，就可以先完善基本功能，这样机器人就找到了生存的落脚点，内容制作也就变得不难了。如果通过基本功能让机器人的应用规模提高上去，人们参与机器人内容制作的积极性就会高很多。

前几年大家普遍从儿童陪伴和儿童教育入手，期望机器人能通过满足儿童的需求进入家庭。教育和陪伴都是非常专业的事情，要做好本身就很难。

什么是机器人的基本功能，目前大家都还在探索。

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：订做一个自己的机器人，最便宜只要几百元！

后一篇：操作系统之痛不能在机器人行业重演，机器人大脑是超越美国的机会

新浪BLOG意见反馈留言板　欢迎批评指正