【百度顾嘉唯】从万物互联到万物智能（22页PPT图文实录）_杨静-新智元

http://blog.sina.com.cn/u/1496874104

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

【百度顾嘉唯】从万物互联到万物智能（22页PPT图文实录）

(2015-07-01 11:26:44)

标签：

杂谈

导读百度深度学习研究院人机交互研究带头人顾嘉唯近期在【东方电子】策略会分享了百度在物联网上的布局思路，以及深度学习和智能硬件之间的关系和百度对于人工智能的思考，以下是他长达1万3千字的发言观点总结和22页PPT图文实录。（转载请注明来源）

http://tc/maxwidth.2048/tc.service.weibo.com/p/mmbiz_qpic_cn/abd8fa533a08d1de890a9786fabebb2c.jpg

顾嘉唯观点小结：

我们正从万物互联走向万物智能的时代，人机交互和人工智能是重要的技术基础，如何创造技术产品，通过不断自我学习演进，感知场景变化，使得用户连接服务变得更加智能，变得尤为重要；

“互联网 ”有机会重塑传统行业，从物联网到大数据引擎，再到人工智能，有机会把人从脑力劳动和智力劳动解放出来，并逐渐取代这些节点中的不必要的人类活动；

人工智能正循环的背后基础是大数据平台和深度学习算法，让硬件和手机在不同场景下通过传感器获得数据具备感知能力，进过深度学习和机器学习进行思考，最终实现智能化场景；

最自然的人机交互应该是用户意识不到人机交互和信息交换的技术存在，创造智能交互人机接口，最终实现让机器和人一样沟通交流，后台感知计算无处不在，前端智能服务联动推送；

依托于百度大数据平台和百度大脑，百度的智能应用产品包括无人车、无人自行车、BaiduEye、DuBike等。其在人工智能领域通过引进人才、原型开发、前瞻布局，不断扩大人工智能的应用范围，希望打造自我经验积累、自我理解、自我演进的系统。

http://tc/maxwidth.2048/tc.service.weibo.com/p/mmbiz_qpic_cn/b7d3d56e102757f4fc5e77d4048994a5.jpg

大家下午好！我是顾嘉唯，我来自百度深度学习实验室，在加入百度之前，在微软研究院主要从事人机交互技术研究。

现在我们逐渐走进万物互联的时代，下一个阶段是万物智能的时代，今天我们身边那么多智能硬件，智能手环、手表，智能水杯，智能牙刷，智能电子秤，智能独轮车等等要进入市场，仔细想想，这些所谓的智能设备除了连上了网，在手机端呈现了一下数据信息，跟一个消费升级的普通电子设备有什么区别？那么智能究竟是什么？这里我想要谈谈万物智能的本质，人机交互和人工智能是怎么扮演着重要角色的。

首先区别一个产品是不是真的具有智能的能力，有一个很重要的维度，就是这个系统能不能随着用户用它的次数越来越多，变得越来越聪明，所以，学习能力是智能的本质属性之一，根据用户的使用经验，能够自我学习、自我进化的系统才谈得上智能。今天大家都在谈人机交互，回顾一下人机交互发展的历史，从电器设备旋钮时代，到键盘鼠标时代，再到触屏智能机时代，从CLI命令行界面到GUI图形界面，再到语音手势交互等NUI自然用户界面。你问我终极目标是什么？我的回答就是没有交互，用户意识不到人机交互和信息交换技术的存在，让机器和人一样沟通交流。

人性千年不变，除了程序员，没有人喜欢和机器打交道。在人工智能飞速正循环的今天，我们有机会让你身边的所有设备不断学习你的使用习惯，潜移默化地理解预测你的需求，后台全场景感知计算无处不在，前端全自动智能服务联动推送，最终实现环抱式的智能化场景。

接下去，我会拿几个智能化场景的具体例子跟大家分享一下我的思考。

http://tc/maxwidth.2048/tc.service.weibo.com/p/mmbiz_qpic_cn/0aee8a5585d82a23ef66cb6440ef3a83.jpg

第一个想跟大家抛出来的思考，在座每个人都有智能手机，都知道智能手机App里的下拉刷新手势，最左边是Twitter在06年最早使用的这个交互方式。下拉式刷新，当时这个设计下拉比点击一个“刷新”button优越很多，类似双指pinch放大和缩小的手势，成为手机触屏交互上的经典，随后无数这样的产品，都是这样的方式，包括iOS原生的Mail也开始使用。其实我们回过来考虑这样一个问题，今天用户在使用这种连接服务的App产品时，是不是还必须要每次都手动刷新？如果App能感知用户的场景怎么样？根据LBS或者WiFi环境场景，如果用户解锁打开手机就进入最想要看到的内容？这个下滑刷新的交互方式的标准是不是最合理的标准？有没有可能让手机的App和用户服务连接得更智能，不要通过刷新的方式获得更新？这是我们要考虑的。

http://tc/maxwidth.2048/tc.service.weibo.com/p/mmbiz_qpic_cn/5d2b590dc45ffb637e8739ad64f58ac1.jpg

第二个我描述一个今天很常见的场景，在座的有可能经历过，你开车去赴女朋友约会，电影票你之前已经在百度糯米团购上买好了，女朋友先到了电影院，她打电话要你把券号发给她，在核销机器上先把电影票取了。这个看起来很普通的场景，但在你开车时是非常不方便的，我们来看看你需要做什么，首先要切换到糯米找到那一条核销券，复制或者分享到微信，女朋友这边要确认；然后回到百度地图，找到电影院的位置开始导航，这样开着车还要在各种App间切换的行为是很不安全的，因为今天用户已经每天很熟悉在App垂直多任务间切换，但在某些场景之下连续切换跳转App的行为是很麻烦的，这绝对不应该是用户在手机上服务连接带来智能生活的方式。

这里面我描述的场景想说明这样一个问题，在用户连接服务的入口上面，是不是能够更智能？所以我认为，今天的智能手机还不够智能，还有不少演进的空间，假设我的智能手机知道我要跟女朋友约会，知道我的位置，知道电影院看电影这个计划安排，当女朋友手机连上电影院的wifi，我地图定位坐标是在开往电影院的路上，能否让设备的核销信息，直接推送到我的女朋友那，有没有可能打破App的边界，让服务来找人？当然，前置条件是足够全面的用户数据信息打通，通过数据挖掘进行对用户行为的理解和意图的预判。

说到这里，我想说一个观点，App会消失。为什么？用户连接服务、接受服务的时候，现在的状态是不智能的行为。这并不遥远，微信这种超级App的形成就有可能加速这个用户习惯的进程，今天朋友推一个来自大众点评的饭店信息给了你，一个H5页面就可以清楚获取信息，你可以不再打开大众点评App了，你的服务连接已经逐渐可以不用App之间跳转完成了，但最终还是要OS来完成。今天你在Uber上打车用百度地图导航，我们系统可以获得你出行的数据，你用百度外卖定餐我们可以获得你的饮食习惯，你在手机百度上看小说找视频，我们可以了解你对娱乐内容的口味等等，而且很多用户已经不止是一个手机连网，你的手表，穿戴设备，家里的各种智能硬件都在无时无刻地更碎片地获取你的个人数据，你的每一个行为，每一个单体数据都互通互联，促成这件事的可能性越来越大，我们正在进入一个数据爆增的时代。那么下一个阶段，手机不再作为唯一入口的时候，信息和服务怎么推送？比如对着窗户问天气，而不是打开一个App，想想看，智能是永生的。

http://tc/maxwidth.2048/tc.service.weibo.com/p/mmbiz_qpic_cn/2fd7156fcf4fedae6f4e4bfd378dd776.jpg
下面说第三个很有意思的案例思考。互联网的发明从一开始颠覆了信息的传递方式，百度当年正是找到信息不对称的缺口，进行桥接，让人平等地获得信息。大家知道现在“互联网 ”炒得很火，物与物的传递也可能被互联网颠覆，今天“互联网 ”带来什么实际价值？左边这个图是一个O2O很火的领域，生鲜类电商，我想说如果“互联网 ”进一步颠覆生鲜电商的运转效率，可能会颠覆很多传统用户的生活习惯。如果说生鲜类电商做到每天你下班回家送到你家门口当天要做的菜配好，那你家里冰箱的冷冻冷藏存储是不是会发生很大变化？这时候用户的生活方式和某些已经存在那么久的设备或电器还是否需要？

但是今天还有很多公司在造智能冰箱、智能厨房、智能什么什么，如果只是连上App加硬件，或者冰箱上加一块大屏幕，相比之下，哪个是趋势和前景？

针对“互联网 ”的案例，我再说一个百度相关的，百度外卖。今天你用百度外卖试试订餐，体会一下送餐速度。这里面百度外卖骑士的智能调度现在就用到了我们的智能算法，我们通过一种更高效的方式去连接物流节点上的递送方式。很有意思的话题在于，当“互联网 ”把传统物流颠覆的同时，这个节点当中的快递人员，还是不是必须用人力去完成？因为我给你的是一条指令，通过订单需求预测，商家出餐时间预测，系统完成智能派单、路径优化，然后下发到快递员手机端，什么时间点到哪，在哪个餐饮点等候多久，想一下这时候人做的事情跟机器一样，接受指令然后完成既定任务。

一个巨大的行业，物流这个行业当中，是不是下一个阶段，在递送这个阶段可以完全被机器人取代？比如你订一个披萨，从下单，在网上选择什么料什么口味，现在其实机器就可以完成这样的即便是客制化的批量任务，在不久的将来，我们可以做的是，外卖递送这个事情也让机器去完成。

这些并不遥远。为什么这样说？其实上溯几世纪，工业革命把人从体力劳动中解放出来。我们所处的这个时代，人工智能将把人从脑力劳动和智力负担中解放出来。我刚才有映射地说快递和机器人的讨论，我们实验室在过去的一年半做了一些比较有理想性的项目。

达芬奇是人类历史上最聪明的发明家。他曾经提过这样一个理论，骑车这个行为，要调动你的大脑认知、感知这个场景、路况应变，用小脑平衡四肢。调用你的肌肉、身体的各个关节平衡去行进。那我们实验室的工程师和设计师们就想用我们的技术挑战一下，有没有可能用计算机、机器完成人骑车这个高能行为，创造一台能“自行”起来的自行车？

大胆设想一下这个场景，然后付诸实现，不断迭代原型，我们一起看一下这个片子。这是我们当时做的这样一款能够自己骑行的，完成转向、行径平衡的，感知路况的单车。当我们做这个项目的时候，很多人会问这有什么应用价值？在座的大家可以回想一下我刚才抛出来的一连串观点中的第四个，就应该能想明白为什么要做这样的事情了。大家看到了我们做这个奇特的“自行”车，背后开发过程还是很有意思的，还有我们正在研发的自动驾驶汽车项目。

对于四个轮载的机动车，人车交互最重要的界面就是方向盘，方向盘是过去几十年一直没有改变的东西，在无人驾驶到来的时候，方向盘是不是会被干掉？这不是天方夜谭，Google从2010年开始了这样的项目，这是去年对外公布的最新一台，长得很Q，据说是为了让路上行人更安心，这台Google的无人车里面工程人员已经把方向盘给去掉了。

那同样在做无人车的百度怎么思考的？我们希望尽快把自动驾驶技术做成熟，从辅助驾驶到全自动驾驶。这里面，无人车也好，无人自行车也好，无人驾驶技术是集人工智能大成的，包括了感知层、理解层、决策层，还需要系统有自主学习能力。今天现有的地图只有路网的拓扑信息，我们正在使用SLAM即时定位与地图构建技术来实现对高精度三维地图数据的采集，推动无人驾驶技术的发展，这里不只是定位，还有对三维场景的语义理解：比如你到了一个岔道口，拿到前景的道路深度视觉感知，包括车道线、道路标志牌，对前方车辆实时位置检测，周围障碍物的监测，分析行人行为和并道超车的情况。另一方面，考虑这里面一个人车协同的设定，同之前提到的万物智能的本质一样，如何做到智能地学习驾驶习惯，不止是做到自动泊车跟车，应急紧急制动等，让半自动驾驶能做到和你副驾驶座上的老婆一样，在你过某个红绿灯时候就能推测出你要去的路线，我们希望创造出一匹城市中的骏马，马可以自由驰骋，同时当人要驾驭的时候，还有缰绳可以一手掌握。

http://tc/maxwidth.2048/tc.service.weibo.com/p/mmbiz_qpic_cn/f17a6a51eb8de264c8ac155560010d1f.jpg
今天人人都在谈创新，但创新是需要勇气承担风险的，需要公司能有愿景去持续支持一些基础技术创新。原来在微软研究院，我们做的很多项目的成果会发论文、写专利，起初会致力于做五到十年的技术储备。举一个项目案例，每个人口袋里面都有智能手机，自从2006年乔布斯把iPhone推出来开始，人与信息的交互方式只限于手指和冷冰冰的玻璃，但是人与物理世界的触觉感知如此丰富，如何打破这个局限，是我们当时在微软的思考。这是2013年发表的一个项目，重新定义触控技术。我们在屏幕周围部署的Piezo压电陶瓷，让触摸屏产生高频振动，当手指划过屏幕不同坐标位置，指尖和玻璃之间会因为震动的频幅差而产生表面的上下位移，进而产生手指间的摩擦阻力来改变手指接触相位上的触觉反馈和感知玻璃纹理的方式。比如我们在触屏上创造了金属按键的质感和橡胶按键的质感，长键程和短键程的力反馈，除此之外，想象一下这个技术如果能让你在手机上摸到购物网站上衣服的材料质感，电商的用户体验会被如何再造？另外，当时我们还用这个技术做了另一个demo，现在平板电脑或者手机上，你用双手拇指进行文字输入，眼睛需要看三个地方，光标位置，左手拇指和右手拇指，因而输入效率不高，如果用了这个触觉反馈技术，用户只要看光标位置就行了，因为让用户操作一段时间之后，左右手拇指就像一直操作实体按键和滑动滚轮，一样有肌肉反馈，同时通过机器学习，可以实时动态调整用户操作区域的数字信息和触摸区域，这是我们在效率工作上尝试提升体验。

物联网、智能家居、智能硬件，在百度框输入这些关键词，搜索结果多过千万，显然已经不只是在计算机领域或者行业领域关注的东西，大家很清楚这样一个大的浪潮已经到来。这里我是这样思考的，两个关健词，智能、硬件。智能的本质是在于学习，在于不断的积累数据经验。

http://tc/maxwidth.2048/tc.service.weibo.com/p/mmbiz_qpic_cn/efecadcc5a310938e964baec037580f7.jpg
这里，我把IOT分为两个部分，其一是智能硬件，其二是自动化场景。左边，智能硬件，这家NEST大家都不陌生，Google花37亿美金买的智能硬件公司，相比北美每家都有的常见温控设备，Nest产品设计优雅有品质，交互有特点，通过旋动物理圆壳来控制中心蓝色的圆形界面，几次使用之后，它知道用户使用温度控制的习惯，会逐渐调整配置时间和温度控制的关系等等，在办公室可以用手机远程预先调好温度。然后这张图右边的白色盒子大家知道是什么吗，有了这个智能蛋盒放在冰箱里面，在超市里买菜时可以知道家里还有多少鸡蛋。问题是，这些设备通常是手机App加一个智能硬件而已，大都是独立的智能单元体。但用户要的是什么？是智能自动化场景。举例，早上起床闹铃把我叫醒，我当天的日历上有我一早开会的时间地点，根据现在路况和距离推算出我还有多久要出门，提醒我有多少时间洗漱吃早饭。我的咖啡机、面包机在我闹钟响的时候就运作起来了。当我洗漱、早餐完毕之后，会议室目的地坐标就会在无人车导航里，下楼坐上车以后，直接把我运到相应的位置。用户是需要这样的智能自动化场景，但真实情况下，这种场景中的变量很多，简单的联网硬件无法处理和预判用户的多维场景，更没有全场景自动化服务的可能了。那我们来谈谈到底什么是智能化的场景，市面上一直有一类在做智能化家居的公司，大家看视频里这是kickstarter建立初期非常火的十大项目之一，看看视频是怎么操作的？从一个房间到另外一个房间，你离开的房间，灯就关上了，进到另一个房间，灯就开了。这个场景，看似很智能、很自动化的产品，叫做Ninja Sphere。但我说它有些可笑，为什么？因为只有单身汉家里才有可能用得上这样的场景，用这个智能设备取代开关，但问题是这样的，现实情况并没有这么简单，并不是一个简单的IFTTT条件计算逻辑。

我们来分析一下刚才的场景，比如说房间判断是不是空的，空着的，灯打开就可以。但如果卧室里面，老婆在睡觉，怎么办？有的人说这个简单，在床上放一个传感器或者装一个Sleep Cycle，或者再狠一点可以给老婆鼻子上夹一个酣睡传感器。但如果房间一个狗在睡觉，怎么办？可以在狗上面装传感器，也能解决问题。但这些都不是事，如果老婆在沙发上面看电视，喊老公进来，先开灯找一下遥控器，把频道调到湖南卫视，再把灯关上，这时候那些所谓的智能家居产品就要疯了，还不如把老婆大脑连上电路。不过这样的实际场景才是最常见的用户场景。这里实际情况是简单的IFTTT的逻辑，在自动化家居的真实情景下是不完全适用的。

那究竟什么是智能的本质？今天上午我也提到，其实用户需要的就是自动化场景下的服务，我们会被无处不在的智能设备包围，设备有感知能力，全方位的感知，收集了你很多数据，经过数据积累之后可以分析出核心事件背后的数据逻辑，对用户潜在需求进行理解。第一步是从各式传感器收集感知，第二步通过算法来理解和演进这些经验数据。一个好的智能，是具有学习能力的，是具有经验积累和学习能力的。第三个是决策，在获得这个判断之后，怎么去判别场景和用户状态进行推送？刚才那个卧室开灯的家居场景，我们来重新思考一下，换一个思路来做，不要去妄图用智能设备取代开关，想想你的卧室里面，通常有很多个可以点亮的东西，有床边的床灯，有电视机，有壁灯。我判断两个逻辑，判断里面有没有活物，有猫有狗哪怕有外星人都没有问题，如果没有，用户进去，灯就打开，如果有的话，逻辑就把这个决策权推回给用户，通过你的手表，提示要不要开，开多亮开多久，完成这个控制权限的人机协同。上面两层，感知和理解层是不是可以做到很好的判断逻辑推送给用户。

刚刚说感知，今天看在座的每位手机上面的传感器，比如说麦克风、摄像头已经变成标配。我经常跟朋友开玩笑，今天最简单的复制方法是拍照，因为人人都有至少一个摄像头随身带。这一张图很有意思，二十年前开摇滚演唱会时候粉丝都是很嗨地在空中摇晃手臂，后来举起来手上都是手机。这是五年前，今天举起来的是一个自拍杆，手机在上面，还有前两天很火的lily自拍无人机，摄像头已经飘到天上去记录你的每一瞬间的感动。其实你们会发现，摄像头也好、麦克风也好都已经无处不在，感知层大数据爆发的时代已来临，万物互联之后，有效数据变成了经验积累，让智能进程加速。第二个环节在于学习和理解层，为什么我们成立深度学习实验室，产业界说深度学习是人工智能的核心环节。最后一个是决策，反馈，送达服务的能力和场景。

http://tc/maxwidth.2048/tc.service.weibo.com/p/mmbiz_qpic_cn/1bab186674a2edd861fe45ff298b2914.jpg
人工智能已被科技领域标榜为这个时代最关键的技术。所有人都在谈机器人，因为在大众看来这两个是直接划等号的，那我首先说说我对机器人的看法，“星际穿越”这个电影很多朋友都看过。导演克里斯托弗-诺兰对机器人和人工智能的角色设定我们是很欣赏的，拍这个片子前一定跟很多专家聊过。左边这个图，这个叫TARS机器人外形是多条块状，并不是长成一个人形模样。到一个新的星球让它探路未知，它没有情感，不会有情绪，就没有畏惧感。机器擅长于做数据处理、精准的控制。电影里有一个场景，剧情中飞船要对接太空舱的时候，女宇航员问还有多少距离，TARS说这个事情交给我操作，这个距离算出来之后。推到将近接近的时候，一个引擎爆掉了，这时候需要人机协同，女主角把手动对接操作权交还给自己，完成了对接，这里面人机协同尤其体现出价值。

当我们在做无人车的时候，把无人车比作一匹在城市当中奔行的骏马。一个缰绳是用户的操控权限，一个是马的自我意识和控制力，可以类比我们在做的自动驾驶项目。

把人工智能的脉络理一下。最早60年代就有人提人工智能的概念。80年代各种各样的学派，说怎么样让计算机模拟人脑，但是人脑上亿个神经元网络的超大规模并行结构过于复杂，冯－诺依曼体系的串行结构体系使得计算机系统很难迅速有效地处理复杂的感知、推理和决策等问题，曾一度限制人工智能技术的发展。90年代以后，人工智能逐渐开始发展，一些理论变成了模型，演进了算法，早期人为标注监督式学习，通过模型算法的不断优化。到2000年以后，云计算使得成本低廉的大规模并行计算成为可能，GPU集群的并行任务处理让神经网络上亿节点连接运算任务广泛可用，同时海量的大数据集的训练不断提高机器学习的表现，真正加快人工智能突破性进化的是深度学习，这也是为什么谷歌、Facebook、百度这些公司会对此大力投入。其实，搜索引擎下面有一个非常精致的结构，利用它可以搜索到各种信息、知识，而且服务是完全免费的，给用户带来价值的。同时搜索引擎获得了大量的用户搜索行为数据，并实现它的商业价值，从数据到价值，这中间就需要大量的技术，尤其是基于大数据的人工智能技术。

比如说我们的广告推荐，现在每天在百度上面有几十亿次搜索请求，比如说今天你搜关键词杨幂视频，出来结果你会点击图片、影像资料，点击周边的花边新闻、相关明星之类的。你的每一次点击都为我们的数据图谱带来一次有效数据节点的连接关系网，这个是用户行为给我们数据引擎和模型带来的价值。从另一个角度，之前你在百度全系列产品的搜索、浏览的记录通过我们的算法能够形成一个精准的用户画像来预测用户的行为和潜在商业机会，这时候，已经是千亿美元的产业规模了，广告推荐也好，数据挖掘也好，都在做这件事情。这是过去十年互联网高速发展过程中的应用。

刚才提到的是在PC时代互联网的产物，这时候特点是所有的东西都是在后台运作的，用户感知不到。如果今天不跟大家讲这些，很多人也许不知道。那么我们所处的这十年，从PC互联网过渡到移动互联网，在手机、手表端获取服务记录数据，用户开始逐渐感知到。为什么这样说？今天打开App手机百度，或者百度地图，已经可以用到我们最新的人工智能的服务产品，比如说语音，很多人可能用过语音在地图上导航一个目的地，订一张电影票，查一下当天的天气情况，等等，没用过的朋友下来可以用一下，看看准不准。这背后涉及到语音的识别、解析、自然语言的合成等多个环节都用到深度学习。还有图像识别，你在大街上看到一个喜欢的包，打开手机百度，拍照全网搜索相似款，用户逐渐开始感知到这些人工智能的产品，因为语音让搜索变得很方便直接，图像让甚至不知道怎么表述的内容都可以发起搜索，连接服务变得更无所不入口。

再往前看，当万物互联之后，这些数据在背后你是不用觉察的，数据的处理和理解分析是计算机擅长的，你获取到的都是服务。这里面数据就变成每个公司最核心的商品，人工智能技术厚度变成重要的企业竞争壁垒。我们能预见的智能蓝图，十年内可及的智能技术需求都属于弱人工智能，是用来辅助帮助延展人类的能力，并不是电影里出现的很多人在畏惧的那些毁灭人类的，强人工智能，机器只有有了自我意识，有了情感之后才会出现智慧，这里智慧和智能不是一回事。

从“万物互联”到“万物智能”过渡的过程中，深度学习这个关键性技术，正在迅速深刻地影响到百度，2014年底，国际主流科技媒体报道，这样的一家中国企业在人工智能领域的迅猛发展成果，是比较罕见的。在成立IDL实验室的时候，我们明确是想植根深度学习，在人工智能这个领域做深、做扎实。过去三年中，深度学习发展非常快速，体现在过去两年时间的投入和领域学术大牛人才的引进。百度诞生的第一天起就是人工智能的公司，全球最大规模的深度神经网络平台上，百亿级的海量数据集帮我们人工智能的模型在不断的演进。一个自我经验积累、自我理解、自我演进的系统才是最好的人工智能系统，也就是我们的百度大脑，还有两会的时候Robin提到的中国大脑。这张图说明的是我们百度大脑的三个核心能力包括：感知，理解和决策，大家看到在左边，我们通过哪些路径做感知层？我们有用户在移动端、PC端在线搜索索引的数字信息；还有通过人机交互在不同设备上的视觉、听觉、触觉等交互过程中跟人有关的信号和数据采集。还有无人车、无人机获得3D建模、物理场景传感网的数据。中间最重要的是百度大脑的核心，高性能分布式计算的能力，有着上千台服务器，包括PC服务器和GPU服务器的大规模数据处理系统，这是思考理解层。这个思考过程包含数据模型、算法模型，深度学习以及大数据引擎，这是我们的核心，等下我会详细说说这个“思考”能力具体我们是怎么做的。基于这样一个工程的能力，百度能够去开发各种各样深度学习的算法，应用在搜索优化、语音处理、图像处理、自然语音理解、用户精准画像、广告的用户匹配、个性化推荐、大数据预测等方面，还有语音、图像等应用，都是用户可以感知到的，当然还有我们正在开发的机器人、自动驾驶、BaiduEye、DuBike等。

我们百度大脑，为什么百度可以做这件事情，或者我们核心能力在哪里？首先有这些人才，有这些国际上绝对顶尖的人才在做深度学习、异构计算、图像的、语音的，用户自然语言处理的，用户行为建模的人才的能力。同时我们有足够多的海量用户数据，不断产生有标注的，有价值的，有图谱性理解意义的数据。还有我们不断演进、演变的数据模型，这是我们的核心能力。

说到图像，其实图像技术是我们过去一年当中实验室最核心的研发方向，今天在国际竞赛上，我们已经拿到国际领先的地位。我们人脸识别，广义识别、OCR，以图搜图，是全球范围非常领先的，在深度学习领域的深耕让我们百度的图像技术突飞猛进。这里所说的，深度学习的实质是通过构建具有多隐层的机器学习模型和海量的训练数据，来学有用的特征，从而提升分类或者预测的准确性。这里深层模型是手段，特征学习是目的。深层模型是包含多个隐层的人工神经网络，多层非线性结构使其具备强大的特征表达能力和对复杂任务的建模能力，深层模型的并行化框架和训练加速是深度学习走向实用的基础。

其实深度学习可以简单理解为，让计算机跟人脑一样做计算，思考是人类固有的并行过程，数亿神经元同放电创造大脑皮层用来计算同步脑电波，搭建一个神经网络，神经网络每一个节点都大致模拟了大脑中的一个神经元，与相邻节点互相作用，在神经网络的堆叠层上明确接受的信号，人认知一个东西的时候，通常情况把信息拆成几个分支，比如说人认知一个包，以前没有看过这个包，看到拎的把手、皮革的纹理、品牌logo等等，来判断是一个什么品牌什么款式的包，这是人通常的思维方式。但计算机以前必须库上有这个同一角度一模一样的图片才能够匹配识别。今天通过神经网络，把图像信息、语音信息打散成特征点分布到每一层的卷织网络上的节点，做到跟人脑结构类似，这是简单的深度学习怎样运作的过程。

http://tc/maxwidth.2048/tc.service.weibo.com/p/mmbiz_qpic_cn/57c999107c3e8a261a28f7b512f32a21.jpg
这是我刚才提到的手机百度应用，我刚才说的这些很高深的技术领域的东西，在手机端已经可以用到，不管是百度地图、百度翻译还是手机百度，都可以用到这个。比如说手机百度上面的语音、图像，通过图像这个入口进去。比方拍一个人照片，通过人脸识别之后，可以识别出这个人脸长怎样的，推荐百合网等跟你搭配的另一半。同时拍一个人，还有衣服，衣服通过相似照片的结果，直接链到京东、当当、亚马逊的结果，直接下单购买。用图像完成，一切变成可能。这是我们核心在做的事情。如果你拍一个苹果会有什么，会告诉你卡路里，做什么菜啊。

除了App软件服务可以连接这些服务外，我们还做了一些硬件端的尝试。百度大脑作为一个核心，落地到衣食住行的各个场景当中，做了许多原型迭代。我今天举两个例子，其一，我们做了一台智能自行车，很多人问百度为什么做自行车，前面提到愿景以及整个行业的发展、未来趋势之外，同时我们也做一个接地气的项目，让用户在今天交通状况下，短途出行更便捷，连接上百度地图的数据能力，做短途代步工具的软件平台接口，在地图上除了导航和目的地的信息服务之外，我们有没有可能连接新服务的可能性，让用户需要信息会主动来找你，把用户的数据服务和背后的商业价值联系起来。举个例子，自行车骑出去，通过踏频和心率的检测推算出卡路里的消耗，进而在骑车路上坐标位置的附近告诉你有一个最近的星巴克的一杯拿铁咖啡可以推送，可以做很多这样的尝试，在地图上构建很多这样的信息服务推荐的入口，让服务来找人。

这是我们去年做的第一版原形，跟清华大学合作的。大家看一下这个视频。这是我们做的第一台样车，团队很小，通过跟院校的合作，快速产生这样的原形。我们把各种各样的传感器装在自行车上面。综合心率和踏频分析出实时的卡路里消耗，综合座压和踏压分析出你哪些肌肉在有效锻炼。我们通过原型快速引入初期用户快速迭代，看看用户需要什么数据，有心率、踏频、踏压，车后灯有报警，有车靠近会闪。同时还具备导航、防盗的功能，报警推送位置等等。根本上，防盗和定位等基本骑行体验是核心，首先车要骑着舒服，还要防盗，同时骑行时候的动力回收发电花鼓为整车充电，还要有脱离手机都能运行的导航功能。用户骑行的数据，我们把全感应的数据收集上来进行数据分析。这是我们当时的思考，显然这一台还很不成熟，所以我们内部叫做DuBike 0.1314版，当然今天智能单车电动车已经变成风口了。我们当时去年推出这个的时候，很多人都来关注。我们推出之后，放了一个网站，DuBike.baidu.com，这个网站在最初的三个月，每天都有一百多封邮件，除了订购做线下合作申请外，给我们许许多多建议，我们也不断同热心网友和骑行专家进行访谈和参与式迭代设计，以完成我们对于“智能”自行车的再定义，以及细致入微的骑行体验的创造之旅。

事实上，做硬件非常不容易，不止是研发和供应链问题，后面分发、营销和售后等很长的环节都有很多线下实体的问题，做交通工具要有合规的，我们自己完不成这些任务，我们找到行业最大的品牌制造商去完成这样的任务，大家刚才看到的是我们去年做的原型车，很运动，很有科技感，发布后市面上好几个两轮大厂都来找我们合作，随后我们开始跟一家传统自行车行业全球最大的品牌企业合作，大家可以期待一下我们联合打造的DuBike 1.0问世。

做DuBike的过程中，还有不少网友都提到，说你们很好，做了这样环保的事情，创造了这台智能自行车来促进绿色出行，但在北京这样雾霾恶劣天气条件下怎么办？口罩、骑行围巾这种捂着比较不自由不舒服，因此我们就针对这个需求，创造了一款骑行防雾霾空气净化风幕头盔，这里我们通过头盔上的导流槽将雾霾颗粒的空气引入上部盔内结构，通过对空气流动轨迹、速度、流量、压力等因素的控制，将流入头盔导风口的含有PM2.5等有害物质的空气通过头盔内的AOS空气净化装置进行净化、并通过加速器在面罩下方形成风幕，使头盔内部形成一个风流内循环，从而保持脸周围空气的持续清新健康。这是一个互联网迭代速度下用户参与式开发很好的案例。

给大家看另外一个项目，百度Eye，可以上BaiduEye.baidu.com网站去看一下。对于百度而言，这是一个新的实体搜索入口，也聊到在智慧博物馆、智慧医院，智能商场等场景的具体应用。通过对消费者第一视角视觉信息的收集分析和处理，来分析用户的线下行为，结合线上数据，形成更全面的用户画像，进而个性化服务影响消费行为。另外，我们的人脸识别技术在这个里面有应用，比如你今天到一个酒店、会所、商场，服务员知道你的消费记录、购买能力，可以更好地推荐你合适的产品，提高客单转化率。由于受电商产业的侵噬和冲击，零售行业今天急需变革，是时候通过技术的力量重塑线下消费体验了，结合百度的大数据引擎和自然交互技术，实体零售行业结合“互联网＋”还有重兴机会。

http://tc/maxwidth.2048/tc.service.weibo.com/p/mmbiz_qpic_cn/46c16e437201e2cd2f1e53787ddb97c6.jpg

大家看到的这个视频里面的产品是比较早期的版本，去年9月份发布的，现在这个已经通过迭代变成非常小的，并且成本降得很低。我们在开发BaiduEye的过程中也做过Baidu Glass几版原型的迭代和测试，供应商和方案商也都是业内最好的，但是确实不是我们想要的，其实智能眼镜这个方向还有些没有解决的实用技术问题，在今天来看AR增强现实在穿戴设备上，需要解决三个问题，首先第一个要通过SLAM技术做视觉场景三维建模，这是很多大公司在做的，无人车就用到，AR眼镜也需要，对实体和环境进行物理感知；第二个，是光学的显像部分技术，现在这些是中小型企业在做，常见的光机画幅可视角都在60度左右，极少数能做到90度以上，另外类似于VR的沉浸式显示的毛病一样，因为双目视觉的焦距问题没看多久就容易眩晕，这对于实现眼前全景数字信息的叠加还远远不够。第三个难点在于人眼视觉焦点的深度感知，肉眼的焦距变化是很细微的，现在的实用性技术很难捕捉并实现把数字信息实时叠加在物理世界上。我们决定创造一个人类视觉的自然延伸，而不是一个尚不成熟的视觉负载。

从人机交互来看，人与屏幕之间的视觉交互应该是无处不在的，在家里有电视，公司里面也有电脑，路上还有手机，你需要一个设备作为连接这些设备的大脑中枢和人机入口，最好的人机交互是没有人机交互，没有人会喜欢与机器打交道，做到像与人一样交流是终极目标，扎根人工智能技术，连接人与服务的线上与线下，我们正朝着这个目标不断演进BaiduEye。

好，最后做一个总结，智能应该像水电煤空气一样，无形地提供服务让你觉得离不开他，硬件端只是物联网入口的延伸，没有人工智能，物联网什么都不是，智能的核心本质是学习能力。需要对全场景的感知理解，才有全自动服务的推荐。这是第一个核心。

第二个核心，物联网作为比手机移动互联网更碎片化地嵌入生活事件中，作为一个更密集更连续的新入口，是推送服务相当重要的新入口。第三个输入，I/O输出的人机交互特性，我们做智能硬件的时候，都会考虑一个单品从感知、学习思考到决策的一整套逻辑，很多创业公司做的硬件要么只做前面，要么只做后面。我之前提到，有些企业做松树，还有一些企业做竹林，我们做的是土壤，大家看到的这些基于人工智能的智能硬件参考设计，做的事情是告诉大家有了土壤之后能做什么。

http://tc/maxwidth.2048/tc.service.weibo.com/p/mmbiz_qpic_cn/2ffc80bc3305ab997b4ec02a0317c0f6.jpg
物联网的核心是什么？完成自动化家居智能场景的前提是什么？首先是万物互联，这需要所有智能硬件的公司一起来促成；其次是大数据和人工智能算法驱动的，这也是今天一直在强调的，万物智能的本质，也是百度在大力构建的土壤；最后是自然人机交互，因为你不想再只是跟冷冰冰的屏幕打交道，那两个前置条件下，你会跟万物交互起来，某天醒来，你会走到窗前打开窗帘，问问窗户今天外面天气怎么样，我该穿什么出门呢。今天你兜里的iPhone，有一天会变成博物馆里的东西。

谢谢。

http://tc/maxwidth.2048/tc.service.weibo.com/p/mmbiz_qpic_cn/f83b111b1623b0e11d422447f86974f5.jpg

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：【杨静】机器人成为人类伴侣的十大理由

后一篇：2015年7月1日

新浪BLOG意见反馈留言板　欢迎批评指正