探秘硅谷的百度美研中心:最难的是招人、好像来到了西二旗
(2015-02-03 16:00:37)
标签:
it娱乐文化情感时尚 |
在百度美研中心下车后,你会有点恍惚,好像来到北京西二旗。只是目及之处的老牌科技巨头提醒你,这里是硅谷。左边是摩托罗拉、右手亚马逊;谷歌和微软也尽在咫尺。当然,硅谷的天要更蓝一些。
2011年李彦宏推动在美国设立了研发中心,从两个人起步,发展到现在的100多人,在人工智能和深度学习方面有所进展。去年5月,百度将斯坦福教授、人工智能专家吴恩达收入麾下,对国内外科技界都是不小的震荡。
过去几年移动互联网的发展让很多人以为,北京与硅谷的创新距离越来越无时差啦。举证多集中在对创业趋势的把握和服务用户的能力,当然还有变现的手法。甚至,不乏有互联网公司对产品出海都开始总结成功经验了。这多少会让中国公司陷入一种幻觉。因为事实上,国内更多还是在吸收硅谷的养分,尤其在前沿科技领域。
我们与百度美研中心的高级技术总监吕厚昌和资深架构师James Peng交流后发现,一定程度上,百度也是如此。比如在大数据研究方面,微软、谷歌和雅虎等公司已经在数据采集和算法方面做了大量的铺垫,他们起步就站在巨人的肩膀上。只是相较纯粹的拿来主义,百度没有偷懒,还是亲历亲为地做了一些研究,尤其在百度所处的搜索领域。
首先检阅下百度副总裁郑子斌负责的美研中心一线团队。最受关注的还是吴恩达,他被认为是百度践行最牛人才招徕的里程碑人物,负责所有的技术研究。这位斯坦福教授是国际人工智能权威,领导硅谷人工智能实验室,及大数据/深度学习实验室。人工智能的另外一位专家Adam Coates也出自斯坦福,曾训练世界级最大人工神经网络。吕厚昌、James Peng对云计算和大数据有深度研究;还有来自Google、Twitter 和 Facebook等巨头的前员工。
从他们的背景也大概能看出,李彦宏寄希望于他们解决最具挑战的问题。2014年百度世界大会上,他提出百度做的事情就是连接人与一切服务。在他们内部的分享会上,提升行业的应用效率被定作是核心技术目标。
为了实现这个目标,美研中心奉行“三级火箭”策略。最底层是开放云,在此基础上是数据工厂,包括所有数据存储、转化、产生效果以及挖掘等方面的所有技术。尤其是数据管理和查询,这涉及到百度的搜索业务。最顶端的就是百度大脑,这被称作是对行业真正有价值的应用,包括人工智能、深度学习等。
当然,这只是他们的“技术哲学”,有时候美研中心起草技术框架,产品开发层面就会转回国内完成,百度天眼就是其中一个案例。打开这个独立APP,你头顶的所有航班都能清晰地显示高度、位置和飞行轨迹,实时更新。不过,目前还没有收集到全球的信息。
但是此前,百度是与航旅纵横合作的,在百度移动搜索输入航班号查到的信息是航旅纵横提供的一个图片截屏。百度没法拿到原始数据,只能以这样的方式将结果嵌入搜索结果中。因此导致无法与用户发生交互,体验很差。百度要掌握数据要自己想办法。它把一种信息收集设备发给用户,通过所谓众筹的方式解决了这个问题。
理论上,信息采集工作可能还不算最难的,如何快速处理大数据才是关键。吕厚昌承认,其实很多企业都在建设“数据坟墓”,大量的内容被封锁起来,不知道怎样拿出来。这是包括百度在内的很多企业必须面对的现实。
百度天眼目前还没有大规模推广,未来可能嵌入百度移动的某个功能中。吕厚昌说,如果这项技术成熟后,未来可能会考虑运用到地面交通或其他领域。这是需要跟百度国内大数据实验室合作的。
过去一段时间,百度美研中心最大的突破莫过于Deep Speech。在他们看来,移动时代大家使用手机、可穿戴设备更多会选择语音输入的方式。百度目前得到的数据是,10%的用户会选择语音搜索。
James Peng介绍,安静环境下机器的语音识别率已经很高了,Apple Dictation的错误率是14.24, Google API是6.64,百度的Deep Speech达到6.56。关键在于噪音环境下的语音识别能力,而人们使用手机或可穿戴设备时,恰恰是在噪音环境下。百度官方给出的数据是,噪音环境下上述三家公司英文识别的错误率依次是43.76%,30.47%,19.06%。这个结果对百度在移动搜索的突破将有很大的帮助。
他们还预测三年之后,语音加图片的搜索行为可能会超过50%。因此,美研中心还将重点放在Deep Learning方面。这可是吴恩达的专长啊。据说,Deep Image图像识别已经接近人脑水平。当然,目前这两项技术都还处于实验室阶段,暂没有进入应用阶段。
除了百度,其他国内的互联网公司也在硅谷积极建立研究中心,比如苏宁云商等。实际上,这并不容易。
最难的莫过于人才招徕。2011年百度美研中心在硅谷初创时,从两人起步,2012年还仅有10人。直到2013年搬到现在的办公场所才突破30人,去年队伍壮大到100多人。而真正有难度的研究工作正式开展,也就是在2013年之后,这个阶段被他们称作2.0版。
美研2.0最初计划做三件事:一是打造最具创新的环境,包括物理环境和人文环境。二是吸引全球最高端的人才,在互联网行业,想法和人才最重要。第三,做最具挑战的项目,真正影响社会。
但是你要知道,硅谷的创新公司太多了。很多创业者对风险的把控比较理性,就是因为即使失败后,还有大把的公司提供就业机会。所以,中国互联网公司在硅谷的研究中心竞争力有多强,面临很大的考验。百度美研中心有接近2/3的员工是华人。
吕厚昌解释,一方面华人在做基础架构方面的能力已经很强,所以在系统、数据挖掘和计算方向华人员工确实要多一点,而在人工智能方面很多是非华人。另一方面,这些期望改变世界并且具备能力的人才,对企业的要求自然也更高。这个障碍能否突破,决定中国互联网公司在硅谷研究中心的实质性成果。