“以眼造眼”——认识并构建人类视觉模型

标签:
qualcommzeroth《自然》 |
分类: 技术创新 |
与普遍观点不同,所有的发现并非自然发生的。与牛顿的“苹果落地”或阿基米德的“Eureka(我找到了)”类似,它们是受过充分训练的大脑迸发的灵感“火花”,背后是深厚的知识积累和刻苦的求索。美国高通公司研发部门近期参与的一个突破性的发现也不例外。该发现发表在著名的《自然》杂志上,解释哺乳动物的大脑是如何对运动进行探测的。这是辛勤劳动的成果,也是与麻省理工学院(目前在普林斯顿大学)Sebastian Seung教授等该领域的最强大脑们合作的结晶,当然还得益于美国高通技术公司行业最尖端的神经形态工程工具Zeroth套件的大力支持。
美国高通公司研发部门的工作人员以解决重大挑战为荣。其中一项挑战是认识人脑——最复杂、最多面的进化产物。我们正在探索人脑中的协同工作机制,然后将同样的技术运用到计算中。我们将这项工作称为Zeroth项目。
回到开头说的那项发现,它综合了常规理论,阐述了眼睛是如何探测运动的。我来解释一下。眼睛,具体说是视网膜,是由微型“摄像头”(视觉传感器)组成的一面巨大的“墙壁”,每个传感器通过一组神经元(人脑的基本处理元件)与人脑相连。这些神经元在并且仅在各自的传感器“看”到任何变化时才会激发(发出脉冲)。否则,它们会保持安静。这听起来像一个很简单的逻辑想法,但如果你将其与目前计算“视觉”的工作原理相对比,你就会意识到它可能会对摄像头的未来产生深远影响。
目前的视觉处理是首先将整个视图(即“帧”)分割成多个小像素(例如1000万像素摄像头拥有1000万个像素);接着每秒多次扫描所有像素(例如,24帧/秒),然后对所有信息进行分析;最后,将这些信息存储起来。
接下来,视频压缩算法将贯穿所有帧,(在连续的帧之间)捕捉每个像素的基线和差异。可以想象到,所有这些会累积成大量的数据处理。即使视图中没有活动或变化,你仍然需要运行一遍整个流程。这些与视网膜的工作原理不同——视网膜只脉动和产生高度相关但紧凑的运动信息。
这意味着待处理的信息数量很小,能效也非常高。下面的图像可以进一步解释,由Inilabs实验室打造的类视网膜摄像头拍摄。图像中的灰点表示无信息/运动,白/黑点表示有运动。传统摄像头需要多次扫描并处理整个帧来识别图像,而视网膜只作用于探测到运动(图像的一小部分)的传感器(像素)。
需要说明的是,Inilabs摄像头模拟的是一种探测在一个位置的亮度变化的神经元。我们的发现不止于此,解释了从一个位置开始到另一个位置结束的运动探测机制。尽管如此,Inilabs摄像头拍摄的这个照片生动地表现了将视网膜原理应用于视觉处理的优越性。
那么,你也许会问,这有什么了不起的?与传统摄像头相比,类视网膜摄像头在处理速度、减少处理数量、功耗方面提升几个数量级,能够带来一批新型的应用程序/服务,并改善现有的应用程序/服务。此外,在打造能够像人脑一样“看”和“行动”的计算终端的道路上,模拟视网膜是前进的一小步,但确实很重要的一步。
技术市场总监