标签:
微软亚洲研究院最新成果视觉计算组研究员故事创新技术 |
分类: 技术 |
这是一个关于“在中国为美国人打工的日本人”的故事,他用计算机重现了光和影、反射和消解、运动和稳定的数字世界,而这些,也正是微软亚洲研究院基础研究的魔力。
作者:《互联网周刊》记者
物体为什么会呈现出人们所看到的视觉效果?经过多重反射后,光线将怎样变化?如何让计算机把真实世界里的物理原理数字化表现出来?这些都是松下康之在微软亚洲研究院工作时要思考的问题;摄像机拍摄出的画面抖动看不清怎么办?松下康之也遇到过生活提出的小挑战。
松下康之用研究员的“专属语言”解释道,“低层视觉研究”和“满帧视频稳定技术”可以很好地回答和解决上面问题。“这也正是我所从事的两个研究方向:一个是光度学,另一个是视频分析。”微软亚洲研究院视觉计算组主管研究员松下康之说。“两者之间并没有十分紧密的联系,但这也正是有趣的地方。”
从东京大学的博士到微软亚洲研究院实习生、从日本东京到北京的希格玛大厦、从电气工程学专业到以物理学为基础的计算机视觉和视频分析与合成。事实上,这种“毫无关系”所带来的惊喜与巧合也贯穿于松下康之的经历之中。于是,松下康之给记者讲述了一个充满偶然与必然、选择与坚持的故事。言语间,流露出了日本文化的严谨、美国式的活泼、和与在微软亚洲研究院的中国研究员一样的亲切与随和。
邂逅未来
微软亚洲研究院院长洪小文曾说过:“创新更多的是意外”。而松下康之与微软亚洲研究院的缘分,正是充满着这种“必然的意外”。
在东京大学读书的时候,松下康之本科、硕士、博士的专业方向都是电气工程。那时,松下康之已经研究了智能交通系统。“但是,我意识到自己想做一些更加基础的研究,并且希望可以把这些研究应用到不同的事情上。”在博士毕业前两年,松下康之就发现了自己对计算机视觉领域的浓厚兴趣。而电气工程与计算机科学联系紧密,计算机系统结构和软件都有学习,所以对于松下康之来说,从电气工程转到计算机视觉并不是一个很大的跨越。
2002年,当时松下康之还在读博,在一次国际性的计算机视觉大会上,他见到了时任微软亚洲研究院副院长的沈向洋,“我之前就认识他,还知道他在计算机视觉领域非常有名。我希望能有机会与他一起工作,学到更多东西。”于是,松下康之向沈向洋毛遂自荐,“意外地”成了一名微软亚洲研究院的实习生,经过4个月的实习生活之后,松下康之发现自己已经喜欢上了这里的研究环境和生活,就这样,在微软亚洲研究院的工作开始了。
如何用科技来解决实际问题,从而改变更多人的生活,一直是微软亚洲研究院的初衷。生活也不断地给松下康之带来灵感和意外的收获。
其中,“满帧视频稳定技术”的“诞生”就源于松下康之的婚礼——用手持的摄像机拍摄的婚礼画面是摇晃的,看起来很不舒服,新婚妻子对婚礼录像效果很不满意,松下康之就想通过研究解决视频颤抖的问题。“现有的数字影像镶嵌技术可以对画面进行稳定性处理,但如果物体移动,这种在场景固定的情况下才能实现的方法就不可行了。而通过‘满帧视频稳定技术’,丢失掉的像素被自然的补充上了。”同理,还可以去除覆盖在视频上的文字、镜头上的污点,来补上丢失的像素。
视频防抖技术展示
科技的光影魔术
“视频分析在不久的将来将变得更加重要,因为图像和视频的界限已经越来越模糊,我相信最后一切都将变成视频。”松下康之对记者说。
微软亚洲研究院的计算机视觉包括:高层视觉(如人脸识别技术)和低层视觉(如光度学,即研究光线与物体的相互作用),松下康之的研究方向属于后者。
“光度学也非常重要,因为如果我们不明白‘低层’上发生了什么,就无法在‘高层视觉’研究上取得突破,所以‘低层视觉’研究是非常基础的。如果“低层视觉”发展了,那么“高层视觉”也会随之发展。”
虽然是“肉眼”难以察觉的变化,但是松下康之却给记者描述了光度学形象的应用——3D复原和现实物体数字化。而要实现上面的两项应用,很明显需要比普通人更特别的“视力”。
“计算机视觉里有一个传统的方法,叫多视角立体视觉法(multi-view
stereo),通过不同视角拍摄的图片我们可以重现3D,但不能做细节的重现;还有另一种方法,叫立体光学法(photometric
stereo),摄像机和物体都是固定的,但是光线是变化的,如果移动光源就可以得到物体的不同观察值,通过观察值可以得到表面方向(surface
orientation)。”
3D手持照相机技术展示
前者可以得到整体的形状,但却无法得到细节;而后者不能给你整体的形状,因为它只能给你表面方向。如何把两个技术的优点结合起来得到最真实的3D图像呢?
“我们考虑如果把一个持续光源固定在摄像机上,这样我们就可以同时移动光源和摄像机。”于是,松下康之和他来自东京大学的实习生一起做出了看起来与普通家用数码产品没有太大差别的“3D摄像机”。“这个3D摄像机的相关的配件在市场上很容易就能买到,手持永远是简单的,人们不会想要拿着一个庞然大物。”松下康之向记者介绍研发背后的原因。
文化熔炉
作为美国电气电子工程师协会2009年计算机视觉与模式识别国际会议(CVPR)和2009年计算机视觉国际会议(ICCV)的区域主席、著名期刊International Journal of Computer Vision (IJCV)和Computer Vision Applications (CVA)的编委,松下康之坦言,微软亚洲研究院对研究员在专业领域的自由交流的支持,使得研究员对自己的研究领域“看得更远、更透彻”。
“通过这些职务,我对研究方向有了更高的认识,这种视野能够帮助我决定今后什么样的研究更有价值。此外,我能够认识计算机视觉界的很多人,这是另一个收获。”松下康之笑着说。
“我的朋友大部分都是微软的同事。我们有来自不同文化背景的人,这种混合的文化很有趣。我的妻子来过北京,她也非常喜欢这里的气氛和食物。”与在微软亚洲研究院的其他研究员一样,松下康之也接受着来自不同文化的“洗礼”。工作之余,松下康之热爱摄影、滑雪,除了经常和同事“搜寻”北京的美食,还常玩羽毛球和打麻将。
“事实上,希格玛大楼里的文化,和大楼外的文化就有很大的不同,外部的北京传统文化和内部的研究院文化有着鲜明的对比。我的朋友有时会开玩笑说,你是一个在中国为美国人打工的日本人。” 松下康之笑着说道。