成长的乐趣

标签:
微软亚洲研究院员工故事成长经历杰出青年创新人物如何做研究 |
分类: 人才 |
口述:华先胜
Q: 七年前你是如何加入微软亚洲研究院的?
A: 2001年初,在基本完成毕业论文所需的研究工作后,我来到研究院媒体计算组实习。三个月后,开始找工作和准备毕业论文。当时觉得研究院的要求很高,而且我才刚开始进行相关方向的研究三个月,就没有准备投简历。但是有一天,我收到了当时的媒体计算组经理张宏江博士的邮件,让我提交一份简历来应聘该组的副研究员职位。这封信给了我极大的鼓舞,于是我参与了面试,并顺利拿到了Offer。虽然当时也有其他的选择,但是我很庆幸我当初选择了微软。
Q: 当时的实习有什么成果吗?面试情况如何?
A:
面试是研究院典型的面试,一个技术报告和七八个单独面试。其实当时面试我感觉表现一般,甚至一些问题我干脆给了“不知道”的答复。但我想,研究院更看重的是潜力吧,还有在实习期间的表现。实习三个月,我做了三件事:一个新的视频帧文本检测算法,视频文本检测评价方案,和修改前面一个实习生的论文。所以,在三个月期间,我总共有三篇论文被接收。记得当时第一篇论文我修改了很多次,包括十次打印到纸上修改。因为这是第一次正式用英文写论文,我怕写得不好,所以自己反复改,一句一句推敲。虽然英文不好,但十多次的修改硬是把一篇起初不知所云的东西改成了一篇马马虎虎还可以的文章。我的Mentor只在上面做了很少量的修改就过关了。他以为我的英文写作还不错,于是很放心地让我修改一篇以前实习生留下来但没有修改过的论文。你可以想象,我又花了多少精力去改这篇论文。虽然花费了大量时间和精力,却给我的论文写作奠定了很好的基础。其中有很多困难,也有很多乐趣。也正因为有自己比较深入的切身体验,在后来的论文写作中更容易领会和学习研究院导师们给我修改论文的原则和方法。当然,后来给我的实习生改他自己都没有修改过一遍的论文,完全是另一种感受。
(华先胜研究员畅谈在研究院经历的难忘故事)
Q: 你提到你在研究院实习和工作的方向与你博士论文方向不一致,这影响你的工作吗?
A: 我博士论文的题目是图像数字水印。在研究院实习做的是视频分析,具体题目是视频文本检测和识别。来微软工作的头半年多,虽然一连进行了几个研究项目,例如视频广告检测、音乐视频分割等,但是一直没有找到研究的感觉。不能不说这与研究方向变化无关,但更多的是缺乏独立研究的能力,特别是独立选题的能力。
Q: 那你是如何破冰的呢?
A: 2002年3月初,公司总部的Movie Maker产品组求助张宏江博士给予家庭录像自动编辑技术的支持。当时,Movie Maker对这项功能只有一些粗略的想法,并没有具体的方案,更没有力量自己完成这个还需要研究的题目。张宏江把这个题目交给了我。可以说,这个题目开启了我做视频分析的灵感之门,是我在研究院7年工作真正起步的地方。在宏江的指导下,通过一个月的攻关,我和当时的队友芦烈等人有了第一个结果。宏江给产品组演示后得到非常好的反馈。之后的几个月我们又做了很多改进,克服了一些技术难点。
2002年7月初,经理决定让我和软件开发工程师王益进奔赴总部产品组,到一线进行技术转化。这次和产品组坐在一起一个月的经历也是我在之后几年能对公司产品组和相关产品发展方向有较好理解和把握的重要一步。若干年后我的经理和同事都说我很会选题,经常能够选择既有研究价值又有转化到微软主流产品的价值的题目。这都与这次Movie Maker项目的经历不无关系。也只有微软亚洲研究院这样的机构才有这样的机会。后来,我们的技术几经磨难后成功转化到Movie Maker 2.0中,命名为AutoMovie(自动电影),成为该产品的Killer Feature(关键功能),于2003年正式发布。这项技术同时又是一个研究和产品有机结合的一个很好的范例,基于这项技术的论文在2003 ACM Multimedia会议上发表。
在此基础上,我和同事又合作了一系列有关家庭录像和照片的编辑、管理和分享的工作,例如Photo2Video, 基于模板的视频编辑,互联网视频编缉管理和分享。而且,还成功地与产品组eHome合作将视频缩略图技术转化的Windows XP Media Center Edition中。
Q: 后来的发展如何?
A: 2004 年研究院有一次重组,我从媒体计算组转入网络多媒体组。这又是一次转折,从满脑的想法到迷茫和失去如何做研究的感觉。幸运的是,我的新经理李世鹏博士给了我极大的自由度和相当的耐心。我逐渐意识到,阶段性迷茫和失去感觉是像我这样资历很浅的研究人员的必经之路,做研究的功力也正是在一次次迷茫和一次次醒悟的循环中提升。研究院宽松自由的环境,高手如云的研究氛围,给了资浅研究员得天独厚的成长条件。
从2005年开始,我逐渐将研究的主题转向基于内容的视频搜索,试图通过机器学习理解视频和图像的内容,将视觉信息转化为文字。这项课题,随着我们对问题的理解和分析的深入,我们也经历了不同的阶段。起初,我和小组成员们从半监督学习和一般主动学习的角度解决问题,后来又引入多模式、多实例、多层次、多标签等思想,到最近的多语义词在线主动学习,有望解决大规模数据和大规模语义词带来的计算和准确率方面的瓶颈。同时,开始研究视频搜索的排序和重排序,以及视频结果的有效呈现。我带领的小组在这个领域的研究在学术界的影响越来越大。在2007和2008年,我们分别有5篇长论文入选ACM Multimedia,约占总论文数的1/11。2007那年,我们获得了该大会的最佳论文奖和最佳演示奖。
另外,在2006年末,我们又注意到视频广告的研究和商用前景,率先开始了互联网视频和图像广告的研究课题。现在基于内容的多媒体搜索(包括标注,索引,排序,内容呈现,管理和新查询界面等)和多媒体广告(视频广告,图像广告和游戏广告等)是小组的两大主要研究方向。
Q: 听说你有很多Shipped-It Awards :)?
A: 每当成功发布一个产品,公司会给每一个参与产品研发的人发一个Shipped-It Award。其实就是一小块金属牌子,上面记录着相关产品的名称、版本和发布时间等。微软员工都很看重这个。在过去7年中有五项技术转化到公司产品中,包括Windows Movie Maker, Windows XP Media Center Edition, Windows Vista, MSN Video, 和Live Search Video。但只有三块Shipped-It Award的牌子,另两个可能是产品部门忘了给吧J 另外我们还有多项技术转化正在进行当中,很可能转化到产品当中。
除此之外,我们的研究工作也得到了公司的承认,其中一篇关于视频搜索和服务的BillG ThinkWeek White Paper(为比尔·盖茨思考周提供的建议论文)得到了盖茨相当高的评价。
A: 我觉得我不太适合回答这个问题,我没有觉得我有多成功,前面还有很长的路要走。如果说有一点成绩的话,那其实是整个研究小组的成绩,包括员工和实习生的贡献,也同时是微软亚洲研究院这个好的研究环境使得这些成为可能。这里我也可以分享一些做研究的个人体会。我想可以归结为几个关键词:创新,思维习惯,激情,和投入。创新是研究者的灵魂,好的思维习惯是创新的基础,激情是创新灵感的催化剂,投入是创新的保障--Nothing Replaces Hardworking。当然,这些也都是老生常谈,我的体会是,不经过一番历练,这些可能只是文字,是“解悟”,而不是“证悟”。能够按悟到的去做,并不断总结改进,成为“习惯”,这才是“证悟”,才可能是真正自己的东西。在做研究的过程中,可能会时常出现思维方式的变化,而思维方式变化常常是我们突破自己局限的时候。时常悟一悟这些也常给我不少帮助。这只是我个人的一些体会,仅供参考。