作者:华先胜
ACM
Multimedia是多媒体领域最高级的会议之一,参与者多是多媒体内容分析、多媒体应用、系统和交互方面的研究人员。会议通常包括长论文、短论文、演示和视频演示等不同的板块,其中长论文是最富挑战性的,近年来每年只收50至60篇左右,收稿率在20%以下。微软亚洲研究院从2003年以来在这个会议上一直有很好的表现,尤其是2007年,研究院共有八篇长论文被接受,创下新高,占论文总数(57篇)的14%。其中我带领的多媒体内容分析和搜索小组就有五篇被接收(包括与中国科技大学合作的文章),而且我与中国科技大学实习生齐国君以及其他四位同事合作的论文在评审后被选为四篇候选最佳论文之一,将在大会上角逐最佳论文奖。
进军多媒体领域国际盛会
2007年9月23日,我们一行六人坐上预定的班车从慕尼黑机场直接赶往奥格斯堡。这一年的多媒体国际盛会将在这里召开。班车出了市区,向窗外望去,仿佛到了乡下,农场牧场和荒地随处可见。风景虽无可圈点之处,但空气的清新透亮却是北京无法比拟的。大家要么闲谈,要么干脆睡觉,尽情享受着轻和自在。唯有我有些不安甚至紧张,因为我肩负着大家的期望,期望我们能拿下这个多媒体领域顶级国际会议的最佳论文奖。
选世界顶级学术会议最佳论文候选名单并非易事,最佳论文的讲演也是论文是否能获奖的重要因素。讲好了才能让评委们信服你的工作。早在一个月前,我就开始着手准备这场报告,工作的繁忙不容许我到最后几天才来准备。第一次演练,基于也算精心准备的第一个版本的幻灯片,可以说是被同事批得一塌糊涂。可是有意思的是,我们这些研究人员对于研究和研究报告的批评有一种与众不同的自然反应,那就是,愈挫愈勇。批评提升我的激情,批评激发我的灵感。很快,几乎重写的第二版,得到了大家的普遍认可。采纳大家对第二版的建议后,出发前定稿第三版。有趣的是,有些学生看了幻灯片,很难相信这是用PowerPoint做出来的
–
用他们的话说“太炫了”。我倒觉得其实不是“炫”,而是恰当地运用动画和效果来辅助准确描述研究工作。正如一位实习生提议的,有一天我们可能真的应该写一本书,专门讲如何用PowerPoint作学术报告的幻灯片,一定很畅销的。
傍晚时分,我们到达了酒店。第二天上午,按计划我们先去会场奥格斯堡大学注册,然后去校园和市区采集图像和视频数据。为了让论文报告更有吸引力和更令人信服,我们预先开发了一个演示程序,并决定采用当地当时采集的图像视频作为测试数据。这样做是有一定风险的,但我们愿意这样去尝试。晚上,同事帮我整理数据,而我则在做最后的准备。其实当天我们工作到很晚,特别是,我们发现演示程序有bug,造成一些数据效果不好。几个人联调了好几个小时,终于在临晨前解决了。好险。
我在大会第一个作报告
“最佳论文竞赛”
是大会第一天的第一个技术板块,我的报告又是其中的第一个,也就是整个会议的第一个技术讲演。上台前虽略有紧张,但信心十足。半个小时的报告很快就完成了,台下同事的评价还是很不错的,虽然对提问的答复有些缺憾。
角逐最佳论文的是一项关于视频搜索和机器学习的最新工作,主要研究如何利用语义概念(关键词)之间的联系来提高自动视频标注的准确率。视频标注是基于内容的视频搜索的关键步骤,自动标注好的视频就可以利用文本搜索的技术进行索引。已有的多概念学习方法可以分为两类,一类其实是将多概念独立处理,将多概念学习转化为多个两类分类问题。这类方法的缺点是没有利用语义概念之间的联系。在实际问题当中,语义概念之间互相联系,而这种联系可以用来提高标注的效果,甚至可以利用易于检测的语义概念来帮助检测难于检测的概念。第二类方法基于融合的方法,但融合是在第一类方法的基础上进行的,也就是通过融合独立分类器的输出结果来改进标注准确率。这类方法利用了语义之间的联系,但是这种“两步”策略不能解决误差传播的问题,有时甚至会降低标注效果。我们提出的是一种同时为语义概念以及概念之间关系建模的新方法,称之为“多概念关联学习”注1(Correlative
Multi-Label Learning
(CML))。这种方法克服了已有方法的缺点,在大数据集上取得了可喜的实验结果。
按常规,评审团中午会讨论,下午开会前结果就已经有了,但要等到第二天晚宴时才宣布。曾试图问认识的知情人,得到的不是笑而不答,就是“明天就知道了”。也正是由于直到晚宴即将开始前我一直不知情,我没有在第二天下午得知获得最佳演示奖时建议负责人选择排名第二的演示——同时获得两项最佳奖没有先例。
欧洲人在吃饭上确实很有耐心,第二天的晚宴共进行了五个小时。临近结束时,我们如愿获得了最佳论文奖,同时还获得了最佳演示奖。我的老板李世鹏在晚宴还未结束时就将这一消息通过联网手机发到了北京。
意外的收获
与最佳论文奖有备而来不同,最佳演示奖是个意外的收获,尽管我们也是精心准备了演示程序。整个会议的演示板块共收录了23个演示,除微软外,IBM,Intel,Yahoo等公司的研究机构也展示了他们的最新研究成果。演示分两个Session展示,内容涵盖视频图像标注、视频浏览、视频图像检索、视频广告、移动设备多媒体应用等等领域。研究院共入选了三个演示,其中获“最佳演示奖”的事我们组的“视频拼贴”。
“视频拼贴”注2是一种紧凑描述视频的方法,它使用一幅自动合成的图像来摘要描述视频的主要内容。对于任一视频,视频拼贴算法选择最有内容代表性和高视觉质量的一组视频帧,并抽取这些帧图像中的重要区域,然后将这些区域无缝地拼接在一个指定的画板上。相对于已有视频浏览方法,视频拼贴提供了一种新颖的、更紧凑的、视觉上更吸引人的浏览方式。视频拼贴可以很容易地集成到现有视频管理系统、视频分享网站以及视频搜索引擎中,以提供更高效和更愉悦的视频体验。特别是,视频拼贴可以作为视频搜索引擎搜索结果的摘要描述,用户通过浏览搜索结果的拼贴图,可以快速了解搜索结果的内容,进而快速判断是否是用户想找的视频。
这年会上发表的论文的主流(约占三分之一)是多媒体搜索及其相关的应用,包括视频和图像标注、视频搜索、视频广告、媒体推荐等。研究院的八篇长论文都与这个主题相关。这显示出互联网飞速发展对多媒体领域的巨大影响,以及学术界和工业界十分重视媒体技术在互联网上的传播、共享、搜索、推荐和广告等应用。视频监控、移动设备上的多媒体应用、媒体交互、视频传输等也是热点讨论的主题。
这年也是研究院参加ACM
Multimedia人数最多的一年,包括实习生共有十二人。会上还碰到好几位以前研究院的实习生,他们现在都在国外知名大学继续学习,并在这次大会也有文章发表。
尚未成功,仍需努力
在写这篇文章的时候,又有好消息传来。研究院有7篇长论文入选ACM Multimedia 2008,
其中我的小组仍占5篇,而且其中的一篇有可能入选最佳论文候选。我深知,这些成绩更多属于这个团队,更多属于研究院。没有研究院这样的环境,没有院领导和老板的长期支持和方向指导,没有这一群充满激情和活力的队友,我们不可能获得这些。在这个领域,中国学术界的研究水平曾被人质疑。直到现在,还有很多人,看低土生土长的中国研究人员。虽然我们的成绩还有限,
要走的路还很长,
我和我的队友将更加努力向世人证明,没有“镀金”的中国“土博士”“土硕士”一样可以走在世界科研的前沿。
作者介绍:
华先胜,网络多媒体组研究项目负责人。他在北京大学求学十年,2001年获理学博士学位,同年加入微软亚洲研究院,从事多媒体分析、搜索和广告等方面的研究。他是中国科技大学客座教授,还是2008年《麻省理工学院技术评论》评选出的全球35岁以下35位杰出青年科学家之一。他常与学生论道研究与心理、学问与人生,以与学生共同成长为乐。他自以为对哲学更有感觉。常敬畏权威,亦常藐视权威。业余好书法却不会写,好音乐又不会唱,好诗词而不会作。
注1,关于此方法的具体内容,请参见:http://research.microsoft.com/~xshua/
注2,关于“视频拼贴”技术,请参见:http://research.microsoft.com/~xshua/
加载中,请稍候......