如果让我给2007年7月在荷兰阿姆斯特丹举行的第30届SIGIR大会(国际计算机协会主办的国际信息检索大会)加上几个关键词的话,那么我会给出三个:阿姆斯特丹、中国、排序学习(Learning
to Rank)。
“信息检索”并不是能特别区别这次大会与以往大会的关键词,因为每届SIGIR都是关于信息检索的。自从1978年第一届大会以来,每届SIGIR都会有来自世界各国的信息检索领域的学者发表学术论文、探讨学术课题,增进彼此了解。

(参加SIGIR的研究员和实习生们合影)
“互联网搜索”也不是一个适合于描述这届SIGIR的特殊关键词,虽然互联网搜索代表了现在SIGIR领域的主要应用方向。因为早在三四年前,互联网搜索就已经成为SIGIR关注的热点。以往的SIGIR都是由学术界主导的(历史上,信息检索领域关心的应用主要是图书馆信息检索)。但是,这几年来,来自工业界的论文越来越多,与会者也越来越多。SIGIR变成了一个学术界与工业界年年举行交流的盛会。从这种意义上说,信息检索是一个非常令人振奋的领域。
大家知道,计算机科学往往拥有许多有趣并具挑战性的问题,但是这些问题的解决通常比较困难多数领域所能提供的解决方法还离现实有一定的距离。可也有一些领域不一样,比如说数据库、信息检索,在这些领域里研究开发出的新技术往往能很快地转到实际应用。这也就是为什么SIGIR受到工业界瞩目,与工业界结合紧密的原因。众所周知,互联网搜索现在是IT领域的牵引产业。SIGIR不知不觉已成了时代的宠儿。这些年,SIGIR变得越来越“火”,参加大会的人数也越来越多。今年的SIGIR有581人参加,也是一次参会人员较多的大会。微软亚洲研究院有六名研究员和两名实习生参加了大会。
“微软亚洲研究院”也不能说是这届SIGIR独有的关键词,因为它几年前就和这个会议密切挂钩了。研究院从2001年开始参加SIGIR大会以来,已经累计有36篇论文被大会采纳。实在很难想象研究院会在这么短的时间里创造出这么多的科研成果。特别是,2005年研究院在SIGIR有12篇论文发表,震惊了整个业界。今年来自研究院的论文有5篇,占会议发表论文总数85篇的5.88%。这几年来,研究院一直都是SIGIR论文数目最多的组织之一。今年六月SIGIR的权威教授Bruce
Croft博士专门访问研究院,想了解”What is going on at MSRA?
(在研究院到底发生了什么?)”,其心情也是可想而知的了。
因此,我觉得阿姆斯特丹、中国、排序学习是最能代表这次SIGIR特点的三个关键词。
在我看来,阿姆斯特丹是举办SIGIR最合适的城市之一。自从大航海时代以来,阿姆斯特丹就是一个重要的国际海运港口,阿姆斯特丹机场也是现在世界上最大的空港之一。阿姆斯特丹又是一个由多条运河横纵贯穿的城市。据说坐落在市内的大小桥梁就有635座。在阿姆斯特丹,你可以看到像在其他欧洲大城市一样的教堂、民居、面包房、花店、酒吧、咖啡馆,每座建筑好像都在向你述说着这个城市从17、18世纪以来的历史。我要说,同样是坐落在水边的城市,阿姆斯特丹不像伦敦那样宏伟气派,也不像威尼斯那样古朴神秘,但它更具生活气息,显出包容与宽大,给人自由开放之感。在阿姆斯特丹街头,你可以看到各种各样的交通工具:自行车、马车、汽车、有轨电车穿梭而行,与运河中的游船、渡轮遥相呼应。因为交通发达的缘故,让人感到阿姆斯特丹历史上就是一个信息汇集的枢纽。在这样的城市里参加信息检索相关的学术会议确实有一种独特的感受。阿姆斯特丹市的现任市长亲临SIGIR欢迎晚宴(Reception)致词,体现了对SIGIR的重视。
中国,中国人的参与是这次SIGIR大会的另一特点。中国这次参加会议的,除了微软亚洲研究院外,还有科学院、清华、北大、浙大和百度等机构的代表,这在SIGIR历史上也是空前的。除了研究院的5篇论文外,还有来自北大与清华的论文。从目前发表的论文总数来看,中国已是SIGIR第三大国,而且其增长速度是最快的。这好像与中国的国民生产总值的全球排名有异曲同工之妙。此外,大会组织者总结了在SIGIR发表论文最多的学者。当中有不少中国人的名字:微软亚洲研究院的马维英博士、陈正博士,伊利诺斯香槟分校的翟成祥博士。可见,中国人在SIGIR大会上的声音越来越多,正如在招待晚宴上,阿姆斯特丹市市长用英、法、中三国语言作为他的结束祝词:Thank
You、Merci、Xie-Xie。让人感到一个新的时代的到来!
在历届的SIGIR大会上大家会发表关于信息检索相关的各种技术。排序学习作为一种新兴的信息检索技术在这次大会上占据了重要的位置,受到了大家的瞩目。其实,信息检索中的许多问题都可以形式化为排序问题。迄今为止,排序模型通常是通过经验性的方法构建的。往往存在理论支持不充分,应用效果尚需改进的问题。排序学习是近年来提出的用统计机器学习的手法进行排序模型建模的技术,拥有理论及应用上多方面的优点。作为一个研究方向,排序学习有众多课题需要研究与探索,已成为信息检索领域的热门。这次SIGIR有两个Session,8篇论文是关于排序学习的。特别是研究院的5篇论文中有4篇论文是关于排序学习的,突显了它在该方向上的领先地位。另外,大会之后还举行了排序学习的研讨会(workshop),有来自研究院的李航、刘铁岩,伊利诺斯香槟分校的翟成祥和康奈尔大学的Thorsten
Joachims组织。这个研讨会吸引了100多名与会者注册参加,成为大会中与会人数最多的一个研讨会。
明年的SIGIR将在新加坡举行。它将有什么样的特殊关键词来描述呢?我们以新奇与兴奋的心情盼望着它的到来。
加载中,请稍候......