标签:
wsdm微软亚洲研究院网络搜索数据挖掘香港社会计算众包it |
分类: 技术 |
作者:李航 微软亚洲研究院高级研究员
第4届ACM网络搜索与数据挖掘国际会议(4th ACM Conference on Web Search and Data Mining, 简称WSDM 2011)于2011年2月9至12日在香港举行。微软亚洲研究院高级研究员李航博士,与德国汉诺威大学Wolfgang Nejdl教授共同担任此次大会程序委员会主席。微软亚洲研究院前院长、现任微软全球资深副总裁沈向洋博士为大会做了主题报告。另外特别值得一提的是,大陆学者在本届WSDM会议中扮演的角色越来越积极和活跃,此次大会中有40多名内地的学者和学生参会,发表论文11篇,占大会录用论文的一成以上。下面,让我们一起来看看李航博士带来的大会回顾。
WSDM(英语发音Wisdom)于2008年在美国斯坦福大学举行第一届会议。虽然只有几年时间,它已经发展成为了网络搜索与数据挖掘领域的顶级国际学术会议。WSDM不同于互联网国际会议WWW,它更专注于搜索与数据挖掘,也不同于ACM信息搜索会议SIGIR与ACM数据挖掘会议SIGKDD,它更侧重于网络。事实上,WSDM是由ACM SIGIR、SIGKDD、SIGMOD、SIGWEB共同赞助的国际会议。
WSDM强调工业界与学术界的共同参与和交流,既重视网络搜索与数据挖掘领域的基础研究,也重视该领域的应用。众所周知,互联网搜索与数据挖掘目前已发展成为计算机科学与应用最热门的领域之一。互联网搜索与数据挖掘正在不断地迅速地改变着人们的工作与生活,对整个人类社会产生着巨大而深远的影响。正因为如此,WSDM将成为越来越具影响,受到广泛关注的学术会议。
WSDM的发起者与历届会议的组织者都是在网络搜索与数据挖掘领域的知名学者。在WSDM会议上发表的论文也都是高质量的,代表着该领域最前沿的研究成果。可以说WSDM的论文质量与WWW、SIGIR、SIGKDD相比毫不逊色。这也是WSDM能够迅速发展起来的一个原因,也使WSDM成为一个具有重要的学术、产业与社会价值的会议。
会议概况
本届大会主席是Irwin King(香港中文大学),程序委员会主席是Wolfgang Nejdl(德国汉诺威大学)和李航(微软亚洲研究院)。大会程序委员会委员131名、资深委员19名。
会议收到论文372篇,录用83篇(录用率22.3%)。由于会议涉及的领域比较集中,参会人数不是那么多,WSDM只设串行的专场(single track session),没有并行的专场。录用论文中只有32篇论文(投稿论文的8.6%)在全体大会上报告。所有录用论文都在展讲专场(poster session)中报告。录用论文来自13个国家与地区,包括美国、中国、英国、日本、意大利、以色列、中国香港等,其中来自中国大陆的论文就高达11篇。论文来自42个单位,包括微软、雅虎、斯坦福大学、香港中文大学等。论文内容属于网络搜索、网络挖掘、社会搜索与挖掘内容的约各占三分之一,涵盖互联网和社交网的搜索与数据挖掘方面的理论、模型、算法、评测、实验、应用等多个方面。
WSDM 2011会议共4天。第1天是专题讲座(tutorial)和专题研讨会(workshop)。有4个讲座和2个研讨会。以后3天是大会主会议。参加会议者约有230人,工业界与学术界各约一半。来自国内的学者与学生有40以上。特别是清华大学、北京大学、人民大学、中国科学院等机构的多位教授应邀参加了这次会议。
Christos Faloutsos(卡耐基梅隆大学教授)和沈向洋(微软全球副总裁)分别作了大会主题报告。在以“Mining Billion-node Graphs: Patterns, Generators and Tools)”为题的报告中,Faloutsos教授介绍了他与同事们关于大规模网络(比如互联网)的规律与法则挖掘的最新研究成果。这些成果包括存在于大规模图型数据的静态与时序的法则、大规模图型数据的生成机制、大规模图形数据挖掘工具oddBall和PEGASUS。沈向洋博士报告的题目是“Bing Dialog Model: Intent, Knowledge and User Interaction”。他提出了微软搜索引擎必应的未来搜索模式,称为“必应对话模型”。这种全新的搜索模式可以更好地理解用户的需求(intent),更好地组织管理信息(information)与知识(knowledge),通过与用户的互动,帮助用户尽快地完成其所有要完成的任务(task)。
(沈向洋博士)
会议评选的最佳论文是由雅虎Lihong Li, Wei Chu, John Langford and Xuanhui Wang所著的题为Unbiased Offline Evaluation of Contextual bandit based News Article Recommendation Algorithms的论文。最佳学生论文是斯坦福大学Eldar Sadikov, Montserrat Medina, Jure Leskovec and Hector Garcia-Molina的论文Correcting for Missing Data in Information Cascades。前者提出了一个在线推荐系统的学习算法的全新评估方法,并从理论与实验两方面验证了该方法的有效性。后者提出了一个关于社会网络中有信息损失时的信息传递(information cascade)模型的新估计方法。
会议热点:社会计算与众包
同往年一样,这届WSDM有不少关于搜索与数据挖掘的文章。个性化搜索、搜索结果的多样化、搜索结果的评测、搜索数据挖掘、相关排序、话题模型等依然是热门的研究题目。但是最令人瞩目的现象还是社会搜索、社会数据挖掘相关论文的激增。比如,大会上有4篇关于微博的论文报告,涉及到微博的自动搜索、微博权威的自动发现等多方面内容。
Teevan等报告了她们关于微博搜索的分析工作。通过工具栏(toolbar)她们采集了大量用户的微博搜索与互联网搜索的数据,并对数据进行了分析比较。她们得出了以下结论:微博搜索用户更愿意搜索时间性强的内容,包括突发新闻、实时报道、时势动态;微博搜索语句往往更短、更热门、而且常常被重复查询。Pal和Counts提出了在微博上自动发现某个话题的最权威作者的方法。在微博上有许多具有影响力的作者。他们有许多追随者(follower),但他们不一定是某个具体话题的权威作者。Pal 和Counts的方法将同一个主题的微博,比如都含有关键词“石油泄漏”的微博,收集起来。然后提取这些微博的作者的特征,根据其特征将作者聚成两类。最后将主要类别内的作者进行排序,找出最具权威的作者。他们的一个重要贡献是对权威作者发现提出了许多有用的特征。
另外,众包(crowdsourcing)也作为一个新的研究方向出现在这一次的WSDM上。各有一个主题研讨会与主题讲座是关于这个问题的。众包是指在互联网上将数据标注工作承包给大众的做法。因为众包的成本很低,所以可以通过众包标注数据并构建有用的知识。这也就是它孕育着对网络搜索与数据挖据产生深远影响的原因。
Omar Alonso与Matt Lease做了关于众包的专题讲座。他们系统并详细地介绍了众包的现状、方法、优点、挑战与机遇。现在在互联网上有Mechanical Turk, Crowdflower, CloudCrowd等十多家众包的网站。在这些网站上,任何人都可以注册成为会员,并扮演请求人(requester)或工人(worker)的角色。请求人发布标注任务(task),并给出具体的标注方法和规范、以及所提供的报酬。工人可以自主选择感兴趣的任务,参加标注工作,得到应有的报酬。请求人往往将各种训练与评测数据的标注作为任务。任务有多种多样,如搜索结果的评测、英文拼写错误纠正、文献翻译、图像识别等。请求人通常雇佣大量的工人完成一项任务,以提高标注数据的数量与质量。标注任务的报酬往往很低,最低的只有几美分。工人更多的是把标注当作娱乐、消遣、学习、以及交流的机会;当然能得到一定的报酬也是吸引他们的地方。而提供众包平台的网站则通过提成盈利。现在众包行业非常火爆,比如在Mechanical Turk上从2009年1月至2010年4月就有1万件完成的任务。Alonso与Lease介绍了怎样利用Mechanical Turk,使它成为研究人员的工具。讲述了怎样设计标注规范、构建标注系统。他们一再强调质量管理的重要性,介绍了质量管理的办法。Alonso与Lease指出了众包的优点,如成本低、使用方便等。也提及了它的局限性;那就是它只适合于一些简单的标注工作。他们还将把众包与云计算的结合看作是未来发展的方向。
WSDM 2011的网址是:http://www.wsdm2011.org/ 。WSDM 2012将于明年2月在美国西雅图举行。
李航博士:
微软亚洲研究院互联网搜索与挖掘组高级研究员及主任研究员。李航的研究方向包括信息检索,自然语言处理,统计机器学习,及数据挖掘。
相关阅读
下一代互联网搜索的前沿:意图、知识与云
移动计算的未来十年与超越—记Mahadev SATYANARAYANAN的大会演讲
欢迎关注
微软亚洲研究院人人网主页:http://page.renren.com/600674137
微软亚洲研究院微博:http://t.sina.com.cn/msra