加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

哥伦布斯之旅:与SDM的第一次亲密接触

(2010-05-27 10:14:32)
标签:

惠普实习生

sdm大会

哥伦布斯

it

作者:惠普中国研究院    罗平

 

    SDM(SIAM International Conference on Data Mining)是工业与应用数学学会(SIAM, Society for Industrial and Applied Mathematics)组织的全球性数据挖掘和知识发现会议,也是该领域最高级的会议之一。今年的论文录用率是23.84%。跟往年不同的是,今年不论长文或短文,只要文章被录用,就可以在大会上进行15分钟的报告,并且可以在单独的poster session中与参会学者进行深入交流。
    以往,SDM会议给人的印象是一帮做数学的人来掺和数据挖掘的事儿,每篇文章必提模型并罗列长长的公式。而今年,大会明确鼓励具有应用背景的文章,并告知审稿人对此加以重视。今年会议共收到89篇应用型文章,只有14篇被录用,其录用比例(15.73%)远低于平均录用率,足以说明数据挖掘应用成功实施的难度。
    参会之前被告知我和我的实习生庄福振同学合作撰写的文章“Exploiting Associations between Word Clusters and Document Classes for Cross-domain Text Categorization”在评审后被选为12篇候选最佳论文之一(同时被推荐到Journal of Statistical Analysis and Data Mining上发表),并将在大会上参与“最佳论文”和“最佳学生论文”两个奖项的角逐(详情可参见博文《惠普中国研究院实习生获得SDM 2010最佳论文提名》)。因此,我们怀揣着小期待踏上征程。


进军哥伦布斯
    哥伦布斯(Columbus)是美国俄亥俄州(Ohio)的州府。我选择从纽约转机前往。在纽约落地的时候我颇有成就感-----因为我在飞机上给即将在大会报告中使用的演示文档写了详细的演讲词,并且读完了几篇论文。然而,当我在纽约机场闲逛了几个小时并登上另一架小飞机之后,无法抗拒且威力无比的困倦来袭,睁开眼已经抵达哥伦布斯的机场了。
    计算所的老同学们开着林肯轿车来接我,让我很威风地抵达了会议酒店。酒店位于商业区,周围都是写字楼,不由得心中暗想:这下可以安心地开会了。不像上次在巴黎,你得在会议和埃菲尔铁塔之间做出选择,那是相当的纠结呀。由于时差的关系,我睡到半夜就醒了。想到以前老板告诉我们的秘方——跑步,便立马搜寻酒店的健身房,出了一身的汗,心情也好多了。


SDM一瞥
    我们的论文报告时间是在会议的第一天上午,这应该是庄同学在主流会议上的处女秀。他稍微显得有些紧张,但总体来说还是不错的------毕竟是我们一起辛苦(无数次修改slides)的结果。下面是庄同学在报告结束后的靓照:一个勤奋、踏实、可爱的孩子在压力释放后的轻松微笑。

哥伦布斯之旅:与SDM的第一次亲密接触


    我是第一次参加SDM。三天的会议下来,对大会也算有了一些了解。虽然SDM没有KDD的规模大,饭也没有KDD的好吃(KDD更能吸引赞助商),但是SDM的参会学者的研究品位都比较相似,就如同一帮趣味相投的朋友,每年都在世界的某个角落聚一次,更能磨擦出智慧的火花。


    以下是我列举的一些我感兴趣的文章,以方便做相关研究的朋友们阅读:
    最佳论文奖Fast Single-Pair SimRank Computation
    一些很有意思的应用类的文章
    The Application of Statistical Relational Learning to a Database of Criminal and Terrorist Activity
    Toward Finding Valuable Topics
    Predicting Customer Churn in Mobile Networks through Analysis of Social Groups
    我已深刻领会到应用对于数据挖掘的重要性,个人认为mobile、sensor、anti-terrorist、VLSA testing 等方面应该是应用的温床。

    一个非常不错的tutorial:
    On the Power of Ensemble: Supervised and Unsupervised Methods Reconciled
    该tutorial系统地总结了如何应用ensemble的方法做classification、clustering和classification & clustering融合,是学习如何做tutorial的典范。讲解和总结都很清晰,看得出来,作者真是下了很大功夫准备的。值得一提的是,该tutorial中有一页详细介绍了我们在CIKM 08里面的工作(http://www.hpl.hp.com/techreports/2008/HPL-2008-115.html),这让我感到有些小骄傲!想想,台上演讲者正在谈论的工作内容,其作者恰好就是台下的听众,多么有趣的感觉。


最后的小失望
    最后的结局是:我们的文章没有拿到最佳论文奖。真有些小失望!不过那天晚上俄亥俄州立大学的同学们带我去吃了芝加哥以东、纽约以西最好的中国菜,虽然是我买单,心情也算舒畅了点。
    回想起来,第一次与SDM大会亲密接触的哥伦布斯之旅,由小期待、小骄傲和小失望组成;但我已经很满足了,因为经历才是最重要的。

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有