不久前,香港科技大学计算机科学及工程学系助理教授易珂博士以访问学者的身份来访了惠普中国研究院,并与惠普中国研究院的研究人员与实习生们度过了两周愉快的工作时光。在一个阳光明媚的午后,我们和易珂博士进行了一次愉快的交流,并了解到易珂博士目前主要的研究领域以及他与惠普中国研究院的合作经历。

易珂博士2001毕业于清华大学计算机系,之后赴美国杜克大学继续攻读,并于2006年取得博士学位。毕业后,易珂博士在美国AT&T实验室工作了一年,2007年起在香港科技大学计算机科学及工程学系任教。目前,易珂博士的研究领域是海量数据算法及数据库理论与实践。具体来说,就是对大规模数据处理问题先从理论上设计算法,分析其通讯复杂度、时间复杂度以及空间复杂度,然后在单机及分布式环境下实现原型和进行实验。
“这次我和中国惠普研究院的合作,主要涉及了两个课题,其中之一就是这里的强项:机器学习。”易珂博士告诉我们。“第一个项目是惠普“聪明打印”应用的延伸,它在加载在微软Bing工具条上的应用。现在我们在网页上打印内容的时候,并不用打印全部内容,因为现在页面上广告之类不太相关的东西很多。我们要打印的可能只是一小部分,比如新闻的正文,网购的确认单等,这样做不仅省纸、省墨,同时也保护环境。而现在打印的范围基本上都是自己来圈,我们想做的就是一个延伸,通过以前用户打印的相似网页,从以前用户的选择区域来预测新的页面哪些部分值得打印,然后推荐给用户。这也是一个自学习的过程,目标就是尽量做到准确。目前这个项目还处在实验室的研究阶段,但前景非常好。现在我们做成了一个ToolBar的形式在浏览器上供用户下载安装,已经有了上百万的下载量。但目前只能让用户自己选择打印的范围,未来我们会逐渐推出智能预测的功能。”
“第二个项目现在还在摸索期,”易珂博士笑笑说。“大概思路就是在搜索引擎里,当搜索一个关键字的时候,有时候用户是想搜索跟自己位置相关的,比如咖啡厅、电影院。而有些关键字是和地点没关系,比如搜电脑型号、HP等。我们现在就想把这两方面结合起来,当用户搜一个关键字的时候,智能地分析出他是不是想搜与地址相关的,如果是相关的话就自动告诉搜索引擎,把当前地址考虑进去。否则按一般的关键字搜索就可以了。我们的方法也是通过分析已往以往用户的搜索记录来预测哪些搜索是和地址相关的,哪些不是。”
“其实这两个项目的基本思想是一致的,都是分析过去的记录来预测用户的意图,基本上都是用到一些数据挖掘和自学习的方法。还有一个涉及隐私的问题,所以我们会问用户,你希不希望发送信息给我们,来推进我们的质量。但这两个项目我们现在的记录都还并不多,只有几万条的记录。但如果积累到一定数据量的话,我们就会开始做个性化的预测,因为所有的数据挖掘都是数据量越大,效果越好。”
在谈到国内的研究水平,易珂博士说道:“从学术上讲,整个中国以及亚洲,现在成果还是比较多的。从数据库这个领域来看,现在来自中国的学者已经占了很大的比重,但业界的领导者和资深的专家,中国人还是比较少。这几年国内在这个领域发展的比较快,但和国际上相比,还是有一些差距。但在应用方面,像百度、阿里巴巴、腾讯等国内的企业,现在发展的相当好,成绩和进步都很大。特别是中文市场这一块,现在国内互联网企业的份额应该已经超过国外厂商了。”相对而言,算法和计算机理论方面中国学者为数不多,但近几年也有很好的发展势头。特别是图灵奖得主姚期智先生在清华大学创办的“理论计算机科学研究中心”,这几年培养了不少的理论界新星。
在交谈的最后,易珂博士也回顾了自己和惠普中国研究院两次合作的历程。“今年是我第二次来到惠普中国研究院,去年已经来过了一次,正是由于去年和惠普合作地比较愉快,所以今年又来了。现在惠普在研究方面正在转型,研究课题更偏应用一些,和成果的结合也更加密切。去年我们选了一个比较开放的课题,学生也很出色,这边的领导也很支持,所以那个项目做得很好,发表在了SIGMOD上。而今年的选题就比较偏应用一些,我们
一同在产品上进行了一些合作研究,而这些项目的前景也非常好。能与惠普这样的IT巨头合作我十分高兴,十分期待今后能与惠普再进行更深一步的合作。”
易珂博士去年与惠普中国研究院一起提交的论文:
Flexible Aggregate Similarity Search
Yang Li, Feifei Li, Ke Yi, Bin Yao, and Min Wang
ACM SIGMOD International Conference on Management of Data (SIGMOD),
June 2011.
加载中,请稍候......