近日,我们有幸在惠普中国研究院与来访的德克萨斯大学阿灵顿分校计算机系助理教授李成锴博士进行了一次愉快、轻松的交谈。今年夏天,李成锴博士再次造访了惠普中国研究院,在此这两周的时间里,他与惠普中国研究院的研究员及实习生共同进行了有关企业数据挖掘方面的研究。

“这是我第二次来到惠普中国研究院了,”李成锴博士高兴的说到。“去年我们做了一个比较开放的课题,叫做Prominent Streak
Discovery in Sequence Data。我们计划下周前往美国,就这个课题参加KDD2011(ACM SIGKDD
International Conference on Knowledge Discovery and Data
Mining数据挖掘领域顶级会议)大会。而今年就希望和惠普的产品结合地更加紧密。我今年的想法是,在企业信息管理系统里面,如果用户有信息查询的需求,这个查询往往需要用到各种各样不同的数据库和文档,既要用到传统的数据库,也需要用到网页、文档。我们要做的就是怎么把这些不同的信息结合起来,来满足信息查询的需求。
“举个例子来说,比如说某个企业在北京办公室的一个打印机坏了,需要找一个本地的技术员来修理,要处理这个问题就需要从不同的地方寻找信息。首先,是要找一个北京的技术员,其次,就是打印机的信息,比如说哪种品牌、何种类型。同时,公司的E-mail中某些文本数据可能会记录着某一个技术员曾经修好过类似的一个打印机,把这三方面信息结合起来,用户就会知道,找哪这个技术员来修理是比较合适的。”李博士告诉我们。
“一般来说,现在企业IT部门的任务在一个数据库中是不可能解决的,我们现在的研究内容就是做一套系统,从各个数据库、文档和网页中挖掘信息,并将这些内容综合起来,以快速、全面、方便的解决这类问题,同时,提高效率,节省成本。这是一个自动的技术,不用人为的去找所需要的数据,。最终,我们想提供给用户的是一个类似于搜索引擎的东西,一个基于实体的搜索查询,用户用关键字就可以查询不同信息源,并综合反馈结果的系统。”
在谈到与惠普中国研究院两次的合作经历,李成锴博士笑着回顾道:“在中国,数据挖掘、数据库领域的发展非常快,在国际上也有不少有影响的成果。许多公司的研究机构和大学都有不少的人来做这个事情,但目前还没有比较成熟的成果。惠普有一个专门的项目叫做IRP,用来支持全球各地大学的学者与惠普一起进行研究,而这次也是惠普给了我们这个项目很大的支持,希望我们这次的研究可以取得好成果。去年我们就一起进行了合作,惠普这边的研究员和实习生也非常好,当时的研究成果就发表在了数据挖掘领域最好的会议KDD上,所以,今年我们双方都希望能够继续进行合作。两周的访问结束后,我返回美国也会继续通过网络和电话,与在这个项目上继续和惠普进行合作,这边也会有一个研究员会和我一同进行研究。我希望和惠普中国研究院合作的成果在未来能够真正落实到产品上面,也期待着明年能够第三次来到北京,同惠普继续进行合作。”
李成锴博士与惠普中国研究院一起发表的论文:
Prominent Streak Discovery in Sequence Data. Xiao Jiang, Chengkai
Li, Ping Luo, Min Wang. In Proceedings of the 17th ACM SIGKDD
International Conference on Knowledge Discovery and Data Mining
(KDD 2011), pages -, San Diego, California, USA, August
2011.
加载中,请稍候......