加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

“有求必应”——校园菁英探秘结构化数据搜索

(2011-09-22 09:19:15)
标签:

校园菁英计划

有求必应

结构化数据搜索

微软学生俱乐部

创意项目

it

分类: 技术

编者按:20115月,微软亚洲研究院启动了“微软校园菁英计划”之“有求必应”结构化数据搜索项目。中国的高校学生有机会接受微软亚洲研究院的研究员们一对一的指导,利用微软的产品及技术,在Windows平台上开发出更能满足用户需求的结构化搜索信息服务。

“有求必应”——校园菁英探秘结构化数据搜索

编撰:葛巾津、任艳

 

回忆一下自己坐在图书馆中查阅图书的画面:借助图书目录,我们可以较快地找到自己需要的图书。随着互联网的出现,大量的网页涌现在互联网上,知识已经呈爆炸性的增长,我们获取知识的首选途径也从最初的去图书馆,发展到利用搜索引擎来查找信息。时至今日,人们如果遇到问题,首先想到的便是从各大搜索引擎中寻找解决方案。

 

现有搜索引擎的主流技术是基于关键词搜索信息,其结果不仅需要用户自己逐一去判断其中是否包含有用的信息,还常常出现答非所问的情况。现在互联网上的海量网页中,我们有机会看到的最多只有百分之五的页面。而在信息大爆炸的今天,我们可能只有精力关注前100个搜索结果。如果再过十年,百分之五这个比例可能会降到百分之零点几了。许多希望从网络上找到有用信息的用户都不得不忍受不断搜索和浏览大量信息带来的痛苦。不管是在学术界还是工业界,研究者们都迫切地希望能够采取更加简便、直接的方法为用户提供所需要的信息。

 

“有求必应”——校园菁英探秘结构化数据搜索

 

正是在这样的背景下,微软亚洲研究院在今年54日正式启动了“微软校园菁英计划”之“有求必应”结构化数据搜索项目,鼓励中国的高校学生采用微软的产品及技术,从纷繁复杂的网络数据当中提取结构化数据,并以表格的形式存储、处理及展示信息的技术推广到实际应用当中。该项目旨在发掘新颖并且具有实际商业应用价值的想法和创意,期待同学们去探索结构化数据搜索在生活当中哪些方向和领域可以应用。活动一经启动,便受到了同学们的积极响应。在学生提交的众多创意中,涌现出了一个接一个令人眼前一亮的好点子。既有帮助在线交易者们获得交易信息的搜索网站,也有帮助学生获得所需国内外高校信息的搜索引擎。从商业到学术、从医学到求学……每一个“有求必应”的创意既展现了同学们出色的创新能力,又不乏实用价值。经过前期的项目创意文档筛选,共有来自五所高校的五支队伍闯入了项目的实际制作环节,并获得由微软亚洲研究院提供的项目启动资金以及机器学习组研究员一对一的指导。同学们不仅能接触先进的信息搜索技术,拥有将自己的创意变为现实的机会,还可能获得微软的支持,将开发出的产品推广到市场当中,孵化出自己的创业团队,真正实现让技术服务于生活。

 

“‘有求必应’结构化数据搜索项目不仅为高校学生提供了一个接触前沿搜索技术的渠道,也是一次探索搜索引擎未来发展方向的头脑风暴。它的意义不仅仅在于激发各个参与团队的创意,更重要的是它为互联网用户开启了一扇提供更智能的服务、更有效的信息以及帮助互联网用户进行决策的新窗口。”负责项目团队指导的微软亚洲研究院机器学习组研究员闫峻如是评价道。

 

下面,就让我们一起来看看三个各具特色的创意项目吧。

 

求“网”问物

 

“面对那些琳琅满目的电子商品你是否觉得无从下手呢?眼瞅着那些类似的商品你是否觉得无法抉择呢?它的用户体验是怎么样的呢?在这个信息爆炸的时代,如果只在必应搜索(Bing)里输入产品的关键字,就可以返回该类电子商品的详细对比的结构化信息,以及他们的用户体验,包括正面和负面的评价信,那将给网购达人们带来多大的福音啊。”西安电子科技大学B-Bull团队在他们提交的创意文档中这样写到。

“有求必应”——校园菁英探秘结构化数据搜索
 B-Bull团队开发的比对电子商品的结构化搜索界面

 

基于这个构想,B-Bull团队提出了这样的创意方案:在用户输入自己想要购买的产品之后,就能返回该产品的详细对比的结构化信息,并且对该产品在各大网站上的评价信息进行去重和聚类分析,得到该产品的优点、缺点和评分信息,供用户进行选择。

 

如此一来,面对当前各大网购网站上同一件商品的价格相差很小的情况,用户可根据自己的喜好,实现对该产品的性价比、可用性和易用性之间的系统比较,而不用再面对网上眼花缭乱的商品信息而感到无从下手了。

 

求“网”问药

 

面对现在广泛存在药店或医生因其自身利益为病人推荐一些昂贵的药物,从而使消费者的利益被侵害而不自知的情况,人们越发对互联网药物搜索领域给予更多的关注。来自武汉大学int3团队设计出了基于属性查找、关联推荐等功能的搜索引擎。当用户不清楚药物的具体名称时,可根据记忆搜索如“感冒”、“中药”、“褐色”、“颗粒状”等药物属性,得到相关几种感冒冲剂的结果,从而绕过大浪淘沙的过程。同时在关联推荐中,他们还为用户推荐相关药物,如上例中将会产生“柴胡冲剂”等关联结果。通过这些人性化的功能,让用户使用更为便利、舒心。

 

试想在现实生活中,用户需要搜索阿莫西林,却不记得药的名字,只记得上次使用时是用来消炎的,还记得药物是胶囊状的,于是在搜索栏中输入了“消炎”、“胶囊状”;又比如从事药物研究的用户,需要了解羟氨苄青霉素的专业性知识,于是搜索“羟氨苄青霉素”。这两种输入方式都将自动语义相关到用户想要的结果“阿莫西林”。这项研究既可以让用户以极低的成本找到理想的药品,从而利用互联网获取对轻微疾病的治疗方法;对于较严重的疾病也可以提供参考信息,辅助医生的诊疗。而且,其“关联推荐”等功能也极具商业价值。

 

求“网”问人

 

“对于未来准备出国深造的同学,在漫长的准备过程中,我们往往会为寻找心仪的学校和教授而焦头烂额,传统的搜索引擎很难完全满足我们的需求,”来自中山大学For.G团队在创意文档中提出,“因此,我们立志要为广大有志出国深造的同学提供一款专业、易用的信息服务产品。”

“有求必应”——校园菁英探秘结构化数据搜索
 For.G团队建立的提供国内外高校和教师信息的搜索界面

 

利用后台自动采集过滤出的学术人物的个人页面作为加工数据源,For.G团队对采集的个人页面集合抽取个人信息和建立索引,组织成一条条结构化的记录存放于数据库中,最后提供搜索接口。目前,For.G团队已实现了完整的导航功能、基于研究兴趣和学术背景的直接查询搜索功能以及用户的自定义服务。未来,他们希望加入社区化平台的概念,建立各类用户群的社区化功能,如学生可以对搜索的信息进行评价,向其他学生推荐教授等。通过对已有的结构化数据进行数据挖掘分析,可以得到学术人物记录的隐形关系,如学术人物合著关系、研究兴趣相关程度等。通过挖掘之后,数据丰富的可视化呈现能够满足用户的更多需求并带来更好的用户体验。

 

该产品旨在提供高校科研人员信息的结构化搜索功能,专注于建立一个拥有完备数据、丰富用户体验的人才信息库,从而填补中国国内没有专业的人才信息搜索系统的空白。

 

展望下一个互联网搜索时代

 

一个好的搜索引擎如何才能提高竞争力呢?

 

“第一、做的比你的对手更好;第二、卖的比你的对手更便宜;第三、做你的对手最不愿意做的事情。”微软首席执行官史蒂夫•鲍尔默这样回答。总结起来,一个好的搜索引擎,即是最大化满足用户需求的,用户用得满意且想要用的搜索引擎。随着“有求必应”结构化数据搜索项目的开展,中国的高校学生将有更多的机会学以致用,在互联网搜索领域不断提出新的设想,做出新的尝试,迎接下一个互联网搜索时代的到来。

 

更多关于结构化数据搜索项目的文章,请访问微软学生技术俱乐部新浪博客查看

 

相关阅读

微软Kinect助翼学生创新梦想

机器学习正在改变我们的工作与生活

社交网搜索成为网络搜索学界最炙手可热的话题

超越自己,追逐梦想——我和西电微软技术俱乐部的故事

__________________________________________________________________________

欢迎关注

微软亚洲研究院人人网主页:http://page.renren.com/600674137

微软亚洲研究院微博:http://t.sina.com.cn/msra

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有