标签:
搜索引擎百度框计算互联网it |
分类: IT乱弹 |
关于搜索引擎的未来,百度提出了“阿拉丁”的方案。很多人有一个误解,觉得阿拉丁是冲着“暗网”去的,其实不然,阿拉丁的本质应该是让搜索结果更精准、直接。
关于这一点,可以从另一个搜索巨头Google那里得到呼应。最近Google联合创始人Sergey Brin提出了一个想法:在人脑中植入芯片,在用户搜索的时候,搜索引擎就可以很准确地理解他的意图,才有可能给出最匹配的结果。
在2009百度技术创新大会上,李彦宏提出了“框计算”,它分为三步:提交需求、识别需求、响应需求。其中也将对需求的识别作为了最重要的一步,实际上这也是最难的问题。举个简单的例子:当你在百度中搜索“苹果”,百度如何理解你搜索的是水果、电脑,还是范冰冰演的一部电影?
看看现在的百度,搜索结果的依次排序是:苹果公司、苹果的百度视频、苹果的百度百科、豆瓣网的《苹果》电影,正好覆盖了四种最大的意图。但显然,真正厉害的搜索,应该是只提供一种结果的搜索,尽管有时候这几乎不可能。比如,有些用户找hao123,输入的关键词是“123”,这种意图已经到了“变态”的地步。
不管如何,要达到这一点,其实不需要“植入芯片”,在这次技术创新大会上,百度的首席产品设计师孙云丰和阿拉丁项目负责人廖若雪分别都谈到了类似的话题,并给出了阿拉丁的一些解决方案。我对此进行了一些归纳:
1.确定性关键词的匹配。比如“现在几点了”,从自然语言的角度,这是用户在发问,阿拉丁反馈出了一个最直接的时钟,效果相对于我们看一下手表。这个比较简单,但如果用传统搜索的rank处理,恐怕出来的结果就是相关度匹配最高的网页,但对用户无任何价值。
2.环境因素的考虑。比如“日全食”,这个关键词很有确定性,但意图却多种多样。你可能找的是相关图片、视频、科普知识或者历史资料。这里可能涉及到环境因素,比如日全食刚刚上演,绝大多数需求可能是找相关报道,如果是上演之前,多数则是查科普知识。
3.地域特征的引入。同一个关键词“白菜价格”,北京和上海的用户来搜,显然结果应该不一样。对地域特征的引入,难点不在地位的识别,这已经很成熟,真正的难题是,如何确定某一个需求需要引入搜索者的地域特征。比如,搜索引擎如何确定当网友输入“白菜价格”,就得考虑地域因素。
4.自然语言的筛选。用户趋向于很“傻”,搜索引擎必须具备拨云见日的功底,这涉及自然语言处理、语义分析等。比如“北京到上海飞多久”,其实和“北京到上海有多远”表达的意图差不多。
5.“需求满足度”和“需求响应程度”结合。廖若雪在讲阿拉丁的时候说过,这两个因子结合起来可以影响搜索结果的排序,这和传统的pagerank之类差异很大。
最后,有一点不得不承认,有时候连用户都不清楚自己究竟要找什么,搜索引擎如果“想得太多”,就会是“胡思乱想”。这时候百度有一种解决方案很有意思,叫做“泛需求”,比如搜“周杰伦”,可能是想知道他的近况、图片、视频、歌曲、绯闻……无法确定,那就将这些结果整合起来。
在用户大脑里植入芯片是不可能的,至少在现有的科技和伦理条件下不可能,但通过一些探索,搜索引擎在分析用户需求方面,可以做得更贴心。这是一个难题,也是对传统的颠覆,谁能在这方面走得更早、扎得更深,谁才可能赢得未来。
关于这一点,可以从另一个搜索巨头Google那里得到呼应。最近Google联合创始人Sergey Brin提出了一个想法:在人脑中植入芯片,在用户搜索的时候,搜索引擎就可以很准确地理解他的意图,才有可能给出最匹配的结果。
在2009百度技术创新大会上,李彦宏提出了“框计算”,它分为三步:提交需求、识别需求、响应需求。其中也将对需求的识别作为了最重要的一步,实际上这也是最难的问题。举个简单的例子:当你在百度中搜索“苹果”,百度如何理解你搜索的是水果、电脑,还是范冰冰演的一部电影?
看看现在的百度,搜索结果的依次排序是:苹果公司、苹果的百度视频、苹果的百度百科、豆瓣网的《苹果》电影,正好覆盖了四种最大的意图。但显然,真正厉害的搜索,应该是只提供一种结果的搜索,尽管有时候这几乎不可能。比如,有些用户找hao123,输入的关键词是“123”,这种意图已经到了“变态”的地步。
不管如何,要达到这一点,其实不需要“植入芯片”,在这次技术创新大会上,百度的首席产品设计师孙云丰和阿拉丁项目负责人廖若雪分别都谈到了类似的话题,并给出了阿拉丁的一些解决方案。我对此进行了一些归纳:
1.确定性关键词的匹配。比如“现在几点了”,从自然语言的角度,这是用户在发问,阿拉丁反馈出了一个最直接的时钟,效果相对于我们看一下手表。这个比较简单,但如果用传统搜索的rank处理,恐怕出来的结果就是相关度匹配最高的网页,但对用户无任何价值。
2.环境因素的考虑。比如“日全食”,这个关键词很有确定性,但意图却多种多样。你可能找的是相关图片、视频、科普知识或者历史资料。这里可能涉及到环境因素,比如日全食刚刚上演,绝大多数需求可能是找相关报道,如果是上演之前,多数则是查科普知识。
3.地域特征的引入。同一个关键词“白菜价格”,北京和上海的用户来搜,显然结果应该不一样。对地域特征的引入,难点不在地位的识别,这已经很成熟,真正的难题是,如何确定某一个需求需要引入搜索者的地域特征。比如,搜索引擎如何确定当网友输入“白菜价格”,就得考虑地域因素。
4.自然语言的筛选。用户趋向于很“傻”,搜索引擎必须具备拨云见日的功底,这涉及自然语言处理、语义分析等。比如“北京到上海飞多久”,其实和“北京到上海有多远”表达的意图差不多。
5.“需求满足度”和“需求响应程度”结合。廖若雪在讲阿拉丁的时候说过,这两个因子结合起来可以影响搜索结果的排序,这和传统的pagerank之类差异很大。
最后,有一点不得不承认,有时候连用户都不清楚自己究竟要找什么,搜索引擎如果“想得太多”,就会是“胡思乱想”。这时候百度有一种解决方案很有意思,叫做“泛需求”,比如搜“周杰伦”,可能是想知道他的近况、图片、视频、歌曲、绯闻……无法确定,那就将这些结果整合起来。
在用户大脑里植入芯片是不可能的,至少在现有的科技和伦理条件下不可能,但通过一些探索,搜索引擎在分析用户需求方面,可以做得更贴心。这是一个难题,也是对传统的颠覆,谁能在这方面走得更早、扎得更深,谁才可能赢得未来。
前一篇:企业IT采购不要忽视使用成本
后一篇:中国雅虎改版有多少值得期待?