“大搜索”成就大数据的价值,让网络展示智慧
(2015-06-06 13:16:46)
标签:
it大搜索物联网自然科学基金 |
“大搜索”成就大数据的价值,让网络展示智慧
方滨兴
一、从大数据的角度来思考。
大数据是当前最为热门的一个领域。众所周知,大数据有五个被称为“5V”的重要属性,即规模巨大(Volume)、产生高速(Velocity)、形式多样(Variety)、不确定性(Veracity)、潜在价值(Value)。其中,前四种属性表明大数据处理所面对的挑战,而“潜在价值”才是人们对大数据技术追求的根本,因为发觉“潜在价值”是促进社会发展的一个重要手段。
潜在价值的发现依靠的是发掘技术。人们可以通过统计的手段来解决指定目标的发掘,例如要研判哪只股票成长性最好?可以通过聚类的方法来解决没有预期的发掘,例如网上突发了什么社会热点舆情?可以通过关联技术来解决最佳方案的发掘,例如到哪里看急诊最快?
从大数据中去发掘潜在价值成为企业所采取的重要手段,所产生的经济效益反映出其潜在价值所在。例如,据报道,亚马逊的个性化推荐系统,使得提前销售额超过30%。但是这仅限于在企业内部、使用企业自己的数据及知识发掘系统来为企业自身提供服务。如果数据是开放的、知识发现能力也是通用的,可否将知识发掘作为一种服务提供给公众?事实上,目前已经存在类似的知识发掘服务。例如新浪微博的“知微”分析服务,就是利用自身的数据,但为公众的需求来提供知识发掘的服务。
二、从搜索引擎的角度来思考。
目前搜索引擎的应用领域涉及三个方面:一是“存在性信息搜索”,如搜信息、商品、联网设备、传感设备、人物、物体位置、物流状态、附近的人等。存在性搜索本质上是将已存在的、符合用户需求的搜索结果提交给用户,关键在于如何能够给出最符合用户需求的信息。
二是“服务搜索”,如搜标准时间服务、指定地域气象服务、指定机票服务、当日汇率服务、指定股票走向服务、特定游戏服务、特定视频节目播放服务等。服务搜索是以“尽力而为”为原则,通过汇集大量“服务”的方式,在用户在提出搜索需求时,首先判断这个需求是否和系统服务库之中的某个服务对应上,如果能对应上,就为用户启动相应的服务。但所有服务都是确定的,不具有推理与知识发现的能力。
三是“知识搜索”,如搜人际关系、作者关系、社会热点、路径规划等。知识搜索是根据用户的需求,为用户提供答案。当然,答案的优良与可信程度取决于搜索引擎的智能程度。
从大数据演变出来的知识发掘服务,到搜索引擎演变出来的知识搜索,两者交汇到一起便形成了“基于搜索引擎的知识发现服务”,这就是“大搜索”。现在的导航系统,不仅有路径规划,还拥有交通流量信息,因此可以根据实际路况来推荐更为合理、便捷的路径,这就是“大搜索”要完成的事情。
那么,什么是“大搜索”?简单地说,就是从泛在的网络空间上获取事件、人和物体等信息,针对物联网和Web2.0/3.0应用模式及大数据价值发掘的需求,通过正确理解用户意图,在对网络空间对象收集、建模和索引的基础上,给出满足用户需求的智慧解答。
三、关于”大搜索“
“大搜索”技术要解决的问题是用户能够到网络空间中寻找智慧,求得解决方案。这就涉及到几个技术要素:如何在泛在的网络空间中获取数量巨大、种类繁多的实体(人、物、事件)?如何理解用户的真实意图?用户意图与实体之间的关系如何发现与相互关联?如何构建为用户需求来服务的知识结构?
本质上来说,“大搜索”技术体系主要包括五个核心要素:一是信息获取能力,可称之为“Sourcing(汇集)”,这是智慧的源泉,主要是在网络空间中抓取所需要的信息,并形成大数据的管理结构;二是问题理解能力,可称之为“Sensing(感知)”,这是智慧的推手,主要是解决情景感知、意图理解,以进行必要的预处理;三是知识库构建能力,可以称之为“Synthesizing(综合)”,这是智慧的平台,主要是进行多源综合、构建搜索对象空间,并形成用户搜索接口;四是安全保护能力,可以称之为“Secure(安全)”,这是智慧的保障,主要是解决隐私保护等安全问题;五是提供解决方案的能力,可以称之为“Solution(求解)”,这是智慧的体现,主要是将知识发掘的结果以恰当的形式呈现给用户。
由此,与大数据一样,我们把“大搜索”的五个核心能力描述为“5S”:即“泛网获取(Sourcing)”、“用户感知(Sensing)”、“多源综合(Synthesizing)”、“安全可信(Secure)”、“智慧解答(Solution)”。
“泛网获取”(Sourcing from Cyberspace)目的在于支持定向信息获取。传统的搜索引擎只是从互联网上爬取网页数据;而“大搜索”则会根据给定的目标和任务,在泛在网络的多通道中获取包括人、物、事件、时间、空间等各类信息。
“用户感知”(Sensing in context)目的在于解决基于场景感知的意图理解。传统的搜索引擎只关心所提交的查询词;而“大搜索”则不仅能够在语义级别上对用户搜索意图进行理解,还能根据用户的时空位置、情绪状态以及历史偏好等来感知用户的需求,并以恰当的方式进行表示,提交给搜索引擎。
“多源综合”(Synthesizing Multi-channel)目的在于构建搜索对象空间。传统的搜索引擎只是根据PageRank给出最相关的结果;而“大搜索”则是从多模态数据(如位置、传感器、交通、社交网络等数据)中进行关联关系综合,并构建由巨规模实体及关联关系所构成的知识仓库,同时通过知识的迭代来形成相应的知识框架及索引体系,用以存储和管理网络知识,服务于为求解用户智慧答案的知识索取。
“安全可信”(Secure & Trust)目的在于在搜索过程中进行必要的安全保护。传统的搜索引擎只有简单的信息过滤措施;而“大搜索”则可对数据来源进行确认,并对之进行标签,以保证数据可溯源;对搜索结果进行细粒度的访问控制,使得受限制的信息不会被非授权所获取;保证用户的信息、行为等隐私不被挖掘,搜索结果根据授权来返回。
“智慧解答”(Intelligent Solution)目的在于为用户求解出智慧答案。传统的搜索引擎仅提供符合用户搜索要求的存在信息;而“大搜索”则可根据用户的搜索意图,基于知识仓库对关联的知识进行求解,通过推理演算形成若干个智慧综合的解决方案,其能囊括涉及用户需求的多层面要素,并将之以合适的方式提交给用户。
四、结论
“大搜索”从搜索范围来看,是从传统的互联网扩展到综合了互联网、电信网与传感网络的泛在网络空间中;从具体的搜索内容来看,是从传统的信息搜索扩展到人、事件、物体;从搜索的结果呈现方式来看,是从传统的顺序给出的标量结果展示扩展到包含了时间序列、空间位置序列的向量展示模式。
“大搜索”的定义如下:根据一定的策略和方法,从包括了互联网、物联网、电信网的泛在网中实时、快速、精准地获取各种物理实体、人物、信息等,针对Web2.0/3.0应用模式及大数据价值发掘的需求,具备洞察理解用户搜索意图的“智能”,能够对网络空间各种对象进行高效地组织和管理,包括对海量、多源、异构、多态、不确定的数据进行收集、建模和索引;具备为用户构建尽可能符合用户需求答案的智慧;能够以“向量”的方式提供智慧解答。其具有以下特点:一是搜索内容由信息扩展到了物体、信息和人物,从传统搜索面对的虚拟世界扩展到了现实的物理世界;二是以智能的方式理解用户意图,以智慧的手段为用户构建答案。三是搜索结果由标量结果变成了向量结果,即由原先的内容呈现结果变成了内容、时间、空间三个维度的结果呈现。
具体内容可参见《大搜索技术白皮书》。

加载中…