加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

搜索引擎技术习题与答案(知识点索引)

(2019-09-12 21:50:38)
标签:

it

教育

旅游

健康

房产

第二讲 搜索引擎技术习题与答案

 

1.      什么是搜索引擎?

搜索引擎:搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。

 

2. 搜索引擎有哪些类型,其主要组成是什么?

答:类型:按检索机制划分,可分为全文搜索引擎、目录搜索引擎、元搜索引擎。 按检索内容划分,可分为综合型搜索引擎、专题型搜索引擎。

 

3. 搜索引擎的评价指标有哪些?

搜索引擎的评价指标有:

•相关性:

相关性是指搜索引擎响应用户检索关键词的请求、返回查询结果的匹配程度。查询结构与查询条件越符合,表示查询的准确度越高。查准率可以量化,比如对某个关键词的搜索结构有1000条,而其中只有500条正确,那么搜索引擎的查准率只有50%。

•数据量:

收录的数据量是指搜索引擎收录了多少有效的网页数据。虽然有研究认为当数据量达到一定的级别以后,对改善整体搜索质量贡献比较少,但搜索引擎的数据库需要收录更多的站点和网页,才能保证重要信息不会丢失。

•查全率:

查全率是指搜索引擎还希望获取足够多的检索结果。如果一次关键词搜索时,正文库中有1000条相关文档,但搜索引擎只返回了其中的700个,那么检索的查全率为70%。查全率对于传统的全文检索系统意义非常重大,但对于收录了几十亿网页的搜索引擎有新的要求。一次检索返回上亿结果的查全率没有太大意义,更重要的是如何保证用户需要的重要数据能够有效获得。

•响应速度:

响应速度是指搜索引擎响应用户检索请求到返回结果所需花费的处理时间。检索速度的快慢主要由响应时间决定。用户检索的相应速度非常重要。用户使用搜索引擎系统时,有一个等待时间的上限。缓慢的响应会影响用户的感受,造成用户流失。从某种意义上讲,响应速度的重要性比收录内容的多少、更新速度、相关性好坏等因素还要重要。响应速度受到服务器设备性能、网络带宽和搜索引擎系统性能等多方面的影响,需要综合考虑才能有效提高。

•更新速度:

网页更新速度是指搜索引擎收录的网页信息的更新频率。更新速度可以保证检索结果返回的是最新的数据。通过增量加载方式,保证用户检索的信息是最新、最全面的。网页更新速度可以通过统计是否收录了最新的网页和搜索结果的死链率来评价。

•其他评测因素:

用户可用性指标、系统无故障运行时间、网页结果作弊率、搜索结果描述。

 

展示系统:展示系统中的数据都是被处理好的,包括网页的排名,网页的权重计算等等,只要用户进行搜索,这些数据就可以快速地展现在用户面前,而不需要进行新一轮的抓取、处理、排序等复杂工作。

 

4. 搜索引擎中的关键功能模块有哪些?

答:搜索引擎中各关键功能模块功能简介如下:

(1)爬虫:从互联网爬取原始网页数据,存储于文档知识库服务器。

(2)文档知识库服务器:存储原始网页数据,通常是分布式Key-Value数据库,能根据URL/UID快速获取网页内容。

(3)索引:读取原始网页数据,解析网页,抽取有效字段,生成索引数据。索引数据的生成方式通常是增量的,分块/分片的,并会进行索引合并、优化和删除。生成的索引数据通常包括:字典数据、倒排表、正排表、文档属性等。生成的索引存储于索引服务器。

(4)索引服务器:存储索引数据,主要是倒排表,通常是分块、分片存储,并支持增量更新和删除。数据内容量非常大时,还根据类别、主题、时间、网页质量划分数据分区和分布,更好地服务在线查询。

(5)检索:读取倒排表索引,响应前端查询请求,返回相关文档列表数据。

(6)排序:对检索器返回的文档列表进行排序,基于文档和查询的相关性、文档的链接权重等属性。

(7)链接分析:收集各网页的链接数据和锚文本(Anchor Text),以此计算各网页链接评分,最终会作为网页属性参与返回结果排序

(8)网页去重:提取各网页的相关特征属性,计算相似网页组,提供离线索引和在线查询的去重服务。

(9)网页反垃圾:收集各网页和网站历史信息,提取垃圾网页特征,从而对在线索引中的网页进行判定,去除垃圾网页。

(10)查询分析:分析用户查询,生成结构化查询请求,指派到相应的类别、主题数据服务器进行查询。

(11)页面描述/摘要:为检索和排序完成的网页列表提供相应的描述和摘要。

(12)前端:接受用户请求,分发至相应服务器,返回查询结果。

 

5,搜索引擎的主要组成部分有哪些?

 

答:搜索引擎的主要组成部分:1.网页抓取系统:网页抓取系统的工作原理是首先搜索引擎派出爬行蜘蛛搜索整个互联网的网页,并沿着网页上的每一个链接继续向下抓取。

2.数据分析和处理系统:当蜘蛛抓取的网页下载回来之后,数据分析系统便开始工作了,根据搜索引擎收录的标准对网页进行分析,进而判定哪些网页是可以收录的,哪些网页是需要删除的;当数据分析完成之后,接下来便是数据处理系统开始工作,数据处理系统主要原理就是根据搜索引擎的算法对网站的外链、内容、权重、关键词进行分析,然后对网页进行排序。

3.存储系统:数据存储系统里储存的网页是经过处理系统处理过的干净数据,并且根据网页的内容进行了分类。

4.缓存系统:一般缓存系统分为临时缓存区和时段缓存区,临时缓存系统主要是针对临时网页的排名,而时段缓存区一般是24小时变动一次。

5.展示系统:展示系统中的数据都是被处理好的,包括网页的排名,网页的权重计算等等,只要用户进行搜索,这些数据就可以快速地展现在用户面前,而不需要进行新一轮的抓取、处理、排序等复杂工作。

 

6. 搜索引擎中的关键技术有哪些?

答:搜索引擎工作流程主要有数据采集、数据预处理、数据处理、结果展示等阶段。在各工作阶段分别使用了网络爬虫、中文分词、大数据处理、数据挖掘等技术。

网络爬虫也被称为蜘蛛或者网络机器人,它是搜索引擎抓取系统的重要组成部分。网络爬虫根据相应的规则,以某些站点作为起始站点通过各页面上的超链接遍历整个互联网,利用URL弓I用根据广度优先遍历策略从一个html文档爬行到另一个html文档来抓取信息。

中文分词是中文搜索引擎中一个相当关键的技术,在创建索引之前需要将中文内容合理的进行分词。中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。

大数据处理技术是通过运用大数据处理计算框架,对数据进行分布式计算。由于互联网数据量相当庞大,需要利用大数据处理技术来提高数据处理的效率。在搜索引擎中,大数据处理技术主要用来执行对网页重要度进行打分等数据计算。

数据挖掘就是从海量的数据中采用自动或半自动的建模算法,寻找隐藏在数据中的信息,是从数据库中发现知识的过程。数据挖掘一般和计算机科学相关,并通过机器学习、模式识别、统计学等方法来实现知识挖掘。在搜索引擎中主要是进行文本挖掘,搜索文本信息需要理解人类的自然语言,文本挖掘指从大量文本数据中抽取隐含的、未知的、可能有用的信息。

 

7.百度和谷歌使用的搜索引擎都是( )它们从互联网提取各个网站的信息,建立数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。

A.全文搜索引擎 B.元搜索引擎

C.垂直搜索引擎 D.集合式搜索引擎

7.【答案】A。解析:全文搜索引擎是名副其实的搜索引擎,国外代表有Google,国内则有著名的百度搜索。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。

目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词进行查询。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo!、新浪分类目录搜索。

元搜索引擎接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。

集合式搜索引擎:该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如HotBot在2002年底推出的搜索引擎。因此,本题选项A正确。

 

8.下列有关搜索引擎的说法正确的是( )。

A.在不同的搜索引擎中搜索相同的关键词,得到的结果是相同的

B.排在最前面的搜索结果一定是准确的

C.因特网上有大量的内容,搜索引擎只能向用户提供其网页索引数据库里已经储存的内容

D.谷歌搜索引擎比百度搜索引擎更好

8.【答案】C。解析:不同的搜索引擎中输入相同的关键词,得到的结果不一定相同,结果和网页索引数据库中的已有内容有关。排在最前面的索引结果不一定是准确的,这个排行一般和商家缴费多少有关。谷歌和百度搜索引擎一个是美国的,一个是中国的,无法单纯地说两者的好坏之分。

 

9.对搜索引擎的描述错误的是( )。

A.搜索英文资料,Google较为合适

B.搜索中文资料时,百度的资源更丰富

C.网络提供的多种搜索引擎在查询范围,检索功能等方面各具特色

D.搜索时,输入的关键词越多越好

9.【答案】D。解析:本题考査搜索引擎使用时的注意事项。搜索时,并不是关键词越多越好,关键是选取的关键词必须涵盖所要检索的资料的关键信息。因此本题的答案是D。

 

10. 全文搜索引擎和目录索引类搜索引擎各自的特点是什么?

【参考答案】

全文搜索引擎是自动化检索,给出的结果范围广、针对性不强;

目录索引类搜索引擎采用层级目录引导用户逐步缩小搜索范围,直至找到想要的信息,结果较为精确,但使用较为麻烦。

 

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有