spider
只负责抓取页面并直接保存页面及url地址(可多个spider,每个spider有编号)
spider manager 负责管理spider状态,并负责为spider提供任务URL列表
PageAnalyzer manager
负责管理页面分析器状态,提供关键词对应HASH的保存位置查询
PageAnalyzer 页面分析器,负责分析URL和分析关键词
分析出的url传递给相应spider manager的任务队列 分析出的关键词建立索引 找到保存位置存在相关关键词索引中
如果该关键词没建立过索引 则由该PageAnalyzer建立对应索引 并提供关键词HASH给PageAnalyzer manager
向spider manager投递的任务必须保证已经是检测过 最近没爬行的url
IndexAnalyzer 关键词分析器
IndexWrite 索引建立程序
DateBasePool 数据池,建立数据库内存映射
目前主要考虑到的功能模块,正在研究模块通讯的方式和架构瓶径,希望进一步细化整个搜索引擎的功能.考虑做成个开源项目,希望有兴趣,有时间的朋友与我联系,合作开发.