加载中…
正文 字体大小:

关于本站

(2014-05-21 21:07:58)
关于本站
关于本站 关于本站
关于本站 关于本站关于本站
CDSoSo是一个集合多种下载方式为一体的多维资源展示站,致力于无极限的分享互联网上的优质资源,集全、新、快于一身的新型站点。

本站全部采用开源技术构建,操作系统为Linux,http服务器为nginx,数据库为当前最为流行的NoSQL数据库MongoDB,网站程序为 JAVA技术实现并采用Tomcat作为服务器,全文检索采用了Lucene。以上这些仅仅是实现主体框架的开源软件,而至于一些细小的功能采用开源工具 包则就不胜枚举了。

虽然这是一篇说明性文档,但是同时也是当我本人的一个学习笔记。的承认的是,从开始筹备要建立这样一个网站到最终上线(当然上线了也仅仅是能用,离好用还 差很远),用了我大概半年的时间。当时我对这方面的技术一点都不了解,几乎可以说是从零开始。因为本人以前比较擅长的语言是C/C++,JAVA虽然很久 以前学过一小段时间,不得不承认,那时的我对JAVA存在一些偏见,因为它给我的第一感觉就是,慢。后来就没有再学习这门语言,所以水平只是停留在了能看 懂这个层次上。当时想筹建这么一个网站的时候第一想到的就是使用开源程序,于是乎就Google..baidu....折腾了有一段时间,发现在这个领域 使用C/C++困难重重啊,所以就又回到了JAVA的怀抱。 有了想法就开始行动,既然想做网站就必须要有信息,那么到哪里去弄这些信息呢,因此我就很自然的想到了网络爬虫。一开始我是用了一些现成的开源爬虫,因为 我需要的是垂直爬取,所以使用的效果很不理想。万般无奈之下我选择了自己开发一个爬虫程序,非常简陋,还时不时的有很多莫名其妙的错误和异常,不过好在在 我的修修补补之下也算运行的良好,除了内存占用有点大,其他都还好。因为我把很多的注意力放在多线程上,所以CPU和宽带利用率都还不错。于是乎我就使用 着这个"夏利牌"的小爬虫爬下了40多万张网页,300多万个ed2k链接,150多万张图片,也算是立下了汗马功劳。后来我发现了一个刚出的开源的爬虫 框架(webmagic),就不再使用我自己的那个小爬虫了。

其实在写爬虫的时候,我也同时在研究Lucene,从3.5版本一直到现在我使用的4.2版本。必须得说,《Lucene实战》这本说给了我极大的帮助,所以强烈推荐想学习Lucene的童鞋们,去看看这本书,真的很有用。

至于网站程序,可以看出,也是非常简单,其实就是个页面展示。采用了struts2框架,写了几个不同频道和搜索的action,总之就是很简单。

还有就是数据库了,使用的是MongoDB。性能确实非常不错,使用也很简单。

本人崇尚开源精神,也有意将本站的全部实现代码开源,但是鉴于目前功能扔不完善,也不稳定,所以暂不开源。同时也非常欢迎和希望与对这方面技术感兴趣的朋友共同探讨,共同进步。

0

阅读 评论 收藏 转载 喜欢 打印举报
  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 不良信息反馈 电话:4006900000 提示音后按1键(按当地市话标准计费) 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有