http://blog.sina.com.cn/20andlife[订阅]
个人资料
分类
    内容读取中…
评论
读取中...
音乐播放器
访客
读取中...
好友
读取中...
博文
2009年03月18日(2009-03-18 09:47)
总有一天,我们都会对那些原来一直以为会放下不了的人或者事释怀,
只要给时间设一个下限。

就好比,每当4月,我总是会去怀念在大学里的日子。
4月,大四的孩子们都已经找到了最后的去处。最后的疯狂正式开始的时候。
4月,有明媚的阳光和温暖的风。
4月,放风筝的季节。
现在也终于开始变得无所谓。每天非常规律的坐在实验室里,喝着水。写着代码。

还是会去白云黄鹤abroad版,每年的这个时候,大家都开始报offer, 写总结贴。
就是一个周而复始的过程。
也终于开始变得麻木。。

一些我们一直在念叨的,细细回味的生活,渐渐的也开始泛黄。开始真正的释然。
一些我们一直在想念的人,或者挂念的人。也终于开始模糊了影像。
并不是真正的淡忘,而是那种想念变得没有那么强烈。

于是你突然发现,曾经那些所谓的感伤或者哀叹都变成了没有意义。
人是容易忘记的动物。

萧索。(2009-03-03 14:02)
......................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
猛然间发现,这个blog还是在冰岩blog rss trace了滴。。。
萧索,
很萧索。
快来安慰我吧。。
重新启用新浪的Blog。(2009-02-19 12:54)
Space那边不能再随心所欲的发布心情了。。。
不然大家一定我是一个很纠结的人。。实际上我就是一个很纠结的人。。。
还是来这边吧,哈哈。。
没什么人知道,权当给自己写字好了。。

韵苑15栋443(2007-09-27 12:55)
 突然想到了他,才发现一些东西已经离我远去。
关于443的故事,关于一起dota, 卡丁车,一起看恐怖片的故事。
关于少雄,小黑,潘峰和我的故事。
所有的一切都定格在了2007年的6月24号。
一些故事还会继续,一些故事已经成为了记忆。
 

 

1. 历史

第一阶段:2005年7月~2005年8月

项目主要参与人员: nid, martin, idoloveyou(顾问)

主要贡献:完成华中大在线1.0版本。并成功推出了http://so.hustonline.net。这是我们网站第一次尝试做FTP搜索引擎,也算是圆了martin长久以来的一个梦想:)教育网内960万数据采集,1个星期到15天的更新速度,在当时可以算是比较强大了。整套代码用C++完成,数据存储使用的是SQLServer2000。搭配SQLServer2000的全文检索。

主要问题:因为使用的是C++的API,所以我们不能够灵活的对FTP文件的类别和其他一些信息进行采集。另外,SQLServer2000的全文检索也是有局限性的。搜索mp3,txt这种结果很多的关键词就会造成效率低下。

 

第二阶段:2006年1月~2006年7月

项目主要参与人员:nid, martin, hjr, lrl

主要贡献:针对第一个版本遇到的问题,完全摒弃使用原先的C++。重新使用C#。重写了Crawler部分。大大提高了采集FTP数据的灵活性。为了提高效率首次尝试使用了基于.net remoting的分布式搜索技术。数据存储换成了SQLserver2005。在索

最后致意。(2007-06-26 01:25)
这是写给兄长和兄弟们的。
 
感谢martin,你是我的兄长,这么长时间以来在冰岩作坊的照顾和帮助。
你就像个大哥哥一样,总是能够在我手足无措的时候帮忙出主意。无论技术上,生活上还是感请上。
 
感谢LRL, HJG,你们是我的兄弟! 你们对待网站的热情,对待技术的认真和对待朋友的真诚让我在以后很多年想起来都会感动。
感谢Nid,你是我的兄弟!你对于技术的钻研让我印象深刻。
感谢Pixer,你是我的兄弟,搭档。你对于朋友的热情,关心,耐心常常让我感动。
网站两年,我们相互扶持,共同进步。在我陷入困境的时候,你们总是能够能够给与帮助,无论是技术上,生活上还是感情上。
 
感谢路哥,你是我的兄弟!虽然我们认识时间不长,但你重情义,敢做敢当,胸怀坦荡,在我需要的时候总是能够给我关怀。所有这些都让我终生铭记。
 
感谢大熊,你是我的兄弟!你的宽广胸襟,对待朋友的热诚。是值得我一生学习的。
 
感谢我寝室的小黑,少雄和潘jj。你们是我的兄弟!
22 and Life(2006-11-17 00:54)
以此献给我的22岁。
 
我22岁了。
还记得刚刚进大学时候过的第一个生日。19岁。那天我们寝室四个人去阅马场吃德庄。吃得一个个人仰马翻。然后不知道是谁提议去参观辛亥革命纪念馆,然后合影。那也许是我们寝室第一次也是大学阶段唯一的一次合影吧。赫赫。
看看照片上那个时候得我们,脸上还是一股稚气,转眼间,我们就要为各自的前途忙碌了。
似水流年。
 
20岁。大二的生日似乎过得有些简单。我只知道那个时候我正在忙于期中考试,然后晚上的时候,laura送我的猪猪。我还可以记得的是laura的赌气,现在想来似乎有些可爱。那个时候还是朋友的我们,会想到彼此以后会在一起吗?
似水流年。
 
21岁。大三的生日,是和我的爱人一起过的。虽然学习和同学关系上的不如意,让我的这个生日蒙上了灰色的阴影。但laura的陪伴让我感觉到了生活中真正的温暖。创伤是需要用关怀和爱去抚平的。谢谢你给了我这些。
似水流年。
 
终于大四了,现在的我,回想起去年,前年,在前年的今天,一切都还是历历在
最近总在想的问题,我为什么要出国?
 
1、FTP搜索
可以说,华中大在线的FTP搜索寄予着我们很大很大的一个梦想。从最开始的新奇,到最后和Nid完成第二版的创建。到现在每日2万独立IP访问。都是我们辛勤汗水的结晶。但是对于我来说,更大的意义在于,我知道了计算机科学里面的一个方向,叫做Information Retrieval,并且对这个方向产生了浓厚的兴趣。从一开始得简单尝试,到后来对于Lucene乃至于IR领域的探索,我知道我在这个过程中成长了很多。更重要的是,我们努力并不是白费的,有许许多多的人都在受益于我们的搜索。常常可以在团队的留言本上看到这样或者那样的关于FTP搜索的疑问。我知道,确实有不少的用户在关注着我们的工作。当然,我们的搜索还远不能和北大天网的FTP搜索相比。这也正是激发我和其他FTP小组成员继续奋进的原因。对FTP搜索,还有很多想法在我脑海中,等待去实现。可是,我必须要面对的现实是:
我大四了!
要毕业了,可能就要离开这个团队了。今后的FTP搜索何去何从呢?今后的我何去何从呢?
谈到就业,是我一个一直回避的问题。我并不是惧怕就业,我只是单
今天保研成功(2006-10-12 15:35)
心里却怎么都高兴不起来
很复杂的感觉,
现在可以体会到当时大头保研成功时候的感觉了
怎么办~
我是要出国的啊!
Lucene中多个关键词求交集的方法十分巧妙,首先得介绍一下Lucene中一些基本的文件结构:

FreqFile (.frq) --> <TermFreqs, SkipData>TermCount

TermFreqs --> <TermFreq>DocFreq

TermFreq --> DocDelta, Freq?

SkipData --> <SkipDatum>DocFreq/SkipInterval

SkipDatum --> DocSkip,FreqSkip,ProxSkip

DocDelta,Freq,DocSkip,FreqSkip,ProxSkip --> VInt

这里是lucene中的核心文件结构,在这里要重点强调的不是倒排索引。而是一个叫做SkipData的结构:
下面来列举一个例子:
假设我们有A,B关键词和他们的倒排索引表:
A 1 3 5 7 11 55 66 109...
B 55 110 135 150...
找两者的匹配值,我们通常的做法是发现A中第一个比B小,于是我们移动A中的指针。发现A中的下一个元素3还是比B中第一个元素55要小。于是我们依次移动直到找到55和B中的第一个元素匹配为止,总共要进行6次操作
现在,在lucene中,我们可以设置一个skipinterval的值,这个数值用来告诉我们,一次比较失败以后往后跳动的条目数量,比如