http://blog.sina.com.cn/u/1197616372[订阅][手机订阅]
个人资料
分类
    内容读取中…
评论
读取中...
友情链接
访客
读取中...
好友
读取中...
博文
一些读者常问的(2006-11-22 00:31)
 
1. Lucene如何为数据库建索引
 
问这个问题的读者应该还没有搞懂Lucene到底能干嘛。Lucene本身不能为任何格式的物理文件或数据库建索,它只能为Document类型建索。你要做的就是把物理文件中的各种信息提取出来做成数据源放在一个Document中,然后让Lucene为其建立索引。
 
数据库也是一样的,首先把数据库的信息提取出来,然后再次建立索引。不过数据库本身也带有FullTextSearch的功能,所以要权衡一下这样做是不是有必要。不过数据库建的索引好像是基于B树的。。。或者是其它的啥,效率应该不如Lucene的高。
 
2. Lucene如何为WORD或EXCEL或PDF建索引
 
WORD&EXCEL: POI
PDF:PDFBOX OR XPDFBOX
 
3. 有读者有问题,可以发邮件到qqunlimited@gmail.com交流。
如果是一些比较宽范的问题,比如有的读者问我“怎么用Lucene开发一个搜索引擎网站”。。。我也不知道该如何才能回答。。。这种问题就不要问我了。。。我得写上几万字也不
好久没来,最新信息(2006-11-21 23:25)
好久没更新这个BLOG了,因为最近工作了,实在是太忙。。。于是就把这个BLOG给忘了。看到这么多朋友留下邮箱想要分词包,感到实在是有些不好意思。。
 
Lucene出了2.0了,所以我写的书中的内容很多已经不太适用了。最近我正在写一些关于Lucene2.0的东西,其中包括了一个完整的搜索引擎的例子,是用DWR和Spring一起做的,用了Lucene和JE分词。希望很快可以和读者朋友见面。
 
另外,有一个叫Compass的东西不错,把Lucene和Spring结合了,也就是加了些Transaction的东西到Lucene上,这下就可以构造JDBCDirectory了,甚至可以实现分布式的索引了。。。
 
大家可以研究一下。
 
另外,我们公司最近做了个小产品,www.cheefei.com
在这里做个小广告,大家可以上去试用一下,多提些意见。
 
www.eskalate.com是我们公司的网址。如果有Java程序员在北京的或者不在北京的也可以,想要找一份Java开发工程师的工作,可以联系我,我的邮箱是
我把带JAR包和中科院分词和CJK的工程传到公共邮箱了
 
12345678
 
有不少读者朋友要,所以就放了。
 
---------------------------------------
发现不知道哪位读者和我们开了个玩笑,把邮箱清空了还把密码改了。这里是公共的地方,我不想骂人,希望读者朋友也不要骂人了。希望和我们开这个玩笑的哥儿识点趣,把邮箱密码改回来,再把删掉的东西放好。
 
如果有朋友需要,请在这里留下邮箱。我会及时把东西用邮件发给你
邮件大小在4M多。
lucene 1.4.3 下载地(2006-06-06 13:55)
有的朋友说现在已经没有地方下载lucene1.4.3的包了,我申请了个邮箱,lucene1.4.3的相关包放在里面了,有兴趣的朋友可以去下载
ajaxlucene@126.com 密码是12345678
 
lucene2.0已经出来了,呵呵,抓紧研究中
随便聊聊(2)(2006-05-30 19:23)
最近一直忙于学校和公司的事情,没有工夫来这里看读者朋友的留言,非常报歉。我在上一个贴子中留了我的MSN,有不少朋友加了我并和我说话,有时因为公司里的一些事情不能及时回复,感到很不好意思。
 
本书的作者李刚最近在IBM的CRL做实习生,忙于公司的业务,很少上网。在这本书中,他主要负责AJAX部分的讲解,他制作了大量AJAX的实例。不过我觉得他最强悍的还是那个GOOGLE SUGGEST的讲解,真的是研究了GOOGLE网站的源代码后给出的讲解。。不知道读者朋友们都看到了没有。本书作者宋伟最近刚从IBM的CDL跳出来,打算学点新技术,搞搞学术研究。宋伟的身体很好,很壮硕,不管学什么都上手非常快。本书中他负责Lucene的部分内容编写,同时负责代码的调试。剩下第三个人就是我了,我最近临近毕业,正在一家公司上班,主要搞的是Java方向的各种开发,本书中我负责的是两部分的内容整理,另外负责Lucene部分的编写。(李刚和宋伟是我的学弟,我们实验室的搜索方面的项目都用了Lucene,另外还有一个叫JEFFY的学弟,对中文分词和Spider很悍。。)
 
有朋友问我Lucene怎么学。其实相信大家看完我们的书,就会发现Lucen
另一个缺失的附录:)(2006-05-08 16:15)

附录二 关于AJAXLucene的一些网址

1.与AJAX相关的网址

 

本书缺失的附录一:)(2006-05-08 16:14)

附录一 常用格式文件的文本抽取工具

本附录主要列举了一些常用格式文件的文件抽取工具,以供读者在使用Lucene时使用

1. PDF格式

随便聊聊(2006-04-30 09:38)
多谢来到这个BLOG的每一位朋友。
 
Ajax的话题最近很火,不过其实从我本身的感受来看,它并不适合构建一个大型的Web应用。只适合去实现应用中的一部分功能。这样不仅能为应用增色不少,也可以沿用原有的Web层框架来减轻开发过程的负担。
因为说到底,Ajax只是一个概念,最核心的东西还是XmlHttpRequest对象,外加CSS和DOM技术。
 
很多朋友给我们提意见,认为Ajax这一部分的内容写得相对薄弱,而且知识体系不够完整。关于这一点,我们要向读者朋友道个歉,我想如果有机会我们会奉献更好的Ajax技术书籍给读者朋友的。
 
其实出版社一直希望以Ajax打开这本书的销路,不过从我们作者本身来看,也许Lucene才是真正会吸引读者的内容。很多朋友在MSN上和我们交流Lucene的内容,这另我们也非常受用,很多朋友的技术水平都在我们之上,他们很诚恳的提出他们对于Lucene的一些看法同时讨论一些技术细节,令我们受益匪浅,如果有机会,一定整理一下,出一本Lucene的专门的书籍。(呵呵。。。不知道出版社肯不肯)
 
希望大家可以在这里和我们一

Lucene的代码说明

由于版权问题,我们的代码中无法包含进所有的文件。以下是笔者在写作时建立的工程文件截图,这与我们提供给用户的光盘中的工程目录有些不同。说明如下: