本站首页    管理页面    写新日志    退出

The Neurotic Fishbowl

[/*Java*/]《I Love Lucene》总结
nybon 发表于 2005/1/18 21:57:46

前几天看到了TheServerSite上面的一篇文章I Love Lucene,感到对自己很有帮助,稍微总结了一下理理思路。   I Love Lucene         by Dion Almaer  January 2005     Introduction 简要介绍了TheServerSite原来使用的搜索的方案,并由此引出Lucene。   High level infrastructure 从高层介绍Lucene的方案,这一方案主要分成了两大部分,一部分是建立索引,另一部分是对索引进行搜索。分别介绍了这两部分的主要的接口IndexBuilder和IndexSearch。   Building the Index: Details of the index building process 全文最重要的一个组成部分。该部分介绍了以下四个内容: 1.      应该索引的字段 2.      索引的方式:增量索引、批量索引 3.      索引源的类型 4.      索引结果的rank   What fields should compromise our index? 讲了一下不同的索引字段使用的数据类型的问题 What types of indexing? 采用了增量索引和批量索引结合的方式,定义了一个增量索引的间隔,每隔这一间隔进行一次批量索引,在间隔内的时间内进行增量索引。同时还介绍了一下Lucene中如何删除索引记录。 What to index? ThreadIndexSource 介绍对不同的索引源索引的问题,如对数据库中的数据索引以及对文件系统中的文件的索引。还介绍了一下索引TheServerSite的论坛中的帖子时引出的一个小技巧。 How to tweak the ranking of records? 对不同的字段赋以不同的权值来对一个文档进行较合理的rank  Searching the index Lucene的使用主要看来是建立索引比较复杂,搜索索引极其简单,这里稍微花了一点篇幅就讲清了都,主要介绍了IndexSearch类中的search方法和查询解析类CustomQueryParser。   Configuration: One place to rule them all 这部分主要介绍如何使用XML文件对搜索中的一些参数(如索引存放位置、字段权值等)进行动态配置,和Lucene其实没什么关系,主要还是说的是IoC(控制反转)的东西,讲了一下Apache Digester的使用。 XML Configuration File Digester Rules File   Web Tier: TheSeeeeeeeeeeeerverSide? 用户搜索使用的Web界面,MVC结构。 SearchAssembler Web Action 根据用户输入构造查询语句,并讲查询语句交给IndexSearch处理,同时还负责封装查询结果。 Search View 表示层使用JSP ( for legacy reason)。根据TheServerSite上面的帖子回复,似乎说TheServerSite以后要用Apache的Tapestry了 Conclusion 总结,就是说Lucene很好。

阅读全文(2893) | 回复(1) | 编辑 | 精华

 


回复:《I Love Lucene》总结
leonmaybe(游客)发表评论于2006/5/29 13:57:27

我也爱Lucene,可是可能是使用不当,增量建立的索引文件大得出奇,郁闷中

个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除

 


» 1 »

发表评论:
昵称:
密码:
主页:
标题:
验证码:  (不区分大小写,请仔细填写,输错需重写评论内容!)

 
 



The Neurotic Fishbowl

.: 公告

This blog focuses on:

Semantic Web && Java Technology


Bloginess

«November 2025»
1
2345678
9101112131415
16171819202122
23242526272829
30

.: 我的分类(专题)

首页(171)
/*SemanticWeb*/(34)
/*Java*/(74)
/*FreeComments*/(59)
/*Agent*/(4)


In the Bowl

.: 最新日志

The End
使用Google Trends进行选型
怎样才能称为一次新的版本发行?
如何防止RSS信息过载
使用Excel作为用户接口
如何有效地报告Bug
sourceforge再次被封
趣文两篇
编写Firefox扩展
Jetspeed心得随笔


.: 最新回复

回复:Google API与yahoo 
回复:JADE 3.3的bug
回复:JADE 3.3的bug
回复:JADE 3.3的bug
回复:JADE 3.3的bug
回复:Jbpm和Shark比较的feat
回复:JADE 3.3的bug
回复:JADE 3.3的bug
回复:[转]批判性地看待一种可行的表示技
回复:JIRA破解


The Fishkeeper
blog名称:SW Portal
日志总数:171
评论数量:219
留言数量:8
访问次数:1054042
建立时间:2004年10月30日



Text Me

.: 留言板

签写新留言

路过
路过
页脚问题
RE:请问一下你的主页的下面部分是怎么关
请问一下你的主页的下面部分是怎么关闭的?
我是做Mobile Agent的
Gmail
不错
不错啊小倪同学


Other Fish in the Sea

.: 链接





站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 1.193 second(s), page refreshed 144798755 times.
《全国人大常委会关于维护互联网安全的决定》  《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号