存档

文章标签 ‘Lucene’

lucene 索引非txt文档 (pdf word rtf html xml)

2010年4月25日 6 条评论

 
搜索要首先要索引,索引的话最简单的方式是索引txt文件,上文已经介绍了。这里介绍一下一些其它格式的文档的索引,例如ms word ,pdf ,rtf等。
索引方法:就是先把各种文档先转化成纯文本再索引,所以关键在转换上。幸好java世界中有太多的开源工程,很多都可以拿来直接使用。下[......]

Read more

分类: 网上的 标签: ,

Lucene中创建索引的效率和删除索引的实现

2010年4月21日 没有评论

 

越来越多的人利用开源组件 Lucene来开发自己的搜索引擎。在数据量不大的情况下,我们不会太关注创建索引的效率;但是,但数据达到一定的数量是,我们就不得不考虑如何提高创建索引的性能,以缩短索引创建的时间。
我们是用Lucene中提供的类IndexWriter来创建[......]

Read more

分类: 网上的 标签: ,