31

最近在给一个类似 京东新蛋 的3C类电子商城提供站内搜索。基本功能都是现成的,但部署上去以后,发现搜索结果比论坛,cms的搜索结果差远了。仔细的看了几个搜索记录的 debug log,才弄明白为什么:

所有的中文分词组件(paodingimdict, mmseg4j, ik 等等等等), 都是为了应付日常使用的语言而设计的,特别是 imdict “基于自然语言处理领域的隐马尔科 ... (全文...)

31

Lucene 2.9 上,终于在 Searchable 接口中支持 search(weight, filter, collector) 了,而不是像 2.4 中那样,只在 IndexSearcher 中支持,而在 MultiSearcher 中,需要自己手工的添加 Collector。 把原来的非常丑陋的 HitCollector 换成了一般丑陋的 Collector ,本来觉得还挺高兴的,但仔细一看代码前的注释:“This API is experimental and might change in incompatible ways in the next release.” 无语了。

虽然 API 还是实验性的,但看起来已经到达了可用的阶段,所以 IMobile Search 2.0 中,还是使用 Lucene 2.9 的 API ,将原来临时性质的 groupby 功能实现重构了一下,大致思路是这样的:

  • 使用 Collector 实现
  • 实现一个 抽象类 o.a.l.search. ... (全文...)
27

这是一篇受密码保护的文章。您需要提供访问密码:

27

这是一篇受密码保护的文章。您需要提供访问密码:

13

http://club.blogbeta.com/82.html

beta技术沙龙·大型网站的lucene搜索实战

时间:7月26日14点30分开始
地点:奇遇花园咖啡馆 http://storygarden.me/cafe/map

主题:大型网站的lucene搜索实战
演讲简介:本次活动介绍基于Lucene的站内搜索的实践,后台技术层面的一些想法与实践,包括缩短更新周期,简化重建索引流程,支持大数据量频繁更新的索引,以及在性能和可用性方面作的努力。
主讲人:唐福林 (http://blog.fulin.org https://twitter.com/tangfl)
主讲人简介:从 ... (全文...)