十二 24
RFC 描述 状态
RFC 1939 POP3 protocol Updated by RFC 2449
RFC 2449 POP3 Extension Mechanism
RFC 822 STANDARD FOR THE FORMAT OF ARPA INTERNET TEXT MESSAGES Obsoleted by RFC 2822
RFC 2822 Internet Message Format ... (全文...)
十一 24

工作日志,转载请保留出处:唐福林 博客雨 音乐搜索系统部署说明 http://blog.fulin.org/2009/11/pcsearch_deploy.html

                       PC 客户端搜索系统部署说明
唐福林 <tangfulin AT gmail.com>
PC 客户端搜索系统主要由 负责建索引的 IndexServer 和负责提供搜索服务的 SearchServer 两部分组成。 IndexServer (目前是 98)负责接收资源库发过来的xml原始文件,解析原始文件,更新索引,并将更新后的索引推送到 SearchServer 上的指定目 ... (全文...)
29

12530 PC客户端音乐搜索项目一期的总结和思考。

SlideShare 上的 pdf:

15

12530 PC客户端 咪咕 (页面最下方有一个很不显眼的下载链接) 搜索 原本计划是今天上线内测,20号正是随资源库后台一起上线,其实昨晚就已经替换掉了正式服务器上原来的接口。正因为昨晚悄无声息的上线,原本已经下班走到家门口的我们,又被电话叫回公司,来解决一个刚刚发现的bug。

音乐搜索,第一期还没有特别做歌词的搜索,只对歌手名,歌曲名,专辑名做优化,加上数据量本身就很小(一共才不到100万首歌),只好在查询上做文章。我们当前一共设置了十层查询 Query:

1。精确匹配:歌手,歌曲,专辑,不分词字段,去掉前后多 ... (全文...)

22

音乐搜索属于垂直搜索的一种,但它又有着自己独特的一些需求。

首先,几乎所有的音乐搜索都实现了用户输入时的关键词提示功能。但在网上搜索相关的技术文章,大多是讲如何用 Js 实现前台表现层的功能,少有的几篇关于后台技术实现的文章,也都太过简单。标准的办法是使用 Trie 树,但太过晦涩,不够直观。我们打算直接使用 Lucene 的前缀查询来实现,并且计划在项目上线后写一个比较详细的说明。

其次,很多的音乐搜索都提供了拼音查询的功能。比如说用户输入 “liudehua”,关键词提示里会给出 “刘德华”,但即使用户不理会提示,直接 ... (全文...)

17

The most complete list of -XX options for Java 6 JVM

  • product flags are always settable / visible
  • develop flags are settable / visible only during development and are constant in the PRODUCT version
  • notproduct flags are settable / visible only during development and are not declared in the PRODUCT version
  • diagnostic options not meant for VM tuning or for product modes. They are to be used for VM quality assurance or field diagnosis of VM bugs. They are hidden so that users will not be encouraged to try them as if they were VM ordinary execution options. However, they are available in the product version of the VM. Under instruction from ... (全文...)
04

1. 基本介绍:

paoding :Lucene中文分词“庖丁解牛” Paoding Analysis
imdict :imdict智能词典所采用的智能中文分词程序
mmseg4j : 用 Chih-Hao Tsai 的 MMSeg 算法 实现的中文分词器
ik :采用了特有的“正向迭代最细粒度切分算法“,多子处理器分析模式

2. 开发者及开发活跃度:

(全文...)

31

最近在给一个类似 京东新蛋 的3C类电子商城提供站内搜索。基本功能都是现成的,但部署上去以后,发现搜索结果比论坛,cms的搜索结果差远了。仔细的看了几个搜索记录的 debug log,才弄明白为什么:

所有的中文分词组件(paodingimdict, mmseg4j, ik 等等等等), 都是为了应付日常使用的语言而设计的,特别是 imdict “基于自然语言处理领域的隐马尔科 ... (全文...)

31

Lucene 2.9 上,终于在 Searchable 接口中支持 search(weight, filter, collector) 了,而不是像 2.4 中那样,只在 IndexSearcher 中支持,而在 MultiSearcher 中,需要自己手工的添加 Collector。 把原来的非常丑陋的 HitCollector 换成了一般丑陋的 Collector ,本来觉得还挺高兴的,但仔细一看代码前的注释:“This API is experimental and might change in incompatible ways in the next release.” 无语了。

虽然 API 还是实验性的,但看起来已经到达了可用的阶段,所以 IMobile Search 2.0 中,还是使用 Lucene 2.9 的 API ,将原来临时性质的 groupby 功能实现重构了一下,大致思路是这样的:

  • 使用 Collector 实现
  • 实现一个 抽象类 o.a.l.search. ... (全文...)
13

http://club.blogbeta.com/82.html

beta技术沙龙·大型网站的lucene搜索实战

时间:7月26日14点30分开始
地点:奇遇花园咖啡馆 http://storygarden.me/cafe/map

主题:大型网站的lucene搜索实战
演讲简介:本次活动介绍基于Lucene的站内搜索的实践,后台技术层面的一些想法与实践,包括缩短更新周期,简化重建索引流程,支持大数据量频繁更新的索引,以及在性能和可用性方面作的努力。
主讲人:唐福林 (http://blog.fulin.org https://twitter.com/tangfl)
主讲人简介:从 ... (全文...)