Skip to content

{ Monthly Archives } 十月 2009

音乐搜索的极致(续)

12530 PC客户端音乐搜索项目一期的总结和思考。 SlideShare 上的 pdf: 音乐搜索的极致 View more documents from fulin tang. PPT 的文字内容: 音乐搜索的极致 唐福林 tangfulin@gmail.com http://blog.fulin.org 目录  项目简介  需求描述  搜索实现  查询示例  持续改进 项目简介 (1/3)  中国移动  12530  咪咕  Miniportal  搜索  Out source : edadao 项目简介 (2/3)  时间: 2009 年 9 月 12 日到 10 月 [...]

成都:一路向西

成都。 要回北京了。最后一个周末,心情很不好,看看熊猫卡上剩下没去的地方,决定去雪山。 一个人,即使不能幸福,也要快乐。 早上起床晚了,吃了午饭才从郫县出发。郫县到金沙,金沙到大邑,大邑到双河,也就是西岭镇,没想到离雪山还是7公里,而且因为修路,没有公交车上去了,只有打黑车。 不巧的是,出来没注意,身上没有足够的现金了,而西岭镇是如此的荒凉,以至于根本没有任何的金融机构,更别说取款机了。打了个车,往回走到某个大一点的镇上取了钱,再继续往雪山进发。 在离雪山(售票处)还有1公里的地方,修路。打的车是类似qq那种很小的车,是奔奔还是乐驰没仔细看,肯定是过不去了,还好旁边有轻卡正好要进山,搭上个便车。 下午4点,终于到了售票处,这时我作了一个极其错误的决定,那就是下了车。用熊猫卡换了票,看着轻卡决尘而去(比喻句,因为山里没有尘,有的都是泥),正想抬腿往里面走,售票员轻轻的说了一句:这里离第一个景点还有2公里。faint,干嘛在离景点还有2公里的地方设这么一个卖票点? 刚走了没几步,才发现下雨了。山中的雨很细,阵阵凉风吹过,雨似乎也变成一阵一阵的了。路的两边都是拔地而起的山,郁郁葱葱的树丛也固定不住太过陡峭的山坡,到处都是滑坡的痕迹。山与山中间的空隙中,一条小河蜿蜒流淌,路就是沿着河修的。偶尔还可以看到依山伴水而建的山庄,在初现的夜色中迷茫一片,没有灯光,也没有人声。 继续向前,因为没有别的选择。终于到了第一个景点,同时也是停车场。买了把雨伞,跟小卖部的人拉了几句家常,这才明白,从这里开始再往上,就是山路了。从这里算起,这条路有12公里,路的尽头,叫阴阳界,照字面意思理解,大概就是雪线了吧。淡季,下着雨的傍晚,自然人很少。附近三三两两的人,大都是准备今晚在这里过夜,明天一早起来爬山的。 西岭雪山 一个人旅行,最大的好处就是可以随心,而不用考虑任何其他的因素。比如说,想半夜爬山,爬就是了。所以我就开始爬山。 一路上雨继续下,时大时小。天越来越黑,一半是真的天黑了,一般是山里的水汽太大。路上几乎看不到人影,寥寥的几个,也都是下山的。山路依然是沿着河修建的,不过时而在河左边,时而又转到右边。过河的桥,有木桥,也有吊桥。更令人欣喜的是,桥头大都挂着这样的标语:野猴出没地,严禁游客喂食,挑逗野猴!太有才了。 吊桥 不知道有多久没有看见过这样清澈的水了,也不知道有多久没有看到过这样奔流的河了。记忆中老家屋后那条河的源头,似乎就是这个样子的。那些一起下河洗澡的日子,一起抓螃蟹的哥们,都越来越远了。 爬了2公里到第一个接待站,天已经完全黑下来了。接待站里有2个工作人员,可以过夜,还有饭吃。下一个接待站还有2公里,犹豫了2秒钟,我就放弃了继续往山爬的念头。掏出手机才发现,没有信号。接待站是自己发电,有电视信号,可是没有手机信号。弱弱的问了一句,确认也没有有线电话,更不用说网络了。也就是说,完全的与世隔绝了。有多久没有与世隔绝了?想想,自从2004年拥有了第一部手机之后,就很少很少了吧。 不出意料,床单被子上都是一股潮湿冰冷发霉的味道,在这样一年有大半年会下雨的地方,木屋下面还是一个小瀑布的地方,还能有什么要求呢?不过幸好有电热毯,忍忍还能睡着。如果没有,那我宁愿坐一晚上了。 入睡前还在想,明早上起来继续往上爬。可是早上醒来,忽然就意兴阑珊了。深深的吸了好几口冰凉的空气,冲着山顶的方向挥挥手,转身返回。 7点半起床开始走,8点半走回到停车场。又很幸运的搭了个便车,一路来到昨天黑车过不去的那个修路的口。那便车到这里就不走了,可是这个时候这个地方,上哪里找黑车去?没有办法,走吧。据说是7公里,到西岭镇的公交车站,走的快一点,不到2个小时也就到了。 早晨的风景比傍晚更漂亮,一路上峰回路转,水声伴随着鸟鸣。一抬头,半山腰上水汽凝结成烟一般的白雾,远一点的山大都只露出一个个山顶,水墨画的意境,也就如此了罢。 回成都的路上,顺便去了一下安仁的刘文彩大地主的刘氏庄园,买了一斤地主家的牛皮糖。 回到成都市内,又去了一下金沙博物馆,感受了一下传说中的4D电影《梦回金沙》。 谁说的人非要快乐不可 好像快乐由得人选择 找不到的那个人来不来呢 我会是谁的谁是我的 一个人去旅行,可以快乐,却逃不开寂寞。

音乐搜索的极致

12530 PC客户端 咪咕 (页面最下方有一个很不显眼的下载链接) 搜索 原本计划是今天上线内测,20号正是随资源库后台一起上线,其实昨晚就已经替换掉了正式服务器上原来的接口。正因为昨晚悄无声息的上线,原本已经下班走到 家门口的我们,又被电话叫回公司,来解决一个刚刚发现的bug。 音乐搜索,第一期还没有特别做歌词的搜索,只对歌手名,歌曲名,专辑名做优化,加上数据量本身就很小(一共才不到100万首歌),只好在查询上做文章。我们当前一共设置了十层查询 Query: 1。精确匹配:歌手,歌曲,专辑,不分词字段,去掉前后多余空格,精确匹配 2。过滤后的精确匹配:歌手,歌曲,专辑,过滤字段,去掉所有特殊字符,英文转成小写,精确匹配 3。拼音全量匹配:歌手,歌曲,专辑,拼音全量字段,去掉所有非英文字符,英文转成小写,精确匹配 4。同音纠错匹配:歌手,歌曲,专辑,拼音全量字段,只对含中文的搜索词使用,中文转拼音,英文转小写,去掉所有特殊字符,精确匹配 5。拼音首字母匹配:歌手,拼音首字母字段,中文转拼音首字母,英文转小写,去掉所有特殊字符,精确匹配 6。前缀匹配:歌手,歌曲,专辑,不分词字段,去掉前后多余空格,英文转小写,前缀匹配 7。分词Must匹配:歌手,歌曲,专辑,(歌词),分词字段,分词,词之间使用Must连接,分词匹配 8。分词Should匹配:歌手,歌曲,专辑,(歌词),分词字段,分词,词之间使用Should连接,分词匹配 9。合并分词匹配:歌手+歌曲+专辑 分词字段,分词,(当前使用 Should 连接),分词匹配 10。模糊匹配:歌手,歌曲,专辑,分词字段,去掉前后多余空格,英文转小写,模糊匹配, 包含中文时模糊度:0.65 全英文模糊度:0.85 其中模糊匹配还分了两级: a 拼音纠错 b 模糊查询,包括中文模糊和英文模糊(模糊度不一样) 当前拼音模糊是使用组合的办法来实现的: 1。建索引的时候,拼音全量字段里建的是字段的准确拼音,包括多音字的组合 2。搜索的时候,将用户输入的关键词转成拼音,在拼音全量字段里搜 3。模糊的时候,将用户输入关键词转成的拼音,按照模糊规则:n-l 互换,zh-z, ch-c, sh-s 互换,an-ang, en-eng, in-ing, on-ong 互换,每次只换一个(当前只支持模糊度为1的拼音模糊查询),如果有多个可以替换的点,则返回的结果为一个数组组合,然后使用 精确匹配在拼音全量字段进行查询 还有一种做法: 首先定义个所谓的拼音标准化过程: n->l,zh->z, ch->c, sh->s ,an->ang, en->eng, in->ing, on->ong 不是互换,而是单向替换。 将一个拼音串的所有可替换点都替换后,得到的一个串,称为标准化串。 1。建索引的时候,歌曲名,歌手名,专辑名各新增一个标准化串字段,按”,”分词(多音字),存储字段的拼音标准化串 2。搜索的时候,将用户输入的关键词转成拼音,在拼音全量里面搜索 [...]