十 27
不久前才从视频搜索换到网页大搜索,这相当于换了一下小部门,直接主管也变了。幸运的是,还是可以跟以前那一帮人一起吃饭。所以,每天的午餐时间,成了联系大家的纽带。
但今天,部门主管过来告诉我说,另一个部门需要从我们部门调一个过去帮忙,时间为一个月。而我们部门内部商量的结果是派我过去!但是,新部门在18层,那我以后还能继续跟大家一起吃饭么?
有一个疑问:我的邮件签名需要把“研发-搜索”换成“互动社区”之类的么?
PS.一个大好消息是:因为我被借到另外一个部门,我在搜索项目的所有服务器上的权限被取消, ... (全文...)
十 25
[原创文章,转载请保留或注明出处:http://www.regexlab.com/zh/regtopic.htm]
引言
本文将逐步讨论一些正则表达式的使用话题。本文为本站基础篇之后的扩展,在阅读本文之前,建议先阅读正则表达式参考文档一文。
----------------------------------------------------------------------
1. 表达式的递归匹配
有时候,我们需要用正则表达式来分析一个计算式中的括号配对情况。比如,使用表达式 "\( [^)]* \)" 或者 "\( .*? \)" 可以匹配一对小括号。但是如果括号 内还嵌有一层括号的话 ,如 "( ( ) )",则这种写法将不能够匹配正确,得到的结果是 "( ( )" 。类似情况 ... (全文...)
十 25
[原创文章,转载请保留或注明出处:http://www.regexlab.com/zh/regref.htm]
引言
正则表达式(regular expression)描述了一种字符串匹配的模式,可以用来:(1)检查一个串中是否含有符合某个规则的子串,并且可以得到这个子串;(2)根据匹配规则对字符串进行灵活的替换操作。
正则表达式学习起来其实是很简单的,不多的几个较为抽象的概念也很容易理解。之所以很多人感觉正则表达式比较复杂,一方面是因为大多数的文档没有做到由浅入深地讲解,概念上没有注意先后顺序,给读者的理解带来困难;另一方面,各种引擎自带的文档一般都要介绍 ... (全文...)
十 23
拿着一个可以运行的程序,放数据的硬盘却坏了。程序还有段错误问题,也没有办法调试了——因为没有数据。
临时又恶补了一下GDB和VIM,需要学的东西实在太多了,这才后悔当初没有扎实的学。C语言的基础的东西也有很多不熟练的,类似于fread,fseek等文件操作,如果熟练一点的话,也不至于落到今天这样的尴尬局面呢。指针,结构体,唉,就更不用说了。惭愧。
继续努力。
十 23
一:列文件清单
1. List
(gdb) list line1,line2
二:执行程序
要想运行准备调试的程序,可使用run命令,在它后面可以跟随发给该程序的任何参数,包括标准输入和标准输出说明符()和外壳通配符(*、?、[、])在内。
如果你使用不带参数的run命令,gdb就再次使用你给予前一条run命令的参数,这是很有用的。
利用set args 命令就可以修改发送给程序的参数,而使用show args 命令就可以查看其缺省参数的列表。
(gdb)set args –b –x
((全文...)
十 23
一、引言
在了解GDB可以做什么,怎么做之前,让我们先来看看为什么要用GDB,或者说对调试工具有什么期望。
一般我们使用GDB(或其他调试工具)是为了发现程序bug,更经常地是在已知程序有错的情况下定位bug。既然这样,我们就需要跟踪程序的执行情况,查看程序执行是否正常,当然这就需要有个让我们与执行程序交互的环境,调试工具提供一个能让程序在你的掌控下执行,并让你能够查看一些执行过程中的“内幕信息”的环境。
为了查看程序运行过程中的状态,我们就希望程序能在适当的位置或者在一定的条件下能够暂停运行;为此,调试工具提供了断点、查看变量/表达式、显 ... (全文...)
十 20
Sergey Brin和Lawrence Page
Computer Science Department
Stanford Unversity, Stanford, CA 94305, USA
sergey@cs.stanford.edu和page@cs.stanford.edu
摘要:
本文介绍了一个在超文本中广泛应用的大型搜索引擎Google的原型。Google的设计使之能够高效地抓取网络信息并为之建立索引,它的查询结果比现存的其它系统都要更令人满意。这个原型的全文和至少含有2千4百万个页面的超链接数据库可以从http://google.stanford.edu/下载。设计一个搜索引擎是一项富有挑战性的工作。搜索引擎要为上百亿包含等量的不同词汇的网页 ... (全文...)
十 20
数字视频技术广泛应用于通信、计算机、广播电视等领域,带来了会议电视、可视电话及数字电视、媒体存储等一系列应用,促使了许多视频编码标准的产生。ITU-T与ISO/IEC是制定视频编码标准的两大组织,ITU-T的标准包括H.261、H.263、H.264,主要应用于实时视频通信领域,如会议电视;MPEG系列标准是由ISO/IEC制定的,主要应用于视频存储(DVD)、广播电视、因特网或无线网上的流媒体等。两个组织也共同制定了一些标准,H.262标准等同于MPEG-2的视频编码标准,而最新的H.264标准则被纳入MPEG-4的第10部分。
本文按照ITU-T视频编码标准的发展过程,介绍H.261、H.263及H.264。
H.261视频编码标 ... (全文...)
十 20
BitTorrent 是一种分发文件的协议。它通过URL来识别内容,并且可以无缝的和web进行交互。它基于HTTP协议,它的优势是:如果有多个下载者并发的下载同一个文件,那么,每个下载者也同时为其它下载者上传文件,这样,文件源可以支持大量的用户进行下载,而只带来适当的负载的增长。(译注:因为大量的负载被均衡到整个系统中,所以提供源文件的机器的负载只有少量增长)
一个BT文件分布系统由下列实体组成:
一个普通的web服务器
一个静态的“元信息”文件
一个跟踪(tracker)服务器
终端用户的web浏览器
终端下载者
理想的情况是多个终端用户在下载同 ... (全文...)
十 19
很久没有写C程序了。
刚刚换到大搜索,还是有一些不习惯。但,终究,是要习惯的。
昨天因为班会,提前请假回学校了,所以,仔细算起来,我在新部门的工作,是从今天才正式开始做的。上午刚刚看了一点原先的日志统计程序,发现VIM很不熟悉,于是又看了一会VIM的用户手册。因为程序很多,用了Makefile,结果又转到Makefile的文档看了半天。
URL聚类还没有开始做,anchor_text 分析插了进来。刚想了个主意,就被主管否定了,而且还狠狠的批了我一通:现在写程序,处理的数据动辄几十G,再也不能像以前那样想当然的做了。