Skip to content

转:Zend API:深入 PHP 内核

里程碑——新浪支付上线

3月12号,植树节,孙氏中山君忌辰。

昨天,2008年3月11号,下午18时整,新浪支付http://sinapay.sina.com.cn/)在一片匆忙中,终于上线了。大约2分钟后,迎来了第一个非内部人员的注册用户,4分钟后,迎来了第一笔充值。15分钟后,迎来了第一笔掉单:充值游戏接口返回超时。30分钟后,迎来了第一笔帐务错误:为不登录而直接充值的用户准备的默认帐户内,余额不足了——也就是说,某个幸运儿可能从银行或者用卡,打算往游戏帐户里充值10块钱,而我们的系统为他充了20块,甚至更多。

手忙脚乱的时候,更容易出错。应该在后台跑的一个进程,死活跑不起来。因为部署在正式机上,又没法调试——操作的直接是真实帐户!一点一点的 echo, dump,最后发现是正则匹配的时候,少匹配了一项服务器 env 变量,真是无语了。不管它为什么少匹配了,直接将其写在程序里,先跑起来再说。

上线之后,终于可以不用操心 jira 里的 bug 了,但还是没有空闲的可能:需要时刻监控这所有服务器上的 error log。开着一堆的服务器连接,不停的 tail -f ,不停的到处救火,这就是上线的日子里的生活。

等好不容易稍稍平静一点,心情也稍微的可以宽慰些许了。于是回家,一觉睡到大天亮,到起床时还临时决定去文慧园的中国银行,将助学贷款给全部结清了。

于是,无债一身轻,无“上线”压力一身更轻。

被保护: 腾讯面试

3月8号,妇女节。

承蒙mango邀请,我来到腾讯位于北京的办公室面试。

因为昨晚加班将代码上线及线上微调(http://sinapay.sina.com.cn),一直弄到12点才回家,凌晨2点才睡觉,所以今天早上起来都还是晕晕的。一看时间,不好,9点20了。约的是 10 点,所以赶紧打车。

腾讯北京的办公室位于银科大厦(silver tech),16F – 21F。打车过去一会就到了。上到17层,居然让在门外等着。门口的椅子上坐满了来面试的人,年轻的,年老的都有。旁边两个人聊天,听了一会,原来他们是应届生,来面试体育编辑及奥运频道编辑。感慨一下时光流逝,似乎不久前自己还是应届生,转眼间,就成“跳跳”族了。

也许是因为来的人比较多,需要排队等待面试官的面试。坐在门口很无聊,想着腾讯这么大一个公司,怎么也不稍微人性化一点,安排一个会议室什么的让大家等,或者在门口摆点报纸杂志什么的给大家看看也好啊——有保安在门口,也不用担心谁将报纸带走了。

大约10点20,终于叫到我了。进门左拐,在一个呈圆弧形凸出的房间里见到了面试官——房间外围都是落地玻璃,往外看去,中关村西区的繁华尽收眼底。互相报了姓名才知道,他就是在qq上聊过的mango ——跟想象中的相差比较大的说。聊了聊自己的工作经历,熟悉的技术,以及对一些技术问题的探讨,例如 memcache,网通电信同步等等。

接下来是笔试——因为上次网上笔试做的不够理想,mango另外给了我一份试题,让我现场再做一下。这套题比起上一次做的来,稍微简单了一些,但还是有大量的需要手写代码的题目,没有时间写具体代码,只好使用伪代码进行主要算法的描述。看的出来,这套题侧重于测试应聘者的真实“写”代码能力,而不是理论知识:PHP获得用户真实ip(考虑代理服务器),获得用户上传的文件的真实类型,检查用户提交的email是否符合格式要求,无一不是写过很多代码的人才写的出来的。还有,使用 php5,mysqli 写无限子菜单(标明使用 php5 大概是希望用类实现吧),strtolower 中文乱码(要求使用3种不同的办法解决)等,也是需要写过一些代码才知道怎么回事。一般写 PHP 的团队是不太注重设计模式的,但自从 PHP5 出来之后,也有的项目开始使用一些简单的设计模式了,比如单例 (Singleton) 模式。对数据库技巧的考察也有:2个表的数据合并显示,不允许使用联合查询——一般大网站都不允许使用复杂的SQL的,前面的应用服务器想方设法降低数据库的压力,复杂的SQL要求尽量在前端进行简化后才被送到真正的SQL服务器执行。题目很简单,因为前几天自己正好做了一个更复杂的:多个表的数据合并显示,而且还要有翻页功能。做了大约 2 天,而且只能做到翻 下一页 和 上一页,无法给出所有的页码链接——因为在不允许一次取得所有记录的前提下,翻到第 n 页的时候,只能取得 n+1 页和 n-1 页的位置指针,其他的页码中的数据分布情况无法获得。笔试中最遗憾的是关于 xml 和 html 的“实体” 以及区别。我愣了半天,硬是没有想起来什么是 “实体”。笔试完了跟 mango 聊起试题的时候才知道,所谓的实体,就是那些单引号,双引号,&,<,> 等需要编码的字符。

笔试结束,已经是 12 点过了。mango 拿着试卷,边看边再次跟我聊。这一次聊的时候更多是关于腾讯那边工作的内容了。包括工作地点,待遇以及福利什么的。只是那边要求的时间太紧,而这边新浪支付即将上线,户口,违约金等等又困绕着,左右权衡,还真不好选择。

PS. 面试中问到了一个问题,关于程序运行过程中获得程序的输入输出,其实是 strace 命令的用法,当时不会,记录在次以备查:
strace命令用法

调用:

strace [ -dffhiqrtttTvxx ] [ -acolumn ] [ -eexpr ] …
[ -ofile ] [ -ppid ] … [ -sstrsize ] [ -uusername ] [ command [ arg ... ] ]

strace -c [ -eexpr ] … [ -Ooverhead ] [ -Ssortby ] [ command [ arg ... ] ]

功能:
跟踪程式执行时的系统调用和所接收的信号.通常的用法是strace执行一直到commande结束.
并且将所调用的系统调用的名称、参数和返回值输出到标准输出或者输出到-o指定的文件.

strace是一个功能强大的调试,分析诊断工具.你将发现他是一个极好的帮手在你要调试一个无法看到源码或者源码无法在编译的程序.
你将轻松的学习到一个软件是如何通过系统调用来实现它的功能的.而且作为一个程序设计师,你可以了解到在用户态和内核态是如何通过系统调用和信号来实现程序的功能的.
strace的每一行输出包括系统调用名称,然后是参数和返回值.这个例子:

strace cat /dev/null

他的输出会有:
open(“/dev/null”,O_RDONLY) = 3
有错误产生时,一般会返回-1.所以会有错误标志和描述:
open(“/foor/bar”,)_RDONLY) = -1 ENOENT (no such file or directory)
信号将输出伪信号标志和信号的描述.跟踪并中断这个命令”sleep 600″:
sigsuspend({}
— SIGINT (Interrupt) —
+++ killed by SIGINT +++
参数的输出有些不一致.如shell命令中的 “>>tmp”,将输出:
open(“tmp”,O_WRONLY|O_APPEND|A_CREAT,0666) = 3
对于结构指针,将进行适当的显示.如:”ls -l /dev/null”:
lstat(“/dev/null”,{st_mode=S_IFCHR|0666},st_rdev=makdev[1,3],…}) = 0
请注意”struct stat” 的声明和这里的输出.lstat的第一个参数是输入参数,而第二个参数是向外传值.
当你尝试”ls -l” 一个不存在的文件时,会有:
lstat(/foot/ball”,0xb004) = -1 ENOENT (no such file or directory)
char*将作为C的字符串类型输出.没有字符串输出时一般是char* 是一个转义字符,只输出字符串的长度.
当字符串过长是会使用”…”省略.如在”ls -l”会有一个gepwuid调用读取password文件:
read(3,”root::0:0:System Administrator:/”…,1024) = 422
当参数是结构数组时,将按照简单的指针和数组输出如:
getgroups(4,[0,2,4,5]) = 4
关于bit作为参数的情形,也是使用方括号,并且用空格将每一项参数隔开.如:
sigprocmask(SIG_BLOCK,[CHLD TTOU],[]) = 0
这里第二个参数代表两个信号SIGCHLD 和 SIGTTOU.如果bit型参数全部置位,则有如下的输出:
sigprocmask(SIG_UNBLOCK,~[],NULL) = 0
这里第二个参数全部置位.

参数说明:
-c 统计每一系统调用的所执行的时间,次数和出错的次数等.
-d 输出strace关于标准错误的调试信息.
-f 跟踪由fork调用所产生的子进程.
-ff 如果提供-o filename,则所有进程的跟踪结果输出到相应的filename.pid中,pid是各进程的进程号.
-F 尝试跟踪vfork调用.在-f时,vfork不被跟踪.
-h 输出简要的帮助信息.
-i 输出系统调用的入口指针.
-q 禁止输出关于脱离的消息.
-r 打印出相对时间关于,,每一个系统调用.
-t 在输出中的每一行前加上时间信息.
-tt 在输出中的每一行前加上时间信息,微秒级.
-ttt 微秒级输出,以秒了表示时间.
-T 显示每一调用所耗的时间.
-v 输出所有的系统调用.一些调用关于环境变量,状态,输入输出等调用由于使用频繁,默认不输出.
-V 输出strace的版本信息.
-x 以十六进制形式输出非标准字符串
-xx 所有字符串以十六进制形式输出.
-a column
设置返回值的输出位置.默认为40.
-e expr
指定一个表达式,用来控制如何跟踪.格式如下:
[qualifier=][!]value1[,value2]…
qualifier只能是 trace,abbrev,verbose,raw,signal,read,write其中之一.value是用来限定的符号或数字.默认的qualifier是 trace.感叹号是否定符号.例如:
-eopen等价于 -e trace=open,表示只跟踪open调用.而-etrace!=open表示跟踪除了open以外的其他调用.有两个特殊的符号 all 和 none.
注意有些shell使用!来执行历史记录里的命令,所以要使用 .
-e trace=set
只跟踪指定的系统调用.例如:-e trace=open,close,rean,write表示只跟踪这四个系统调用.默认的为set=all.
-e trace=file
只跟踪有关文件操作的系统调用.
-e trace=process
只跟踪有关进程控制的系统调用.
-e trace=network
跟踪与网络有关的所有系统调用.
-e strace=signal
跟踪所有与系统信号有关的系统调用
-e trace=ipc
跟踪所有与进程通讯有关的系统调用
-e abbrev=set
设定strace输出的系统调用的结果集.-v 等与 abbrev=none.默认为abbrev=all.
-e raw=set
将指定的系统调用的参数以十六进制显示.
-e signal=set
指定跟踪的系统信号.默认为all.如signal=!SIGIO(或者signal=!io),表示不跟踪SIGIO信号.
-e read=set
输出从指定文件中读出的数据.例如:
-e read=3,5
-e write=set
输出写入到指定文件中的数据.
-o filename
将strace的输出写入文件filename
-p pid
跟踪指定的进程pid.
-s strsize
指定输出的字符串的最大长度.默认为32.文件名一直全部输出.
-u username
以username的UID和GID执行被跟踪的命令.

多事之春

妈妈不小心闪了腰。

妹妹生日(正月廿三),打电话回家才知道这事。姥姥因为骨质增生,腿疼,妈妈想去看看她,结果就在那条走了无数遍的路上,不小心摔了一跤,闪了腰。上了医院,拍X光,医生说没有什么大碍,但打针吃药还是少不了。

还好姥姥的腿疼经过一段时间的治疗后,现在好多了。

妹妹明天在新学校分班考试。希望能考的顺利吧。印象中妹妹一直是俩小孩子,今天早上打电话祝生日快乐的时候才想起,她们都满17岁了,都成大人了。

爸爸后天生日(正月廿五)。爸妈都是快满 50 的人了,种了这么多年田,现在爸爸腿不好(大三那年摔了一跤),妈妈现在又腰疼,叫他们今年就别种田了,他们却一直不听。有什么办法能让老人听话呢?也许比让小孩听话更难吧。

工作上的郁闷终于渐渐远去,随着项目上线的时候越来越近,修改的都是一些小的问题了。只是,上线后,我又该何去何从?继续做 php 的开发,还是横下心来,转去做 C 呢?我期待的工作环境,氛围,我能得到吗?

小蔡辞职算是成功了,他的老板却明确的告诉他不会给开离职证明。在单位的最后一天,请老同事们吃饭的时候,居然把腿给扭了。3天后的新单位工作的第一天,但愿到那时候能恢复过来。

Linux下编写Daemon程序

以Daemon方式运行的程序,在运行过程中与控制台无关,即不受控制台信号影响,在控制台退出后也继续保持运行,而其他非Daemon程序会受控制台操作影响,并在控制台退出时被强行退出。因此网络服务程序绝大多数都是以Daemon方式运行。

可以在程序初始化时加入以下语句,则程序将以Daemon方式运行:

/* 生成一个新的进程并将原来的主进程退出 */
if(fork()) exit(0);

/* 关闭 stdin, stdout, stderr 等控制台句柄 */
for (n = 0; n<3; n++) close(n);

/* 将 stdin, stdout和stderr均指向/dev/null */
open(“/dev/null”, O_RDONLY);
dup2(0,1);
dup2(0,2);

/* 设置tty的I/O属性 */
if((n=open(“/dev/tty”,O_RDWR)) > 0) {
ioctl(n, TIOCNOTTY, 0) ;
close(n);
}

/* 创建一个新的session,使当前进程成为一个process greoup的leader */
setsid();

/* 生成一个新的进程并将刚才生成的进程退出,这个新的进程已经以daemon方式运行了 */
if(fork()) exit(0);

Linux下编写Daemon程序

以Daemon方式运行的程序,在运行过程中与控制台无关,即不受控制台信号影响,在控制台退出后也继续保持运行,而其他非Daemon程序会受控制台操作影响,并在控制台退出时被强行退出。因此网络服务程序绝大多数都是以Daemon方式运行。

可以在程序初始化时加入以下语句,则程序将以Daemon方式运行:

/* 生成一个新的进程并将原来的主进程退出 */
if(fork()) exit(0);

/* 关闭 stdin, stdout, stderr 等控制台句柄 */
for (n = 0; n<3; n++) close(n);

/* 将 stdin, stdout和stderr均指向/dev/null */
open(“/dev/null”, O_RDONLY);
dup2(0,1);
dup2(0,2);

/* 设置tty的I/O属性 */
if((n=open(“/dev/tty”,O_RDWR)) > 0) {
ioctl(n, TIOCNOTTY, 0) ;
close(n);
}

/* 创建一个新的session,使当前进程成为一个process greoup的leader */
setsid();

/* 生成一个新的进程并将刚才生成的进程退出,这个新的进程已经以daemon方式运行了 */
if(fork()) exit(0);

转:几种经典的Hash算法的实现(源代码)

哈希算法将任意长度的二进制值映射为固定长度的较小二进制值,这个小的二进制值称为哈希值。哈希值是一段数据唯一且极其紧凑的数值表示形式。如果散列一段明文而且哪怕只更改该段落的一个字母,随后的哈希都将产生不同的值。要找到散列为同一个值的两个不同的输入,在计算上是不可能的,所以数据的哈希值可以检验数据的完整性。

链表查找的时间效率为O(N),二分法为log2N,B+ Tree为log2N,但Hash链表查找的时间效率为O(1)。

设计高效算法往往需要使用Hash链表,常数级的查找速度是任何别的算法无法比拟的,Hash链表的构造和冲突的不同实现方法对效率当然有一定的影响,然而Hash函数是Hash链表最核心的部分,下面是几款经典软件中使用到的字符串Hash函数实现,通过阅读这些代码,我们可以在Hash算法的执行效率、离散性、空间利用率等方面有比较深刻的了解。

下面分别介绍几个经典软件中出现的字符串Hash函数。

●PHP中出现的字符串Hash函数

static unsigned long hashpjw(char *arKey, unsigned int nKeyLength)
{
unsigned long h = 0, g;
char *arEnd=arKey+nKeyLength;

while (arKey < arEnd) {
h = (h << 4) + *arKey++;
if ((g = (h & 0xF0000000))) {
h = h ^ (g >> 24);
h = h ^ g;
}
}
return h;
}

●OpenSSL中出现的字符串Hash函数

一。

unsigned long lh_strhash(char *str)
{
int i,l;
unsigned long ret=0;
unsigned short *s;

if (str == NULL) return(0);
l=(strlen(str)+1)/2;
s=(unsigned short *)str;

for (i=0; i
ret^=(s[i]<<(i&0×0f));
return(ret);
}

二。

/* The following hash seems to work very well on normal text strings
* no collisions on /usr/dict/words and it distributes on %2^n quite
* well, not as good as MD5, but still good.
*/
unsigned long lh_strhash(const char *c)
{
unsigned long ret=0;
long n;
unsigned long v;
int r;

if ((c == NULL) || (*c == ‘\0′))
return(ret);
/*
unsigned char b[16];
MD5(c,strlen(c),b);
return(b[0]|(b[1]<<8)|(b[2]<<16)|(b[3]<<24));
*/

n=0×100;
while (*c)
{
v=n|(*c);
n+=0×100;
r= (int)((v>>2)^v)&0×0f;
ret=(ret(32-r));
ret&=0xFFFFFFFFL;
ret^=v*v;
c++;
}

return((ret>>16)^ret);
}

●MySql中出现的字符串Hash函数

#ifndef NEW_HASH_FUNCTION

/* Calc hashvalue for a key */
static uint calc_hashnr(const byte *key,uint length)
{
register uint nr=1, nr2=4;

while (length–)
{
nr^= (((nr & 63)+nr2)*((uint) (uchar) *key++))+ (nr << 8);
nr2+=3;
}

return((uint) nr);
}

/* Calc hashvalue for a key, case indepenently */
static uint calc_hashnr_caseup(const byte *key,uint length)
{
register uint nr=1, nr2=4;

while (length–)
{
nr^= (((nr & 63)+nr2)*((uint) (uchar) toupper(*key++)))+ (nr << 8);
nr2+=3;
}

return((uint) nr);
}
#else
/*
* Fowler/Noll/Vo hash
*
* The basis of the hash algorithm was taken from an idea sent by email to the
* IEEE Posix P1003.2 mailing list from Phong Vo (kpv@research.att.com) and
* Glenn Fowler (gsf@research.att.com). Landon Curt Noll (chongo@toad.com)
* later improved on their algorithm.
*
* The magic is in the interesting relationship between the special prime
* 16777619 (2^24 + 403) and 2^32 and 2^8.
*
* This hash produces the fewest collisions of any function that we’ve seen so
* far, and works well on both numbers and strings.
*/
uint calc_hashnr(const byte *key, uint len)
{
const byte *end=key+len;
uint hash;

for (hash = 0; key < end; key++)
{
hash *= 16777619;
hash ^= (uint) *(uchar*) key;
}

return (hash);
}

uint calc_hashnr_caseup(const byte *key, uint len)
{
const byte *end=key+len;
uint hash;

for (hash = 0; key < end; key++)
{
hash *= 16777619;
hash ^= (uint) (uchar) toupper(*key);
}

return (hash);
}
#endif

Mysql中对字符串Hash函数还区分了大小写

●另一个经典字符串Hash函数

unsigned int hash(char *str)
{
register unsigned int h;
register unsigned char *p;

for(h=0, p = (unsigned char *)str; *p ; p++)
h = 31 * h + *p;

return h;
}

腾讯的笔试

腾讯的笔试原预计周日进行,临时调到昨天晚上。

在进行了一整天的 SetErrorCode 后,来不及做任何准备,就开始了答题。

家里小蔡的电脑很不习惯,没有 Cygwin,没有 PHP 手册,没有 SSH,用 PuTTY 连上公司的测试机还慢的像断了腿的蜗牛。自己以前留存下来的经典代码也无法参考。用 QQ 而不是更干净整洁的 TM,用 IE 而不是自己熟悉的 FF。一个小时的中文测试,居然到了快 20 分钟的时候才做完第一题。

腾讯招 PHP 的是QZone空间的部门,可是打开空间看了看,并没有发现 PHP 的丝毫痕迹。QZone 使用大量的 Js,对搜索引擎极其不友好,只支持 IE 等做法恰恰跟自己喜欢的方式相左。本来还希望往服务器配置,优化,管理的方向转,但仔细一看QZone的服务器,Server: WS CDN Server,这是啥?Server我知道,CDN我知道,可是WS是什么?

腾讯的笔试题比较重视正则表达式,短短的7道题,居然有2道与正则有关。关于 PHP 的安全模式,命令行模式,魔术函数,以及网络调用都有涉及。令我感到意外的是,居然有一道算法题,使用 PHP 实现双向队列。这本来应该是我的强项,只是最后却因为时间关系而来不及细写。

英文的测试题相对简单多了,大约腾讯并不要求很高的英文能力吧,以至于像我这样只过了六级,又好久没有折腾英语的人,都非常轻松的完成了答题,而且时间上居然还有一点富余。

其实说起来,还是要非常感谢腾讯的 lin,为了这次笔试陪我加班到那么晚。即使这次没有成功,腾讯还是以后可能优先考虑的一个选择。

腾讯的笔试

腾讯的笔试原预计周日进行,临时调到昨天晚上。

在进行了一整天的 SetErrorCode 后,来不及做任何准备,就开始了答题。

家里小蔡的电脑很不习惯,没有 Cygwin,没有 PHP 手册,没有 SSH,用 PuTTY 连上公司的测试机还慢的像断了腿的蜗牛。自己以前留存下来的经典代码也无法参考。用 QQ 而不是更干净整洁的 TM,用 IE 而不是自己熟悉的 FF。一个小时的中文测试,居然到了快 20 分钟的时候才做完第一题。

腾讯招 PHP 的是QZone空间的部门,可是打开空间看了看,并没有发现 PHP 的丝毫痕迹。QZone 使用大量的 Js,对搜索引擎极其不友好,只支持 IE 等做法恰恰跟自己喜欢的方式相左。本来还希望往服务器配置,优化,管理的方向转,但仔细一看QZone的服务器,Server: WS CDN Server,这是啥?Server我知道,CDN我知道,可是WS是什么?

腾讯的笔试题比较重视正则表达式,短短的7道题,居然有2道与正则有关。关于 PHP 的安全模式,命令行模式,魔术函数,以及网络调用都有涉及。令我感到意外的是,居然有一道算法题,使用 PHP 实现双向队列。这本来应该是我的强项,只是最后却因为时间关系而来不及细写。

英文的测试题相对简单多了,大约腾讯并不要求很高的英文能力吧,以至于像我这样只过了六级,又好久没有折腾英语的人,都非常轻松的完成了答题,而且时间上居然还有一点富余。

其实说起来,还是要非常感谢腾讯的 lin,为了这次笔试陪我加班到那么晚。即使这次没有成功,腾讯还是以后可能优先考虑的一个选择。

密码保护:年后

这是一篇受密码保护的文章。您需要提供访问密码: