09-02
19

搜索引擎统计搜索结果点击情况的几个参数


以前曾经很单纯的以为搜索引擎在你做了一次搜索后,所做的事情只是记录你的搜索行为,并把结果列出来,至于你点击第几个结果,他们是不统计的.

但是在查看了搜索结果页的源码以后,这个单纯的念头消散了.显然每个结果的超链接上都加了点额外的动作.百度如此,google也如此


那么他们会提取哪些参数呢?截包看一下

在百度搜索hello world,然后点击排名第二的网站,是IBM.同时截取数据包,观察发出的第一个数据包,忽略user-agent,host,referer, cookies等部分(cookies中也许会有些有用的参数,但因为是加密的代码,恐怕研究不出什么东西)
得到以下这段数据:

/w.gif?query=hello+world&e=6b24&title=IBM%20developerWorks%20….%20:%20Hello%20World%20……..:%20…………%20..&url=http%3A//www.ibm.com/developerworks/cn/offers/lp/helloworld/&spos=2&path=http://www.baidu.com/s?wd=hello+world&t=1211653135732


这个是浏览器发出的请求,其中有几段参数,应该说比较直白,我们来稍微分析一下它们的含义:

引用内容 引用内容
query=hello+world


所搜索的关键词

引用内容 引用内容
e=6b24


Ring认为这个参数应该是用来标记一个session对话中特定的一次搜索中的特定一个结果的.在同一个session中做多次针对同个关键词的搜索, 这个数会变化,关闭浏览器重新开一个session再搜索就更会变化.但如果搜索以后,结果页放在那不动,你点它多少次都是6b24,通过这个参数百度应 该就能知道你点击了哪个结果,并过滤掉不必要的重复点击.

引用内容 引用内容
title=IBM%20developerWorks%20….%20:%20Hello%20World%20……..:%20…………%20..


该网站的title.由于截包工具不支持中文,把中文用…代替了

引用内容 引用内容
url=http%3A//www.ibm.com/developerworks/cn/offers/lp/helloworld/&spos=2

该结果的目标URL

引用内容 引用内容
path=http://www.baidu.com/s?wd=hello+world

搜索结果页的路径

引用内容 引用内容
t=1211653135732

当前时间,以毫秒为单位.
其中有几个参数本应是可以不用通过这种传值方式感知的.比如,百度作为搜索结果的提供人,从e值知道你点了哪个结果以后,应该理所当然的可以通过自己的数据库得知这个结果的网站title和URL,却要用这种方法来传值,可能是有什么其他方面的考虑吧.


而google.cn的截包数据却十分简练.

GET /url?sa=T&ct=res&cd=3&ei=KFs4SOqMHIKS6gP54vnTDQ


显然google没有想给我们看到更多的东西.参数的名称和值都用了暗语.Ring仅能通过增加几次截包猜测出cd这个值表示的是用户点击了第几个结果.但是以google的风格,他们应该是不会放过任何能够统计的数据的.





转自 :http://www.geekpoint.cn/2008/05/25/clicking-para/


文章来自: 本站原创
引用通告: 查看所有引用 | 我要引用此文章
Tags: 参数
相关日志:
评论: 0 | 引用: 0 | 查看次数: 339
发表评论
昵 称:
密 码: 游客发言不需要密码.
内 容:
验证码: 验证码
选 项:
虽然发表评论不用注册,但是为了保护您的发言权,建议您注册帐号.
字数限制 1000 字 | UBB代码 开启 | [img]标签 关闭