出卖Alexa(2)
利用与怀疑
每时每刻,全球每个安装了Alexa工具条的计算机终端都会向Alexa汇报该终端在互联网上的访问情况。根据这些信息,Alexa每天都会对全球网站的排名做重新计算,也就是说,Alexa排名是每日更新的。因为几乎全球所有的网站都在Alexa的监测范围内,而这个每日更新的排行榜又显得过于直观,加之又是公开的随时可查的数据,就使得Alexa排名在很多场合都显得很敏感。
自2003年以来,国内互联网行业开始全面升温,曾经被资本们无情甩掉的网站CEO们又找回了昔日的感觉,但风险投资家们确实比上一次.COM泡沫时期精明了许多,网站要吸引投资,必须首先打消资本的顾虑,就算是已经上了市的网站,也需要给股东们一些明确的数据来表明自身的价值。就在这时,Alexa排名被介绍到了国内,虽然这个网站以前从未引起大家的注意,但是它提供的这个排行榜却很快显示出巨大的商业价值。
一些网站在向投资人递交商业计划书的同时,开始有意无意地提一下自己的Alexa排名,按照某种大家默认的逻辑,排在全球300名的网站总是比排在全球1000名以外的网站更有价值。终于,在“圈内人”的口口相传中,Alexa排名在中国互联网上名声大噪,而此时,远在大洋彼岸的Alexa却对它的中国Fans们一无所知。
当Alexa排名开始得到业界的普遍认可时,终于有人开始利用Alexa排名来创造“价值”了。大批个人网站的站长们开始研究Alexa的排名规则,网上开始流传各种针对Alexa的作弊工具,很多网站上开始刊登介绍Alexa作弊方法的文章,各种论坛里开始出现对Alexa排名的讨论。一时间,中国互联网业界刮起了“Alexa旋风”。
在2003年底,针对这股Alexa热,一些业内人士又开始质疑Alexa排名的可信度,并揭发出很多网站作弊的“内幕”。事实上,有相当多网民都对Alexa的排名表示过怀疑,因为在2003年的大部分时间里,Alexa排名上的全球第三和第四的网站是两个韩国网站,Alexa对此的解释是,韩国的互联网用户中安装Alexa工具条的比例较高,因此Alexa在韩国网民中得到的采样数据比较高,这就导致韩国的两家门户网站进入了全球前五名。
不过,Alexa的解释似乎越描越黑,因为Alexa工具条始终只有英文版,既没有中文版,更没有韩文版,如果要说工具条的普及率高,欧美国家应该首当其冲。有网友据此认为,韩国网站是靠作弊提升了网站排名,更有人认为,既然Alexa根本没有向亚洲国家推出本地化版本的工具条,亚洲国家就应该坚决抵制Alexa排名。
无论如何,从追捧到棒杀,业界对Alexa的关注一点儿都没减。进入2004年以来,照样有很多网站的站长们在绞尽脑汁地想把自己网站的Alexa排名“做上去”,而以前揭露过Alexa的炮手们也同样继续怀揣各种目的炮轰着Alexa。
今年十一长假过后,国内网站在Alexa上的排名突然经历了一次大规模集体滑坡,各种谣言开始在网民中流传,一种比较流行的说法是,Alexa终于开始调整算法来反击越来越多的中国作弊网站,人们把这看做是Alexa的“正当防卫”,毕竟,一个以排行榜为最大卖点的网站赖以生存的就是它的排名的公正性。
各种传言都无法解决看客们对Alexa可信度的疑惑,因为国内主流媒体从未针对Alexa的技术进行过深入的分析和报道,而在下面的介绍中,读者可以看到,或许韩国网站排名过高另有原因,而所谓的Alexa作弊手段也不只是此前一些媒体报道的多次刷新那么简单,而且,Alexa也有自己非常高明的防作弊手段。不过,本文中所提及的作弊手段与网上随处可见的“作弊宝典”有本质的不同,所以,Alexa在多大程度上能抵御这种不常见的作弊方式也就很难说了。
Alexa工具条的DNA
要想彻底搞清楚Alexa排名是否可信,必须从技术上对Alexa的全球网站流量监测进行全面的解剖,当然,Alexa从来没有公布自己的技术细节,记者决定“以彼之道,还施彼身”,既然Alexa声称其数据来源就是那个工具条,记者决定首先从破解工具条入手。
受记者委托,圈内著名的Web技术专家小林,用了近一个晚上的时间,对Alexa工具条及其向Alexa返回的数据进行了细致的分析,得出了很多宝贵的第一手资料。多年前对Alexa就做过研究的小林认为,最近的这次分析揭示了一些Alexa更隐秘的技术细节。
小林告诉记者,现在最新版本的Alexa工具条的运作机理与以往没有太大的改变,每当用户以装有Alexa工具条的IE浏览器打开新页面时,Alexa的一台服务器(data.alexa.com)都会收到加密的数据包,这个数据包中的核心信息就是十几个参数,这些参数包括当前网页地址、页面打开时间、用户端显示分辨率、Alexa工具条版本号、该用户是否为“亚马逊”的用户等,其中有一个重要的隐含参数,经小林分析,认为是Alexa为每个已安装的工具条自动生成的ID号码,这个号码应该是全球惟一的。Alexa可以通过这个ID对每个反馈数据包的发出者进行惟一标识,这是解决PV重复计算问题和防止同一用户多次刷新作弊的一个重要手段。
小林告诉记者,从目前研究的结果来看,任何一个汇编高手都可以很容易地掌握Alexa工具条返回的数据包中的秘密,如果这个人同时也是一个网络编程高手,那么要针对Alexa作弊就比较容易了。从记者后来对一位上海的Alexa作弊高手的采访来看,小林的分析完全正确。该作弊者正是一位资深的Web开发工程师,其采用的手段与小林的分析也基本吻合——编写一个Alexa工具条返回码生成器,批量产生Alexa能够辨识的代码串,然后用虚拟多用户的方式发回data.alexa.com,这样就可以欺骗Alexa的服务器,让它误以为这些数据是不同用户发来的(征得该作弊者本人同意,本专题在最后公开了记者与该作弊者的网上聊天实录)。
小林认为,这种以编程方式模拟多用户访问的作弊方式的实现,最重要的环节就在于对那个Alexa用来惟一标识用户身份的ID号的生成算法的破解,这需要对足够多的Alexa工具条进行嗅探,抓取其数据包进行定量的算法分析。但小林同时也指出,这些工作对于一个编程高手来说,确实不算什么,只是最终作弊的实现仍需要模拟一个足够快的ID号生成程序,这可能会比较困难,不过据小林估计,国内能做这些事情的人不在少数,只是互联网这个圈子里的高手们很少去做罢了。
从以上的技术分析来看,Alexa的服务器每天所做的工作就是不断接收全球用户传回的数据包,提取其中的那十几个参数并写入专门的数据库,然后在某个特定时间对当天收集到的这些数据进行分析计算,并以新的计算结果去更新当日的网站排名。据记者观察,这个数据库的分析结果至少会保存三年之久,因为在Alexa网站上对每个网站的Rank排名变化趋势图最多能提供三年来的数据变化。
在破解了工具条的DNA之后,记者还与一些朋友探讨了Alexa工具条在全球的分布情况。按照Alexa的说法,工具条是它惟一的信息获取来源,那么工具条在全球用户中的分布也就成了另一个可以影响Alexa排名的重要因素。如果工具条真的是Alexa数据的惟一来源,可以想象,当中国网民都没有安装Alexa工具条的时候,新浪搜狐这样的门户网站恐怕在Alexa排名中都见不到影子,可是今年下半年以来,新浪和搜狐就已经紧随Google排在全球第四和第五的位置了,这似乎说明了Alexa工具条已经在中国具备了较高的普及率,否则,新浪、搜狐以及紧随其后的占领了Alexa全球500强中近1/3份额的中国网站就都有作弊的嫌疑。
幸好记者的一位朋友曹政提供了令人欣慰的数据。作为网站流量分析专家,曹政在www.tong123.com上为多达2000家国内各类网站提供长期的流量监测与统计分析服务。曹政的流量分析与Alexa的不同,Alexa不在被监测的网站上做任何事,而tong123.com对网站进行页面内嵌方式的第三方流量统计。受记者委托,曹政临时在其数据采样分析器里加入了对Alexa工具条的监测。经过一周的数据统计,曹政得出的结论是:访问www.tong123.com系统监测的2000家网站的所有用户中,Alexa工具条的安装率在1.5%左右。
就在发稿前,曹政还给记者发来了对这一结果的补充说明,他认为,由于tong123的系统采用累计平均值的计算方法,Alexa工具条的实际安装比例应该比现在得到的数据更高,因为这个监测项刚加进去不久。
相关文章:
- [2021年01月25日]Windows 10更新状态一直显示:正在准备-0%
- [2021年01月25日]笔记本电脑关机后掉电快的缓解方法
- [2021年01月18日]win10系统如何关闭摄像头
- [2020年02月24日]简述CPU、GPU、TPU
- [2020年02月24日]word2010以上版本无法保存作者信息的解决办法
- [2019年09月28日]笔记本与台式机选哪个?
- [2018年11月17日]移动硬盘使用前需格式化的解决办法
- [2017年09月18日]换新显卡后停滞在主板logo画面不动
- [2017年02月19日]Win7系统睡眠之后风扇还在转怎么办?
- [2017年02月11日]Win7系统中如何在任务栏中设置“显示桌面”图标