今天在微博上看到一本书的推荐《父亲那场永不停息的战争》,台湾作家王明珂著,百度百科介绍了他主要从事羌族及西南少数民族与北方游牧社会的田野调查研究,在历史人类学领域成绩卓著,影响深广。这使我想起来最近正在学习的研究方法论中提高的人种学方法。其实国外是很重视人种学、案例等定性研究的,可惜我国现在主流依旧是定量。
就是这本哦:
在由于我在网上搜书的详细目录一般只有三条具体的查找途径:一是当当;二是京东;三是亚马逊。随后,随便百度搜索了下,我非常惊诧!不就是想找一本书而已,多么典型的主题性搜索啊。竟然在翻啊翻到第6页才看见京东和当当。What's wrong?
附件里有我记录的6页详细的记录,我保证客观,我没有对数据做任何改动。现在我就给大家上图,看看前6页的详细内容。
当然有个前提,就是为了方便用鼠标拷贝,我用chrome开发工具技术性地删除了碍事的百度推广:
然后开始上图,搜索结果的前6页:
这是第1页,20121225_15点55分:
这是第2页,20121225_15点57分:
这是第3页,20121225_16点08分:
这是第4页,20121225_16点18分:
.......好了,图太多影响版面,暂时上到这里。现在开始说重点。
数据说明:我把所有网页按相关性授予了三种权值:如果网页说的是本书的内容,就是高度相关,赋值1分,因为内容详细;如果只是提到了书名,赋值0分,因为可以通过一些链接,间接性地找到高度相关内容;如果连书名也没出现或出现在用户根本看不到的犄角旮旯里这种情况,赋值-1,因为它浪费了用户的时间。
我把前6也一个一个地点了一遍,发现了许多问题:
(1)可用率分析
第1页相关度最高,也最相关,除此之外,那怕是第二页,也不怎么相关了。
首先,我分析了从首页到第6页所有页面的可用率,某个页面的信息如果全部可用就是1,如果全部不可用就是-1。如图:
很遗憾,大家看到的这个事实是,百度只做第1页,或者说他在技术上只保证第1页是非常OK的。第2页就开始有广告了,典型的是出现了“沈阳网(she.syd.com.cn)”,点进去看和本书内容完全、一点、任何关系都没有。
(2)查准率分析
查准率就是只一个页面准确性的问题,和上一个问题相似,这里我把-1折合成0,把得分0折合成50%,把得分1折合成100%,并统计了每个页面的查准率:
第一个页面准确性是95%,随后全部都低于30%了。OK,接着向下看。
(3)总出现次数
究竟哪个公司在这前6个页面中出现次数多呢,出现次数多也并不意味着贡献一定多,因为存在网页和搜索内容无关的情况(其实还很普遍)。
我们先来看,所有6个页面中公司出现的统计:
豆瓣9次、腾讯8次,全民阅读网5次、百度4次,竟然优酷土豆还出现了4次。
Well~Well,我看了下这4个视频,和本书毫无关系。
(4)前后次数对比
大家都知道总次数反应问题还是太粗糙,因为前3页才是网民最大多数浏览的页数!所以前3页和后3页的对比很重要,我把前后3页中出现次数最多的前5个公司及它们各自的贡献率统计了出来,大家看图。
这是前3次:
大佬们分别是豆瓣3次、百度3次、腾讯3次、雅虎2次和亚马逊1次。要说还是亚马逊效率高,出现1次这1次就非常相关,最闹心的是腾讯和雅虎,出现次数多,还都是负贡献(平均贡献低于0)。
这是后3次:
在贡献率不高的情况下,值得注意的一个情况是:相对而言,当当和京东对实际内容还是有贡献的,当当的图书排行榜推荐过这本书,但我点击页面的时候没有了所以给它赋过-1,其实分数应该高于此。从图上也可以看出,虽然当当和京东在后半程不逊于豆瓣,但它们根本没有进入到前3页,很可怜地排到第6页中去。
(5)正向/负向平均贡献度对比
0(含0)的是提到这本书,就是能够对用户有所帮助的页面,从而起到正向作用。而0以下的就是和内容毫无关系,不仅毫无关系,其中第5页的“网同纪念”竟然是个网上公墓。百度,你想的真周到,真是帅呆了!
请看图,正向平均贡献度:
这项指标说明,一个内容网站的价值和定位,遗憾的是谈到平均时,豆瓣就消失了,而百度还赫然上榜呢。不是豆瓣不好,豆瓣对本书有专门的页面和深度的讨论,只是没大量出现在百度搜索结果的里。看图就知道,特点是比较集中。
现在看下后项平均贡献度,就是很差的出现次数多、还耽误事的网站:
很明显,非常分散。
总结:
(1)当当和京东也是不小的网站,而且书籍的页面做的很完整,信息很丰富,为什么根本不能出现在前3页。百度,你怎么看?
(2)大家觉得奇怪么,为什么前6页负向的分散的小网站如此多,他们不提供有效内容,却占据了有效位置。百度,你怎么看?
(3)我是这么看的,百度的搜索结果反映了这个公司的社会网络关系,也就是公司层面的同盟关系。明着看,它是在是太照顾腾讯了,让腾讯在内容极为一般的情况下多多露脸,而且前6页中8次出现里面4次都是腾讯的拍拍,关键是这4个结果和本书没有直接关系。暗地里看,百度和豆瓣关系还是很暧昧的,虽然豆瓣是内容提供商,但从平均贡献分析中可以看出豆瓣对本书的平均贡献并不多,从9个豆瓣页面中找,还不如从爱思想网或猫友网看一篇来的直接呢。所以,我乱猜,百度战略上可以考虑也许已经考虑甚至正在执行对豆瓣的收购计划。
(4)对不属于百度联盟的公司,打压还是很严重的,看看当当和京东就知道了。淘宝就没买这本书的?肯定有啊,但淘宝不在前6页;怎么亚马逊就在第1页了呢,说明百度很大度吧,呵呵,当然不是,因为亚马逊在中国电商的市场份额是那么的小,小到不多的人在上面买,于是百度把亚马逊的内容搜过来、并不怕给亚马逊带来流量,因为这些流量的购买转化率是很低的,以至于不会影响到百度的版图,对百度没有影响百度就当次好人不封你罗。
最后一句话,本来是我很喜欢的:“技术无情、人有情”,不过这次是讽刺。附上原始数据:

(Game Over)