五千年(敝帚自珍)

主题:【原创】关于西西河发帖和得花的一些统计与分析 -- Adol

共:💬117 🌺1730
全看树展主题 · 分页首页 上页
/ 8
下页 末页
家园 和一篇----从Alexa的分析数据解读

由于没有Adol的技术手段,也懒得用笨办法手动去查,借用一下Alexa的分析数据吧。

Alexa对cchere, ccthere, talkcc三个站点的来访地域分析如下:

ccthere cchere talkcc

中国 49.2% 53.1% 97.3%

美国 34.1% 23.4%

加拿大 14.2% 15.8%

其它 2.4% 7.7%(澳洲占4.6%) 2.7%

通过ccthere和cchere入河的,国内和国外基本持平;而通过talkcc的,则绝大多数是国内河友。究其原因,是ccthere和cchere在国内经常处于被墙状态,而talkcc基本上一直是畅通无阻的。在此,向“墙”们说一声---“I服了U”。

另外,国外河友中,北美大陆又占绝对优势,其余各分舵目前来说属于少数派。

但究竟是国内的多还是国外的多呢?查了一下这三个站点的流量排名(Traffic Rank)情况:

ccthere cchere talkcc

中国排名: 19,233 19,309 10,503

全球排名: 72,384 161,862 66,648

无论是全球还是中国排名,talkcc都远在西西河和西西寨之上,这反映国内用户已经占到了大多数。

因为Alexa上查不到绝对访问人数,只给出网站占全球网络访问量的百分比。姑且认为,最近半年内,全球网络用户没有大的变化,以此进行衡量,得到的统计图如下所示:

点看全图
外链图片需谨慎,可能会被源头改

应该说,最近半年来,ccthere和talkcc的变化不大,略有下降;而cchere本来一直没啥人气,但在7月底的时候,出现了一个跃升,并逐渐和前两位有并驾齐驱之势,难道是因为老铁正式把西西寨和西西河分了家的缘故?

六个月以外,不能保证这个百分比能真正体现访问人数,但可以作为一个参考。下图为Alexa给出的24个月的统计图

点看全图
外链图片需谨慎,可能会被源头改

ccthere(西西寨)在2010年2~3月开始(这时发生了什么?),用户量开始出现严重滑坡,最低点出现在当年的8~9月(即西河历88、89月),西西河被墙达到了顶峰。与此相对应的是,在被墙之后,国内用户开始通过talkcc入河,并逐渐超过ccthere。

总体说来,Adol的分析结果非常准确,即1)国内用户已经占大多数;2)“墙”的危害很大。

====

差点忘了here4news,其全球排名为93,646,中国排名为8,925,用户基本100%来自国内,访问趋势与talkcc基本一致。

点看全图

外链图片需谨慎,可能会被源头改

家园 花!下了功夫
家园 关于草

收集数据是自己写了程序,分析和统计肯定也不是自己数数了,我主要是用一种统计语言R完成的,R类似于Matlab,但是开源和免费的一种语言,功能上或许打些折扣,但是对我来说已经足够用了。

关于得草数,本来我是打算分析得草和得花的相关性,或者得草和得花和声望的相关性,但是草有很多局限性,首先,出现时间较晚,其次,政策有所反复,即一开始有草,后来又没有,后来又有,第三,草的内涵有较大变化,开始好像和举报几乎等价,而现在则变成了一般性的反对意见,与此相比,送花的态度从开河以来就是赞赏、褒扬,(虽然花在衡量一个帖子的“受欢迎程度”也随时间有所贬值,后面几节会分析),第四,和花相比,草的数量还是很少的,综合这些考虑,通过草的统计所得出的结论的准确性可能不如花。

而且对于我所分析的40000积分以上的用户,其实草多的人还是极少数,而且名字也都是河友们耳熟能详的了,再接下来一部分收草比较多的,据我观察并不是文章或者观点一定有什么错误,而是所关心话题的争议性比较大、或者讨论态度比较差。

这是我对草的一些观察。

家园 夏令时确实没有考虑

夏令时确实是没有考虑的,当时偷懒了,而且北美每年夏令时的开始日期都不太一样。。。

关于时间的换算,我是使用perl的函数完成的,首先把本地时间换算为纪元秒——距离公元元年1月1日0点0分0秒的一个整数,然后把2003年5月1日0点0分0秒换算,两者相减,得到的差再除以3600,得到了西河历时间小时数。

从结果上来说,我觉得效果还是可以的,我也考虑过使用每日发帖最少的两个小时的帖子数量来代表河友的地域分布,借以消除夏令时的影响。但是结果仿佛还是最少的一个小时比较好,因此就这么放着了,毕竟夏令时凌晨4-5点发帖的人很少的话,冬令时的3-4点也多不到哪儿去,(这是我想当然,没有做验证)。

家园 非常感谢您的补充

访问量也是很重要的数据,毕竟我的回帖数字统计只是基于944名注册用户的,而访问量则是全站的,而且我也没有考虑cchere和talkcc的变动,因为家园博客-所有帖那里的列表,无论是现属cchere还是ccthere,链接一律是ccthere,好像点进去之后才会重定向。

家园 【原创】(三)对西西河吸引力的估计

Adol:(二)“墙”对西西河的影响

4 对西西河吸引力的估计

那么接下来,我们想看一看,100个月以来,这944个核心用户是什么时候注册的,西西河经历的各种事件和网站政策的调整,在吸引新的优秀网友加入方面,情况是怎么样的。

点看全图

外链图片需谨慎,可能会被源头改

上图横坐标是时间,以月份为单位,纵坐标是944名核心用户中,当月的新增用户人数。从这个图看起来,仍然是314事件使最多的核心用户注册了进来,包括我,虽然不是这里的一员,也是08年4月初注册的。但是总体看来,核心用户的注册,并没有一个特定的增长或者下降的趋势,最近的一年左右似有下降的趋势,但是这可能是因为许多近期注册的用户还没有达到40000积分的门槛所致。

注册用户的增加对于月发帖量的贡献,则是显而易见的:

点看全图

外链图片需谨慎,可能会被源头改

这是月发帖量和注册人数的关系,共有100个月,横坐标是944名用户中在当月的已注册人数,纵坐标是当月的发帖数。可以看到,月发帖量和注册人数之间,呈现非常明显的线性关系,至少在2010年7月以前是这样 (p<1.72e-51, t-test)。回归线的斜率是36.4,表明每增加一名核心用户,西西河的月发帖量约增加36.4帖。考虑到老河友的淡出,这个数字可能还要高一些。

这张图中有两个值得注意的时间点。一个当然还是314事件,另一个是去年被墙的7月。我们看到314事件以后论坛重心的转移,除了少数几个点,并没有使每个用户每个月发帖的数量更多,从侧面支持了之前关于论坛发帖量受到“热点(事件、好贴)驱动”影响的假设。此外,从08年3月到10年7月期间,点与回归线的距离较之前更远,反映了这期间月发帖数量变得更不稳定了。至于10年7月以后,同样可能是因为40000积分的门槛因素,注册用户的增量变得很少,而月发帖数量则有所下滑,所以这张图的尾部也是失真的,这种直线下降的趋势并不符合近一年我们的经验观察。

为了进一步调查这些注册用户受到河友认同的情况,我们得到了:

点看全图

外链图片需谨慎,可能会被源头改

这是944名河友的声望和注册时间的关系图,横坐标是注册时间,坐标单位是年份,纵坐标是声望。可以看到,10万声望俱乐部,也就是声望的top 5,第一当然是萨苏,然后是忙总,井底望天,葡萄和晨枫。这样的大牛河友是可遇不可求的,没什么统计的价值,所以又放大了左图中声望在10000以下的中小牛的情况:

点看全图

外链图片需谨慎,可能会被源头改

——仍然是没什么特定的趋势。这一方面反映了西西河在314事件后月发帖量显著上涨的同时,核心用户并没有随之显著上涨——这意味着水质的下降,另一方面反映了在水质有所下降的情况下,西西河仍然有吸引力使许多优秀网友注册进来,西西河仍然很有活力。

当然,和前面一样,40000积分的门槛仍然可能导致这个图末尾的失真。而这个图尾部的情况,反而是我们很关心的问题,即,从去年7-8月被墙,经过蜀生、媚如春两次事件,还有其他因素的冲击,西西河的吸引力是否有所下降?因为门槛的限制,我们没法对这个问题做出准确的回答,但是从前面同期注册者声望“高低有致”来看,近一年以来注册的优秀用户里面较上层的应该有暂露头角的了,可是从图中,我们没有看到。事实上,从去年被墙恢复(2010年9月)到现在,这段期间注册的用户中超过40000积分的只有7人,最近半年更是一个也没有,再加上后面要提到的近一年来鲜花的贬值因素,我的推测是,情况不容乐观。

Adol:【原创】(四)西西河通胀问题之研究

通宝推:妖猫drake,人在旅途,抱朴仙人,舞动人生,领班军机,

本帖一共被 3 帖 引用 (帖内工具实现)
家园 如果能把帖子对应的版面也统计一下就好了

我一直认为大部分人可能和自己一样并不是十分关注政治,但从你的统计分析上看,我可能错了。

家园 这个也曾经是我比较想做的

但是家园博客的主题帖列表那里有版块的名称,而所有帖列表那里是没有的,所以我收集的数据里,没有这方面的数据。因此在帖子所属板块方面,我的数据还是很不完整的。或许铁大自己可以做更多的分析吧。

家园 用存量积分来衡量优秀用户恐怕不是很直接

能不能做一个对时间一阶倒的数值差分,用声望或者积分的增长速度来衡量优秀用户可能正准确一些,毕竟在半年时间里就算是一些很优秀的河友也很难增长到40k的积分。

所以我觉得存量积分不是一个水平的体现,而积分增速才反映河友的水平,当然这个需要历史数据才能实现

家园 有一个因素也是要考虑的吧

不仅仅是社会因素,网站本身也很重要。我在零四年就开始上西西河,但是一直没注册……直到零七年的时候,很多版面不注册就进不去,才注册了一个号。西西河这地方,发帖尤其是主题贴压力很大,所以如果能看我就没心思去注册。

后来铁总又改了,要有什么什么东西才能看很多版面,于是我才开始发帖。

像我这样铁总不发飙就不注册不发帖的,应该也不少吧

早知道就早点注册了~~~

家园 cchere那个跃升,也和墙有关

而cchere本来一直没啥人气,但在7月底的时候,出现了一个跃升,

七月底八月初的时候,西西河被墙,但是cchere.com还可以访问。而且可以通过一定手段,从cchere.com访问所有的贴,知道办法的就都通过cchere.com访问了,因此突然跃升起来。

家园 LZ的统计好有爱~能否给小白介绍下所用的软件等?

先谢谢拉

家园 使用积分来作为门槛

是因为有现成的英雄榜-历次跳水者这个现成的列表。积分确实不能代表一切,声望好一些,但是如您所说,增长速度可能是更好的办法。但这个增速也会受到一些其他因素影响。比如,——我手里没有积分或者声望的历史数据,但是有花的数据,下一节也会简单分析一下。或许我们也可以通过累加获得时间-得花总数的一个经验函数。

但是其一,受到一些因素的影响,得花率本身和时间也是有关系的,下一节会提到;其二,某个河友和总体不一样,发帖并不是稳定的,向忙总那样高产,短时间大量发帖的河友非常少,能够长期稳定每个月发帖的河友也非常少,(同样会在下一节提到),这就导致有的月份声望增长很多,有的月份增长很少。所以具体某个人的得花-时间函数恐怕是很复杂难以用解析方法描述的函数,数值差分,很惭愧,分析知识已经基本上还给老师了,大致上印象好像是和微分差不多,离散的,不知道我的理解对不对,——在这样复杂的函数上的应用可能是比较困难的,数值方法,可能也因为分布的不均匀会遇到困难,毕竟大部分人要攒一篇好帖子,还是蛮困难的,什么时候攒出来,也基本是随机的。

从图中来看,超过40000积分的用户,声望在2000左右和以上的,还是比较多,特别是较高积分的河友,一般声望都不低。因此相比于存量积分,下两节我打算使用平均得花等一些简单的统计特征来侧面反映一些事情。

家园 是的,网站的政策也是很有影响的

接下来一节会提到。

家园 perl和R

数据的预处理,抓取文本的分析,主要是perl

统计相关的部分,是R

全看树展主题 · 分页首页 上页
/ 8
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河