主题:【原创】关于西西河发帖和得花的一些统计与分析 -- Adol
5 西西河通胀问题之研究
上一节提到鲜花的贬值问题,也就是,前期注册用户的声望是不是和后期注册用户的声望等价?早期的很好的文章可能也就是十来多几十朵花,后期发表的文章则动辄上百朵几百朵,连前些年很少见到的上千朵花的帖子现在也都出现了。这是否意味着近些年的文章就比前些年好呢,显然不是。我想随着人数的增多,河里鲜花的“贬值”应该是个不争的事实。就这个问题,我试图根据数据,来讨论一下西西河鲜花贬值的情况。
上面用词可能是不准确的,因为鲜花并不是货币,鲜花本身作为一个用户对文章作者的赞赏是没什么太多变化的,变化的是鲜花作为衡量帖子受欢迎程度的功能。这个功能的“贬值”,可能有河友数量的增加,河友对文章水平的要求严格程度的变化,河里通宝等政策变化等影响。究竟哪种影响是主导因素,我也做了一些简单的分析。
需要说明的是,以下的这些分析都基于一个可能不太正确的假设,即每个帖子(无论是主题帖还是回复帖),所得到的大部分花,都是在发表后的较短时间内得到的,(比如3个月)。针对绝大多数帖子,这个假设我还是有信心的,因为帖子的生命力,我们这些老网虫心里都有数。但是对于非常经典的帖子,可能会产生失真。另外西西河不像绝大多数论坛禁止挖坟,而是鼓励翻经典老帖的,甚至不知什么时候还推出了深挖河泥的小栏目(汗),给我的分析带来了更大的不确定性。
不管怎么说,先来看一下944名核心用户随西河历时间的得花情况:
其中横轴是时间,以月份为单位,但坐标标示的是年份,纵轴是944名用户在对应月份得花的数量。从上图来看,8年期间,月得花数毫无疑问是上涨的,特别是近一年月发帖量有所下降(见第2节)的情况下,得花数仍然攀上了新高。得花数上涨的原因是什么?
从直观上讲,帖子变多,自然得花的基数也会变大;用户越多,不仅发帖的人变多,看帖的人也会变多,给每个帖送花的人也会变多;此外,如果用户送花的意愿变得更强,改变了送花/阅读比,花也会变多。从下面的分析中,我认为,这三个方面基本是河里得花数随时间上涨的原因。
考虑到月发帖量在2010年7月以前和注册用户人数为线性关系,(见上一节图2),有:
所以,我调查了从开河到2010年7月,月得花数和注册用户人数平方的关系:
其中横坐标是当月的已注册人数的平方,纵轴是当月的得花数。可以看到,在2010年7月前,月得花数和注册人数的平方是线性关系 (p<2.0e-62,t-test)。也说明了从开河至2010年7月,送花/阅读比所代表的用户平均送花意愿基本保持了不变。
上面简单分析了得花数增长的原因,但得花数的增长并不一定意味着花的贬值。如果我可怜的经济学常识没有错误的话,有实体商品和产品所对应的货币增发不是通胀,所以文章数量的增加对得花数量增加的影响是完全正常的。因此花作为衡量文章水平的单位,随时间变化的贬值情况,和文章数量导致的得花增长是无关的。在这种想法的基础上,我调查了每个月的文章平均得花数随西河历时间的变化情况:
其中,横轴还是时间,以月份为单位,但坐标以年份来标记,纵轴是当月平均每篇文章的得花数量。蓝线是944名核心用户的平均月得花数和时间的关系,红线是我选取的27名参考用户的平均月得花数和时间的关系,后面详述。直线分别是蓝线和红线在2010年8月以前的回归线。
由图可见,从开河到2010年8月以前,每个月的文章平均得花的增长是线性的,(p<3.75e-51,t-test),斜率约为0.5,这意味着,从开河到2010年8月,得花的含金量和时间成反比,04年5月的帖子的3朵花,只相当于03年五月的帖子的2朵花,到10年5月,9朵花只相当于开河时的2朵花了。
考虑到河里水质的变化和核心用户的不断增加,我还选取了一些长期稳定发帖的河友,作为“文章水平恒定”的标准来对上面的结论加以验证。
为了确保“长期”,我引入了“活跃时期”的概念。很多老河友可能早已离开,或者个把月才能偶尔冒个泡;还有后期注册的一些活跃河友,比如忙总,因为跨越的时间较短,无法反映河里的许多政策和事件的影响;所以均不采用。我定义“活跃时期”为从第一次发表主题帖到最后一次发表主题帖的时间。以此筛选了活跃时间跨度在4年以上的河友,作为能够代表西西河鲜花贬值长期趋势的参照系。
此外,这些河友还需要较多、较稳定地发帖,以减少不同月份之间,因热点话题差异带来的误差。所谓较多,就是活跃期内,月发帖量均值超过100帖,所谓较稳定,就是在活跃期内,月发帖量标准差小于均值。这样的河友,我一共找到了27人,他们是:
注:第一、四列是id,第二、五列是月发帖均值,第三、六列是月发帖标准差。
从图中可以看到,这些河友的每月文章平均得花的趋势和944名核心用户基本一致,还是大概在314事件以后,曲线开始偏离平均水平上翘。受此影响,开河至2010年8月,斜率大约是0.6 (p<6.71e-31, t-test)。这种现象有两种可能的原因,其一是314以后的新增用户,文章平均水平有所下降,这又包括两种小情况,一种是原创文质量下降,另一种是无营养回复变多;其二是314以后的新增用户,有更多的“大牛崇拜”倾向,倾向给以这27名河友为代表的大小河牛们多送花。但可以确定的是,这期间文章平均得花的增长,主要是由用户人数的增加导致的。
在第4节中我们提到过,2010年7月以后,由于40000积分门槛的因素,注册人数的估计产生了失真,几乎没怎么增加;而无论是944名核心用户的平均得花情况,还是27名参考河友的平均得花情况,在2010年7月以后月发帖量减少的大背景下,都发生了跳升并一直延续到现在,这是很不正常的现象,说明其他因素产生了主导作用。
为此,我到老铁的家园博客查阅了2010年8月左右的公告,果然发现,河里的经验换通宝改革,正是在2010年8月实行的:铁手:【通报】不再记录经验,全以通宝为衡量。 。老铁在这个公告里提到:“不再使用经验值……其中一个原因是减小一些系统的负担……总的目的,是尽可能鼓励发好帖,尽可能鼓励多送花……”。
说实话,这项改革出台的时候,我是没怎么在意的,至少它并没有改变我的送花习惯。甚至直到做完了这项分析的现在,我仍然想不明白这项改革怎么就如此超额地完成了“鼓励多送花”的任务,因为在我印象里反而是有好多人哭穷说没有通宝送不起花了。但是事实就是这样,老铁的政策调整在鼓励多送花方面,起到了太好甚至过头的效果。以至于从此项政策颁布之日起,作为文章受欢迎程度的一个衡量,鲜花立即又贬值了近一倍,仅相当于开河时的不到八分之一。
或许因为政策实行时间尚短,改革后12个月的鲜花贬值趋势虽然也可以计算一个斜率 (~0.4),但是并不显著 (p>0.27,t-test)。关于27名参考河友在上个月(2011年7月)的平均得花突然跳至15左右,我分析主要原因是老铁喜得小铁的那篇帖子带动的,该列表中的其他河友可能在上个月发言较少。
综上,我们可以基本确定,2010年7月以前鲜花贬值的主要原因是用户人数的增加;2010年8月以后的鲜花贬值,主要受到通宝改革所导致的河友送花意愿显著增加的影响。
本帖一共被 3 帖 引用 (帖内工具实现)
- 相关回复 上下关系8
😁窃明那一架很有意思的 3 海天 字395 2011-09-27 16:54:17
🙂窃明的旗,或者说是要砍的旗,还不是我们常说的左右之争 2 AleaJactaEst 字367 2011-09-30 07:12:13
🙂我现在都不知道这个大争论。。。 1 晨池 字107 2011-09-14 07:29:36
🙂【原创】(四)西西河通胀问题之研究
🙂因为现在送花成了期望为正的老虎机 4 月回春 字173 2011-09-16 03:35:31
🙂佩服、佩服! 1 朴石 字91 2011-09-14 08:05:28
🙂呵呵,过奖了,最开始确实有心想学论文的写法 Adol 字48 2011-09-14 15:52:29
🙂这个分析真牛啊,佩服佩服 东海后学 字0 2011-09-14 03:22:22