主题:【原创】关于西西河发帖和得花的一些统计与分析 -- Adol
0 缘起
想写这篇文章已经有一段时间了,起因是我发现有一些河友帖子不多,但是大都是原创,得花也都不少,于是突发奇想——如果我们按平均主题得花数,或者平均帖子得花数排名,是不是可以得到一种一般性的印象——谁的发帖质量最高?
当然,事实上,简单平均并不能达到这样的目的,这点后面再说。并且这样的平均得花只是反映了河友把西西河作为观点发表场所的一个侧面,而西西河同时还有社交、交流和学习、放松等许多其他方面,这些方面并不一定是产生得花的结果,却仍然十分有益。因此,我无意把这种统计、也包括后面的许多种统计,作为评价河友的标准,只是作为一种乐趣挖掘出来。
并且,在挖掘的过程中,我通过我所收集的几项非内容性质的数据,还能够挖掘出许多其他的信息,这样简单却大量的数据,究竟能够得出什么结论?是否与我们经验上的观察相符?能对我们有什么启示?这就是本文的主要内容和缘起。
本文尽量试图让数据来说话,而不是我的主观观点,但是,这些结论,大概仍不免带有我个人的色彩。尽管我写了程序来收集这些数据,并可能使用一些简单的统计方法和算法来进行统计和分析,其实我无论在编程、统计、还是算法上,都是浅尝辄止,特别是统计方法方面,请有专业知识的河友不吝于指教,纠正我的错误之处。
1 数据
本文所使用的数据均为可以公开访问的数据,包括2011年8月初之前,在西西河积分超过40000分(即英雄榜-历来跳水者),共944名河友们的:
ID,积分,声望,乐善和注册时间。
还有他们家园博客-所有帖中,所有帖子的:
(1) 编号,
(2) 所回复主题的编号,
(3) 得花数量,
(4) 发帖时间,
(5) 发帖人(即该河友本人)
本来还收集了得草数,但由于草存在的时间还较短,所以没有进行分析。由于程序和网络状态的缘故,可能在收集时会有所遗漏,但从大规模统计的角度来说,影响基本可以忽略不计。
这些河友共发表了1865251个帖子,截止到当时最大的帖子编号3525974,我们可以认为在西西河全部350多万帖子中,有180多万是这944名河友发表的,平均每人发表帖子2000篇左右,占帖子总数的52.9%。这些河友共参与了113605个主题,其中由他们发表的,有66122个,占这些主题的58.2%。他们总共得花5758729朵,共送花3968324朵,虽然他们得到的花有其他用户送的,他们送出的花也有送给其他用户的,但是由于这些核心用户是原创作者的主体,送花里面应该还是有相当一部分送给他们自身的。在此基础上,我认为这些河友可以称得上是西西河的核心用户群,并基本能够代表西西河整体的情况,后面对于西西河整体情况的推断,都是在这个假设的基础上做出的。
在涉及到时间的问题上,为了计算的简便,本文中每年按365.25天计算,每季度按91.31天计算,每月按30.44天计算,每天24小时。美国西部时间2003年5月1日0点0分0秒作为西河历时间计算原点,我把实际时间都转变为了“相对西河历原点x小时”的一个整数x,没有考虑夏令时。
2 西西河八年发展一瞥
西西河是2003年5月3日开始试运行的,至现在,恰好是第100个月。在这100个月里,西西河是怎样发展的?最简单的一个方面就是——变热闹了。
这就是核心用户们在这100个月中的发帖情况,横坐标表示时间,以月份为单位,纵坐标表示对应的每月帖子数量。这里面能挖掘出不少的信息。
我们可以看到,在前18个月中,西西河的月发帖增长是比较缓慢的。
接下来,西西河进入了一个线性的月发帖量增长期,直到第59个月,和接下来的第60个月,西西河的月发帖量突然发生了显著的增长,不仅在第60个月达到了37598的历史发帖高点,而且在接下来相当长的一段时间(26个月)内,多次突破30000的发帖量,线性增长仍然存在,但变得不太明显。
那么这个月究竟发生了什么?事实上,西河历59-60月,是2008年3-4月,因此,我的推测是,314事件和接下来的火炬事件,在推动西西河用户群的增长方面,起到了显著的推动作用,这点在后面当月注册用户的图中,也得到了进一步的验证;但从另一个角度来说,也正是从那时起,西西河的观点时事板块,角色开始明显吃重,作为国际政经形势激化的传导器,影响和侵蚀了整个西西河的讨论氛围,直到现在,其他板块的去政治化仍然任重道远。
再接下来,这些核心用户的月发帖量进入了一个衰退期,到上个月为止已经减少到了314事件之前的水平。这是944名跳水河友的月发帖量,并不意味着西西河的总月发帖量下降了,那些增加发帖的用户,或许只是新注册的,积分尚未达到40000分。但是毫无疑问,老河友的发帖在减少,我想,这也是今年以来稍加留心便能够感受到的,与我们的直观感受相符。这背后的原因是什么?能否更详细地分析这次衰退的情况呢,后面我们再进行进一步的分析。先把目光放到诸位大概早已注意到的几处极小点上面。
先说结论吧,大致上,我的结论和各位心里想的差不多,这几个很明显的低点是国内的墙所导致的,分别在2008年7月和2010年7-8月,去年这次有仙人的帖子抱朴仙人:红绡帐里,公子多情为证,08年我已经不记得是不是被墙了,麻烦记忆力好的河友证实或证伪一下。此外,另有两次不太明显的低点分别在第30个月(2005年10月)和第40个月(2006年8月),更是我出生之前了,因此仅为推测。不过可以看出,那时国内河友还不多,因此被墙影响也较小。
论坛人气易散不易聚。因此我认为,这一年来的衰退,和被墙不无关系。08年被墙后,大概是被奥运会、75等一系列事件驱动着,虽然一开始也有下滑,但还是慢慢恢复到了较高水平。而去年被墙之后,10年9-10月和11年3-4月的两次反弹的终止和回落,推测可能受到了去年10月末和今年4月末的蜀生事件、媚如春事件的一定影响。以前看到有人说论坛一怕中断二怕吵架,是有道理的。
本帖一共被 3 帖 引用 (帖内工具实现)
- 相关回复 上下关系8
🙂【原创】关于西西河发帖和得花的一些统计与分析
🙂确实被墙 2 chartis 字56 2011-09-22 23:37:10
🙂这分析太牛了! 8 老老狐狸 字254 2011-09-20 10:31:11
🙂嗯,这个有道理 4 Adol 字243 2011-09-20 10:52:10
🙂第一种,河里不少,不断有新的精彩加入,非常有收获 7 老老狐狸 字371 2011-09-20 11:01:49
🙂从我自己的数据里,这个还没法做到 5 Adol 字389 2011-09-20 18:05:38
🙂很专业的技术分析,花之 d0lucyduck 字57 2011-09-20 05:54:00
🙂用的是R 2 Adol 字129 2011-09-20 10:05:19