五千年(敝帚自珍)

主题:【原创】关于西西河发帖和得花的一些统计与分析 -- Adol

共:💬117 🌺1730
全看树展主题 · 分页首页 上页
/ 8
下页 末页
家园 【原创】关于西西河发帖和得花的一些统计与分析

0 缘起

想写这篇文章已经有一段时间了,起因是我发现有一些河友帖子不多,但是大都是原创,得花也都不少,于是突发奇想——如果我们按平均主题得花数,或者平均帖子得花数排名,是不是可以得到一种一般性的印象——谁的发帖质量最高?

当然,事实上,简单平均并不能达到这样的目的,这点后面再说。并且这样的平均得花只是反映了河友把西西河作为观点发表场所的一个侧面,而西西河同时还有社交、交流和学习、放松等许多其他方面,这些方面并不一定是产生得花的结果,却仍然十分有益。因此,我无意把这种统计、也包括后面的许多种统计,作为评价河友的标准,只是作为一种乐趣挖掘出来。

并且,在挖掘的过程中,我通过我所收集的几项非内容性质的数据,还能够挖掘出许多其他的信息,这样简单却大量的数据,究竟能够得出什么结论?是否与我们经验上的观察相符?能对我们有什么启示?这就是本文的主要内容和缘起。

本文尽量试图让数据来说话,而不是我的主观观点,但是,这些结论,大概仍不免带有我个人的色彩。尽管我写了程序来收集这些数据,并可能使用一些简单的统计方法和算法来进行统计和分析,其实我无论在编程、统计、还是算法上,都是浅尝辄止,特别是统计方法方面,请有专业知识的河友不吝于指教,纠正我的错误之处

1 数据

本文所使用的数据均为可以公开访问的数据,包括2011年8月初之前,在西西河积分超过40000分(即英雄榜-历来跳水者),共944名河友们的:

ID,积分,声望,乐善和注册时间。

还有他们家园博客-所有帖中,所有帖子的:

(1) 编号,

(2) 所回复主题的编号,

(3) 得花数量,

(4) 发帖时间,

(5) 发帖人(即该河友本人)

本来还收集了得草数,但由于草存在的时间还较短,所以没有进行分析。由于程序和网络状态的缘故,可能在收集时会有所遗漏,但从大规模统计的角度来说,影响基本可以忽略不计。

这些河友共发表了1865251个帖子,截止到当时最大的帖子编号3525974,我们可以认为在西西河全部350多万帖子中,有180多万是这944名河友发表的,平均每人发表帖子2000篇左右,占帖子总数的52.9%。这些河友共参与了113605个主题,其中由他们发表的,有66122个,占这些主题的58.2%。他们总共得花5758729朵,共送花3968324朵,虽然他们得到的花有其他用户送的,他们送出的花也有送给其他用户的,但是由于这些核心用户是原创作者的主体,送花里面应该还是有相当一部分送给他们自身的。在此基础上,我认为这些河友可以称得上是西西河的核心用户群,并基本能够代表西西河整体的情况,后面对于西西河整体情况的推断,都是在这个假设的基础上做出的。

在涉及到时间的问题上,为了计算的简便,本文中每年按365.25天计算,每季度按91.31天计算,每月按30.44天计算,每天24小时。美国西部时间2003年5月1日0点0分0秒作为西河历时间计算原点,我把实际时间都转变为了“相对西河历原点x小时”的一个整数x,没有考虑夏令时。

2 西西河八年发展一瞥

西西河是2003年5月3日开始试运行的,至现在,恰好是第100个月。在这100个月里,西西河是怎样发展的?最简单的一个方面就是——变热闹了。

点看全图

外链图片需谨慎,可能会被源头改

这就是核心用户们在这100个月中的发帖情况,横坐标表示时间,以月份为单位,纵坐标表示对应的每月帖子数量。这里面能挖掘出不少的信息。

我们可以看到,在前18个月中,西西河的月发帖增长是比较缓慢的。

接下来,西西河进入了一个线性的月发帖量增长期,直到第59个月,和接下来的第60个月,西西河的月发帖量突然发生了显著的增长,不仅在第60个月达到了37598的历史发帖高点,而且在接下来相当长的一段时间(26个月)内,多次突破30000的发帖量,线性增长仍然存在,但变得不太明显。

那么这个月究竟发生了什么?事实上,西河历59-60月,是2008年3-4月,因此,我的推测是,314事件和接下来的火炬事件,在推动西西河用户群的增长方面,起到了显著的推动作用,这点在后面当月注册用户的图中,也得到了进一步的验证;但从另一个角度来说,也正是从那时起,西西河的观点时事板块,角色开始明显吃重,作为国际政经形势激化的传导器,影响和侵蚀了整个西西河的讨论氛围,直到现在,其他板块的去政治化仍然任重道远。

再接下来,这些核心用户的月发帖量进入了一个衰退期,到上个月为止已经减少到了314事件之前的水平。这是944名跳水河友的月发帖量,并不意味着西西河的总月发帖量下降了,那些增加发帖的用户,或许只是新注册的,积分尚未达到40000分。但是毫无疑问,老河友的发帖在减少,我想,这也是今年以来稍加留心便能够感受到的,与我们的直观感受相符。这背后的原因是什么?能否更详细地分析这次衰退的情况呢,后面我们再进行进一步的分析。先把目光放到诸位大概早已注意到的几处极小点上面。

先说结论吧,大致上,我的结论和各位心里想的差不多,这几个很明显的低点是国内的墙所导致的,分别在2008年7月和2010年7-8月,去年这次有仙人的帖子抱朴仙人:红绡帐里,公子多情为证,08年我已经不记得是不是被墙了,麻烦记忆力好的河友证实或证伪一下。此外,另有两次不太明显的低点分别在第30个月(2005年10月)和第40个月(2006年8月),更是我出生之前了,因此仅为推测。不过可以看出,那时国内河友还不多,因此被墙影响也较小。

论坛人气易散不易聚。因此我认为,这一年来的衰退,和被墙不无关系。08年被墙后,大概是被奥运会、75等一系列事件驱动着,虽然一开始也有下滑,但还是慢慢恢复到了较高水平。而去年被墙之后,10年9-10月和11年3-4月的两次反弹的终止和回落,推测可能受到了去年10月末和今年4月末的蜀生事件、媚如春事件的一定影响。以前看到有人说论坛一怕中断二怕吵架,是有道理的。

Adol:【原创】(二)“墙”对西西河的影响

Adol:【原创】(三)对西西河吸引力的估计

Adol:【原创】(四)西西河通胀问题之研究

Adol:【原创】(五)西西河之最

Adol:【原创】(六)好友识别、圈子划分与马甲辨认

Adol:【原创】(七)西西河的支流,并小结(完)

Adol:一点题外话

关键词(Tags): #数据挖掘(随机微分算子)#文本挖掘(随机微分算子)#西河考古(朴石)通宝推:箪食瓢饮到中年,西伊,一介书生,老惰,十大功劳,紫色月亮,妖猫drake,红松塔,铁手,真理,landy,wjcgx,潮起潮落,芷蘅,廖石,赫然,Sheldon,今昔,庄汀,混天球,人在旅途,山远空寒,大黑蚊子,抱朴仙人,爱自由,李根,上古神兵,坚决要潜下去,方恨少,jxl,路人癸,AleaJactaEst,mezhan,类反词典,晨池,史文恭,舞动人生,常识主义者,嘉英,

本帖一共被 3 帖 引用 (帖内工具实现)
家园 很好的数据挖掘。

LZ下了不少功夫收集、整理、分析数据,赞!

有些数据怎么得到的?比如得草数,是原来能看到、现在看不到了?每次看到“借贷申请”的时候,就想知道申请人的得草数,被投草多的,大家都不借,自然就把他排除在外了,同时也抬高了故意捣乱的门槛。

家园 老天,真是有心人做的繁复浩大的工程哇,花敬哈
家园 有心人,花一个。不过关于数据有个问题

他们总共得花5758729朵,共送花3968324朵

这是你通过乐善和声望得出的么?如果是的话,那么可能漏了短帖花和收草导致扣声望这两种情况。实际送花/得花数估计会高于你的统计。

几次河牛出走事件确实对西西河影响很大,对于是你的统计样本——超4万分的核心河友影响更明显,因为出走的人就在他们之中

家园 送花成功。有效送花赞扬。感谢:作者获得通宝一枚。
家园 草数好像还是可以看到

我是在家园的所有帖那里收集的,里面能看到花数和草数。

家园 送花是通过乐善

短帖可能确实会漏掉了。

得花则是所有帖子得花的累加,不是声望。我发现声望虽然和得花相去不远,但总还是有一些数量上的差异,一般来说,这种差异在声望比较高的河友中并不足以改变排位的顺序。

家园 【原创】(二)“墙”对西西河的影响

(一)西西河八年发展一瞥

3 “墙”对西西河的影响

“墙”在论坛的发展中究竟产生了多大的影响,为了进一步调查这个问题,有必要把墙内外的月发帖量进行区分。

很显然,要想知道一个人什么时候发帖,挺难,但是一个人什么时候不发帖,则相对容易——睡觉的时候不发帖。所以通过特定时间段的发帖量统计,可以在一定程度上区分帖子的来源地区。而东亚地区的发帖主力,当然是国内的河友们,我试图基于这个结论来间接观察墙的影响,于是统计了这次收集到的所有帖子,其发帖时间在每天中的时间段分布:

点看全图

外链图片需谨慎,可能会被源头改

上图横坐标是西部时间的24个小时,纵坐标表示发帖数量,从图中两个明显的周期可以看出来,西西河的主要用户群,基本由在西部时间4-5点左右进入发帖低点的北美河友,和西部时间15-16点左右进入发帖低点的国内河友组成,所以我采用4-5点的发帖量代表国内河友的发帖量,15-16点的发帖量代表国外河友的发帖量,随着西河历时间,得到了这样的结果:

点看全图

外链图片需谨慎,可能会被源头改

其中横轴是是时间,以月份为单位,但是坐标上标记的是年份,纵轴是发帖数量。蓝线表示每个月在西部时间15-16点的发帖数量,借以代表海外河友的发帖量;红线表示每个月在西部时间4-5点的发帖数量,借以代表国内河友的发帖量。这个图也包含了许多有价值的信息,

首先,证实了我们关于314事件和火炬事件显著增加了西西河用户群的推测,从那时起,不仅观点时事版面的帖子开始明显吃重,从这张图里我们还可以发现,也正是从那时起,国内河友开始超过了海外河友,成为了西西河发帖的主力,并且还在持续增加。所以我们可以推断,国内的河友实际上是讨论政治的主力,甚至,许多国内的河友下河的目的大概就是时事帖子,这个符合我们直观感受的结论也是显而易见的。

其次,我们看到了08年7月被墙,国内河友的发帖量有一个显著的低谷,而国外河友则程度较浅,进一步证实了通过发帖时间段的筛选能够代表发帖河友的地域分布,也就是本图的有效性。

第三,我们看到在绝大多数月份,国内外河友发帖量的变化是相关的,这固然可能是既非北美又非国内的其他时区河友的发帖所致。但是我有一个自认为更合理的猜想,即西西河每月的发帖量,实际上是“热点”驱动的,也就是说,某个月有更多的精彩帖子、突发事件、或者热点话题,那么这个月的发帖量就多,国内外都多;如果某个月没什么热点话题,那么这个月的发帖量就少。如果这个猜想成立的话,我们再看去年7-8月的被墙,说明了:

第四,和08年被墙国外河友发帖量没有受到明显影响相比,10年7-8月被墙的时候国外河友发帖量则受到了更大的影响,这实际上反映了,河里每月“热点驱动”的主导权,已经从国外河友,逐步易手到了国内河友。可能也意味着河里的热点话题,从海外河友关心的话题,转向了国内河友关心的话题,不难想象,时政相关的也占了更大的比例。这使西西河更加依赖国内河友,对被墙的敏感度也就升高了。

第五,在314以后河里月发帖量大增的背景下,我们发现增加的部分主要是国内河友,国外河友从那时起很长时间内,实际上并没有增长,并且在过去的一年中,受到了国内被墙热点话题减少、蜀生和媚如春两次事件、还可能有其他某些因素的影响开始下滑,由这种海外网友发帖的变化我有如下推断:

第六,从这张图中来看,远在314之前两年,从06年初至现在,海外河友并没有实质上的增长,在某些月份可能因为某些个体或者话题的活跃而带来了发帖数的增长,但总体来看,并没有人数增长的趋势,我据此认为,海外河友对于西西河话题的丰富,事实上已经达到了一个相对稳定的水平:的确有新河友逐步进入,但也有老河友逐渐淡出。那么要在绝对数量上继续增长,依托国内河友的参与是很自然的趋势。即便只论“保留故国衣冠”的初衷,国内河友的参与,也是有益的。然而,海外河友活跃程度的下滑,则是近一年的新趋势,这与老萨博客的感慨无疑是吻合的,十分值得注意。

关于本节的一些讨论和补充,本来写了,后来删了,再后来跟在了别的帖子下面:Adol:西西河给别人做了新兵营,这个我也发现了

Adol:【原创】(三)对西西河吸引力的估计

通宝推:箪食瓢饮到中年,迷途笨狼,天天向上A,阿辉1,人在旅途,抱朴仙人,bluesknight,类反词典,晨池,

本帖一共被 3 帖 引用 (帖内工具实现)
家园 这工程浩大啊
家园 这个如何统计呢

得花则是所有帖子得花的累加

难道老铁被抄家了?

家园 我的方法当然不提倡

为了收集数据,确实是写了程序访问了944名用户的家园博客中的所有帖那个列表,尽管每翻一页我会等一秒钟。这个列表是公开的数据,然后计算得出的结果,具体情况在“数据”一节有所描述。

家园 在所有帖那里,一页一页地翻,

一篇一篇地找得草数,然后累加起来?老天爷

那944名用户的得草数能列表公布吗?

送花成功。有效送花赞扬。恭喜:你意外获得 8 铢钱。1通宝=16铢

参数变化,作者,声望:1;铢钱:0。你,乐善:1;铢钱:7。本帖花:1

家园 太厉害了!这是一个很庞大的工程啊,神贴要宝推
家园 牛X

佩服一个!

家园 24小时数据可能有问题

美国的西部时间是有夏令时和冬令时之分的,如果不做相应调整,你这个分析结果会出现较大问题;建议统一换算成格林威治标准时间。

另外,从地域上来说,你实际上只考虑了两块,即北美和以中国为主的东亚地区。俺们欧罗巴分舵各堂口人马并不少,估计在总人数上至少能和北美分庭抗礼。(这一点上,我臆断了,查了下Alexa,证明我是错误的)

全看树展主题 · 分页首页 上页
/ 8
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河