五千年(敝帚自珍)

主题:【原创】关于西西河发帖和得花的一些统计与分析 -- Adol

共:💬117 🌺1730
分页树展主题 · 全看首页 上页
/ 8
下页 末页
      • 家园 用存量积分来衡量优秀用户恐怕不是很直接

        能不能做一个对时间一阶倒的数值差分,用声望或者积分的增长速度来衡量优秀用户可能正准确一些,毕竟在半年时间里就算是一些很优秀的河友也很难增长到40k的积分。

        所以我觉得存量积分不是一个水平的体现,而积分增速才反映河友的水平,当然这个需要历史数据才能实现

        • 家园 使用积分来作为门槛

          是因为有现成的英雄榜-历次跳水者这个现成的列表。积分确实不能代表一切,声望好一些,但是如您所说,增长速度可能是更好的办法。但这个增速也会受到一些其他因素影响。比如,——我手里没有积分或者声望的历史数据,但是有花的数据,下一节也会简单分析一下。或许我们也可以通过累加获得时间-得花总数的一个经验函数。

          但是其一,受到一些因素的影响,得花率本身和时间也是有关系的,下一节会提到;其二,某个河友和总体不一样,发帖并不是稳定的,向忙总那样高产,短时间大量发帖的河友非常少,能够长期稳定每个月发帖的河友也非常少,(同样会在下一节提到),这就导致有的月份声望增长很多,有的月份增长很少。所以具体某个人的得花-时间函数恐怕是很复杂难以用解析方法描述的函数,数值差分,很惭愧,分析知识已经基本上还给老师了,大致上印象好像是和微分差不多,离散的,不知道我的理解对不对,——在这样复杂的函数上的应用可能是比较困难的,数值方法,可能也因为分布的不均匀会遇到困难,毕竟大部分人要攒一篇好帖子,还是蛮困难的,什么时候攒出来,也基本是随机的。

          从图中来看,超过40000积分的用户,声望在2000左右和以上的,还是比较多,特别是较高积分的河友,一般声望都不低。因此相比于存量积分,下两节我打算使用平均得花等一些简单的统计特征来侧面反映一些事情。

          • 家园 数值插分就是你说的这么简单

            基本上就是(S(n+1)-S(n))/t, 甚至可以就简化为S(n+1)-S(n),S(n)是在第n个月时的总积分。如果有历史数据,可以把每个月的增速算一个平均值,这样比较合适反映一个人的水平。如果有历史数据,用excel就可以实现。

            不过我觉得用一个最高增速可能更好,因为很多ID在自己熟悉的领域可以爆发一次,但是过后往往就很少写主题贴了。

      • 家园 如果能把帖子对应的版面也统计一下就好了

        我一直认为大部分人可能和自己一样并不是十分关注政治,但从你的统计分析上看,我可能错了。

        • 家园 这个也曾经是我比较想做的

          但是家园博客的主题帖列表那里有版块的名称,而所有帖列表那里是没有的,所以我收集的数据里,没有这方面的数据。因此在帖子所属板块方面,我的数据还是很不完整的。或许铁大自己可以做更多的分析吧。

    • 家园 和一篇----从Alexa的分析数据解读

      由于没有Adol的技术手段,也懒得用笨办法手动去查,借用一下Alexa的分析数据吧。

      Alexa对cchere, ccthere, talkcc三个站点的来访地域分析如下:

      ccthere cchere talkcc

      中国 49.2% 53.1% 97.3%

      美国 34.1% 23.4%

      加拿大 14.2% 15.8%

      其它 2.4% 7.7%(澳洲占4.6%) 2.7%

      通过ccthere和cchere入河的,国内和国外基本持平;而通过talkcc的,则绝大多数是国内河友。究其原因,是ccthere和cchere在国内经常处于被墙状态,而talkcc基本上一直是畅通无阻的。在此,向“墙”们说一声---“I服了U”。

      另外,国外河友中,北美大陆又占绝对优势,其余各分舵目前来说属于少数派。

      但究竟是国内的多还是国外的多呢?查了一下这三个站点的流量排名(Traffic Rank)情况:

      ccthere cchere talkcc

      中国排名: 19,233 19,309 10,503

      全球排名: 72,384 161,862 66,648

      无论是全球还是中国排名,talkcc都远在西西河和西西寨之上,这反映国内用户已经占到了大多数。

      因为Alexa上查不到绝对访问人数,只给出网站占全球网络访问量的百分比。姑且认为,最近半年内,全球网络用户没有大的变化,以此进行衡量,得到的统计图如下所示:

      点看全图
      外链图片需谨慎,可能会被源头改

      应该说,最近半年来,ccthere和talkcc的变化不大,略有下降;而cchere本来一直没啥人气,但在7月底的时候,出现了一个跃升,并逐渐和前两位有并驾齐驱之势,难道是因为老铁正式把西西寨和西西河分了家的缘故?

      六个月以外,不能保证这个百分比能真正体现访问人数,但可以作为一个参考。下图为Alexa给出的24个月的统计图

      点看全图
      外链图片需谨慎,可能会被源头改

      ccthere(西西寨)在2010年2~3月开始(这时发生了什么?),用户量开始出现严重滑坡,最低点出现在当年的8~9月(即西河历88、89月),西西河被墙达到了顶峰。与此相对应的是,在被墙之后,国内用户开始通过talkcc入河,并逐渐超过ccthere。

      总体说来,Adol的分析结果非常准确,即1)国内用户已经占大多数;2)“墙”的危害很大。

      ====

      差点忘了here4news,其全球排名为93,646,中国排名为8,925,用户基本100%来自国内,访问趋势与talkcc基本一致。

      点看全图

      外链图片需谨慎,可能会被源头改

      • 家园 cchere那个跃升,也和墙有关

        而cchere本来一直没啥人气,但在7月底的时候,出现了一个跃升,

        七月底八月初的时候,西西河被墙,但是cchere.com还可以访问。而且可以通过一定手段,从cchere.com访问所有的贴,知道办法的就都通过cchere.com访问了,因此突然跃升起来。

      • 家园 非常感谢您的补充

        访问量也是很重要的数据,毕竟我的回帖数字统计只是基于944名注册用户的,而访问量则是全站的,而且我也没有考虑cchere和talkcc的变动,因为家园博客-所有帖那里的列表,无论是现属cchere还是ccthere,链接一律是ccthere,好像点进去之后才会重定向。

    • 家园 太厉害了!这是一个很庞大的工程啊,神贴要宝推
    • 家园 这工程浩大啊
    • 家园 【原创】(二)“墙”对西西河的影响

      (一)西西河八年发展一瞥

      3 “墙”对西西河的影响

      “墙”在论坛的发展中究竟产生了多大的影响,为了进一步调查这个问题,有必要把墙内外的月发帖量进行区分。

      很显然,要想知道一个人什么时候发帖,挺难,但是一个人什么时候不发帖,则相对容易——睡觉的时候不发帖。所以通过特定时间段的发帖量统计,可以在一定程度上区分帖子的来源地区。而东亚地区的发帖主力,当然是国内的河友们,我试图基于这个结论来间接观察墙的影响,于是统计了这次收集到的所有帖子,其发帖时间在每天中的时间段分布:

      点看全图

      外链图片需谨慎,可能会被源头改

      上图横坐标是西部时间的24个小时,纵坐标表示发帖数量,从图中两个明显的周期可以看出来,西西河的主要用户群,基本由在西部时间4-5点左右进入发帖低点的北美河友,和西部时间15-16点左右进入发帖低点的国内河友组成,所以我采用4-5点的发帖量代表国内河友的发帖量,15-16点的发帖量代表国外河友的发帖量,随着西河历时间,得到了这样的结果:

      点看全图

      外链图片需谨慎,可能会被源头改

      其中横轴是是时间,以月份为单位,但是坐标上标记的是年份,纵轴是发帖数量。蓝线表示每个月在西部时间15-16点的发帖数量,借以代表海外河友的发帖量;红线表示每个月在西部时间4-5点的发帖数量,借以代表国内河友的发帖量。这个图也包含了许多有价值的信息,

      首先,证实了我们关于314事件和火炬事件显著增加了西西河用户群的推测,从那时起,不仅观点时事版面的帖子开始明显吃重,从这张图里我们还可以发现,也正是从那时起,国内河友开始超过了海外河友,成为了西西河发帖的主力,并且还在持续增加。所以我们可以推断,国内的河友实际上是讨论政治的主力,甚至,许多国内的河友下河的目的大概就是时事帖子,这个符合我们直观感受的结论也是显而易见的。

      其次,我们看到了08年7月被墙,国内河友的发帖量有一个显著的低谷,而国外河友则程度较浅,进一步证实了通过发帖时间段的筛选能够代表发帖河友的地域分布,也就是本图的有效性。

      第三,我们看到在绝大多数月份,国内外河友发帖量的变化是相关的,这固然可能是既非北美又非国内的其他时区河友的发帖所致。但是我有一个自认为更合理的猜想,即西西河每月的发帖量,实际上是“热点”驱动的,也就是说,某个月有更多的精彩帖子、突发事件、或者热点话题,那么这个月的发帖量就多,国内外都多;如果某个月没什么热点话题,那么这个月的发帖量就少。如果这个猜想成立的话,我们再看去年7-8月的被墙,说明了:

      第四,和08年被墙国外河友发帖量没有受到明显影响相比,10年7-8月被墙的时候国外河友发帖量则受到了更大的影响,这实际上反映了,河里每月“热点驱动”的主导权,已经从国外河友,逐步易手到了国内河友。可能也意味着河里的热点话题,从海外河友关心的话题,转向了国内河友关心的话题,不难想象,时政相关的也占了更大的比例。这使西西河更加依赖国内河友,对被墙的敏感度也就升高了。

      第五,在314以后河里月发帖量大增的背景下,我们发现增加的部分主要是国内河友,国外河友从那时起很长时间内,实际上并没有增长,并且在过去的一年中,受到了国内被墙热点话题减少、蜀生和媚如春两次事件、还可能有其他某些因素的影响开始下滑,由这种海外网友发帖的变化我有如下推断:

      第六,从这张图中来看,远在314之前两年,从06年初至现在,海外河友并没有实质上的增长,在某些月份可能因为某些个体或者话题的活跃而带来了发帖数的增长,但总体来看,并没有人数增长的趋势,我据此认为,海外河友对于西西河话题的丰富,事实上已经达到了一个相对稳定的水平:的确有新河友逐步进入,但也有老河友逐渐淡出。那么要在绝对数量上继续增长,依托国内河友的参与是很自然的趋势。即便只论“保留故国衣冠”的初衷,国内河友的参与,也是有益的。然而,海外河友活跃程度的下滑,则是近一年的新趋势,这与老萨博客的感慨无疑是吻合的,十分值得注意。

      关于本节的一些讨论和补充,本来写了,后来删了,再后来跟在了别的帖子下面:Adol:西西河给别人做了新兵营,这个我也发现了

      Adol:【原创】(三)对西西河吸引力的估计

      通宝推:箪食瓢饮到中年,迷途笨狼,天天向上A,阿辉1,人在旅途,抱朴仙人,bluesknight,类反词典,晨池,

      本帖一共被 3 帖 引用 (帖内工具实现)
      • 家园 德宝

        跟着抱朴闲人有饭吃

        送花成功。有效送花赞扬。恭喜:你意外获得 16 铢钱。1通宝=16铢

        参数变化,作者,声望:1;铢钱:0。你,乐善:1;铢钱:15。本帖花:1

      • 家园 24小时数据可能有问题

        美国的西部时间是有夏令时和冬令时之分的,如果不做相应调整,你这个分析结果会出现较大问题;建议统一换算成格林威治标准时间。

        另外,从地域上来说,你实际上只考虑了两块,即北美和以中国为主的东亚地区。俺们欧罗巴分舵各堂口人马并不少,估计在总人数上至少能和北美分庭抗礼。(这一点上,我臆断了,查了下Alexa,证明我是错误的)

        • 家园 夏令时确实没有考虑

          夏令时确实是没有考虑的,当时偷懒了,而且北美每年夏令时的开始日期都不太一样。。。

          关于时间的换算,我是使用perl的函数完成的,首先把本地时间换算为纪元秒——距离公元元年1月1日0点0分0秒的一个整数,然后把2003年5月1日0点0分0秒换算,两者相减,得到的差再除以3600,得到了西河历时间小时数。

          从结果上来说,我觉得效果还是可以的,我也考虑过使用每日发帖最少的两个小时的帖子数量来代表河友的地域分布,借以消除夏令时的影响。但是结果仿佛还是最少的一个小时比较好,因此就这么放着了,毕竟夏令时凌晨4-5点发帖的人很少的话,冬令时的3-4点也多不到哪儿去,(这是我想当然,没有做验证)。

分页树展主题 · 全看首页 上页
/ 8
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河