五千年(敝帚自珍)

主题:【原创】关于西西河发帖和得花的一些统计与分析 -- Adol

共:💬117 🌺1730
分页树展主题 · 全看首页 上页
/ 8
下页 末页
    • 家园 送花成功。有效送花赞扬。感谢:作者获得通宝一枚。
    • 家园 有心人,花一个。不过关于数据有个问题

      他们总共得花5758729朵,共送花3968324朵

      这是你通过乐善和声望得出的么?如果是的话,那么可能漏了短帖花和收草导致扣声望这两种情况。实际送花/得花数估计会高于你的统计。

      几次河牛出走事件确实对西西河影响很大,对于是你的统计样本——超4万分的核心河友影响更明显,因为出走的人就在他们之中

      • 家园 送花是通过乐善

        短帖可能确实会漏掉了。

        得花则是所有帖子得花的累加,不是声望。我发现声望虽然和得花相去不远,但总还是有一些数量上的差异,一般来说,这种差异在声望比较高的河友中并不足以改变排位的顺序。

    • 家园 老天,真是有心人做的繁复浩大的工程哇,花敬哈
    • 家园 很好的数据挖掘。

      LZ下了不少功夫收集、整理、分析数据,赞!

      有些数据怎么得到的?比如得草数,是原来能看到、现在看不到了?每次看到“借贷申请”的时候,就想知道申请人的得草数,被投草多的,大家都不借,自然就把他排除在外了,同时也抬高了故意捣乱的门槛。

      • 家园 草数好像还是可以看到

        我是在家园的所有帖那里收集的,里面能看到花数和草数。

        • 家园 在所有帖那里,一页一页地翻,

          一篇一篇地找得草数,然后累加起来?老天爷

          那944名用户的得草数能列表公布吗?

          送花成功。有效送花赞扬。恭喜:你意外获得 8 铢钱。1通宝=16铢

          参数变化,作者,声望:1;铢钱:0。你,乐善:1;铢钱:7。本帖花:1

          • 家园 关于草

            收集数据是自己写了程序,分析和统计肯定也不是自己数数了,我主要是用一种统计语言R完成的,R类似于Matlab,但是开源和免费的一种语言,功能上或许打些折扣,但是对我来说已经足够用了。

            关于得草数,本来我是打算分析得草和得花的相关性,或者得草和得花和声望的相关性,但是草有很多局限性,首先,出现时间较晚,其次,政策有所反复,即一开始有草,后来又没有,后来又有,第三,草的内涵有较大变化,开始好像和举报几乎等价,而现在则变成了一般性的反对意见,与此相比,送花的态度从开河以来就是赞赏、褒扬,(虽然花在衡量一个帖子的“受欢迎程度”也随时间有所贬值,后面几节会分析),第四,和花相比,草的数量还是很少的,综合这些考虑,通过草的统计所得出的结论的准确性可能不如花。

            而且对于我所分析的40000积分以上的用户,其实草多的人还是极少数,而且名字也都是河友们耳熟能详的了,再接下来一部分收草比较多的,据我观察并不是文章或者观点一定有什么错误,而是所关心话题的争议性比较大、或者讨论态度比较差。

            这是我对草的一些观察。

分页树展主题 · 全看首页 上页
/ 8
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河