主题:【原创】关于西西河发帖和得花的一些统计与分析 -- Adol
共:💬117 🌺1730
收集数据是自己写了程序,分析和统计肯定也不是自己数数了,我主要是用一种统计语言R完成的,R类似于Matlab,但是开源和免费的一种语言,功能上或许打些折扣,但是对我来说已经足够用了。
关于得草数,本来我是打算分析得草和得花的相关性,或者得草和得花和声望的相关性,但是草有很多局限性,首先,出现时间较晚,其次,政策有所反复,即一开始有草,后来又没有,后来又有,第三,草的内涵有较大变化,开始好像和举报几乎等价,而现在则变成了一般性的反对意见,与此相比,送花的态度从开河以来就是赞赏、褒扬,(虽然花在衡量一个帖子的“受欢迎程度”也随时间有所贬值,后面几节会分析),第四,和花相比,草的数量还是很少的,综合这些考虑,通过草的统计所得出的结论的准确性可能不如花。
而且对于我所分析的40000积分以上的用户,其实草多的人还是极少数,而且名字也都是河友们耳熟能详的了,再接下来一部分收草比较多的,据我观察并不是文章或者观点一定有什么错误,而是所关心话题的争议性比较大、或者讨论态度比较差。
这是我对草的一些观察。
- 相关回复 上下关系4
🙂很好的数据挖掘。 1 嘉英 字228 2011-09-08 17:45:43
🙂草数好像还是可以看到 1 Adol 字52 2011-09-09 10:23:49
🙂在所有帖那里,一页一页地翻, 2 嘉英 字280 2011-09-09 15:15:04
🙂关于草