五千年(敝帚自珍)

主题:【原创】基于西西河发帖时间戳的河友发帖习惯分析 -- 菜根谭

共:💬52 🌺415 🌵5
全看分页树展 · 主题
家园 【原创】基于西西河发帖时间戳的河友发帖习惯分析

果然是理不辩不明,我觉得这个工作值得一个主贴。

首先感谢 @兰州人 和某匿名河友,你们第一次提出相关性分析,说实话,开始时候我没想好怎么做。看完匿名河友的发言,一下子清晰了很多。

【原创】军情六局M16入驻西西河?(西西河发帖时间调查报告)

【讨论】受某网友启发,关于马甲的简单分析和讨论

数据来源:www.talkcc.org

数据提取方法:爬虫(受上述河友启发)。

处理软件:Matlab

1. 按照上述匿名河友帖子启发,这个分析中也采用了类似的发帖频率图,但是后续我还要分析一堆被我屏蔽和怀疑的ID,这些ID发帖数量基本在100-500之间,如果采用30分钟的时间分辨率,48个点造成曲线噪声过大。

首先看下我的分析图是否和匿名河友的分析结果相似:

点看全图

可以看到:

1. 时间分辨率下降到1小时不影响分析结果;

2. 燕人和翼德数据强相关,R=0.87;

3. 菜根谭和大胖子数据也有比较强的相关性,R=0.82;

4.我也引入了一个不具名的佚名河友数据,可以看到,相关性消失了。

(在Matlab中,我使用了Regress函数,在相关性很差时,Regress会返回负值R2,代表线性模型失效,所以这个无法给出R值)。

所以说以上匿名河友分析的数据是有效的,但是.....我是大胖子的马甲吗?

最简单的分析办法是引入另一个已知变量

@达雅

因为达雅批评我败人品,既然败过一回,那我就破罐子破摔,把达雅的数据也引入进来。

点看全图

可以看到:

1. 我和大胖子的相关性R=0.82;

2. 我和达雅的相关性R=0.79;

这两个数字应该不能算是明显不同吧?

那么,那么,@达雅, 你也是我或者大胖子的马甲吗?

抛弃是不是马甲不谈,实际上这个相关性带来的很多有意思的结果,也给我Matlab编程创造了方便。

要下车了,先搞这么一段,其他有时间再发。

土鳖抗铁牛。

通宝推:绿色蔬菜我的爱,凤城,落木千山,大胖子,肖羽,起于青萍之末,秦波仁者,不如安静,

本帖一共被 1 帖 引用 (帖内工具实现)
全看分页树展 · 主题


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河