五千年(敝帚自珍)

主题:【讨论】受某网友启发,关于马甲的简单分析和讨论 -- 匿名

共:💬23 🌺136 🌵8
分页树展主题 · 全看首页 上页
/ 2
下页 末页
  • 匿名 【讨论】受某网友启发,关于马甲的简单分析和讨论

    在一个最近比较火的贴【原创】军情六局M16入驻西西河?(西西河发帖时间调查报告)中,我看到了一些关于马甲的分析和暗示。

    从中受到启发,我觉得很有意义的一点是,假如一个人长期上某网站,那么不管是在甲时区睡觉也好,在乙时区上班也罢,总有一些时间是来西西河发帖较少的,而在另一些空闲时间是来西西河发帖较多的。有的人睡觉上班时间极不规律可能形成比较缓和的分布,另一些人可能只在少数特定时间上网,形成尖锐的分布。所以一个人发帖的时间分布相当于某种指纹,可以由此辨识不同ID背后的自然人。注意这不完全依赖于时区,而且对于动辄几年甚至十几年的发文历史数据,也很难伪装。在大量数据下,不同人之间达到高相关,不能说完全没有,但很难。当然,相关系数多高算高,确实需要从实际数据中去摸索,比较。

    对网络公开数据的分析,我总是有一种顾虑。如前面提到的那个帖,作者悍然把别人上网的时段公开,我是觉得不妥的。我们每天不戴口罩出门,确实给了路人看我们脸的权力,但是这并不是让渡给他人对我们一天的生活轨迹录像并传播的权力。因此我在这帖内不会公布任何ID具体的发帖时间。

    我只是读取一些ID的发帖时间后,把这些发帖时间在一天不同时段(分辨率半小时)的概率分布,和另一些ID进行相关,再绘图公开。这样你能看到,ID甲和ID乙同时在某个时间高频发帖,但是具体是哪个时间,你是看不到的。同时,我也不会任意选取ID公开。我只会从前面提到那个主题帖中热情回复或者宝推的ID中(某种意义上,这表达了他们对这类行为的赞许)选取一小部分进行公开。以尽量避免侵犯他人隐私。

    首先,我给大家看看两对任意选取的ID发帖时间关系,此处匿名。

    点看全图

    点看全图

    我们看到,他们相关系数为0.4和0.5,这是一个作为参照的背景数据。下面我来给大家看看另外两个ID(保护他们隐私故匿名)的发帖时间相关性,注意这两个ID曾在西西河自己官宣互为马甲。

    点看全图

    我们看到,相关性高达0.78。

    从以上匿名数据,我们大概可以推测,我提及的这个发帖时间分布指纹,是有效的。接着,我开始验证公开承认互为马甲的燕人和翼德

    点看全图

    我们看到,相关性确实高达0.87,再一次验证了我的方法有效。

    接着,我把被他人明里暗里指证为他的马甲的两个ID:我还有机会吗,和既然青春留不住,分别和燕人相关,

    点看全图

    点看全图

    我们看到,相关性都很低,和最初我举得两个随机ID之间关系类似。再看这两个ID之间,相关性也很低。

    点看全图

    最后,我们来看看楼主菜根谭和给他抬轿子的大胖子的发帖相关性

    点看全图

    相关系数高达0.75,和自己主动承认的马甲已经极其接近了。事实上,他们两个ID,以及给该主题帖宝推的若干ID,都和某个至今尚未在这个楼中出现的ID有强相关,在0.8~0.9之间。从他们发文历史看,虽然意料之外,却也情理之中。如前所述,我是顾及网友隐私的,就不在这里点他名了。

    以上分析的数据,来源是程序自动读取的截止到本月初的若干ID的全部发文记录。我公布的仅个位数ID数据,实际考察的也不超过两位数。但每ID少则几百多则几千个帖子,不自动读取确实没那个时间。作为一个文科生,我现学的自动读取办法。从互联网礼仪上说,或许不算特别礼貌。但是或者我学艺不精,或者电脑性能太差,实际读取速度非常慢。基本每个页面耗时0.5秒左右,和正常浏览网页速度相比,对服务器压力应该不会特别大。

    其实,比使用马甲更恶劣的,是用马甲互相宝推,送花。虽然现在规则只能看到若干天内的送花记录。但是西西河的宝推记录历史是可以看到的。菜根谭和大胖子,以及他们同伙ID,互相宝推有多频繁,老用户应该心里有数。通过相互宝推记录其实也可以得到一个ID的团簇,扯出萝卜带出泥。如果我去把这些数据也算一下摆出来,怕是难看得很。做人留一线,日后好相见,到此为止吧。

    数据摆完了,最后,说几句或许多余的话。

    1. 对燕人、我还有机会吗,和既然青春留不住三个网友,你们虽然参与了那个主题贴的讨论,但是是作为防守方被动参与的,我这里未经允许就读取并公开了你们的数据,希望你们原谅。不过如前所述,这已经是处理后的数据,已经在我能力范围内最大限度保护你们隐私。从某种意义上讲,我这个贴也算是给你们洗脱不白之冤。

    2. 对于菜根谭,大胖子等ID,我没什么可说的,我对他们的雇主说几句。如果要搞一些正面宣传,占领舆论阵地,作为公民我是支持的。但是,请找一些稍微像样一点的人来做这个事情。如今是互联网时代,随便一个三流演员的公关团队都比他(们)强。我不知道你们这些宣传活动如何绩效考核,但是很显然,目前在西西河的效果是负面的。在人员使用上,这里面有没有腐败问题?希望你们深思并做出改进。我们纳税人的钱,不能这样随便糟践。即便经费有限,能力不足,哪怕转发新闻联播、人民日报内容呢,也比这样追着海外的爱国华人咬强。人家用中文发发美食、电影,难道不是在传播中华文化,你们这样死缠烂打不放过,会寒了沉默的大多数的心。

    3. 对于广大网友,我想说,我发这个帖子,不是鼓励大家去抓马甲。恰恰相反,我本并不介意马甲。发这个贴纯粹是看不惯他们欺负人。数据分析中,我也无意发现很多网友在用马甲,颇有大跌眼镜的。但是我不会去公开他们。站长 @铁手 之前有句话我非常赞同,大意是我们应该关注发帖的内容,而不是发帖的ID。如果我们能从某些发言中学到一些东西,那么来西西河就是有益的。我希望这也包括以上提及的菜根谭、大胖子这些ID,某种意义上它们可能也是国有资产。完全可能今后换成积极向上的人使用,希望大家不要歧视这些ID。关注他们今后的发言内容而不是这些账号本身。

    4. 对一些也在使用马甲的人,希望你们不要再贼喊捉贼。仅仅因为某网友善良公开了自己的马甲而穷追猛打,不厚道。我一个文科生,花一个晚上能学会的东西,对于人才济济的西西河网友根本不是事。特别是站长 @铁手 ,如果愿意,对一切都能洞若观火。他不过是性格纯良,不和你们一般见识罢了。希望大家把精力放到如何发些有趣有益的帖子上来。人家建立一个网站不容易,你们多想想怎么建设,而不是破坏这个来之不易的环境。你若嫉妒某网友发帖水平高,应该走正路提高自己的发帖水平,而不是搞歪门邪道下绊子。

    元宝推荐:普鲁托, 通宝推:凤城,我还有机会吗,林三,方恨少,菜根谭,河蟹,本嘉明,Swell,

    本帖一共被 4 帖 引用 (帖内工具实现)
    • 家园 只能说燕人河友等人的道德水准还有进一步可降低的空间

      这就是我对这件事的整体印象。

      河里的大风气就是如此,燕人、我还有机会吗和既然青春留不住三个网友还在那努力做到文明发言我觉得十分不易,如果一定要我给三位河友提什么意见的话,那就是感觉三位河友的道德水准真的有进一步降低的空间,毕竟在一个乌烟瘴气的地方过于那么自律也未必是好事,对你们也未必公平。

      @燕人

      @我还有机会吗

      @既然青春留不住

    • 家园 你玩了个断章取义夹带私货的把戏 -- 有补充

      单一指标的相关性分析确实说服力不强,不过菜根谭提出了两个维度来分析论证。

      1. 发帖时间的相关性分析

      2. 发帖人的人设、自称所在地的作息习惯,与发帖时间不符。

      增加一个维度后的研究,可靠性会大大增加。

      然而你玩了个断章取义的把戏。

      我在中国大陆东八区,几亿人作息时间和我差不多,即使在河里也有至少几百中国(含台湾省)的河友,作息时间也差不多。按照你的逻辑,这几百人都是我的同党。

      西西河里宝推从来都是显示id的,敢宝推说明我光明磊落行事坦荡。之前送花是匿名的导致了大量如“亚细亚的孤儿”的垃圾帖子被放出来,后来铁手新政显示了送花id,才把“燕人”这种反华反毛的汉奸暴露出来,这是不争的事实。他和他的仆从id已经为此事洗白了多次但毫无效果,连燕人自己都承认造成了很恶劣的影响。看你怎么洗。。。

      另外,你的帖子里夹带了与你的相关性分析无关的污蔑我和其他河友的私货,这里就不一一指出了。

      现在还在河里待着的人都是有把年纪的人了,你这种假装理中客假做仗义状的样子显得特别幼稚!换言之,以你的能力带不动这节奏。。。

      通宝推:四四方方,金银鑫,菜根谭,
      作者 对本帖的 补充(1)
      家园 你的语言特点已经为你自己做了人物画像 -- 补充帖

      什么样的人会认为我的id是国有资产?说白了,就是拿政府钱的“网评员”,之前还有比你恶劣的说我是“踩裁缝机的”。

      那么问题来了,为什么你会认为我是中国政府这边的?燕人一向标榜自己爱国,中国政府为什么要针对他?在你心目里,燕人一伙是和中国政府对立的“反贼”吗?

      之前我评价燕人"贼不打三年自招”,我看你那,一分钟都藏不住!

    • 见前补充 4976258
    • 家园 对这句很有同感

      希望大家把精力放到如何发些有趣有益的帖子上来。人家建立一个网站不容易,你们多想想怎么建设,而不是破坏这个来之不易的环境。

      ==

      “关注发帖的内容,而不是发帖的ID”,楼主匿名发帖的方式秉承了自己的观点,言行合一。赞!

      通宝推:燕人,
      • 家园 我猜测这个不是一件容易的事

        “关注发帖的内容,而不是发帖的ID”

        我的感觉,不少人想取巧,通过批倒批臭某个ID的方法,来论证该ID的帖子不正确,这个不够堂堂正正。

        堂堂正正的方法很简单,要么指出逻辑谬误,要么指出与事实不符,这就够了。

        根源在于,不少人来河里,不过是需要情绪宣泄,要他们用堂堂正正的方法,是强人所难了。。。。

        • 家园 所以,老铁的系统应该鼓励匿名发帖

          而不是现在这样需要更多的待认可点。

          在大浪淘沙取消匿名发帖的待认可设置,这对愿意讲道理却又想避免人为纷争的河友更友好。

          通宝推:燕人,
    • 家园 还是把您所学到的数据读取方法和所说的ID公开说出来的好,免得

      大家以为您故弄玄虚或弄虚作假,也让大家学到新知识新方法增长见益,验证您所用方法的准确度,验证您所说的ID是否与您指责的两个ID具有强关联性。

      事实上,他们两个ID,以及给该主题帖宝推的若干ID,都和某个至今尚未在这个楼中出现的ID有强相关,在0.8~0.9之间。从他们发文历史看,虽然意料之外,却也情理之中。如前所述,我是顾及网友隐私的,就不在这里点他名了。

      另外,我想搞清楚,您采用的是多长时间的数据来验证大胖子和菜根谭两个ID和您所说的某个至今尚未在这个楼中出现的ID的强相关?毕竟送花显示ID是近期的事,那宝推呢?他们是因为近期在某贴某楼发言找到共同语言、联袂出击?还是连续几年以上相互吹捧、宝推、攻击别人,沆瀣一气,搞得河里乌烟瘴气,污秽不堪?

      其实,比使用马甲更恶劣的,是用马甲互相宝推,送花。虽然现在规则只能看到若干天内的送花记录。但是西西河的宝推记录历史是可以看到的。菜根谭和大胖子,以及他们同伙ID,互相宝推有多频繁,老用户应该心里有数。通过相互宝推记录其实也可以得到一个ID的团簇,扯出萝卜带出泥。如果我去把这些数据也算一下摆出来,怕是难看得很。做人留一线,日后好相见,到此为止吧。

      您的立场实际已经亮明,君子坦蛋蛋,小人藏鸡鸡,有什么不可见人的嘛,既然您把沉默的大多数都给代表了,也让大家看看您是否具有代表性好吗?

    • 家园 感谢,解了燃眉之急

      不客气的说,我还真是理工科大学毕业的。这些算法十有八九也都学过,不过真要让我做,还真做不来了。岁月是把杀猪刀,切掉的不仅仅是青春痘,还有脑力和做事情的闲心。

      我刚刚给人家只提思想实验是因为你不具备数据的分析能力吗?怼了,还真的没有能力反驳,正气闷中,慎重考虑是不是为了面子这个周末不过了,来数发帖,没想到看到了你的这个牛贴!

      牛人啊。赞!

    • 家园 首先感谢作者的工作,等我后续回复 -- 有补充

      虽然我不同意你的结论,但是你的分析方法非常非常有启发性

      我觉得你的数据分析的三点非常有价值:

      1. 使用爬虫自动抓取数据,大大提高了效率

      2. 把发帖频率作为输出数据,一点非常有必要,避免了发帖数不同造成的数据不整齐;

      3. 线性回归分析输出R值非常有启发性,可以进行量化,解决了目视无法量化编程的缺点。

      虽然我不同意你的结论,但是非常欣赏你的分析方法,这个思路很厉害。让我想想怎么用数据来揭示里面蕴含的道理。

      我让学生去收集下数据,晚点分析回复。

      一会儿要赶火车去上海开个会,路上有时间看看能不能整理点东西。

      敬请期待,土鳖抗铁牛。

      通宝推:大胖子,凤城,
      作者 对本帖的 补充(1)
      家园 回复比较长 我单独开了个主贴 -- 补充帖

      【原创】基于西西河发帖时间戳的河友发帖习惯分析

      欢迎大家多多讨论指正。

      还差一部分就差不多弄完了。

    • 见前补充 4976006
分页树展主题 · 全看首页 上页
/ 2
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河