主题:【讨论】受某网友启发,关于马甲的简单分析和讨论 -- 匿名
在一个最近比较火的贴【原创】军情六局M16入驻西西河?(西西河发帖时间调查报告)中,我看到了一些关于马甲的分析和暗示。
从中受到启发,我觉得很有意义的一点是,假如一个人长期上某网站,那么不管是在甲时区睡觉也好,在乙时区上班也罢,总有一些时间是来西西河发帖较少的,而在另一些空闲时间是来西西河发帖较多的。有的人睡觉上班时间极不规律可能形成比较缓和的分布,另一些人可能只在少数特定时间上网,形成尖锐的分布。所以一个人发帖的时间分布相当于某种指纹,可以由此辨识不同ID背后的自然人。注意这不完全依赖于时区,而且对于动辄几年甚至十几年的发文历史数据,也很难伪装。在大量数据下,不同人之间达到高相关,不能说完全没有,但很难。当然,相关系数多高算高,确实需要从实际数据中去摸索,比较。
对网络公开数据的分析,我总是有一种顾虑。如前面提到的那个帖,作者悍然把别人上网的时段公开,我是觉得不妥的。我们每天不戴口罩出门,确实给了路人看我们脸的权力,但是这并不是让渡给他人对我们一天的生活轨迹录像并传播的权力。因此我在这帖内不会公布任何ID具体的发帖时间。
我只是读取一些ID的发帖时间后,把这些发帖时间在一天不同时段(分辨率半小时)的概率分布,和另一些ID进行相关,再绘图公开。这样你能看到,ID甲和ID乙同时在某个时间高频发帖,但是具体是哪个时间,你是看不到的。同时,我也不会任意选取ID公开。我只会从前面提到那个主题帖中热情回复或者宝推的ID中(某种意义上,这表达了他们对这类行为的赞许)选取一小部分进行公开。以尽量避免侵犯他人隐私。
首先,我给大家看看两对任意选取的ID发帖时间关系,此处匿名。
我们看到,他们相关系数为0.4和0.5,这是一个作为参照的背景数据。下面我来给大家看看另外两个ID(保护他们隐私故匿名)的发帖时间相关性,注意这两个ID曾在西西河自己官宣互为马甲。
我们看到,相关性高达0.78。
从以上匿名数据,我们大概可以推测,我提及的这个发帖时间分布指纹,是有效的。接着,我开始验证公开承认互为马甲的燕人和翼德
我们看到,相关性确实高达0.87,再一次验证了我的方法有效。
接着,我把被他人明里暗里指证为他的马甲的两个ID:我还有机会吗,和既然青春留不住,分别和燕人相关,
我们看到,相关性都很低,和最初我举得两个随机ID之间关系类似。再看这两个ID之间,相关性也很低。
最后,我们来看看楼主菜根谭和给他抬轿子的大胖子的发帖相关性
相关系数高达0.75,和自己主动承认的马甲已经极其接近了。事实上,他们两个ID,以及给该主题帖宝推的若干ID,都和某个至今尚未在这个楼中出现的ID有强相关,在0.8~0.9之间。从他们发文历史看,虽然意料之外,却也情理之中。如前所述,我是顾及网友隐私的,就不在这里点他名了。
以上分析的数据,来源是程序自动读取的截止到本月初的若干ID的全部发文记录。我公布的仅个位数ID数据,实际考察的也不超过两位数。但每ID少则几百多则几千个帖子,不自动读取确实没那个时间。作为一个文科生,我现学的自动读取办法。从互联网礼仪上说,或许不算特别礼貌。但是或者我学艺不精,或者电脑性能太差,实际读取速度非常慢。基本每个页面耗时0.5秒左右,和正常浏览网页速度相比,对服务器压力应该不会特别大。
其实,比使用马甲更恶劣的,是用马甲互相宝推,送花。虽然现在规则只能看到若干天内的送花记录。但是西西河的宝推记录历史是可以看到的。菜根谭和大胖子,以及他们同伙ID,互相宝推有多频繁,老用户应该心里有数。通过相互宝推记录其实也可以得到一个ID的团簇,扯出萝卜带出泥。如果我去把这些数据也算一下摆出来,怕是难看得很。做人留一线,日后好相见,到此为止吧。
数据摆完了,最后,说几句或许多余的话。
1. 对燕人、我还有机会吗,和既然青春留不住三个网友,你们虽然参与了那个主题贴的讨论,但是是作为防守方被动参与的,我这里未经允许就读取并公开了你们的数据,希望你们原谅。不过如前所述,这已经是处理后的数据,已经在我能力范围内最大限度保护你们隐私。从某种意义上讲,我这个贴也算是给你们洗脱不白之冤。
2. 对于菜根谭,大胖子等ID,我没什么可说的,我对他们的雇主说几句。如果要搞一些正面宣传,占领舆论阵地,作为公民我是支持的。但是,请找一些稍微像样一点的人来做这个事情。如今是互联网时代,随便一个三流演员的公关团队都比他(们)强。我不知道你们这些宣传活动如何绩效考核,但是很显然,目前在西西河的效果是负面的。在人员使用上,这里面有没有腐败问题?希望你们深思并做出改进。我们纳税人的钱,不能这样随便糟践。即便经费有限,能力不足,哪怕转发新闻联播、人民日报内容呢,也比这样追着海外的爱国华人咬强。人家用中文发发美食、电影,难道不是在传播中华文化,你们这样死缠烂打不放过,会寒了沉默的大多数的心。
3. 对于广大网友,我想说,我发这个帖子,不是鼓励大家去抓马甲。恰恰相反,我本并不介意马甲。发这个贴纯粹是看不惯他们欺负人。数据分析中,我也无意发现很多网友在用马甲,颇有大跌眼镜的。但是我不会去公开他们。站长 @铁手 之前有句话我非常赞同,大意是我们应该关注发帖的内容,而不是发帖的ID。如果我们能从某些发言中学到一些东西,那么来西西河就是有益的。我希望这也包括以上提及的菜根谭、大胖子这些ID,某种意义上它们可能也是国有资产。完全可能今后换成积极向上的人使用,希望大家不要歧视这些ID。关注他们今后的发言内容而不是这些账号本身。
4. 对一些也在使用马甲的人,希望你们不要再贼喊捉贼。仅仅因为某网友善良公开了自己的马甲而穷追猛打,不厚道。我一个文科生,花一个晚上能学会的东西,对于人才济济的西西河网友根本不是事。特别是站长 @铁手 ,如果愿意,对一切都能洞若观火。他不过是性格纯良,不和你们一般见识罢了。希望大家把精力放到如何发些有趣有益的帖子上来。人家建立一个网站不容易,你们多想想怎么建设,而不是破坏这个来之不易的环境。你若嫉妒某网友发帖水平高,应该走正路提高自己的发帖水平,而不是搞歪门邪道下绊子。
本帖一共被 4 帖 引用 (帖内工具实现)
抱歉不能元宝推。元宝推必须是认证会员,现在好像不办理认证了。
都和某个至今尚未在这个楼中出现的ID有强相关,在0.8~0.9之间。
如可能,请把这个猜测也公布一下。
1)您毕竟是匿名,不用太担心。西西河的主心骨,是沉默的多数。
2)老用户都是抽一点时间短促浏览,不可能太了解那些人之间的勾连,您明确提醒一下,大家交友私信时有个数。不然,大家都知道有这么一号,却不知道是谁,反而过多猜疑,疑人窃斧,整个气氛就不好了,损害了多数网友的利益。
再次感谢您的付出。
你看,我花了一分钟时间做了一个你和燕人的相关图,相关度这么高,看来你就是燕人啊。你这么乱花金主的钱,她知道吗?
虽然我不同意你的结论,但是你的分析方法非常非常有启发性
我觉得你的数据分析的三点非常有价值:
1. 使用爬虫自动抓取数据,大大提高了效率
2. 把发帖频率作为输出数据,一点非常有必要,避免了发帖数不同造成的数据不整齐;
3. 线性回归分析输出R值非常有启发性,可以进行量化,解决了目视无法量化编程的缺点。
虽然我不同意你的结论,但是非常欣赏你的分析方法,这个思路很厉害。让我想想怎么用数据来揭示里面蕴含的道理。
我让学生去收集下数据,晚点分析回复。
一会儿要赶火车去上海开个会,路上有时间看看能不能整理点东西。
敬请期待,土鳖抗铁牛。
欢迎大家多多讨论指正。
还差一部分就差不多弄完了。
好看,期待!
更相信哪个分析?😜
看热闹也要交作业的😉
不客气的说,我还真是理工科大学毕业的。这些算法十有八九也都学过,不过真要让我做,还真做不来了。岁月是把杀猪刀,切掉的不仅仅是青春痘,还有脑力和做事情的闲心。
我刚刚给人家只提思想实验是因为你不具备数据的分析能力吗?怼了,还真的没有能力反驳,正气闷中,慎重考虑是不是为了面子这个周末不过了,来数发帖,没想到看到了你的这个牛贴!
牛人啊。赞!
你的相关性证明是没问题的(因为你用了成熟的软件做计算,而且算法很清晰),但因果性证明,至少需要铁手提供IP数据才行😄😄😄
我是那个沉默的多数的一员。您和燕人等网友在气氛不那么理想的情况下,依然在西西河坚持发帖,是我们来西西河的最大动力,说到宝推,很惭愧,我们有时为了明哲保身,我们连给你吗帖子送花都省了。
对于这个匿名帖子,花宝并不给真实作者,所以无所谓的。您能看到回帖,已经是对我写这个帖子最大的慰藉。
我写这个帖子希望是尽量降低“抓特务”行为,而不是去把这个行动搞得更热火朝天。虽然具名提到了五个ID,其中三个其实是试图帮助他们的。另外两个确实是因为他们做得太过分了,我才走到这一步的。至于和他们以及其他几个ID强相关的那个网友,我还是不点名了。虽然他们有时互相声援,但我没看到过这个网友有污言秽语。如果跟某个西方电影说的那样,一个人或组织,有dark side,也有bright side,那我希望能够鼓励他(们)bright side的那一面。
另外匿名以后不可追溯。其实无法确证我这个帖和主题帖出自同一个作者。因此除非给出数据计算的支持,如果有人或明或暗给您提供一个名字,大概率是假的。
至于和网友相处,我觉得没必要受这个事情影响,原来该怎么样还怎么样。但是如果涉及现实中的隐私和金钱往来,我建议永远慎重。我个人从不相信没有线下交集,仅从线上认识的任何人。
您不用给我送花,现在送花的ID是可以被看到的。
我宝推您,是宝推您代表的一些河友。
这也是我对大家想说的话:不用送花,心领了。
生活不易,希望大家安好。
我提这个建议的出发点是:那些人中,比较理性的还是有的,我不希望因为猜疑而殃及无辜。当然你不想提了,完全可以的。
我们在这个河里,贡献自己的人生,也旁观。有些人累了;有些人对久远过去所做的人生抉择感到后悔,需要发泄;所有人都焦虑、失望、略无助。
这都很正常,就像《魔戒》里精灵王的台词:Man is weak。
我们只是不巧目睹有几个人,真是扛不住自己内心的压力和反噬了,到处打扰别人。就那么点事,说到底我们也爱莫能助,随便吧。
西西河愈来愈象精神分裂症患者!
我写这个帖子希望是尽量降低“抓特务”行为,而不是去把这个行动搞得更热火朝天。
实际上,您的见解效果适得其反吧?哈哈!
我是那个沉默的多数的一员。您和燕人等网友在气氛不那么理想的情况下,依然在西西河坚持发帖,是我们来西西河的最大动力
抱歉!方平兄、神仙驴、葡萄等人才是我们继续关注西西河的动力,同样,西西河也让我们见证了本嘉明兄、燕人等的蜕变……封控与放开、乌还是俄真是两把再次撕裂、分野的锐器。当年,追着萨苏的蓝天轶事来到了西西河,相继目睹了忙总、抱朴仙人、萨苏、万里风中虎、京华烟云、喜欢就捧捧场、高子山、陈郢客、井底望天、晨枫、黄河故人等人以各种原因、各种方式离去,有些河友也久未谋面,岁月真是把杀猪刀!不知不觉间,已紫了樱桃,黑了芭蕉……
也感谢您和本嘉明兄、方平兄等的善意提醒!
至于和网友相处,我觉得没必要受这个事情影响,原来该怎么样还怎么样。但是如果涉及现实中的隐私和金钱往来,我建议永远慎重。我个人从不相信没有线下交集,仅从线上认识的任何人。
大家以为您故弄玄虚或弄虚作假,也让大家学到新知识新方法增长见益,验证您所用方法的准确度,验证您所说的ID是否与您指责的两个ID具有强关联性。
事实上,他们两个ID,以及给该主题帖宝推的若干ID,都和某个至今尚未在这个楼中出现的ID有强相关,在0.8~0.9之间。从他们发文历史看,虽然意料之外,却也情理之中。如前所述,我是顾及网友隐私的,就不在这里点他名了。
另外,我想搞清楚,您采用的是多长时间的数据来验证大胖子和菜根谭两个ID和您所说的某个至今尚未在这个楼中出现的ID的强相关?毕竟送花显示ID是近期的事,那宝推呢?他们是因为近期在某贴某楼发言找到共同语言、联袂出击?还是连续几年以上相互吹捧、宝推、攻击别人,沆瀣一气,搞得河里乌烟瘴气,污秽不堪?
其实,比使用马甲更恶劣的,是用马甲互相宝推,送花。虽然现在规则只能看到若干天内的送花记录。但是西西河的宝推记录历史是可以看到的。菜根谭和大胖子,以及他们同伙ID,互相宝推有多频繁,老用户应该心里有数。通过相互宝推记录其实也可以得到一个ID的团簇,扯出萝卜带出泥。如果我去把这些数据也算一下摆出来,怕是难看得很。做人留一线,日后好相见,到此为止吧。
您的立场实际已经亮明,君子坦蛋蛋,小人藏鸡鸡,有什么不可见人的嘛,既然您把沉默的大多数都给代表了,也让大家看看您是否具有代表性好吗?
“希望大家把精力放到如何发些有趣有益的帖子上来。人家建立一个网站不容易,你们多想想怎么建设,而不是破坏这个来之不易的环境。”
==
“关注发帖的内容,而不是发帖的ID”,楼主匿名发帖的方式秉承了自己的观点,言行合一。赞!