五千年(敝帚自珍)

主题:【原创】基于西西河发帖时间戳的河友发帖习惯分析 -- 菜根谭

共:💬52 🌺415 🌵5
全看树展主题 · 分页首页 上页
/ 4
下页 末页
家园 别费劲了,其实沉默的大多数

还是能看出来哪些人可以直接屏蔽的

那几个干脏活的id直接屏蔽算了

水至清则无鱼

太干净的环境,人容易过敏不是

家园 单一指标确实没有多大参考意义,辨别需要多个维度一起作用

菜根谭提出了两个维度

1. 发帖时间的相关性分析

2. 发帖人的人设、自称所在地的作息习惯,与发帖时间不符。

增加一个维度后的研究,可靠性会大大增加。

而那位匿名的小弟玩了个断章取义的把戏。

我在东八区,东八区的人多了,我和几亿人作息时间差不多,即使在河里估计也有几百大陆河友,作息时间也差不多。按照那位匿名河友的逻辑,这几百人都是我的同党。

通宝推:金银鑫,菜根谭,

本帖一共被 1 帖 引用 (帖内工具实现)
家园 非常有道理,这种方法很有局限性,但是也有一点用处

这种方法只能用于估计发帖人所生活作息的时区:

这一点还是比较准确的,虽然由于生活作息不同,可能产生误差,但是误差也就在几个(~2)小时之内.

这次分析这些存疑ID有点说服力也是因为:

1. 部分ID 自己宣称生活在国内,和分析出来的他们作息时区差10个小时以上,证实他们撒谎。;

2. 所有我分析过的这些存疑ID不论何种人设,分析出来他们都生活在大概1-2时区内,集聚了。

家园 方老师的方法如果能实现就好了
家园 这些ID就是无聊而已

理解也不反对你的做法和提法,但我觉得这些人就是无聊而已,无聊又心力不逮,有的再加上深深的怨恨。我记得老铁有个帖子隐含的意思是一个拜炖的ID有很多马甲,而且还玩暴露过一次。发帖时间分布大概只能推断两个ID作息时间相似;老铁后面能看到IP能证明这些ID用的是同一个网络接口。你要是再加上点初级的语言模型(就是现在大街上人人都是砖家的AI的入门级的东西)、能证明TA们语言风格类似;但机器看到这些能力低下的语言也会吐吧;就好像专业的科学家们一般不会去看那些只有基础知识的人搞出来的对那些大命题的“研究”,在这些ID上面值得花的时间和精力大概到蜻蜓点水的度就算多了吧。而且,TA们的问题是无聊,你给TA们任何关注,无论是正面还是反面,都是在激励TA们。

通宝推:凤城,方平,广宽,菜根谭,
家园 既然装理中客就不要拉偏架嘛

殖人固然不好听,也就是个政治标签,类似你为之辩护的那几个ID经常使用的小红粉,五毛,颂圣党.....还有你为了理中客装得逼真用XX代替的名词,有啥区别?

“阉人“算是是骂人了,但有几个ID我只记得的翼地,西安笨老虎这俩吧也总喜欢在对我投草时骂”这厮“,”那厮“什么的。我也一点不介意,只会好笑有话要说为什么不回帖辩,要投草时骂人,而且是经常性的,颇有泼妇在大街上追着屁股后面骂的那种架势(哈哈,我又骂人了)。

你要拉偏架就拉,立场相近的人抱团取暖也正常,怀疑或者被人怀疑是五毛或CIA外围1450拿钱水军.....都正常。

但装理中客拉偏架,装得过头了恶心人

通宝推:心远地自偏,
家园 你这是觉得我写的太抽象啊

帮我加了一个注解。

你大概写了200多个字吧。你说看你这200个字是不是浪费了看帖的人10几秒钟。

我本来也没想装理中客。网站上素质低的数不胜数,沙子里面挑饭,这就是现状。立场是左是右有什么了不起?这又不是文革,难道还有那一派是天然正义那一派需要被批判?

这个网站是有初衷的:弘扬中华文化,交流有趣有益。 你自己把你自己所有写的东西翻出来,那个对得起这四个字? 我看你倒是专门喜欢骂对得起这四个字的那几个ID。

我也不想拉架。作为东北人,更喜欢打架。 当然这岁数早就打不动了,也不想打了。人蠢自有生活去教育,我不欠谁的,连教育自己孩子都是尽力而为,还教育什么网友?所以我觉得国内喜欢颂圣的/厉害的我的国的,国外喜欢说美帝无敌/民主万岁的,都是应该鼓励的,起码你挑不出毛病。因为知行合一啊。 但是反过来的就值得警惕了。有这么个交流的平台不易,且用且珍惜。

我写的的确就是帮@燕人,@本嘉明,@拜登等一帮人助拳(没加上名字的勿怪)。他们写的很多东西,我也没仔细看。很多内容观点和过去的类似,就不耽误时间了。但是看着反胃的是一帮在下面留言的,几十个字,一堆脏话,让我有种“我怎么堕落到上这个档次的网站”的感觉。 最近又升级成什么抓马甲抓特务之类的。我看着都有点尴尬的不行:你是谁啊/这个破网站是谁啊,值得弄个特务来影响你。你不知道特务也是很忙的吗。

通宝推:卡路里,
家园 技术上绝对没问题

但是,实现起来不便宜。。。。。

家园 会不会菜根谭也是有点无聊

我承认,我无聊的时候会上来找人杠一下。。。。

家园 你有没有拉偏架,送花的宝推的那几个ID目光如炬 ,我说了不算

他们的一致行动正好给对立面提供了各种猜测的依据。但只要你承认拉偏架不好就成。

我认同你说哪几个ID是特务没有靠谱的依据,不过人家也就是猜测,也犯不着你动怒连写远超200字的雄文耽误大家的时间。

互联网上没有人知道网线对端跟你对话的是人还是狗嘛,除非你有他们不是特务的确切证据。

都是主观感受和猜测,你可以别人不可以,这不行。

通宝推:绝望坡前,心远地自偏,
家园 还有一个可能,符合我的懒人做法

就是不同马甲在不同机器上,不同机器在不同地方,则马甲可能反而不同步。

家园 你这个方案,缺点在于训练标注不够

你要从语言特征找出同一个人,起码要有大量的数据确定某些是同一个人,另一些不是同一个人。但是这个数据是不容易得到的。同一个人好说,同ID文本数据可以任意劈两半。但是对于不同一个人,就难说了。特别是你不知道多大比例是马甲发帖的时候。

另外

因为发帖类型不同,可能还得分类(Classification),当年我们作新闻时,分为八大主类、N个小类,比如政治新闻用语肯定与商业、体育等类完全不同(如何有效分类,则是另一个专业技术范畴,这里略过不谈)。

吃力不讨好。这个完全是浪费人力算力。只靠语言本身就够了。语言习惯才是变化中的不变量。

家园 抬杠的麻烦在于定义、加上对方无视定义

如果你不是靠上网混饭吃或者打发余生,工作学习生活之余,网上看看写写,大概可以算成放松。我无聊的标准或者是车轱辘话反复倒、或者有热点必蹭、没有热点创造热点来蹭。白菜老兄这种,我把它算成看见二傻子压不住火😠;你抬杠这种,大概可以叫看见二傻子压不住心头暗喜😂

家园 说错了!都是你的马甲!哈哈!

我在东八区,东八区的人多了,我和几亿人作息时间差不多,即使在河里估计也有几百大陆河友,作息时间也差不多。按照那位匿名河友的逻辑,这几百人都是我的同党。

家园 完全有可能

比如桌面电脑一个ID,笔记本一个,ipad一个,几部手机一部一个……

全看树展主题 · 分页首页 上页
/ 4
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河