五千年(敝帚自珍)

主题:【原创】基于西西河发帖时间戳的河友发帖习惯分析 -- 菜根谭

共:💬52 🌺415 🌵5
全看分页树展 · 主题 跟帖
家园 用发帖时间相关性鉴别马甲,并不是很有效的方法

首先声明一点:我玩鉴别马甲,是很多年前的事了。很多相关技术在不断进步,因此我写的这些,只能是仅供参考。

用发帖时间相关性鉴别A是否是B的马甲,是基于一个主观假设:即A与B如果发帖时间相关性很高,那么他们大概率互为马甲。

很可惜,这种假设是比较简单粗糙甚至粗暴的。一个极端的反例:如果A看B不爽,且有大量时间泡在河里,时时关注B的每一个发帖。一旦B发了任何贴,A立即追着发帖骂 ----- 这种场景下,A与B的发帖相关性接近于1.0 ---- 能说A是B的马甲嘛?

更一般性的例子,譬如我生活在北美,一般周末或者美国特有的假期,发帖时间比较多。如果有另外一位不相识的但同样生活在北美的河友也是这么个习惯,那么我与他就一定互为马甲?

想有效的鉴定马甲,技术路线有很多种。但是,仅用发帖时间相关性----- 这么一个特征向量,是远远不够的。严格说,这个特征向量,尚未触及到鉴定马甲的真正技术实质

比较专业的方法,是通过用户的发帖文本特征的相似性来鉴别每一个用户。对每个待分析的用户,抓取其发帖的大量文本,进行自然语言处理(NLP),即进行分词、语法分析、语义分析、建立实体(entity)数据库, 提取出所有相关文本特征向量(X个)。因为发帖类型不同,可能还得分类(Classification),当年我们作新闻时,分为八大主类、N个小类,比如政治新闻用语肯定与商业、体育等类完全不同(如何有效分类,则是另一个专业技术范畴,这里略过不谈)。

完成以上工作后,先拿其中的80%数据作为训练样本,通过某种Machine Learning算法(简单的比如SVM),学习出每个特征向量的权值。

最后就是用剩余的20%数据,测试你训练的结果是否有效。如果无效,那就得回头抓取更多的文本样本,作更细化的分类,提取更多的文本特征向量 ---- 重新训练,如此循环。

另外,由于用户的发帖习惯会随着时间改变,所以训练得不断更新。

看到这里:我真正的想说的话,兄台应该已经明白了 ---- 您真值得花这个功夫搞马甲鉴定嘛?

如果真想搞,不如考虑去Google、Bing、百度做个Sabbatical ,看看人家专业公司的现成工具都用了啥。

毕竟隔行如隔山,很多看似简单的事,也是需要比较多的技术积累的。

下河嘛,聊个天而已。合则回,不合则划过而已。有那个功夫,看点开心的帖子,不亦乐乎?

通宝推:zwx650,凤城,广宽,小泽珍珠,广阔天地,宏寺,中华土狗,rentg,方恨少,既然青春留不住,曾经是铅笔,史料推理,闻弦歌,燕人,菜根谭,
全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河