五千年(敝帚自珍)

主题:【原创】基于西西河发帖时间戳的河友发帖习惯分析 -- 菜根谭

共:💬52 🌺415 🌵5
全看分页树展 · 主题 跟帖
家园 你这个方案,缺点在于训练标注不够

你要从语言特征找出同一个人,起码要有大量的数据确定某些是同一个人,另一些不是同一个人。但是这个数据是不容易得到的。同一个人好说,同ID文本数据可以任意劈两半。但是对于不同一个人,就难说了。特别是你不知道多大比例是马甲发帖的时候。

另外

因为发帖类型不同,可能还得分类(Classification),当年我们作新闻时,分为八大主类、N个小类,比如政治新闻用语肯定与商业、体育等类完全不同(如何有效分类,则是另一个专业技术范畴,这里略过不谈)。

吃力不讨好。这个完全是浪费人力算力。只靠语言本身就够了。语言习惯才是变化中的不变量。

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河