主题：【原创】基于西西河发帖时间戳的河友发帖习惯分析 -- 菜根谭

共:💬52 🌺415 🌵5

大浪淘沙

分页树展主题 · 全看首页上页下页末页

- - - - 复抬杠的麻烦在于定义、加上对方无视定义
        家园 南寒河友你这是拍着和尚骂秃驴
      - 复抬杠的麻烦在于定义、加上对方无视定义
        家园 知我者，南寒兄也！
        你抬杠这种，大概可以叫看见二傻子压不住心头暗喜
        我真的很多次，一边杠，一边忍不住偷笑。😂😂😂
        现实生活中，去哪找这么多的对手陪我玩啊！
- 复【原创】基于西西河发帖时间戳的河友发帖习惯分析
  家园 别费劲了，其实沉默的大多数
  还是能看出来哪些人可以直接屏蔽的
  那几个干脏活的id直接屏蔽算了
  水至清则无鱼
  太干净的环境，人容易过敏不是
- 复【原创】基于西西河发帖时间戳的河友发帖习惯分析
  家园 用发帖时间相关性鉴别马甲，并不是很有效的方法
  首先声明一点：我玩鉴别马甲，是很多年前的事了。很多相关技术在不断进步，因此我写的这些，只能是仅供参考。
  用发帖时间相关性鉴别A是否是B的马甲，是基于一个主观假设：即A与B如果发帖时间相关性很高，那么他们大概率互为马甲。
  很可惜，这种假设是比较简单粗糙甚至粗暴的。一个极端的反例：如果A看B不爽，且有大量时间泡在河里，时时关注B的每一个发帖。一旦B发了任何贴，A立即追着发帖骂 ----- 这种场景下，A与B的发帖相关性接近于1.0 ---- 能说A是B的马甲嘛？
  更一般性的例子，譬如我生活在北美，一般周末或者美国特有的假期，发帖时间比较多。如果有另外一位不相识的但同样生活在北美的河友也是这么个习惯，那么我与他就一定互为马甲？
  想有效的鉴定马甲，技术路线有很多种。但是，仅用发帖时间相关性----- 这么一个特征向量，是远远不够的。严格说，这个特征向量，尚未触及到鉴定马甲的真正技术实质。
  比较专业的方法，是通过用户的发帖文本特征的相似性来鉴别每一个用户。对每个待分析的用户，抓取其发帖的大量文本，进行自然语言处理（NLP），即进行分词、语法分析、语义分析、建立实体（entity）数据库，提取出所有相关文本特征向量（X个）。因为发帖类型不同，可能还得分类（Classification），当年我们作新闻时，分为八大主类、N个小类，比如政治新闻用语肯定与商业、体育等类完全不同（如何有效分类，则是另一个专业技术范畴，这里略过不谈）。
  完成以上工作后，先拿其中的80%数据作为训练样本，通过某种Machine Learning算法（简单的比如SVM），学习出每个特征向量的权值。
  最后就是用剩余的20%数据，测试你训练的结果是否有效。如果无效，那就得回头抓取更多的文本样本，作更细化的分类，提取更多的文本特征向量 ---- 重新训练，如此循环。
  另外，由于用户的发帖习惯会随着时间改变，所以训练得不断更新。
  看到这里：我真正的想说的话，兄台应该已经明白了 ---- 您真值得花这个功夫搞马甲鉴定嘛？
  如果真想搞，不如考虑去Google、Bing、百度做个Sabbatical ，看看人家专业公司的现成工具都用了啥。
  毕竟隔行如隔山，很多看似简单的事，也是需要比较多的技术积累的。
  下河嘛，聊个天而已。合则回，不合则划过而已。有那个功夫，看点开心的帖子，不亦乐乎？
  通宝推：zwx650,凤城,广宽,小泽珍珠,广阔天地,宏寺,中华土狗,rentg,方恨少,既然青春留不住,曾经是铅笔,史料推理,闻弦歌,燕人,菜根谭,
  - 复用发帖时间相关性鉴别马甲，并不是很有效的方法
    家园 您这是工程思维,太较真了
    楼主那个是教学思维。感觉只是出个题目给学生做着，有点事干，练练手，顺便做个project或者应付个毕业论文。
    目的不是真抓马甲，更多是让学生把这个流程跑下来，增加点收据数据和利用数据的感性认识。至于具体用什么分析方法，怎样提高各种indexes，那都是future research
  - 复用发帖时间相关性鉴别马甲，并不是很有效的方法
    家园 马甲只是表面现象
    真正的问题是某些ID言行的不一致性。如果连基本的言行一致都做不到，那我只能认为这些ID不是来交流的，也谈不上什么有益有趣了。
    - 复马甲只是表面现象
      家园 确实如此！即使原来不是，马甲用时间久了，也会趋向精神分裂的
  - 复用发帖时间相关性鉴别马甲，并不是很有效的方法
    家园 专业。
  - 复用发帖时间相关性鉴别马甲，并不是很有效的方法
    家园 你这个方案，缺点在于训练标注不够
    你要从语言特征找出同一个人，起码要有大量的数据确定某些是同一个人，另一些不是同一个人。但是这个数据是不容易得到的。同一个人好说，同ID文本数据可以任意劈两半。但是对于不同一个人，就难说了。特别是你不知道多大比例是马甲发帖的时候。
    另外
    因为发帖类型不同，可能还得分类（Classification），当年我们作新闻时，分为八大主类、N个小类，比如政治新闻用语肯定与商业、体育等类完全不同（如何有效分类，则是另一个专业技术范畴，这里略过不谈）。
    吃力不讨好。这个完全是浪费人力算力。只靠语言本身就够了。语言习惯才是变化中的不变量。
    - 复你这个方案，缺点在于训练标注不够
      家园 不是只有监督学习才是机器学习
      这种分析可以用无监督的算法，比如聚类分析。
      - 复不是只有监督学习才是机器学习
        家园 没有标注，你聚几个类？
        数目少了，大量人都聚在一起；数目多了，一个人都会被分在多处。
  - 复用发帖时间相关性鉴别马甲，并不是很有效的方法
    家园 还有一个可能，符合我的懒人做法
    就是不同马甲在不同机器上，不同机器在不同地方，则马甲可能反而不同步。
    - 复还有一个可能，符合我的懒人做法
      家园 完全有可能
      比如桌面电脑一个ID，笔记本一个，ipad一个，几部手机一部一个……
  - 复用发帖时间相关性鉴别马甲，并不是很有效的方法
    家园 方老师的方法如果能实现就好了
    - 复方老师的方法如果能实现就好了
      家园 技术上绝对没问题
      但是，实现起来不便宜。。。。。

分页树展主题 · 全看首页上页下页末页

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明