主题:【原创】关于西西河发帖和得花的一些统计与分析 -- Adol
8 西西河的支流
上一节的思路是,首先考察id之间的相似度,然后根据两两之间的连线,进一步组成了有内在共同话题的小圈子,小圈子又通过“话题多栖”的大牛们,形成了完整的西西河。这一节换一个角度,直接把目标放在“西西河的话题”上。
数据还是那么多,虽然目标是“西西河的话题”,但途径还得是“西西河的人”。和上一节的思路一致的是,西西河的人,还是作为一个个参与主题的集合来研究;但区别是,不再假设任何概率分布,采用一种类似于度量的方式衡量河友之间的相似度。一般来说,Jaccard相似系数可以用来衡量两个集合A与B间的相似程度,是A与B交集的元素个数与并集的元素个数的比值:(摘自wiki)
放到我们的问题里,就是河友之间的相似程度是共同参与主题的个数与各自参与主题并集的比值。仍然是考虑到上一节所述的第三点和第四点的影响,我对这个相似度做了如下修正:
(1) 赋予每个元素,即主题一个权重来衡量其在计算相似度时的贡献,这个值是944名注册用户中,回复该主题人数r的倒数。
(2) 和上一节一样,在计算每个河友各自参与主题数量的时候,只计算“最后一次被944名用户之一回复”晚于“较晚下河的河友注册时间t=max(A注册,B注册)”的主题数量。
做出这种修正后,我仍然不能保证河友间的相似度或反之,距离,满足度量的要求(非负-有,对称-有,同一-大概是没有,但是不太可能发生两个河友回复完全相同主题的例子,三角不等式-不确定,估计是没有)。
通过上面的方法计算了河友之间的相似度之后,使用K-均值聚类,对积分排名前400名的河友进行聚类,步骤如下:
(1) 随机指定k个河友作为聚类的中心;
(2) 计算所有河友到这k名河友的相似度,并分别归类至与中心河友相似度最高的一类;
(3) 在每个类别之内,计算类内河友之间的相似度,并选取使类内其他河友与自己相似度之和(这个地方我在犹豫是不是应该用平方和,结果略有不同)最大的河友为新的中心;
(4) 如果新的中心和旧的中心完全一致,算法停止,否则回到(2)。
至于初始的类别个数,最小值便取“有人的地方就有左、中、右”的3,最大值便取西西河的8个大板块:“股海”“视野”“广场”“人文”“生活”“科经”“英雄”“辅助”,再把“视野”分为“左、中、右”的10。
对3-10个的每种类别,分别重复搜索100,1000,10000次(每次随机不同的河友作为初始类别中心),共搜索800,8000,80000次,找出聚类中心800,8000,80000组,找出中心河友5200,52000,520000人/次,收敛至聚类中心次数大于100,1000,10000的河友见下表:
结果完全一致,说明了这10名河友,不一定是起到核心的作用,而是能够比较心无旁骛地专注于自己关心的话题,同关心这类话题的其他河友有着良好的互动,从而作为类别的中心被筛选了出来。但是,这并不是说我们就有10个类别。因为K-均值聚类不能保证收敛到最优解,所以这10名河友可能是若干次优解的合成。
所以我统计了在10000次随机中,上面找到的任意两个类别中心同时出现的次数,可以发现有些中心会频繁地同时出现,代表了他们存在于一个解中,另外一些中心有互斥性,同时出现的几率较小,说明他们关注的话题较类似,也都与类别内的河友互动良好。丢掉上表中所有同时出现次数小于4000次的河友中更不具代表性的一方。我们得到了5名河友组成的类别中心:萨苏,葡萄,李禾平,燕庐敕,大秦猛士。以这5个中心作为初始中心进行聚类,发现直接收敛,我认为这5名河友代表的5个类别,可以作为西西河5条支流的最优解。在这个结果中,我们多少可以看到一些东西,但是也没那么明显:大致上,第3、4组似乎对政经版块关注度不高;第2、5组较高,其中第2组似乎更偏重经济;第1组介于两者之间。
这个聚类结果,之所以呈现比较混沌的样子,是因为K均值聚类,本身就十分依赖于类别中心的选择。而在这一节,因为数据都是二元的,且经过了“(2)注册时间的筛选”之后,每对河友之间共享的主题向量长度也不一样了,即使加上权重,我也没想出来如何使用欧氏距离来作为分类的依据,只是估算了每两个数据点之间的“距离”,其结果就是,我的类别中心,也不得不依赖于一个数据点,而不是真正的“类别中心”。
河友的关系是网状的,以某个可能比较接近类别中心的河友来代替真正的类别中心,可能存在一些问题。因为偶然的因素,部分河友会被误分类,如果类别中心的河友涉猎比较广泛,还会带来区分度不足的问题,在政治相关的分组中,这个问题更明显。
不过,涉猎广泛的河友,是聚类的阻碍,却是西西河不同支流的交汇点,有了他们,西西水系才是相通的。之所以政治相关分组中这个问题尤其明显,大概是因为,不管对其他什么感兴趣的人,也总是对政治有所关注吧,从这个角度说,没了政治,西西水系说不定也汇聚不成一条河呢,虽然大家汇聚之后就立刻为谁才是正统源头争论起来了。国际标准说:河源唯长、流量唯大、与主流方向一致。这个……要是前两条就矛盾了,这怎么办?
还有一种偏差,不仅是这节的方法,上一节的方法也同样存在,就是虽然在得花计算中,早期发帖多的河友吃亏了,但是在相似度计算中,早期发帖多的河友却占便宜了:如果两个河友都注册很早,早期帖子少,大家低头不见抬头见,一般都会共同参与不少主题,特别是早期发言多,后期渐渐发言变少的河友,更是如此。(当然,这样本身也会促使早期河友互相熟悉,高相似度倒也不能说是错的,只是在根据话题试图聚类的时候,会有偏差)说到底,这是河里主题随时间分布不均匀所导致的。
以上是后面结果的一些缺陷。
附聚类结果如下:
第1组:萨苏,忘情,黄河故人,njyd,抱朴仙人,双石,铁手,当生,史老柒,老拙,喜欢就捧捧场,errorking,老引北京,神仙驴,北宸,daharry,观望者,铸剑,楚庄王,冰排冻骨,马伯庸,MacArthur,鳕鱼邪恶,妖猫drake,蝶舞春园,春秋的老胡,呆鹅,dreamflyer,huang,巅峰背影,路人癸,桃源客,住在乡下,不爱吱声,天马行空,乡间小径,lanchong,北京雪君,锦候,东张西望,沙海,顾剑,猫元帅,邓侃,cpcliusi,r33300,gaogeli,配合配合,子奉不语,四月一日,尼伯龙根蜗藤,少壮军人,懒厨,秋原,米高扬,淡淡微风,一直在看,潜恒,毛锥子,大圆,暗香疏影月黄昏,陆伯楠,逍遥探花,空船,Highway,胡亦庄,夜月空山,aokrayd,q42474112,温相,苏迅,纪琮,农民家的狗,菜菜丛,龙骑兵,海天,chaos,pxpxpx,香山居士,马哥,过失速,奥森,无明火,龙驹坝,mezhan,笑吟,珊珊一何迟,小山,快刀浪子,老农民;
第2组:wxmang,井底望天,葡萄,陈经,万里风中虎,唵啊吽,本嘉明,陈郢客,子玉,老广,MRandson,yuanap,西瓜子,非闲人,曾自洲,厚积薄发,加东,wolfgan,迷途笨狼,PBS,孤舟一叶飘,Javacai,我爱莫扎特,早春二月,随性自在,Levelworm,wxmang的书童甲,密支那,应侯范雎,Mtknr20,aiyoho,SkyWalkerJ,潘涌,天堂,wild007,宁鸣,JACK船长,GWA,witten1,wukw,寒冷未必在冬天,mandman,郭嘉,脑袋,颜子,无所事事,hwd99,捷克,黄河清,一二三四,青衣江水,无聊中,sweeter,苹果乐园,none空空,autoeagle,大井故事,副将;
第3组:landlord,王外马甲,大懒虫1号,履虎尾,东湖珞珈,二宝,夏翁,李禾平,电子赵括,水风,盈盈,梦秋,苹果,myDday,逸云三洲,喜欢,老叶,容易,五度,holmers,大鹏翔宇,Samsung,西安笨老虎,山而王,冰冷雨天,非,宝贝小猪,桃李不言,爱莲,肥肥烤猪,绿野仙踪,holycow,梁东,1001n,老票,潮起潮落,所以我才飞好远,碎片与记录,柴禾儿妞,寞洑,大眼,神游,jufeng,踢细胞,霜迹板桥,闲看蚂蚁上树,擎箭天使,oiler2,巴山夜雨,润树,闲来有事,衲子,完颜陈和尚,苹果核的复仇,四处晃荡,黄有财,bluesknight,韦红雪,第二基地,海底鼠拨土,爱屋及乌,大厨,瘦形胖子;
第4组:晨枫,橡树村,李根,雪个,煮酒正熟,GraceUSA,老马丁,老光,思炎,燕庐敕,玉垒关,马鹿,虽远必诛,月色溶溶,范适安,游识猷,dahuang,瓦斯,大地窝铺,老老狐狸,coo,嘉英,九霄环佩,牛铃,穿越,阿辉1,物格修齐,dfindy,采薇,定远麾下,爱菊轩,飞天鸭,山有木兮,禅人,草纹,要你命3k,天地一沙鸥,老驴,atene,燕人,潜了又潜,七月群山,一条溺水的鱼,兰凯,王二狗,新长城,大西洋14,不感冒,cococal,zlusc,高子山,路边,柳叶刀,希宝,马头磬,一无所之,红男爵,不打不相识,俺老孫,山远空寒,车雨田,飞马萧,贪玩的风筝,廖石,王树,奔波儿,长少年,kmy1810,淮夷,静然如此,公鲨,nightcat,喜欢喝冰茶,jet,荷子,Che,年青是福,逐水而行,请我吃饭,落九天,redbud,北溟有鱼,千岭,树袋熊毛毛,风的笑容,苏鲁锭长枪,北京阿新;
第5组:南方有嘉木,史文恭,达雅,黑岛人,Emyn,Alarm,雪里蕻,szbd,ifuleu,种植园土,洗心,故园湾里,江城孤舟,泉畔人家,马前卒,赫然,发了胖的罗密欧,苍野,赫克托尔,左手拈花,江南水,大秦猛士,青色水,渡泸,森林鹿,科大胡不归,任爱杰,frnkl,秋末冬初,fakeone,罗化生,桃子甜,渔樵山人,whatever,河蚌,回旋镖,AleaJactaEst,冰雨,同人于野,猪头笨笨,南渝霜华,虎头,夹报纸的怪叔叔,镭射,南疆,wage,蚂蚁不爱搬家,驿路梨花,无事忙,不远攸高,littles,隔路山贼,代码ABC,方解石,周师傅,东方红卫士,常识主义者,雷声,兰州人,桥上,花大熊,iwgl,卷心菜,fighterbruno,南京老萝卜,契毖何力,leqian,须弥一芥,东方射日,简裕,李寒秋,特里托格内亚,什刹海良民,朱测,纹石,温雅颂,天煞穆珏,胡一刀,非真,尖石,四处张望,友来有趣,流川,bigwolf,上古神兵,方恨少,芝牛,forger,小乌龙,明日枯荷包,我们的田野,米宝,yhz,大脚丫,laska,王小棉她妈,企鹅,花差花差农民,南寒,葫芦牛仁,乌贼,断臂残刀疲败兵。
9 小结
写得太长了,最初没想到能写这么长。最后小结一下本文通过数据观察到的一些结论:
(1) 西西河的4个时期;西河历1-18月,幼年期;西河历19-58月,成长期;314事件以后,政治对西西河影响明显加大;西河历87月至今,尚待观察;
(2) 西西河受墙的影响很大,特别是314事件以后国内用户增多,河内所关注的热点的主导权,逐渐从海外河友转移至国内河友;
(3) 西西河对用户的吸引力没有特别的趋势,314事件提高了西西河的影响力,但是也引入了争吵的源头。尽管从数据上来说,最近一年的用户趋势有失真的可能性,但是结合我们的经验,特别是第8节中关于用户组的分析,我认为不容乐观——一个人的淡出可以弥补,但是一个组的淡出会减少话题的丰富程度,使政治化进程加剧,去政治化进程更艰难;
(4) 西西河的鲜花在衡量文章受欢迎程度的功能上是贬值的,西河历87月以前,主要受到注册用户人数增加的影响,含金量和时间成反比,通宝改革以后,主要受到政策影响,用户送花意愿明显提高,目前的鲜花只相当于开河时的1/8不到;
(5) 西西河是有主流价值观的,归结起来似乎就是——“讲学习,讲政治,讲正气”:所谓“讲学习”,就是欢迎知识,在理性主导的版面中,特别注重实事求是;所谓“讲政治”,就是西西河尽管有各种各样的观点,但还是有一些共同的底线的,碰了这个底线,后果很严重;所谓“讲正气”,就是西西河是讲道德的,传统道德是受欢迎的,在感性主导的版面中,要注重道德上的正义;
(6) 西西河是一个小社会,河友之间有远近亲疏,有共同爱好,也有共同话题,通过一些统计和学习的方法,能够在一定程度上描述这种现象,可能没有达到实用的标准,限于水平,本文也没法给出理论上的证明,只能通过直观感受给出一些解释,但是希望这些探索能够提供一些思路,对西西河的发展有益。
全文完
本帖一共被 3 帖 引用 (帖内工具实现)
- 相关回复 上下关系8
🙂谢谢鼓励! 1 Adol 字0 2011-09-19 02:58:41
🙂这个东西用来对付单个人是很可怕的,没有秘密可言了 庄汀 字0 2011-09-18 23:15:10
🙂兴趣使然啊,我以为是毕业设计呢。呵呵 1 小楼飘香的马甲 字37 2011-09-17 01:18:12
🙂【原创】(七)西西河的支流,并小结(完)
🙂想挖河泥,盯住这个帖子深入挖掘即可 1 迷途笨狼 字0 2019-01-29 09:58:03
🙂做统计的飘过 2 jxl 字28 2011-10-16 21:21:20
🙂虽然鲜花贬值,不过俺 还是要送一朵! 1 黄河清 字0 2011-09-21 06:52:29
🙂真是准确又厉害 3 金口玉言 字170 2011-09-18 20:50:20