五千年(敝帚自珍)

主题:【原创】《十九大报告》之数据挖掘解读(1) -- 奔波儿

共:💬15 🌺216
全看分页树展 · 主题 跟帖
家园 【原创】《十九大报告》之数据挖掘解读(6)

历次报告背后是否有不同的笔杆子?

肯定是不同的,而且这种长篇大论肯定不止有一位笔杆子。能写这种文章的上书房行走,不但得有满腹经纶,而且善于揣摩上意。但如果能分析一下报告的行文特点,也许能从统计分析的角度看出政治风向的变化。

这里所用的方法是“主变量分析”,即挑出排名靠前的30个关键热词,然后统计一下这些词语在报告文本(十四大至十九大)中各自所占的百分比,这就形成了一个6X30的数据矩阵,每一行代表一个该报告在一个30维空间中的坐标,然后就可以进行主变量分析了。最后,将各个词语所代表的坐标轴,以及六次报告的位置投影到第一主变量(PC1)和第二主变量(PC2)的平面上。

点看全图

外链图片需谨慎,可能会被源头改

如上图所示,386的三次报告1992、1997和2002比较分散,其中,1992离“经济”最近,2002居中,中正平和,或者说“面面俱到”。486的两次报告,即2007和2012处于左下方,明显是一套风格,喜欢“发展”和“促进”,远离政治意味浓厚的词汇。而586呢,高居左上角,与前两任完全不同的风格,其(十九大)报告中强调的是“党”、“政治”、“人民”这三个名词,再加上“必须”和“实现”。这与前面分析中发现的“党的领导”和“政治”会加强的结论吻合。

如果纯用单个汉字(去除“和”、“是”、“的”这类无意义词后)看一下,我们得到了类似的分布特征。

点看全图

外链图片需谨慎,可能会被源头改

2002居中,没有鲜明特点,1992和1997靠右侧,不远处是“经”和“济”。2007和2012在左下角,2017高悬于左上角,旁边站着“党”字。

好了,就到这里。

通宝推:xhUserI,秦波仁者,mezhan,起于青萍之末,
全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河