五千年(敝帚自珍)

主题:【原创】《十九大报告》之数据挖掘解读(1) -- 奔波儿

共:💬15 🌺216
全看分页树展 · 主题
家园 【原创】《十九大报告》之数据挖掘解读(1)

注:本文主要做技术上的文本分析,恕不参与政治讨论。

收集了17、18和19大的三次讲话,前两次是胡锦涛,这次是习近平。然后利用"搜狗"的一个分词字典,用python对讲话进行词语分解,并做了进一步分析。

除掉开头的套话“同志们:现在,我代表第十八届中央委员会向大会作报告。”以及标点符号后,这三次讲话的字数分别为25499, 26086和29166字,有越扯越长的趋势,10年之间,增长了14.4%。考虑到俺们的GDP增长率远远大于这一数字,暂时可以忍受。

再除去“的”、“和”与“是”这三个频率最高的单字以后,出现最多的前六个词汇分别为

十九大 : 发展(141), 人民(133),坚持(113),党(107),建设(97),中国(76)

十八大: 发展(157), 人民(92),建设(82),中国特色社会主义(79),坚持(78),党(74)

十七大 : 发展(181), 人民(90),建设(83),加强(73),党(68),坚持(66)(注:“完善”也是66次,并列第六)

从这上面可以看出,“发展”一直是国家的头等大事,“人民”作为国家的根本,也被反复念叨,而“党”作为一个单独字出现的频率越来越高。

如果统计一下所有含有“党”的词汇,再对比一下含“民主”二字的词语,然后各列一下排名前五的词语。

十九大 : 338 vs. 60

党(107),全党(33),我们党(27),党内(17),党和国家(14)

民主(34),社会主义民主政治(9),民主制度(3),社会主义民主(2),民主集中制(2)

十八大: 233 vs. 68

党(74),全党(21),党员(15),共产党人(6),党和国家(6)

民主(35),党内民主(6),民主制度(5),社会主义民主政治(4),民主权利(4)

十七大: 234 vs. 67

党(68),全党(20),党员(20),我们党(11),党和国家(7)

民主(29),社会主义民主政治(10),党内民主(5),民主权利(4),民主党派(3)

对比这三组数据,可以看出,“民主”一直处于尴尬的地位,至少相对于“党”而言,属于配角地位。但考虑到这是“党的”会议,也可以理解。另外,“党”字的出现次数大幅度提高,说明“加强党的领导”这种说法不是空穴来风。是喜?是忧?静观其变吧。

《十九大报告》之数据挖掘解读(2)

关键词(Tags): #胡说九道通宝推:老老狐狸,吃土的蚯蚓,东川西川,神仙驴,北纬42度,漂漂2号,踢细胞,普鲁托,mezhan,青颍路,
全看分页树展 · 主题


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河