五千年(敝帚自珍)

主题:【讨论】推荐一款即时沟通软件 -- 格格巫

共:💬54 🌺36
全看分页树展 · 主题 跟帖
家园 我想您可能没有完全看明白我的意思。

其实可以简单设想一下,如果每个电话都要监听的话,那要有多大的数据处理量。一段3分钟通话,用wav文件格式存贮,就是1M,想想看每天有多少电话,每个电话都要存储处理的话,那要用多大的硬盘?

我想您可能没有看明白我说的意思,我的意思是,每个电话都被中美双方监听,这个监听,不是由人来完成的,而是由机器完成,所作的就是一个关键词触发,没有出现关键词的通话是不被记录的,只有含有关键词的通话才会触发后续的处理,我想可能会被录制,然后再做后续处理。

我不知道中美之间的具体线路情况,从一则新闻报道上推测,2008年第三季度之前的中美海底光缆为电话提供的容量大约是103万个通话的数据量,按照文中提及的国际通信90%以上的业务是由海底光缆承担的话,那么中美之间的电话容量在此之前是大约115万个通话。(如果有哪位河友有具体的数据就好了。)

按照你文中提及的语音数据的数据量来计算,一个通路一小时的数据量是20M,一天是480M,假设115万个通路全天24小时满负荷运转,那么数据总量大约是575T的容量,我猜测能够被语音关键词触发的几率应该不高(而其应该可以制定更为科学的触发标准,针对出现的频率等),我想可能都不足千分之一,不过,我们按较差情况估算,百分之一计算,每天的全部存储数据量不到6T,按照30天存贮周期计算,总共的存储空间大约需要180T,我认为他们也不会把所有的数据都保存在硬盘上,很多可以放到磁带上备份。就算全部放到硬盘上,15T的NAS,$15,000刀应该能搞掂,12个15T的NAS就够了,算$20,000刀一个,总共也就$240,000,如果容量扩充100倍,也就是说全天24小时,每分钟都有1亿1千5百万人在进行中美之间的通话(美国人口的三分之一以上都在分分钟不停地给中国打电话),中美双方将不得不投入2400万美元购买存储设备,我想这种情况几乎是不会发生的。而且使用wav格式存贮音频文件是很浪费空间的,对于电话这种分辨率的语音信号,完全可以用压缩比更高的方式存贮数据,所以说,存储应该不是大问题。

用实时语音分析?恩,天才的想法,不过成本呢?语音处理不是大家想想的那么简单,叫你从一堆011010100101110100101100111 中找出一个人说的话,并不是那么简单,另外我可能说的不是普通话,也许是英文,也可能是方言,也可能是阿拉伯话。

其实我们是不需要实时语音分析的,原因很简单,我们只需要一个简易的语音识别的模块,用来触发关键词处理,语音识别的技术已经相当成熟,若干年前开始就已经广泛应用,大家的手机上不都能声控拨号么?

一般的电话监听处理就是主被叫,CIA或者国家安全局有了特定的目标,然后获得这个目标的所有可能通讯号码,然后就是如果这个号码有呼入或者呼出,那么程控交换机就会自动启动录音。然后再交后台进行分析。从成本上分析,除非紧急情况,每个通话后面放一个人实时监听是非常不经济的(这个监听人的语言能力要求非常高),难道需要一个人7天24小时守在监听器傍边?

您说的针对固定目标的监听我想是另外一个问题了。我所猜测的监听并不是由人来完成的。不需要115万个人坐在电话便24小时不停的监听。

当然这些也都是我的猜测,我并不知道国家安全局和CIA或者FBI都是怎么干的。

而且我也不是这方面的专业人士,不过是猜猜玩的,又了解行情的河友不妨说说。

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河