主题:【讨论】推荐一款即时沟通软件 -- 格格巫
其实可以简单设想一下,如果每个电话都要监听的话,那要有多大的数据处理量。一段3分钟通话,用wav文件格式存贮,就是1M,想想看每天有多少电话,每个电话都要存储处理的话,那要用多大的硬盘?
我想您可能没有看明白我说的意思,我的意思是,每个电话都被中美双方监听,这个监听,不是由人来完成的,而是由机器完成,所作的就是一个关键词触发,没有出现关键词的通话是不被记录的,只有含有关键词的通话才会触发后续的处理,我想可能会被录制,然后再做后续处理。
我不知道中美之间的具体线路情况,从一则新闻报道上推测,2008年第三季度之前的中美海底光缆为电话提供的容量大约是103万个通话的数据量,按照文中提及的国际通信90%以上的业务是由海底光缆承担的话,那么中美之间的电话容量在此之前是大约115万个通话。(如果有哪位河友有具体的数据就好了。)
按照你文中提及的语音数据的数据量来计算,一个通路一小时的数据量是20M,一天是480M,假设115万个通路全天24小时满负荷运转,那么数据总量大约是575T的容量,我猜测能够被语音关键词触发的几率应该不高(而其应该可以制定更为科学的触发标准,针对出现的频率等),我想可能都不足千分之一,不过,我们按较差情况估算,百分之一计算,每天的全部存储数据量不到6T,按照30天存贮周期计算,总共的存储空间大约需要180T,我认为他们也不会把所有的数据都保存在硬盘上,很多可以放到磁带上备份。就算全部放到硬盘上,15T的NAS,$15,000刀应该能搞掂,12个15T的NAS就够了,算$20,000刀一个,总共也就$240,000,如果容量扩充100倍,也就是说全天24小时,每分钟都有1亿1千5百万人在进行中美之间的通话(美国人口的三分之一以上都在分分钟不停地给中国打电话),中美双方将不得不投入2400万美元购买存储设备,我想这种情况几乎是不会发生的。而且使用wav格式存贮音频文件是很浪费空间的,对于电话这种分辨率的语音信号,完全可以用压缩比更高的方式存贮数据,所以说,存储应该不是大问题。
用实时语音分析?恩,天才的想法,不过成本呢?语音处理不是大家想想的那么简单,叫你从一堆011010100101110100101100111 中找出一个人说的话,并不是那么简单,另外我可能说的不是普通话,也许是英文,也可能是方言,也可能是阿拉伯话。
其实我们是不需要实时语音分析的,原因很简单,我们只需要一个简易的语音识别的模块,用来触发关键词处理,语音识别的技术已经相当成熟,若干年前开始就已经广泛应用,大家的手机上不都能声控拨号么?
一般的电话监听处理就是主被叫,CIA或者国家安全局有了特定的目标,然后获得这个目标的所有可能通讯号码,然后就是如果这个号码有呼入或者呼出,那么程控交换机就会自动启动录音。然后再交后台进行分析。从成本上分析,除非紧急情况,每个通话后面放一个人实时监听是非常不经济的(这个监听人的语言能力要求非常高),难道需要一个人7天24小时守在监听器傍边?
您说的针对固定目标的监听我想是另外一个问题了。我所猜测的监听并不是由人来完成的。不需要115万个人坐在电话便24小时不停的监听。
当然这些也都是我的猜测,我并不知道国家安全局和CIA或者FBI都是怎么干的。
而且我也不是这方面的专业人士,不过是猜猜玩的,又了解行情的河友不妨说说。
- 相关回复 上下关系8
压缩 2 层
🙂我猜测常规的中美间的国际长途也是被中美双方都监听的 zlusc 字92 2008-10-06 16:36:36
🙂技术上讲是不可能的 3 qwert01 字1341 2008-10-06 20:35:37
🙂您说的电影中的场景,在程控交换机中也是最基本的功能 晃晃悠悠 字588 2008-10-09 07:27:57
🙂我想您可能没有完全看明白我的意思。
🙂语音识别模块并不简易 qwert01 字275 2008-10-10 21:39:55
🙂del zlusc 字0 2008-10-10 23:42:07
🙂一个小问题,IP电话怎么算? 晃点心情 字346 2008-10-10 05:12:53
🙂请您仔细看我的原文: 2 zlusc 字283 2008-10-10 09:03:10