五千年(敝帚自珍)

主题:【原创】it科普二 蛋疼向研究之GFW -- 浩瀚星辰

共:💬52 🌺62
全看分页树展 · 主题 跟帖
家园 这个三个好像都无法用到GFW的实际中

华为这个玩意应该还是应用于网管,用在GFW上似乎差点意思

主要是大数据量的问题

1.特征字是最简单的,但是在大数据量的情况下应该是跟不上的,比方说GFW的要过滤的关键字有10万条,而且关键字还在不断增加中,每秒过交换机有100万个包(实际应该远远大于这个数字),平均每个包的长度如果按500个字节算,可以想象在对每个包进行过滤时候的运算量。除非分散到若干台机器中,但这个数字也是很恐怖的,比较现实的做法是限定某些范围的IP包的比较(比如只对GoogleIP地址进行过滤,先用IP地址过滤一次,由于IP地址是直接比较,这样运算量能降下几百倍,在数据量降下几万倍之后(Google的数据估计只占整个网络数据的几万分之一,甚至更低)然后对来自这些IP地址的数据进行过滤。

2.应用层网关识别耗的是内存,因为需要根据控制流来建立Session,每秒维持上百份甚至更多的Session,而且需要考虑到异常情况,也就是某个Session没有正常结束,挂在哪儿了,怎么办?而且这种识别是死编码,增加一个业务,就需要重新对这种业务进行编码,对于复杂的控制流,CPU运算量也是很大的。

3.3同2一样,太耗CPU和内存,只能用于特定场合,而且识别率有问题。

1,2我都用过,在运营商那里实时分析一个省的全部数据(用于网管的业务分析),小的省还可以,大点的地方根本不敢去,做到最后,不是死在了CPU上,就是死在了内存上。海量数据处理才是这个技术的核心,协议分析都是浮云。能做的几家,硬件上投资都很大,而且效果不佳。

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河