五千年(敝帚自珍)

主题:【原创】it科普二 蛋疼向研究之GFW -- 浩瀚星辰

共:💬52 🌺62
分页树展主题 · 全看首页 上页
/ 4
下页 末页
        • 家园 大数据量关键字匹配不用什么快速cpu

          没必要这么完美,旁路网络流量然后很多机器一起匹配就是,比如10万个关键字,一个cpu就匹配100个,数据分成1000份分给1000个电脑,这样用1000台机器就可以,匹配成功后把相关信息送入后台修改过滤规则,无非就是滞后一点,你第一次访问可能还没匹配出来。1分钟后规则就进去了,你就访问不了了,如果没那么多计算机还可以随机丢弃数据,比如就匹配10%的数据,这样速度提高10倍。

        • 家园 你们公司大概走错路了

          100万个包,每包500个字节,也就是1000000*8*500=4000000000bps,大概4G的流量。

          用CPU以软件方法处理是吃力点。但用FPGA或者ASIC方式实现就能够大规模并行处理。实现10G以上,10万条关键字不是很困难的事情。

          举个早期的例子:

          用FPGA将流按一定长度算出Hash值,如果与预设的值匹配则到内存中的关键字表相应的地址进一步确认,否则放行,由于关键字匹配是一次性的,只要内存支持的并发访问足够,关键字多少不会影响系统效率。多个处理单元并行可以轻松达到10G以上的吞吐量。

          现在更是用ASIC以DFA的方式实现正则表达式,这样可以进行初步的智能匹配了。

          • 家园 不成吧

            比如这两个包 “西西河西西关键字12345”和“西河关键字西河”,要找到“关键字”怎么个Hash法?

            如果用FPGA,在HTTP的头里面,如果解析到ContentType为类型A,那么按协议A解析,后面有一系列A的流程,如果解析到ContentType为类型B,那么按协议类型B解析,后面一系列B的流程,等等等等,这个,用FPGA或ASIC做起来很费劲吧

            • 家园 这篇文章说得比较详细

              外链出处

              其实没有你想象得那么麻烦,他只是在里面找特征字而已。并不需要走完协议的整个状态机。

              像“关键字”,就是由三字节的处理机去处理。如果按设定得Hash算法算出来是3,这个处理机在任何时候发现通过自己的数据流里面连续三个字节算出来的Hash值是三就认为是可疑的串,把它丢出去进一步检验。

              • 家园 明白了,应用的出发点有点不一样

                我以前一直做的是要从传输层中精确的还原业务,所以要保证匹配的准确性,BLOOM Filter是不成的,它可杀掉1000,不可放掉一个。

              • 家园 没那么简单吧

                关键字的长度应该在2-N之间,每个连续2-N个字节都要算根据1个字,2个字,..N个字去算Hash,然后再去和关键字比较,同时随着这个值的增大,Hash的重复率也会增高,可能到到最后和没比一样

                字符串的查找算法,无数人研究过来研究过去就那么多,没听说革命性的东西。

        • 家园 旁路+硬件

          旁路设备在扫描的同时不会干扰正常的流量。

          专用硬件的性能和x86不是同一个数量级(比如最近很火的tilera的芯片,一片就可以把Snort跑到40Gbps以上)

          • 家园 这个还真不太了解,请教一下

            1.用专用的硬件芯片做Snort,是否适合于做这种关键字字符串匹配,开发成本有多高?我个人理解是Snort在做字符串扫描的时候效率不会太高,更适合做固定位置特征字匹配。当年和人考虑过是否用FPGA和CPLD来做应用层识别,对方表示开发成本太高,而且FPGA也不适合做这个,就算了。

            2.应用层网关识别主要的问题是需要根据每一种你需要监控的协议去根据它的协议流程来编码,比如某协议控制流Client发起Create,被Server Accept后,分配一个专用的TID,然后数据流全部用TID来标识,在控制流Client Delete,Server Accept后这个TID在数据流上就作废了,象这种流程,用专用硬件,比如tilera,能用比较低的成本来开发吗?而且能够不断的增加这种协议流程?这个,我估计成本很高吧,比如内存分配,多线程处理,如果tilera很容易做到,估计MS,Intel和AMD就不用混了,就好比视频的硬解和软解一样。

    • 家园 想念house,第10集咋还没出来
    • 家园 楼主能不能整个完全穿墙手册?
    • 家园 邱道长啊邱道长,,,
    • 家园 支持分析党,虽然我在国外吧...遁!
分页树展主题 · 全看首页 上页
/ 4
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河