澳门新萄京官方网站-www.8455.com-澳门新萄京赌场网址

澳门新萄京官方网站深度检测,不解密数据竟也

2019-05-19 作者:服务器运维   |   浏览(197)

在网络的入口处对应用程序的识别是非常重要的,无论是网络安全产品,还是专业的流量分析引擎,应用流量的准确识别不但可洞悉整个网络的运行情况,而且可针对具体需求做用户行为的准确管控,这在一定程度上既可保证业务流的高效运行,也可预防由于内网中毒引起的断网事件。

废话:

原标题:【网安学术】以未知对未知—智能安全自我进化

状态检测防火墙是目前使用最广泛的防火墙,用来防护黑客攻击。但是,随着专门针对应用层的Web攻击现象的增多,在攻击防护中,状态检测防火墙的有效性越来越低。

然而,要准确识别应用流量,从技术实现上讲并不简单,难度主要体现在识别的算法及检测深度。算法不但要解决流量的分类,而且要负责在多个分类中查找特征,所以最好的算法往往带来的是精确的识别;另一个就是检查数据的深度,深度总是和性能关联,检查的越多,消耗的系统资源越多。因此,检查一个流的前20个包所付出的性能代价往往是超乎想象的,这就是我们提到的识别难度。

加密一直都是保护用户通讯隐私的重要特性,可如果恶意程序在传播过程中也加密的话,对这样的流量做拦截感觉就麻烦了很多。谈到加密,TLS(Transport Layer Security Protocol,传输层安全协议)就是当前使用非常广泛的协议:国外部分研究机构的数据显示,已有至多60%的网络流量采用TLS,当然也包括一些恶意程序(虽然大约只有10%)。

因为xxoo的缘故接触到这个设备。但是就是单纯的去看并没有去研究它是个啥玩意。刚才无聊就百度科普了一波。

澳门新萄京官方网站 1

  设计状态检测防火墙时,并没有专门针对Web应用程序攻击,为了适应不断增长的Web应用程序的威胁,新一代的深度检测防火墙出现了。

对于识别方法来说,从技术角度看,检查一个应用特征主要有三种方法。第一种方法称为标准检测,主要靠识别报头信息的地址和端口,这种方法常见于做QoS的网关设备。第二种方法称为DPI深度包检测),这是业界常用的术语,绝大多数设备声称具有这样的技术,常见于"下一代内容检测系统"及UTM类设备。从理论上,数据流中每个报文的任意字段或数据流传输过程中的任何特征都可以作为应用协议识别的依据,但实际上,如何快速选择最有效的数据流特征信息的难度远远超过了您的想象。第三种方法称为解密检测方法,就是将数据流送入一个分类器,数据流被分类之后,将加密数据流送入一个解密引擎,解密引擎通过预置的解密算法对数据解密,解密后再次返回分类器进行检查。如天融信TopFlow就采用这种技术来识别加密数据,通过这种独有的技术,使得精确识别率能达到99%以上。

澳门新萄京官方网站 2

DFI以及DPI简单通俗以自己的理解来将就是网络带宽的一种检测技术。既然是检测技术也就是说其可以进行查看流量情况。那么最简单的企业应用也就是拿来看DDOS攻击情况之类的了。

摘要:网络空间第三次浪潮的出现,给原来静态防御、边界防护、基于特征匹配的网络安全思路和技术带来了新的挑战。为应对这次变革,提出了“以未知对未知”的智能防御理念,主要是针对新时代特性,构建基于人类免疫系统理念网络空间安全生态体系,利用人工智能算法在生成对抗网络中具备自主进化迭代的优势,通过不断学习每个网络、设备、用户的终生模式和关联分析,自主识别、拦截异常攻击,与受保护网络空间其他系统相互协调,共同维持网络空间内部环境稳定、健康、可控、安全与运行平衡。

  本文先介绍了防火墙技术的演变过程,然后介绍了深度检测技术的四个基本特征。

当然,在我们介绍应用流量识别时有几个概念需要介绍:

来自思科的一组研究人员最近研究出一种方法,不需要对这类流量进行解密,就能侦测到采用TLS连接的恶意程序,是不是感觉有点小神奇?

介绍:

0 引 言

  1、防火墙技术的演变过程

数据流:基于应用层协议识别的对象不能只是简单的检查单个报文,而是要将数据流作为一个整体来检测。因此,数据流是指在某个会话生命周期内,通过网络上一个检测节点的IP数据报文的集合。实际上,一个节点发送的数据流的所有属性是相同的。

澳门新萄京官方网站 3


以信息技术为代表的新一轮科技和产业革命给世界各国主权、安全、发展利益带来了许多新的挑战。近年来,国家级网络武器及其相关工具和技术的扩散,给各国关键基础设施造成了极大挑战。当前,全球互联网治理体系变革进入关键时期,构建网络空间命运共同体日益成为国际社会的广泛共识。

  防火墙技术的演变过程,如图1所示。到目前为止,主要有包过滤防火墙、状态检测防护墙和深度检测防火墙三种类型。

数据流分类:利用数据流以及数据流中报文的某些信息,可将网络上的数据流进行分类,这种分类可加速应用流量的分类,如游戏应用数据流通常是小报文,而P2P流一般称为大报文。

TLS协议

    DFI(Deep/Dynamic Flow Inspection,深度/动态流检测) 它与DPI(Deep Packet Inspection,深度包检测)进行应用层的载荷匹配不同,采用的是一种基于流量行为的应用识别技术,即不同的应用类型体现在会话连接或数据流上的状态各有不同。

全球网络攻击事件统计(如图1所示)显示,未知威胁攻击、Account Hijacking账户劫持攻击、Targeted Attack针对性攻击、DDoS攻击,攻击比例上呈逐年上升趋势。国计民生的基础设施系统是攻击的重点领域,其中涉及金融、能源、交通等,其目标性、隐蔽性极强,传统的消缺补漏、静态防御、“封、堵、查、杀”在这些攻击面前捉襟见肘。

澳门新萄京官方网站 4

数据流类别:数据流类别是一个大型网状结构的分类器,按照行为特征及签名进行归类。在数据流分类问题中,每个类别可能包含某些属性类似的多种协议,典型的如IE下载即包括了多个类别,有分块下载,有伪IE下载等,有另存单线程下载等,而协议识别必须对流进行更精细的分类,使得每个类别中的流只使用一种应用层协议。

这是怎么做到的?

DPI:

澳门新萄京官方网站 5

  1.1 包过滤防火墙(Packet Filter Firewall)

协议识别:协议识别是指检测引擎根据协议特征,识别出网络数据流使用的应用层协议。

思科已经公开了这份研究报告,题为《辨认使用TLS的恶意程序(无需解密)》(英文其实表达得更为准确,名为”Deciphering Malware’s use of TLS”)。我们比较笼统地归结原理,其实是TLS协议本身引入了一系列复杂的数据参数特性——这些特性是可以进行观测检查的,这样自然就能针对通讯双方做出一些合理的推断。

  • 深度包检测,增加了对应用层分析,识别各种应用
  • 对应用流中的数据报文内容进行探测,从而确定数据报文真正应用
  • 基于“特征字”的识别技术
  • 应用层网关识别技术
  • 行为模式识别技术

美国中情局对其黑客武器库的失控,如同一把宝剑悬着以划“域”而治。固守边界防御思路治理下的各国关键基础设施上空,大范围安全事件随时可能发生。2017年,WannaCry勒索病毒是一个典型的安全事件,短短4日,席卷150多个国家,造成80亿美元损失,涉及金融、能源、医疗等众多行业[澳门新萄京官方网站深度检测,不解密数据竟也能识别TLS加密的恶意流量。1]。如何避免突击式的补救,成为当下急需解决的问题。

  包过滤防火墙----第一代防火墙,没有状态的概念。通过包过滤,管理员能够允许或禁止ACLs(Access Control Lists,访问控制列表)中的选项,包过滤防火墙主要具有以下属性:

应用协议特征字符串:特征字符串是协议归类的关键依据,字符串特征举例协议特征字符串

这份报告中有提到:“通过这些特性,我们可以检测和理解恶意程序通讯方式,与此同时TLS本身的加密属性也能提供良性的隐私保护。”听起来似乎还是比较理想的新技术——在不需要对流量进行解密的情况下就达成流量安全与否的判断,的确具备很大意义。

DFI:

改变以往的边界防御思路,从数据安全保护角度出发,通过对业务数据进行动态评估,分析出业务数据的价值,从而根据不同价值等级进行动态的策略规则防护。

  ★ 数据包到达的物理网络接口;

ftp特征字符串acct、cwd、smnt、port;

为此,思科大约分析了18个恶意程序家族的数千个样本,并在企业网络中数百万加密数据流中,分析数万次恶意连接。整个过程中,网络设备的确不对用户数据做处理,仅是采用DPI(深度包检测技术)来识别clientHello和serverHello握手信息,还有识别连接的TLS版本。

  • 深度/动态流检测
  • 基于流量行为的识别技术,即不同的应用类型体现在会话连接或数据流上的状态不同

1 防御构想

  ★ 源IP地址和端口;

smtp特征字符串HELO、EHLO、MAIL FROM:、RCPT TO:、VRFY、EXPN;

“在这篇报告中,我们主要针对433端口的TLS加密数据流,尽可能公正地对比企业一般的TLS流量和恶意TLS流量。为了要确认数据流是否为TLS,我们需要用到DPI,以及基于TLS版本的定制signature,还有clientHello和serverHello的信息类型。”

 

动态防御,很早就是网络安全领域追诉的目标,经历了从设备联动布防到现在对人工智能的关注。在当下网络安全环境中,利用IPS、FW等设备的动态关联,已经不能满足动态的需要。人工智能以其高效数据处理和分析的速度、准确性等优势,受到了人们的青睐。其中,数据和算法是保障高信度和高效度分析结果的核心。脱离全面有效数据的喂养,准确分析将无从谈起;离开有效算法和算法集间的交叉验证,就会走向信度和效度极度脆弱的一面。

  ★ 目标IP地址和端口;

pop3特征字符串 OK、-ERR、APOP、TOP、UIDL;

“最终,我们在203个端口之上发现了229364个TLS流,其中443端口是目前恶意TLS流量使用最普遍的端口。尽管恶意程序端口使用情况多种多样,但这样的情况并不多见。”

DFI与DPI的比较

澳门新萄京官方网站深度检测,不解密数据竟也能识别TLS加密的恶意流量。构建真正意义上的“以未知对未知”的动态防御,数据和算法是核心。获取全面的具有代表性的数据,才能避免人工智能鲁棒性的出现,才能提供更加准确可靠的分析结果。算法决定检测准确度的上限。只有对算法的优缺点进行验证、分析,才能在实战中做好算法集的动态调配。

  但是,包过滤防火墙的安全性有一定的缺陷,因为系统对应用层信息无感知,也就是说,防火墙不理解通信的内容,所以可能被黑客所攻破。

msn 特征字符串包括msg、nln、out、qng、ver、msnp;

澳门新萄京官方网站 6


“以未知对未知”,是在人工智能的技术前提下,基于Netflow和sFlow两种协议字段融合,克服单一网络协议的数据局限性弊端,降低网络数据存储量和运行主机的CPU负载率,结合算法集对流动变化的数据自适应,通过关键因素的风险区间和概率分布,对未来结果做出精准判断,产出不断进化的防御规则,以应对新时代网络安全的需求。

  由于种种原因,人们认为包过滤防火墙不过安全,于是逐渐被状态检测防火墙所取代。

OICQ特征字符串开头第一个字节:0x02,第四、五字节:协议号;

不仅如此,据说他们还能就这些恶意流量,基于流量特性将之分类到不同的恶意程序家族中。“我们最后还要展示,在仅有这些网络数据的情况下,进行恶意程序家族归类。每个恶意程序家族都有其独特的标签,那么这个问题也就转化为不同类别的分类问题。”

    DFI与DPI两种技术的设计基本目标都是为了实现业务识别,但是两者在实现的着眼点和技术细节方面还是存在着较大区别的。从两种技术的对比情况看,两者互有优势,也都有短处,DPI技术适用于需要精细和准确识别、精细管理的环境,而DFI技术适用于需要高效识别、粗放管理的环境。

2 “以未知对未知”的防御体系设计

  1.2 状态检测防火墙(Stateful Inspection Firewall)

sip特征字符串REGISTER、INVITE、ACK、BYE、CANCEL、SIP;

“即便使用相同TLS参数,我们依然就够辨认和比较准确地进行分类,因为其流量模式相较其他流量的特性,还是存在区别的。我们甚至还能识别恶意程序更为细致的家族分类,当然仅通过网络数据就看不出来了。”

  从处理速度来看: DFI处理速度相对快,而采用DPI技术由于要逐包进行拆包操作,并与后台数据库进行匹配对比,处理速度会慢些。由于采用DFI技术进行流量分析仅需将流量特征与后台流量模型比较即可,因此,与目前多数基于DPI的带宽管理系统的处理能力仅为线速1Gbit/s相比,基于DFI的系统可以达到线速10Gbit/s,完全可以满足企业网络流量管理的需求。

“以未知对未知”防御体系设计(如图2所示)共分三个部分。第一部分是未知数据的采集、梳理、融合、范化、精炼,形成标准的数据格式;第二部分是自适应算法集,包含支持向量机算法、Apriori与FP-Growth算法、隐式马尔科夫算法、朴素贝叶斯算法等,每个算法单独并行运算,威胁验证后,提交给态势数据库;第三部分,态势数据库一方面将威胁情报梳理呈现,另一方面根据网络状况进行资源管理策略调整,影响安全防御系统策略变更。

  状态检测防火墙出现,并成为市场上的绝对领导者,主要有以下原因,包括性能,部署能力和扩展能力。他们在90年代中期得到了迅速发展。1993年,Check Point公司成功推出了世界上第一台商用的状态检测防火墙产品。

eMule特征字符串开头第一个字节:0xe3 或 0xc5 或 0xd4;

实际上,研究人员自己写了一款软件工具,从实时流量或者是抓取到的数据包文件中,将所有的数据输出为比较方便的JSON格式,提取出前面所说的数据特性。包括流量元数据(进出的字节,进出的包,网络端口号,持续时间)、包长度与到达间隔时间顺序(Sequence of Packet Lengths and Times)、字节分布(byte distribution)、TLS头信息。

  从维护成本来看: DFI维护成本相对较低,而基于DPI技术的带宽管理系统总是滞后新应用,需要紧跟新协议和新型应用的产生而不断升级后台应用数据库,否则就不能有效识别、管理新技术下的带宽,影响模式匹配效率; 而基于DFI技术的系统在管理维护上的工作量要少于DPI系统,因为同一类型的新应用与旧应用的流量特征不会出现大的变化,因此不需要频繁升级流量行为模型。

澳门新萄京官方网站 7

  状态检测防火墙工作于网络层,与包过滤防火墙相比,状态检测防火墙判断允许还是禁止数据流的依据也是源IP地址,目的IP地址,源端口,目的端口和通讯协议等。与包过滤防火墙不同的是,状态检测防火墙是基于会话信息做出决策的,而不是包的信息;

应用流量协议特征检测方法

其实我们谈了这么多,还是很抽象,整个过程还是有些小复杂的。有兴趣的同学可以点击这里下载思科提供的完整报告。

  从识别准确率来看: 两种技术各有所长。由于DPI采用逐包分析、模式匹配技术,因此,可以对流量中的具体应用类型和协议做到比较准确的识别; 而DFI仅对流量行为分析,因此只能对应用类型进行笼统分类,如对满足P2P流量模型的应用统一识别为P2P流量,对符合网络语音流量模型的类型统一归类为VoIP流量,但是无法判断该流量是否采用H.323或其他协议。如果数据包是经过加密传输的,采用DPI方式的流控技术则不能识别其具体应用,而DFI方式的流控技术不受影响,因为应用流的状态行为特征不会因加密而根本改变。

2.1 数据采集方法研究

  状态检测防火墙验证进来的数据包时,判断当前数据包是否符合先前允许的会话,并在状态表中保存这些信息。状态检测防火墙还能阻止基于异常TCP的网络层的攻击行为。网络设备,比如路由器,会将数据包分解成更小的数据帧,因此,状态检测设备,通常需要进行IP数据帧的重组,按其原来顺序组装成完整的数据包。

数据流检测方法主要分为四个层次,让我们描述一下从最简单到最复杂的检测过程。

分析结果准确性还不错

采集具有代表性的原始数据,是“未知对未知”防御的重要基础。

  1.3 深度检测防火墙(Deep Inspection Firewall)

首先,互联网众所周知的网络应用都是建立在固定网络协议或端口上,如http、ftp等等常用协议,这些协议的特征非常明显,在一定程度上几乎不使用检测引擎就可识别。

思科自己认为,分析结果还是比较理想的,而且整个过程中还融合了其机器学习机制(他们自己称为机器学习classifiers,应该就是指对企业正常TLS流量与恶意流量进行分类的机制,甚至对恶意程序家族做分类),正好做这一机制的测试。据说,针对恶意程序家族归类,其准确性达到了90.3%。

由于网络流量中包含了源/目的地址、源/目的端口、协议类型等丰富的网络信息,能够实时反映当前网络中出现的安全信息和行为描述。因此,网络流量为在网络异常检测方面最具有代表性的元数据。由于其他安全设备和网络设备品牌各异,采集数据的协议也不尽相同。这些设备采集的和二次加工的数据暂且纳入第三方信息管理平台,为威胁验证提供参考。

  深度检测防火墙,将状态检测和应用防火墙技术结合在一起,以处理应用程序的流量,防范目标系统免受各种复杂的攻击。结合了状态检测的所有功能,深度检测防火墙能够对数据流量迅速完成网络层级别的分析,并做出访问控制决;对于允许的数据流,根据应用层级别的信息,对负载做出进一步的决策。

澳门新萄京官方网站 8

“在针对单独、加密流量的识别中,我们在恶意程序家族归类的问题上,能够达到90.3%的准确率。在5分钟窗口全部加密流量分析中,我们的准确率为93.2%(make use of all encrypted flows within a 5-minute window)。”

近几年,应用比较广泛的网络流技术主要包括NetFlow(Ciso公司)、J-Flow(Juniper公司)、sFlow(HP,InMon,Foundry Networks公司)和NetStream(华为公司)。其中,J-Flow和NetStream这2种网络流的原理和内容基本与NetFlow相类似,故可以认为目前应用的常见网络流主要以NetFlow和sFlow为主[2]。

  深度检测防火墙深入分析了TCP或UDP数据包的内容,以便对负载有个总的认识。

其次,但当应用变得复杂时,很多应用都会启用随机端口进行通信,因此,新启用的端口我们事先无法预知,此时DPI必须实时监控会话,通过监测数以千计的并发会话来判断其应用特征。

【编辑推荐】

2.1.1 基于NetFlow的流量采集方法

  2、深度检测技术的四个基本特征

很多新的网络应用伪装使用已知的固定端口,如使用80、8080、443等知名端口,特别像使用80端口的伪装,伪装的目的首先是被防火墙认可,不至于在防火墙上被阻断,被作为正常的web访问而通行。这种应用如P2P伪装、视频伪装,都使用这些知名端口。此时设备需要在多个会话中开始寻找所谓的签名,通常这是一个复杂的字符串,是检测引擎预先定义好的,而且是唯一一个应用。随着应用的增加,DPI特征库需要不断更新。如下图迅雷采用伪IE下载就属于典型的伪装。

NetFlow是由Cisco创造的一种流量轮廓监控技术,简单来说就是一种数据交换方式。NetFlow提供网络流量的会话级视图,记录下每个TCP/IP事务的信息,易于管理和易读。

  新的深度检测技术仍在不断出现,以实现不同的深度检测功能,但是我们需要了解深度检测技术所具有的基本特征。

澳门新萄京官方网站 9

NetFlow利用标准的交换模式处理数据流的第1个IP包数据生成NetFlow缓存,随后同样的数据基于缓存信息在同1个数据流中进行传输,不再匹配相关的访问控制等策略。NetFlow缓存同时包含了随后数据流的统计信息。NetFlow有2个核心的组件:NetFlow缓存,存储IP流信息;NetFlow的数据导出或传输机制,将数据发送到网络管理采集器。

  高级的深度检测防火墙整合了包过滤防火墙和状态检测防火墙的所有功能,如图1所示。

第三,对于完全加密的应用,我们称为加密流,对于加密数据流,去寻求一个端口或签名是毫无意义的。因此,检测引擎需要开发出一种新方法,着眼于数据包长度和它们的顺序排序。而实际上,其中的一些加密应用总是使用同一系列的包长度、在同一位置、在同一顺序,这就是所谓的行为特征。通常,检测引擎能够这些加密流进行行为分析,而实际上,这里存在两个难度,一个是加密流特征字符串的获取本身需要扎实的独特的算法,另外,单单对于位置的检测还远远不够,如加密传输的应用协议的加密方法几乎每周都在变换位置,而天融信TopFlow独特的算法不但能对加密数据流的位置进行检查,而且能对加密数据流进行解密,这使得他对应用的识别率可高达99%以上。

利用NetFlow技术可以检测网络上IP Flow信息,包括(5W1H):

  高级的深度检测技术一般具有以下四个方面的特征:

澳门新萄京官方网站 10

who:源IP地址;

  ◆ 应用层加密/解密;

如何评价应用识别引擎:

when:开始时间、结束时间;

  ◆ 正常化;

应用识别引擎是应用流量管理系统的核心,所以下面五点则能较好的评价产品。

where:从哪——From(源IP,源端口);到哪——To(目的IP,目的端口);

  ◆ 协议一致性;

第一、应用程序的识别数量多少,特别对复杂协议及新协议的识别数量成为产品的核心,而不是单单用端口号来标识的简单应用或标准应用。

what:协议类型,目标IP,目标端口;

  ◆ 双向负载检测;

第二、应用协议识别的准确性。一个好的引擎或好的算法才能保证低的误报和漏报。

how:流量大小,流量包数;

  这四种特征,为Web应用程序提供了重要防护,如果其中一种特征没有实现的话,深度检测防火墙在抵制应用层攻击时,效果会大打折扣。

第三、应用检测的时间消耗。一个好的引擎能够花费很少的时间即可检查出特征。

why:基线,阈值,特征。

  2.1 应用层加密/解密

第四、对高性能和高带宽处理。一个好的引擎才能部署到大的网络环境中,如高校、大集团用户、运营商网络。

这些数据可以形成标准的七元组。用七元组来区分每一个Flow是其重要的特点。七元组主要包括,源IP地址、源端口号、目的IP地址、目的端口号、协议类、服务种类和输入接口。

  SSL广泛被应用于各种场合,以确保相关数据的安全性。这就对防火墙提出了新要求:必须能够处理数据加密/解密。如果不对SSL加密的数据进行解密,防火墙就不能对负载的信息进行分析,更不可能判断数据包中是否含有应用层攻击信息。如果没有解密功能,深度检测的所有优点都无法体现出来。

第五、协议库更新的频率及协议库库更新的难易程度。一个好的引擎才能保证协议库的更新有验证、计算、校对,使系统不断网、不重启,即使出现升级失败,也能保证原有特征库不被损坏,正常运行。

2.1.2 基于sFlow的流量采集方法

  由于SSL加密的安全性很高,企业常使用SSL技术,以确保关键应用程序的通讯数据的安全性。如果深度检测不能对企业中关键应用程序提供深度检测安全性的话,整个深度检测的优势将失去意义。

天融信TopFlow应用流量管理系统通过天融信公司近17年的技术积累,对多达数万用户应用的分析、归纳,并在天融信自主操作系统TOS基础上开发的基于用户应用分析及管控的系统。TopFlow依靠自主知识产权的 TOS (Topsec Operating System) 安全操作系统,采用全模块化设计,使用中间层理念,减少系统对硬件的依赖性,使得内核更为精简和优化,特别在天融信多核处理硬件平台上,通过大量的协议栈优化,针对高性能处理需求进行了中断处理和驱动优化,保证系统在天融信专有多核处理平台上,数据以最快速度执行、以较高优先级运行、以超高速放行。

sFlow(RFC 3176)是基于标准的最新网络导出协议[3]。sFlow已经成为一项线速运行的“永远在线”技术,可以将sFlow技术嵌入到网络路由器和交换机ASIC芯片中。与使用镜像端口、探针和旁路监测技术的传统网络监视解决方案相比,sFlow能够明显降低实施费用,同时可以使面向每一个端口的全企业网络监视解决方案成为可能。

  2.2 正常化

澳门新萄京官方网站 11

sFlow系统的基本原理为:分布在网络不同位置的sFlow代理把sFlow数据报源源不断地传送给中央sFlow采集器,采集器对sFlow数据报进行分析并生成丰富、实时、全网范围的传输流视图。

  防范应用层攻击,很大程度上依赖于字符串匹配。不正常的匹配会造成安全漏洞。比如,为了探知某种请求的安全策略是否被启用,防火墙通常根据请求的URL与安全策略来进行匹配。一旦与某种策略条件完全匹配,防火墙就采用对应的安全策略。指向同一个资源的URL或许有多种不同形态,如果该URL的编码方式不同的话,二进制方式的比较就不起作用了。攻击者会利用各种技术,对输入的URL进行伪装,企图避开字符串匹配,以达到越过安全设备的目的。

通过完善的应用协议特征库检测和伪装探测技术,并采用(DPI)深度包检测技术来识别各种用户应用,应用识别率超过99%。特别对采用逃避技术的加密协议进行精准识别,如采用加密传输的迅雷协议族、QVOD视频等等加密类协议进行及时而精准识别,这是其他产品技术所不能比拟的。

sFlow是一种纯数据包采样技术,即每一个被采样的X包的长度被记录下来,而大部分的包则被丢弃,只留下样本被传送给采集器。由于这项技术是基于样本的,如果没有复杂的算法来尝试推测准确的会话字节量,那么几乎不可能获得每台主机流量100%的准确值。使用这项技术时,交换机每隔100个数据包(可配置)对每个接口采一次样,然后将它传送给采集器。sFlow的规格也支持1:1的采样率,即对每一个数据包都进行“采样”。对数据包最大采样频率的限制取决于具体的芯片厂商和sFlow的实现情况。

  这些攻击行为,在欺骗IDS和IPS方面,特别有效,因为攻击代码只要与安全设备的特征库有一点点不同的话,就能够达到目的。如图2所示。

...

2.1.3 双流量数据采集

澳门新萄京官方网站 12

因HTTP会话双向性的特点,需采取网络双向流量分析,主要针对request请求和服务器的response响应进行实时分析,并且自动关联分析磁盘阵列中全流量镜像历史数据,发现更深层次的攻击事件。

  解决字符串匹配问题需要利用正常化技术,深度检测能够识别和阻止大量的攻击。对于防范隐藏在帧数据、Unicode、URL编码,双重URL编码和多形态的Shell等类型的攻击行为,必须要用到正常化技术,如图3所示。

如图3所示,系统在用户发出请求和服务器给予响应的过程中,会对两者的HTTP请求包和响应包数据进行分析,判断是否存在漏洞或者攻击事件。如果有漏洞或者攻击事件,则会记录并交由其他模块继续处理。

澳门新萄京官方网站 13

澳门新萄京官方网站 14

  2.3 协议一致性

通过不同层次的监控(内核级、应用层级主要包括进程操作、文件操作、注册表操作、网络访问、网络数据URL等)发现更全面的监控样本,结合智能关联分析形成有效的安全检测体系,以挖掘更全面的恶意行为。

  应用层协议,如HTTP、SMTP、POP3、DNS、IMAP和FTP,在应用程序中经常用到。每个协议,都由RFC(Request For Comments)相关规范创建。

2.1.4 数据融合

  深度检测防火墙,必须确认应用层数据流是否与这些协议定义相一致,以防止隐藏其中的攻击。

NetFlow和sFlow两种协议都属于网络流协议,但是存在一些差异。sFlow通过采样的形式来获取网络流数据,基本包含了网络中的所有信息,且具有“永远在线”的特点。由于协议本身的设置,使得sFlow在获取网络流数据过程中虽然CPU负载率低,但是获取的数据存在一些误差,尤其在网络流量较小时,难以满足小规模网络的要求。而NetFlow通过连续采集的方式来获取网络流数据,使得数据中不包括网络中的一些部分重要信息(如:MAC地址、接口速率等),导致无法对上述重要信息进行研究分析。此外,由于通过连续采集的方式来获取数据,使得其CPU负载率较高,尤其当网络流量较大时,难以有效满足大规模网络的要求[4]。

  深度检测在应用层进行状态检测。协议一致性,通过对协议报文的不同字段进行解密而实现,当协议中的字段被识别出来后,防火墙采用RFC定义的应用规则,来检查其合法性。如图4所示。

将NetFlow和sFlow数据融合,相互弥补各自的不足、性能上的差异,是推动采集数据全面性的必经之路。融合不是简单的结合,而是在两个协议功能、性能优缺点分析的基础上,对两个协议字段进行融合。

澳门新萄京官方网站 15

2.2 算法研究

  2.4 双向负载检测

算法决定上限,也是说算法决定了智能安全功能展现的上限阈值。本文通过算法集研究实践,分析不同算法特性来应对不同威胁的攻击。具体地,主要对支持向量机算法、Apriori与FP-growth算法、隐式马尔科夫算法和朴素贝叶斯算法等进行分析研究。

  深度检测具有强大功能,能够允许数据包通过,拒绝数据包,检查或修改第4到7层数据包,包括包头或负载。HTTP深度检测能够查看到消息体中的URL,包头和参数等信息。深度检测防火墙能够自动进行动态配置,以便正确检测服务变量,如最大长度,隐藏字段和Radio按钮等等。如果请求的变量不匹配,不存在或者不正确的话,深度检测防火墙会将请求丢弃掉,将该事件写入日志,并给管理员发出警告信息。

2.2.1 支持向量机算法

  深度检测技术允许修改或转换URL,包头和参数,这一点与应用层上的NAT类似。如图5所示。

支持向量机是一种二分类模型,基本模型是定义在特征空间上的间隔最大的线性分类器[5]。间隔最大使它有别于感知机(感知机利用误分类最小的策略,求得分离超平面,解有无穷多个;线性可分支持向量机利用间隔最大化求解最优分离超平面,解是唯一的);支持向量机还包括核技巧(将数据有时是非线性数据,从一个低维空间映射到一个高维空间,可以将一个在低维空间中的非线性问题转换为高维空间下的线性问题来求解),使其成为实质上的非线性分类器。支持向量机的学习策略是间隔最大化,以形式化为一个求解凸二次规划的问题,也等价于正则化的合页函数的最小化问题。

澳门新萄京官方网站 16

支持向量机学习算法模型分类。

  3、总结

(1)线性可分支持向量机。当训练集线性可分时,通过硬间隔最大化,学习一个线性的分类器,即线性可分支持向量机,又称为硬间隔支持向量机。

  在复杂的Web环境中,为了提供全面的应用程序防护,深度检测是必需的。为了能够有效的阻止Web攻击,防火墙必须能够应用基于源IP地址、目的IP地址、端口以及应用程序内容的安全策略。

(2)线性近似可分支持向量机。当训练集近似线性可分时,通过软间隔最大化,也学习一个线性的分类器,即线性支持向量机,又称为软间隔支持向量机。

  深度检测技术还在不断发展,但是深度检测技术一般具有应用层加密/解密、正常化、协议一致性、双向负载检测等四个方面的特征。

(3)非线性支持向量机。当训练集线性不可分时,通过核技巧和软间隔最大化,学习非线性支持向量机。

  企业部署Web应用程序时,应该要确保防火墙能够满足这些应用程序要求得的安全需求,并且防火墙能够满足深度检测技术中的四项基本特征。

SVM学习问题可以表示为凸优化问题,因此可以利用已知的有效算法发现目标函数的全局最小值。而其他分类方法(如基于规则的分类器和人工神经网络)都采用一种基于贪心学习的策略来搜索假设空间,一般只能获得局部最优解。

...

2.2.2 Apriori与FP-gowth算法

Apriori和FP-growth算法是比较有代表性的关联规则算法。它们是无监督算法,可以自动从数据中挖掘出潜在的关联关系。这一算法对挖掘潜在威胁很有帮助,如对图2中自适应算法集及资源管理调整生成未知策略帮助很大。

Apriori算法是一种同时满足最小支持度阈值和最小置信度阈值的关联规则挖掘算法。使用频繁项集的先验知识,通过逐层搜索迭代的方式探索项度集。

FP-growth算法基于Apriori算法构建,但采用了高级的数据结构减少扫描次数,加快了算法速度。FP-growth算法只需要对数据库进行两次扫描,而Apr-iori算法对每个潜在的频繁项集都会扫描数据集判定给定模式是否频繁,因此FP-growth算法比Apr-iori算法快。

在自适应算法集,采用Apriori和FP-growth算法对NetFlow和sFlow两个协议的融合数据进行关联分析。

2.2.3 隐式链马尔科夫算法

隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,用来描述一个含有隐含未知参数的马尔可夫过程。难点是从可观察的参数中确定该过程的隐含参数,然后利用参数做进一步分析,如模式识别。被建模的系统被认为是一个马尔可夫过程与未观测到的(隐藏的)的状态的统计,即马尔可夫模型。

和HMM相关的算法主要分为三类,分别解决三种问题:

(1)已知隐含状态数量、转换率,根据可见状态链得出隐含状态链;

(2)已知隐含状态数量、转换率,根据可见状态链得出结果概率;

(3)已知隐含状态数量,通过多次观测可见状态链,反推出转换率。

2.2.4 朴素贝叶斯算法

在所有的机器学习分类算法中,朴素贝叶斯和其他绝大多数的分类算法不同。对于大多数的分类算法,如决策树、KNN、逻辑回归、支持向量机等,都是判别方法,也就是直接学习特征输出Y 和特征X 之间的关系,要么是决策函数Y=f(X) ,要么是条件分布P(Y|X) 。但是,朴素贝叶斯却是生成方法,直接找出特征输出Y 和特征X 的联合分布P(X,Y) ,然后利用:

得出:

贝叶斯学派的思想可以概括为先验概率 数据=后验概率。也就是说,实际问题中需要得到的后验概率,可以通过先验概率和数据综合得到。一般来说,先验概率是对数据所在领域的历史经验,但是这个经验常常难以量化或者模型化。于是,贝叶斯学派大胆假设先验分布的模型,如正态分布、beta分布等。这个假设一般没有特定的依据,虽然难以从严密的数学逻辑中推出贝叶斯学派的逻辑,但是在很多实际应用中,贝叶斯理论应用效果良好,如垃圾邮件分类和文本分类。

2.3 未知规则生成研究

在整个“以未知对未知”防御思路中,未知数据、算法集、未知规则是其核心。这个思路是改变传统以特征库匹配防御的思路,推出了新的动态防御思路。

未知数据是网络空间中网络设备、安全设备二次加工数据以及NetFlow和sFlow两个协议融合的网络流量数据,需对这些数据进行处理提炼。

自适应算法集是在对机器学习智能算法理解的基础上进行建模识别,并检测网络威胁。检测流程:(1)智能算法集依据客户网络环境数据及相关信息生成威胁识别模型;(2)威胁识别模型适配运行;(3)识别威胁分类;(4)识别威胁验证(真实性、可触发性验证)优化算法模型;(5)结合已有策略进行调整。

3 理论验证

本文通过加密流量检测和DGA域名检测两个实验,验证“以未知对未知”理论的实践效果。

3.1 加密流量检测

数据加密通保证了网络交易和聊天的私密性,防止了攻击者(中间人攻击)窥探或篡改用户的网络通信数据。但是,也被攻击者利用普通的TLS或SSL流量来试图掩盖他们的恶意命令、远程控制行为以及数据窃取活动。

为了防止恶意软件通过加密流量窃取用户的隐私,传统做法是通过设置代理并解密通信数据来检查所有的SSL和TLS流量。

如果是在恶意活动中,那么上述这种“可行方法”就是常说的中间人(MitM)攻击。但是,即便是出于安全防御端的角度来看,这种方法仍然会被视为一种侵犯用户隐私的行为。因为当用户需要向银行或加密邮件服务发送加密通信信息时,这种方法就会破坏加密信任链,导致用户隐私受到侵害。此外,这种方法的计算量非常高,高到足以造成网络性能的大幅下降,更不用说管理额外的SSL证书(流量被检查之后需要重新签名)所带来的性能负担。以牺牲隐私权和网络性能为代价来换取安全性的方法是不值得的。

为此,从侧面来寻找答案。通过分析NetFlow和sFlow发现,流量中包含大量的有价值信息,可以表示网络上的两台设备正在交互,以及通信时长和发送的字节数等,但受语境限制,有些数据出现不完整现象。分析加密隧道协议发现,TLS数据流中未加密的元数据包含攻击者无法隐藏的数据指纹,而且即使数据经过加密也无法隐藏这种指纹。在不进行任何解密的情况下,对海量数据进行筛选和归类,通过“最具描述性的特征”来识别可以恶意流量和正常流量。

通过未知算法检测加密流量,发现了隐藏恶意文件和指纹,基于NetFlow,检测准确率为67%。配合SPL、DNS、TLS元数据以及HTTP等信息,检测的准确率将高达99%。而传统边界类防护设备无法检测加密流量。

3.2 检测DGA域名

DGA(域名生成算法)是一种利用随机字符生成C&C域名,从而逃避域名黑名单检测的技术手段。例如,一个由Cryptolocker创建的DGA生成域xeogrhxquuubt.com,如果进程尝试其他建立连接,那么机器就可能感染Cryptolocker勒索病毒。域名黑名单通常用于检测和阻断这些域的连接,但对不断更新的DGA算法并不奏效。

检测DGA域名的流程:(1)从DGA文件中提起域名数据;(2)特征提取:①元音字母个数统计;②去重后的字母数字个数与域名长度的比例;③平均jarccard系数;④HMM系数;(3)模型验证。

根据DGA的特性,采取不同算法对其进行验证。

为了更准确地评估不同算法检测的准确率,采用准确率、召回率、F 值评测进行评估。正确率是提取的正确数据条数/提取出的数据条数;召回率是提取的正确信息条数/样本中的信息条数;F 值是正确率*召回率*2/(正确率 召回率)。基于处理好的样本,对传统检测技术和大数据关联分析技术进行对比,实验结果如表1所示。

澳门新萄京官方网站 17

4 结 语

将“以未知对未知”的实践尝试应用到网络空间中,将为动态化、自主化识别恶意软件和攻击行为提供保障。

参考文献:

[1] 徐贵宝.美国智能网络攻防对我国网络强国的启示[J].世界电信,2017(03):57-60.

[2] 陶桦.网络运行状况监控研究[D].南京:东南大学,2004.

[3] 罗焱.网络性能管理系统的研究与实现[D].武汉:武汉理工大学,2006.

[4] 陈欣.基于NetFlow和sFlow网络流融合的异常检测方法研究[D].哈尔滨:哈尔滨工业大学,2013.

[5] 杨文璐,乔海丽,谢宏等.基于Leap Motion和支持向量机的手势识别[J].传感器与微系统,2018(05):47-51.

作者简介:

林榆坚,北京安赛创想科技有限公司,学士,主要研究方向为WEB应用安全、网络空间安全、人工智能安全;

梁宁波,北京安赛创想科技有限公司,学士,主要研究方向为信息安全。

原创声明 >>>

本微信公众号刊载的原创文章,欢迎个人转发。未经授权,其他媒体、微信公众号和网站不得转载。

···························································返回搜狐,查看更多

责任编辑:

本文由澳门新萄京官方网站发布于服务器运维,转载请注明出处:澳门新萄京官方网站深度检测,不解密数据竟也

关键词: