CNCC 2017 | 中新网安:基于数据分析和可视化的态势感知能力建设

10月26至10月28日,2017年中国计算机大会(CNCC2017)在福州海峡国际会展中心隆重召开。会议由中国计算机学会(CCF)主办,福州市人民政府、福州大学承办,福建师范大学、福建工程学院协办。CNCC2017的大会主题是“人工智能改变世界(AI Changes the World)”,大会邀请300余位国内外计算机领域知名专家、企业家到会演讲,其中包括12个特邀报告、30场前沿技术论坛、50场特色活动及80个科技成果展,吸引约6000人以上到会。

中新网络信息安全股份有限公司(简称中新网安)作为本次特邀单位应邀出席本届大会。会中,中新网安副总裁沈传宝在本届(智慧校园与信息安全)技术论坛中发表了关于《基于数据分析和可视化的态势感知能力建设》的主题演讲。

1509094732298975.png

演讲的主要内容


各位领导、各位老师:下午好!

今天我们这个论坛的主题是《智慧校园与信息安全》,刚才各位老师讲的比较多的是大数据、智慧校园的内容,下面我简要分享一下我们在网络与信息安全方面的一些经验,特别是我们在网络安全态势感知方面的一些想法。

网络安全相信大家都不陌生了,特别是自从2014年网络安全与信息化领导小组成立,习总书记亲自担任组长以来,网络安全被提升到空前的高度。今年的《网络安全法》正式实施,意味着网络安全进入一个新的时期。

我们还是从漏洞谈起。无论国家多么重视,网络安全攻击还是层出不穷。今年以来发生比较大的安全事件就是 WannaCry 勒索软件的爆发;还有就是那个古老的框架 Struts2 一次又一次的爆洞,我们开玩笑说现在敢于用 Struts2 的不是勇士就是烈士,比较有意思的是我们这次在19大的安保支撑过程中发现教育行业用Struts2框架的还很多。

1509094751242653.png

总体上的趋势是,从发现漏洞到攻击程序出现的时间在不断地缩短,基于Web的应用漏洞从“质”和“量”两个维度都在趋于恶化,攻防拉锯的过程中,黑产不但没有被遏制,反而越来越猖獗。

1509094762759128.png

比较欣慰的是,根据德勤的一份报告,从漏洞的出现到漏洞被利用有一段时间,从攻击发生到真正发生数据泄露的危险其实也还有一段时间。当然有个小插曲是德勤自己,这个全球领先的专业咨询公司,在上个月也爆出史上最严重的黑客攻击事件,超过500万份内部邮件疑遭泄露,这些邮件中包含了大量德勤客户的敏感信息和知识产权。更加糟糕的是,黑客于去年10月就开始攻击,成功入侵,而德勤直到今年3月份才察觉此次黑客攻击。而黑客的攻击手段却又是如此的简单。

德勤自身的经历让大家也看到,从自身遭受到攻击到发现攻击,有一个相当长的时期。这方面有另一个调查数据,从这份调查数据可以看到,从攻击开始到攻击被发现,平均时间是229 天,而只有可怜的 13% 的攻击是企业自行发现的,超过87% 的攻击事件并非被攻击者自身发现,而是来自外部报告。所以,我们在这里说,安全的最大挑战是感知能力不足。


1509094773530094.png

另一方面,传统的安全防护手段已经无法适应当下安全形势,传统规则无法滞后于黑客攻击手法,黑名单很容易被绕过;通过加密方式传输的恶意样本无法被沙箱识别,通过逃逸判断容易绕过沙箱;日志告警擅长识别传统故障,但是对于新风险发现,无能为力。

1509094783447312.png

国际知名的Gartner提出了自适应安全理念,传统的PDR主要包括防御、检测和相应,自适应安全是在PDR的基础上增加了预测,从预测到防御、检测、响应,形成了安全防护闭环。具备了攻击预测、事故预防和检测、加固和隔离、漏洞及补丁管理、调查取证等四个方面12项防护能力。并可进行持续监控和分析。从“应急响应”到“持续响应”,自适应安全理念认为攻击是不间断的,黑客渗透系统和信息的努力是不可能完全拦截的,系统应承认自己时刻处于被攻击中。业务系统是生命线,数据是核心和根本,因此自适应安全体系是数据来驱动的。

我们今天不谈什么是态势感知,怎么建设态势感知,而是谈一谈我们对这种大背景下,我们对态势感知建设的一点理解,就是数据驱动安全的本质。


知己知彼


首先第一点是,态势感知的建设要实现知己知彼。要实现知彼知己,最重要的一点是数据分析。

1509094800668423.png

几个必要的基础数据。其一是漏洞信息从哪里来。作为开发者而言,采用SDL的这样的安全开发流程控制,是为了提升软件编码的安全质量,提高安全能力。但对与使用者,系统中存在的漏洞,我们怎么处理呢?除了传统自我漏洞挖掘之外,目前还可以通过外部情报进行漏洞的获取,也可以通过建立SRC或者厂商通告获得,各有利弊,各有投资。此外,系统建设方若有威胁情报能力的,态势感知平台还要基础威胁情报能力,自身没有的,可以集成第三方威胁情报能力。

1509094811128466.png

其二是,你的核心资产情况,比如你的主机,你要非常清楚。态势感知平台要具备核心资产安全识别和基线管理能力,比如你的服务器操作系统是什么版本,开放了什么端口,具有什么漏洞、要不要打补丁?能不能打补丁?配置是否合理,有没有已经被利用了?你都需要清楚。

再有就是,你要对网络内部的流量要非常清楚,知道你网络中的核心资产是哪些,网络间的访问关系怎样,流量构成怎样,哪些是正常的,哪些是异常的。

有了这些基础性数据,我们就可以回到我们的数据分析主题,基于海量数据主动挖掘,引入机器智能学习算法,辅助挖掘安全威胁。

1509094821351818.png

机器学习的网络模仿人的大脑神经网络,它同样是一个多层的系统。每一个神经元的输出与上一层的网络的神经元输出相连接,并最终输入到一个“判别器”,来分类识别是否存在攻击。

1509094830203509.png

机器学习的训练模型,通过大量数据训练,确定出一个正常范围和异常范围。落在正常范围内的是正常流量访问,反之则为异常。通过大量样本进行机器学习,利用单分类模型和聚类模型。学习单类样本的最小边界,边界之内为正常流量访问,边界之外的则识别为异常。

传统的漏洞发现依靠启发式和特征对比进行检测,而通过机器学习的方法,总结了现今漏洞和木马的规律。观察那些变量、函数是可疑的;并进行样本训练,我们一共训练了2000多万个的样本;机器学习以极高的准确度实时识别出未知代码是恶意还是良性。通过机器学习引擎的持续训练,结合钻石模型,提升识别APT攻击的能力。在3个月无更新情况下,恶意软件检测能力仅下降1%~2%。

在Web异常检测方面,由于 Web 入侵黑样本稀少,传统检测方法难以精确找出漏洞。通过流量监测和深度分析,同意可以通过非监督或单分类模型进行样本学习实现异常检测。基于异常检测的入侵识别,训练阶段通常需要针对每个 URL,基于大量正常样本,抽象出能够描述样本集的统计学或机器学习模型(Profile)。检测阶段,通过判断 Web 访问是否与 Profile 相符,可识别系统攻击异常行为。


1509094841244502.png

正常流量特征相似,异常流量各有特征。通过机器学习,学习正常流量特征,符合正常流量特征的放行。有异常特征的结合算法模型进行分析检测。


1509094858411417.png

同时通过对网络中特定对象网络访问情况的长期监测和流量采集,自动归纳出针对该对象的访问关系模型,将实时访问数据与访问关系模型进行匹配,识别偏离访问关系模型的异常访问,并结合、滑动时间窗口技术不断引入实时访问信息对模型进行自动校正计算,无需人工干预便可以使访问关系模型更加趋近于实际情况。通过访问关系模型的自我修正很好的解决了传统技术中对于特征和规则的依赖,不仅可以大幅度释放网络管理员的工作时间,而且可以避免规则配置不合理导致的误报和规则更新不及时导致的漏报问题。

我们基于10多年的攻防研究,将高级威胁攻击行为分为了18种大项,372种子项。通过人工智能引擎的持续训练,我们已经归纳了上万种攻击组合行为。

1509094878643557.png

最后,这是一个威胁分析与检测平台示例,系统对于黑客和正常用户访问业务系统的流量进行收集,通过静态规则,动态行为分析,基线对比等方式进行攻击情况检测。基于被动式的流量检测,结合多维度漏洞管理,对于漏洞进行有效识别。并将结果可视化。


百战不殆


态势感知的建设要实现百战不殆,这里面最主要的含义是安全体系需要闭环。几乎所有的态势感知建设都着重于强调监控、可视化、大屏等,但我们认为,态势感知本身是一个安全的闭环。


1509094891604594.png

1509094903585648.png

P2DR模型中,强调Pt攻击时间需要永远大于检测和响应时间,如果公式不平衡,那么就会造成损失,通过多个维度对攻击进行计算,发现不同的维度准确率不同,多维度的计算就会明显的趋近准确维度越多,用于辅助计算决策的数据就越多,最终结果就越准确;

1509094916664912.png

将态势感知与安全平台的融合,通过平台化的安全系统进行安全解决方案的完整交付。通过安全资源池化,构建自动化的、可编排的应用安全体系;通过简单的脚本,调用相应的安全服务;实现安全运维自动化;统一安全策略驱动安全资源,实现安全体系软件化、自动化和随需而变;实现持续监控、安全闭环,自动化安全运维。


平台构成


安全态势感知系统架构从下至上分为基础数据层、分析处理层、应用展现层。基础数据层,主要包括对安全日志信息、全网流量信息、端点安全信息、行为分析信息等进行采集,采用分布式集群数据存储系统,能自适应任何格式的数据来源。并能高速处理、搜索和分析海量数据。数据分析层基于业务风险、资产和弱点情况,采用流计算引擎、机器学习引擎、关联分析引擎、溯源分析引擎、统计分析引擎等,对基础数据进行分析和处理。应用展现层在数据分析层的基础之上,根据业务需求和安全策略,进行安全态势可视化、资产可视化、告警和事件可视化、弱点可视化、攻击路径可视化、访问关系可视化等。

1509094934934472.png

平台底层有大数据架构支撑,包括了大数据采集,数据存储,数据分析架构。将数据进行处理准确分析后,结果可视化展示。对外提供接口服务,对接威胁情报,报表系统,第三方各种API服务,专家检索系统,信誉库等。

最后,传统的安全事件分析思路是遍历各个安全设备的告警日志,尝试找出其中的关联关系。安全人员花费大量精力进行告警日志分析往往都是徒劳无功。各类高级威胁攻击通常都会在网络的各个角落留下蛛丝马迹,真相往往隐藏在网络的流量中。因此除了安全日志之外,我们还需要重点对全网流量、端点安全数据、行为分析数据、安全策略数据、业务数据等海量数据进行全面的挖掘,实现大数据量下的数据纵向分析和横向关联,根据应用实际情况和安全策略,结合威胁情报,建立多种分析模型,挖掘能够实时表达各类资产运行情况的数据,并将结果数据动态实时可视化的表达出来,进而实现安全态势感知。

谢谢大家!