本文来自微信公众号“数世咨询”,作者/闫志坤。
01
安全大模型的落地成业界关注热点
大语言模型(LLM)或生成式AI,已经成为近两年最为火爆的高科技概念,在信息化、数字化领域,更是无人不知,无人不谈。客服助手、知识查询、文生图片、文生文章等应用正在普及,而文生视频、数字人等较为高端的应用也已深入人心。但如果聚焦到数字安全领域,大多数安全人员或厂商尚处于早期的探索阶段,LLM真正具备商业价值的应用还有待大范围的落地与验证。因此,走在前沿的厂商在此方面有何种动作或有哪些具体的实践,则格外受到业界的关注。
笔者身处调研咨询行业,日常工作就是与甲乙双方、监管方和各种研究机构进行沟通交流,谈到LLM在安全中的应用,大家普遍认为,LLM未来的价值毋庸置疑,在问答助手、代码编写、安全报告、告警降噪、自动响应等多种场景有着巨大的潜力,但在具体落地上,又对缺乏大规模的算力和标注化的数据,以及LLM的评价标准和相应的安全风险感到无从着手。因此在充满热情的同时,又充满疑惑,急于想看到或了解业界先行者的做法或实践。
02
LLM驱动数字安全
2024年5月,国内独立第三方机构数世咨询,发布业界首个“LLM驱动数字安全”的专业研究报告。报告对LLM在安全领域的技术原理、市场需求、价值应用,以及困难挑战和落地实践等方面进行了详细阐述,同时还以雷达图的形式,列出了在LLM领域走在前列的安全厂商。报告认为,LLM对安全进行赋能,主要集中在五大类和二十个子类上,见下图:
图1 LLM的安全赋能
从上图可以看出,LLM在安全体系中的应用场景十分广泛。但如果回到目前业界最关注且已有落地实践的场景,那就非安全运营莫属。“LLM提升了交互性并极大的增加了可解释性和推理能力,安全大模型的出现有助于安全价值可视化与用户体验两方面实现质的飞跃。虽然安全大模型的应用还处在早期阶段,但用户方面已经展现出较强的采购意愿。这样的现状主要来源于LLM涌现出的新兴能力在安全运营中实现降本增效的合理预期,以及用户内部创新研究的绩效牵引。”——摘自《LLM驱动数字安全》(数世咨询)。
实际上,各大安全厂商在近一年多来已经有十余家先后宣发了安全大模型相关的新品。概念和产品都有了,市场需求也强烈,因此安全大模型在用户侧的落地和实际应用效果,目前则成为了业界关注的焦点。《LLM驱动数字安全》报告以八个评价维度的雷达图,分别展示了十六家厂商的特点和能力。其中,产品工程化和市场渗透度两个维度与“用户侧的落地和实际应用效果”紧密相关。在这两个维度上,又属深信服的评分最高。分析师给出的标签是“首家安全大模型商业化应用”和“优秀的可视化与用户体验”。
图2深信服安全大模型能力雷达图
03
大模型如何助力安全运营:
深信服安全GPT聚焦安全效果与用户体验
为了进一步了解安全大模型的落地与实践,笔者与深信服的产品经理进行了深度交流。据了解,深信服的安全大模型投入早(2022年底开始训练,2023年的5月首发,现已完成3.0升级迭代)、投入大(数百张A100/A800显卡集群;400人专职硕博团队),且在大模型支撑安全运营的层次上,是业界其他安全运营中心尚未达到的深度。深信服已经建立起来一整套“大模型使用+数据积累+安全和算法专家清洗和标注”的数据运营转化机制,此为大模型利用微调等手段提升能力的关键。
由此,深信服安全GPT细分为“检测大模型”与“运营大模型”应用在安全工作中,实质性提升多种场景的安全效果。检测大模型作为检测引擎,帮助用户识别未知的、隐蔽的和高对抗性的威胁和攻击行为;运营大模型作为智能助手,提供辅助运营分析、自动研判处置等价值,优化安全运营效率。
在2023年已迈向标准化成熟的产品交付,目前为止,深信服安全GPT已经累计上线客户130+。具体到实践效果中,以某国家部委客户为例:
该客户的数字化环境涵盖了约300个信息系统和30种数百台安全设备,一天内产生数亿条日志和数万条安全告警,从而造成安全团队对安全事件的发现滞后、处理效率低下,以及安全运维报告的编制周期过长(至少1周)等困难。客户迫切需要一个一站式登录的集中管理平台,来提升安全运营的效率和效果。客户甚至提出了具体的效果诉求,期望将每天产生的安全告警数量大幅缩减至约40条左右,并将平均每次安全事件的处理时间缩短至0.5小时左右,同时希望安全运维总结报告能够自动导出,立等可取。
在这个客户案例中,深信服的安全GPT使用了三台大模型服务器:
安全检测——通过对网络流量的深度分析,及时发现并处置潜在的安全威胁,增强对恶意代码混淆、编码绕过类的0day/1day攻击检出能力。
辅助运营——基于自然语言交互的安全运营助手,快速了解漏洞数量、类型和严重程度等信息。在安全事件研判环节,通过按键触发安全辅助,快速闭环运营工作,包括告警解读、情报查询、事件分析等。
智能运营——该模型能够对所有告警进行逐一研判,并基于安全GPT进行自主告警分析,协同各类安全设备进行联动处置,实现全网24小时人工智能自动化值守。
到2023年底,深信服安全GPT已在该客户侧实现了本地化检测大模型和运营大模型的实际业务环境上线部署。2024年初,完成了在客户环境中的第三方安全产品接入和验证测试。到2024年初,实际达到的应用效果为:检测大模型精准率>95%,误报率<4%,独报告警占比达82.8%,并在实际业务环境中发现高价值的恶意代码混淆攻击案例。运营大模型方面,大模型自主研判实现告警降噪99.8%以上。
04
用户真实反馈:1人即可守护数万资产
“深信服XDR+安全GPT,提升了对恶意代码混淆及零日漏洞的检测能力,日常安全运营时效提升20%,工耗降低25%,并补齐了夜间安全监测的研判处置能力,实现了全天候7*24小时无间隙安全值守。”对于该国家部委客户而言,安全GPT带来实质性的安全运营效率提升,是内部数字化转型的“新质生产力”。
在另一个案例中,某顶尖制造企业安全运营负责人对安全GPT给出了很高的评价:“几万(数量)资产日常安全监测现在1个人就足够了。之前每个人上班最多分析200条告警就很夸张,加班加点到12点也就500条,现在每天就看需要处置的几十条重要告警,可以轻松应对。之前1个事件处置大概需要5-6小时人工处置,结合安全GPT智能值守能力,现在几分钟就能搞定了。如果以学历等级来划分深信服安全GPT与其他大模型,可以说,深信服安全GPT已经达到大学生的高水准。”
05
结语
如果将安全运营工作再具体深入一步,就到了告警降噪的细分场景上来。安全领域的专业人士都知道,告警降噪是整个安全行业最大的顽疾之一。因此,在一些重要监管机构对安全大模型效果的测评中,首当其中的就是告警降噪,然后是流量检测和网络钓鱼。笔者认为,这三大检测目标也是当前最为主流的安全大模型应用场景。
未来,随着LLM算法和预训练数据的质量不断提升,不仅越来越多的安全场景将会被赋予LLM的能力,甚至所有的安全产品和安全体系将会被人工智能所重塑。正如《LLM驱动数字安全》报告中所言:“安全运营的逻辑与实际操作过程将会迎来颠覆性的变革,不同规模组织间的安全保障能力进一步被拉开差距。”