本文来自钛媒体,作者/张申宇。
大模型时代,企业数据安全需更“智能”
8月31日起,国内通过《生成式人工智能服务管理暂行办法》备案的AI大模型产品将陆续上线,面向全社会开放。
从年初ChatGPT的横空出世,到近日百度、字节、商汤等多家企业和机构的大模型密集上线,在生成式AI如雨后春笋般涌现的背景下,作为生成式AI底层支撑的云计算,又一次步入了变革时代。
与此同时,随着企业对于数字化转型的需求愈发迫切,业务上云已经成为如今各行业数字化转型的“首选”。随着云计算的发展,越来越多的企业将核心业务部署在云端,以实现“降本增效”。
在上述背景下,数据已经成为企业重要且核心的资产组成部分,大模型时代,企业数据安全也必将面临更加严峻的考验。
“AI+”时代已至
据市场研究机构预测,到2025年,全球生成式AI市场规模将达到100亿美元以上。其中,企业级生成式AI市场将占据相当大的份额,成为最大的应用领域之一。
AI作为一项“即新又旧”的技术,早在上世纪50年代就诞生了,而直到今年以前,业内更多的应用是“+AI”,利用AI技术赋能某项技术,或赋能某些领域。以今年为始,未来将迈入AI为先的“AI+”时代。
从各行业对AI大模型的态度来看,如今企业希望把AI技术应用到企业核心应用中,从而增强实际的生产力,整个行业也将从数据为先的“+AI”时代,进入到AI为先的“AI+”时代。
亚马逊云科技大中华区解决方案架构部总监代闻对钛媒体表示,生成式AI的出现,让企业对于云计算及AI技术的需求,逐步从技术部门转向业务部门,“企业从IT驱动业务的模式,逐步走向了以业务部门需求为主导的模式,这将大幅降低企业运作成本,缩短业务部署时间。”
而一项数字技术,真正核心的价值不仅在于消费侧的应用,企业级应用的推广,才能实现这项数字技术真正的价值。而以ChatGPT为代表的生成式AI只是”牛刀小试“,对于AI大模型而言,真正的应用价值将伴随着企业级大模型的逐步推广应用而体现。
AI时代,企业数据安全面临挑战
在企业级生成式AI快速发展的当下,云计算助力了大量激增的数据和大规模可用计算资源的实现,以此推动人工智能技术不断地创新。根据Gartner的预测,到2025年,超过85%的企业和组织采用云优先原则。这意味着越来越多的企业会选择将其数据存储和业务处理放在云平台上,而不仅仅是传统的本地服务器。
当然,在生成式AI技术不断发展的过程中,不可或缺的将是企业对数据的需求不断增加。然而,在数据处理和存储过程中,如何保证数据的安全和隐私保护成为企业在AI时代完成数智化过程中需要面对的重要挑战。
挑战一:数据泄露
当企业级AI大模型被广泛应用时,企业数据的安全也将面临着更加严峻的考验,这其中,数据泄露可以说是当下企业面临的最大的挑战之一。国际开源安全组织近日发布了2023年针对大语言模型应用的十大安全威胁中,数据泄露也在其中。
IBM Security发布的《2023年数据泄露成本报告》中显示,2023年全球数据泄露的平均成本达到445万美元,创该报告有史以来以来最高记录,较过去3年均值增长了15%。
同时,据行业机构统计,2018年至2022年,全球数据泄露事件平均每7.4天发生一次,其中,医疗、金融等行业成为重灾区。而随着企业级大模型应用的发展,数据泄露将面临更大的挑战。企业将会遭受更多的DDoS攻击或者数据泄露的威胁,从而进一步导致企业的敏感数据被曝光,遭受更大的经济损失。
面对数据泄露的威胁,企业需要不断完善数据访问机制,细分访问权限,对此,代闻表示,在各类大模型在企业中逐步应用的过程中,如果企业没有规定好数据边界、权限、应用API控制,就有可能发生数据泄露。“生成式AI的应用为企业内部管控机制带来新的挑战,这些挑战主要来自对企业内部的数据资产,信息资产的权限控制。“代闻表示。
挑战二:模型被攻击&篡改
AI大模型的训练和应用过程中,可能遭受攻击者的恶意攻击,如篡改、恶意注入等。攻击者可能通过修改模型输入或输出,或者篡改模型参数等方式,达到控制或干扰模型行为的目的。对此,代闻表示,生成式AI在“生成”的过程中,必然将进行数据的输入,在这个过程中,数据将面临被篡改的威胁,一旦数据被篡改,将导致生成结果的问题,“我们需要保障高质量数据的存储、传输和运行的环境。”代闻强调。
面对这些挑战,企业需要建立完善的防御体系,采用防火墙、入侵检测、异常流量分析等手段,及时发现和阻止攻击行为。
并且需要不断加强模型的安全性,采用防御性训练、对抗样本生成和检测等手段,提高模型对攻击的抵抗能力。
从管理层出发,企业需要建立完善的漏洞披露机制和应急响应计划,及时发现和处理漏洞,降低攻击者利用漏洞的可能性。
挑战三:模型泄露及知识产权保护
AI大模型的训练和应用过程中,可能遭受攻击者的恶意攻击,如窃取、盗用等。攻击者可能通过窃取模型参数、算法流程或源代码等方式,达到窃取知识产权或商业机密的目的。
这时候就需要企业建立完善的访问控制和身份认证机制,确保只有授权人员才能访问和使用模型,并采用加密等手段,防止模型被盗用或复制。针对此,亚马逊云科技的Amazon KMS解决方案可以为企业提供加密数据的支持。“亚马逊云科技的Amazon KMS服务提供持久、安全、冗余的存储,它可以定义密钥别名和密钥级策略,可以通过这些策略来定义和管理不同权限的用户。”代闻介绍道。
在代闻看来,仅是加密数据不足以应对当下企业面临的安全攻击的,他表示,对于企业级模型训练而言,除了对静态数据进行加密以外,另外一个很重要的能力是——如何能识别敏感数据。
针对此,代闻表示亚马逊云科技中国方案开发中心发布了敏感数据保护解决方案,它可以集中管理所有的账号,同时自动地发现各种存储中的敏感数据,比如说像Amazon RDS,像对象存储Amazon S3,同时使用人工智能的办法来识别其中的敏感信息,通过自然语言处理以及匿名数据识别发现敏感数据做出告警,以此达到可视化整个组织范围中的数据资产的能力,实现信息敏感数据的基础管理。
除此之外,企业还需要建立完善的备份和恢复机制,确保模型在遭受攻击后能够及时恢复。
混合云+私有化,企业级大模型最优解
针对当下企业数据安全所面临的诸多挑战,结合企业对大模型的实际需求,不难看出,企业需要一个更加安全,更加贴近、切合自身业务需求的、简单易用的大模型产品。
用户的需求及痛点也被云服务商所洞悉,截至目前,包括亚马逊云科技、IBM、谷歌、阿里云等在内的众多云服务商均推出了其行业大模型产品。
以目前行业大模型的发展趋势来看,并不像面向普通大众的大模型产品。一方面,行业大模型对于数据安全的要求更高;另一方面,行业大模型并不是“大而全”,而是“小而精”。
以亚马逊云科技为例,其基于用户需求,推出了Amazon Bedrock平台。亚马逊云科技大中华区技术专家团队总监王晓野表示,Amazon Bedrock并不是将所有可用的大模型进行简单的“堆砌”,Amazon Bedrock首要目标是——让用户有办法最容易地使用生成式AI最领先的模型,“我们会挑行业比较领先的模型,我们希望用户更容易地用到,所以是API的方式来推出的。”王晓野强调。
Amazon Bedrock吸引笔者注意的一点是,它可以提供类似本地私有化的方式供用户使用,“用户可以将Amazon Bedrock复制到本地,并应用亚马逊云科技训练数据及资源,结合用户本地的自有数据及业务需求,对模型进行训练”代闻表示,“同时用户自身的数据并不会反馈回亚马逊云科技的数据库中,在满足用户定制化、私有化需求的同时,切实保护了用户的数据安全。”
从行业端看,目前以亚马逊云科技、IBM等国际巨头为首的云服务商,推出的生成式AI应用构建的相关新服务和新功能,可以满足客户在混合云架构下的应用部署,在满足客户业务需求,直击痛点的同时,又可以最大化的保障用户数据安全。在笔者看来,这种以混合架构为基础,以定制化、私有化为“呈现方式”的大模型,将是未来很长一段时间内,行业大模型的发展重点,成为企业级大模型的最优解。
(本文首发钛媒体,作者|张申宇)