2021年9月17日,第二期阿里云用户组(AUG)活动在南京召开。阿里云高级产品专家崔旭东以自身多年的数据安全产品经验,向现场20家南京企业的35名技术骨干系统全面地介绍了何为数据安全,并分享了企业如何从可见、可管、可控来面对数据安全挑战,完成数据价值最大化。本文根据崔旭东的现场演讲整理而成。
数据是数字经济时代最重要的生产要素
今天给大家分享的内容是云端数据安全资产保护实践。下面这张图展示了人类经济发展变化的历史,从最早的农业经济到后来的工业经济,再到如今的数字经济。
我们今天会听到有句话叫做数据引领生产力的变革,生产力有一个紧密相关的概念,生产要素。生产要素就是人们在进行社会生产经营活动时,所有与之相关的这些生产资源的集合。不同经济时代最活跃的生产要素是不一样的,比如农业时代的土地、劳动力,工业时代的资本、技术,到了今天数字经济时代,数据逐步成为当今社会最活跃的生产要素。
国务院在去年4月公布了《关于构建更加完善的要素市场化配置体制机制的意见》的文件,第一次把数据作为五大生产要素放到意见指导文件里面,其中也明确要求加快培育数据要素市场、数据分类分级安全保护。
何为数据安全
我们知道安全问题的本质都是因为对价值和利益产生了侵犯,数据如此重要且与企业的核心利益息息相关,自然会吸引到攻击者的目光,相应的就需要考虑数据安全问题,我们就首先定义一下什么是数据安全。
在过去的IT时代,企业的数据往往保存在单一介质中,数据安全更多关注的是数据的载体安全,比如数据库、文件。数据载体的安全防护也就演进出来我们所熟知的数据安全产品,比如数据库审计、数据库脱敏、文件加密等,此外还有针对数据所产生价值的防护,比如专利保护、版权保护等。
在如今的DT时代,数据开始流动,开始分享,此时我们叫做企业完成了数字化。数字化和智能化趋势的一个大方向上再单独地去讲数据载体安全是远远不足的,今天企业更多关注的是数据自身所存在的一些安全威胁,以及这些安全威胁可能会给企业带来的业务风险、合规风险,比如数据本身的泄漏,或数据本身的破坏、滥用、可用性等问题。
建设数据安全的驱动力
明确了数据安全的定义,再看企业为什么要去做数据安全。
第一个是合规遵从。在之前分享里讲到了各类法律法规的颁布和执行,这会是企业做数据安全的重要驱动力,这需要企业去落地合规监管的要求。不管是从最早的网安法到后续的个保法,再到今年9月1号发布的数据安全法,企业都能看到法律法规在不断完善中,监管也在趋严。
再一个是价值保障。企业本身是处在数字经济社会,如果不能很好地利用数据,企业是没有核心竞争力的,数据自身会产生巨大的价值,也就是数据自身是跟企业的价值强关联的。比如企业的数据不可用了,影响到的就是业务的连续性,数据资产的损失自然也就带来企业价值的损失。举个比较典型的例子,去年在疫情期间有一个比较出名的企业在上市时,就由于在远程办公情况下,有一个远程办公的员工删除了客户SaaS业务数据,导致赔付客户1.5亿元,同时企业市值蒸发了20亿,对企业造成直接经济损失的同时也对企业声誉造成了重大影响。
做好数据安全的挑战
从最早的网络安全到后来的系统主机安全再到今天的数据安全,不同阶段的安全有以下区别:
早期网络安全或者主机安全时期,更多关注的是一个点的问题,往往是针对一个问题然后去提出解决方案,做安全的思路是点状的;
后来随着攻击者的攻击手段更加复杂,更加隐蔽,企业要拥有足够的防护水位,会采用纵深防御这样的方式,把各个防御点给串起来变成一条线,来逐级识别、防御攻击者的杀伤链。
从整个IT社会往DT社会转型,到数据进入社会,可以看到数据的分布变得更广,数据流动不再有边界了,整个社会生产活动都依赖数据,比如说用户完成一次网购,如果没有数据的共享,是无法完成的;其中牵涉到的数据交换方有购物平台、支付平台、用户的发卡机构、物流公司等。在数字时代,信息如果不共享,几乎没有办法进行生产经营活动,这也打破了原有的数据边界。
过往的防御手段往往难以全面覆盖企业面临的数据安全问题,主要体现在以下几个方面:
第一就是数据分布非常发散,所以安全防御思路到数据安全就从一个点状问题、线状问题变成了一个面的问题;
第二就是它的复杂度也变得非常大,今天企业有结构化数据、非结构化数据、半结构化数据。有用过OSS、RDS、MaxCompute等产品的企业可以体会到,数据的组成变得非常的复杂,它这个数据也不仅仅是结构化的,还有非结构化的,像文件、图片、音视频等,这样复杂性的提升,也给数据安全防护工作带来了不同过往的挑战;
第三就是数据难以管控。数据之于业务,可以说就像石油之于我们的交通工具一样。为了交通工具的运转,石油能源要不断流动,数据也是不断在流动的。那这样的情况下,其实数据是高度灵活的,在这种高度灵活的状态下变得更加难以管控。它可能在在数据仓库里,可能在应用上,也可能在员工的终端设备上,分布非常灵活,而且不断流转。
如何应对数据安全挑战
既然发现了问题那就要去解决问题,如何去帮助企业去解决数据安全问题,重点考虑三个维度:
第一个透明度不够,企业要做到可见的效果,需要知道数据的分布在哪,数据怎么流转,特别是这些数据分类分级之后,哪些人在用这些数据以及怎么用;
第二个就是要确保可管的复杂度,无论是数据增量或者更新变动,亦或数据存在威胁,在攻击发生的时候能够进行快速地响应;
最后一个就是灵活性,数据过于灵活了就会像水流一样不断的流转,这个时候,企业要去把它变得可控。可控的意思就是能够去从风险的视角出发,来确保整个数据在使用或者是整个生命周期的过程中,能识别出来它的威胁面,从而能够去缩减它的威胁面,在发生攻击后也能够快速地止损。
这里所谓的数据可见、可管、可控,也是企业对一款数据安全产品的要求。接下来,可以对照阿里云自研的“数据安全中心”这款数据安全产品,对应这三个能力具体的实现。
可见——敏感数据发现
先说可见,即敏感数据的发现,刚才看到《数据安全法》里强调过一个点,企业要能够自己去把数据分类分级,这是万事第一步。如果企业不知道敏感数据是什么,它分布在什么地方的时候,就没有办法做数据安全。那数据安全中心能帮助用户做什么呢?
首先,基于云原生的优势,能够覆盖海量的数据。不管是结构化还是非结构化的数据,都可以进行高效的识别;
其次,数据安全中心能够精细高效地识别出数据类型,并利用机器学习的能力去自动化分类分级这些数据,确保整个云端的数据能够去更加透明地展现在客户的面前。无论是对象存储的数据,数据仓储的数据,最后都会去进行采样。采样以后,基于样本数据去提取特征,然后利用AI引擎来进行对比,确保企业能够把这个数据的类型、敏感等级识别出来。同时基于阿里巴巴最佳实践以及不同行业发布的分类分级指南,企业可以去进行自动的分类分级,再往后它的敏感等级会呈现出数据安全的一个全景,给到阿里云的用户,以便于绘制出敏感数据资产的地图。
可管——全域审计与AI异常识别
第二个是可管,即如何进行全域的审计和异常的识别。回到刚才讲的IT和DT时代,IT时代主要围绕数据载体建设安全,那么常见的数据库审计为什么就解决不了今天DT时代的数据安全问题?
举个例子,数据库审计更多地是把整个数据库访问管理行为记录出来,更多聚焦在单点的行为动作上,没有上下文的关联分析,往往难以判断真正的威胁行为。
可以看一个真实的威胁事件,真实的风险可能是企业内部某个员工在某个时间,比如双11晚上12点,通过一个自己的设备,在一个不常登陆出现的位置,在家里去访问了一个不常访问的机器,并且在机器上执行下载了操作,操作的数据量是平常的10倍。这一系列的行为特征就偏离了正常的基线,这个就是真实的风险。
那数据安全中心怎么去帮客户处理风险呢?首先可以帮助客户梳理出整个云上所有的数据分布并分类分级,然后再去针对性地监测数据的访问行为,基于正常的访问行为,去分析学习出来正常的基线。如果出现类似上述风险的行为,那定义出基线偏移量,进行异常告警,提示企业IT管理员及时完成止损动作,这就是数据可管。
当然只做到可管其实还不够,因为如果只是可管的话,这个时候就算可以定位到攻击发生,但数据最终其实还是泄露出去了,这就需要第三个能力,可控。
可控——敏感数据脱敏防护
第三个能力就是可控。面对数据灵活的特点,需要如何控制才能达成效果?数据安全中心提供了数据的脱敏能力。脱敏这个概念也比较广,包括加密、替换、混淆等都可以归类到脱敏能力,这里面主要讲脱敏算法,包括后续要讲的隐私增强计算的这种数据交换平台,它其实都是要保证这个数据是可控的。不能因为有了数据安全法,就干脆不用、不分享数据了,而应该是有了数据安全法,要考虑怎么更合理合规地使用数据。
脱敏有两个主要能力:
静态脱敏。静态脱敏的场景打个比方,比如今天有一些ISV要合作一起去开发一个新的系统,或者上线一个新的应用。这个时候为了联合开发,可以先把数据进行脱敏,不会影响正常业务联调,用这样的方法,把数据从生产环境脱敏到测试环境去给到这个合作伙伴使用。
动态脱敏。动态脱敏的使用场景也很多,比如能够去把这个前端页面的展示数据,动态地进行脱敏。平时大家登陆网银,或者说有时候在内部系统上查一个人的手机号的时候,可以发现中间几位全部是打星的,你点一下“显示”才能够展示出来。这样的作用,既保证了信息是可用不可见的,同时企业能监控到这个信息到底是对谁在用,在什么场景下用。
数据安全实际案例
再分享两个客户实际案例。
国内一个金融客户上线以后,一天之内扫了百万量级的数据。接入第一天,阿里云就帮助这个金融客户发现有一个OSS Bucket,这个Bucket公网任何人都可以访问。这就是属于一个典型的错误配置带来的风险,这样的风险我们能够立刻通知用户,快速地进行错误下线。
第二个就是阿里云在政务的一个落地场景。一个政务客户有数据进行分享的诉求,需要挖掘更多数据的价值。他的业务就是为公民提供一些公共类的服务。这个时候阿里云就去帮助他做了数据的脱敏,合规地去发挥数据的价值。第一降低了数据泄露的风险,第二还是能够去让他去真正实现数据价值的一个落地。
数据安全中心的核心价值
最后简单总结一下,首先,阿里云这个产品可能给用户带来的就是能够全面梳理整个数据的分布,绘制出数据地图,并对其数据进行分类分级以及针对敏感数据进行脱敏的操作,无论是静态脱敏还是动态脱敏,确保这个敏感数据变得不敏感,继续发挥它的数据价值。同时也提到了,阿里云的数据安全中心是能够去帮助用户去满足不同的合规要求。相比传统数据安全产品,比如硬件盒子或者镜像,阿里云的云原生优势在于:
第一,数据安全中心是开箱即用的,对线上业务的侵入小,几乎是无感接入;
第二,覆盖了丰富的数据类型,结构、非结构化数据,关系型数据库、非关系型数据都可以覆盖到;
第三,数据安全中心能提供全面的数据安全的保护,不再聚焦一个点上,通过数据全生命周期的管理,从最初的识别,到加密脱敏,到威胁检测,到行为审计,确保整个数据生命周期之中,风险是安全可控的。
今天主要分享的内容到这里,谢谢。(本文完)