本文来自微信公众号“twt企业IT社区”,赵海,某金融系统高级主管。
金融行业的存量数据管理水平在各行业当中应该算是相对比较高的,IT基础架构当中的存储架构也相对稳定成熟,但是随着近些年的信息化大浪潮的不断涌动,其实已经悄然发生或者正在酝酿着即将来临的系列变革,相应的存储架构也会面临着挑战和机遇,透过对金融企业存量数据的梳理分析看到未来的变革趋势是我们的初衷。
一、金融企业存量数据现状是什么样的?
1.数据标准方面
以银行业为例,通过90年代的数据大集中变革,在架构、数据、接口等各方面都有了系列的标准化指导。例如,2014年发布的《银行数据标准定义规范》,类似这样的标准几乎每年都会有所更新。有了这些规范的约束,无论是谁在开发银行的金融系统,它的数据模型设计基本上都要遵循这样的标准进行。因此大多数银行企业都已经具备了一套以核心系统账户及客户为中心,以各交易各渠道系统签约信息为扩展的结构化数据标准体系,以客户为中心的结构化数据体系具备了后续挖掘和分析的基本条件。与银行相比而言,保险和证券的标准化程度可能会差一些,但随着监管口径的统一化发展,整个金融行业基本都沿着这个方向在前行。
2.数据挖掘方面
在数据挖掘方面,银行业有着已经稳定运行很多年并且架构、模型、算法都很成熟的数据仓库应用。但是这么多年来似乎业务领域扩展也非常稳定,几乎都集中在监管报送、反洗钱分析、信贷风险评估等这几个方面,而且这些数据分析都是基于已经经过标准化洗礼的结构化数据进行。随着大数据技术的发展,越来越多的银行开始评估非结构化数据和结构化数据结合起来的价值挖掘,在拓深原有业务领域的同时,增加了新的价值挖掘领域的应用,例如:精准营销、风险评估、智能运维等各个方面。在保险行业,越来越多的企业开始探索数据在客户画像、精算模型等方面的探讨。
3.数据管理方面
数据管理一方面是要对数据全生命周期进行管理,另外一方面是要对数据利用的各个维度进行精准有效的管理。从数据源的管理上来讲,现状还是比较分散独立,各个系统没有统一的数据下沉接口,大多数场景都是基于特定数据分析系统的需求分别向各数据源头请数;从数据管理工具上来讲,基本上还没有成型的工具可以实现数据的资源分配、过程控制、动态调整、服务计算等方面的整合;从数据生命周期上来讲,基于在线数据的管理和利用有基本的框架,基于离线或归档的历史数据管理只有比较单一的存储功能。
4.数据扩展方面
大多数金融企业对数据价值的利用基本都是集中在自己企业内部的存量结构化数据,比如基于各系统内的源数据以及历史数据进行再次加工,从而形成具备特定业务特性的汇总类、分析类、抽象类延申数据。但是对于系统外的数据利用相对比较少,比如:互联网渠道的客户动态行为属性类数据的获取和利用、外部企业或实体的数据利用、IT运维维度的数据利用等,对于非结构化类数据的挖掘程度没有开始或者还在探索当中。
二、金融企业数据发展面临的问题
1.标准化需要向非结构化数据拓展
从数据治理的角度来看,数据标准化体系的建设不仅仅要落在结构化数据上,更需要建立在非结构化以及半结构化的数据上,从数据模型设计、数据存储管理、数据挖掘利用等各方面都迫切需要对结构化之外的数据进行治理。金融企业目前保存最多的可能就是影像平台里面的票据、单据、证件等业务相关的图片数据,以及系统运行过程中留下的各类账务类以及运行类日志数据,未来还会有更多的网页类数据以及视频媒体类数据会积淀下来。那么这些数据要想在后期的数据挖掘和分析上起到与结构化数据同等重要的作用,从数据本身的模型标准、存取过程以及再生产过程等各个维度,都需要建立一套标准化体系以备存在的和潜在的数据价值挖掘所用。
2.非结构化数据的价值挖掘深度不够
从数据挖掘的角度来看,金融企业对结构化数据的挖掘深度和广度在不断发展。但是对于非结构化及半结构化数据的价值挖掘深度远远不够。以银行的影像系统为例,可能90%的数据行为是写,而只有少量的读取行为,这少量的数据读取也是为了信贷类、票据类业务的复核。而透过这些半结构化数据的元数据本身以及还没有提取的结构化信息,结合结构化数据线索,其实是可以进行再分析和再利用的。以金融行业的互联网业务为例,更多的客户网络行为数据以及线上产品相关的线上效应数据应该被沉淀下来,这些非结构化数据应该被不断提取信息,不断放到特定分析场景中提炼价值。
3.数据源的向外扩展程度不够
基于安全的要求,金融企业的数据相对比较敏感,这也就决定了这类数据的独特性。因此金融企业无论是做风险评估也好,还是做精准营销也好,还是做监管报送也好,基本上都是基于自己的存量数据和少数具备资质的数据源渠道进行交互。实际上对于很多评估类的业务以及精准营销类的业务,它是需要大量的不同维度的数据来支持的。相信政策面会逐步放开对某些具备资质的数据源的限制,这些数据虽然不是客户直接的金融行为,但是可以间接映射客户的金融风险承受能力以及金融产品需求的变化情况。因此金融企业有必要做好接口,迎接广泛的、合理合法的数据源输入。
4.数据价值利用的维度扩展性不够
以银行为例,对数据价值的利用基本停留在监管报送、信贷风险评估等有限的几个领域;以保险为例,对数据价值的利用也基本停留在保险定价模型的分析;以证券为例,可能现阶段对数据价值的利用最多的就在于金融产品的精准营销方面,客户风险评估还主要采用问答式。互联网企业针对客户的行为数据分析利用的思路在金融企业基本上没有得到广泛应用,利用数据分析代替人工审核提高评估准确度和效率的思路在少数企业开始应用,IT运营过程中积淀的运维数据没有在业务量级、规模、频率方面的优化和应急方面提供太多支持。因此数据利用的维度有待进一步扩展。
三、金融企业存储平台需求及未来发展趋势
1.分布式存储架构比重不断提升
数据的变化趋势必然决定数据存储平台的变化,上文我们分析到数据变化的一个重要趋势就是非结构化和半结构化数据的不断增加,无论从数据规模上,还是从数据存取行为方式都会面临巨大的变化。那么这种变化必然带来对存储系统本身的架构设计、存取规划、服务管理等方面的挑战。截至目前为止,IT存储界争论了很多关于分布式存储架构和集中式存储架构的选择,其实从技术层面本身已经有了一个明确的答案:分布式存储架构是大规模非结构化数据产生后的最佳解决方案。传统的集中式文件系统架构可以支持一定规模下的非结构化数据存储,但是面对海量的非结构化数据量级,树状元数据的扫描机制就显得力不从心了。面对需要通过各种维度对数据进行再加工、再分析的数据价值挖掘场景,从并发量控制、数据基础加工、数据动态流动等各方面都提出了挑战,这也是分布存储架构粉墨登场的重要原因。
2.存储技术与数据业务场景的精准化匹配
无论数据存取服务的上层遵循什么样的思路设计,但对于底层数据存储技术的选型设计应该遵循技术最优思路。
首先我们先明确一个结论:底层设计上,集中式存储架构适合金融企业存量结构化数据场景和高可用、高性能要求的半结构化/结构化数据场景,分布式存储架构适合金融企业存量及增量的多样化、海量非结构化数据和半结构化数据场景。至于集中式存储架构存在的原因,有两个重要方面:其一,分布式存储产品有很多,但归根结底就那么几种技术流派出身,只有基于Ceph的流派在原理上是要求强一致性的,其他的基本为了性能会舍弃事务特性的强烈追求,这与交易类业务场景需求相悖;其二,无论是分布式文件系统派系,还是去中心化分布式对象派系,从其读写和并发控制的原理上看,对具有热点的随机读写交易业务应用都是不太友好的。至于分布式存储架构不断增比的原因,同样有两个。其一,分布式存储架构设计初衷就是基于大规模非结构或者半结构化数据存储场景设计的,比如计算寻址和扫描寻址在小规模场景下是分不出高低的,只有当数据量达到一定程度才能显示出计算寻址的性能。其二,互联网企业的实践证明了分布式存储架构最擅长的场景。
因此,金融企业未来的数据结构、规模特性以及交易行为固有的业务要求就决定了数据存储系统底层的技术架构必然是精准匹配模式。把最适合的底层技术应用到需要的数据业务场景当中去,这是底层技术选型设计应该遵循的基本原则。
3.存储管理上的云化融合
虽然底层存储技术与数据业务场景需要精准匹配,因地制宜。但是从存储的管理上来讲,其实又提出了新的需求。
数据规模越来越大,尤其是非结构化数据增量发展趋势会越来越明显;数据形态越来越多元化,结构化的二维表、非结构化的图片、日志、文本、视频、网页等等各类数据最终需要融合到一起,又需要从不同的维度抽丝剥茧;数据性能要求越来越细分化,随机读写、顺序读写这几种行为方式必然形成多元化的需求组合对存储系统本身提出性能需求。这一系列的数据变革必然要求存储管理上的自动化、动态化、服务化。所谓自动化就需要统一的管理接口和各类的技术模块能够有标准化的接口渠道和调用机制,无论底层是什么架构和技术,管理上都可以通过标准接口实现功能上的整合管理;所谓动态化就需要底层架构和数据上层应用解耦,底层的节点、容量、配置变化对上层无感知;所谓服务化就是简化存储管理的复杂度,提高运营的效率和成本,这就要求存储底层技术和上层应用之间进行功能上的聚类和包装,把简单的接口提供给应用,把复杂的聚合包装留在存储管理平台内部。
说到这里,这不就是很多人看到的存储云化的一些关键功能么?
四、结语
经过上述的梳理和分析,基本可以得出几个观点:
1)企业数据本身的结构、量级、用途变革必然带来存储技术元素的多元化调整。
2)企业数据业务特性及数据多元化战略发展必然要求存储技术选型设计按照精准定位的原则执行。
3)企业数据发展变化需求必然要求数据存储管理向自动化、动态化、服务化方向迈进。