数据孤岛、数据低质、数据泄露,如何提升大数据风控有效性?

倡导数据互联互通解决数据孤岛问题,增强数据检验能力提高数据质量和可靠性,推动数据安全相关制度的建设防范数据非法泄露能够提升大数据风控的有效性。

追溯至1980 年,着名未来学家阿尔文· 托夫勒曾在着作《第三次浪潮》中,热情地赞颂了大数据将成为继工业革命、数字信息之后的第三次浪潮。直到2008年末,兰道尔·布莱恩特、兰迪·卡兹、爱德华·拉佐斯加在《大数据计算:在商务、科学和社会领域创建革命性突破》中探讨了大数据应用的可能。更进一步讲,IBM在2012年发布了白皮书《分析:大数据在现实世界中的应用》,其在高德纳分析员道格·莱尼3V理论的基础上,重新定义了大数据的4V应用理论,并在发布会上大胆预言。

大数据风控的跨领域应用

2011年2月17日,全世界记住了IBM的沃森计算机系统。其在智力竞赛节目《Jeopardy》(危险)中打败了两名人类挑战者,计算机科学家们认为这是大数据超级计算能力的胜利。自此以后,大数据正式开启产业应用的先河,短短几年间席卷了金融、科技、政府、教育、医疗等多个领域。其中, 金融作为一个以数字体现价值的典型行业,大数据技术已经广泛应用于金融的多个领域,比如风险控制、客户管理、精准营销和产品服务创新等。

金融领域的应用

众所周知,大数据技术在风险控制领域的应用是非常广泛的。大数据风控在金融领域的应用,根据风险类型的不同会有所差异,如申请欺诈风险、交易欺诈风险、支付欺诈风险、信用风险、合规风险、市场风险、套现风险和洗钱风险等。笔者将从最重要的两类风险:欺诈和信用来进行探讨。反欺诈主要是通过身份核验,黑名单排查来解决数据真实性,还款意愿问题;征信,主要是对还款能力和还款意愿的一种判断。

举例来说,JPMorgan是较早采用金融大数据风险控制解决方案的投资银行。其反欺诈和信用风控的原理是基于事件驱动型的实时欺诈检测和信用风险监管。 在信息采集方面,客户的数据大部分来源于线下业务系统累积的结构化数据,小部分数据是在Facebook和Twitter等社交网站上采集的半结构化或非结构化数据,比如文本、视频等。经过数据交换平台和Hadoop分布式系统的集中处理后,JPMorgan的金融大数据系统会将统一格式化后的数据存储在数据仓库。

在实时欺诈风控方面,JPMorgan基于客户的360度画像进行反欺诈和反作弊的实时监控。首先,采取线上结合线下的方式对客户的身份进行交叉检验。例如,通过FICO评分,选取评分低于650分的客户群进行线下调查。从很大程度上,规避了个人或团伙的申请欺诈。另外,JPMorgan的反欺诈平台会利用数据挖掘、机器学习等技术,随机从消费历史数据库的欺诈消费记录中,提取出具备相同特征的欺诈模式,对下一次新的消费行为进行预测和分析。每当发现新的欺诈行为后,系统会立即进行匹配检测,判断欺诈类型是交易欺诈、支付欺诈亦或是其他类型的欺诈,若与系统原有欺诈模式不同,则将此全新的欺诈行为记录到反欺诈模型中。在信用风险控制方面,JPMorgan重点考察客户的还款能力和还款意愿。其利用logistic回归修正模型来预测借款者的还款能力。模型主要对客户的资产、负债、未来收入和成本的现金流等特征进行量化价值评估。JPMorgan对客户还款意愿强弱的考察主要是基于客户的事件信息和相似客户行为来进行分析。形象来说,杰克近期中了500万彩票大奖,中奖事件信息的触发会增强李三的还款意愿。汤姆和吉姆是好朋友,经常一起出入同一餐厅(按美国习惯同时使用各自信用卡分摊帐单),从汤姆还款的频率和额度可以从很大程度上预测吉姆的还款意愿的强弱。

其他领域的应用

如今,全世界的一半以上的人口生活在城市中。随着城市人口的剧增,如何精细化管理人口、资源如何平衡配置和如何打造智慧城市成为了各国政府亟待解决的难题。

大数据作为一项新型信息挖掘和处理技术,对智慧城市的建设提供了有效的解决方案。一个大数据技术比较典型的应用是在智慧交通领域,现阶段,错综复杂的城市道路,可以通过GPS和摄像头数据来进行规划设计。包括道路红绿灯的时间间隔、事故预防调查和道路摄像头的关联控制等。例如,大数据服务提供商Teradata曾经帮助西班牙交通总署实现大数据交通事故调查,不仅大幅降低了事故调查的人力、财力资源,而且从交通事故源头上有效减小了事故发生概率。

大数据风控的有效性问题

近年来,大数据风控技术在各个应用领域的发展速度令人目不暇接。然而,从另一个方面,其有效性也受到了非常大的挑战。陈宇2015年在《风吹江南之互联网金融》中提出了大数据风控无效论。笔者认为,大数据是有效的,但其有效性不足。

具体如近期特别关注的P2P平台。自2007年我国诞生第一家P2P平台起,P2P平台频频暴露出跑路、停业、提现困难和经侦介入等问题。目前,大部分P2P平台均宣称,自家平台是采用先进的大数据风控技术,严进严出,基本能保障不良贷款率在P2P行业较低的水平。然而,P2P行业的风控现状却总是事与愿违。根据网贷之家发布的《2015年P2P网贷行业年报》显示,2015年全国正常运营的P2P平台总数2595家,累积停业及问题平台数量高达896家,占比34.53%。问题平台总数高达2014年的3.26倍。因此,P2P风控之殇从一个侧面反映出大数据风险控制存在有效性不足的问题。

有效性问题的提出

在数据来源方面,数据孤岛仍然是制约我国金融信贷行业发展的重要因素。目前,政府、银行、券商、互联网企业和第三方征信公司掌握的信息资产难以在短时间内互联互通。正如吴昊(2015)所说一样,信息孤岛导致了信息不对称、不透明,带来了大量的多头债务风险和欺诈风险[6]。由此得知,金融信贷行业若想利用大数据风控技术大力提升风控水平,就必须打破信息孤岛,解决信息不对称和信息获取不及时的问题。

在数据质量方面,数据缺乏有效性是数据质量不佳的主要因素,也直接导致了大数据风控有效性的不足。近些年,金融机构、电子商务、社交网络、公共政务、OTO互联网平台等数据体犹如一台永不停歇的机器一般,源源不断地制造着每天2EB级别的海量数据。然而,数据格式多样化、数据形式碎片化、有效数据缺失和数据内容不完整等问题也随之而来。因此,改善数据质量,提升有效性成为大数据风控水平提高的必备环节。在数据采集和使用的制度建设方面,保护个人或企业隐私,一直都是我国政府制度建设的一个重大方向。如何合法地、适度地、有效地采集和使用大数据?这不仅仅是一个技术实现的问题,更是一个社会进步的问题。近年来,数据泄露事件频频出现,也成为了各大媒体争相报道的新闻头条和人们老生常谈的热点话题。

有效性问题的分析

纵观大数据风控有效性不足的三大因素,数据孤岛是当务之急。首先,公共设施、生活缴费、社会保险、交通路况、教育医疗等政务数据,依然掌握在相关政府部门数据库,尚未向社会公开,甚至可以说,政府部门内部都未进行共享。目前,虽然工商、司法、公益等信息已经向全社会开放,但是公共政务信息的开放程度仍然较低。况且,政府部门信息的公开必将是一个漫长且复杂的过程。其次,银行、券商、基金和信托等传统金融机构长期形成的合规文化氛围,主导着各项业务的规范发展,因而设计了诸多制约环节和监控措施。以至于传统金融机构的数据开放流程变得异常繁琐和低效。再者,掌握着大量真实信息的互联网企业、第三方征信公司和O2O平台之间也难以达到互联互通的程度。电子商务、社交网络、地理位置、信用评估、搜索引擎、移动互联网行为等大数据交叉集中于阿里巴巴、腾讯、百度、拉卡拉、九次方等企业。自IBM公布首例大数据商业案例以来,大数据技术在世界范围内得到快速普及。数据即价值,由此深深地根植于每一个现代企业的发展理念中,这些企业都希望抓住第三次技术浪潮的时代机遇。因为在其跑马圈地的过程中,互相之间存在激烈的竞争关系,所以大数据互联互通的目标目前看来难以实现。

从互联网金融元年开始的短短三年间,网络安全事件层出不穷,网络数据真实性再次被提及。王强(2015)认为,大数据时代的数据基本是垃圾进垃圾出,真实度可能只有50%。企业家和学者对数据真实性的担忧不是空穴来风,银行、P2P等机构都遭遇过严重的金融欺诈事件。比如,2015年,我国商业银行频现身份冒用、盗卡交易和频繁套现等安全事件。毋庸置疑,视风险为第一要务的商业银行仍然是大数据真实性最高的机构。然而,商业银行仍然会遭受上述风险。其中,金融基础设施不完善是最直接的一个因素。具体举例来说,在身份验证方面,一个自然人或企业很有可能会开通各个商业银行、第三方支付、P2P网络借贷、小额贷款等账户。商业银行通过央行征信系统来对客户在其他银行的表现进行风险识别和风险定价,对于第三方支付、P2P网络借贷和小额贷款等公司的账户数据,商业银行由于缺乏外部大数据采集能力和意识,并不能及时和轻易地获取。因此,客户除商业银行之外,在其他信贷渠道引发的信用风险,势必会叠加到商业银行的信贷风险中。

与此同时,网络安全事件也带来了严重的数据泄露风险。从国际数据泄露情况来看,Verizon发布的报告《Data Breach Investigations Report 2015》显示,全球调研覆盖95个国家,61个报告了数据泄露问题,共涉及79790个安全事件,损失高达数千亿美金。从国内来看,国内专业的互联网安全平台360发布的《2015年中国互联网安全报告》显示,共有1410个漏洞可能造成网站上的个人信息泄露,可能泄露的个人信息量高达55.3亿条。

总而言之,若想提升大数据风控的有效性,就必须解决数据孤岛、数据低质、数据泄露的问题。

大数据风控有效性的提升途径

与其说大数据风控是无效的,不如说大数据风控尚处于初级阶段。在这个阶段,大数据风控有效性的提升需要以探索的方式解决数据孤岛、数据低质、数据泄露三个方面的问题。从而对我国原有过度中心化、同质化的风控体系进行升级换血,避免系统性风险带给我们的巨大危害。

在现有大数据风控模式优化的长期过程中,政府监管部门、传统金融机构、互联网企业、第三方征信公司、OTO平台将扮演不可或缺的角色。其中,政府监管部门的作用尤为重要。比如数据孤岛的打破,得益于政府监管部门积极的征集多方意见,制定公正严明的法律法规或行业规则,倡导多方加入到信息共享、数据互通的行列。因此,大数据风控有效性的提升,笔者认为,应该从以下三个方面来思考:

倡导数据互联互通解决数据孤岛问题

目前,数据孤岛是大数据风控体系建设过程中资源整合的最大障碍。各个机构和企业在拓展业务的同时,积累了海量的数据信息。但由于各个系统之间缺乏信息共享机制,导致形成了大量的数据孤岛,不利于我国信用基础数据库的建设。

倡导数据互联互通能有效地打破数据孤岛,然而,真正实现互联互通的目标,必须经历漫长的过程。回顾国际上发达国家的信息互通的历程,作为世界金融中心的美国,其信用大数据的开放方式是值得借鉴的。美国最初的数据开放源自于民众对信用数据知情权的诉求。1953年至今,从最早的《信息自由法》到美国总统奥巴马推动数据的开放运动,已经从国内成功地推广到了由美国、英国、墨西哥等8个国家发起成立的数据开放政府联盟(OGP)。

从国内来看,我国在数据开放水平上进步显着,近几年提出了很多创新举措。2015年8月31日,国务院印发了《促进大数据发展行动纲要》,正式将大数据战略定位为国家层面的创新战略。在这份纲要中,提出了 2017 年底前,我国跨部门数据资源的内部共享格局将形成。2018 年底前,将建成我国政府数据统一开放平台。2020年底前,我国将逐步实现金融、信用、企业登记监管、交通、医疗、教育、气象等民生保障服务相关领域的政府数据集向社会开放。

对地方政府而言,我国50个省市在贵阳市政府、贵阳大数据交易所的推动下,将共同发起中国城市大数据产业发展联盟,并于2016年5月27日在贵阳揭牌。中国城市大数据产业发展联盟的成立,不仅从很大程度上推动城市之间的信息共享、数据互通,全面激活大数据价值,而且有助于提升政府行政效率,提升科学决策能力。例如,而且将积极推动政府数据公开,打通部门壁垒、提高行政效率,提升政府治理能力,引领政府职能转型。举例来说,农产品的核心问题是合理种植或养殖农产品,正如郭文利,权维俊,刘洪2010年在《精细化农业气候区划业务流程初步设计》中所言一样,农业气候区划是农民种植好农产品的决定性因素之一。 所以说,根据已有的气候、土质、病虫灾害、循环生长等信息,借助于大数据风控技术形成的生长趋势和消费情况报告,对农牧业的精细化生产尤为重要。随着政府数据的共享,农业部门通过气象部门的实时气候大数据预测,可以帮助农民完成科学种植。对企业而言,2015年1月,中国人民银行印发了《关于做好个人征信业务准备工作的通知》。通知要求芝麻信用、拉卡拉信用和腾讯征信等八家机构做好个人征信业务的准备工作,具体来说,截止到2015年末,央行个人征信系统共收录8.8亿自然人数,其中3.8亿人有信贷记录,企业征信系统收录企业及其他组织2120万户,其中577万户有信贷记录。数据量的爆炸式增长,反映了政府监管部门、金融机构和企业之间已经开始进行大数据的分享尝试。由此,拉开了大数据交叉互通的序幕。

增强数据检验能力提高数据质量和可靠性

伴随着数据采集渠道的日益拓展,通过交叉检验、生物识别和机器学习等技术来解决数据低质的问题显得迫在眉睫。

据悉,目前贷款包装、组团欺诈、账户造假等情况屡见不鲜。尤其在信用贷款领域,欺诈占了60%的比例,大部分采用身份造假和资料包装。其中,在实名场景欺诈层面,大数据风控模式需要对身份冒用、虚假信息和不良历史进行风险识别;在非实名场景欺诈层面,大数据风控模式需要警惕虚假注册、恶意抢购、买卖串通和营销作弊等手段。面对互联网金融在中国的爆炸式增长,商业银行等信贷机构缺乏外部大数据的采集意识和技术。举例来说,一家创业企业在银行成功获得授信额度为50万、为期1年的人民币贷款。这家企业同时在多家小型P2P企业获得多笔小额贷款,为了在银行获得更高的信用额度,其利用商业银行、P2P企业之间信息不对称的机会,将P2P借款还给银行,以获得银行的第二笔额度更高的贷款。如此循环,这种“类旁氏欺诈”并不会被银行和P2P觉察。然而,随着我国大数据开放程度的日益扩大,交叉检验等技术的日趋成熟,“类旁氏欺诈”的真实面目将会暴露无遗。

另外,现存的大量人工审核工作将会被智能审核技术所取代。比如第三方征信机构——芝麻信用积极地寻求外部合作,打通公安、工商、法院部分数据接口。拥有着丰富的内外部大数据,数据种类涵盖衣食住行、生活缴费、投资理财、转账支付、社会公益等数百种生活场景数据。与此同时,蚂蚁金服借助芝麻信用公司的信用大数据,利用机器学习、视频对话和笑脸扫描等先进技术手段,对内外部大数据进行交叉检验,有效快速地进行风险识别和定价。借款人从申请到授信,只需要7分钟。

推动数据安全相关制度的建设防范数据非法泄露

无疑,数据泄露是大数据时代不能忽视的一个风险来源。1997年以后,互联网在中国飞速发展,我国逐渐进入信息化社会,民众的衣食住行现在已经和互联网紧密地联系在了一起。由此,数据安全已经上升到与国家、社会、个人息息相关的问题。对于国家而言,继国防安全、金融安全之后,数据安全已经上升至第一安全的位置;对于社会而言,数据安全成为了信用伦理体系健康建设的重要一环;对于个人而言,如果不能保障数据安全,那么个人隐私信息将无法保全,随之而来的是整个社会的信用风险的爆发。

我国在数据安全立法起步较晚,但是进展神速。2013年11月12日正式成立国家安全委员会。2014年我国在2013年11月12日正式成立国家安全委员会,并在2014年2月27日成立中共中央网络安全和信息化领导小组办公室,由习近平总书记任组长,这意味着信息安全正式提升到国家战略高度。2014年8月28日,工信部发布《工业和信息化部关于加强电信和互联网行业网络安全工作指导意见》,提出完善网络安全保障体系的总体目标。到了2015年6月24日,民众最为期待的《网络安全法》草案进入人大常委审议阶段,2015年8月5日意见征求结束,立法进入最后阶段,正式推出在望。《网络安全法》将从保障网络数据安全和保障网络信息安全等方面进行了具体的制度设计,这对于大数据风控有效性的提升,是最大的利好。

在数据安全意识方面,难能可贵地是,2012年的达沃斯世界经济论坛上,就一致决定将数据纳入到新的经济资产类别。我国学者刘玉在《浅论大数据资产的确认与计量》中探讨了数据作为一种经济资产的会计计量方法。

结语

综上所述,伴随着政府监管部门、传统金融机构和互联网企业等各级组织的共同努力,可视化立体信用体系的确立和完备制度的建设,数据将不再孤立,大数据风控有效性不足的问题也将迎刃而解。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论