这是个信息爆炸的年代,人类无时无刻不在制造着各种数据,留下自己的数字化足迹。海量照片、网络游戏、4G时代成熟的短视频、5G时代的物联网和工业互联网,让数据出现了指数级的增长。市场研究机构IDC预计,到2025年,全球一年产生的数据将高达175ZB。如果用直观一点的表述,这个数据量将会存满1879亿个1TB的硬盘,全球每人平均持有二十多个这样的硬盘。
图1:过去十五年全球数据增长速度,非结构类数据增速远超结构类数据
这就带来了问题:既要让这些数据存储在安全可靠的地方,方便随时调取,同时还要照顾到数据不要泄露,还要做好备份,防止数据损坏丢失,究竟应该怎样才能做到?
分布式存储和云服务
分布式存储的故事并不复杂。谷歌最早提出来云计算概念,这是一种分布式算法,用来处理大量搜索数据。但电商平台起家的亚马逊对于数据存储开发的独特需求让它走在了前面。2006年亚马逊推出最早的云服务,利用自己研发的分布式算法打通各个数据端接口,既提供数据存储,也为企业的数据分析提供平台支持。分布式存储同时以基础设施即服务(IaaS)和平台即服务(PaaS)两种商业形态,形成数字化时代的最早的云服务业务。
分布式存储的特征并不难以理解:既然把数据集中起来存储会因为服务器问题引发“一损俱损”,那就把服务器分布到不同地理位置的数据中心就可以了。分散独立的存储设备通过网络互联进行系统关联,分布式存储对外作为一个整体提供存储服务。在这一点上,它跟集中式存储并没有太多区别:都是中心化管理,有一个至高无上的管理者。
与集中式存储对硬件有较高要求不同,分布式存储由数量众多且成本相对较低的普通PC服务器联网而成,节点扩展性很强且门槛比较低,扩展的边界几乎不受限制,数据容量大,副本可以多处备份,这就解决了集中式存储扩展成本较高的问题。同时,因为节点较多而且做到了空间上的广泛分布,一个节点的损坏不会让整个系统宕机。蚂蚁金服旗下的支付宝就利用了这种分布式存储的特点,采用“三地五中心”存储的方式,在三座城市部署五个数据中心。如果某个中心发生故障,支付宝就将故障区域的流量切换到正常的机房。
在信息整合上,分布式存储得以设立多个节点,打通数据之间的关联。但是中心化的处理方式对云服务商的计算能力和软件集成要求很高,因为需要不断通过软件迭代提高数据的容错率,还需要对各种数据进行分析,从而提供数据衍生服务。云计算就是在大数据存储的基础上诞生的衍生业务。在这一存储基础上衍生的增值业务,成为云服务大厂的重要收入来源。
分布式存储也有自己在商业上的缺陷。由于数据分散在各个节点,导致它的延时性不如集中式存储出色,数据容错性较弱,数据安全不易保证,为此行业内通过软件设计提升分布式存储的标准化程度,同时尝试解决痛点问题,软件定义存储(SDS)被认为是分布式存储的主要形态,通过软件设计来提高分布式存储的自动化程度,同时提供接口的标准化管理,支持多种标准协议,实现数据的写入,让分布式存储效率大为提升。
与集中式存储所面对的结构性数据——即能够用数据或统一结构加以表示的信息,如财富报表、地址和电话号码等——不同,分布式存储的内容主要是非结构性数据,包括图片、视频、音频和文档等,类型更加丰富。为了防止数据损坏或者丢失,一般在不同节点采取备份的做法,但其安全性取决于企业为数据安全建立的防火墙的技术能力。事实上,很难哪一家企业能够确保自身万无一失,从微软到谷歌,都有过数据库被侵入导致数据泄露的记录。
图2:从集中式到分布式,中心化存储的演进
当前公有云市场已经出现垄断倾向,这对数据安全、用户需求都造成了一定的影响。需要一种新的存储技术对这些现状加以改变。区块链技术提供了一个新的答案。
区块链加持的“分散式存储”
从集中式存储到分布式存储,数据存储单元本身没有发生变化,但是存储技术逐渐向软件进化,通过软件技术的提升,实现对数据更加便捷的存取和调用。区块链作为一种并不让人陌生的软件技术,应用在存储方面,并不奇怪。但是从存储管理的角度来说,集中式存储本身是中心化管理的,分布式存储看似服务器分布在不同区域,但它对外依旧通过单一的云服务商提供服务。中心化是集中式存储和传统分布式存储的共同特点。
区块链作为一种并不让人陌生的软件技术,应用在存储方面,并不奇怪。区块链技术应用下的存储,与传统分布式存储有类似之处,其数据均存于不同地理位置的存储器当中。但区块链的去中心化特征,让这种新型存储模式与中心式式存储有着截然不同的特征。在这一领域研究者MemoLabs将用一个新名词定义了这一存储技术:分散式存储。
分散式存储是一个存在着无数节点的存储网络。如果将这些节点想象成数据存储器,它既包括数据中心的服务器、存储阵列这些“主流”存储设备,也包括“边缘设备”,闲置的手机、电脑、硬盘、写字楼的电脑机房……任何能够写入数据并存储的硬件,都有可能成为一个节点。数据在各个节点之间进行点对点的传输。区块链的分布式记账确保每一次信息写入写出都能够进行记录,体现出可溯源和不可篡改的特点。数据通过采用密码学相关技术,通常指哈希算法和加密、签名技术,进行加密。在共识机制监管下,使保密性不高的边缘存储设备也能确保数据安全。而相比较投资高昂的数据中心和相对廉价的服务器,边缘设备的存储成本更低,但扩展性更强,从而让分散式存储成为未来数据存储技术的重要发展方向。
在商业模式上,分散式存储与中心化的存储方式也极为不同。中心化存储延续了传统商业模式中服务提供者-消费者之间的买卖关系。但分散式存储并没有一个中心化的服务提供者。当前部分分散式存储服务商引入了“矿工”机制,由其通过智能合约,对整个系统的交易服务进行维护。它们负责将交易内容生成区块,并获得代币奖励。用户则以代币的方式支付服务费给存储提供者和矿工。
跟集中式和分布式存储相比,分散式存储背后运行的逻辑也非常不同。
普通的C端用户而言可能对这一点感受不深。从使用方式上看,分散式存储与此前的云存储看上去差异并不算大。用户从客户端发出存储要求后,分散式存储机制会根据共识机制对存储参数进行计算,自动生成智能合约。这份智能合约随机匹配给用户相关的存储节点和维护节点。随后存储的文件,经过客户端加密,切片后存入存储节点中。用户如果需要调阅相关的存储文档,需要将自己的私钥与客户端加密的公钥进行匹配,确保安全后才能下载。
分散式存储用户上传和下载理论上都需要付费。在具体应用中如何付费,有赖于分散式存储应用开发商根据自己的实际运营模式收取。例如,部分已经运行的分散式存储系统一样采用包年制或者包月制的付费方式,另外也有某些系统采用一次性付费的方式。这些付费方式都是实验性质的,目前其可持续性未能获得充分证明。不过,由于存储节点通常是闲置的边缘存储资源,而不是一次性投资的大型数据中心,分散式存储服务提供者和维护者无需重金投入,其存储资源的建设和开发成本较低,存储用户所支付的费用也相对较低。一般而言,现有收费一般是中心化存储费用的一半左右。
表1:中心化存储和分散式(去中心化存储)的结构差异
Memoriae:痛点和解决方案
分散式存储在具有极高不确定性的边缘设备中快速进行数据读写,如何确保其具备高度的可用性呢?Memo Labs从2018年就尝试开发的一个基于区块链的分散式数据存储系统,让我们有了管窥这种存储技术的机会。
分散式存储出现,当下存储技术成本高、延时高、垄断性和安全与效率之间难以平衡等痛点似乎有了解决的可能,且去中心化特点又改变了中心化存储的垄断问题。但新的痛点又产生了:这些边缘设备具有安全性、可靠性较弱的问题。区块链本身的分布式记账的特点,又容易让分散式存储平台面临处理大量冗余,效率过低的问题。
Memo Labs对于这些问题,开发了一套区块链存储技术Memoriae(以下简称MEMO)予以解决。
在架构上,MEMO由区块链、管理设备、边缘存储设备以及用户设备组成,总体技术架构分为区块链层、管理层、存储层和用户设备四部分。
数据存储也以此进行了分层存储,以便有效降低冗余。MEMO在每一层提供不同的数据管理方案:区块链层用来存储智能合约、账户和交易等信息,仅存储核心数据来保障更高的可拓展性;在管理层基于副本技术对元数据进行容错,大幅提升系统的访问处理能力;在存储层则采用副本、纠删码与其他数据冗余技术来保障边缘存储设备上的数据的可靠性,同时独创的数据恢复方法RAFI能够有效缩短数据修复总时间,确保一个节点损坏后,在其他节点能够迅速提供数据存储修复。最后的用户层则是实际数据存储终端。数据进行加密,切片后写入存储终端。
图3:MEMO的分层,从内到外从小到大分别是区块链层、管理层、存储层和用户设备
MEMO仅使用区块链记录最为关键与稳定的信息,如用户、存储者与维护者的角色信息及其关联信息,即智能合约信息;这类数据容量相对于用户存储数据而言很小。而边缘存储设备仅用于存储用户实际存储数据。
相对于传统的区块链而言,MEMO的分区和划层,让整个存储构架更加简洁与高效,重要数据与一般存储数据进行了区分。同时,由于采用了完全的去中心化措施,数据流动的出口带宽限制不复存在,有利于提升响应速度。
更多的痛点解决方案
在安全、效率和可靠性方面,MEMO主要在通过技术实现了维护者、存储者和用户三者之间的耦合,以确保安全、高效和可靠。这种耦合主要表现在以下方面:
第三,首先,MEMO在整个分散式存储中引入了用户(User)、提供者(Provider)和维护者(Keeper)三个角色,采用链下共识,使整个分散式存储的架构变得相对稳定。相对于中心化的存储机制,分散式存储的维护者是一个新的角色。集中式和传统分布式存储通常存在用户和提供者两个角色,提供者自身也承担维护者的角色。但是在MEMO体系中,维护者的角色与提供者分离,将大大减轻提供者的工作压力。维护者通常负责保护MEMO的运行和安全维护,存储智能合约,通过挑战提供者达成管理共识,形成交易记录,即所谓“时空用量证明”,并以此获得酬劳。
图4:去中心化的MEMO体系中的三类参与者
其次,应用了密码学技术,如对称式加解密、防碰撞哈希和数字签名等技术对产品在用户端进行加密,将暴力破解加密的成功几率降至最低。即使是存储提供者自身也无法读取用户数据,这一点相对中心化存储对用户更为友好。MEMO同时提供了副本和纠删码两套冗余机制,以应对分散式存储节点不稳定的特征,有效防止节点损坏后数据丢失的问题。
再次,为了确保在去中心化的生态下提供者和维护者本身的信用,MEMO特地设定了一套信用机制。这套机制的主要支柱是通过积分增减的方式,对提供者和维护者进行奖惩。提供者和维护者本身还需要以代币方式进行资金质押,防止欺诈行为发生,这也是信用体系的另外一条支柱。
最后,MEMO是个开源式的系统,可以通过跨链服务节点(MCS)支持外部公链接入,甚至可以使用外部公链的代币进行支付。这样可以实现与公链兼容,扩大节点和应用。
从上述技术应用来看,MEMO的技术逻辑在于,在维持去中心化存储的基本原则之下,致力于针对各种现实问题提供有效解决方案。不过,MEMO并不是这一方向的唯一探索者。
分散式存储的入局者
在MEMO之前,分散式存储已有入场者。部分加密数字货币将分散式存储作为代币的应用场景,通过代币激励矿工们加入自己的区块链,实现节点的扩张,最终构建分散式存储市场。2015年启动的Sia是最早尝试利用全球未充分利用的硬盘容量来创建存储市场的区块链系统。它的出现塑造了分散式存储的一些基本特征,例如采用了智能合约并将其存在区块链中;在用户端对数据进行加密,文件切片并分别存储于不同节点当中,避免节点故障导致数据丢失等等。
在2017年跟进的Filecoin采用了IPFS协议作为基础设施。IPFS是一种点对点分布式网络协议,有望成为新一代互联网架构协议。Filecoin是IPFS的激励层,矿工可以通过提供检索、存储和区块打包等方式获得代币报酬,以此发掘海量边缘存储设施。Filecoin提出了复制证明和时空证明,允许提供者证明数据已经存入相应设备中,强化了网络安全和数据安全保护。但Filecoin在数据修复和延时问题上表现较弱。
和Filecoin同期出现的Storj没有前者那样的完全去中心化,维持了部分中心化的节点,称之为“卫星”(Satellite),以此对系统进行维护管理。这是一个相对简单有效的技术,对提升网络体验和降低技术成本均有帮助。但中心化的卫星节点则可能使数据流量受到一定限制。
入场者中Arweave是比较有特色的分散式存储玩家。它提出了数据永存的概念,理论来源于区块链可以不断添加新的数据,并一直持续下去,但这理论有待验证。而且,如果长期持续,单链可能因为过大而无法维护和存储原有数据。Arweave引入了RadomX算法,激励存储提供者(矿工)来保存更多的区块。
MEMO的出现在某种程度上集成了上述系统的优势。它的核心思路是将关键信息(智能合约)存入区块链,确保了它的安全和可靠。通过数据切片,在客户端以密钥加密后分散存储,保证了各个节点的数据的安全和私密性。在修复数据损失上,采用了自己独创的RAFI,RAFI以实时查询的方式,快速发现具有较高丢失风险的数据,有效缩短数据修复总时间。
多个MEMO设备可形成集群效应,实现云存储平台的数据全局共享、统一存储空间管理、自动负载均衡。在文件实现跨区域跨网络存储的情况下,能够实现数据的高效存储和调用。在面临海量数据浪潮时,MEMO可以提供充分激励,鼓励存储提供者加入,实现迅速的扩容。
各路神仙在分散式存储问题上大显身手的时候已到来,2020年各个分散式存储系统先后推出了自己的产品,意味着分散式存储将正式进入市场运作和竞争阶段。
分散式存储的商业探索
中国信通院的数据显示,2019年,以IaaS、PaaS和SaaS为代表的全球云计算市场规模达到1883亿美元,到2023年将会达到3500亿美元。
图5:市场研究机构Gartner在2020年对2018-2023年云计算市场的统计和预测
但是,云计算以重资产和高技术作为准入门槛。这个起点相当高,不是谁都能轻易玩得起。云计算市场呈现出高度的寡头化。在公有云存储市场,亚马逊、微软、谷歌、阿里巴巴和腾讯控制了全球近八成的市场,形成了中心化存储在当前不可撼动的市场优势。分散式存储尽管在技术上和理论上有着相对优势,但短期内还难以跟大厂们在市场份额上竞争,也不可能在应用上迅速取代中心化存储。它需要探索出一条新的商业路线,才能在这个不断增长的市场里找到自己发展的蓝海。
分散式存储要开拓市场,最根本要素的是实现节点的扩张。只有通过越来越多的节点加入,才能够产生足够的交易,提升数据的安全性,推动滚动式发展。这就是互联网平台发展理论中常说的“引爆网络效应”。吸引节点的加入,则需要有有效的激励机制。以区块链为底层技术的的分散式存储并不缺乏这一机制。通过代币的发行和流通,即鼓励矿工通过挖矿不断生成区块,可以维持区块链的运转和扩张。但是,鉴于分散式存储所需要的存储资源分布在广泛的边缘存储设备,例如PC、智能手机、闲置的服务器甚至小区物业机房硬盘空余的分区当中,每个存储设备的所有者对于获取存储收入和矿工利润的期望不一。算力在存储和挖矿之间如何进行分配是个问题。如果需要实现节点的快速扩张,如何实现激励机制与合适的矿工人选进行匹配,现在还在探索中。
当前,分散式存储的主要玩家是Filecoin和Storj。另外一个入局的Arweave更加强调“永久存储”和一次付费,其模式与Filecoin以及Storj不同。Filecoin获得资本关注,主网于2020年10月启动,截至当年底节点发展到近千个。但Filecoin对于硬件配置要求过高,普通的PC难以承受,其节点主要来自矿机商。Filecoin的另外一个问题,则是响应速度太慢,影响到了数据存储和应用体验。
在节点的迅速扩散上,Storj的去中心化云存储平台Tardigrade进展更加迅速。商用的Tardigrade到目前数量超过6200个,节点遍布全球85个不同国家或地区。已公布的网络总存储量为2PB(2048TB)。实际存储总量根据其节点扩张速度来看,可能远超。Storj主要对标亚马逊S3存储平台,整合利用闲置资源输出为标准统一的产品,用普通PC即可挖矿,对于C端存储提供者相对友好,因而其节点和存储数量上升较快。Storj的存储价格比较有竞争力,是其对标平台的一半左右。整体来看Storj是分散式存储商业开发的一种可行方式。
Storj有一个小小缺陷,来自它使用的卫星节点,使得整个平台的去中心化程度不够。尽管Storj解释称,卫星节点其实是服务器集群,但是仍旧引发市场对节点损坏可能带来数据损失的担忧,且相对中心化的存储平台对流量产生一定限制,可能带来数据上传的瓶颈。
图6:Storj白皮书上关于卫星节点描述的图
MEMO的商业价值
Memo从带宽流量、数据安全与使用成本三个角度进行技术研发,主要是设计了数据完整性验证方案,通过数据分片,生成验证标签,在读取时进行对照验证,可以实现快速验证,迅速在存储节点转发流量,提升了响应速度,无需像Storj那样经过可信节点转发。这样可以降低成本,同时维持Memoriae的去中心化特征。另一方面,Memoriae独有的数据恢复技术RAFI则保证了数据的快速修复,这对于提升用户体验,达成交易也有着重要的商业价值。
在未来的存储市场中,企业数据将会占据存储数据的绝大部分。除了结构化数据因其重要性和数据体量较小,使用集中式存储经济上和技术上比较合理,其余数据理论上均可以使用分散式进行存储。MemoLab本身也在致力于与多方开展合作,构建并完善MEMO生态,例如构建金融专属分散式云存储平台、医疗大数据底层服务平台、能源勘探数据的备份与归档和工业物联网等。其余企业级的赛道也包括短视频、网游和社交媒体数据等。分散式存储如能在响应速度上获取对中心化的分布式存储的优势,那么它在大量热数据(如工业物联网、网游和社交媒体等赛道产生的实时高频数据)的存储市场上必然有迅速成长的空间。
不过,在推进B2B的合作伙伴构建时,分散式云存储的倡议者也需要注意到,合作伙伴中应该包括基于分散式的存储技术上的数据分析及应用开发方。MEMO在构建生态时,除了要选择好应用场景和赛道,还需要提升开源式分布系统与应用开发者之间的合作。但是,在缺少一个中心化运营者推动的情况下,开发者、系统本身以及存储企业三者之间的关系,还需要在市场竞争中继续摸索。
最后需要关注的问题是监管。除了分散式存储带来数据大范围流动这个敏感问题之外,发行代币带来的金融风险问题,也是区块链监管的问题之一。目前这两个问题已有初步的解决方案,即建立“主权区块链”,增加了国家主权、政府监督、技术干预、非完全去中心化等注入有主权意志的特性。具体的做法是依据上述特性所制定的规则,嵌入区块链的共识机制当中。需要注意的是这一个市场和监管博弈的过程,要达到监管稳定需要一段漫长的时间。
存储市场未来的发展空间将会极其广阔。以区块链为底层技术的分散式存储开辟了一条新的存储路径,它在这个市场中必然会获得属于自己的市场份额。尽管现在各种分散式存储技术粉墨登场,但还没有能够获得市场的检验。理论上看,MEMO能够克服当前分散式存储技术的一些痛点,但它能否继续迭代和在市场上立脚,有赖于它能否推动有效的市场实践。在这种情况下,它的技术是否更加符合商业逻辑,它的合作伙伴是否能够开发出更加符合市场需求的应用,将决定它最终是否成为分散式存储市场的先驱和中坚力量。
不论如何,市场大门在缓缓打开,新的风口来临,最早的布局者将面临着让人激动不已的世界。