DNA存储技术,可持续存储的未来?

2020-03-12 10:17:53
刘玉豪
存储
当人类进入数据爆发式增长时代,DNA存储技术作为未来潜在的无限存储方式,或将打开数据存储的新纪元。

移动互联网经过多年的发展,全球覆盖人群已经突破40亿大关,聊天软件、短视频、网购、搜索引擎等互联网应用服务每天产生着大量数据。随着5G时代来临,传感器以及各种数字化终端设备的普及将会造就一个万物互联的世界,同时意味着新一轮数字洪流也将汹涌而来。

数据爆炸式增长时代,新兴存储技术迎来发展机遇

根据国际机构IDC预测,全球数据产生量将从2018年的33ZB(泽字节)快速增长至2025年的175ZB,1ZB约相当于10亿TB(太字节)的数据量存储,届时不仅将会对全球数据中心的建设产生影响,同时也会对数据的存储发起挑战。

按目前最大的单个硬盘数据存储量换算,全部存储175ZB数据至少需要约120亿个硬盘。根据IDEMA(国际磁盘驱动器设备制造商协会)研究报告显示,2018年全球固态硬盘出货量约为1.7亿片。

以目前数据的生成速度来看,到2040年全球将至少需要百万吨的硅基芯片才能存储当年产生的数据,不到100年的时间内,现在所用的磁存储系统或光学存储系统就会达到容量上限。

因此,未来短期内存储硬盘将迎来快速增长需求,但从长远来说,全球数据存储将面临着严峻的考验,这就不得不造就可持续使用的存储介质和全新的存储替代方案。

日前,亿欧智库最新发布了《2020技术趋势报告》,通过技术筛选以及关键性指标测评,将具有技术承接性、资源持续性和颠覆革新性的DNA存储技术列为2020年之后的重点发展趋势,体积小、获取方便,拥有极高密度的DNA存储或将成为数据储发展的未来。

DNA存储优势初现,引领企业争相角逐

DNA是磷酸基团、多糖和四种碱基构成的双螺旋结构大分子,四种基本碱基单元为A、T、C、G,通过碱基两两配对,构成DNA双链。DNA是生物信息保存最久的存在,也是已知最古老的信息存储系统,DNA的半衰期约为521年,即每过521年,构成DNA骨架的核苷酸间的化学键才会有一半断裂。

DNA存储是利用4个碱基,以二进制代码形式对数据文件进行信息编码,按碱基序列顺序通过人工合成技术形成长链DNA来保存数据。

同时,根据最新的研究进展发现,每克DNA的数据存储密度已经达到215PB(约22万TB),理论上最大可以达到455EB(约4.7亿TB),而且DNA作为存储介质,常温条件下的储存半衰期可以达到数千年之久。因此,存储密度大、能耗低、存储周期长的DNA存储便逐渐成为全球存储技术的研究热点。

科技巨头微软公司是最早研究DNA存储技术的公司之一,微软一直以来都坚信DNA是长期存储数据的最佳介质。2016年时,微软便宣布从一家旧金山生物科技公司购买1000万个 DNA长寡核苷酸分子,用以探索 DNA 分子存储数据的方法。2019年3月,微软公司和华盛顿大学的研究人员已经开发出一个完全自动化的系统,用于编写、存储和读取DNA编码的数据。

2019年6月,初创公司Catalog Technologies宣布已经将16GB的英文维基百科数据存储在DNA链上,使DNA存储技术对于简单数据存档需求用户来说成为现实。除此之外,包括Evonetix、Molecular Assemblies、DNA Script等初创企业也在加速DNA存储研发的探索。

核心技术原理探索,方法与性能并进

从技术原理来看,完整的DNA存储包括编码写入部分、存放部分和解码读取部分。编码写入由DNA编码和人工合成DNA组成,解码读取部分即DNA测序解码读取,而想要实现成熟的DNA存储应用,DNA编码技术和读取技术的发展至关重要。

DNA编码过程包含压缩、纠错和转换三个部分。其中压缩方法经过长期不断的发展,形成了以哈夫曼编码、喷泉码为代表的多种压缩方法;纠错方面,汉明码纠错、RS码纠错等纠错方式的出现提高了数据编码和读取的准确性;DNA编码转换由最初的二进制模型发展演变成三进制和四进制共存的三种常见转换模型。

2012年,美国哈佛大学教授Church采用二进制进行转换,将659kB信息存入DNA中,使DNA存储数据容量的纪录提高了1000倍,此后,DNA存储技术便进入了新的快速发展期。2013年,Goldman等人利用哈夫曼编码、四倍重叠法、三进制编码等,将739kB的内容存入DNA中;2017年,Erlich等人基于喷泉码压缩技术,将6个文件存入了DNA中,该技术只引入了20.71%的冗余,大大降低了DNA存储的成本。

2018年,爱尔兰沃特福德理工学院(WIT)研究人员开发出一种新型DNA存储方法,可在1克大肠杆菌DNA中存储1ZB的数据。经过多年的研发积累,DNA存储的方法形式与性能不断得到进步提升。

DNA存储价值曙光初现,应用挑战仍有待突破

目前,DNA存储数据读取主要通过传统测序法实现,微软研究院与华盛顿大学研究人员测试了一种随机读取数据的方案,但是这种方案定位依然不够精确,而且效率很低。除此之外,通过纳米孔进行测序的数据读取技术还处于研发阶段,但作为新兴的第四代测序技术,纳米孔测序读取或许将成为读取技术新的突破。

2019年12月,哥伦比亚大学联合苏黎世联邦理工学院研究团队通过3D打印制作了一只兔子,并将这只兔子的三维结构数据以双链 DNA 结构形式内置在打印材料中,实现了其自身数据的DNA存储和传递。这项研究的最大突破在于证实了万物皆可实现 DNA 存储的理论,且不受任何形状限制,这也使得DNA存储的商业价值曙光进一步显现。

从技术发展成熟度来看,DNA数据存储还面临着较大的技术挑战,主要集中体现在人工合成成本高、合成速度慢、数据读取时间长、准确性低等方面。如目前DNA合成成本约为0.05-0.1美元一个碱基,合成存储200MB的数据需要耗资上百万美元,时间花费至少两周左右。所以,如果可以使得DNA合成读取成本通过技术发展大幅得到改善的话,DNA存储的应用将会非常可观。

DNA存储对于一些不常用却需要长期保存信息的应用场景极为适用,如政府文件、病人临床信息、研究数据、历史档案、视频资料等。其次,DNA存储作为一种全新的存储方式,或将成为军事领域、经济领域等特殊加密用途的数据存储手段,并且在人工智能应用前端及云存储方面,也将发挥独特的存储优势。

虽然DNA拥有可持续获取的天然优势,但如何使得DNA存储达到现有硬盘存储系统的效率和便捷,实现数据存储的可持续发展和颠覆变革,还需大量的理论研究与技术探索。作为人类未来的无限存储方式,DNA存储技术将会伴随人类的前进脚步共同发展。

收藏
免责声明:凡注明为其它来源的信息均转自其它平台,由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,不为其版权负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本站联系,我们将及时更正、删除,谢谢。联系邮箱:xiali@infoobs.com