本文来自半导体产业纵横,作者/六千。
自从二进制成为计算机语言,人类社会的发展速度大幅加快,0与1在无数电路中改变了人类生活的方式。计算机的出现如同信息时代的一次大爆炸,让人类可以快速处理大量的数据,无论是日常生活还是科学前沿研究都有了翻天覆地的变化。
大量的数据,带来了变革,也带来了考验。据统计,2021年全球数据总量达到84.5ZB。(1ZB=1021B)如此庞大的数据量不但对算力提出了高要求,对存力也提出了极高的要求。为了存储如此大的数据,数据也住进了数据中心这样的“楼房”之中。在2024年前,全球超大规模的数据中心数量可能达到1000个。数据中心越建越多,但土地资源有限,修建数据中心的“摩天大楼”是一件奢侈的事情,于是提高数据存储密度成为另外一种解决方案。
为了寻找更高效能的存储载体,研究者将目光对准到了自然界中遗传信息的载体DNA。作为遗传学名词,大众对DNA并不陌生。在遗传过程中,DNA序列存储了遗传信息,进而通过转录、翻译的过程将遗传信息复制,以维持生物发育和正常运作。曾有研究者猜想,外星人(或者高等文明)把一些信息存放在了生物的基因组中,等待人类会解密。这看似科幻小说中的猜测,其实是基于一个重要事实:DNA已经传递了人类千百年来演进中重要信息,是已知的最密集和最稳定的信息媒介之一。
DNA存储技术如何实现,又能带来怎样的改变?
DNA存储靠谱吗?
技术层面上来看,DNA存储已经被证明是可行的。
用DNA存储信息的想法可以追溯到分子生物学出现的时期。生物化学家Frederick Sanger发明了Sanger测序法让DNA序列可以测量,从此人类可以读出以代号为A、T、C、G,排列组合而成的核苷酸序列。既然0与1可以成为计算机语言,那么用DNA序列传递特定信息同样有可能实现。不过在当时,合成一条10碱基的DNA序列需要花费6000美元,虽然材料性能不错,价格过于高昂。
DNA数字数据存储的主要步骤
随着DNA合成和测序新技术的发展,DNA作为数字存储介质不再是天方夜谭。2001年,一个研究组将两句狄更斯的名言写入到DNA序列中。用三个碱基代表一个英文字母,比如A=AAA,B=AAC。2009年,有研究组成功将儿歌“玛丽有只小羊羔”的歌词、乐谱和一张图片编码到一组DNA序列集合中。
DNA存储的优势主要有两个。一是存储条件简单,对于DNA只要保持足够低的温度,数据就可以保存数千年,因此拥有成本几乎降至零;DNA能够以远超电子设备装置的密度精准地装载海量数据。DNA存储技术更适用于存储重要且无需经常访问、调用的“冷数据”。“冷数据”在接近零能耗的情况下,理论上来看可保存千年以上。在未来DNA存储极有可能成为庞大冷数据存储的主要存储介质。
二是DNA存储密度大,占地面积小,如果以DNA的形式存储,每部制作的电影都可以存储在比方糖还小的空间中。哈佛大学George Church及其同事于2016年在Nature Materials上发表的计算,简单细菌大肠杆菌的存储密度约为每立方厘米1019比特。在这样的密度下,一个边长约一米的DNA立方体可以很好地满足世界当前一年的存储需求。从重量上看,每克DNA的数据存储量能够达到215PB,约为2,2544,3840千兆字节(GB),相当于22万个1TB硬盘的数据存储量。
DNA存储已有突破
近几年DNA存储的研究已经取得了一些突破。DNA已经被研究人员用来以不同的方式管理数据,这些研究人员正在努力理解海量数据。新一代测序技术的最新进展允许轻松同时读取数十亿个DNA序列。有了这种能力,研究人员可以使用DNA序列作为分子识别“标签”来跟踪实验结果。
DNA数字数据存储相关主要成果的时间线(1995~2018)
哈佛大学的研究小组采用CRISPR DNA编辑技术将人手的图像记录到大肠杆菌的基因组中,读取的准确率超过90%。瑞士的研究人员设计出了一种“DNA-of-things”(DoT)存储架构来生产具有不可变内存的材料。在DoT框架中,DNA分子记录数据,然后这些分子被封装在纳米二氧化硅纳米珠中,这些二氧化硅珠融合到各种材料中,用于打印或铸造任何形状的物体。
使用DoT技术打印3D兔子的过程
华盛顿大学和微软研究院的研究人员已经开发出一种全自动系统,用于写入、存储和读取DNA编码的数据。
2021年12月,中国DNA存储研究人员宣布开发出一种滑动芯片——这种微流体装置能够保存DNA化学物质及各种试剂。一个滑动芯片可以是一个电极,其电荷会随DNA序列的存在/不存在而改变。
2022年天津大学合成生物学团队成功将10幅精选敦煌壁画存入DNA中,并表示这些壁画信息在常温下可保存千年,在9.4℃下可保存两万年。
巨头背书的DNA存储技术
纵使DNA存储技术可能具有跨时代的意义,但是否能够真的被应用呢?对此,存储行业的巨头持积极态度。美光科技高级研究员兼副总裁Gurtej Sandhu是最早参与DNA存储技术研究的项目组成员之一。他在2016年参与了哈佛大学George M.Church的研究小组。希捷已经将Catalog的DNA存储技术引入其“片上实验室”。希捷的DNA存储与微流体研究工程已经持续了两年半,目前已知的专利申请有四项。
这家与希捷合作的公司是成立于2016年美国初创公司,Catalog曾经通过制作20-30个碱基对的DNA片段,并将这些片段用酶缝合起来,通过不同的顺序排列,实现数据存储。Catalog曾用DNA技术存储了小说《银河系漫游指南》和诗歌《未走的路》。
存储巨头看好DNA存储技术,但DNA存储赛道上更多的是以生物技术为核心的初创公司。这一现象的核心原因是DNA存储技术的底层关键技术其实是DNA测序技术、DNA合成技术和DNA存储技术。
DNA数据存储技术的主要公司除了与希捷合作的Catalog还有美国创业公司Iridia。Iridia成立于2016年,旨在开发世界上第一个具有商业吸引力的基于DNA的数据存储解决方案。通过结合DNA聚合物合成技术、电子纳米开关和半导体制造技术,公司正在开发一种高度并行的格式,以使纳米模块阵列具有以极高密度存储数据的潜力。
DNA合成技术的公司包括法国公司DNA Script、美国公司Molecular Assemblies。
DNA Script成立于2014年,公司专注于使用专有的无模板技术制造合成DNA。通过快速、经济和高质量的DNA合成技术,大大加速新疗法、可持续化学品生产、改良作物以及数据存储等新应用的开发。公司特有的酶促技术和核苷酸化学合成平台,可以合成更高纯度的更长的DNA序列,使序列的精确性提高500倍,合成速度更快,耗时缩短50倍。
Molecular Assemblies成立于2013年,公司开发的酶促DNA合成技术,能够为工业合成生物学、个性化治疗、精确诊断,以及信息存储、纳米技术等领域的新产品提供动力。公司专有的DNA合成方法旨在提供经济可靠、可持续地生产高质量、序列特异性的DNA。
Twist Bioscience成立于2013年,公司致力于为医疗、农业、工业化学品和数据存储等领域的客户提供高通量的DNA合成和测序服务。公司开发的基于半导体合成DNA制造工艺,将反应体积减少100万倍,同时将产量提高1000倍,从而在单个硅片上全面合成9600个基因。2016年,微软与Twist Bioscience签订协议订购了约1000万条DNA产品,用于测试DNA数据存储能力。
DNA测序公司主要有英国公司Oxford Nanopore Technolog等。Oxford Nanopore Technologies成立于2005年,旨在开发基于纳米孔科学的颠覆性电子单分子传感系统。Oxford Nanopore Technologies开发了新一代传感技术,该技术使用纳米孔-纳米级孔-嵌入高科技电子设备中,进行全面的分子分析。
中国方面,2019年,华为宣布成立战略研究院,表示主要研发前沿技术,其中包括DNA存储。2021年华为全球分析师大会上,华为董事、战略研究院院长徐文伟表示将要借助DNA存储来突破超大存储空间模型和编码技术,打破容量墙。
2021年05月26日,中科碳元(深圳)生物科技有限公司(C-ATOM)正式成立。今年9月中科碳元依托中国科学院深圳先进技术研究院戴俊彪研究员团队前期在DNA存储领域的积累,通过自主研发并拥有自主知识产权的DNA在线编解码系统(简称“ATOM”),使用自主引进的合成仪及测序仪,成功完成了从编码、合成、保存、测序、到解码的DNA存储技术路径完整流程。
DNA存储的挑战与潜力
目前DNA存储技术的落地还存在一些技术难题,中国科学院院士樊春海表示,在DNA存储的合成过程中,数据输入和读取的效率仍不高,耗费的时间较长、成本较高。中国科学院院士、天津大学副校长元英进表示,DNA信息存储是一个新兴的、多学科深度交叉融合的研究方向。想要将DNA存储技术商用,还需要多领域的研究团队共同攻关。
如果只有成本是问题,那么这终能被解决。DNA存储是最具潜力的数据存储方式之一已经毋庸置疑。