DNA存储,拯救人类数据危机的良方?-风君雪科技博客

  文/海怪(ID:unity007)

  开一个脑洞:如果地球正在面临一场马上到来的毁灭性星际灾害,人类又想尽可能地保存地球的生命和文明,在现有条件下,该怎么办?

  像大刘一样让地球停止自转然后逃离太阳系,这恐怕来不及了。而如果像诺亚方舟一样,一股脑把人类、动植物和人类的知识搬运到飞船上,现有的火箭运载能力,恐怕也装不下这些物质的亿万分之一。

  如果想尽可能多、尽可能长久地保存地球的生物,我们只需要把所有物种的 DNA 序列信息收集打包,在飞船的低温环境下便可以保存长达数十万年;而人类文明的信息呢?我们知道这些信息最高效的形式就是数据,而这些数据主要存储在硬盘和光盘当中的。

  想想这些硬盘储存器的重量和数据密度,我们不得不再一次气馁。更何况,可能飞船还没逃出太阳系,这些数据就会因为硬盘或光盘的寿终正寝而丢失。

  那么 DNA 能不能当做硬盘来存储数据信息呢?答案是,可以的。

  DNA 绝对是这个星球上最古老的生命信息存储工具,同样也可以作为数据信息的存储介质,且存储密度和使用寿命要远远超出现有的磁盘式的存储方案。因此,DNA 存储,正在被人类视为数据存储的未来,成为拯救人类数据存储危机的最好的替代方案。

  DNA 存储具体是怎么做到的呢?现在发展到那一阶段?商用的话还有哪些阻碍?这需要我们一一解答。

  DNA 存储是如何工作的? 

  在了解 DNA 存储是如何工作的之前,我们简单了解下磁存储和光存储这两种现有的解决方案的原理。

  磁存储的原理就是在金属材料上涂上磁性介质,在通电的情况下形成电磁效应,可以进行存储和表达 0101 的二进制信息。磁存储的硬盘的优点是录入和读取的速度快,缺点是与体积重量相比,数据密度较低。经过 60 年发展,大概可以在 3.5 英寸大小的硬盘驱动上存储 3TB 数据。

  光存储的原理是将数字编码的视频和音频储刻录在光盘表面的凹槽中,再通过激光将这些凹槽中的数据读取出来,进行转存或播放。当前,光存储也正在经历存储的极限。因为想要存下更多的数据,凹槽就必须越小、越紧凑,要求激光的精度也越高。目前,单层蓝光光盘能够保存 25GB 以上的信息,另一种紫外线激光如果研制成功,其光盘容量可以达到 500GB 的容量。

DNA存储,拯救人类数据危机的良方?-风君雪科技博客

  相对于磁存储和光存储而言,DNA 存储有哪些优势?

  首先,就是节约空间。但这些单层平铺式的存储方式,比起 DNA 的双螺旋立体结构来说,其存储量就有了多个数量级的差距。DAN 本身的物理体积极小且又是立体结构,单位空间的数据密度非常高。举个简单的例子,1 克 DNA 不到指尖上一滴露珠大小,却能够储存 700TB 的数据,相当于 1.4 万张 50GB 容量的蓝光光盘,或 233 个 3TB 的硬盘(差不多 151KG 重)。

  再则,非常节能。现有存储方式,比如说一个数据中心,要消耗大量的单晶硅,还要消耗大量的电。而 DNA 物质只需保存在阴凉、干燥的地方就可以,基本不需要额外的人工维护。就算需要把 DNA 冷冻起来,消耗的资源和能源也几乎可以忽略不计。

  此外,最重要的一点就是,保存时间非常久。现在高密度的存储器都会随着时间推移而衰减,能存储时间最长的工具是磁带,其寿命也就 50 年,其他的存储器寿命更短。比较而言,DNA 则保质期就以百年计算了,如果将其冷冻起来,能保存几千甚至上万年。

DNA存储,拯救人类数据危机的良方?-风君雪科技博客

  看来人类文明的拯救方案有了,但 DNA 存储到底是如何做到的呢?

  众所周知,DNA 由四种含氮碱基——A、T、C和G互补配对构成,科学家将腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T)分别赋予二进制值(A和C=0 ,G和T=1),随后通过微流体芯片对基因序列进行合成,从而使该序列的位置与相关数据集相匹配。这样就把这些碱基对编码成 1 和 0 的组合,就可以用 DNA 的序列信息来表达二进制的语言了。

  当每次将二进制语言写进 DNA 序列当中,就可以把“DNA 硬盘”放到低温环境中进行保存。而需要读取数据的时候,只用对目标 DNA 进行测序,将碱基对还原成二进制编码,再完成解码,就可以还原为我们常见的数据了。

  原理是非常简单,但科学家是如何做到的呢?这就要简单回顾下 DNA 存储技术的发展史了。

  DNA 存储是如何一步步发展到现在的?

  最先想到这一方法的是一位艺术家 Joe Davis,他在 1988 年与哈佛研究人员合作,把一个取名为 Microvenus(小维纳斯)的7*5 像素矩阵的照片,转化成 35 个碱基的 DNA 序列,插入到大肠杆菌里,第一次把不属于自然演化的信息写进了在 DNA 当中。

DNA存储,拯救人类数据危机的良方?-风君雪科技博客(Microvenus 代表女性和地球)

  2010 年,美国合成生物学家克雷格·文特尔((Craig Venter)带领研究团队化学合成了整个支原体基因组 DNA,取名为“辛西娅(Synthia)”,并以“自娱自乐”的方式将课题研究者的名字、研究所网址和爱尔兰诗人詹姆斯的诗句等信息编码进新合成的 DNA 中。

  2011 年,哈佛大学的合成生物学家乔治·丘奇(George Church)和加州大学的瑟里·库苏里(Sriram Kosuri)领导的团队以及约翰·霍普金斯大学的基因组专家高原(Yuan Gao)首次进行了概念证明性实验。团队使用短 DNA 片段编码了一本丘奇的 659KB 数据的书。

  2013 年,欧洲生物信息研究所(EBI)的尼克·高德曼(Nick Goldman)和他的研究团队也成功地将包括莎士比亚十四行诗和马丁·路德·金“我有一个梦想”的演讲片段、一篇沃森和克里克 DNA 双螺旋论文副本等 5 个文件编写进了 DNA 片段里当中。739KB 数据成为当时最大的 DNA 存储文件。

  2016 年,微软和华盛顿大学又利用 DNA 存储技术完成了约 200MB 数据的存储,成为 DNA 信息存储技术的一个飞跃。

  2017 年 7 月,《自然》杂志发表了哈佛大学医学院的赛斯·希普曼(Seth Shipman)和乔治·丘奇合作的一项活体 DNA 存储的研究。他们把一部 130 年前的黑白电影《奔跑中的马》存在了大肠杆菌的 DNA 上。虽然大肠杆菌体内有一段“奇怪的 DNA”,不仅能够正常生存,还可以正常遗传,每次繁衍都是一次数据复制。而且存储在基因组中的电影,在每一代大肠杆菌中也都完整无缺地保存下来了。

DNA存储,拯救人类数据危机的良方?-风君雪科技博客

  但因为细胞的复制、分裂以及死亡,会造成信息出错的风险,未来数据安全,大多数情况下存储信息的 DNA 都是以 DNA 干粉的形式存在,活体细胞存储的研究转向合成 DNA 存储。

  同一年,哥伦比亚大学和纽约基因组中心在《科学》杂志发表了一项称为“DNA 喷泉”算法高效的 DNA 存储策略。这项技术展示了最大化利用 DNA 的存储潜力,成功将海量信息压缩至 DNA 的四个碱基,即为每个 DNA 编码 1.6 比特(bits)的数据,比之前多存储了 60% 的信息,逼近理论极限(1.8 比特)。该方法能够将 215PB 数据存储在一克 DNA 中,相当于 2.2 亿部电影。

  2018 年,爱尔兰沃特福德理工学院(WIT)研究人员开发出一种新型 DNA 存储方法,可在 1 克大肠杆菌 DNA 中存储 1ZB 的数据。

  2019 年,丘奇团队又在《科学》期刊上发表了一项实验结果。他们将丘奇的一本大约 5.34 万个单词《再生:合成生物学将如何改变未来的自然和自己》的书,以及 11 张图片和一段 Java 程序,编码进不到亿万分之一克的 DNA 微芯片,再成功利用 DNA 测序来阅读这本书。

  这些科研的快速发展也意味着 DNA 合成技术(数据写入)和 DNA 测序技术(数据读取)正走向成熟。但同时,DNA 编码过程仍然存在着存储/读取速度和成本等问题,DNA 存储离商业化还在路上。

  DNA 存储商业化的问题与进展

  在实验室里,看起来 DNA 存储并不复杂,但是在商业化上面,仍然还面临着一些问题。 

  首先,存储和读取的速度都很慢。DNA 存储设备的访问速度很慢,存取也很费时间。相比较磁盘存储的电磁信号,DNA 合成却要依赖于一系列化学反应。用磁盘写入 200MB 数据,不用 1 秒,用 DNA 合成差不多得需要 3 周的时间。

  其次,DNA 介质不能覆盖和重写。在 DNA 里,一旦把信息存进去,一般来说不能修改。想读取这个文档,需要把全部信息完全测序出来再转码。

  第三,数据存储的准确性有待提高。目前 DNA 测序时的重复读取导致读错概率较大。

  第四,随机读写困难。目前 DNA 合成技术无法一次性产生较长的 DNA 分子,只能合成众多的短片段。这使得在众多 DNA 小片段组成的混合物当中,快速调取特定数据存在困难。

  最后,也是最重要的,DNA 存储成本太高了。比如目前 DNA 存储 200MB 数据,需要耗资 80 万美元,而用电子设备,成本连 1 美元都不到。

  但正如上面所说,如果放到更长的时间尺度上和数据存储空间压力下,DNA 具有的大存储密度、高节能环保、超长稳定性的独特优势就显现出来了。只要随着存储和读取技术的发展,DNA 编码和测序的效率提升,成本大幅下降,DNA 存储离商业化应用也就不远了。

  那么,现在在商业化上有哪些进展呢?

  在 2015 年,微软公司和华盛顿大学合作发表了一个成果,采用定点读取信息,也就是给一个长长的 DNA 链里加入一些追踪标记。这些类似索引机制的标记,可以不用每次等测序完整 DNA 长链,就能选取合适的标记进行读取。

  2018 年,读取技术又实现突破,微软研发了“纳米孔”读取技术,让 DNA 介质列能挤过一个很小的纳米孔而读取其中每个 DNA 碱基。这一技术让大大缩小了读取设备的空间开支,一个手掌大小的 USB 设备就能进行读取,但读取速度在每秒几 KB 左右,可以说仍然相当慢。

  2019 年 3 月,微软团队在《自然》杂志发表一项新的进展,他们开发了世界上第一个自动 DNA 存储介质。相比较于手动操作进行 DNA 的合成和测序,能够自动化方式进行 DNA 编解码才是未来商业化的出路。

  另外,关于 DNA 存储和读取时长以及成本的问题,一家 2016 年成立的美国初创公司 Catalog 也正试图尝试解决。

  去年,Catalog 将一共 16G 的维基百科英文版文本存储在了一个 DNA 分子上。他们使用了一台 DNA 书写器设备,以 4Mbps 的速度在 DNA 中记录这些数据。这意味着在一天内可以记录 125GB,大约相当于高端手机可以存储的容量。这一速度已经是之前研究所存储速度的三倍。

DNA存储,拯救人类数据危机的良方?-风君雪科技博客

  目前,Catalog 使用了由 20 到 30 个碱基对长预制合成 DNA 链,通过酶嵌套在一起,可以存储更多的数据。这些片段的排列就像英语使用 26 个字母一样,理论上可以创造出无数的组合。据 Catalog 估计,未来进行 1MB 数据 DNA 存储成本将不到 0.001 美分。

  当然,如果未来这家创业公司真的能够将成本大幅降下来,那么确实有可能为 DNA 数据存储的商业化铺平道路。

DNA存储,拯救人类数据危机的良方?-风君雪科技博客

  在 2019 年,《科学美国人》与世界经济论坛联合发布的当年全球十大新兴技术中, DNA 数据储存技术名列其中。

  可以预见,磁存储和光存储方式在未来一段时间仍将占据数据存储方式的主流。不过,即使我们不会出现地球末日这种极端情况,因为近几年数据激增,人类也正面临数据存储空间不足的严峻问题。同时,数据存储需求激增,带来的是硅晶片使用量的激增,以及由此引发的环境污染问题、水资源和能源消耗等问题。

  DNA 存储技术的实现,一定程度将缓解传统存储的容量问题,并大幅减少电子元件和能源的消耗。

  当然,在存取技术上和成本控制上,DNA 存储为代表的碳基存储方式还有很长的道路要走,但随着商业化的进展,其规模普及速度也会加快。从数据存储的历史来看,存储媒介的变化是一个不断变化且加速的过程,DNA 存储也应该成为我国关注和研究的技术方向。