原标题:我们可能把全数数字内容存储为DNA吗?来历:新浪科技北京年华6月22日动静,在近期的一项新考究中,美国麻省理工学院的科学家开辟了一种象征和检索DNA数据文件的手艺,这恐怕能让DNA数据存储成为可以。此时此刻,地球上大约有一十万亿吉字节的数据量,而每终日,人类缔造出来的电子邮件、照片、寒暄媒体动态和其他数字文件加起来,又有250万吉字节的数据。

这些数据中的大部分都存储在名为“艾字节数据中心”的巨大举措措施中,其范畴可能有几个足球场那么大,建造和维护成本约为一十亿美元。

麻省理工学院的生物工程师斥地了一种轻易检索DNA数据文件的想法。这能够是利用DNA存储多量照片、图像和其他数字内容的首要一步很多科学家以为,解决天量数据存储问题的另一种想法在于包括我们遗传音信的生物大分子:脱氧核糖核酸。从地球生命诞生至今,DNA已经进化到可以以极高的密度存储多量音信。麻省理工学院的生物工程学教授马克·巴思表示,理论上一个装满DNA的咖啡杯就可以存储宇宙上总共的数据。

巴思同时也是麻省理工学院和哈佛大学博德研究所的成员。“我们须要新的解决方案,来存储天下正不竭堆积的大量数据,尤其是档案数据,”他说,“DNA的密度以至是闪存的1000倍。另一个趣味的特性是,DNA聚合物一旦创作发明出来,它就不会再花费任何能量。你不妨把数据写入DNA,然后很久存储起来。”科学家已经表明,图像和文本不妨编码为DNA,但我们还须要一种从良多DNA片断混合物中挑选出所需文件的简单主意。在新研究中,马克·巴思及其同事展示了一种主意,能将每个数据文件封装到一个六微米的二氧化硅球形“胶囊”中,并使用DNA短序列动作标签,以体现其文件内容。

诈欺这种办法,研究职员从包含二十张图像的DNA文件中真实提取出了以DNA序列形势存储的单个图像。思虑到没关系用到的标签数量,这种办法最多能扩展到10^20个文件。这项研究颁发在不日的「当然-材料」杂志上。论文的重要作者包含麻省理工学院的高等博士后詹姆斯·巴纳尔、前麻省理工学院研究辅佐泰森·谢泼德和麻省理工学院的研究生约瑟夫·柏林特。

平稳的存储介质数字存储系统将文本、照片和其他类型的信息都编码为一系列的0和1,同样的信息也可能用构成遗传密码的四种核苷酸编码在DNA中。例如,G和C可能代表0,而A和T代表1。

行为存储介质,DNA还具有其他几个特性。首先,它特殊平稳,而且合成和测序都极度容易。其次,它具有特殊高的存储密度—1个核苷酸极度于二个比特,大约为一立方纳米。因而,以DNA阵势存储的数据满堂不妨放在我们的手掌中。

这些由二氧化硅制成的球体便是DNA“文件”,每个球体中都包孕编码特定图像的DNA序列,其外部笼罩有形容图像内容的核苷酸条形码这种存储数据的新方法面临着诸多障碍,首先即是合成云云多量DNA必要破费的资本。现在,写入一拍字节的数据必要消耗1万亿美元。为了与磁带逐鹿,巴思估计DNA合成的资本必要贬低约六个数量级。他指出,这一宗旨可以会在一十年或20年内兑现,就像以前几十年来闪存存储信息的资本大幅着落一样。

除了成本之外,运用DNA存储数据的另一个主要瓶颈是,我们很难从一共文件中挑选出想要的文件。

“倘若写入DNA的手艺已经很先进,不妨兑现在DNA中写入一艾字节或1泽字节数据的本钱效益,会发生什么?你会有一大堆的DNA,也就是无数的文件、图像或片子和其他东西,但你需要在个中找到想要的某一张图片或某一部片子,”巴思说,“这就像大海捞针。”目前,DNA文件平淡行使PCR方法来检索。每个DNA数据文件都包孕一个与特定PCR引物连络的序列。为了读取某个特定的文件,需要将该引物增加到样品中,找到并放大所想要的序列。但是,这种方法的一个短处是,引物与目标序列以外的DNA序列之间不妨存在串扰,导致不必要的文件输出。别的,PCR的检索进程需要用到酶,最终会销耗库中的大部分DNA。

“这有点像在干草堆里找一根针,由于其他所有DNA都别国被放大,是以基本上它们都被扔掉了,”巴思说。

解决DNA文件检索困难麻省理工学院的查究小组开发了一种新的检索技艺,希望取代PCR想法。他们将每个DNA文件封装到一个微细的二氧化硅胶囊中,每个胶囊都贴上了由单链DNA组成的“条形码”,与文件内容相对应。为了证明这种想法的本钱收益,查究人员将二十个差别的图像编码到大约长度为3000个核苷酸的DNA片断中,这大致相当于100个字节。

研究中的每个文件都有相应的条形码标签,如“猫”或“飞机”等。当研究人员想要索取一个特定的图像时,他们会掏出一个DNA样本,参加与标的目的标签相对应的引物。例如,老虎的图像对应的标签是“猫”“橘色”和“野生”,而家猫的图像对应“猫”“橘色”和“家养”。

这些引物用荧光或磁性颗粒象征,便于从样本中索要并辨别成亲片段。议决这种想法,查究职员没关系将必要的文件移出来,剩下的DNA则完好地放归去,无间存储数据。他们的检索历程允许布尔逻辑语句,如“总统和一十八世纪”会生成“乔治·华盛顿”的结果,这很肖似谷歌的图像检索。

考究人员将如斯的图像积储在DNA中詹姆斯·巴纳尔说:“在此刻的观念验证阶段,我们的搜求速度是每秒1000字节。我们的文件系统的搜求速度是由每个胶囊的数据量大小定夺的,而此刻限制数据量大小的身分即是在DNA上写入100兆字节数据所需的激昂资本,以及能够并行使用的分类器的数量。假如DNA合成变得充裕省钱,我们就不妨用这种主意将每个文件存储的数据量最大化。”考究人员所使用的条形码—单链DNA序列—取自哈佛医学院遗传学和医学传授史蒂芬·埃利奇开辟的序列库,此中包孕了一十万个序列。假如给每个文件贴上两个如斯的标签,就能够唯一地标识100亿个区别的文件;假如每个文件上有四个标签,就能够唯一地标识10^20个文件。

哈佛医学院遗传学传授乔治·丘奇并异国参预这项研究,但他将这项手艺描画为“常识管理和搜求手艺的巨大奔驰”。

“在DNA中写入、复制、读取,以及用DNA进行低能耗的档案数据存储方面,我们赢得了快捷长进,但这也使得从庞大的数据库中正确检索数据文件变得极为困难,”丘奇说,“这项新研究引人注目的地方在于,它行使一个全体零丁的DNA外层解决了这个问题,扩展了DNA的区别属性,并且行使的是现有的仪器和化学试剂。”巴思设想这种DNA封装技术可能用于存储“冷”数据,即保存在档案中但不经常拜访的数据。此刻,他的实验室已经创建了一家名为Cache DNA的始创公司,正在开拓DNA的长期存储技术,既可能用于长期的DNA数据存储,也能用于短期的临床和其他现有的DNA样品存储。