一支科学家团队制作了一本真正意义上的简洁诗文集,他们将所有莎士比亚的十四行诗编码在DNA上。研究人员表示,他们的技术可以很容易地移植扩展,存储世界 上所有的数据。此外,科学家还在DNA中编码一段长达26秒的,来自马丁·路德·金著名演讲“我有一个梦想”的剪辑音频、一篇沃森和克里克DNA结构经典 论文的副本、一张科学家所在研究机构的照片以及一份描述数据如何被转换的文件。相关报告发表于今天的《自然》网站上。
该项目的负责人是欧洲生物信息研究所(EBI)的尼克·高盛(Nick Goldman)。该研究成果标志着将核酸用于存储信息的方法迈向实用性的里程碑 - 一种比目前的硬盘或磁带等更紧凑、更耐用的存储介质。
2012年将书籍《再生》(Regenesis)编码到DNA序列中的、来自哈佛医学院的分子遗传学家George Church表示:“我认为这是一个非常重要的里程碑,我们将进入真正的,崭新的领域。”
DNA 存储信息较之于其他介质占据更小的空间。DNA是由核苷酸组成的,而且在理论上,至少每个核苷酸能够被用来编码两个比特的数据。这意味着这种数据密度是每 立方毫米含有大量的1百万千兆比特(1 million gigabits)数据,而且只需四克DNA在理论上就能够储存每年创造出来的所有数字数据。这要比诸如闪存盘之类的数字储存媒体所储存的数据更加密集, 而且也更加稳定,这是因为DNA序列在它们被编码出来后上千年时间内也能够被读出。
数据采集
Nick Goldman将520万比特的信息编码成DNA,这与George Church团队在去年做的实验在量级上相当。但是,George Church团队使用了一个简单的代码替换,即DNA核苷酸(即一个碱基)对应一个比特,核苷酸A和C用0来编码,而核苷酸G和T用1来编码。这有时会导 致产生一段很长由相同字母构成的序列,这就很难被测序仪读取并导致错误。
Nick Goldman的研究小组进一步开发出了一套更复杂的加密法。每一个字节((8个1或0的组成字符串))表示由A、C、G或T构成的单词(5个字母)。为 了试图进一步限制错误,科学家将DNA代码转码横交叉字符串,每个长达117个字母的序列均带有索引信息,显示它在整个代码的位置。加密系统再对部分重叠 的字符串数据进行编码。这样,一个字符串中的任何错误均可被其他三个字符串交叉检查。(via 生物360)