主题:【原创】天书中的涂鸦 ——以DNA为纸墨,写你不朽之名 -- 游识猷
一个画家,会在他的作品角落签上名字。一个程序员,会在他编的程序中留个彩蛋。那么一个合成生物学家,会在他制造的生命中留下怎样的痕迹呢?
答案是,他会留下水印(watermark)。
当然,这里的水印,并不是说你把一个细菌正对着光观察,它身上会显现出某个特殊的图案,像这样——
而是用加密的方式,把一段信息编进了合成的基因组中的某处。
这就是人类基因组学术带头人、著名非主流科学家克雷格文特尔(Craig Venter)所干的事儿。
* * *
文特尔这个名字最近很红,原因就在于今年五月20日,他在科学杂志上宣布制造出了第一个人造生命。[1]
文特尔所合成的是蕈状支原体(Mycoplasma mycoides),他还给他合成的这个新生命起了个名字——M. mycoides JCVI-syn1.0,前面的M. mycoides代表了蕈状支原体,后面的JCVI是他自己设立的约翰克雷格文特尔研究所(John Craig Venter Institute)名字缩写,syn1.0则代表了“合成生命1.0”。
作为一名足够疯狂的科学家,光取个名广而告之自然不够拉风,文特尔干脆把一堆信息作为水印加入了自己合成的基因组。
在DNA里加水印目的一般有三:其一,作为证明。证明这基因组确实是人工合成的,而不是天然存在的蕈状支原体基因。其二,防止盗版,以后再出现的新合成生物拿来测序看看有没有这段水印,就知道自己的知识产权是否受到了侵犯。其三,炫耀技术,能一字不差地精确合成长长的水印,当然是自己技术水平的最好广告。
最后,社会对这种人工合成的细菌其实还是心存疑虑的,万一它从实验室中扩散到外界会不会引起什么未知的环境或健康风险呢?文特尔宣称他改动了基因,让自己合成的细菌必须依靠某种特定的抗生素、同时需要在极富营养的培养液中才能生存,这样就大大降低了这种微生物向外逃逸的风险。于是这水印有了最后一条用途——文特尔加上自己的名字,也是对自己能有效控制这个细菌的一种无声的保证。否则要真跑一群了到外头,别人拿来一测序:小家伙,文特尔喊你回家吃饭!
其实,这不是文特尔第一次合成基因组,也不是他第一次往里面加水印。
* * *
早在2008年1月,文特尔就在《科学》杂志上发表了他们合成生殖道支原体(Mycoplasma genitalium, MG)基因组的论文。这种微生物的基因组含有582,970个碱基对。里面就插入了一段水印。[2]
我们知道DNA这本天书只由四个字母组成,ATCG。要用这四个字母表达复杂的信息,就需要一定的加密方式。
当时文特尔用的是最简单的也最众所周知的加密方式——氨基酸密码子。
众所周知的遗传的中心法则就是,遗传信息从DNA转录成RNA,再从RNA翻译成蛋白质。蛋白质由20种氨基酸组成,而每一个氨基酸由信使RNA上的三个碱基唯一确定,那三个碱基即为密码子。
每个氨基酸都有一个英文字母的简写代号,于是我们有了这张表格。
这里的密码子是按照信使RNA的碱基来写的,我们要看对应的DNA序列,只要把RNA的碱基U换成DNA的碱基T即可。比如W这个字母,在表格中的密码子是UGG,那么所需合成的正链DNA就是TGG。
问题在于,密码子编译的氨基酸就20种,这样有六个英文字母——BJOUXZ就无法表达了。英文统共五个元音一下子去了俩,其他四个字母也属于常见字母,这样的加密方式显然不能满足很多信息书写的需要。
写着写着遇到没有的英文字母怎么办呢?比如INSTITUTE里面的U,没有这个简写的氨基酸。
文特尔采用的是约五百年前,所谓早期现代英语(Early Modern English)的写法,当时U与V常常彼此替换使用,例如University常常被写作Vniversity,至今我们在一些历史建筑上还能看到这样的写法。
就这样,文特尔克服障碍,硬是拼写出了几个研究者和研究所的名字——
*克雷格文特尔(CRAIGVENTER)编码为:
TTAACTAGCTAATGTCGTGCAATTGGAGTAGAGAACACAGAACGATTAACTAGCTAA
*文特尔研究所(VENTERINSTITVTE)编码为:
TTAACTAGCTAAGTAGAAAACACCGAACGAATTAATTCTACGATTACCGTGACTGAGTTAACTAGCTAA
* 汉史密斯(HAMSMITH)编码为:
TTAACTAGCTAACATGCAATGTCGATGATTACCCACTTAACTAGCTAA
* 辛迪与克莱德(CINDIANDCLYDE)编码为:
TTAACTAGCTAATGCATAAACGACATCGCTAATGACTGTCTTTATGATGAATTAACTAGCTAA
*格拉斯与克莱德 (GLASSANDCLYDE)编码为:
TTAACTAGCTAAGGTCTAGCTAGTAGCGCGAATGACTGCCTATACGATGAG TTAACTAGCTAA
值得注意的是,水印前后各有一段不变的序列,在这里就是“TTAACTAGCTAA”。它们实际上是为水印测序提供方便的,只要知道了这两段序列,就可以以此为引物对其后的水印进行PCR扩增与测序。
做完这一切,文特尔志得意满地向世界公布了这五个“签名”,他始料未及的是引来了一批反感不已的评论家。有人轻蔑地称之为“涂鸦”。有人则发表给文特尔的公开信,称这种签名“反应出一种自我中心,并且缺乏想象力”,还建议文特尔应该丢掉自己的签名,改放入些有意义的名人名言,比如电影《科学怪人(弗兰肯斯坦)》里的著名台词:“它活了!(It’s alive!)”[3]
精确合成的水印却被称为涂鸦,文特尔真委屈大了。不过也许没过几代,那些工整的信息就会成为名副其实的涂鸦——为了不扰乱合成生命的正常功能,科学家们必须确保水印不会被译成蛋白质。为此签名常常被放在非编码区——最容易被转座子(transposon)插入的地方。虽然文特尔采取了一些防转座子插入的方法,但依然无法确保绝对安全。此外,哪怕转座子放过了水印,但因为水印本身对合成生命的正常机能没有影响,故此在这段DNA复制出错时一般也不会得到纠正。于是随着传代过程,突变终将发生,把当年一字字认真镌刻的签名渐渐变成无意义的呓语。
* * *
即便如此,2010年5月,文特尔还是不屈不挠地在自己新合成的生命里再次加入了水印,而且加得比上次还多——四条水印。不过不知是不是那封公开信起了作用,这次的水印还真引述了些名言。
如果你想看到文特尔这次的水印,你倒不需要去管他要支原体、培养、提纯DNA、测序……这次文特尔把全部水印序列都公布在了他的论文的附加材料中(http://www.sciencemag.org/cgi/data/science.1190719/DC1/1)。
这次的水印不但更长,也更为复杂。文特尔不再使用只能表达有限字母的密码子编码方式。他宣称这回他的编码系统囊括了所有的英文字母以及标点符号。在全部四条水印中,第一条据称是对编码系统的解释说明;第二条水印是一条可让破解出的人访问的网址;接下来的水印包括了四十六名研究者的名字;最后一条水印则是一串英文箴言。[4]
文特尔慷慨地对他所出的谜题给予了提示,他公告天下,第四条水印中包括如下名句。
*“去生活,去犯错,去堕落,去胜利,去在生命中创造出生命”(“TO LIVE, TO ERR, TO FALL, TO TRIUMPH, TO RECREATE LIFE OUT OF LIFE.”)
——来自詹姆斯乔伊斯(James Joyce)的长篇小说《一个青年艺术家的画像(A Portrait of the Artist as a Young Man)》
* “不止看到事物的本来面目,更应看到它们可能成为的样子。”(“SEE THINGS NOT AS THEY ARE, BUT AS THEY MIGHT BE.”)
——摘自美国原子弹计划主持人、物理学家奥本海默(J. Robert Oppenheimer)的传记《美国的普罗米修斯(American Prometheus)》.
*“不能为我所建者,不能为我所知。”(“WHAT I CANNOT BUILD, I CANNOT UNDERSTAND.”)
——摘自史提芬霍金(Stephen Hawking)所著的《果壳中的宇宙(The Universe in a Nutshell)》一书,书中提到这是伟大的物理学家费曼(Richard Feynman)逝世前最后留在黑板上的话。
有野心有耐心的科学极客们,去破解文特尔的挑战吧,只要你破译出了他的秘密,就可以访问第二条水印中的网址,作为“到此一游立此存照”的证据。
* * *
除了文特尔那神秘的编码方式,其实早就有别的方式可以涵盖所有英文字母。最简单的例如把四个ATCG碱基对应两位的二进制数字,然后按摩尔密码的规则写出加密的信息。当然,自己另外定立一套规则也一点不难,三个碱基就能有4^3=64种排列方式,轻松就可以包括全部字母、数字与常见符号。[5]
1999年,美国西奈山医学院的研究者凯瑟琳. 克莱兰(Catherine T. Clelland)就在人的基因组中藏了一小段密文。内容是向一段历史的致敬——“6月6日 入侵:诺曼底(June 6 Invasion: Normandy)”。[6]
研究者先合成密文DNA,并在密文首位加上引物序列作为标志。之后,再将人类基因组的DNA切成差不多大小的片段,作为干扰的背景杂音与密文DNA混在一起。最终用滤纸浸泡过这份DNA混合物后干燥。这张滤纸可以被切成许多小块,每一块都藏着合成者想传递的信息。
克莱兰所用的加密方式就是自定的三碱基编码,如下图小图b所示——
小图d:那段密电的测序结果。
这段密文不过一百个碱基,藏在人类大约三十亿碱基长的基因组中,相当于沧海一粟——三千万分之一。除非明确地知道密文前后的引物序列,否则要把密文针对性地扩增并测序简直就是不可能的任务。
这一手段还能让合成者用同一份DNA样品给不同人传递不同的信息——只要每段密文前后用上不同的序列,那么不同的接收者虽然拿着同一份DNA模板,但所用的引物各异,还是会扩增出不同的密文。
最后,就算有人千方百计拿到了引物序列,扩测序出了密文的序列,只要他不知道约定好的解密密码,拿着那些密文也是一无所用。这无疑为保密又多加了一道安全关卡。
这个研究发表在《自然》杂志上,当即引起了轰动。从今往后,间谍们只需一小片曾浸透DNA的滤纸就能传递出最机密的内容。难怪BBC新闻也悲观地评论道:以后的007不拿个分子生物学博士还真混不下去。[7]
歌曲《亲亲我的宝贝》中,周华健这样唱:“我要走到世界的尽头,寻找传说已久的雪人,还要用尽我一切办法,让他学会念你的名字”。就目前而言,找只野生的雪人并教会他念个名字依然很有难度。但以生物技术发展的速度来看,合成出一只野人并在他的DNA中写下某个名字——这种事儿倒是指日可待。
若信手拈来一段双螺旋,以DNA为纸墨,想写些什么,你心中可已有答案?
参考资料
[1]拟南芥 & 桔子,人造生命,路还很远
http://songshuhui.net/archives/38594.html
[2]Gibson DG, Benders GA, Andrews-Pfannkoch C, Denisova EA, Baden-Tillson H, Zaveri J, Stockwell TB, Brownley A, Thomas DW, Algire MA, Merryman C, Young L, Noskov VN, Glass JI, Venter JC, Hutchison CA 3rd, Smith HO. Complete chemical synthesis, assembly, and cloning of a Mycoplasma genitalium genome. Science. 2008 Feb 29;319(5867):1215-20.
[3]Brandon Keim , An Open Letter to the J. Craig Venter Institute
http://www.wired.com/wiredscience/2008/01/an-open-letter/
[4]Aaron Saenz, Secret Messages Coded Into DNA Of Venter Synthetic Bacteria, May 24th, 2010 http://singularityhub.com/2010/05/24/venters-newest-synthetic-bacteria-has-secret-messages-coded-in-its-dna/
[5]Heider D, Barnekow A. DNA-based watermarks using the DNA-Crypt algorithm. BMC Bioinformatics. 2007 May 29;8:176.
http://www.biomedcentral.com/1471-2105/8/176
[6]Clelland CT, Risca V, Bancroft C. Hiding messages in DNA microdots. Nature. 1999 Jun 10;399(6736):533-4.
[7]DNA hides spy message, BBC news, Thursday, June 10, 1999
http://news.bbc.co.uk/2/hi/science/nature/365183.stm
本帖一共被 2 帖 引用 (帖内工具实现)
- 相关回复 上下关系8
🙂【原创】天书中的涂鸦 ——以DNA为纸墨,写你不朽之名
🙂什么新花样/。 踢细胞 字186 2010-08-09 18:36:21
🙂假如我留一个water mark 1 淮夷 字63 2010-08-09 05:33:52
😉假如我也留一个water mark,那就是我的座右铭: 1 穿越 字21 2010-08-09 05:49:05
🙂始终以为这世上最美的签名, 1 南方有嘉木 字34 2010-08-08 16:14:38
😄游姐姐,你这个帖只能长草不能收蛋也! 月桂 字139 2010-08-07 21:51:25
😄存储容量能做到多少字节? 1 永远的幻想 字181 2010-08-07 19:04:40
🙂人基因组长度大概三十亿个碱基对 游识猷 字48 2010-08-08 03:12:02