密码子优化的前世今生

标签:
基因合成密码子优化金唯智基因 |
经常做基因合成与基因表达的小伙伴们对密码子优化问题并不陌生,可是,为什么有的基因蛋白质表达量那么高,而有的基因却一直表达不出蛋白质呢?
出现类似问题时,小伙伴们应当考虑一下对自己关心的基因进行密码子优化了。今天我们就一块来梳理一下密码子优化的基本原理与相关问题。
提到密码子优化,我们首先来了解一下密码子。想必各位对生物学中心法则都很清楚,它总结了生物体内各种信息(生物大分子,含核酸、蛋白质等)的流动形式。密码子是生物信息从基因流向蛋白质的重要桥梁,每一个密码子(包含三个碱基)最终会被翻译成一个氨基酸。
http://s3/mw690/002WBcqczy7jqB4SZlo12&690
最早提出遗传密码这一名词的是量子力学奠基人之一,奥地利物理学家薛定锷。这位科学家的名字大家是不是很熟悉?是的,他也设计了著名的思想实验“薛定锷的猫”。
http://s2/mw690/002WBcqczy7jqB774ydf1&690
1944年,薛定谔就在他的《生命是什么》一书中,最早提出了遗传密码的设想。他猜想染色体中的有机单体严格、精确地排列,构成了遗传密码。遗传密码决定了生物的遗传性状。
这个大胆的猜想,吸引了一批优秀的科学家投身到生命科学的研究中,去破译遗传密码。后来经过其他科学家的计想与实验验证,才最终确认了大家现在熟知的经典密码子表。
有了密码子的概念,我们就可以进一步理解密码子优化问题了。如图3所示,一个密码子对应一个氨基酸,但一个氨基酸可能对应多个密码子。
http://s11/mw690/002WBcqczy7jqB8Tjzcfa&690
图3. 经典密码子表
那么问题就来了,如果我们有一条蛋白质序列(假设有N个氨基酸),那么会有多少条对应的基因序列呢?
利用排列组合知识,可知一条长度为N的氨基酸序列,理论上有3N条基因序列与之对应;如果一条蛋白质有100个氨基酸,则会有3100条相对应的基因序列。那么,如果蛋白质序列含300或500个氨基酸呢? 这个数字大小小伙伴们可自行脑补。
每一条蛋白质序列对应的所有可能碱基序列,我们称之为解空间,密码子优化问题是从这个解空间中选出最优解,这就是密码子优化问题中“优化”的来源。提到“优化”,它的本质是组合数学问题,其实在生命科学研究中我们遇到的问题,很多都属于优化问题,如引物设计、CRISPR sgRNA设计、蛋白质结构预测等,以后我们也会分享更多的相关内容。
理论上,解空间中的每条碱基序列,都可以翻译成对应的蛋白质序列,但在实际应用中,大部分碱基序列都很难表达成蛋白质,或者具有较低的蛋白质表达量。
随着生命科学、特别是分子生物学的发展,人们对基因转录、蛋白质翻译过程的认识越来越深入,陆续发现由于tRNA的存在与不同tRNA种类含量的差异,不同密码子在不同宿主中具有不同的翻译效率,基因转录后RNA的结构也会影响转录与翻译过程的进行。此外,特定模体序列如TATA box、SD序列及剪接位点等的存在也会影响基因的转录与翻译进程。
http://s15/mw690/002WBcqczy7jqBaNWQS2e&690
当然,还有很多其它因素也会影响最终相关过程,如GC含量、基因序列中的重复序列等,随着大家对基因转录与翻译过程认识的深入,新的影响因素也会陆续被阐明。
关于影响基因转录与蛋白质翻译过程因素的阐明可以指导我们从解空间中选择最佳基因序列,但是通过人工方法从海量数据中来筛选,几乎是不可能完成的任务。这就需要一定的计算方法,特别是人工智能工具的辅助,因此后期我们会重点跟大家分享Codon OptimWizTM密码子优化工具,敬请期待。