真核生物mRNA成熟过程

(一)真核生物mRNA成熟的加工过程

真核生物的染色体上的DNA序列根据能否产生有功能的核酸和蛋白产物分为基因和基因间区。现代意义的“基因”一词既包括传统上认为的能通过转录和翻译形成蛋白质的DNA序列,也包括了产生有功能的非编码RNA的序列。对于一个具有产生蛋白产物的基因而言,其内部序列又可以分为有形成蛋白潜力的编码区和编码区两侧起调控作用的非编码区。真核生物中绝大多数的转录事件由RNA聚合酶II(RNA polymerase II, Pol II)形成的复合体催化完成,在非编码区上的增强子(enhancer)、启动子(promoter)和终止子(terminator)等顺式作用元件和众多转录因子(transcription factor, TF)的调控下,形成一条从转录起始位点(transcription starting sites, TSS)到转录终止位点(transcription termination sites, TTS)的pre-mRNA产物。Pre-mRNA经过一系列加工处理步骤形成成熟的mRNA,后者再与核糖体结合翻译成从起始密码子(starting codon)到终止密码子(termination codon)的肽链。Pre-mRNA和成熟mRNA上位于起始密码子上游和终止密码子下游的序列称为5’非翻译区(5’ untranslational region, 5’ UTR)和3’非翻译区(3’ untranslational region, 3’ UTR)。

image.png

从pre-mRNA到成熟mRNA的加工主要包括添加5’帽子结构(5’cap)、剪接(splicing)和3’ 加多聚腺苷酸尾(polyadenylation, poly(A))三个步骤。在pre-mRNA未完全转录完成时,5’加帽就已经开始,其结构由pre-mRNA的5’三磷酸与GTP通过5’,5’-三磷酸酯键缩合,GTP的N-7、第一个或前两个核苷酸的戊糖2号碳原子被甲基化。

image.png

剪接过程指编码区上内含子(intron)的剪除与外显子(exon)的拼接,这一过程由称为剪接体(splicesome)的RNA-蛋白复合体催化完成。剪接体按其组成结构可以分为主要剪接体(major splicesome)和次要剪接体(minor splicesome)两类。主要剪接体由5种核小核糖核蛋白(snRNPs, small nuclear ribonucleoproteins)U1、U2、U4、U5、U6和超过170种其他蛋白质组成,大于99%的内含子通过主要剪接体切除。次要剪接体由U5、U11、U12、U4atac、U16atac几种snRNPs和其他蛋白组成,其存在数量和能加工mRNA的数目远少于主要剪接体。

剪接体种类的选择与pre-mRNA上的顺式调控元件cis-elements)相关,后者主要包括5’剪接位点(5’ splicing site, 5ss),3’剪接位点(3’ splicing site, 3ss)和分支位点(branch point site, BPS),以及其他的调控位点如外显子剪接增强子(exonic splicing enhancer, ESE)、外显子剪接抑制子(exonic splicing suppressor, ESS)、内含子剪接增强子(intronic splicing enhancer, ISE)、内含子剪接抑制子(intronic splicing suppressor, ISS)等。主要剪接体负责在真核生物中占比最多的U2类型内含子(序列特征为GU-AG),次要剪接体负责U12类型内含子(序列特征为AU-AC)。除了经典的splicing,再内质网上还有由Ire1介导的非经典splicing,详见内质网应激

Poly(A)尾的形成由以多聚腺苷酸化聚合酶(polyadenylation polymerase, PAP)参与的大型蛋白机器完成,其结构包括4种蛋白复合体(CPSF(cleavage and polyadenylation specificity factor), CSTF(cleavage stimulation factor), CFI(cleavage factor I), CFII(cleavage factor II))和几种独立蛋白(symplekin, PAP, RBBP6(retinoblastoma-binding protein 6), Pol II(尤其是其中的CTD(carboxy-terminal domain)结构域), PABPN1(nuclear poly(A)-binding protein 1)。

  • CPSF: cleavage and polyadenylation specificity factor
  • CSTF: cleavage stimulation factor
  • CFI: cleavage factor I
  • CFII: cleavage factor II
  • PAP: poly(A) polymerase
  • RBBP6: retinoblastoma-binding protein 6
  • pol II: RNA polymerase II (here, especially the Pol II regulatory carboxy-terminal domain (CTD))
  • PABPN1: nuclear poly(A)-binding protein

Poly(A)尾的形成通常位于pre-mRNA的3’ UTR部分,在核酸内切酶的作用下,3’UTR在被称为多聚腺苷酸化位点(polyadenylation site or poly(A) site, PAS)的地方切开,再由PAP在剪切位点催化形成20~200个连续的腺嘌呤核糖核苷酸。PAS位点位置的确定同样依赖于mRNA序列上顺式作用元件,如PAS上游的A[A/U]UAAA六聚体和U-rich序列、UGUA序列和PAS下游的U-rich和GU-rich序列。A[A/U]UAAA六聚体在有些基因中存在变体,其控制形成PAS的能力较A[A/U]UAAA弱。

image.png

(二)可变剪接和选择性多聚腺苷酸化

一条pre-mRNA并非对应唯一的剪接和加尾方式,细胞中存在可变剪接(alternative splicing, AS)和选择性多聚腺苷酸化(alternative polyadenylation, APA)的机制,使一条序列已定的pre-mRNA能够加工成为多种具有不同核苷酸序列、性质和功能的成熟mRNA。可变剪接和选择性多聚腺苷酸化极大地丰富了真核细胞中的mRNA种类,对细胞的分化和发育等生命活动具有至关重要的意义。

可变剪接按照内含子和外显子的保留与切除形式可以分为内含子保留型5’选择性3’选择性外显子遗漏型相互排斥型等几种。可变剪接与细胞分裂的调控密切相关,全长的mTOR(mTORα)在因可变剪接事件变为缩短的mTORβ后促进了细胞周期G1向S的转变,从而促进细胞增殖。可变剪接不仅在正常的生命活动中发挥作用,也是一些疾病的诱因或特征。如PTEN(phosphatase and tensin homolog deleted on chromosome ten)本是一种肿瘤抑制基因通过抑制PI3K活性抑制癌细胞增殖,但在乳腺癌中检测到其保留了一段内含子的变体PTEN5b表达上调,同时伴随PI3K的活性增强,促进癌症发生。
image.png

选择性多聚腺苷酸化指的是在mRNA或其他由Pol II催化的产物(如长非编码RNA(long non-coding RNAs, lncRNA))的3’端选择多于一种的PAS位点进行多聚腺苷酸化,从而产生具有不同3’末端的RNA产物的过程。APA过程在真核生物中广泛存在,至少70%的哺乳动物mRNA具有APA现象。大多数PAS位点分布在RNA的3’UTR区域,导致3’UTR的伸长或缩短,但也有一部分APA事件使PAS落在倒数第二段外显子或内含子区域,称为UP-APA(upstream APA)。这种APA不仅改变了mRNA非翻译区的长度,也影响了其蛋白编码序列,其形成同时有可变剪接过程的参与。

image.png

mRNA的3’ UTR区域存在众多顺式作用元件,如50%的microRNA结合位点位于mRNA的3’ UTR区域,3’UTR缩短(3’ UTR shortning, 3’ US)可能导致其招募microRNA能力的丧失。根据同一mRNA上不同PAS位点距离蛋白编码区的位置远近,可以将其分为近端PAS(proximal PAS, pPAS)和远端PAS(distal PAS, dPAS)。在细胞增殖过程中,一些mRNA发生3’US,结合更多靶序列位于pPAS上游的且具有促进增殖活性的por-proliferation miRNA,而靶序列位于pPAS和dPAS之间的抑制性miRNA则无法发挥作用。细胞中具有同一miRNA结合位点的内源竞争性RNAs(competing endogeneous RNAs, ceRNAs)网络使得miRNA介导的APA调控更加复杂,这体现了APA在精细调控基因表达中的精密作用。类似的,其他顺式元件如AREs(A-rich elements)和GREs(GU-rich elements)等的结合位点缺失导致mRNA稳定性的变化,同样参与了基因表达的调控。