题目1
基于二代测序技术的RNA-seq在带来丰富的转录组数据的同时,是否也会因建库流程、比对/定量等产生偏差?回答:
1) 它可能掩盖哪些真实信息?
2) 它可能制造哪些虚假信号?
3) 从前两题任选一个具体场景,提出你的优化方案。
参考答案:
1) 基于二代测序技术的RNA-seq可能掩盖哪些真实信息?
1. 低丰度转录本丢失:建库中的 PCR 扩增偏好性及测序深度限制,可能导致低表达基因或稀有异构体未被检测到。
2. 转录本结构信息缺失:短读长测序难以准确解析全长转录本,可能掩盖可变剪切、融合基因或 UTR 区的精细结构。
3. 非编码 RNA 漏检:部分长链非编码 RNA 或环形 RNA 因建库方法(如 rRNA 去除、polyA 富集等)而被漏检;rRNA 去除步骤可能会误杀一些与 rRNA 序列相似的非 rRNA 基因。
4. RNA 降解导致的偏差:不同细胞类型的 RNA 稳定性不同,长转录本在提取中更易降解。使用 RNA 完整性值较低的样本建库会引入系统性偏差;对于部分降解样本,oligo-dT 法会导致测序读数严重偏向于基因的 3’端。
5. 等位基因特异性表达分析困难:降解可能不均匀地影响来自不同等位基因的转录本,导致错误的等位基因偏向性结论。
6. 随机引物偏差:在 cDNA 合成中,随机引物的结合效率并非完全随机,可能受到 RNA 二级结构的影响,导致转录本不同区域覆盖度不均匀。
7. 多重比对问题:对于重复序列或同源基因,如果丢弃多重比对 reads,这些基因的表达量会被低估;如果随机分配,则可能导致定量不准确。
8. 参考基因组与注释的局限:参考基因组质量影响比对效果,且样品实际基因组与参考基因组存在差异;基因组注释文件的不完整性会导致新型转录本和异构体因不完整的参考转录组而被掩盖。
9. RNA 表观修饰信息丢失:逆转录等步骤通常会抹除 RNA 表观修饰信息;一些化学修饰(如 m⁶A、2′-O-甲基化)会影响接头连接效率或逆转录过程,使得带有修饰的 RNA 分子被选择性排除。
10. 片段化偏差:片段化的非随机性可能引入系统误差。
11. 链特异性信息丢失:常规非链特异性建库会导致转录本来源方向信息丢失(可通过链特异性建库试剂盒避免)。
12. RNA 编辑事件被误判:RNA 编辑可能被误认为是测序错误或比对错误,尤其是在使用标准比对工具时,这些后转录修饰事件可能被过滤掉。
2) 基于二代测序技术的RNA-seq可能制造哪些虚假信号?
1. 基因组DNA污染:样本中残留的基因组DNA可能被误认为是转录本表达信号,导致基因表达量特别是低表达基因被高估,或造成内含子保留的假象。
2. 嵌合体假象:在反转录或PCR扩增过程中,模板转换等机制可能导致不相关的RNA片段错误连接,产生虚假的融合基因或嵌合转录本信号。
3. 序列相似性导致的错误比对:高度同源的基因家族成员或假基因,可能因序列相似而被错误比对,导致并未表达的假基因显示出虚假的表达信号。
4. 引入性突变与假变异:逆转录酶在RNA修饰位点(如m6A)可能发生碱基错配,或引物非特异性结合引入末端突变,这些技术性错误可能被误判为SNV或RNA编辑事件。
5. 多克隆簇污染:在测序芯片上,空间距离过近的DNA分子可能形成混合信号的簇,导致荧光信号识别错误,产生低质量读段或错误的序列信息。
6. 前体RNA干扰:未成熟的pre-mRNA中的内含子序列若未被有效区分,会被计入表达量,导致外显子表达水平被高估或误判为可变剪切事件。
7. 技术偏差导致的通路富集假象:具有相似GC含量或长度特征的基因可能受到相同的技术偏差影响,导致这些基因在特定通路中表现出虚假的协同变化。
8. 接头污染:文库构建中的接头序列若未被彻底去除,可能导致比对错误或产生虚假的非基因组序列信号。
3) 优化方法:
1. 在建库过程中引入分子条形码(UMI),有效区分PCR重复,消除扩增偏好性对定量的影响。
2. 采用三代长读长测序技术,直接获取全长转录本,弥补短读长测序在结构解析上的不足。
3. 严格进行DNase I处理,彻底去除基因组DNA污染,避免其产生的虚假转录信号。
4. 添加Spike-in外部标准品,用于校正批次效应,监控实验间的系统性误差。
5. 构建个性化参考基因组,减少因参考序列与样本基因组差异导致的比对偏差。
6. 使用Salmon或Kallisto等专门处理多重比对的工具,通过概率模型更准确地定量重复序列区域。
7. 利用qPCR等实验手段对关键发现进行验证,排除测序或分析引入的假阳性结果。
—
题目2
现代数据库中的绝大多数transcript variants都来自RNA-Seq及其衍生技术。然而,对GU-AG motif等的依赖,也许让我们忽视了对”经典以外”的剪接事件的发现。回答:
1) 调查XBP1s在内质网应激中的非常规剪接流程:切割酶、断端化学性质、连接酶,指出其在常规RNA-seq流程中为何不易被捕获。
2) 在不改变实验数据的前提下,提出一条优化的数据分析流程以发现更多XBP1s同类事件(非常规切割 + 连接)。
参考答案:
1) XBP1s 在常规 RNA-seq 流程中不易被捕获的原因分析
1. 断端化学性质特殊:IRE1α 剪切产生 2′,3′-环磷酸末端,会阻碍常规建库中的接头连接,若不进行额外的去磷酸化处理,XBP1s 序列难以进入测序文库。
2. 剪接位点特征非常规:XBP1 的剪接不遵循经典剪接体的 GU-AG 规律,而常规分析流程中的剪接位点识别模块通常依赖于这些保守的 motif 信号。
3. 内含子长度极短:XBP1s 剪接去除的片段仅为 26 nt,显著短于常规内含子的长度范围,常被分析软件的过滤算法视作比对错误或噪声而剔除。
4. 数据库注释不完整:现有的转录组注释文件可能未涵盖此类非常规剪接事件,导致跨越剪接位点的 reads 在定量阶段被识别为未注释序列或基因间区噪声。
5. 生物学发生条件受限:该剪接事件特异性地发生于内质网应激状态下,若实验诱导不足或采样时间点偏离应激高峰,其转录本丰度可能低于检测下限。
2) 在不改变实验数据的前提下, 优化数据分析流程以发现更多XBP1s同类事件
1. 调整比对算法参数,显著降低最小内含子长度阈值(如设定为 10 nt),并对未成功比对的 reads 进行重新扫描,以捕获极短的剪接片段。
2. 采用不依赖现有注释文件的从头组装策略,通过提取新剪接位点信息,识别数据库中未收录的非常规转录本。
3. 借鉴环状 RNA 或融合基因的分析思路,利用其检测非共线性连接的算法,寻找基因组短距离内的异常连接事件。
4. 过滤掉符合 GU-AG 等经典剪接信号的序列,通过排除法重点锁定非保守的剪接位点。
5. 结合 RNA 二级结构预测工具,筛选在剪接位点上下游具有特定“茎环”结构的候选序列,匹配 IRE1α 的作用特征。
6. 使用基序分析工具提取候选位点的序列特征,验证其是否富集了类似于 IRE1α 等核酸酶的保守识别 motif。
7. 引入生物学背景验证,对比不同实验组数据,确认候选剪接事件是否仅在特定的生物学应激状态下特异性发生。
—
题目3
Transposon作为一类高度重复的DNA element,在基于二代测序技术的RNA-seq的数据分析中,常面临多重比对、与其他基因locus重合等问题。回答:
1) 从建库流程与算法假设两个层面分析,为什么转座子转录本在基于二代测序的RNA-seq数据中难以被准确识别与定量?
2) 如何在transposon的固有限制下,依然从RNA-seq中更有效地捕捉到转座子相关的转录事件?
参考答案:
1) 从建库流程与算法假设两个层面分析,为什么转座子转录本在基于二代测序的RNA-seq数据中难以被准确识别与定量?
1. 部分转座子转录本因缺乏polyA尾或具有类rRNA序列特征,在常规建库富集环节易被系统性排除。
2. 转座子序列(如逆转录转座子)两端常形成稳定的发卡等二级结构,会物理性阻碍逆转录酶的进程,影响文库构建效率。
3. 转座子在基因组中拷贝数极高,建库时若gDNA去除不彻底,极易引入严重的基因组DNA污染信号,干扰真实转录水平的定量。
4. 算法流程通常假设reads应具有唯一比对位置,而转座子的高度重复性导致其MAPQ分数极低,常被下游分析软件作为不可靠数据过滤掉。
5. 转座子富集的异染色质区域在现有参考基因组组装中往往存在大量缺口或未解析区域,导致相关reads无法准确回帖。
6. 转座子转录常与宿主基因发生重叠或表现为反义转录,在分析层面难以准确区分其来源于独立的转座子活动还是宿主基因的背景转录。
2) 如何在transposon的固有限制下,依然从RNA seq中更有效地捕捉到转座子相关的转录事件?
1. 采用rRNA去除法而非polyA富集,以保留缺乏polyA尾的转座子转录本。
2. 使用链特异性建库技术,辅助区分宿主基因重叠区域与反义转座子转录。
3. 采用配对末端测序,通过增加片段的唯一性特征来提高重复区域的比对率。
4. 调整文库构建中的长度筛选范围,保留如Alu等短片段转座子序列。
5. 针对特定活跃家族设计捕获探针进行靶向测序,提高检测深度与特异性。
6. 结合长读长测序技术获取全长转录本,直接解决重复序列的比对模糊性。
7. 使用包含完整转座子元件注释的参考基因组进行比对。
8. 保留多重比对读段,并利用EM算法等概率模型进行定量分配。
9. 在家族或亚家族水平进行定量分析,降低单一位点比对不确定性的影响。
10. 比较转座子内部与侧翼区域的覆盖模式,结合转录起始位点特征推断其转录独立性。
11. 对预测的高表达或差异位点设计特异性引物,通过RT-PCR及Sanger测序进行验证。
—
题目4(必选)
背景图片是IGV (Integrative Genomics Viewer)中一套K562细胞(DMSO对照处理)的RNA-seq数据在基因X区域附近的比对图像(squished view and collapsed view),请根据图片信息回答以下问题:
1) 图中右侧的测序reads密度显著高于左侧,有哪些可能的原因?(至少提出一个生物学原因,一个技术性原因)
2) 从上一问中挑选一个生物学原因和一个技术性原因,提示验证假设的实验或分析方法

参考答案:
1) 图中右侧的测序reads密度显著高于左侧,有哪些可能的原因?
生物学原因:
1. 可变剪接:左侧区域可能对应可选外显子,在主要转录本中被跳过,导致其覆盖度显著低于存在于所有异构体中的右侧区域。
2. 可变转录起始位点:基因存在内部启动子,导致转录从左侧区域下游开始,使得左侧序列未被包含在成熟转录本中。
3. 染色体易位:在特定细胞系(如K562)中,右侧区域可能因染色体易位(如形成BCR-ABL融合基因)而受到强启动子驱动,导致其表达水平剧增。
4. 基因重叠:右侧高密度区可能重叠了另一个相邻的高表达基因,导致该位置的reads实际上来源于两个不同的转录单元。
技术性原因:
1. 3端偏好性:采用polyA富集法建库时,由于反转录从3端开始,容易导致基因5端(左侧)序列的捕获效率降低。
2. 样本降解:RNA降解通常从不带保护的5端开始,导致建库时转录本左侧片段丢失,右侧相对完整。
3. 比对过滤:左侧区域可能包含重复序列或低复杂度序列,导致相关reads因多重比对或低比对质量被软件过滤。
4. 扩增偏差:右侧序列的GC含量或二级结构可能更适合PCR扩增,导致其在文库构建过程中被过度富集。
5. 注释缺失:右侧区域可能存在未被记录的独立高表达转录本或非编码RNA,因缺乏注释而被误认为属于该基因。
6. 视图渲染:IGV等可视化工具在不同视图模式(如Squished View)下的缩放与平滑算法可能在视觉上夸大了局部的覆盖度差异。