大多数哺乳动物基因编码多种转录亚型,这些亚型是由不同的启动子使用、外显子剪接的变化和替代的 3' 末端选择引起的。 检测和量化跨组织、细胞类型和物种的转录本亚型一直极具挑战性,因为转录本比通常用于 RNA-seq 的短读取长得多。 相比之下,长读长 RNA-seq (LR-RNA-seq) 给出了大多数转录本的完整结构。 我们对 264 个 LR-RNA-seq PacBio 文库进行了测序,总计超过 10 亿个循环共识读取 (CCS),用于 81 个独特的人类和小鼠样本。 我们从 87.7% 的注释人类蛋白质编码基因和总共约 200,000 个全长转录本中检测到至少一个全长转录本,其中约 40% 具有新的外显子连接链。 为了捕获和计算转录本结构多样性的三个来源,我们引入了一个基因和转录本注释框架,该框架使用代表每个转录本的转录本起始位点、外显子连接链和转录本终止位点的三元组。 在单纯形表示中使用三联体展示了启动子选择、剪接模式和 3' 加工如何在人体组织中部署,近一半的多转录蛋白质编码基因显示出明显偏向三种多样性机制之一。 跨样本评估,74% 的蛋白质编码基因的主要表达转录物发生变化。 在进化中,人类和小鼠的转录组在转录本结构多样性类型方面总体相似,但在单个直系同源基因对中,超过一半 (57.8%) 在匹配组织的多样化机制方面表现出显着差异。 这项对人类和小鼠长读长转录组的初步大规模调查为进一步分析替代转录本的使用奠定了基础,并得到了相同样本的短读长和 microRNA 数据以及 ENCODE4 集合中其他地方的表观基因组数据的补充。
https://doi.org/10.1101/2023.05.15.540865 |