【Science】第一个完整的人类基因组序列!
导读 | 当科学家在2003年宣布人类基因组的完整序列时,他们并不完全准确。近20年后,约8%的基因组从未被完全测序,很大程度上是因为它由高度重复的DNA片段组成,很难与其余部分对齐。但是T2T联盟终于填满了剩余的DNA,为科学家和医生提供了第一个完整的、无间隙的基因组序列。 |
新完成的基因组,被称为T2T-CHM13,代表了当前参考基因组GRCh38的一个重大升级,医生在寻找与疾病相关的突变时,以及科学家观察人类遗传变异的进化时都会使用它。
其中,新的DNA序列揭示了关于着丝粒周围区域的前所未有的细节,着丝粒是在细胞分裂时抓取和拉开染色体的地方,确保每个“子”细胞继承正确数量的染色体。该区域内的变异性也可能为我们的人类祖先如何在非洲进化提供新的证据。
加州大学伯克利分校博士后Nicolas Altemose说:“揭示这些以前缺失的基因组区域的完整序列告诉我们它们是如何组织的,这对于许多染色体来说是完全未知的。以前,我们只是有了最模糊的描述,现在它是清晰到单碱基对分辨率。”
Altemose是一篇描述着丝粒周围碱基对序列的论文的第一作者。一篇解释测序是如何完成的论文“Complete genomic and epigenetic maps of human centromeres”在4月1日的《Science》杂志上出版。
https://www.science.org/doi/10.1126/science.abl4178
测序和分析由100多人组成的团队进行,即端粒到端粒联盟(T2T),因覆盖所有染色体末端的端粒而得名。该联盟所有22个常染色体和X性染色体的无间隙版本由30.55亿个碱基对(染色体和我们基因的构建单位)以及19969个蛋白编码基因组成。在蛋白编码基因中,T2T团队发现了约2000个新的基因,其中大部分是失能的,但仍有115个可能仍在表达。他们还在人类基因组中发现了约200万个额外的变异,其中622个发生在医学相关基因中。
“未来,当有人对他们的基因组进行测序时,我们将能够识别出他们DNA中的所有变异,并利用这些信息来更好地指导他们的医疗保健,”Adam Phillippy说,T2T的领导者之一,美国国立卫生研究院国家人类基因组研究所(NHGRI)的高级研究者。“真正完成人类基因组序列就像戴上一副新眼镜。现在我们可以清楚地看到一切,我们离理解一切意味着什么又近了一步。”
进化的着丝粒
着丝粒内和着丝粒周围的新DNA序列共约占整个基因组的6.2%,近1.9亿个碱基对,或核苷酸。在剩余的新添加序列中,大多数发现在每条染色体末端的端粒周围和核糖体基因周围的区域。整个基因组仅由四种类型的核苷酸组成,以三种为一组,编码用于构建蛋白质的氨基酸。Altemose的主要研究涉及找到和探索染色体中蛋白质与DNA相互作用的区域。
“没有蛋白质,DNA什么都不是,”Altemose说。“DNA是一套指令,如果周围没有蛋白质来组织它,调节它,当它受损时修复它并复制它,没有人可以阅读它。蛋白质-DNA相互作用确实是所有基因组调控作用发生的地方,能够绘制某些蛋白质与基因组结合的位置对于理解它们的功能真的很重要。”
在T2T联盟对缺失的DNA进行测序后,Altemose和他的团队利用新技术找到了着丝粒内的地方,在那里一个被称为动粒的大蛋白复合体牢固地抓住了染色体,这样细胞核内的其他机器就可以将染色体对拉开。
他说:“当这种情况发生时,你最终会出现染色体错误分离,这会导致各种问题。如果这发生在减数分裂中,这意味着你可以有导致自然流产或先天性疾病的染色体异常。如果它发生在体细胞中,你就会最终患上癌症——基本上是存在大量失调的细胞。”
他们在着丝粒内和着丝粒周围发现的是多层新序列覆盖了多层较老的序列,就好像通过进化新的着丝粒区域被反复铺设以与动粒结合一样。较老的区域具有更多的随机突变和缺失的特征,表明它们不再被细胞使用。动粒结合的较新序列的可变性要小得多,甲基化也要少得多。甲基的加入是一种表观遗传标签,倾向于沉默基因。
着丝粒内和着丝粒周围的所有层都由DNA的重复长度组成,基于一个长约171个碱基对的单位,这大致是包裹在一组蛋白质周围形成核小体的DNA的长度,保持DNA的包装和紧凑。这171个碱基对单位形成了更大的重复结构,串联重复多次,在着丝粒周围建立了一个大区域的重复序列。
T2T团队只关注一个人类基因组,从一个被称为葡萄胎的非癌性肿瘤中获得,葡萄胎本质上是一个人类胚胎,排斥母系DNA,反而复制其父系DNA。这类胚胎死亡并转变为肿瘤。但这种鼹鼠有两个相同的父系DNA拷贝——都是父亲的X染色体,而不是来自母亲和父亲的不同DNA——这一事实使得测序变得更加容易。
包括加州大学伯克利分校项目科学家Sasha Langley在内,Altemose和他的团队也利用新的参考基因组作为支架,比较了来自世界各地的1600个个体的着丝粒DNA,揭示了着丝粒周围重复DNA的序列和拷贝数都存在重大差异。之前的研究表明,当古人类群体从非洲迁出到世界其他地区时,他们只带了一小部分遗传变异样本。Altemose和他的团队证实这种模式延伸到着丝粒中。
Altemose说:“我们发现的是,在非洲大陆以外具有最近血统的个体中,它们的着丝粒,至少在X染色体上,倾向于落入两个大的集群中,而大多数有趣的变异是在具有最近非洲血统的个体中。考虑到我们对基因组其余部分的了解,这并不完全是一个惊喜。但它所提示的是,如果我们想观察这些着丝粒区域中有趣的变异,我们真的需要有一个集中的努力来测序更多的非洲基因组,并做完整的端粒到端粒的序列组装。”
他指出,着丝粒周围的DNA序列也可以用来追踪人类谱系回到我们共同的猿类祖先。
游戏改变者——长读测序
T2T的成功是由于改进了一次测序DNA长片段的技术,这有助于确定DNA高度重复片段的顺序。其中有PacBio的HiFi测序,可以高精度读取2万多个碱基对的长度。而由Oxford Nanopore Technologies Ltd.开发的技术,可以按顺序读取多达几百万个碱基对,尽管保真度较低。为了进行比较,Illumina Inc.的新一代测序,仅限于数百个碱基对。
Altemose说:“这些新的长读段DNA测序技术只是令人难以置信的;它们是这样的游戏规则改变者,不仅对于这个重复的DNA世界,而且因为它们允许你对DNA的单个长分子进行测序。你可以开始以以前不可能的分辨率水平提问,即使是短读测序方法也是如此。”
Altemose计划进一步探索着丝粒区域,利用他和斯坦福的同事们开发的一种改进技术(DiMeLo-seq)精确定位染色体上被蛋白质结合的位点,类似于动粒如何与着丝粒结合。这种技术也使用长读测序技术。
同时,T2T联盟正在与人类泛基因组参考联盟合作,致力于代表全人类的参考基因组。
Altemose说:“我们不应该仅仅从一个人类个体或一个葡萄胎中获得一个参考,而是应该有一个代表每个人的参考。关于如何实现这一点有各种想法。但我们首先需要的是掌握这种变异,我们需要大量高质量的个体基因组序列来完成这一点。”(转化医学网360zhyx.com)
参考资料:
https://medicalxpress.com/news/2022-03-fully-human-genome-reveals-secrets.html
注:本文旨在介绍医学研究进展,不能作为治疗方案参考。如需获得健康指导,请至正规医院就诊。
还没有人评论,赶快抢个沙发