【快讯】新冠病毒变异及演化动态监测状态报告2020-2-21
导读 | 2020年2月17日,志诺维思正式发布“战新冠 - 病毒基因变异动态监测”平台,通过实时监测新型冠状病毒(SARS-CoV-2)的变异和分析其演化动态,帮助洞察每日毒情 |
2020年2月17日,志诺维思联合中国医师协会(CMDA)、国家基因组科学数据中心(NGDC)、国家基因库(CNGB)和国家科学评论杂志(NSR)等多家权威机构发起数据快速共享倡议,见NSR社论《学术道义与社会职责——呼吁即时公布和共享2019-nCoV测序数据》[1](见“基因智慧” 公众号)。在此倡议下,志诺维思正式发布“战新冠 - 病毒基因变异动态监测”平台,通过实时监测新型冠状病毒(SARS-CoV-2)的变异和分析其演化动态,帮助洞察每日毒情(见:https://fight-sars2.genowis.com/)。2月18日Nature Microbiology发表文章《We Shouldn't Worry When a Virus Mutates During Disease Outbreaks》[2]中明确指出突变是病毒生命周期的自然组成部分,很少会对疫情造成严重影响,相反,可以帮助我们进一步了解新出现的疫情(见“基因智慧”公众号上此文译稿《疫情爆发期,如何正确看待病毒变异?》)。事实上,“战新冠”平台监测病毒变异正是为了帮助疫情做精准防控,避免民众恐慌。2月21日,“战新冠”对从全球收集到的所有115条新冠全基因组序列中基因的变异及演化动态进行分析形成了《新冠病毒变异及演化动态监测状态报告2020-2-21》[3](简称“新冠报告”)。截至2月21日,新冠报告显示“战新冠”平台一共收集到来自世界各地从2019年12月16日至2020年2月10日之间收集到的115新冠病毒的全基因组序列(图一),从2019年12月16日至2020年2月10日内收集到的毒株序列相较原毒株(Wuhan-Hu-1/2019)的氨基酸改变的基因变异数目在4个以内(图二)。引起氨基酸的基因变异的种类随着时间逐步增加,但近期已经趋于平缓(图三),目前已经有62种(图四)。从突变率来看,病毒的氨基酸改变的基因变异率大概维持在0.0018%左右,从12月31日起未见有提升的趋势(图五)。目前病毒的第二代变异株群已经达到8个(图六)。在这8个第二代变异毒株群体中,需要引起疫情防控相关部门的注意的是 ORF8:L84S这一变异株群,该占所有病毒序列的比例最大(25.2%),且传播范围最广(图七)。但我们也看到,目前的数据量非常有限,并且全球范围内病毒基因组数据提交的趋势相较疫情开始时有所放缓,可能受到研究者扣留数据发表文章的影响。在目前这个紧急的时刻,我们倡导并呼吁所有的研究人员应该尽快响应国家科学评论杂志社论的数据共享倡议:《学术道德与社会责任——呼吁即时公布和共享2019-ncov测序数据》。
图一(a) 全球病毒序列收集趋势图;(b)全球(左)和中国(右)新冠病毒基因组测序样品收集地分布。
②病毒序列之间亲缘关系近,两个月以来的毒株序列相对于原毒株变异不大
通过对所有病毒序列进行进化分析发现,从12月24日至2月20日之间从全球各地收集到的115个毒株之间具有较高的相似性,与原毒株差异最大的毒株含有8个变异(包含氨基酸改变的变异和同义变异),两两序列间的相似度均大于99.97%,这说明病毒在这56天里发生的变异并不大,见图二(a)。如果只计算氨基酸改变的基因变异,截至2月15日,初代毒株(即没有产生任何氨基酸变异的序列),共37条(32.1%);二代变异毒株(即含有1个氨基酸变异的序列)共39条(33.9%);三代变异毒株(即含有2个氨基酸变异的序列)共23条(20.0%);四代毒株(即含有3个氨基酸变异的序列)共14条(12.2%);五代毒株(即含有4个氨基酸变异的序列)共2条(仅1.7%);目前还没有发现更高代次的毒株,见图二(b)。
图二(a) 不同地域来源的病毒序列亲缘分析图;(b) 含不同基因变异个数的毒株数。注:图二(a)左显示了115个样品进行进化分析后的放射状进化树,图右表示这些样品收集地分布,不同的颜色表示不同的地区(在中国为省)或国家。
③病毒出现基因变异的种类数随时间缓慢增加,近期进一步放缓。
目前在115条毒株序列中,有62个位点发生了氨基酸改变的基因变异,如图三所示的基因变异(氨基酸改变)增加趋势上看。从2月9日(序列采集时间)的相比,目前氨基酸变异总数没有增加,可能受到研究者扣留数据发表文章的影响。
图三 基因变异增加趋势图。注:该趋势图展示了本站收集到的所有病毒基因组序列中出现的影响氨基酸改变的基因变异总数随时间增加的趋势。
④病毒基因变异(氨基酸改变)的位点和频数统计及分布
导致氨基酸改变的基因变异共62个位点,在病毒序列上的位置分布如图四(a)。对于不同氨基酸变异对应的序列条数进行分布统计,发现仅有一条序列对应该氨基酸变异的变异一共有46种,占总变异数的74.2%。而对应序列数最大的变异的毒株数达到29条, 占总病毒序列数的25.2%,如图四(b)所示。目前尚无证据表明这些突变会改变病毒的行为,但RNA病毒基因本身的突变是正常的。
在所有的毒株基因组序列当中,没有发生氨基酸改变的基因变异的病毒株一共有37条,占比32.1%。除此之外,含有ORF8:L84S变异的毒株数最多,共有29条,占比25.2%;其次是ORF3a:G251V,共12条,占比10.4%;其余的变异频数依次减少, 74.2%(46/62)的变异的对应的序列条数为1,如图四(c)所示。如果能排除掉聚集性传染事件的影响,我们可以认为带有ORF8:L84S的毒株的传染性目前可能是第二代变异株群中最强的。如图四(d)所示,含有该变异的毒株在空间上分布到全球多个国家或地区。
图四(a) 62个基因变异(氨基酸改变)位点的病毒上的位置分布;(b) 基因变异频数统计分布;(c) 不同基因变异的频数统计;(d) 该图展示了含有ORF8:L84S变异的毒株收集时间和空间上的分布。注:(c)中不同基因变异的频数:该柱状图的横坐标0的位置表示在所有毒株中相较于参考毒株未发生基因变异的毒株频数,从位置1开始按照含有此变异的毒株数从大到小的顺序,依次展示了发生每一种氨基酸改变基因变异的毒株数(频数)。(d)左图中绿色的射线代表不含有ORF8:L84S这一变异,黄色的射线表示含有ORF8:L84S变异的毒株,右图则是表示这两类毒株的地理分布和占比。
在目前收集到的所有序列中,平台对于氨基酸变异的突变率进行了统计和分析。氨基酸变异的突变率为0.0018%,而非氨基酸变异的突变率为0.0009%,从数据中可以看出,在近期内氨基酸变异的突变率处于较为平稳的状态,如图五(a)所示。从氨基酸变异和非氨基酸变异比值的图中,我们也可以看出,目前的比值为2.0,这一比值从1月28日有小幅度升高以来,至2月11日比值并没有明显提高。这说明氨基酸改变的基因变异的发生速率并没有提高,如图五(b)。
图五(a) 基因变异率分析:该曲线图展示了氨基酸改变的基因变异率和非氨基酸改变的基因变异率分别随着时间变化的趋势。红色曲线是表示氨基酸改变的基因变异变异率,黄色曲线表示非氨基酸改变的基因变异率;(b)氨基酸变异数与同义变异数比值(ASR):该曲线图展示了氨基酸改变和非氨基酸改变的基因变异数目比值(ASR = Amino Acid Change# to Synonymous Ratio#)随时间变化的趋势。
截至2月15日,在上述的39条二代变异毒株(见图六(a))中,根据氨基酸改变基因变异的不同可以分成8个群体(群体大小为n),我们称其为第二代变异株群数目(即产生了一种氨基酸变异并且序列数大于1的毒株群),较2月8日只增加一个株群(可能受数据提交速度放缓的影响),见图六(b)。这八个株群在在进化树上的分布见图六(c),其株群大小分布如图六(d)所示,按照株群大小从大到小排列,这8个第二代变异株群对应的基因变异分别为:ORF8:L84S(n=29),ORF3a:G251V(n=12),ORF1a:L3606F(n=8)等。
图六(a)第二代变异株群数目:该曲线图展示了含有相同基因变异(氨基酸改变)的第二代株群(群体大小 n>=2))数目随着时间变化的趋势;(b)8个株群的群体大小分布图;(c)进化树中的8个变异株群在进化树上的分布。
截至2月15日,群体最大的变异株群为ORF8:L84S,其群体所占的比例为25.2%;而在疫情最初群体最大的为ORF7a:P34S,其群体比例目前只有1.7%。从1月13日至2月5日,ORF8:L84S的株群扩大趋势明显,从6.3%震荡式增加到26.1%;从2月6日开始到至2月20日,该群体基本保持平缓,略微有些下降,如图七(a)。
如图七(b)所示,ORF8:L84S株群大部分的收集时间绝大部分都在1月14日-2月6日(除Wuhan/WH04/2020样品是在1月6日收集以外)。其中广东地区的样品4例,收集时间是在1月14日-1月16日之间,且4例之间没有任何差异,且共享一个C29095变异(如图七(c)所示),其中编号为20SF025,20SF013和20SF012的三个序列,据文献记录来自于一个家庭[4]。通过这个案例,几乎可以肯定此次疫情中,确实存在人与人之间的传播。
美国样本6例的收集时间主要是在1月20日至1月29日之间,从图七(b)右来看,美国的病例共可按照进化树分成三支:(1)在1月20日-1月26日之间收集到的三个样品USA/WA1-F6/2020、USA-WA1/2020 和USA/WA1-A12/2020之间没有任何基因序列上的差异,且共有一个C18060T的同义突变,该变异在1月22日福建收集的样品同样具有;(2)1月23日收集到的USA/AZ1/2020单独为一支,具有一个独特的氨基酸改变ORF1a:L3606F,仅比广东一支多出该变异;(3)1月24日和1月29日收集的两个样品USA/CA1/2020 和USA/IL2/2020,共有一个ORF8:V62L的氨基酸改变,但两个样品之间还存在特异的变异。USA/CA1/2020的特异地具有一个氨基酸改变(ORF1a:S428N)和一个同义突变(N:A173A);USA/ IL2/2020的两个特异变异均引起ORF1a蛋白上的氨基酸改变:D75E和P971L。同样与这两个样品一样具有ORF8:V62L氨基酸改变的还有一例四川收集的病例——Sichuan/IVDC-SC-001/2020(1月16日收)和越南收集到的病例——Vietnam/VR03-38142/202(1月25日收),四川病例所染具有ORF1b:F1908Y特异的氨基酸改变,越南病例所染则含有和USA/ IL2/2020相同的三个同义突变(S:N824N,M:A69A,ORF1a:S2839S)。
日本从1月30日-2月1日间收集的三例样品同为一支,比广东支多出一个突变——C2662T。Japan/TY-WK-521/2020和Japan/TY-WK-012/2020相较于Japan/TY-WK-501/2020均各自又含有特异变异,Japan/TY-WK-521/2020具有一个同义突变G29705T, 而Japan/TY-WK-012/2020具有一个氨基酸改变ORF1a: A1176V。澳洲从1月25日-2月5日收集到的样品5例共分为两支:最早的1月25日收集到的样品Australia/NSW01/2020单独为一支,病毒没有获得新的变异。另外从1月29日-2月6日收集到的4例样品:Australia/QLD01/2020、Australia/QLD04/2020、Australia/QLD03/2020和Australia/QLD02/2020同为一支,它们相较于早一些的那一例Australia/NSW01/2020,获得了一个新的变异——N蛋白上的氨基酸改变:S202N。另外,Australia/QLD01/2020与Australia/QLD04/2020之间不存在变异,而Australia/QLD03/2020具有ORF1b:H1712H的特异同义突变和Australia/QLD02/2020具有特异的基因变异,一个为同义变异(ORF3a:L65L),一个为氨基酸改变(S:P1143L)。而与澳洲1月25日 Australia/NSW01/2020所染病毒完全相同的两个病例,一个是1月6日的武汉病例Wuhan/WH04/2020和2月1日收集的台湾病例Taiwan/NTU01/2020,推测澳洲和台湾的这两例病人可能是由Wuhan/WH04/2020直接或间接传染的。英格兰1月30日收集到的两个病例England/02/2020 和England/01/2020所染同属一支,他们共享一个氨基酸改变的变异ORF1b: I1674T和两个同义突变(S:P681P,ORF1a:S2839S)。England/02/2020 比England/01/2020多一个特异氨基酸改变。
此外,1月18日在云南收集到的病例(Yunnan/IVDC-YN-003/2020)和1月26日在韩国收集到的病例(Korea/KCDC03/2020),相较于较早的武汉病例(Wuhan/WH04/2020)分别都具有特异的变异。云南病例所染具有特异的氨基酸改变——ORF1a:L3606F;韩国病例具有特异的一个氨基酸改变(ORF1a:L1599F)和两个同义突变(ORF1a:L1379L,ORF1a:S2839S)。
总之,通过上面的分析,我们可以画出ORF8:L84S这一支的传染路径如图七(d)。从图中可以看出:ORF8:L84S这一支在传播过程中似乎病毒变得更加容易发生变异,新产生了12种氨基酸变异,占所有氨基酸变异的19.3%。1月6日至2月5日短短30天的时间,已经传染了29 人,分布于9个不同的国家和中国湖北之外的5个省,其多样性比其他的变异株群要高很多,虽然这一支近期没有发生快速的增长,但是株群的氨基酸改变的变异速率提升导致的株群多样性增高,以及传染的国别的广泛性,使得我们有必要对此变异群体进行密切的检测,以便于在防疫上做得更更有针对性。
(a)
(b)
(c)
(d)
图七(a) 历史最大变异群体的占比:该曲线图展示了所有株群中,群体最大的毒株群占所有毒株的比例随时间变化的趋势。最大群体的占比从其成为最大群体的当天开始统计,历史最大群体的占比统计将持续被统计;(b) ORF8:L84S变异在进化树上的分支部分,按照时间展示;(c)ORF8:L84S变异在进化树上的分支部分,按照变异程度展示;(d) ORF8:L84S株群传染路径示意图。
[1] Wu CI, Poo MM. Natl Sci Rev 2020; Very fast evolution, not-so-fastpublication – A proposed solution. https://doi.org/10.1093/nsr/nwaa010
[2] Grubaugh, N.D., Petrone, M.E. & Holmes, E.C. We shouldn’t worry when a virus mutates during disease outbreaks. Nat Microbiol (2020). https://doi.org/10.1038/s41564-020-0690-4
[3] 战新冠@志诺维思. 新冠病毒变异及演化动态监测状态报告2020-2-21. https:// fight-sars2.genowis.com/Sars-Cov-2_2020-2-21.pdf
[4] Chan JF, Yuan S, Kok KH, et al. A familial cluster of pneumonia associated with the 2019 novel coronavirus indicating person-to-person transmission: a study of a family cluster. Lancet. 2020;395(10223):514–523. https://doi:10.1016/S0140-6736(20)30154-9
还没有人评论,赶快抢个沙发