32家基因企业共商行业联盟和规范,建言献策(上)
导读 | 是患者应用基因大数据的分子信息体系,也是行业规范化和标准化的体系,共享是趋势,也是目前存在的挑战)安诺优达遗传咨询总监... |
2018年4月23日,在黄尚志教授的倡仪下,由药明明码承办,WHO遗传病社区卫生控制合作中心、顾大夫工作室、基因慧、测序中国协办的“基因检测联盟成立暨第二届基因检测联盟会议” 筹备会议(详情)成功在京召开,32家基因检测机构及企业代表参会,围绕七个热点议题的规范和标准积极讨论。结合会议速记和行业分析,基因慧与您分享概要内容,欢迎留言参与讨论。更多详情也请参阅顾大夫主持的基因与医疗和健康论坛(https://bbs.genelinks.com)。
图,筹委会与会代表合影
WHO遗传病社区控制合作中心主任黄尚志教授、上海儿童医学中心沈亦平教授、CHPO总协调人顾卫红大夫、药明明码首席技术官孙洪业博士分别开幕致辞,提出行业标准和规范建立的必要性,以及对推动行业标准化建设的期望。
图,(从上到下,从左至右)黄尚志教授、沈亦平教授、顾卫红大夫、孙洪业博士做开幕致辞
与会的企业代表围绕7个主题的标准和规范进行热烈讨论:
-
临床表型
-
数据库
-
实验室质量
-
变异分析
-
知识库
-
教学培训
-
政策及伦理
以下内容基于讨论过程以及基因慧对行业的分析,和诸位分享讨论内容的概要。欢迎留言参与讨论。
图,临床表型记录示意图,来自摄图网
在国内临床实践中,临床工作者在记录表型数据时无规范可循,存在记录不完整、不规范等诸多问题,同时医疗与基因检测机构的对接,表型与基因检测数据的对应亦产生一定困难,对临床基因诊断结果及流程管理有一定负面影响。
如何建立临床表型规范?与会代表从参考HPO和CHPO规范、表型数据收集、大数据录入,第三方检测机构和临床医生之间加强沟通机制和培训等方面做了深入探讨。
参考HPO和CHPO规范
如何产生有效的、可供临床医生遵循的临床表型规范呢?华大基因首席产品官彭智宇认为可以参考HPO(Human Phenotype Ontology)和CHPO(中文人类表型标准用语联盟)数据库推广表型规范术语集;彭智宇强调,规范的第一步是医生做到完整地记录表型。云康集团达安临床检验中心有限公司分子诊断平台负责人段志峰也表示对HPO的专业度的认可,同时提出与OMIM等遗传数据库关联。
顾大夫以自己多年从事临床一线基因诊断和遗传科研的经历,提出临床表型既是选择基因检测方式的依据,也是基因检测结果分析和解读的重要基础。CHPO在获得HPO授权之后,在中国基于一个开放的平台,联合各相关领域专业人士,建立了中文临床表型术语标准,目的是指导并服务于使用中文的临床和科研工作者,因此建议临床医生非常进一步了解并掌握CHPO,从而帮助提高临床基因诊断的效率。
家系相关表型收集
关于表型的收集,除了个体表型描述术语的规范,段志峰补充道,特别在遗传领域,家系图谱信息是临床患者表型收集必要组成部分。因此,段志峰建议在开展临床基因检测时,除了个体的基因信息,一定要确保对家系准确表型的收集。
中国人的临床表型及描述
在谈到CHPO的使用时,华大基因首席产品官彭智宇提出根据中国的实际情况进行完善,比如添加同义词等;哈佛大学医学院沈亦平教授认为,我们所认知到的中国人临床表型远远不够,亟待后续的丰富和补充。这里需要让临床医生意识到临床表型规范真正的重要意义。
临床医生、遗传学家和第三方检测机构的紧密协作
如何让临床医生认识到表型规范的意义?贝瑞基因医学事业部总经理周可认为可以借助联盟,对基层医生进行广泛、细致、专业的培训,在一线推广临床表型规范和术语在临床实践端的正确理解和使用,同时实现数据不断积累,才能适用于中国临床应用。
对于这点,中科院计算所中科晶云CEO赵屹补充道,建立联盟,对医生,尤其是儿科的医生的培训,充分调动一线医生应用表型属于等规范的积极性是重中之重。
除了培训(培训的部分在“教学培训规范讨论”章节会做新一步延伸),临床医生、遗传学家和第三方检测机构的沟通协作需要提高。顾大夫表示,临床医生囿于多种因素,不能立马实现理想化的改观,可以从发展较快的第三方检测机构端发力,推动临床方的协同和应用。
达安基因分子诊断平台负责人段志峰也认为,院外的第三方基因检测机构作为基因检测的主体环节,应该承担协调和推进的工作,协助院内的临床医生进行行业标准化的应用。建议每一份基因检测报告由临床表型收集的人员,如遗传咨询师,进行完整流程的把控,协调院内医生的沟通以及数据分析各环节。
基云惠康CEO郝向稳补充,在做表型采集时,一定要保持与老师或医生紧密的沟通,建议基因检测公司都能熟悉CHPO这样规范化的术语,将规范化术语传播开来。
奥维森基因CEO张旭建议在送检单上将相关疾病的典型表型罗列,让医生方便勾选。未列举的表型再由医生填写,尽量规范化表型描述。医生提供的表型越详细,可能检出率就会越高,也希望通过联盟让医生群体达成共识。
应用大数据技术对表型信息的采集
表型信息的采集,除了人工录入,聚道科技CEO李厦戎提到,采用IT信息化和大数据技术也可以提高录入和管理效率。中科院计算所中科晶云CEO赵屹建议通过人工智能或者数据挖掘等新兴技术,可以快速找到核心的表型术语,实现更便捷的录入。
综上所述,临床表型的规范化是选择基因检测方式的依据,也是基因检测结果分析和解读的重要基础。参考HPO、CHPO等临床表型术语数据库同时,需要完善中国人的表型,并对已有数据库进行进一步考证和补充。临床表型的规范录入是目前工作的重难点,一方面需培训临床医生,另一方面可借助大数据等技术帮助录入表型和数据挖掘。
图,数据库示意图,来自摄图网
如何将获得的临床表型与基因型数据进行规范化存储和共享,更便捷的运用于临床实践和科研?如何解决国内尚缺乏广泛应用的基因数据库?各位与会代表纷纷提出了建议和想法。
建立多样性的基因数据库
(编者:基因数据库不仅是基因数据的结合,包括结构化的数据管理、不同数据类型的质控,比对注释表型等不同应用层面数据库的构建等)北京希望组CEO汪德鹏提出建立临床意义未明突变(Variant of Undetermined Significance,VUS)数据库,其中不仅包括SNP、InDel等短序列突变,也包括CNV、SV等大片段结构变异,这将为未来很多(诊断未明的)遗传病和肿瘤的注释和诊断打好坚实的基础。
除了VUS数据库,迈基诺CEO伍建认为要建立三类数据库:1)未经过滤的基因数据;2)经过生物信息科学家、遗传学家、临床医生审核后的数据;3)临床基因数据库。这将对致病位点和未明位点的分析产生重要作用。
对于大家常用的HGMD(人类基因突变数据库,The Human Gene Mutation Database),奕真生物VP Medical彭嵋认为其阳性率很低(大约10%—20%),不够可靠,做好遗传病分子诊断必须要建立更加翔实、准确的本土数据库。
北京聚道科技CEO李厦戎也认同HGMD很多公开的数据存在大量问题,同时可以部分数据进行机器学习,帮助提升选点的可靠性。
建立数据库的关键因素
全面且准确的数据库是基因检测和应用诊疗的基石。奕真生物VP Medical彭嵋认为建立疾病及基因变异数据库,特别在应用疾病筛查时,首先要对疾病、基因和变异做评估和分类,比如需要明确患病严重程度、变异的致病性和人群分布,这样才能够产生筛查的统一标准。同时,建立完备的中国人群遗传病数据库才是中国人群筛查的基础。
对于数据库的内容,基于多年建立人群数据库的经验角度,北京卫吉尔生物科技董事长刘长胜,提出数据库一定要从FASTQ文件(测序所得原始基因序列)起建立,不能从VCF文件建立;数据库要将同类(比如同科室)病人分在一起;收集民族与地域的信息;制定严格的样本和基因变异入库的条件;数据库必须报告重复序列区域和可靠性区域等;应建立华人的较验突变库,可参照Clingen 和 Clinvar。
如何从准确性上提高数据库规范?奥维森基因CEO张旭从四个方面提出建立数据库的关键因素,包括收录样本的信息规范化,即,尽可能全地记录患者的临床表型以及家族史等;数据库样本测序数据质控标准规范化,即,应明确要求收录样本测序数据质量标准,最好能够上传原始数据,兼具可追溯性;数据库注释突变所用转录本信息的规范化,即,由于基因大多具有多个转录本,不同转录本注释得到的变异可能差异较大,所以数据库注释突变所用转录本应明确,建议使用常用转录本进行统一注释;数据共享,即,大型测序公司已经拥有样本量可观的本地数据库,通过合理机制共享,对于整个行业的发展都具有重要意义。
易得好康CEO陈杰表示除了数据本身的标准之外,还需关注到数据管理和使用的技术标准,以及应用层面上的共享机制。
(编者:数据库不是孤立的,是患者应用基因大数据的分子信息体系,也是行业规范化和标准化的体系,共享是趋势,也是目前存在的挑战)安诺优达遗传咨询总监王娟对于这点补充道,各个检测机构建立自身数据库的标准不一致,采用不同的工具和参数去构建数据库,因此建议首先制定统一的规范和标准,然后建设通用数据库。
综上所述,临床基因和表型数据库是临床基因诊断的重要基石,帮助临床医生分析致病位点和机理。数据库的建设需要各家基因检测机构和医疗机构遵守一定规则,包括信息收录流程、质控和协作等方面,才能建立起全面的、高质量、规范的数据库。再者,数据库是体系,通过共享形成大数据体系产生更大的价值和战略意义,一方面需要扩充个人延伸至家系的表型、基因型以及更多的医疗健康信息化数据,另一方面联合各单位,尤其是第三方基因检测机构共享数据,是行业趋势所在,也是需要建立机制推动各方共享共建。
图,实验室操作示意图,来自摄图网
在对临床表型有了准确的记录、建立起基本的参考数据库后,接下来我们来谈谈从样本到数据的过程,也就是基因测序的实验室阶段和生物信息数据分析阶段的标准和规范。
谈到基因测序,很多人想到的二代测序。我们知道基因分析不止是测序,测序也不止二代测序(准确翻译应该是下一代高通量测序)。对于这点良培基因总监谭灏文谈到,基因检测从方法学上主流有qPCR等基于marker(生物标记)的检测、一代测序、飞行质谱、基因芯片、二代测序、三代测序等。NGS是这些技术中应用范围最多、通量最大的技术,相对而言其质量规范会复杂很多。包括1)测序平台的选择;采用扩增子还是液相捕获。2)覆盖的定义:全基因组覆盖、基因编码区全覆盖还是只覆盖热点区域;转录本的版本控制。3)测序深度是平均深度、中位数深度还是20X覆盖度等。4)质控品、不同测序深度的分析灵敏度、定量线性范围等额外的技术性能参数等。
基因测序过程的核心看实验室的质量管理体系,美国有CLIA(Clinical Laboratory Improvement Amendments)和CAP(美国病理家协会)认证体系,国家相关部委也出台一系列对于基因检测实验室规范和质量控制的监管政策,但仍缺乏一定的认证和持续性评估体系。如何从下往上,积累经验并推动中国基因检测实验室标准,对此诺禾致源遗传事业部总经理王大伟表示基因检测实验室的质量管理体系包实验室的资质、生产流程流程、人员认证等。一方面需要建立信息化管理系统,实现样本、原始数据和过程的溯源;另一方面需要建立一套自动化管理系统,避免人为误差导致的结果参差不齐。此外对实验室人员进行集中培训的认证。
业内一直比较信奉的美国CLIA和CAP实验室认证体系是完美的吗?正则精准医学检验生物信息总监、美国费城儿童医院生物信息主任田立峰教授表示,在美国同样缺少行业标准,CAP在某些方面也没有具体规定,比如VCF数据等。很多细节由各个实验室具体落实,比如测序机构和医院对接过程中的数据交换的接口、软件的API等,每个合作单位都不一样,这都需要重复的建设。国内的测序样本集中在几个主要的测序中心,这些测序巨头之间达成一个可以实施的质量标准,是我们共同的努力方向。
具体如何建立可以实施的实验室质量标准?优乐复生CTO张翼提出一些具体的点供参考,比如追踪记录实验室的“人、机、料、法、环”,建立中国特异的标准品,区分分清技术中间标准(冗余度、覆盖度、均一性等)和终端用户标准(异性、敏感度、准确率、PPV等),积累可以直接转换为遗传咨询的案例,同时关注不能直接被普通质控标准覆盖的点(假基因、测序质量、污染、建库起始转换率等)。
除了实验室测序过程的规范,针对偏上游的测序技术,艾吉泰康COO屈武斌作出几点说明:选择不同测序平台和测序读长带来的差异性;选择液相探针杂交技术或者多重 PCR 扩增技术以及不同捕获技术,会有不同的生物信息分析规则等。同时提出现有的测序以及捕获技术有一定局限,不是每个区域都容易被捕获到并测序,比如高 GC 及低 GC 区,低复杂度区,高度相似序列,STR区等。
实验后应用前的验证和质控公开,是上海真固生物运营总监康爽明在会上提倡的,康爽明认为LDT(临床实验室自制项目)在推向临床服务之前没有进行大样本的验证研究,质量方面存在风险和隐患,因此需要加强充分的验证;同时建议各家实验方法和数据的质控信息公开,便于行业监督和标准建立。
对于通过CLIA和CAP双重验证的药明明码实验室,负责人孙乐乐表示一个运营良好的基因检测实验室,其整体质量管理体系应包含10个方面。可参考CLIA/CAP/ISO15189质量管理标准和规范,包括:1)文件管理;2)人员培训和考核;3)安全培训;4)仪器管理;5)试剂管理;6)样本管理;7)方法学验证;8)对照样本;9)内外部审计;10)持续改进计划(CAPA)等。其中重点是方法学验证(验证要素包括样本类型和测序平台的选用,准确度,精确度,重复性,测量下限,定量或定性方法,样本起始量接受范围等)、技术人员的严格培训,样本接收和录入的双人核查机制等。同时由于NGS方法学和操作上的复杂性,建议采取一些流程管控和特殊方法学,可以有效的降低和检查实验过程中的出错率。
综上所述,生物信息及实验室质量规范建立一方面可以借鉴CLIA/CAP/ISO15189 的质量管理标准和规范,从样本录入、上机测序、生物信息分析等过程技术标准和终端质量标准进行充分的规范;另一方面,我们仍需认识到基因检测技术的复杂性,单单就不同样本复杂度、测序平台、测序方法、捕获技术类型等,即可衍生不同的规则。需各基因检测方积累并分享经验、展示并统一化标准,仍需落实到这点,方能推动行业前行。
还没有人评论,赶快抢个沙发