2017第四届NGS创新开发者大会大咖密谈 | 杨虎山教授谈癌症早筛cfDNA大数据建模
导读 | 2017第四届NGS创新开发者大会大咖密谈 | 杨虎山教授谈癌症早筛cfDNA大数据建模 |
杨虎山博士
南开大学生物化学系本科,美国休斯顿Baylor医学院博士,MD Anderson癌症中心博士后,现任费城Thomas Jefferson大学Sidney Kimmel癌症中心医学肿瘤学系副教授,循环肿瘤细胞中心实验室主任。
癌症遗传学,分子流行病学,以及肿瘤标志物研究领域的专家。作为Principal Investigator,其研究受到多项美国联邦政府机构国立卫生研究院,国家癌症研究所,宾夕法尼亚州卫生部,美国癌症协会(ACS),中国自然科学基金海外合作重点项目,以及多个其他非盈利性基金会的资助。肝病学顶级刊物Hepatology的编委会成员。获得多个转化及临床医学方面的奖项,包括Jim Valvano 癌症基金会的V Scholar Award以及美国癌症协会的Research Scholar Award。多个科研基金的评审专家,包括国家癌症研究所,国防部退伍军人事务部,英国医学研究委员会,以及作为海外专家评审中国国家自然科学基金重点项目。当前的研究方向集中于开发基于二代测序分析循环肿瘤DNA和循环肿瘤细胞的液体活检技术,并将其应用于肿瘤的早期筛查,治疗,预后,转移及复发检测等肿瘤个体化医疗的临床服务。
1. 杨教授,您好!感谢您接受此次专访。从贝勒医学院、安德森癌症中心到托马斯杰斐逊大学癌症研究中心,您的研究经历非常丰富,请您向读者介绍下自己和研究领域?
杨虎山:很感谢有这个机会可以和大家进行交流。我毕业于南开大学生物化学系。90年代末来到休斯顿的贝勒医学院读博士。我的博士研究内容是基础生物学,主要是通过分子生物学的手段来探索核糖体RNA的生成机制。读博士的期间,我接触了大量癌症生物学和癌症遗传学的知识,从而产生了致力于做癌症的转化和临床医学方面的研究。博士毕业后我加入MD安德森癌症中心做博士后,通过分子流行病和基因组学的手段来寻找生物标志物,进而发展统计模型来进行癌症的风险预测和早期筛查,以及药物反应,复发检测等预后方面的研究。当时我们研究的重点之一便是microRNA的表达和遗传多态性在各种实体瘤中起到的风险预测的作用。
在贝勒医学院读书的第一年,我结识了我的好友,也是我最重要的研究伙伴之一,李冰山教授。李教授是统计遗传学和生物信息学的专家,现工作于田纳西的范德堡大学遗传中心。我们在各自建立独立实验室之后便开始了极其广泛的在肿瘤的液体活检方面的合作,并在发展过程中得到了美国国立癌症研究所,国家人类基因组研究所,美国癌症协会等机构的基金支持。我们合作的重点方向之一就是通过cfDNA进行乙肝病人中的肝癌的早期筛查和诊断。这个合作是基于我在我工作的Sidney Kimmel癌症中心所建立的大型前瞻性和纵向性人群队列,包括上万例的乙肝,肝硬化,癌前,和早期肝癌诊断时的血液样本。
同时,我们的合作还有相当一部分精力集中于循环肿瘤细胞(CTC)在癌症预后方面的研究。这方面的合作还包括我另外的一个重要合作者,Massimo Cristofanilli教授。Cristofanilli教授于2004年发表在新英格兰医学杂志上的文章直接导致了FDA批准了Janssen Diagnostics的 CellSearch仪器用于CTC的计数用于预测晚期乳腺癌的预后。 Cristofanilli博士在2013年来到Sidney Kimmel癌症中心出任乳腺癌中心的主任。我们合作建立了一个大型的晚期乳腺癌的病人队列来研究液体活检在病人预后方面的作用。
近年来,我和李教授,Cristofanilli教授合作开发了一个从CTC收集到单细胞CTC遗传分析的全面的流程,并且在最近的国立癌症研究所的基金申请中取得了极高的分数。我们期望将来可以将ctDNA和CTC的基因组分析结合到一起而发展更为有效的液体活检的技术。
2. 现在大家提到肿瘤精准医学,言必谈ctDNA和cfDNA,可否请您简单、系统地向临床医生普及下,液体活检,特别是ctDNA和cfDNA目前的技术进展,应用到临床上有着哪些挑战和前景?
杨虎山:cfDNA指的是血液里的循环DNA的总和,而ctDNA专指从肿瘤来源的cfDNA,所以是cfDNA的一部分。基于cfDNA的液体活检的研究在近几年来炙手可热,主要是由于cfDNA可以在某些程度上避免组织活检的一些本质上难以解决的缺陷。比如说,肿瘤的异质性,组织活检的侵入性,以及肿瘤基因组在治疗压力下的快速进化而导致的组织活检的非实时性等等。液体活检在不同程度上可以避免这些限制,但是在技术和计算分析上的要求要远远高于组织活检。这主要是因为cfDNA在血液中的总量很低,而ctDNA在cfDNA中的比例更低,很多时候低于当前测序仪可靠性的下限。这就需要我们发展可靠的实验技术和计算方法来增加测序的准确性。
cfDNA的作用可以大体分为两个方向:中晚期癌症的用药指导和病程检测,以及早期或超早期癌症的筛选诊断。前一个方向做的比较多,主要是由于ctDNA在中晚期病人中的含量较早期病人要高,所以检测的准确度要高。国内有不少公司都推出了各自的产品,而象凯杰,罗氏等公司也推出了商业化的产品,因而这个方向竞争比较激烈。
相比之下,用液体活检做癌症的早期筛选要困难的多,一方面是由于早期癌症中ctDNA含量极低,同时也因为我们整个研究领域对于早期癌症基因组的认识远远不及晚期癌症。最近,在美国和中国都有专注于癌症早筛的初创公司的成立,最有名的就是从Illumina脱离出来的Grail公司,最近融资了9亿美元。他们的目标是通过和美国各大癌症中心合作来进行大规模的临床试验,通过超高通量测序来开发在无症状人群中的泛癌症(pan-cancer)的早筛技术。Grail还未披露具体发展计划,所以我无法进行更具体的评论。但是相对于他们的计划,我更倾向于首先在特定高危人群中发展针对特定癌症的早筛技术。比如在乙肝或者丙肝病人中筛查肝癌,在有家族史或大肠息肉史的病人中筛查肠癌,以及在吸烟人群中筛查肺癌等等。
通过发展这些技术取得的数据和经验,可以帮助我们最终推广到无症状人群中的筛查。在这个过程中,重要的一点是,无论技术多么精深,在用于临床前,一定要经过大规模的人群队列验证,尤其是早期癌症甚至临床诊断前的样本的验证。很多肿瘤在其早期和晚期会有非常不同的基因组特征,所以基于晚期肿瘤开发的手段在早期筛查并不一定有效。总起来讲,虽然液体活检在肿瘤早筛这个方向仍有相当大的技术和验证方面的难点需要克服,但是我坚信在未来的几年内这个方向的发展会有突飞猛进的进步,有着巨大的研究,临床,以及商业上的前景。
3. 去年6月,您和Chun Wang博士一起发表了关于循环miRNA作为乙型肝炎中肝细胞癌预测的生物标记,请您谈谈这一研究的进展和意义,特别的,如果应用临床诊断标记,相对于DNA,miRNA的稳定性较差,小片段较小,这会有什么影响呢?
杨虎山:我的实验室很早就开始了miRNA相关的研究。在我们的研究之前,已经有少数文献报导寻找循环miRNA来作为乙肝人群中肝癌的标志物。但是不少研究包括了不少晚期病人的样本。如我前面所讲,很多在晚期肿瘤中明显的标志物在早期肿瘤中并不明显。更重要的是大多数研究使用的是癌症诊断后获取的血液样本,这样的研究结果会受到流行病学中所谓的反向因果关联(reverse causation)的限制,简单来说就是,我们并不清楚癌症诊断后样本里面标志物的变化到底是癌症的成因还是癌症的后果。
针对这些问题,我们做了一个探索性的前瞻性研究,集中分析了以前文献报道中的miRNA在我们收集的部分前瞻性血液样本里面的表达,然后分析了每个miRNA和肝癌发生的关联。我们发现只有一部分miRNA与肝癌发生有关联,而关联的强度也大多弱于文献里的报导。我们基于这些miRNA建立的统计模型的预测能力虽然比临床常用的甲胎蛋白为高,但并不能达到一个令人满意的地步。这个研究进一步验证了使用早期肿瘤样本甚至是临床诊断前样本对于开发癌症早筛技术的重要性。同时也启示我们如果要发展超高准确度的早诊技术,我们很可能需要使用来自不同方面的数据,例如多维组学,来进行整合分析(integrative analysis)。因为每一个维度的数据可能会带给我们独立的,互补的信号。多维数据的整合分析有可能会对早筛技术产生叠加和协同的效用而增加技术的灵敏性和特异性。我们预测miRNA很可能会为这种整合分析提供重要的信息。miRNA确实没有DNA稳定,但是由于miRNA片段小,其比mRNA要稳定的多。我们的经验是,正确提取和保存的miRNA可以相对稳定保存较长时间,有相当的研究价值。但是,在实验设计上,需要有所注意来控制批次效应(batch effect)和保存时间等混淆因素(confounding factor)对结果产生的影响。
4. 您谈到:“大样本量数据的长期回顾,机器深度学习将改变传统基因数据分析的套路”。深度学习作为机器学习中的前沿算法,应用到基因数据分析时,取得了很多进展,也有不少临床医生对此不了解,可否请您举出1-2个实例介绍下?同时,机器学习所需要已知数据的训练集,您认为如何收集和构建才能提高最后建模的准确率呢?
杨虎山:近年来我和李冰山教授的合作有很大一部分精力集中于基于大数据的机器学习来发展癌症早筛的模型。李教授在这个过程中起着重要的主导作用。近些年机器学习有飞速的发展,特别是深度学习,已经具有在临床上广泛应用的可能。比如深度学习用在海量的皮肤癌的影像数据训练出来的模型可以具有和临床专家一样的诊断及分型的准确度,这是很了不起的。类似的技术很快会用在临床上来辅助诊断,将大大提高医生的效率和准确度。
对于基因组数据的分析,机器学习,特别是深度学习,更多的还处在科研阶段,主要是因为基因组及其复杂,目前我们还没有对基因组的功能有深入的了解。随着基因组学数据不断的产生和积累,深度学习也已经开始显示出它独到的处理海量基因组数据的超强之处。主要的应用之一是来注释我们人类基因组的30亿个碱基对功能的影响,来辅助个人全基因组的解读,包括对疾病的预测,诊断,和干预。一个很好的例子就是Deep Genomics公司通过深度学习来预测遗传变异对RNA剪切的影响以及与相关疾病的关系。现在这些应用更多的是从基因组功能的角度出发,而真正的要达到深度学习在临床上的应用我们需要的是基因组和临床紧密结合的大数据。
在收集和构建这些数据的策略上,我认为我们应该注重以下几点。第一是数据的相关性。如我之前强调,如果做肿瘤早筛,那么早期肿瘤或临床诊断前的数据要有效于中晚期肿瘤的数据。第二是数据的规范性。基因组机器学习的结果得益于大数据的数量,而很多时候基因组的大数据需要从很多不同来源得到。那么如何规范,协调,和整合这些有着不同来源和不同研究目地的数据来控制其中可能产生的干扰因素对于最终的分析结果有直接影响。第三是数据的维度。对于癌症这样一个成因极其复杂的多因素疾病,单一组学的数据不容易达到极高的预测性能。而将多维度的数据整合到一起可能会对发展临床有效的早筛技术起到重要的影响。我们在自己的机器学习技术发展过程中,同时利用了公共数据库和我们自己产生的很多针对早筛研究的特定的cfDNA相关的测序数据。两者的结合使我们既充分利用到了海量的公共研究成果,又得益于我们特有的样本和数据,对我们提高预测模型的准确率起到了重要的作用。当然在这个过程中需要考虑计算的复杂性和技术的成本。在首先保证准确率的前提下,随着测序技术和分析手段的进一步发展,这些局限都会逐渐被克服。
5. 欣闻您在3月31日将来杭州“NGS创新开发者大会”上做一场精彩的学术报告,可否给读者略微透漏下在大会上您演讲内容的概要呢?
杨虎山:演讲的主要内容是我们使用全基因组cfDNA的低频测序来分析临床诊断前和早期肝癌病人的样本而发展的肝癌早筛的统计模型产生的数据。我非常期望在大会上和同行们一起探讨和合作发展癌症早筛的技术,为帮助控制中美两国的癌症发病和死亡率做出我们的贡献。
时间 |
内容 |
嘉宾 |
上午丨 NGS创新开发者大会 |
||
08:00-09:00 |
大会签到 |
|
09:00-09:10 |
主持人开场 |
|
09:10-09:15 |
主办方致辞 |
主办方 |
09:15-09:20 |
领导致辞 |
政府领导 |
09:20-09:45 |
Single Molecule Electronic DNA Sequencing by Synthesis Using Tagged Nucleotides and Nanopore Detection |
鞠景月 教授 Center for Genome Technology and Biomolecular Engineering, Departments of Chemical Engineering and Pharmacology, Columbia University |
09:45-10:10 |
稳定高效的新型纳米孔测序分子MspA |
刘全俊 教授 东南大学 |
10:10-10:35 |
基于高通量测序的系统解决方案 |
刘健 华大智造仪器开发总监 |
10:35-11:00 |
智能加样高通量单分子基因组结构变异检测平台Saphyr |
曹涵 博士 Bionano创始人兼首席科学家 |
11:00-11:25 |
体液样本中高通量稀有单细胞自动分离与单细胞测序应用 |
施奇惠 教授 上海交通大学 |
11:25-11:40 |
启动仪式 |
|
11:40-13:00 |
午餐 |
|
下午丨 NGS创新开发者大会 |
||
13:00-13:15 |
主持人开场 |
|
13:15-13:40 |
Universal Haplotype-Based Noninvasive Prenatal Testing for Single Gene Diseases (单基因疾病无创诊断的通用方法) |
江培勇 教授 香港中文大学 |
13:40-14:05 |
不依赖高通量测序的无创产前NIPT |
刘超 博士 天昊生物医药(苏州)有限公司首席科学家 |
14:05-14:30 |
全基因组cfDNA智能数据分析在癌症早期筛选中的应用 |
杨虎山 博士 费城Thomas Jefferson大学Sidney Kimmel癌症中心 |
14:30-14:55 |
基于DNA甲基化的高灵敏度肿瘤液体活检 |
刘蕊 博士 上海鹍远基因CTO |
14:55-15:10 |
茶歇 |
|
15:10-15:35 |
基于循环肿瘤DNA的肿瘤早期检测 |
刘朝煜 博士 深圳因合生物CEO |
15:35-16:00 |
寻找第二代个人基因组产品成功之路-- Genos的实践和展望 |
徐兴 博士 Genos创始团队成员,生物信息产品总监 |
16:00-16:25 |
医疗健康创新与落地---基因与表型的连接 |
顾卫红 博士 中日医院运动障碍与神经遗传病研究中心负责人、CHPO总协调人 |
16:25-16:50 |
黄金十年——国内外基因企业布局梳理 |
汪亮 基因慧创始人兼CEO |
16:50-17:30 |
圆桌论坛 |
嘉宾敬请期待 |
17:30 |
大会主议程结束,嘉宾合影 |
|
晚上丨 君联-NGS创新开发者之夜(晚宴) |
||
18:00-18:10 |
主持人开场 |
|
18:10-18:20 |
主办方致辞 |
协会代表 |
18:20-18:40 |
晚宴祝酒辞 |
君联资本 |
18:40-19:00 |
主题演讲(专业领域) |
王学刚 贝壳社创始合伙人 |
19:00-19:20 |
主题演讲(医疗机构) |
郑杰 树兰医疗产业基金 |
19:20-19:25 |
暖场表演 |
协会文艺代表 |
19:25-19:40 |
颁发NGS创新开发者大奖 |
|
19:40-19:50 |
主题演讲(投资分析) |
普华资本 |
19:50-20:00 |
主题演讲(行业分析) |
东方证券 |
20:00-20:15 |
主题演讲(行业报告) |
嘉宾敬请期待 |
20:15-20:30 |
自由交流 |
|
【大会交通信息】
交通方式
<杭州东站——梦想小镇>
自行打车:距离26公里,约75元
乘坐大会班车,具体安排详见班车时刻表
日期 |
时间 |
发车点 |
途经点 |
到达点 |
3月30日(周四) |
13:00 |
杭州东站 |
— |
梦想小镇 |
16:00 |
杭州萧山机场 |
杭州东站 |
||
20:00 |
杭州东站 |
— |
||
3月31日(周五) |
18:30 |
梦想小镇 |
— |
杭州东站 |
21:00 |
— |
武林广场 |
<杭州萧山机场——梦想小镇>
机场大巴:至杭州东站,换乘大会班车/其他交通工具
自行打车:距离55公里,约160元
大会免费班车时刻表
日期 |
时间 |
发车点 |
途经点 |
到达点 |
3月30日(周四) |
13:00 |
杭州东站 |
— |
梦想小镇 |
16:00 |
杭州萧山机场 |
杭州东站 |
||
20:00 |
杭州东站 |
— |
||
3月31日(周五) |
18:30 |
梦想小镇 |
— |
杭州东站 |
21:00 |
— |
武林广场 |
*注:所有大巴车最多延长等待时间为10分钟,误点不候。
会场附近酒店
酒店名称 |
星级 |
地址 |
会场距离 |
房价 |
联系电话 |
杭州木莲庄酒店 |
五星级/豪华型 |
浙江省杭州市文一西路998号浙江海外高层次人才创新园2号楼 |
行车约7分钟,距离约3.1公里 |
¥680 起 |
0571-88723688 |
杭州西苑宾馆 |
三星级/舒适型 |
杭州市余杭区文一西路1008号(近龙章路) |
行车约5分钟,距离约2.5公里 |
¥280 起 |
0571-89085555 |
杭州诚恕园宾馆 |
三星级/舒适型 |
杭州余杭区文一西路1378号 |
行车约8分钟,距离约3.1公里 |
¥300 起 |
0571-28861858 |
杭州新海恒大酒店 |
二星级/快捷型 |
杭州余杭区仓兴街113-5号 |
步行约6分钟,距离约358米 |
¥200 起 |
0571-89086333 |
杭州同悦酒店 |
二星级/快捷型 |
杭州余杭区向往街199号 |
行车约5分钟,距离约2.7公里 |
¥300 起 |
0571-26299966 |
【商务合作】
大会秉持开放的态度,目前尚有为数不多的赞助冠名、礼品赞助、广告赞助、黄金展位等合作机会,欢迎联系!
王女士:180-0588-1839;邮箱:wangx@18weeks.cn(转化医学网360zhyx.com)
还没有人评论,赶快抢个沙发