贝叶斯统计与转化医学—从个人健康到公共卫生
导读 | 贝叶斯统计与转化医学—从个人健康到公共卫生
Bayesian Statistics for Translational Medicine – From Personal to Public Health
总结过去几十年的经验,美国国家卫生研究院(NIH)于2003年提出了转化医学(translational medicine)的概念,并将其作为一个全新的医学研究范式,试图在基础研究与临床医... |
贝叶斯统计与转化医学—从个人健康到公共卫生
Bayesian Statistics for Translational Medicine – From Personal to Public Health
总结过去几十年的经验,美国国家卫生研究院(NIH)于2003年提出了转化医学(translational medicine)的概念,并将其作为一个全新的医学研究范式,试图在基础研究与临床医疗之间建立更直接的联系,缩短从实验室到病床的距离[1]。它建立在基因组学、微芯片等生物科技及其他信息技术的基础上,为现代医学提供了一个全新的指导,近年来日益受到各国医学界的广泛关注。随着生物和医学数据的爆炸式增长和数据结构的日益复杂性,人们逐渐认识到生物统计在医学和公共卫生研究中的重要性。作为统计学习和知识挖掘的一个完备的理论体系,贝叶斯统计(Bayesian statistics)方法越来越受到各行业科研工作者的重视[2]。本研究中笔者首先介绍贝叶斯统计的核心思想并阐述其在转化医学方法论构架中的核心地位,进而具体说明该统计方法在个人健康[3]和公共卫生[4]研究中的几个典型应用。
贝叶斯统计是一门统计学习方法和推理过程,它利用当前的观察数据(证据)对先验分布(过去经验)进行更新,从而获得后验分布(新知识);更新的知识又作为先验信息来启动下一轮的学习。因而,贝叶斯推理是一个动态的、反复循环过程,它形象地将知识与数据结合在一起,描述了主体认识客观世界的过程。它起源于英国牧师贝叶斯于1763年提出的一种归纳推理法则,即P(A|B)=P(A)P(B|A)/P(B)[5]。与主流基于频数的统计学派不同的是,贝叶斯学派认为任何参数都是随机变量。以掷硬币为例,频数统计师认为一个给定硬币正面朝上的概率p是个固定的参数,描述了该硬币的一个内在的属性。对该给定的硬币而言,p的值(例如0.5)固定不变,但可以用n次实验中正面朝上的频率来估计,当n趋向无穷大,其估计误差趋向于0。贝叶斯却认为p不是固定不变的,硬币的这个属性是相对的,它随着环境和时空连续变化,因而可以用一个以0.5为中心的概率分布来描述。换句话说,贝叶斯认为真理是相对的,所有的解释都应该是条件性的,对于同样的实验结果,不同的人可能因有不同的经验而得出不同的解释。这就像夏日清晨起来看到洛杉矶的上空阴云密布,不同的人会对“下午降雨”这个事件有不同的预测,比起当地人来,游客更可能相信降雨事件,因为他们不知道洛杉矶的夏天几乎不下雨。虽然贝叶斯学派大约形成于20世纪50年代,但由于获取后验分布通常需要大的计算量,因而限制了其应用。直到近年来随着蒙特卡罗模拟算法[6]的出现和计算机速度的提高,贝叶斯统计方法又获得了新生。
基于以下几方面的考量,笔者认为贝叶斯统计方法在转化医学时代会更加流行。首先,从先验到后验,以及后验再次作为下次观察的先验,如此循环往复的贝叶斯学习过程,恰当地反映了转化医学中基础研究和临床应用之间的衍生关系[7]。其次,随着个人基因组时代的到来,个性化医疗逐渐变为现实,使得传统基于大数定律的频数统计方法难以为继,因为在分子生物学层面上,同种疾病在不同个体身上均具有差异性,即没有两个人在分子生物层面上患有完全一致的病症[8]。再次,贝叶斯统计尤其适用于建立多水平混合效应模型,借助多层次的先验分布和马尔科夫条件独立性,可以模拟任何复杂的高维数据,并利用马尔科夫链-蒙特卡罗算法对高维后验分布进行高效的模拟逼近[9]。最后,通过引入损益函数[10],贝叶斯提供了一个完备的决策框架,能够用于实验设计、临床决策和质量评估等各个方面,满足转化医学在各个研究阶段的需要。以下为笔者在分子、个体和社区层面具体介绍贝叶斯方法在转化医学和转化公共卫生学中的几个典型应用。
一、生物标记物的筛选
转化医学的一个标志性特色是个性化医疗,即根据生物标记物来对人群分类,进而具有针对性地采取适合各类子群体的疾病治疗或健康管理方案,同时生物标记物可帮助医师预测疾病、疗效和转归,并提高诊断的准确率[3]。随着二代DNA测序和纳米等工程技术的成熟,人们可以在基因组、转录组、蛋白组和代谢组层面获取数据来寻求标记物。这项工作的最大挑战是高维灾难问题,以基因为例,一个昂飞基因芯片可以产生5百万以上的特征值,经过处理可以获得2万多个基因的表达。全基因组关联分析更是涉及几百万个单核苷酸多态性位点的基因型数据,标记物选择更像是大海捞针。传统的基于χ2检验或线性回归分析对每一个基因或位点割裂开来分析的方法完全忽略了基因和位点之间的关联作用,不仅易于导致错误发现,筛选结果也缺乏生物学意义。贝叶斯标记物选择策略可利用多水平模型来描述多个基因或位点的联合分布,同时引入基因调控网络信息或其他已发表的结果来构建参数的先验分布,对单核苷酸多态性、基因或通路进行选择[11]。该策略得到的结果更加可靠,同时避免了直接面对多重检验的困难。如图1所示,笔者所在的课题组正在开发基于贝叶斯变量选择的方法,利用京都基因和基因组百科全书(KEGG)通路构建先验分布,在全基因组关联分析数据中选择单核苷酸多态性位点时结合它们之间的连锁不平衡信息(图1A),在基因表达数据中选择基因时同时考虑同一通路的基因间的调控关系(图1B)。为减少计算复杂度,可以预先利用常规的方法筛选候选基因或位点。贝叶斯变量选择(BVS) 还可以进一步扩展用网络或图模型来研究疾病的发生、发展和转归。
图1 基于多层次模型的贝叶斯变量选择用于单核苷酸多态性(SNP)位点和基因选择。
注释:(A) 基于多层次模型的贝叶斯变量选择用于单核苷酸多态性(SNP)位点选择:其中 (或0)表示第 个SNP位点被选择(或排除)来预测结局变量( ), ; (或0)表示第 个基因被选择(或排除)来预测结局变量( ), 。(B)基于多层次模型的贝叶斯变量选择用于基因选择:通路(Pathway)是一组基因的集合,每个基因由一个实点表示,大一点的实点表示选中的对结果变量有贡献的基因。
二、药物和器械研发
如何缩短研发过程、减少成本,是转化医学研究的一个主要课题。利用贝叶斯统计,可以方便地实施适应性试验设计[12],在研究过程中及时总结数据、不断修正设计方案 及预测未来结果,通过提前终结项目和资源再配置等方式减少样本量和提高效率。在动物实验中,贝叶斯方法可以利用小样本数据挖掘信息并进一步对人体试验结果进行预测[13]。在人体临床试验中,可以通过无效区间 的构造进行贝叶斯试验设计和假设检验,以随机对照药物试验为例,记药效估计区间为 ,当 或 时,可以认为正在研发的药物无效,否则可以有其他选择。该方法允许对药效参数的先验分布在计划期和执行期设定不同的组合,利用蒙特卡罗模拟实验的效率。利用贝叶斯统计,可以有效实施基于模型的一期临床试验设计,在二期临床试验中适应性调整剂量和病人分组,以及在三期临床实验中打破与二期之间的明确界限。适应性设计尤其适合个性化药物的研发,因为新的生物标记物的不断涌现和日新月异的市场变化迫使临床试验者与时俱进,不能固守既定不变的方案。由于医疗器械产生的数据相对稳定,历史数据更加适合来构建先验分布,因而贝叶斯统计在器械研发中得到了美国食品药品监督管理局的认可。癌症和慢性病药物的研发周期相对慢长,贝叶斯适应性设计思路更值得采纳,美国最大的癌症中心M.D. Anderson Cancer Center有近1/3的临床实验采用贝叶斯适应性设计。
三、临床决策和质量管理
服务病人和社区是生物医学研发的目的,而提高健康和医疗机构的服务质量是转化医学的终极目标。个性化医学的提出颠覆了以双盲对照临床试验为塔尖的传统循证医学的研发思路[3]。循证医学的问题在于传统的临床试验忽略了参与人群的异质性,临床试验不能提供足够的证据来预测药物在实际临床中的表现,这是因为试验参与者总会与实际服务对象有所差异。一个有效的解决方案是利用贝叶斯决策理论建立一套决策支持系统(图2)。该系统的核心是贝叶斯决策引擎,把基于临床试验的证据或文献知识看作先验信息,本地经验和观察作为数据,从而通过经验贝叶斯的推理方法选择治疗方案或干预策略[14]。它可以充分依托互联网和云计算平台,结合个人健康和病历档案,借助人工智能和数据挖掘技术,构建新一代的综合本地数据、历史经验和权威指南的动态智能数据库,进一步针对病人的遗传信息和生活方式做出适宜的治疗或管理方案。该系统同时可以提供医院和社区病人为中心的管理,并持续地进行远程数据采集来反馈决策。个性化服务模式与随机效应模型(如广义线性混合效应模型的应用相得益彰[15],因为这类模型不仅包含描述人群的参数(比如用药组和非用药组间的体重平均差别),而且包含用于描述个体参数(例如在纵向研究中每个人的体重变化率),而贝叶斯统计非常适合该模型的建立和参数估计。此外,人们还可以利用贝叶斯GLMM模型来做质量评估,评价医生或社区卫生服务提供者的质量[16]。结合生存分析及卫生经济理论,贝叶斯决策可以有效帮助医疗消费者做出生命质量成本收益的最优选择。
图2 决策支持系统(DSS)中的贝叶斯推理引擎。
注释:(1) 表示由全局知识库估计得到的治愈率, 是对应的权重;(2) 表示由局部数据库估计得到的治愈率, 是对应的权重。(3) 表示治疗方案A对应的后验治愈率,是全局后验治愈率( )和局部后验治愈率( )的加权平均。(4) 表示治疗方案B对应的后验治愈率,是全局后验治愈率( )和局部后验治愈率( )的加权平均。
四、慢性病和健康管理
慢性病已成为人类健康和生命的最大威胁[17]。一个综合的策略是利用风险模型准确预测疾病的发生和转归,以预防为中心,实施从个人到社区的全方位健康管理。这也是转化医学在公共卫生层面的研究重点。运用贝叶斯统计,人们可以整合多种设计方案(队列、病例对照、横断面调查等),考虑混合效应建立原因别多层风险模型来处理时空相关的混合数据(例如包含生存时间的重复测量数据)[18],开发基于贝叶斯模型平均策略[19]的适宜性的风险评估软件,同时利用多个模型来解决残缺值、混合分布和异质性群体等传统方法难以解决的困难。在转化公共卫生学领域中,一个迫切的任务是如何建立一个超级模型,能够同时分析分子水平(单核苷酸多态性、基因、蛋白)、个体水平(生理指标、生活方式)、和社区水平(经济、政策和环境因素)3方面的数据,来为个人和社区健康管理提供依据。尽管全球已经在遗传数据的采集上投入了大量的资力,但是目前对复杂的遗传疾病和重大慢性病的了解还很肤浅。由于DNA遗传作用和复杂的人体内外环境存在交互作用,因而解决疾病的问题还要回到系统医学的研究思想。换句话说,转化医学是系统医学的一个主要部分。基于马尔科夫链蒙特卡罗(MCMC)模拟算法,人们可以利用贝叶斯网络或结构方程模型描述以上3个层次的变量之间的交互关系,并在这个范围中研究生物标记物的筛选,干预方案的选择,以及慢性病的管理和预防。如图4所示,目前山东大学公共卫生学院和美国加利福尼亚州的健康数据公司正在联合开发一个基于智能手机和云计算的健康管理平台,既可用于慢性病管理也可服务于个人健康管理。该系统的数据采集部分借助于智能手机和测量仪器来采集生理信号、分子生物数据及环境参数,分析系统基于贝叶斯多层次混合效应模型来对采集的数据进行分析并做出决策。
医学研究离不开数据分析,新的科研思路需要新的统计方法辅助[13]。因其独到的理论优势和计算效率,贝叶斯方法可以为转化医学提供统计方法论的支持,为实现新一代具有预测性、预防性、个性化及参与性的医疗和公共卫生服务模式提供理论基础和计算工具[20-21]。过去十几年的发展足以显示出贝叶斯方法的生命力,但目前还没形成完整的体系和足够的实例为转化医学服务,主要是以下几个原因阻碍了它的普及和发展:(一)现在的贝叶斯计算仍然依靠蒙特卡罗模拟算法,对于多参数问题可能会耗费很长的时间;(二)目前行业仍然缺乏统一的数据库和知识库标准,不同用户的数据很难共享,因而无法给出足够的先验信息[22];(三)由于每个人对生命质量的理解不同,难以达成共同的损益函数定义,使得完整的贝叶斯决策难以执行;(四)仍然缺乏一个贝叶斯统计生态圈,还没有构建一个开放体系在分子、个体、社区3个层次上完成基础研究和临床应用间的无缝切换和对接 。相信在不远的将来,人们会看到新一代高速贝叶斯算法的诞生,比如基于云计算平台的平行算法(如MapReduce算法)可能会大大缩短计算的速度[23]。随着智能数据库和语义搜索引擎的出现,人们会有很多的渠道有效地构建具有实际意义的先验分布,提高参数估计和决策的质量。另外一个值得关注的研究热点是近年来发展起来的非参数贝叶斯理论[24],该理论方法不需要很强的分布假设,可以灵活处理大数据,兼容分类和聚类任务。此外,基于图和网络的贝叶斯推演[25]可以高效解决多变量的联合分布问题,例如在贝叶斯网络空间搜索当前数据集中所表现出的网络拓扑特征来定义和描述疾病。与数学、计算机和人工智能等技术相融合,贝叶斯辅助决策系统将会出现在药物研发、医疗服务和公共卫生管理的各个方面。
参考文献
[1] Woolf SH. The meaning of translational research and why it matters. JAMA,2008, 299(2):211-213.
[2] Gelman A, Carlin JB, Stern HS, et al. Bayesian data analysis.2nd ed. Florida:CRC Press, 1995.
[3] Jin KK. Textbook of personalized medicine. New York:Springer, 2009.
[4] Ogilvie D, Craig P, Griffin S, et al. A translational framework for public health research. BMC Public Health,2009, 9:116.
[5] Bayes T. An essay towards solving a problem in the doctrine of chances.1763. MD -Comput,1991,8(3):157-171.
[6] Gilks WR, Richardson S, Spiegelhalter DJ. Markov chain Monte Carlo in practice. London: Chapman and Hall, 1996.
[7] Woolf SH. The meaning of translational research and why it matters. JAMA,2008, 299(2):211-213.
[8] Hastie T, Tibshirani R, Friedman J. The elements of statistical learning: data mining, inference, and prediction. 2nd ed. New York: Springer, 2008.
[9] Ntzoufras I. Bayesian modeling using WinBUGS. Hoboken:John Wiley and Sons, 2009.
[10] Berger JO. Statistical decision theory and Bayesian analysis. New York:Springer-Verlag, 1985.
[11] Mallick B, Gold DL, Baladandayuthapani V. Bayesian analysis of gene expression data. Hoboken:John Wiley and Sons, 2009.
[12] Berry SM, Carlin BP, Lee JJ,et al. Bayesian adaptive methods for clinical trials. Taylor and Francis Group, LLC, 2011.
[13] Chow SC, Tse SK, Lin M. Statistical methods in translational medicine. J Formos Med Assoc, 2008,107(12 Suppl):S61-73.
[14] Spiegelhalter DJ, Abrams KR, Myles JP. Bayesian approaches to clinical trials and health-care evaluation. Hoboken:John Wiley and Sons, 2004.
[15] Condon PD. Applied Bayesian hierarchical methods. Hoboken: CRC Press, 2010.
[16] Normand SLT, Shahian DM. Statistical and clinical aspects of hospital outcomes profiling. Statistical Science, 2007, 22(2):206-226.
[17] Nuovo J. Chronic disease management. New York:Springer, 2007.
[18] Aven T. Alternative Bayesian approaches to risk analysis[EB/OL].[2012-07-05].http://www.nr.no/TilfeldigGang/sept97/taven/taven.html.
[19] Wang D, Lertsithichai P, Nanchahal K, et al. Risk factors of coronary heart disease: a Bayesian model averaging approach. J Appl Stat, 2003, 30(7):813-826.
[20] Alemi F, Erdman H, Griva I, et al. Improved statistical methods are needed to advance personalized medicine. Open Transl Med J, 2009, 1:16-20
[21] Terzic A, Waldman SA. Translational medicine: path to personalized and public health. Biomark Med,2010, 4(6):77-790.
[22] Sarkar IN. Biomedical informatics and translational medicine. J Transl Med,2010, 8:22.
[23] Adams N. Handbook of parallel computing and statistics by E. J. Kontoghiorghes(ed). Marcel Dekker:CRC Press, 2005.
[24] Hjort N, Holmes C, Mu?ller P,et al. Bayesian nonparametrics: principles and practice. Cambridge: Cambridge University Press, 2010.
[25] Friedman N. Inferring cellular networks using probabilistic graphical models. Science,303(5659):799-805.
来源:中华预防医学杂志
还没有人评论,赶快抢个沙发