癌症蛋白质组学的未来:LLM驱动的聊天机器人带来革命性进展
导读 | DrBioRight使研究人员能够使用自然语言探索以蛋白质为中心的癌症omics数据、执行高级分析、可视化结果并参与互动讨论。 |
2025年3月6日,美国德克萨斯大学MD安德森癌症中心的研究团队在期刊《Nature Communications》上发表了题为“DrBioRight 2.0: an LLM-powered bioinformatics chatbot for large-scale cancer functional proteomics analysis”的研究论文。
https://www.nature.com/articles/s41467-025-57430-4
研究人员推出了DrBioRight 2.0 (https://drbioright.org),这是一个由最先进的大型语言模型支持的直观生物信息平台。DrBioRight使研究人员能够使用自然语言探索以蛋白质为中心的癌症omics数据、执行高级分析、可视化结果并参与互动讨论。通过简化复杂的蛋白质组学分析,该工具可加快将大规模功能蛋白质组学数据转化为有意义的生物医学见解。
01
研究背景
过去10年间,癌症全息数据的生成取得了显著进展,尤其是在患者肿瘤的DNA和RNA层面。癌症基因组图谱(TCGA)和癌症细胞系百科全书(CCLE)等具有里程碑意义的计划,在这一变革时代发挥了关键作用。尽管取得了这些进展,但科学界对人类癌症转化和翻译后情况的了解仍存在重大差距,尤其是在许多癌症谱系中。
02
研究结果
为了评估其性能,研究人员使用微调过程中未使用的独立测试查询集测试了该平台。只有26%的问题可以用经典TCPA平台来解决,这说明非常需要一个多功能、可定制的工具来进行此类分析。然后,研究人员使用GPT-4对相同的问题进行了测试,成功率达到了58%,这凸显了通用LLM在通过基于自然语言的数据分析解决特定领域问题方面的局限性。然而,当在基于图的工作流程下使用LangGraph对同一组问题进行微调时,研究人员取得了令人印象深刻的90%的成功率。这强调了结合特定领域知识、微调过程和多代理工作流的影响。
微调过程和模型评估概述。
03
总结
1. DrBioRight 2.0的重大进步:DrBioRight 2.0在癌症蛋白质组学数据方面取得了显著进展,实现了三个关键里程碑。
2. 拓宽蛋白质空间:DrBioRight 2.0拓宽了常用癌症患者和细胞系队列的蛋白质空间,为生物医学研究人员提供了独特且有价值的资源。
3. 解决传统工具的挑战:与传统工具相比,DrBioRight通过其全面的数据资源和高级LLM的独特组合,巧妙地解决了开发和迭代过程中通常需要大量集成和协调工作的挑战。
4. 引领下一代数据分析和共享平台:DrBioRight 2.0预示着下一代数据分析和共享平台的范式转变,有望为生物医学研究人员打造一个全面的生态系统。
参考资料:
1.Cancer Genome Atlas Research, N. et al. The Cancer Genome Atlas Pan-Cancer analysis project. Nat. Genet 45, 1113–1120 (2013).
2.Barretina, J. et al. The Cancer Cell Line Encyclopedia enables predictive modelling of anticancer drug sensitivity. Nature 483, 603–607 (2012).
还没有人评论,赶快抢个沙发