基因测序5年增速500倍!摩尔定律怎么办?
导读 | 苏州大学医学部承担着多项国家级基因研究项目,随着基因测序速度的提高,高性能计算平台的要求也水涨船高。为更好的开展基因组研究,苏州大学医学部启用了浪潮高性能计算平台,该平台投入运行后,测序数据处理量从原来的每天500GB提高到了4TB,从512核到1152核的运行效率提高了4倍。 |
在基因组学研究中,高通量测序是最重要的数据来源。然而,高通量测序技术的飞速发展,在给基因组学研究带来极大便利的同时,也带来了“幸福的烦恼”:单次测序数据量的大幅度提升,使得基因组学研究从原来的“测的没有算的快”,变为如今的“算的没有测的快”。众多基因研究机构对更高性能的数据处理平台,产生了更加迫切的需求,苏州大学医学部也是其中的一员。
测序速度五年提升500倍!摩尔定律怎么破?
最近几年,高通量测序技术的发展比摩尔定律还要更快,如2005年的Roche 454测序仪运行一次可产生400MB左右的基因序列文件,而2010年的Illumina HiSeq 2000运行一次,可以产生200GB的基因序列文件,测序速度在短短的五年内提升了500倍。
以HiSeq 2000测序仪为例,其单台每月能产生6TB数据,而大型科研机构可能会有几十台测序仪(华大基因在2010年的时候,就拥有137台Illumina HiSeq),每年的数据产出量将达到PB量级。
这些数据产出后,需要不断增加存储服务器容量以满足需求,下一步就是进行数据处理,如进行序列比对、序列拼接等,需要大内存胖节点机器才能满足运行需求,尤其针对序列拼接应用。此外,在数据处理中如果是多用户同时访问数据或访问存储介质,那么并发访问和计算造成的网络压力、磁盘I/O压力都可能从不同程度限制应用运行效率,进而影响科研进度。
因此,如何从这些海量数据中“淘金”,已经成为基因组研究中现实面临的重大问题,对大规模的高性能计算平台提出更高要求,其中对存储容量、存储数据安全性有很高的要求,并且对计算机的运算速度、内存容量、内存带宽、网络带宽等方面也有不同程度的需求。
以摩尔定律增长的计算速度,该如何应对测序速度超常规的增长?破题:胖瘦结合、软硬一体
在苏州大学医学部高性能计算平台的建设上,浪潮以软硬一体的高性能计算集群方案,给出了答案。
苏州大学医学部现阶段主要运行GROMACS、NAMD、LAMMPS、VASP、Gaussian等应用软件,其中前三种属于MPI编程,后两种属于OpenMP编程类型。这两种编程对通讯速率、内存带宽的要求不一样。根据这些软件的特点,浪潮制定了胖瘦节点结合、基于英特尔?至强?E5-2600系列的高性能天梭TS10000集群系统解决方案,其中瘦节点采用浪潮NF5270M3服务器,该服务器是双路架构并具备智能计算加速技术,比较适合GROMACS,NAMD,LAMMPS等适合跨节点运行的分布式内存程序。而在胖节点方面则采用浪潮NF8520四路服务器 ,该服务器具备非常稳定的品质,最大支持40颗物理核心,80个线程,支持1TB的超大内存空间,比较适合VASP、Gaussian等适合共享大内存的程序。这种胖瘦结合的节点架构,能更好的满足不同计算任务的需求,充分发挥系统效能。
整个系统的计算网络采用业界主流的56Gbps全线速Infiniband网络,并且采用了模块化Infiniband交换机,相对于小交换机堆叠网络可靠性高,易管理,且能够节省1/2数量的线缆,从而充分满足系统的高速通信需求。
而存储系统采用浪潮TSExaStor并行文件系统存储,TSExaStor是浪潮依托“高效能服务器和存储技术国家重点试验室”,为满足高性能科学计算领域对存储的苛刻要求,自主研发的高带宽、高IOPS的统一存储系统。采用多控制器体系架构,具有高度安全性的特性;支持PB级容量扩展,全局统一命名空间,性能随容量的增加而线性提升;支持图形化监控界面,实时监控文件系统各种参数;支持多种备份机制,定制化的备份策略,可选择备份到其它文件系统。
除此之外,浪潮自主开发的智能化、专用定制化的Cluster Engine高性能计算服务平台,具有更多人性化功能,帮助用户更快的构建系统、更好的应用系统、完善的管理系统,提升整体集群的使用效果,保证了用户良好的应用。
浪潮高性能计算平台投入运行后,苏州大学医学部的测序数据处理量从原来的每天500GB提高到了4TB,从512核到1152核的运行效率提高了4倍。
生命科学是浪潮传统的优势领域。早在2010年,浪潮HPC就在高教行业生命科学细分市场取得了占有率第一的成绩。而基于对生命科学领域的专业应用的理解,以及丰富的异构架构的应用移植经验,也使得浪潮在生命科学领域,获得了更多像苏州大学医学部这样新用户的认可。(转化医学网360zhyx.com)
还没有人评论,赶快抢个沙发