冷冻电镜是结构生物学研究的重要手段,依靠冷冻电镜技术,很多以往‘看不清’的生物大分子结构就能得到认识和解析。西湖大学冷冻电镜平台主要承担对电镜图片预处理与长期保存功能,荣联科技集团为其搭建智能化冷冻电镜数据分析平台,打通下机数据采集、传输壁垒,使数据预处理,数据可视化,2D、3D分析更加高效。
一、实施背景
西湖大学是一所社会力量举办、国家重点支持的新型高等学校。大学生命科学学院致力于研究生命现象和疾病机理以及研发生物医药新技术和疾病诊治新方法,培养具有生物、医学、化学、生物医学工程、药学等多学科背景的顶尖复合型创新人才,建立世界一流的生物医学研究和人才培养基地。生命科学学院已建成生物医学实验技术平台和实验动物中心,下设冷冻电镜平台、质谱平台、流式平台、显微成像平台、基因组平台、代谢平台、生物信息大数据平台、高通量平台和表型分析平台,为科研和教学提供有力支持。
其中,冷冻电镜是结构生物学研究的重要手段,依靠冷冻电镜技术,很多以往‘看不清’的生物大分子结构就能得到认识和解析。通过冷冻电镜,原先无法被X射线衍射观察到的分子结构细节也能一览无遗,而且由于繁琐艰辛的晶体生长和筛选过程完全免除,大大提高了结构解析的效率。
要满足实验室使用需求,面临着以下挑战:下机数量巨大,达每天5TB的数据量;电镜服务器到存储网络受限;CPU+GPU异构计算集群不易维护;单套存储难以满足众多场景需求;数据预处理软件众多,预处理尚未全自动化,流程依赖复杂。
二、实施目标
为客户搭建智能化冷冻电镜数据分析平台,打通下机数据采集、传输壁垒,使数据能够实现预处理,数据存储不再受网络限制,满足现有场景需求,大力提升生物分子结构解析效率,成为科研工作的有利支撑。
三、建设内容
冷冻电镜数据分析平台建设
西湖大学冷冻电镜平台主要承担对电镜图片预处理与长期保存功能,荣联为其搭建智能化冷冻电镜数据分析平台,打通下机数据采集、传输壁垒,使数据预处理,数据可视化,2D、3D分析更加高效。
冷冻电镜数据分析系统基础架构
荣联帮助西湖大学重点建设了冷冻电镜平台的数据分析计算系统,包括在线图片处理服务器及预解析室、主存储池、GPU集群及附属计算存储系统等,重点包括3个预处理单元,高速本地存储;10个图形工作站;40个GPU节点以及1.3PB分布式存储等。其中GPU高性能计算集群及其相关环境,为大数据的高效处理和分析提供创新机制,还可依据下机数据的通量,以及数据处理的时效性精准匹配所需资源量。
荣联冷冻电镜数据分析解决方案
冷冻电镜数据分析系统为用户提供了全套的冷冻电镜数据分析计算、存储解决方案。用户通过采购冷冻电镜和荣联科技提供的数据分析系统,即具备了完全的冷冻电镜结构分析能力。
冷冻电镜业务流程
该系统可以直接接入和控制冷冻电镜光学系统,实现从数据采集到二维和三维生物结构的分析。系统的设计着眼于各种规模的冷冻电镜设施,针对多用户场景下规模化的冷冻电镜数据计算实践中的痛点问题,支持全自动化的数据分析流程和实时数据质量信息反馈,具有完备的和可视化的数据管理以及计算历史追踪和统计分析能力。
冷冻电镜数据分析系统包含基础资源层、系统层、软件层和用户层四个层次。
基础资源层:该部分接收冷冻电镜的下机数据,数据在基础资源层上完成计算、存储、结构解析。一般依据下机数据的通量,以及数据处理的时效性精准匹配所需资源量。下机数据会转至工作站进行数据的预处理,工作站预处理后会将结果数据存放于集中存储(用于后续2D、3D分析),同时也可单独配置源数据存储系统,用于源数据备份。在整个的数据传输或是计算、存储过程中,数据对存储的带宽以及IOPS有不同的要求,对于数据传输所需要的网络带宽也不同,由于应用程序的多样性,对于计算系统有不同的资源需求。均需依据具体的冷冻电镜的型号以及相机型号、数据处理时效性的要求,精准匹配方案。数据的预处理在GPU工作站完成。2D、3D的处理采用CPU/GPU异构的计算集群方案。冷冻电镜数据分析平台支持全自动化的数据分析流程和实时数据质量信息反馈,具备计算分析、数据存储能力。
系统层:在系统层,进行物理资源的统一管理,作业管理,流程管理,用户管理,数据管理,包含集群管理软件、调度软件、编译软件等。
软件层:冷冻电镜的数据处理包含数据采集、图像预处理、颗粒挑选、二维重构、三维重构、结构优化等过程,通过多年在冷冻电镜领域的积累以及技术的布局,荣联科技初步建立了一套比较完整的冷冻电镜领域的应用系统,通过采用统计推断和深度学习等人工智能技术,使整个计算过程摆脱对用户干预的依赖,实现自动化处理。
用户层:采用基于Web的云桌面系统,通过URL访问,提供多用户同时在线进行计算作业,通过Web Linux桌面进行业务软件的作业提交、作业监控与数据管理,支持用户通过Web Linux桌面实时处理3D性能加速的Linux桌面应用。
四、实施效果
西湖大学生命科学实验室冷冻电镜平台重点支持结构生物学研究,很多以往‘看不清’的生物大分子结构能够得到认识和解析,对探索生命奥秘、了解人类自身有着重要的作用。疫情期间,西湖大学冷冻电镜成功解析新冠病毒细胞受体空间结构。
目前,荣联冷冻电镜数据分析平台解决方案主要应用于生命科学蛋白质结构解析工作线。在西湖大学冷冻电镜数据分析平台建设项目中,西湖大学生命科学实验室冷冻电镜平台重点支持结构生物学研究,很多以往‘看不清’的生物大分子结构能够得到认识和解析,对探索生命奥秘、了解人类自身有着重要的作用。疫情期间,西湖大学利用冷冻电镜技术成功解析了新冠病毒细胞受体空间结构。另外,该解决方案已成功服务于清华大学、中科院上海有机所、水木未来等重点行业客户,积累了丰富的行业经验。
荣联科技集团于2020年成立生物医疗行业专业子公司云生数据,全面布局生物医疗信息服务领域,可根据行业和客户需求,提供公有云、私有云、生信分析一体机、精准医疗诊断平台等组合产品和解决方案,覆盖从云(公有云)到边(本地私有化部署)到端(一体化终端应用)整体解决方案,赋能生物医疗行业创新发展。