基于HPC&AI的高性能计算公共服务平台以助推智慧城市建设、高科技产业发展为目标,建设和运营区域超大规模高性能计算公共服务平台。平台方案包括通用计算系统、人工智能加速计算系统、大数据存储支撑系统、节点互联网络、基础配套系统等5部分内容,采用行业领先的人工智能、大数据、并行计算等软硬件技术架构,平台CPU+GPU合计的理论峰值计算能力可达到10PFlops(每秒运算能力为一亿亿次),成为国际先进、国内领先的大规模高性能计算公共服务平台。
高性能计算作为科学研究的三大手段之一,已经渗透到科学研究、工业发展、社会生活的各个方面,在生物科技、石油勘探、气象预报、国防技术、工业设计、金融证券等关键领域扮演着越来越重要的角色,高性能计算不仅成为驱动经济和社会发展的一种生存力,更成为衡量一个国家核心竞争力的重要指标。本平台着眼于通过利用高性能计算、人工智能、大数据、云计算等领先IT技术,打造国内领先的人工智能高性能平台行业案例。
作为同方股份与清华大学在高性能计算系统的研究、建设与服务领域的合作成果,双方联合成立“清华大学-同方股份有限公司计算机系统结构联合研究中心”。 提供先进的高性能计算系统整体设计、建设方案和强大的服务、保障能力,致力于科技成果转化和HPC应用的行业普惠,形成了基于HPC & AI相结合的高性能计算平台参考架构:
本平台系统采用先进成熟的软硬件配备方案,兼具高可靠、高可用、高可维护、高可信、高通量特点,同方高性能计算平台技术架构创新方面,取得了如下业界领先优势:
●采用同方自研新一代成熟x86架构的双路机架式服务器“超强?R628”,多项自研服务器专利技术为平台提供全部的计算力支撑。
●人工智能加速计算节点采用同方新一代成熟CPU+GPU异构架构的GPU机架式服务器“超强?G858”,单台服务器最多可支持10块GPU加速卡,实现人工智能加速计算系统理论双精度峰值计算能力支撑。
●采用传统CPU节点和GPU AI加速节点混合的集群技术,作为国内最大规模的HPC & AI集群,为平台提供10PFlops(每秒运算能力为一亿亿次)聚集计算能力,满足对人工智能计算场景的需求。
●集群网络采用国内领先的100Gb/s高速网络架构,保障节点间数据通信延迟不高于0.65 us,支撑GPU Direct技术,MPI in network fabric技术(单台核心交换机交换能力320Tb/s,支持端口通信带宽不少于200Gb/s);
●集群在线存储系统可实现的聚合读写带宽380GB/s的性能需求,存储裸容量超过36PB;达到国内领先水平。
●高性能计算系统软件栈是平台对业务应用支撑的核心:通用计算和人工智能加速计算的统一集群操作系统,将科学计算应用和人工智能计算应用场景设计为整合的机制,通过统一的操作系统镜像,一致性地支持“裸金属”计算,“容器”计算和“虚拟化”计算;作业调度、负载均衡和监控软件可统一调度、管理和监控通用计算系统和人工智能加速计算系统;丰富的编译器、工具软件及科学计算工具软件,面向用户端提供多种基于通用计算和人工智能的高性能计算工作软件环境和人机交互。
●高性能计算公共服务平台安全等级保护的建设采用统一规划、统一布局、统一设计、规范标准,满足等级保护三级基本要求的标准。
●同方提供了首创的从平台规划、建设到运营的一体化服务模式,作为高性能计算创新模式的参考。
同时,基础设施及配套工程作为高性能运算设备的承载平台,本方案从运行环境的安全、稳定、可靠角度出发,对空间布局规划、环境参数、动力配电、制冷、智能管理、消防等方面精细设计。采用了多项行业创新领先的数据中心节能降耗技术,符合国内最高节能标准,满足国家、地方及行业标准,保证平台安全高效运行。
高性能公共服务平台的建设,对地区发展带来综合的效益,具体说明如下。
公共服务平台项目一般由政府投资建设,属于政府投资建设的公共服务项目,项目运营期间实现微利运营。同时,本项目为地区带来的社会效益远高于经济效益:
●为各地方政府带来经济效益
平台的建设能够实现智慧城市建设,实现地区智慧服务平台建设,能够满足政府部门关于智慧政府的建设和应用,能够提高地方各产业协同,计算力应用于服务,满足政务服务的要求,为地方政府带来长期可持续的经济增长。
●为行业带来长远发展
平台的建设能够实现企业发展规划、行业引领。紧密联系高技术产业,促进经济产业结构变化。
●为相关企业、高校带来的经济效益
平台的建设能够为地区高校提供学术、科研领域的数据分析,能够提升高校的学科设置,提升高校品牌形象,有助于高校学员的征收,可满足高校优质、优创的教学需求。对于企业而言,本项目的建设能够为企业提供相关的规划发展计算力和数据支持,为企业的发展奠定坚实的基础,能够引导企业发展,实现经济创收。因此,平台的建设可以为高校和企业带来经济效益的提升。