本文来自微信公众号“中国信息化周报”,作者:路沙。
相关机构分析显示,中国全闪存储市场2023年前三季度实现同比4.0%增长。随着人工智能、大数据等技术的应用,高性能、高IOPS等场景大量出现,以及节能减排的要求,像金融、制造等行业对于全闪存储需求将持续旺盛。
正是看中这一趋势,众多存储厂商都在持续进行全闪存储领域的技术创新和市场布局。例如,日前,IBM发布了全新的入门级全闪存存储平台IBM FlashSystem 5300、美光宣布量产232层QLC NAND闪存、中科曙光发布ParaStor分布式全闪存储、西部数据推出首款采用QLC闪存颗粒的新品——西部数据PC SN5000S NVMe SSD(固态硬盘)。更早之前,戴尔科技推出PowerScale新一代全闪节点F210和F710、华为也发布了全新数据湖解决方案及全闪存新品。
由此来看,随着闪存介质容量持续提升和成本持续下降,闪存高可靠性、高性能、低延迟和低功耗等优势开始显现,全闪存储正在成为数据中心和云计算等需要大规模存储和高速访问应用的首选解决方案。
全闪存储为何备受青睐
从技术的角度来看,全闪存储备受青睐的原因无外乎高IOPS、低延迟、高性能、数据压缩和容量扩展,以及企业级数据保护等技术特性。例如,全闪存储使用SSD或其他闪存介质代替HDD(传统机械硬盘),提供远高于传统磁盘存储的数据吞吐能力及更低的时延;全闪存阵列的读写速度要比磁盘阵列快很多等。
据了解,与HDD相比,在单一脚本中,SSD可以提供50到100万IOPS,延迟在1毫秒以下;读或写操作大概只需要50微秒,而HDD至少需要3毫秒。此外,最新的全闪存阵列单元能够压缩数据,有效容量可以变为原来的三到六倍,提供了大量的增长空间。
不过,如果归根溯源的话,还要从存储介质的转变开始说起。如今,随着技术的不断发展,全闪存储经历了SLC(单层式存储)、MLC(双层式存储)、TLC(三层式存储)、QLC(四层式存储)四代演进,不同阶段,单个存储单元的数据会越来越多,容量越来越大、成本越来越低。
SLC每单元可存储1bit信息。虽然其存储容量有限,但在数据稳定性、读写速度和质量方面均表现出色;MLC每单元可存储2bit信息。相较于SLC,MLC的存储容量有所提升,但使用寿命较短,读写速度和质量也略逊一筹。依此类推,到QLC阶段,全闪存储有了更高的容量,但也相应降低了读写速度与使用寿命。不过,在这一阶段,随着存储容量的提升、存储成本的降低使得全闪存储的普及变得更加容易。
像戴尔科技、美光、西部数据等存储厂商发布的全闪新品都采用了QLC介质。
戴尔科技集团大中华区信息基础架构解决方案事业部存储业务总经理刘志洪表示,在全闪存储方面,2012年EMC通过收购XtremIO,开启了“全闪存储”的热潮;而2023年,的Dell PowerScale在市场中率先引入QLC介质,更是开启了“全闪存储”的普及潮。
以前,在QLC SSD刚推出的时候,许多存储厂商都将首发目标对准了企业级市场,而不是消费级,原因就在于QLC SSD通过堆栈更高的层数,可以轻松实现更大的存储密度。而如今最新的QLC产品,不仅在带宽、读取性能、整体可靠性和耐用性等核心性能方面,已经部分追上TLC产品,还凭借着更高的存储密度,可以轻松实现容量和成本上的优势。
据了解,跟TLC相比,QLC的储存密度提高了33%。在PCB(印刷电路板)趋小的当下,单颗闪存容量的提升,能够显著提升SSD整体的存储容量,使得在服务器机架面积不变的情况下,能够部署更多QLC SSD,从而降低整体的运营成本。
能为大模型训练推理带来什么
在大模型时代下,大模型训练推理的效率决定着大模型的进化速度,同时也影响着大模型企业在行业中的整体竞争力。因此,在大模型场景下,当文件数量从百亿至千亿级别,将对存储空间和存储效率提出更高要求。同时,随着模型参数增大,训练数据集的规模也将呈现指数级增长,存储成本随之增加。在这一过程中,需要对整体存储方案进行优化,在满足高性能存储的前提下,解决大模型参数增长带来的存储成本上升问题。
不难看出,在AI大模型的训练和应用中,数据读取速度和存储可靠性对模型的性能和效率有着至关重要的影响。全闪存储技术的高性能和大容量能够大幅提升数据读取速度,缩短模型训练和推理的时间。同时,全闪存储技术的低延迟和高可靠性能够确保数据的安全性和完整性,避免数据丢失或损坏对模型性能的影响。
例如,焱融全闪一体机F8000X能够根据智谱AI大模型训练的不同业务阶段特点,调用不同的存储服务能力,满足各个阶段业务对数据服务能力的要求,摒弃了传统分立建设,避免数据孤岛问题;中科曙光ParaStor分布式全闪存储,以XDS技术嵌入Parabuffer加速引擎,支持AI芯片高速数据直接存取机制,将系统的整体I/O性能提高数倍,通过优化存算协同,将训练时间从几十天降低到几天。
中科曙光存储产品事业部副总经理、曙光存储公司副总裁杨志雷表示,AI大模型行业落地加速且愈加“实用化”,离散小模型汇聚到基础大模型,一年内行业通用场景数据可支撑通用场景大模型,2年内生产场景核心数据将支持形成行业生产场景大模型。在场景需求上,数据的质量愈发重要,作为高质量数据集载体的存储系统成为大模型核心基础设施。