本文来自微信公众号“数据猿”,【作者】放飞。
Hitachi Vantara的最新研究显示,在AI浪潮的驱动下,未来几年数据存储容量的需求将激增150%。目前大型企业平均持有150PB的数据,预计到2026年底存储的数据将超过300PB。
根据这项研究,31%的IT领导者表示,数据存储容量激增是必须面对的一大挑战;76%的受访者表示,一半以上的数据是非结构化的数据。
另一方面,随着AI应用的扩展,数据的价值将会增加,导致企业需要存储更多的数据,并且数据存储的时间更长。
与此相对应的是企业在数据存储上的投资将增长224%。希捷首席商务官B.S.Teh认为,虽然AI对更大、更复杂的数据存储的需求正在增加,但存储行业还没有为这种增长做好准备。随着生成式AI的应用变得更具战略性,企业需要围绕容量制定长期计划,以确保存储供应。
在AI时代,数据是企业的生命线,而数据存储能力关乎企业发展的命脉。数据存储企业正在不同领域开展创新,通过存储架构创新、存储技术新创,以及发展对象存储、软件定义存储等,以应对AI时代的多重挑战。
数据存储,AI生态链的重要一环
AI时代,数据质量决定着AI演进的高度,以存力基础设施变革为代表的数字底座升级正式开启。
AI对存储的影响将是深远的和持久的。从从存储的容量和性能提升,到智能数据管理和优化资源分配,到增强的安全性和存储效率,以及存储能耗的改善,AI将从根本上改变企业感知和利用存储系统的方式。
随着人工智能应用的加快,企业对于数据存储的需求日益增加,面临的挑战日益严峻。
一是数据量呈爆发式增长。根据IDC的数据,目前全球人均日产生数据从2024年10GB,将发展到2034年的100GB,全球数据总量将超200ZB。而LLM的应用又推高Token需求,兼顾成本的高容量数据存储势在必行。
二是数据存储高可扩展需求日益紧迫。一个有效的数据存储系统必须既可扩展,又经济实惠,这两个属性在数据存储中总是共存的。从历史上看,高度可扩展的系统在成本/容量方面更加昂贵。如果大型AI数据集超出存储预算,则是不可行的。
对象存储是可以在单个命名空间内无限扩展的存储类型。此外,模块化设计允许随时增加容量。组织可以按需扩展。对象存储构建在业界成本最低的硬件平台上,将其与低管理开销和节省空间的数据压缩功能相结合,成本比传统的企业磁盘存储低70%。
三是数据安全与数据存储共同发展。尤其是端侧AI,人们对数据的掌控欲愈发强烈,隐私保护、数据完整性,成为AI发展关注的重点。为此,在数据存储系统中,企业的解决方案往往都带了保护数据完整性的安全措施。
一些存储供应商开始利用人工智能和机器学习来防止数据丢失,通过智能数据恢复和系统化备份策略提高可用性,并加快停机期间的周转速度。
四是数据效率和功耗效率也不容忽视。要让AI大语言模型能高速完成计算,就需在最短延迟内实现数据的存储与读取,像低延迟、及时响应、节省成本以及优化资源和数据放置等技术,都成为AI时代的关键考量。
另外,功耗效率亦是重中之重。在AI基础设施竞赛中,虽然核电厂建设被包括AWS、谷歌、微软等广泛提及并加入投资者行列,但实现数据存储系统高效且低功耗才是关键,不仅能降低成本,还能延长设备寿命,无疑是存储产业进军AI领域的重要方向。
AI和ML工作负载本质上是数据密集型的,需要强大的存储解决方案来容纳海量数据并应对多样化的I/O模式。AI由数据驱动,数据的存储方式会显著影响AI大模型项目的结果。不仅如此,AI大模型的四个不同阶段(获取、准备、训练和推理)都有不同的存储需求。
数据获取阶段,AI工作负载的原始数据可能来自各种结构化和非结构化数据源,需要一个可靠的系统存储数据。存储介质可以是高容量数据湖或快速层(如闪存存储),尤其是用于实时分析。
数据准备阶段,在数据存储后因为它是“原始”格式,因此需要对数据进行处理和格式化,以供其他阶段使用。文件I/O性能在此阶段是一个非常重要的考虑因素。数据格式化后,将被馈送到神经网络中进行训练。
训练和推理这两个阶段,都是计算密集型的,通常需要将数据流式传输到训练模型中。训练是一个迭代过程,需要设置和重置,用于创建模型。推理可以被认为是数据和训练的总和。服务器中的GPU和存储基础设施资产稀缺,高效利用就需要低延迟、高吞吐量和快速响应时间。
另外,不要忘记容量和灵活性。确保存储基础设施可以扩展,同时扩展对生产运营影响最小或无中断,从而跟上业务数据增长的步伐。同时存储系统要足够灵活,可以根据AI基础架构的不同需求,考虑不同的存储配置。
AI驱动存储架构创新,SSD+NVMe重塑数据存储格局
在AI时代,数据呈爆炸式增长,传统数据存储架构难以满足需求,以高密度固态存储SSD(Solid-State Drive),以及NVMe(Non-Volatile Memory Express)架构为核心的数据存储架构变革正悄然来临。
SSD与NVMe携手,打造数据存储的梦幻组合,以闪电般的读写速度和超低延迟,为数据存储开启极速时代。AI应用对存储容量需求极高,可以轻松地从TB级扩展到数百PB级。
25年前,SSD的存储容量只有1或2GB。到2024年,SSD的容量达到了122TB!SSD凭借闪存芯片实现数据存储,经过多年的发展,相比传统机械硬盘HDD,具有读写速度快、抗震性强、能耗低等显著优势。其高性能表现为数据处理提供了强大动力,如在大型数据中心,SSD能使服务器快速响应数据请求,极大提升系统的整体性能。
NVMe架构则是这场变革的另一关键力量。它专为闪存存储设备设计,针对SSD特性进行优化,极大缩短了存储访问延迟。传统SATA接口受限于协议带宽,无法充分发挥SSD性能,而NVMe通过PCIe总线直接连接CPU,大幅提升数据传输速率,突破存储性能瓶颈。
NVMe提供了AI和机器学习应用程序所需的大带宽和低延迟,以最大限度地提高性能。它与AI平台使用的高性能、横向扩展存储和基于GPU的计算自然契合,将有助于消除I/O瓶颈并提供可扩展性。
这一变革带来了深远影响。在云计算领域,高密度SSD与NVMe架构结合,能为云服务提供商提供更高效、稳定的存储服务,支持海量用户并发访问。
在人工智能领域,快速的数据读写与低延迟访问对模型训练和推理至关重要,为AI发展提供了坚实基础。
利用SSD+NVMe架构创新,存储企业奉献了风格各异的解决方案。华为旗下的高端存储OceanStor 18000系列就采用全闪存架构,支持端到端NVMe技术,专为企业的关键任务和高性能需求而设计。
OceanStor系列产品采用多控制器松耦合架构,支持大规模扩展,最多可以扩展到数十个控制器。其横向扩展与纵向扩展架构的结合,使得系统具备了卓越的扩展性、稳定性和可靠性。此外,HyperMetro双活技术允许在两个数据中心之间实现业务无缝切换,提升了高可用性。
在安全性方面,OceanStor高端存储系统支持端到端的数据加密,具备强大的容灾和备份功能,确保企业在应对网络攻击和设备故障时能够快速恢复。此外,OceanStor还引入了AI驱动的智能运维系统,通过机器学习优化性能、预测故障并自动调整系统,简化了存储管理和运维流程。
新华三在2023年推出了H3C/HPE Alletra MP全局解耦NVMe智能全闪存储。H3C/HPE Alletra MP基于统一通用平台、一致云化体验,以直观的数据服务云平台简化管理,以AI加持的全活冗余设计保证稳定可靠,以颠覆性的扩展及部署模式带来极致性能,加快企业以数据为先的数字化转型进程。
据介绍,Alletra MP存储产品基于AI in Storage发展的理念,重新定义了AI通用存储性能和可靠性,同时也借助AI技术,让存储系统不断地自我优化,提升性能。
2023年,联想凌拓发布的两款高性能企业级闪存存储系统DE6400和DE6600也基于端到端的NVMe架构设计,其中DE6600提供高达200万IOPS的超高性能,适用于人工智能应用。
PowerMax是戴尔科技集团的高端存储解决方案,专为处理关键任务和高性能需求而设计。PowerMax采用全闪存架构,支持NVMe协议,能够提供超高的性能和极低的延迟。它还具备多控制器架构,可扩展性强,能够灵活应对企业不断增长的存储需求。
在数据安全性方面,PowerMax内置了端到端的数据加密功能,并支持高可用性和容灾功能,确保在网络攻击或设备故障时数据仍能得到保护和快速恢复。其集成的AI驱动自动化管理工具,能够实时优化存储系统的性能和健康状况,减少人为操作,提高运维效率。
在应用上,某智算中心基于浪潮信息元脑NF5266G7、NF5180G7等存储服务器产品,搭建了大容量、高性能、高可靠的多层存储解决方案,成功构建了50PB对象存储数据,10PB全闪文件存储数据的资源池。
针对互联网、金融、生命科学等领域AI大模型应用在训练时涌现的PB级数据存储与处理需求,全闪性能可伴随节点数量增加而线性增加,存储带宽可达6TB/秒,IOPS达到亿级。面对万亿参数模型,90天的单训练周期GPU等待时间从7天减少到1天,加速释放人工智能创新潜能。
AI应用对数据存储要求严苛,以高密度固态存储SSD及NVMe架构为核心的存储架构,能从多方面满足其需求。
高速读写:AI模型训练和推理需要处理海量数据。SSD基于闪存芯片,读写速度远超传统机械硬盘,在训练大型神经网络时,能快速读取数据,缩短训练时间。NVMe架构通过PCIe总线直连CPU,进一步提升传输速率,让AI模型及时获取数据,高效运算。
低延迟:在自动驾驶等实时性要求高的AI场景中,数据存储延迟至关重要。NVMe专为闪存优化,搭配SSD,能近乎即时响应AI模型的数据请求,确保决策及时准确。
高可靠性:AI训练数据宝贵,存储可靠性必须保障。SSD无机械部件,抗震性强,减少物理损坏致数据丢失风险,部分高端SSD还具备数据纠错机制,保障数据完整。
可扩展性:AI模型和数据量不断增长,存储架构需同步扩展。NVMe支持多队列和并行处理,可连接多个SSD,提升存储容量与性能,满足AI数据增长需求。
能耗效率:大规模AI运算能耗大,SSD能耗低于传统硬盘,可降低数据中心能耗与散热成本,契合AI应用成本控制要求。
取代集中式存储,分布式融合存储身手不凡
以ChatGPT为代表的生成式AI正在经历飞速的发展,凸显了数据的巨大价值:数据集越完整,模型规模越大,从AI中获得的结果就会越好。而如何高效地处理和存储海量数据,变得尤为重要。
分布式存储作经过多年的发展,正在逐渐取代一些传统存储方式。集中式存储指的是传统的SAN或NAS磁盘阵列,其架构以双控制(四控或8控)为主,共享多组RAID磁盘柜,具有低延迟、高性能、高可靠性的特点,但扩展能力较差,升级或更换困难,TCO高。
分布式存储与传统集中式存储的最大区别是其以软件定义(SDS)为技术手段,通过将数据分散存储在多个节点上,实现高可用性、高性能和高可扩展性。典型的分布式存储具有三大技术特征:使用通用x86或ARM存储服务器;使用固体硬盘(SSD)以提升IO性能;软件定义存储,即采用分布式多副本/纠删码技术,实现数据保护、资源智能调配调、自动化运维和监控功能,实现存储资源的抽象、池化和自动化管理。其优势在于可显著降低总拥有成本、提高性能和IT团队的效率。
目前,分布式存储呈现出多重的优势,如多协议融合互通,支持多种存储协议,如NFS、CIFS、HDFS、S3、Ceph等,解决了数据孤岛问题,提高了数据访问效率;实现了高性能,通过并行读写和负载均衡技术,显著提升了数据访问速度和系统吞吐量。
在高可用性和容错性方面,分布式存储采用数据冗余和故障转移机制,确保系统在节点故障时仍能正常运行。同时支持动态添加或删除节点,实现存储容量和性能的线性扩展。
另外,分布式存储拥有不错灵活性,能够根据业务需求进行配置和调整,支持多种数据类型和访问模式。
随着技术的不断创新,分布式存储正在降低系统设计和维护复杂性,降低高性能和多协议支持可能导致较高的初始投资成本,解决在某些情况下,网络延迟和数据复制可能出现的性能瓶颈,并在分布式环境中,确保数据一致性。
目前,分布式存储在大数据与AI、云存储、数据库、网络存储等应用场景得到广泛应用。
面对多样的分布式存储需求,市场上涌现出诸多解决方案,其中HDFS、Ceph、MinIO备受瞩目。其中,HDFS是分布式存储领域的先驱,旨在为大规模数据集提供可靠、高效的存储,在大数据处理的发展历程中功不可没。
Ceph是一款开源的分布式存储系统,在云计算、大数据等领域得到众多厂商的青睐,成为OpenStack的主流后端存储选择。Ceph衍生出三种存储接口:对象存储(RADOSGW)、块存储(RBD)、文件系统存储(CephFS)。
作为后起之秀,MinIO以开源、高性能、兼容S3接口迅速在分布式存储市场崭露头角,专为云原生应用、大规模对象存储需求精心打造。
在国内市场,分布式融合存储发展迅速,为企业数据存储提供可选的方案。浪潮信息在存储架构方面积极创新,推出了可组合分布式融合存储(CDFS)模式,旨在实现更高的空间利用率和管理效率。这一架构包括数据编织层、微服务化功能层和硬件资源层,能够根据具体需求按需组合,为不同用户提供定制化的存储方案。其中,机柜级存储底座(BoR)适用于边缘、规模小的企业应用,允许在更小的空间内实现更高效的近数据计算。
浪潮信息发布了新一代分布式融合存储AS13000G7,以极致融合架构设计,实现高效的“All In One”非结构化数据存储,提升了数据存力和I/O性能。
AS13000G7在业界率先实现了一套集群系统同时支持文件、对象、大数据、视频四种协议,实现数据融合;同时支持闪存、磁盘、磁带、光盘四类存储介质,实现管理融合;可以支持基础设施云化、结构化、非结构化等全部应用场景;支持全生命周期管理,数据在热、温、冷、冰四级存储间自由、高效流动,实现“一套存储架构、支持一个数据中心”。
新华三集团分布式存储代表产品从H3C UniStor X10000 G6发展到现在的Polaris X20000。
作为全NVMe分布式存储,X10000 G6以海量可靠、融合流动、极速极省助力新型智算中心建设。其中,明星产品X18000 G6拥有一框交付、极致可靠、极致性能、绿色节能等多重优势,全面满足AI、虚拟化、数据库等全场景存储需求,特别适用于医学科研、AI绘画、自动驾驶等AI场景。
在智算应用中,同一份数据需要在不同应用如文件处理、对象处理之间进行数据拷贝和搬移,甚至格式的转换,耗时,并影响GPU的使用率。因为智算投资大,用户希望GPU算力能够满负荷运转,因此要求存储不能有任何中断,必须要持续稳定地运行,这就需要存储提供高效的数据访问方式。
新华三的AI数据存储平台Polaris X20000通过系统、体验、价值重构,实现性能优化、协议融合、架构进化,单节点带宽达80GB/s、200万IOPS,支持多租户,故障秒级切换,广泛赋能AIGC等领域,助力智算发展。
2023年联想凌拓推出其首款国产化分布式云存储ThinkSystem DF系列,是一款基于海光平台打造的,在原有NAS基础上,同时支持SAN和对象等广泛协议的全国产化分布式存储系统。其分布式架构、高扩展能力、高性能、统一管理的特性等,可满足企业海量数据的管理需求,充分释放云端数据价值。
新型存储技术与自研芯片崛起,推动数据存储冲击新记录
AI时代,新型存储技术飞速发展,成为推出数据存储发展的后浪。
EDSFF提供更高的存储密度,同时兼顾性能与可靠性,适应数据中心日益增长的数据存储与处理需求。EDSFF也就是企业和数据中心固态硬盘外形规格,是专为迎合企业与数据中心存储需求所设计的固态硬盘标准,在于提供更高的存储密度,同时兼顾出色的性能与可靠性,从而适应数据中心日益增长的数据存储与处理需求。
目前,EDSFF具备多样化的外形,拥有多种外形尺寸与接口类型,像E1.S、E3.S等,能够满足不同服务器及存储设备因空间限制而产生的不同性能要求。
其特性之一是支持NVMe协议,能够提供极高的IOPS(每秒输入输出操作次数),并且具备低延迟的特性,能够大幅提升数据读写速度,进而加速应用程序的运行。
利用先进的闪存技术,单颗EDSFF固态硬盘能够实现数TB甚至更高的存储容量,对于数据中心而言,有助于减少存储设备的数量,从而有效降低成本。
此外,它还采用了端到端数据保护、磨损均衡、错误检测与纠正等技术,进一步提高了数据的完整性以及设备的稳定性。
EDSFF开始广泛应用于云计算、企业数据中心、高性能计算等领域,为服务器、存储阵列等设备提供快速且可靠的存储支持,以应对大规模的数据存储与处理任务。
CXL可能重新定义智算中心组网的形态,实现算力资源池化、存储资源池化、内存资源池化。CXL即计算快速链接,是一种高速且低延迟的互连协议,主要用于连接处理器与其他设备,比如内存、加速器、存储设备等。它的目标是提升系统整体性能与可扩展性,突破传统架构中处理器与外部设备之间存在的性能瓶颈。
CXL能够提供比传统PCIe更高的带宽以及更低的延迟,使得处理器与外部设备之间能够快速传输数据,进而提升系统的响应速度。
CXL支持内存池化技术,可将多个设备的内存资源整合成为一个共享的内存池,让处理器能够访问到更多的内存,有效解决内存容量不足的问题,同时提高内存利用率。
CXL还允许不同处理器共享加速器、存储等设备,提高资源利用率的同时降低硬件成本,例如多个处理器能够同时访问同一加速器进行计算,从而提高系统的整体性能。
值得一提的是,CXL与现有的PCIe生态系统兼容,便于在现有系统中逐步引入CXL技术,实现平滑升级。
CXL在数据中心、人工智能计算、高性能计算等对计算性能和设备互连要求较高的领域应用广泛,可用于构建更为高效的服务器架构,加速人工智能训练和推理等任务。
而专家认为,随着CXL 3.0的出现,未来有可能对存储系统带来新的帮助,甚至有可能重新定义智算中心组网的形态,实现算力资源池化、存储资源池化、内存资源池化。但这个事情,还是需要整个业界厂商一起共同努力才能够实现。
2024年Kioxia就推出了其全新KIOXIA XD8 Series PCle 5.0企业和数据中心标准外形尺寸E1.S SSD。Innodisk宜鼎国际推出CXL 2.0内存模块,为AI服务器和云数据中心提供更大内存带宽和更多内存容量。
而据介绍H3C Polaris X20000完全支持E1.S产品形态,也兼容了CXL 2.0标准。在Polaris X28000产品中,把四个分布式节点加上两个交换机,从原本10U的设备,做到2U空间里边,空间节约75%,能耗降低17%,从而轻松应对数据中心对存储系统性能和资源带来的挑战。
新型存储技术的崛起,以其独特的优势为人工智能硬件的发展带来了全新的机遇与可能。新存科技发布其自主研发的国产首款最大容量新型3D存储器芯片NM101。该新品采用先进工艺制程结合三维堆叠技术,单芯片容量达64Gb。这款高速大容量芯片专为大数据时代设计,旨在满足服务器、智能终端等领域对存储容量和读写性能的严苛需求。
据悉,作为纯国产自主知识产权的产品,新存科技的3D PCM(相变存储器)已经处于产业化的前夜,新存科技与浙江安吉政府合作投建的1万片/月产能的中试线目前正平稳推进,预计2025年即可投产。
自研SSD主控存储芯片满足AI性能和成本。算力是AI发展的基础设施,AI训练需要将数据集进行重复多轮处理,算力的规模直接决定了数据处理的效率和能力。
进入AI智算时代,数据量呈现“指数级”增长。面对“存储墙”、“功耗墙”等问题,传统计算体系结构中计算存储架构亟需升级,将存储与计算有机融合,以其巨大的能效比提升潜力,才能匹配智算时代巨量数据存储需求。
忆芯科技自主研发高性能企业级SSD存算一体化主控芯片STAR2000,首次实现了真实“存算一体”,将存内计算、存储控制、边缘计算和人工智能应用加速归集在单一芯片上加以实现,以此面向企业级市场提供了极具功效比优势的SSD产品,以应对AI时代存储日益复杂和多样化的挑战。
忆芯企业级SSD产品以高算效比设计,支持AI算法存内计算与数据库存算数据一致性加速调度,实际算效比超12TOPS/W,提供强大的智能业务计算保障。在人工智能计算应用的全流程中,实现了AI资源和数据分类、AI数据处理索引检索加速、AI聚类加速、特征比对加速、硬件智能认证区分、数据流调度及计算存储可信度量等多重功能。
忆芯企业级SSD产品在服务质量、延迟、安全、兼容性、容错纠错等方面表现优秀。其中,STAR2000E系列产品能够提供强大的稳态顺序读写和随机读写性能,最高顺序读写可分别达7.2GB/s、6.8GB/s,随机读写性能最高可达1750K IOPS和700K IOPS,具有业界领先的忆芯第4代LDPC纠错算法,同时支持3DWPD和1DWPD的耐久性,充分保证数据的可靠性。同时提供高达32TB的单盘容量可选,满足智算中心对海量数据高效存储的需求。
AI的发展带动了对大容量SSD和QLC NAND技术的需求增长,预计QLC NAND技术因其成本效益和高密度存储能力而得到更广泛的应用,尽管其写入速度较慢,但非常适合AI驱动的数据存储需求。预计2025年数据中心对NAND容量需求增长超30%,边缘AI技术将逐渐渗透市场,2026年影响更显著,推动新型存储方案需求。
得一微加大了在QLC NAND控制器的研发投入,以满足端侧AI以及AI服务器增长需求,并且公司即将推出PCIe Gen5等相关芯片,为大模型的广泛应用提供强大支撑,提升数据处理的速度和效率。
在存算一体和存算互联技术方面,得一微致力于开发基于计算快速链路(CXL)标准之上的可计算存储解决方案,和以数据为中心的计算架构,以实现存储资源与CPU的紧密耦合,消除内存层级间的延迟障碍。目前得一微已持续积累CXL相关的技术,将推出相关标志性产品。
在这场AI驱动的数据存储市场的变革浪潮中,对象存储凭借独特的数据管理模式,软件定义存储以重塑资源调配方式的灵活的架构,SSD分布式存储则凭借高速读写和高扩展性,合力为AI应用数据增长筑牢根基。
未来,这些创新技术将继续深度融合创新,不断提升性能,降低成本,强化可靠性,不仅能轻松应对AI应用数据呈指数级增长的挑战,还会为AI蓬勃发展开辟广阔空间,推动各行业迈向智能化新高度。