与传统业务场景相比,大模型对数据存储资源的需求有哪些异同?

大模型需要快速处理和分析大量数据,对数据处理速度的要求更高。因此,数据存储系统需要具备高性能的读写能力和数据处理能力。

本文来自微信公众号“twt企业IT社区”。

与传统业务场景相比,大模型对数据存储资源的需求有哪些相同与不同之处?

大模型作为新的应用范式,对数据存储的需求与传统业务有所不同。本议题交流核心是分析大模型应用对数据存储需求的特殊性在哪些方面?又有哪些与传统业务数据存储需求一致的地方?

问题来自社区会员 wanggeng某银行系统运维工程师,以下内容来自社区同行探讨

 朱祥磊某移动公司系统架构师:

相同之处:

1.数据存储需求量大:无论是传统业务场景还是大模型场景,都需要大规模存储数据,以满足业务需求。

2.数据安全性要求高:对于任何业务场景,数据的安全性和隐私保护都是重要的考虑因素。大模型也不例外,需要确保数据的安全性。

3.数据质量很重要:无论是传统业务还是大模型应用,都需要确保数据的准确性和完整性,以提高模型的准确性和可靠性。

不同之处:

1.数据规模差异:传统业务场景通常处理的数据量较小,而大模型则需要处理大规模的数据,可能达到数十TB甚至数百TB。

2.数据处理速度要求:大模型需要快速处理和分析大量数据,对数据处理速度的要求更高。因此,数据存储系统需要具备高性能的读写能力和数据处理能力。

3.数据存储类型多样化:在大模型场景中,除了结构化数据外,还需要处理大量的非结构化数据,如图像、音频和视频等。因此,数据存储系统需要支持多种类型的存储需求。

4.数据存储效率要求:由于大模型需要进行大量迭代和训练,对数据存储的效率和响应时间有更高的要求。因此,数据存储系统需要具备高效率和低延迟的特点。

5.数据存储可扩展性:大模型的应用和发展通常需要不断扩展数据存储容量和性能。因此,数据存储系统需要具备可扩展性,能够随着业务的发展而灵活扩展。

综上所述,虽然传统业务场景和大模型场景在数据存储资源需求方面有一些共同点,但大模型对数据规模、处理速度、存储类型、效率和可扩展性等方面有更高的要求。

 国金证券AI算法工程师:

相同之处:

数据量大:大模型和传统业务场景都需要处理大量数据,因此双方对于数据存储资源的需求量都很大。

安全性:数据安全性对于大模型和传统业务场景都是重要关注点,尤其涉及内部私有数据和敏感数据。

不同之处:

存储方式:大模型需要特定的存储方式来支持高效读取模型参数和训练数据,而传统业务场景可能更多使用传统数据库和文件存储方式。

访问模式:大模型可能需要频繁的读写访问,而传统业务场景通常设计为批量处理和定时更新。

数据结构:大模型可能需要更复杂的数据结构来存储模型参数和训练数据,而传统业务场景更注重结构化数据存储。

综上所述,虽然大模型和传统业务场景在数据存储资源需求方面有共通之处,如数据量大和安全性要求,但它们在存储方式、访问模式和数据结构等方面存在明显差异。理解这些相同与不同之处有助于有效满足大模型对数据存储资源的特殊需求。

 匿名用户:

1、海量存储:大模型的训练需要海量的高质量数据,但是高质量数据往往从更海量的数据中筛选清洗而来,所以对于原始数据、清洗后数据的存储、分类管理是一个重要变化。

2、大规模异构存储:当前路线的多模态大模型的训练仍然需要异构数据,需要类似于数据湖的基础设施作为异构数据的集成管理。

3、日志存储的可控性:大模型服务的可控性一直是大模型应用的重要问题。随之而来的,海量异构的服务日志,如何进行日志记录、筛选、反馈处理以及内容后审查等都与以往服务存在较大的不同。

4、知识存储:RAG的向量化存储、图存储等,均是随着大模型技术发展而发展的,需要考虑异构知识的统一存储和管理等新问题。

 Moson建信金融科技架构师:

大模型对数据存储资源的需求与传统业务场景相比,既有相同之处也有不同之处。

相同之处在于,无论是大模型还是传统业务场景,都需要数据存储资源来存储和管理数据。数据存储资源需要具备可靠性、可用性和扩展性等特点,以确保数据的准确性和完整性,以及满足业务增长的需求。

不同之处在于,大模型对数据存储资源的需求更为复杂和多样化。大模型需要处理的数据量通常更大,数据类型更为复杂,需要进行高效的读写操作和数据处理。此外,大模型还需要支持各种算法和计算需求,包括深度学习、机器学习等,对存储性能和I/O吞吐量的要求更高。

因此,大模型需要更加专业和高效的存储解决方案,例如分布式存储系统、高性能存储设备等,以满足其对数据存储资源的需求。同时,大模型也需要更加灵活和可扩展的存储架构,以适应不断变化的数据量和计算需求。

 jinhaibo昆仑银行技术管理:

相同之处:

1、存储容量:无论是传统业务还是大模型,都需要一定规模的存储容量来存储数据。

2、读取性能:在许多应用中,快速的数据读取速度是必要的,无论是传统业务还是大模型。

3、数据一致性和完整性需求:无论是传统业务还是大模型,都需要保证数据的准确性和完整性,以避免数据错误或不一致导致的问题。

主要区别在以下方面:

1、数据类型:传统业务通常处理结构化数据,大模型需要处理各种类型的数据,包括结构化、半结构化和非结构化数据。需要不同类型的存储解决方案,如对象存储或分布式文件系统。

2、计算资源:大模型处理的数据量较大,需要更多的计算资源。对存储的性能需求增加,需要更高的I/O吞吐量、更快的处理速度等。

3、数据备份:由于大模型需要处理大量数据,考虑到数据备份的成本和数据本身的价值,需要针对不同价值的数据制定不同的备份策略,以权衡数据的可用性和成本。

 xuyy秦皇岛银行数据架构师:

大模型与传统数据场景,均需具备良好数据基础与数据质量,且对数据安全性有较高的要求。

大型模型的到来对数据和存储提出了新的要求。从成本的角度来看,数据和数据的存储过程和处理过程越来越重要。不仅数据量增加,数据处理过程也更加复杂,对性能的要求也越来越高,其附加值也越来越高。

大模型要求算力和存力的建设需要有最佳的计算存量比例,大模型不能靠计算能力做好。计算能力建设过多,存力建设过少,会导致计算能力闲置,资源浪费。企业需要开展计算能力网络优化行动,加大高性能智能计算供给,加强先进存储产品部署,加快构建云端协同、计算、存储、运输一体化、多层次算力基础设施体系。

 chinesezzqiang信息技术经理:

大模型对数据存储资源的需求非常高,主要体现在以下几个方面:

相同之处:

存储容量需求大:无论是哪种类型的大模型,都需要存储大量的数据,包括训练数据、模型参数等。

高性能存储需求:大模型的训练和推理需要高速读写存储器,以支持实时处理和快速响应。

持久性需求:大模型训练和推理产生的数据需要长期保存,以便后续分析和挖掘。

可扩展性需求:随着大模型的不断发展,数据量会不断增加,存储系统需要具备可扩展性,以适应数据量的增长。

不同之处:

数据类型差异:不同类型的大模型(如NLP、CV、语音等)需要处理的原始数据格式不同,因此对存储系统的数据类型需求也有所不同。

I/O性能要求:某些大模型需要高速I/O性能来支持实时的训练或推理,而其他模型可能对I/O性能要求较低。

数据一致性需求:一些大模型需要高一致性的数据存储来保证训练和推理的准确性,而其他模型可能对数据一致性的要求较低。

成本考虑:对于一些经济高效的模型,存储成本也是需要考虑的重要因素。

综上所述,大模型对数据存储资源的需求具有相似性和差异性。在为特定大模型选择存储系统时,需要综合考虑其具体需求和约束。

 一桶浆糊存储解决方案架构师:

相同点上面几位老师讲的比较多了,从大模型的生命周期角度补充一下对存储的一些需求:

1、数据的采集和处理阶段,比如网络爬取、清洗标注等,这个阶段主要是要求存储支持丰富的接入协议以及海量的存储空间,高吞吐量。

2、模型的开发设计阶段,该阶段主要涉及并行开发,需要数据存储具备各个兼容各平台能力,比如大数据平台、容器平台等。

3、模型训练阶段,主要是快速读取训练集及checkpoint的保存和读取,需要存储提供非常高效且稳定的数据读写能力。

4、模型推理部署阶段,此阶段我理解主要是计算密集型,但对模型加载和保存有需求,对存储的需求是高性能、高并发。同时具备较高的可靠性。

 nxdy系统运维工程师:

一、传统业务场景和大模型场景在数据存储资源需求的不同之处如下:

传统业务场景,包括交易类的、数据分析类等,这些业务场景主要使用的是关系型的结构化数据,通俗来讲,就是二维表格。这些关系型数据在软件层面主要使用传统的关系型数据库进行存储,在硬件层面可以放在集中式块存储、文件存储等存储设备上。

大语言模型,顾名思义,以处理自然语言文字信息为主,因此它所使用的数据主要不是关系型结构化数据,而是海量的语言文字数据,可以使用文本数据库、向量数据库、数据仓库、数据湖等方式进行存储,因为语言文字数据具有海量的特性,所需要的空间非常大,且增长速度快,因此在硬件层面上,应该使用分布式存储、对象存储等。

二、相同之处如下:

传统业务场景与大模型场景,都需要充足的数据存储空间,且存储设备都需要具备高可用、高性能、高吞吐、稳定性强的特点。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论