企业大模型数据治理倾向哪些模式和倾向的理由?

twt社区
随着人工智能技术的快速发展,大模型的应用正在改变我们的生活和工作方式。大模型的核心能力是意图理解和文本生成,是AI AGENT的核心大脑,大模型的能力发展决定了人工智能的能力半径,它将推动人类社会的生产结构进一步升级,进而影响社会的各个方面。

本文来自twt企业IT社区。

【大模型行业应用落地系列】·“面向大模型的数据平台搭建”探讨

●企业大模型数据治理倾向哪些模式和倾向的理由?

【议题说明】随着人工智能技术的快速发展,大模型的应用正在改变我们的生活和工作方式。大模型的核心能力是意图理解和文本生成,是AI AGENT的核心大脑,大模型的能力发展决定了人工智能的能力半径,它将推动人类社会的生产结构进一步升级,进而影响社会的各个方面。为了将大模型应用在各种复杂的任务场景中,需要基于庞大数据体量的参数和训练数据,不断进行迭代,训练出更复杂、更有效的大模型,推动人工智能技术的发展。

【议题主持人】金海波昆仑银行大数据负责人:由于数据质量的问题,也给大模型应用带来了许多挑战,例如:高质量数据供给不足、海量数据处理的挑战、缺乏数据治理平台、数据流通还存在一定的障碍等。基于此,基于社区平台,通过投票、研讨等方式,探讨企业大模型数据治理倾向哪些模式和倾向的理由,有助于为企业大模型数据治理提供思路和参考。

金海波昆仑银行大数据负责人:

大模型应用需要数据治理工作提供高质量的数据供给。

大模型训练数据的范围覆盖到了几乎全互联网内容,包括不同领域的行业数据、科学数据、行为数据等,为了保障给大模型提供高质量的数据供给,数据治理被各企业迫切地提上工作日程。如下是社区几十位用户对企业大模型数据治理模式倾向的反馈及分析。

1.共识结果

(1)与原有数据湖/湖仓一体/数据仓库/大数据平台做对接并进行架构优化(46.9%):基于企业已经建立的数据平台类系统进行数据治理。

(2)独立建设服务AI的数据平台(12.2%):为了AI应用建立一个独立的数据平台进行数据的汇聚和数据治理。

(3)建立数据管道,从各个数据源中提取数据,并进行清洗、转换和集成,最终将数据输送到AI数据平台(32.7%):从各个源系统中提取数据,并进行数据加工,然后供给给大模型使用。

(4)数据共享模式,不同业务部门或数据所有者共享其数据资源,以供AI应用程序使用(6.1%):AI应用程序从各个数据源直接获取原始数据进行使用。

(5)边缘计算模式,把AI设备部署在边缘设备附近,减少数据传输和延迟(2%):使用边缘计算模式,AI应用直接部署在业务数据生成系统或者设备上,AI应用的计算结果再进行传输汇聚。

2.企业大模型数据治理模式选择原因剖析

随着大数据技术的不断发展,数据治理和大模型的应用结合将会更加紧密,为组织带来更多的商业价值和社会效益。企业大模型数据治理呈现出多种模式,企业应根据自身的实际情况和需求选择适合的数据治理模式。为了选择适合本企业的数据治理模式,需要先了解三个问题:(1)数据治理模式有哪些;(2)各种数据治理模式适用的企业类型;(3)各种数据治理模式的优缺点。

大模型数据治理主要有以下几种方式:

(1)集中式数据治理:主要通过建立一个集中式的数据管理平台,对数据进行统一的管理和治理。这种方式可以确保数据的准确性和一致性;

(2)分散式数据治理:与集中式数据治理相反,分散式数据治理将数据的管理和治理分散到各个业务部门或团队中;

(3)联邦式治理:这种模式是集中式和分散式相结合,数据治理组织与多个业务单元协同工作,以维护一致的定义和标准。

各种数据治理模式适用的企业类型如下:

(1)集中式数据治理:适用于拥有大量数据资产和复杂业务场景的大型企业,企业在系统建设上具备数据仓库/数据湖等数据平台,在组织上有负责全面管理和控制企业内数据资源的团队,这种治理模式可以确保数据的准确性和一致性,降低数据风险;

(2)分散式数据治理:适用于资源有限的中小型企业,企业在系统建设上尚不具备规范的数据平台类系统,在组织上缺乏专职的数据管控团队,这种模式可以降低数据治理的成本和复杂性;

(3)联邦式治理:适用于那些需要跨组织合作、具有分布式组织结构、复杂数据需求、高度敏感数据以及需要灵活性和可扩展性的企业。这种方法可以帮助这些企业在保持数据主权和控制权的同时,实现数据的有效治理和利用。

各种数据治理模式的优缺点如下:

(1)集中式数据治理:优点是这种治理模式可以确保数据的一致性和准确性,避免数据冗余和冲突,同时提高数据的安全性和隐私保护能力。缺点是需要足够的资源和预算来支持集中式数据治理的实施;

(2)分散式数据治理:优点是可以更好地满足业务部门的需求,提高数据治理的灵活性和效率。缺点是可能会增加数据的不一致性和数据安全风险;

(3)联邦式治理:优点是在灵活性、可扩展性和安全性方面具有优势。缺点是面临复杂性、沟通和协调成本、数据一致性和准确性挑战以及数据孤岛等问题。

根据投票调研结果,有(46.9%)的用户支持与原有数据湖/湖仓一体/数据仓库/大数据平台做对接并进行架构优化,反映出多数人对该治理模式的高度认可和实践可行性。该治理模式属于集中式数据治理,通过已经建设的数据平台进行数据治理。多数人选择该模式的原因在于,首先,企业在数据平台上已经具备了一定的技术规范和业务规范,保障了数据的一致性和准确性,避免了数据冗余和冲突,保障了数据安全性,有助于实现数据资产的统一管理。其次,由于架构升级原有系统功能的复用,省去了和各业务系统对接工作,减少了数据采集、传输、整合等大量的重复性建设工作,缩短了项目建设周期,降低了建设成本。然后,基于使用现有的数据平台进行数据治理,保持了现有技术栈的稳定,员工只需要在已有技能基础上进行扩展学习,降低了学习成本和周期,使得企业专注于需求的实现。最后,该模式有助于企业未来系统架构的扩展性,能够应对未来复杂多变的市场环境。

滕召森东莞银行数据分析师:

在原有数据平台上进行架构优化,有利于真正意义上建立企业级统一的数据平台。

倾向选择“与原有数据湖/湖仓一体/数据仓库/大数据平台做对接并进行架构优化”的理由如下:

(1)有利于真正意义上建立企业级统一的数据平台,实现数据的统一管理:企业内部通常存在多种数据源和格式,在通过大数据平台、数据仓库完成整合后经过了行业已有应用的支持,数据质量和平台稳定性都经过了相对成熟的验证。通过对接现有平台,接入知识库、影像等数据,实现企业级的数据融合,为上层应用提供统一的数据服务,业务价值及管理价值更大。

(2)保护现有投资,加强基础设施复用:企业往往已经在数据湖、数据仓库或大数据平台上有大量的投资。对接和优化现有架构可以充分利用这些基础设施,而不是推倒重来。并通过对接和优化,可以根据大模型的需求对现有数据架构进行架构优化,同时解决部分历史技术债。

(3)减少人员技能学习成本及管理成本,提高应用成功率:基于使用现有的数据平台及管理。对接和优化可以减少培训成本,同时利用员工现有的技能,同时大模型团队能够跟专注于应用开发,避免从0到1完整搭建拉长项目周期。

许小龙某金融企业大模型工程师:

没有一种单一的数据治理模式适用于所有企业。企业应根据自身的具体情况来选择最适合自己的模式,并在实践中不断调整和优化。

在选择企业大模型数据治理的模式时,不同的公司可能会基于自身的业务需求、技术能力和战略规划等因素有不同的偏好。根据业务对数据使用的高时效性要求,采用边缘计算模式,把AI设备部署在边缘设备附近,减少数据传输和延迟,提升数据处理性能。以下是一些常见的数据治理模式及其选择的理由:

(1)集中式数据治理:这种模式下,数据治理的职责集中在公司的某个特定部门或团队中。这种方式的优势在于可以实现统一的数据标准和政策,便于管理和控制风险。然而,它也可能导致决策缓慢,因为所有变更都需要经过中心团队的审批,更适用于大型企业。

(2)分散式数据治理:在这种模式下,各个业务部门负责自己的数据治理工作。这种方式的优点是可以快速响应业务需求,但缺点是可能导致数据标准不一致和数据质量参差不齐,更适用于中小型企业。

(3)联邦式数据治理:这是一种混合模式,结合了集中式和分散式的特点。核心数据由中央团队管理,而其他数据由各业务部门自行管理。这样可以平衡标准化和灵活性,但也增加了管理的复杂度。

(4)自治式数据治理:在这个模式下,数据的创建者同时也是数据的治理者。这种方法鼓励自我管理和创新,但在缺乏适当监管的情况下可能会导致数据滥用。

(5)数据湖治理:针对大数据环境下的数据治理,强调原始数据的存储和管理,以便于后续的分析和使用。数据湖提供了灵活性和可扩展性,但需要严格的元数据和数据质量管理。

(6)数据仓库治理:侧重于结构化数据的存储和管理,通常用于支持传统的BI分析和报告。数据仓库提供了一种结构化的方法来处理数据,但可能不适用于非结构化或半结构化数据的处理。

(7)云原生数据治理:随着云计算的普及,越来越多的企业采用云原生架构来进行数据治理。这种方式充分利用了云服务的弹性和可伸缩性,但同时也需要适应云环境的特性和挑战。

(8)人工智能增强的数据治理:AI技术可以帮助自动化许多数据治理的任务,如分类、清洗和异常检测等。这种方式可以提高效率和准确性,但同时也需要关注算法的透明度和偏见问题。

朱祥磊山东移动系统架构师:

大模型的数据治理和企业传统数据分析的数据治理在关注领域、流程、方法上是一致的。

企业大模型的数据治理是确保数据质量、安全性、可靠性和一致性的重要过程。对于企业系统架构中已经具备AI数据平台和分散式数据治理基础,且综合考虑需求应用场景,可以选择建立数据管道,从各个数据源中提取数据,并进行清洗、转换和集成,最终将数据输送到AI数据平台。

另外,在选择企业大模型数据治理的方法和工具时,我们更倾向于以下几个方面:

(1)在数据治理中,首先要确保数据的标准化和规范化。这包括数据格式统一、数据命名规范、数据质量检查等。标准化和规范化的数据可以确保数据的准确性和一致性,减少数据冗余和冲突,提高数据质量。

(2)数据安全和隐私保护是数据治理的关键要素。需要采取适当的加密技术和访问控制措施来保护数据的安全性。随着数据的大量增长,数据安全和隐私保护成为首要考虑的问题。保障数据安全可以避免数据泄露和滥用,保护企业的声誉和客户隐私。

(3)主数据管理和元数据管理:主数据管理是指对主要业务数据的统一管理和维护,而元数据管理是对数据属性的描述和定义。主数据和元数据是数据治理的基础,它们有助于提高数据的可理解性和可用性,帮助企业更好地理解其数据资产。

(4)数据流程管理和数据生命周期管理:数据流程管理涉及数据的采集、处理、存储、分析和销毁等过程,而数据生命周期管理关注数据的价值衰减和数据老化。合理的数据流程管理和生命周期管理可以优化数据的处理流程,提高数据的价值和利用率,同时避免过时或无用的数据积累。

议题共识总结

随着大模型应用的深入,促进各行各业不断涌现新体验、新业务、新行业的诞生,在未来,小到个人消费抉择的分析,大到行业甚至宏观经济的决策,都会被人工智能改变。为了保障给大模型提供高质量的数据供给,数据治理工作重要性已经被提升到企业战略之中。通过用户群体共识,明确了企业大模型数据治理的重要性,以及数据治理模式呈现出多样性。企业在选择不同数据治理模式时,需要基于自身的业务需求、技术能力和战略规划等因素进行选择。在选择数据治理模式过程中,没有一种单一的数据治理模式适用于所有企业和现实情况,企业应根据自身的具体情况来选择单一或者组合数据治理模式。在具备数据平台建设基础的情况下,集中式数据治理模式获得了众多用户的认可和支持,体现了其在实际应用中的治理效果和可行性。另外,企业在数据治理工作落地过程中还需要关注治理策略和流程、组织架构和角色分配、数据标准化和规范化、数据质量管理和校验、数据安全和隐私保护、数据生命周期管理等工作内容。

综上,在大模型的深入应用趋势下,为了给大模型提供高质量的数据基础,数据治理工作愈发重要,大模型数据治理的模式和工作内容多种多样,企业应根据自身的实际情况和需求选择适合的数据治理模式。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论