中国大模型的路，是不是走歪了？

2023-09-26 11:09

数据猿

一蓑烟雨

大模型的出现和快速发展为AI领域带来了革命性的变革。其中，大模型的核心流程可以简化为两大环节：预训练和微调。通过预训练，我们得到了所谓的“通用大模型”。进而，基于这种通用模型，我们可以使用特定行业的数据进行微调，从而产生“行业大模型”。

本文来自微信公众号“数据猿”，文：一蓑烟雨。

在这波全球大模型的浪潮中，中国与美国无疑成为了领军者。但中美在大模型的发展策略上却出现了显著的分歧。美国，以OpenAI为代表，持续致力于通用型大模型的研发。与此相反，中国则将目光投向了行业大模型。众所周知，国内科技巨头如百度、阿里、华为等，在已有的通用大模型基础上，纷纷推出了为各个行业量身定做的大模型。同时，众多的创新公司和各行各业的头部企业也开始涌入这个领域，积极地发布各类行业大模型。

然而，当我们沉浸在这种欣欣向荣的景象中时，一系列的迹象引起了笔者的关注，我们不得不思考一个问题：中国在大模型的探索之路上是否已经偏离了正确的轨道？难道我们又要重蹈当年SaaS市场的老路，走入一个看似繁荣却可能是误区的局面吗？

行业大模型并不是空中楼阁

在过去的几个月里，我们目睹了中国涌现出大量的行业大模型。这种现象背后隐含的一个事实是：打造行业大模型的技术门槛相对较低。为什么会这样呢？首先，随着开源技术的普及，技术上的壁垒逐渐被打破。许多优质的预训练技术、框架和工具已经被广大研发者和机构所采纳和使用。其次，相对于开发一个全新的大模型，微调现有的通用大模型更为简单快捷，只需要大量、高质量的行业数据即可。

打造一个强大的通用大模型却是一项长期且复杂的任务，这需要巨大的计算资源、多样化的数据和深厚的技术积累。因此，相比之下，行业大模型的产生，就显得更为便捷了。

但这种便捷性带来的是双刃剑效应。大量涌现的所谓行业大模型，并不具备真正的竞争壁垒。这其中的原因多种多样。技术上，因为它们大多基于相似的开源技术和通用大模型进行微调，很少有真正的技术创新。数据上，尽管行业数据是关键，但许多企业并没有真正挖掘、整合和利用这些数据的能力，使得其微调的效果并不理想。

底层通用大模型的每次迭代，

都将“淹没”一大批所谓的行业大模型

当我们谈论现代技术时，我们必须理解其动态性和快速发展的特性。大模型技术的快速迭代就是一个典型的例子，每次通用大模型的升级都使其前一代的技术变得陈旧。

以OpenAI的GPT系列为例，从GPT到GPT-4，其发展历程几乎可以形容为“飞速”。而在技术世界中，速度就是竞争力。每当OpenAI发布一个新版本，它都会因为更多的参数、更先进的算法和更高的性能，使前一版本相形见绌。而这种进化不仅仅局限于通用模型，实际上，它更多地影响到了基于前一代模型微调出的行业大模型。

试想，一个企业可能已经投入大量资源在GPT-3上，开发出一套专门为医疗领域设计的AI系统。但当GPT-4问世时，这家企业突然发现，他们的专业系统在新的通用模型面前相对落后，甚至可能不如直接使用GPT-4的效果。这就是因为，每次通用大模型的迭代都意味着一个巨大的技术飞跃，其对特定任务的处理能力会显著增强。

这种现象与硬件行业的情况相似，我们可以把它比喻为计算机硬件的迅速更新。当Intel推出新的处理器时，前一代处理器即使还能正常运行，但在性能和能效方面都会相对落后。而在AI领域，这种更新周期更短、变革更剧烈。

回到大模型，当我们基于某一代模型投入大量资源进行微调时，我们必须认识到这种投资的风险性。举例来说，当一个初创公司决定基于GPT-3开发一个针对金融行业的AI助手时，他们可能面临的风险是，仅仅过了几个月，GPT-4或GPT-5的发布会使他们的产品立即过时。

行业大模型是商用的重要方式，

但不要忘了前提条件

诚然，行业大模型的出现似乎为各个垂直领域带来了巨大的机会。它们可以更好地满足特定行业的需求，提供更加定制化的服务，帮助企业提升业务效率，提供更高品质的客户体验。

然而，一切的基石依然是一个强大的通用大模型。只有当通用模型具备强大的能力时，行业大模型的微调才能真正发挥价值。

值得深思的是，中国在AI领域已取得了许多值得骄傲的成果，但与国际顶尖的通用大模型，如GPT-4相比，国内仍存在一定的差距。这对于中国的技术界来说是一个挑战，也是一个机会。挑战在于如何在短时间内弥补这一差距，机会则在于一旦做到，国内的行业大模型将能够站在一个更高的起点。

而现在的现象是，部分企业在通用模型的基础还不够稳固的前提下，急于推出一系列的行业大模型。这种策略显然有其商业逻辑——尽早进入市场，尝试尽快实现商业变现。但这种策略忽视了一个核心问题，那就是技术的根本价值。

企业应用AI技术的根本目的是为了解决实际业务问题，提高运营效率和客户满意度。而如果一个行业大模型在语言理解、逻辑推理、数理计算或内容生成等核心能力上都表现不佳，那么它所带来的实际商业价值就会大打折扣。客户不会因为一个产品声称自己是某个行业的大模型就选择购买，他们更关心的是这个模型能为他们的业务带来什么实际效益。

因此，对于企业和技术研发者来说，关键不在于急于推出各种行业大模型，而是要认识到，强大的通用大模型是所有行业应用的基石。只有在这个基石稳固的基础上，行业大模型才能真正发挥出其应有的价值。

换言之，现在的首要任务是加强通用大模型的研发，尽快追赶国际水平，然后再以此为基础，推出真正有价值的行业大模型。这样的战略布局，既能保障技术的长远发展，也更能真正满足市场和客户的需求。

真正的创新，应该始终以实际需求为导向，而不是盲目追求短期的商业利益。

应该怎么做呢？

对于企业和机构来说，仅仅拥有一个行业大模型并不足以确保其在市场中的竞争优势。

那么，应该怎么做呢？笔者认为，应该在通用大模型和行业大模型上同时发力。

首先，通用大模型还需要尽快进化。无论是文心一格、通义千问还是盘古、混元大模型，都需要进化。

一方面参数规模还需要持续扩大，得有万亿级参数规模的大模型。从技术原理上，扩大参数规模，是提升模型智能涌现的重要方式，这是大模型智能提升的“物理基础”。就像人类为什么比其他动物聪明，人类大脑的神经元数量要显著多于其他动物，就是一个关键的基础。

另一方面，在大模型构建、优化的工程能力方面，还需要进一步提升。大家都是基于Transformer架构，技术原理并不是什么秘密，但为什么ChatGPT就是比其他大模型表现得更好？关键就是其AI工程化能力更优。就像造原子弹的技术原理并不是什么秘密，但要造出原子弹，却有大量的技术秘诀和经验，是一个浩大的工程。

只有底层通用大模型足够好，在此基础上构建行业大模型才有意义。

接下来，在构建行业大模型阶段，要在两方面发力：

一方面，要汇集足够规模的高质量行业数据。现在的情况是，各行各业的数据资源都非常有限，并且散落在不同的公司和机构中。这种分散性不仅导致了数据的量不足，更关键的是，没有统一的数据标准和质量控制，使得模型训练效果大打折扣。为了解决这一问题，我们需要促进企业和机构之间的合作，推动行业数据的开放和共享。

比如医疗大模型，关键就是要有足够的医疗数据。这需要通过医疗数据的开放共享来构建行业数据集实现，某个企业、机构的数据量始终是有限的。现在限制行业大模型的一个关键瓶颈，就是没有足够的高质量行业数据，行业数据太分散了，而且质量不够高。要着力解决这个问题。

另一方面，要将行业知识固化到行业大模型当中，这需要一些专业人士与AI人才配合，进行大量的模型调优工作。无论是通用大模型还是行业大模型，其背后的初衷都应该是为用户和客户提供真正的价值。客户需要的不仅仅是技术上的新鲜感，更重要的是在真实的业务场景中，模型能够为他们带来实际的帮助和效益。

无论我们在技术上如何进步，始终不能忘记为什么我们要做这一切。

文：一蓑烟雨/数据猿

THEEND

免责声明：凡注明为其它来源的信息均转自其它平台，由网友自主投稿和发布、编辑整理上传，对此类作品本站仅提供交流平台，不为其版权负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。若有来源标注错误或侵犯了您的合法权益，请作者持权属证明与本站联系，我们将及时更正、删除，谢谢。联系邮箱：xiali@infoobs.com

本月热门

精选文章

惠而特创始人谭曙光获评“2021-2022工业互联网数字化转型先锋人物”

7月1日
中国信息协会会长何翠芹：加快数字政府建设提升政务安全水平

11月16日
IDC权威发布|天懋信息位居视频物联安全管理平台市场领导者

11月1日
构筑智慧城市数字世界的安全空间

10月14日
2022电子政务安全成果征集结果正式发布

11月8日
邢台携手华为云，以数据为引擎推动智慧城市发展

3月29日

热点资讯