AI不断扩张导致基础设施挑战随之出现

2024-10-28 11:54

至顶网

至顶网CIO与CTO频道

早期采用生成式AI的人通常使用ChatGPT、微软Copilot和类似的SaaS 工具，这些工具虽然需要花钱，但不会带来基础设施方面的挑战。然而，随着企业的纵向扩展，这些挑战开始显现出来。

本文来自至顶网（cio.zhiding.cn），来源 | 至顶网CIO与CTO频道。

早期采用生成式AI的人通常使用ChatGPT、微软Copilot和类似的SaaS工具，这些工具虽然需要花钱，但不会带来基础设施方面的挑战。然而，随着企业的纵向扩展，这些挑战开始显现出来。

那些尝试使用生成式AI的组织，通常会使用基于云的服务（例如OpenAI的ChatGPT或者Anthropic的Claude）来设置企业级帐户，早期的现场测试和生产力效益可能会激励他们寻找更多机会来部署这项技术。

全球咨询公司SSA&Company应用解决方案负责人Nick Kramer表示：“企业使用生成式AI来制作执行摘要或营销内容，明年，我们将看到这类企业用例的采用和标准化程度进一步提高，而且生成式AI将被内置到企业使用的其他应用中。大多数价值创造都发生在这些方面。”

例如，Adobe的Photoshop现在具有了生成式AI功能。谷歌和微软也在他们的生产力平台中推出了生成式AI功能，Salesforce和大多数其他企业厂商也是如此。不过，新功能可能会产生额外的成本，但是由厂商来应对任何潜在基础设施挑战的。

虽然每个人都可以使用ChatGPT，或者拥有Office 365和Salesforce，但为了让生成式AI成为差异化因素或竞争优势，企业需要找到能够超越其他人的方法，这就意味着创建定制的模型、微调现有的模型、或者使用检索增强生成（RAG）嵌入，让生成式AI系统能够访问最新且准确的企业信息。这意味着，企业必须在训练和部署这些系统的基础设施上进行投资。

电信测试公司Spirent早期只使用聊天机器人的公司之一——具体来说，是OpenAI ChatGPT的企业版，承诺可以保护企业数据。

Spirent企业技术和战略副总裁Matt Bostrom表示：“我们不希望我们的数据进入到公共模型中，企业版满足了这个需求，所以我们不必构建自己的大型语言模型。当时，OpenAI拥有最好的大型语言模型，不过现在Claude正在挑战这一点，我们也使用它的模型。”

Spirent仍然保持着这一状态，为公司内部用户提供130多个许可，他们使用标准聊天界面，并且不需要API成本或集成。“你只是在使用他们的应用并为用户许可付费，”他说。

但这只是一个开始。“我们知道我们想要把AI嵌入到我们现有的应用中。Salesforce和其他厂商都有可以添加的AI模块，但我们希望更具体一点，可以适应我们的用例。”这意味着Spirent公司必须做一些严肃的基础设施工作，就像大多数企业级AI项目一样，要从数据开始着手。

最大限度地发挥数据的潜力

根据德勤第三季度发布的生成式AI报告显示，有75%的组织由于生成式AI而增加了数据生命周期管理方面的支出。

Bostrom表示：“去年11月我加入公司的时候，我们通过AWS进行了数据现代化，我们转向了AWS技术堆栈，包括结构化数据和非结构化数据。”

将数据从旧系统转移到现代化系统，这是构建AI的关键。他说：“如果你有数据问题或者数据完整性问题，你就不会得到很好的结果。”他说，一旦数据整理好了，把数据移动到需要的地方就成了另一个挑战。

“我们公司有集成工具，但是很旧的、过时的工具，”他说。要实现生成式AI所需的大规模集成，就要进行大量且昂贵的升级。

相反，Spirent公司决定采用SnapLogic作为集成层，以实现项目所需的规模。他说：“我们评估了很多不同的厂商，这个厂商的能力最强。他们正在推出自己的AI构建器，这将为我们节省下购买其他附加组件的费用。”

因此，Spirent公司使用AI来测试产品中的数据，帮助提供客户支持和内部生产力，Bostrom说。例如，当一名员工需要在Salesforce中创建新的销售宣传内容时，他可以按下按钮，然后从公司的SharePoint存储库中检索和打包相关内容。

相关内容可能包括数千页信息（例如特定国家的合规规则），这些内部信息将通过存储在Salesforce平台中的数据进行扩充，并作为微调提示的一部分发送给AI。然后答案再返回到Salesforce，员工可以查看响应内容、编辑内容、并通过常规Salesforce流程发送出去。

“这只是其中一个例子，现在人们已经尝试过了，我们创造了越来越多的功能，我们有一个冲洗和重复的循环。”

将数据转移到现代仓库并实施现代数据管道，这是一个巨大的进步，但并没有解决Spirent公司所有的AI基础设施挑战。

Bostrom表示：“我们是一家全球性公司，大型语言模式有地区方面的限制。OpenAI已经封锁了某些国家，Claude也是如此。我们在全球都有员工，我们不想违反任何政策，所以我们必须想办法引导员工获得他们所在国家批准的大型语言模型。”

补救措施之一就是区域部署选项，例如，新加坡的AWS数据中心可能支持中国用户，但并非所有的大型语言模型都可在这里使用。

也有开源的大型语言模型，企业可以在任何需要的地方自行运行，但可用资源短缺，即使是像Amazon这样的巨头也是如此。“这些资源正在被采购和使用，要获得托管Mistral所需的强大服务器资源是很难的。”因此，目前Spirent公司坚持与OpenAI等大型商业提供商合作，并通过API访问大型语言模型。

Spirent公司也没有构建自己的矢量数据库。就RAG来说这是很常见的，RAG是一种提高准确性和及时性的AI策略，可以减少幻觉，同时避免必须在敏感数据或者专有数据上训练或微调AI带来的问题。

Bostrom表示：“现在有一种拖放功能，可以自动创建矢量数据库，我们还有一种助手功能，可以把一千个文件放进去，所以我们不需要购买自己的向量存储。”

变化带来选择

Spirent公司决定使用公有云来保存数据，这是一种流行的做法。根据Flexential今年夏天发布的一项大型公司调查，有59%的公司使用公有云来存储AI训练和推理所需的数据，有60%的公司使用主机托管提供商，有49%的公司使用本地基础设施。几乎所有公司都有AI路线图，超过一半的公司计划增加基础设施投资，以满足更多AI工作负载的需求。但企业正在寻找公有云之外的方法来满足他们对AI计算的需求，最受欢迎的选择，就是专门的GPU即服务厂商，有34%的大公司都在使用这种类型的供应商。

以业务流程外包公司TaskUs为例，该公司在扩大生成式AI部署的过程中，看到了对更多基础设施投资的需求。该公司首席信息官Chandra Venkataramani表示，这一挑战并不令人感到意外，但确实意味着企业要谨慎控制成本。“我们不想沉迷于技术，也不想为此疯狂。”具体来说，TaskUs需要来回移动更多的计算和数据。

Cognizant公司高级副总裁、全球AI和分析负责人Naveen Sharma表示，AI计算主要有两种类型，面临着不同的挑战。在训练方面，延迟不是一个很大的问题，因为这些工作负载对时间是不敏感的。企业可以在非工作时间在更便宜的地方进行训练或微调。“我们对毫秒级的响应没有期望，公司也更为宽容一些。”

AI计算的另一个主要用途是推理，即使用经过训练的AI模型来实际回答问题，这通常是需要实时进行的。Sharma说：“除非你有能力要求客户等待模型做出响应，否则推理就会成为一大问题。”

例如，他说，他看到达拉斯和休斯顿地区的需求很高。“由于所有AI公司都搬到了那里，整个地区对计算的需求都非常迫切，而且可能会有一些与石油和天然气相关的工作，也许这就是导致需求激增的原因。”

位置也可能是另一个问题——数据主权法规。在某些司法管辖区，出于合规原因，数据是不允许离开的。“如果你的数据仅限于你所在的地区，那么你就只能使用该地区的容量，”Sharma说。

如果超大规模企业无法提供所需的容量，而一家企业在主机托管设施或本地没有自己的数据中心，那么另一个主要替代方案就是GPU即服务提供商，而且这类厂商的发展势头十分强劲，Sharma说：“如果你的超大规模计算平台无法以合适的价格为你提供足够的服务，那么还有其他的选择。”

Sharma表示，对于那些知道自己对AI计算有一定需求的企业来说，把其中一部分需求带到自己的数据中心，并从按需定价转向固定定价，从长期财务角度来看是合理的。

赋能试点

Flexential的调查还显示，有43%的公司面临带宽短缺问题，34%的公司在扩展数据中心空间和功率以满足AI工作负载要求方面遇到了问题，其他问题包括连接不可靠和延迟过大等。只有18%的公司称，在过去12个月中，他们的AI应用或工作负载没有出现过任何问题。因此，商业咨询公司Kearney的数字和分析业务合伙人Bharath Thota表示，2023年是AI试点和概念验证的一年，这么说是有道理的。今年是各家企业试图扩大这些试点规模的一年。

“这就是挑战所在，这对AI来说并不是什么新鲜事。但由于需要访问的数据量大得多，因此问题变得越来越严重。”生成式AI不仅消耗了越来越多的数据，还产生了越来越多的数据，这是企业通常没有预料到的一个问题。

此外，当企业创建一个模型的时候，模型是由其训练数据和权重定义的，因此跟踪不同版本的AI模型可能需要保留每个单独训练数据集的副本。Thota说，这取决于具体的用例。“没有人知道最好的方法是什么，大家都是在迭代中学习的。”明年，所有基础设施（存储、连接、计算和延迟）方面的问题只会越来越多。

目前，从试点转向生产的生成式AI用例数量还相对较少，其中很多都是分阶段部署的。随着越来越多的试点投入生产，生产项目扩大到所有潜在用户，基础设施挑战将会越来越突显。而仅仅找到一个可行的解决方案是不够的，因为生成式AI技术正在以惊人的速度发展。Thota说：“你需要足够灵活，能够在升级时进行切换。”

此外，还有与AI基础设施管理相关的技能差距或人员短缺问题。尽管平台和用例都在快速发展，但管理存储、网络计算资源并优化成本和性能是一个令人担忧的问题。不过，随着生成式AI变得越来越智能，它也可能成为一种帮助企业的方式。

InfoSec Innovations公司高级合伙人、SANS Institute讲师Mick Douglas问：“你听说过网络即代码吗？还有基础设施即代码。对于一些要进行大量计算的大企业来说，他们可以开始玩一些游戏，比如，在云中拥有非常强大的虚拟机还是少数Lambda函数，哪个更好？你可以让AI为你创建一个抽象层，然后让AI迭代所有不同的构建。”

其中一些优化可以通过机器学习来完成，而且现在已经有这样做的了。但机器学习的问题在于提供商的产品是不断变化的。传统分析可以处理数学和模拟，而生成式AI可用于找出选项并进行更复杂的分析。

Douglas说：“生成式AI的主要优势在于，你可以以自动化的方式制作不同的部署代码模板，可以省去一些繁重的工作。”

THEEND

免责声明：凡注明为其它来源的信息均转自其它平台，由网友自主投稿和发布、编辑整理上传，对此类作品本站仅提供交流平台，不为其版权负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。若有来源标注错误或侵犯了您的合法权益，请作者持权属证明与本站联系，我们将及时更正、删除，谢谢。联系邮箱：xiali@infoobs.com

本月热门

精选文章

热点资讯

无人零售迎来2万亿风口，个体创业者入局，利弊共存

AI不断扩张导致基础设施挑战随之出现

2025 信息化观察网

长按扫描二维码阅读原文