云服务商如何吞噬你的AI利润:推理陷阱解析

AI项目从试点转向生产阶段时,企业面临意外的云成本激增问题。推理工作负载需要全天候运行以确保服务正常,成本可能一夜间飙升1000%以上。许多公司每月费用从5000美元激增至50000美元。为控制成本,企业开始采用混合架构:将推理工作负载迁移至本地或托管设施,训练任务保留在云端。这种模式可削减60-80%的基础设施支出,在保持性能的同时实现成本可预测性。

AI已成为现代企业的"圣杯"。无论是客户服务还是管道维护等细分领域,各行各业的组织都在部署AI技术——从基础模型到视觉语言模型——以提高效率。目标很明确:通过自动化任务来更高效地交付成果,同时节省资金和资源。

然而,当这些项目从试点阶段过渡到生产阶段时,团队遇到了意想不到的障碍:云成本正在侵蚀他们的利润。成本冲击如此严重,以至于曾经被视为创新和竞争优势最快路径的云服务,瞬间变成了不可持续的预算黑洞。

这促使CIO们重新思考一切——从模型架构到部署模式——以重新控制财务和运营方面。有时,他们甚至完全关闭项目,从头开始。

但事实是:虽然云服务可能将成本推高到难以承受的水平,但它并非罪魁祸首。你只需要了解选择什么样的载体(AI基础设施)来走哪条路(工作负载)。

**云服务的故事——及其适用场景**

云服务很像公共交通(地铁和公交车)。你通过简单的租赁模式搭乘,立即获得所有资源——从GPU实例到跨地域的快速扩展——将你送达目的地,而且工作和设置量极少。

通过服务模式的快速便捷访问确保了无缝启动,为项目落地和快速实验铺平道路,而无需购买专用GPU的巨额前期资本支出。

大多数早期初创公司发现这种模式很有吸引力,因为他们最需要的是快速周转,特别是在他们仍在验证模型和确定产品市场契合度时。

语音AI公司Speechmatics的产品负责人Rohan Sarin告诉VentureBeat:"你创建账户,点击几个按钮,就能访问服务器。如果需要不同的GPU规格,你关闭并重启新规格的实例,只需几分钟。如果想同时运行两个实验,你初始化两个独立实例。在早期阶段,重点是快速验证想法。使用大多数云平台提供的内置扩展和实验框架有助于缩短里程碑之间的时间。"

**"便利"的代价**

虽然云服务对早期使用完全合理,但当项目从测试验证转向实际应用量时,基础设施成本变得严峻。工作负载规模使账单变得残酷——成本可能一夜之间飙升超过1000%。

这在推理方面尤其明显,不仅需要24/7运行以确保服务正常运行,还要随客户需求扩展。

Sarin解释说,在大多数情况下,推理需求高峰期正好是其他客户也在请求GPU访问时,增加了资源竞争。在这种情况下,团队要么保持预留容量以确保获得所需资源——导致非高峰时段GPU空闲——要么遭受延迟,影响下游体验。

AI合规平台EasyAudit AI的CEO Christian Khoury将推理描述为新的"云税",他告诉VentureBeat,他见过公司仅因推理流量就从每月5,000美元一夜之间增长到50,000美元。

值得注意的是,涉及大语言模型的推理工作负载采用基于令牌的定价,可能引发最陡峭的成本增长。这是因为这些模型是非确定性的,在处理长期运行任务(涉及大型上下文窗口)时可能产生不同输出。随着持续更新,预测或控制LLM推理成本变得非常困难。

训练这些模型往往是"突发性的"(集群式发生),这确实为容量规划留下了一些空间。然而,即使在这些情况下,特别是随着日益激烈的竞争迫使频繁重训练,企业可能因过度配置导致的GPU空闲时间而产生巨额账单。

Sarin解释说:"云平台上的训练额度很昂贵,快速迭代周期中的频繁重训练可能迅速推高成本。长期训练运行需要访问大型机器,大多数云提供商只有在你预留一年或更长时间容量时才保证访问。如果你的训练运行只持续几周,你仍需为一年的剩余时间付费。"

不仅如此,云锁定是真实存在的。假设你做了长期预留并从提供商购买了额度,你就被锁定在他们的生态系统中,必须使用他们提供的任何服务,即使其他提供商已转向更新更好的基础设施。最后,当你能够迁移时,可能需要承担巨额出口费用。

Sarin强调:"这不仅仅是计算成本。你还会遇到...不可预测的自动扩展,以及在区域或供应商之间移动数据时的疯狂出口费用。有一个团队移动数据的费用比训练模型还高。"

**解决方案是什么?**

鉴于扩展AI推理的持续基础设施需求和训练的突发性质,企业正在转向拆分工作负载——将推理转移到托管或本地堆栈,同时将训练留在云端使用现货实例。

这不仅仅是理论——这是工程领导者试图将AI投入生产而不烧钱的日益增长的运动。

Khoury补充说:"我们帮助团队使用他们控制的专用GPU服务器转向托管进行推理。虽然不性感,但它将月度基础设施支出削减了60-80%。混合不仅更便宜——更聪明。"

他说,在一个案例中,一家SaaS公司通过将推理工作负载从云端迁移出来,将月度AI基础设施账单从约42,000美元减少到仅9,000美元。转换在不到两周内就收回了成本。

另一个需要AI客户支持工具一致的50毫秒以下响应的团队发现,基于云的推理延迟不够。通过托管将推理转移到更接近用户的位置,不仅解决了性能瓶颈——还将成本减半。

设置通常是这样工作的:始终在线且对延迟敏感的推理在专用GPU上运行,要么在本地要么在附近数据中心(托管设施)。同时,计算密集但间歇性的训练留在云端,你可以按需启动强大集群,运行几小时或几天,然后关闭。

广泛估计,从超大规模云提供商租赁每GPU小时的成本可能比与较小提供商合作高出三到四倍,与本地基础设施相比差异更加显著。

另一个重大好处?可预测性。

通过本地或托管堆栈,团队还完全控制他们想要为预期推理工作负载基线配置或添加的资源数量。这为基础设施成本带来了可预测性——并消除了意外账单。它还减少了调优扩展和保持云基础设施成本合理的积极工程努力。

混合设置还有助于减少时间敏感AI应用的延迟,并实现更好的合规性,特别是对于在金融、医疗保健和教育等高度监管行业运营的团队——在这些行业中,数据驻留和治理是不可协商的。

**混合复杂性是真实的——但很少成为交易破坏者**

一如既往,转向混合设置带来了自己的运营税。建立自己的硬件或租用托管设施需要时间,在云外管理GPU需要不同类型的工程能力。

然而,领导者认为,复杂性通常被夸大,通常可以通过内部或外部支持管理,除非在极端规模下运营。

Sarin解释说:"我们的计算显示,本地GPU服务器的成本大约相当于从AWS、Azure或Google Cloud租用等效实例六到九个月的费用,即使是一年预留费率。由于硬件通常至少持续三年,通常超过五年,这在前九个月内就变得成本积极。一些硬件供应商还为资本基础设施提供运营定价模式,因此如果现金流是问题,你可以避免预付款项。"

**按需求优先排序**

对于任何公司,无论是初创公司还是企业,在架构——或重新架构——AI基础设施时成功的关键在于根据手头的具体工作负载工作。

如果你不确定不同AI工作负载的负荷,从云开始,通过为每个资源标记负责团队来密切关注相关成本。你可以与所有经理分享这些成本报告,深入了解他们使用什么及其对资源的影响。这些数据将提供清晰度,并帮助为推动效率铺平道路。

话虽如此,记住这不是完全抛弃云;而是优化其使用以最大化效率。

Khoury补充说:"云仍然非常适合实验和突发训练。但如果推理是你的核心工作负载,摆脱租赁跑步机。混合不仅更便宜...更聪明。将云视为原型,而非永久家园。计算数学。与你的工程师交谈。云永远不会告诉你什么时候它是错误的工具。但你的AWS账单会。"

来源:VentureBeat

0赞

好文章,需要你的鼓励

2025

06/29

19:38

分享

点赞

邮件订阅