长期以来,人们普遍认为云优先方法能为CIO带来敏捷性、可扩展性和成本效益等优势。尽管云仍是大多数IT领导者的首选基础设施平台,但许多组织正在重新思考其云战略,从云优先转向"云智能",即为特定工作负载选择最佳方法,而非仅仅将所有内容迁移到云端。
云成本优化是推动这一重新思考的因素之一,组织在快速增长中难以控制不断攀升的云支出。据VMware最近的调查显示,估计21%的企业云基础设施支出(相当于2025年的445亿美元)浪费在未充分利用的资源上,31%的CIO浪费了一半的云支出。
技术咨询公司Hylaine的技术副总裁Ryan McElroy表示,全面云化的热潮已经结束。云智能组织拥有明确且经过验证的流程,用于确定哪些工作负载最适合云端。
例如,"必须快速交付并在未来支持大规模扩展的应用应该在云中构建,"McElroy说。"具有传统技术、必须在虚拟机上托管或具有可预测工作负载且将持续多年的解决方案应该部署到管理良好的数据中心。"
据McElroy介绍,云智能趋势受到更好的本地技术、更长的硬件周期、超大规模云提供商的超高利润率以及行业典型炒作周期的影响,这些都有利于混合基础设施方法。
然而,"AI为孤立的数据和计算增加了另一个重大变数,"他补充说。"许多组织没有兴趣或能力构建高性能GPU数据中心,需要使用云。但如果他们一直保守或厌恶成本,他们的数据可能位于混合基础设施的本地组件中。"
McElroy表示,这些变量导致了复杂性或意外成本,无论是通过迁移还是数据出口费用。
他估计"只有10%的行业公开承认他们正在转向"云智能。虽然这个数字看似很低,但McElroy说这是很重要的。
"调整云立场有很多先决条件,"他解释说。"首先,你通常必须是新任CIO或CTO。任何已经迁移到云的人都很难退回。"
此外,组织需要保留并提升管理自有数据中心或托管设施人才的技能。他们还必须具有超过云在原始敏捷性和分片计算方面提供优势的基础设施需求,McElroy说。
选择和重新评估正确的超大规模云服务商
宝洁公司CTO兼高级副总裁Paola Lucetti表示,宝洁在约八年前开始迁移工作负载时采用了云优先战略。当时的要求是所有新应用都将部署在公有云中,现有工作负载将从传统托管环境迁移到超大规模云服务商。
"这种方法使我们能够快速现代化,减少对传统基础设施的依赖,并利用云平台提供的可扩展性和弹性,"她说。
如今,宝洁几乎所有工作负载都在云上运行。"我们选择将选定的工作负载保留在公有云之外,是因为我们定期重新评估的延迟或性能需求,"Lucetti说。"这个基础在数字化转型的关键阶段为我们提供了速度和灵活性。"
随着公司云生态系统的成熟,其业务优先级也在发展。"成本优化、可持续性和敏捷性成为重中之重,"她说。"对宝洁而言,云智能意味着为正确的工作负载选择并定期重新评估正确的超大规模云服务商,嵌入FinOps实践以实现透明度和治理,并利用混合架构支持特定用例。"
Lucetti说,这种方法通过自动化、AI和智能体赋能开发人员,更快地推动价值。"这种方法不仅是技术性的,也是文化性的。它反映了战略灵活性的思维方式,技术决策与业务成果保持一致。"
AI正在重塑云决策
McElroy表示,AI代表着巨大的潜在支出需求,并提高了基础设施战略的风险。
"连续三年全天候租用装载昂贵英伟达GPU的服务器,与直接购买相比将在财务上造成毁灭性后果,"他说,"但无缝使用明年模型的灵活性可能代表战略优势。"
思科首席工程师兼产品架构师Nik Kale表示,思科对真正属于公有云的内容变得更加深思熟虑。成本是一个因素,但主要驱动力是AI数据治理。
"云智能不是关于回迁——而是关于将AI的数据引力与正确的控制平面对齐,"他说。
IT部门已经分析出什么应该在私有云中,什么应该在公有云中。"训练和微调大型模型需要对客户和遥测数据进行强有力的控制,"Kale解释说。"因此我们越来越倾向于混合架构,推理和数据处理在安全的私有环境中进行,而编排和非敏感服务留在公有云中。"
思科的云智能策略始于数据分类和工作负载分析。他说,任何包含客户可识别信息、诊断跟踪和模型反馈循环的内容都在区域合规的私有云中处理。然后是"无状态服务、内容交付和遥测聚合,这些受益于公有云的弹性以实现规模和效率,"Kale说。
思科的方法还包括"为客户环境内的安全部署打包以前驻留在云中的功能——在本地提供相同的AI驱动洞察和自动化,而不将数据暴露给共享基础设施,"他说。"这为客户提供了采用AI功能的灵活性,而不会在数据驻留、隐私或成本方面做出妥协。"
Kale表示,这些实践改善了思科的合规态势,减少了推理延迟,并在云支出方面实现了可衡量的两位数减少。
AI从根本上改变他们云方法的一个领域是大规模威胁检测。"我们模型的早期版本完全在公有云中运行,但一旦我们开始在客户特定的遥测数据上进行微调,该数据的敏感性和数量使得云出口既昂贵又难以管理,"他说。"将训练和反馈循环移至区域私有云为我们提供了完整的可审计性并显著降低了传输成本,同时保持推理混合,使监管地区的客户获得亚秒级响应时间。"
IT在生成式AI支持助手方面看到了类似问题。"最初,案例记录和诊断日志在公有云大语言模型中处理,"Kale说。"当金融和医疗保健客户对数据离开其环境表达合理担忧时,我们重新架构了该功能,使其直接在他们的[虚拟私有云]或本地集群中运行。"
编排层仍在公有云中,但敏感数据永远不会离开他们的控制平面,Kale补充说。
AI还重塑了思科CX产品组合中遥测分析的处理方式。IT部门从超过14万个客户环境中收集PB级运营数据。
"当我们转向实时预测AI时,将原始时间序列数据传输到云端的成本和延迟成为瓶颈,"Kale说。"通过将特征提取和异常检测转移到客户的本地收集器,仅将高级风险信号发送到云端,我们大幅减少了出口流量,同时提高了模型保真度。"
在所有情况下,"AI使架构权衡变得清晰:特定工作负载受益于公有云弹性,但最敏感、数据密集型和延迟关键的AI功能需要更接近数据运行,"Kale说。"对我们而言,云智能已经不再是关于回迁,而更多是关于将数据引力、隐私边界和推理经济学与正确的控制平面对齐。"
更便宜的执行路径
与宝洁类似,世界保险协会认为云智能转化为实施FinOps框架。CIO Michael Corrigan表示,这意味着基于业务用例对虚拟机进行优化、一致的构建,并了解需要多少存储和计算。
这些是确定成本的主要驱动因素,"所以我们有一套一致的标准,根据用例来调整不同环境的大小,"Corrigan说。这为世界保险提供了Corrigan所说的自动化架构。
"然后我们优化构建,确保开启弹性等功能。因此当服务通常在夜间不使用时,它们会关闭并减少存储量以关闭计算量",这样公司就不用为此付费,他说。"一切都始于优化或标准的基础。"
世界保险与其云提供商在不同承诺级别上合作。例如,通过微软,这家保险公司可以选择使用虚拟机,或者Corrigan所说的"预留实例"。通过告诉提供商他们计划消费多少机器或打算花费多少,他可以尝试协商折扣。
"这就是FinOps框架必须真正到位的地方……因为显然,你不想承诺你不会消费的支出水平,"Corrigan说。"这是消费者或我们作为使用这些云服务的组织获得真正大幅度预付折扣的好方法。"
世界保险正在使用AI进行自动化和警报。AI工具通常按计算处理模型收费,"你可以设计查询,如果是不太复杂的内容,它将命中更便宜的执行路径"并转到小语言模型(SLM),后者不使用那么多处理能力,Corrigan说。
用户获得满意的结果,"成本更低,因为你消费的更少,"他说。
这就是公司采用的策略——将AI查询路由到更便宜的模型。如果有更复杂的工作流程或流程,它将首先路由到SLM"看看是否符合要求,"Corrigan说。如果需求更复杂,它会进入下一个阶段,这更昂贵,通常涉及需要处理更多数据才能为终端用户提供所需内容的大语言模型。
"所以我们也试图以这种方式管理成本,这样我们只消费基于流程复杂性真正需要消费的内容,"他说。
云是"活的框架"
Hylaine的McElroy说,CIO和CTO需要更开放地讨论混合基础设施设置的好处,以及过去几年中技术水平如何变化。
"许多组织正在与他们本能地知道过高的云成本作斗争,但当CFO不知道他们错过了什么节省时,几乎没有动机去承担回迁的风险工作,"他说。
Lucetti将宝洁的云战略描述为"活的框架",并表示在接下来的几年中,公司将继续利用正确的云功能来实现AI和智能体的业务价值。
"目标很简单:保持技术与业务增长的一致性,同时在快速变化的数字环境中保持敏捷,"她说。"云转型不是目的地——而是旅程。在宝洁,我们知道成功来自于将技术决策与业务成果保持一致,并拥抱灵活性。"
Q&A
Q1:什么是云智能策略?它与云优先有什么区别?
A:云智能策略是指为特定工作负载选择最佳部署方法,而非将所有内容都迁移到云端。与云优先不同,云智能更注重根据业务需求、成本效益和技术要求来决定工作负载的最佳位置,包括公有云、私有云或本地数据中心。
Q2:AI如何影响企业的云部署决策?
A:AI重塑了云决策,主要体现在数据治理和成本控制方面。由于AI训练需要对客户数据进行强有力控制,许多企业选择混合架构,将敏感数据处理放在私有环境中,同时利用公有云的弹性处理非敏感服务。AI的高计算成本也促使企业更谨慎地选择部署位置。
Q3:FinOps框架在云智能策略中发挥什么作用?
A:FinOps框架帮助企业实现云成本优化和治理。它包括制定一致的虚拟机构建标准、理解存储和计算需求、启用弹性功能以及与云提供商协商承诺折扣。通过FinOps实践,企业能够实现成本透明度,避免资源浪费,并做出更明智的云投资决策。
好文章,需要你的鼓励
AWS re:Invent大会展示了亚马逊在智能代理AI和定制模型方面的重大进展,包括AgentCore平台更新和Nova Forge服务发布。英伟达CEO黄仁勋在独家访谈中预测AI工厂将在边缘计算中普及,形成分布式智能工厂模型。尽管谷歌和亚马逊推出自研芯片挑战英伟达,但英伟达凭借CUDA生态系统优势仍将保持市场主导地位。地缘政治因素可能重塑半导体格局,台积电地位关键。
波恩大学研究团队首次量化AI训练的材料成本,发现一块GPU含32种元素,93%为重金属。训练GPT-4需消耗约7吨金属材料,其中多为有毒重金属。研究建立了从计算需求到硬件消耗的评估框架,发现通过软硬件优化可减少93%的资源消耗。该研究揭示了AI发展的隐性环境代价,呼吁行业从规模竞赛转向效率革命,实现可持续发展。
Lumen技术CTO戴夫·沃德指出,当前互联网基础设施无法满足AI工作负载和数据流量需求。AI兴起与企业对云计算需求的演变正推动新的云经济和"云2.0"概念。他预测未来3-5年将出现支持下一代需求的云基础设施。CIO需要重新设计企业网络架构,摆脱传统的集线器辐射式设计,采用多云直连模式来适应AI时代要求。
南开大学团队构建了迄今最大规模的结肠镜AI数据库COLONVQA,包含110万视觉问答条目。他们发现现有AI模型存在泛化能力不足和容易被误导等问题,因此开发了首个具备临床推理能力的结肠镜AI模型COLONR1。该模型采用多专家辩论机制生成推理数据,在综合评估中准确率达56.61%,比传统方法提升25.22%,为智能结肠镜诊断从图像识别向临床推理的转变奠定了基础。