由于微软在建设数据中心以满足人工智能产品需求方面面临挑战,其云计算业务在本季度将继续保持缓慢增长。
Azure 云计算部门在第三财季的收入增长预计将达到 32%,与 2024 年最后一个季度相比并未显著提升。周四纽约股市开盘后,微软股价下跌 6% 至 415.79 美元。
总部位于华盛顿州雷德蒙德的这家软件巨头,凭借与 ChatGPT 开发商 OpenAI 的紧密合作关系,被视为人工智能产品商业化的领导者。过去一年,微软推出了一系列以 Copilot 为品牌的 AI 助手,但这些产品的变现进程比一些投资者预期的要慢。
微软表示,Azure AI 服务增长了 157%。但首席财务官 Amy Hood 在一次采访中表示,由于公司目前仍无法提供足够的数据中心容量来满足客户需求,整体云业务销售受到影响。她后来向投资者表示,产能限制问题预计将在本财年末得到缓解。
她表示,公司目前拥有近 3000 亿美元的商业服务合同尚未确认为收入。
需求依然强劲,商业预订量(未来收入的衡量指标)增长了 67%,"远超"微软的预期。Hood 将这部分归因于 OpenAI 对 Azure 的承诺。
与谷歌和亚马逊等云计算竞争对手一样,微软正在进行史无前例的投资,主要用于支持耗电量巨大的 AI 服务所需的芯片和数据中心。公司表示,预计本财年将在 AI 数据中心投入 800 亿美元。华尔街已开始质疑这些巨额支出,特别是在中国新兴公司 DeepSeek 发布了一个新的开源 AI 模型之后,该公司声称其性能可与美国技术相媲美,但成本仅为后者的一小部分。
公司表示,季度资本支出为 226 亿美元,超过分析师预期的约 210 亿美元。基础设施建设导致云业务利润率收窄。
截至 12 月 31 日的三个月内,总收入增长 12% 至 696 亿美元。在这个微软财年的第二季度中,每股利润为 3.23 美元。根据彭博社汇编的数据,分析师预计销售额为 689 亿美元,每股收益为 3.12 美元。
微软表示,第二季度 Azure 的增长中有 13 个百分点归因于 AI,相比第一季度的 12 个百分点有所提升。微软表示,其 AI 收入在本季度已达到年化 130 亿美元的水平。
好文章,需要你的鼓励
这项来自苹果公司的研究揭示了视频大语言模型评测的两大关键问题:许多测试问题不看视频就能回答正确,且打乱视频帧顺序后模型表现几乎不变。研究提出VBenchComp框架,将视频问题分为四类:语言模型可回答型、语义型、时序型和其他类型,发现在主流评测中高达70%的问题实际上未测试真正的视频理解能力。通过重新评估现有模型,研究团队证明单一总分可能掩盖关键能力差距,并提出了更高效的评测方法,为未来视频AI评测提供了新方向。
这篇来自KAIST AI研究团队的论文提出了"差分信息分布"(DID)这一创新概念,为理解直接偏好优化(DPO)提供全新视角。研究证明,当偏好数据编码了从参考策略到目标策略所需的差分信息时,DPO中的对数比率奖励形式是唯一最优的。通过分析DID熵,研究解释了对数似然位移现象,并发现高熵DID有利于通用指令跟随,而低熵DID适合知识密集型问答。这一框架统一了对DPO目标、偏好数据结构和策略行为的理解,为语言模型对齐提供理论支持。
VidText是一个全新的视频文本理解基准,解决了现有评估体系的关键缺口。它涵盖多种现实场景和多语言内容,提出三层评估框架(视频级、片段级、实例级),并配对感知与推理任务。对18个先进多模态模型的测试显示,即使最佳表现的Gemini 1.5 Pro也仅达46.8%平均分,远低于人类水平。研究揭示输入分辨率、OCR能力等内在因素和辅助信息、思维链推理等外部因素对性能有显著影响,为未来视频文本理解研究提供了方向。
ZeroGUI是一项突破性研究,实现了零人工成本下的GUI代理自动化在线学习。由上海人工智能实验室和清华大学等机构联合开发,这一框架利用视觉-语言模型自动生成训练任务并提供奖励反馈,使AI助手能够自主学习操作各种图形界面。通过两阶段强化学习策略,ZeroGUI显著提升了代理性能,在OSWorld环境中使UI-TARS和Aguvis模型分别获得14%和63%的相对改进。该研究彻底消除了传统方法对昂贵人工标注的依赖,为GUI代理技术的大规模应用铺平了道路。