大数据流处理软件提供商 Confluent Inc. 今日发布了强劲的财务业绩和下季度展望,同时宣布与 Databricks Inc. 达成重要合作伙伴关系,使其股价在盘后交易中上涨超过 14%。
公司第四季度调整后每股收益为 0.09 美元,超过华尔街预期的 0.06 美元。季度营收同比增长 23% 至 2.612 亿美元,高于分析师预期的 2.568 亿美元。
总体而言,Confluent 净亏损为 1.058 亿美元,较去年同期的 8,470 万美元有所扩大。
在生成式 AI 需求推动下,该公司被视为快速增长的大数据行业明星企业之一。Confluent 开发了广受欢迎的开源数据流平台 Apache Kafka,该平台被企业用于实时追踪销售、订单、交易和客户反馈等数据点。这些信息通过实时数据流传递,可使用 Confluent 的工具进行分析获取洞察。
由于超过 80% 的财富 500 强企业都在使用 Apache Kafka,且其快速分析新生成数据的能力使其increasingly 成为 AI 系统的关键组件,这一能力变得尤为重要。其最著名的客户之一是开启生成式 AI 热潮的 OpenAI。
Confluent 发展迅速,增长主要来自其云服务产品 Confluent Cloud。这是一个企业级 Apache Kafka 版本,客户可以在 Amazon Web Services、Google Cloud 和 Microsoft Azure 上运行,且比开源 Kafka 更易部署和管理。
公司约两年半前推出 Confluent Cloud,现已成为主要收入来源。本季度 Confluent Cloud 销售额同比增长 38% 至 1.38 亿美元。
联合创始人兼首席执行官 Jay Krebs 称赞公司本季度超越所有预期指标。他强调:"我们的发展势头反映了完整数据流平台对支持关键任务和实时 AI 应用的重要性日益提升。过去一年我们建立的重要合作伙伴关系和产品创新,使我们在 2025 年处于继续引领行业的有利位置。"
Confluent 在客户基础增长方面也表现强劲,年收入至少 10 万美元的客户数量同比增长 12% 至 1,381 个。
展望第一季度,Confluent 预计每股收益在 0.06-0.07 美元之间,中值略高于市场预期的 0.06 美元。2025 财年目标每股收益为 0.35 美元,符合预期。
Confluent 与 Databricks 的新合作旨在帮助客户克服数据生成的操作系统与数据分析系统之间的鸿沟。这些系统通常存在于独立的孤岛中,两者之间应用不同的流程,使实时数据难以与许多分析工具对接,这正是 Confluent 与 Databricks 共同应对的挑战。
双方宣布在 Confluent 的 Tableflow 与 Databricks 的 Delta Lake 和 Unity Catalog 之间建立双向集成,实现两个系统间的实时数据流通,为 AI 驱动的决策铺平道路。
Kreps 表示:"实时数据是 AI 的燃料。我们与 Databricks 合作,确保企业能够利用实时数据的力量,为最关键的用例构建复杂的 AI 驱动应用。"
今日盘后涨幅意味着 Confluent 股价今年迄今上涨超过 7%,但过去 12 个月仍下跌约 5%。
好文章,需要你的鼓励
这项来自麻省理工和滑铁卢大学的研究质疑了在AI文本排序中"思考过程"的必要性。研究者比较了三种文章重排模型:直接判断的StandardRR、先推理再判断的ReasonRR,以及禁用推理功能的ReasonRR-NoReason。实验结果表明,不仅推理过程没有提高排序质量,有时甚至会降低效果。主要原因是推理导致模型倾向于极端判断,难以表达"部分相关"这种微妙关系。即使应用"自洽性"等改进技术,简单直接的判断方式仍然更为高效有效。研究为信息检索系统设计提供了新视角:有时,少即是多。
TAGS是一种创新的医学问答框架,结合了泛医和专医两种视角,通过层次化检索和不确定性验证机制提升医学AI回答的准确性。该框架由穆罕默德·本·扎耶德人工智能大学等机构的研究团队开发,无需任何模型微调即可显著提升包括GPT-4o和DeepSeek-R1在内的大型语言模型在九个医学问答基准测试上的表现。TAGS通过模拟医疗专家协作、结构化知识检索和质量控制,解决了现有方法在复杂医学推理中的短板,为构建更可靠的医学AI系统提供了新思路。
这篇研究提出了时间抽象值学习(OTA)方法,解决离线目标条件强化学习中的长期规划问题。研究团队发现现有分层方法失败的关键在于高层策略无法生成合适子目标,原因是价值函数在长期规划中估计不准确。OTA通过"选项"概念实现时间抽象,有效缩短规划视野,使价值函数能提供更准确的优势信号。在复杂迷宫导航和视觉机器人操作任务中,OTA显著优于现有方法,证明了该方法在处理长期任务时的有效性。
这项研究探索了大语言模型内部可解释特征的形成过程,分析了它们在训练过程中(时间)、模型层级间(空间)和不同规模模型(尺度)的行为变化。研究团队使用稀疏自编码器技术,成功识别出特定语义概念在神经激活中出现的时间点和位置。研究结果显示,不同领域的知识概念在模型训练和规模扩展中存在明确的激活阈值,且在空间分析中发现了早期层特征会在后期层重新激活的现象,这挑战了对变换器模型表示动态的传统认知。