德国软件巨头 SAP 正在数据领域全力推进,以支持下一代 AI 应用场景。今天,该公司推出了 Business Data Cloud (BDC),这是一款新的 SaaS 产品,采用数据湖仓架构,帮助团队将 SAP 生态系统数据与来自不同源系统的外部数据相结合,创造长期价值。
该产品是与数据生态系统巨头 Databricks 开展重要合作的成果。本质上,SAP BDC 原生集成了 Databricks 数据智能平台的功能和数据。这消除了创建和维护复杂数据管道的需求,为高级 AI 代理和分析工作负载创建了统一的数据基础。
包括汉高在内的多家企业正在使用 BDC 支持其 AI 项目。SAP 本身也在使用强化后的 BDC 来支持新一代面向金融、服务和销售等特定领域的 Joule 代理。这一发展使 SAP 成为继 Microsoft 和 Salesforce 之后另一个通过强化数据平台为 AI 奠定基础的重要参与者。
SAP 的全新数据基础 多年来,SAP 凭借 S4/HANA 云和针对金融、供应链和人力资本管理的多个关键应用程序,成为企业资源规划 (ERP) 领域的领军企业之一。这些应用程序生成具有业务上下文的 PB 级数据,通过公司的业务技术平台 (BTP) 为团队提供 AI 和分析价值。
迄今为止,SAP BTP 拥有一个"数据领域",允许企业将 SAP 数据与非 SAP 系统的信息连接起来,最终通过 SAP 分析云和其他内部工具链接到下游应用程序。现在,公司正将这种体验发展成为由 Databricks 原生支持的统一 BDC。
SAP Business Data Cloud 的产品特点 这意味着 SAP 正在采用数据湖仓架构,创建一个统一基础,将所有 SAP 数据产品(从 SAP S/4HANA 和 SAP Ariba 中的财务、支出和供应链数据,到 SAP SuccessFactors 中的学习和人才数据)与存储在 Databricks 中来自其他各种关键业务系统的结构化和非结构化数据相结合。
一旦数据统一(通过零拷贝、双向共享),SAP BDC 可以利用 Databricks 特定功能进行数据仓库、数据工程和 AI 等工作负载,这些都由 Databricks unity catalog 进行管理。
SAP 数据和分析总裁兼 CPO Irfan Khan 告诉 VentureBeat:"我们将所有这些由 SAP 提供和管理的不同数据产品...以统一的数据模型持久化到 SAP Business Data Cloud 的数据湖仓中。这个数据湖仓将具有 Databricks 功能供用户构建应用。"
Khan 表示,以前那些在 Databricks 中有大量数据且在 S4 或 BW 中有 SAP 数据的用户必须构建和管理复杂的管道,同时将所有数据资产复制到 SAP 平台,同时重建整个语义和核心数据模型。这种方法耗时且需要用户随数据变化不断更新管道。然而,通过 Databricks 的原生集成,用户可以在一个地方访问所有内容,并直接在 BDC 之上进行数据工程、数据科学和其他任务。
对企业的意义 从本质上讲,这款由 Databricks 支持的产品为团队提供了一种更快速、更简单的方式来统一和调动封存在 SAP 和 Databricks 环境中的业务数据资产。
经过语义增强的组合数据将为构建面向不同用例的下一代 AI 应用铺平道路。例如,团队可以使用 Databricks 的 Mosaic AI 功能开发特定领域的 AI 代理,这些代理可以使用来自 SAP 业务数据和外部 Databricks 特定数据的上下文来自动化某些人力资本管理或供应链功能。
值得注意的是,SAP 本身正在利用这个增强的数据基础来支持现成的 Joule 代理,旨在自动化任务并加速销售、服务和财务功能的工作流程。这些代理深入理解端到端流程并协作解决复杂的业务问题。
此外,BDC 将具有"洞察应用"功能,允许用户将其数据产品和 AI 模型与外部实时数据连接,以提供跨业务功能的高级分析和规划。
更多数据合作伙伴即将加入 虽然这种合作凸显了 Databricks 和 SAP 的重大举措,但重要的是要注意,由 Ali Ghodsi 领导的数据巨头不会是唯一一个支持 BDC 的公司。
据 Khan 表示,数据共享和生态系统开放性是公司的首要设计原则,他们将通过合作伙伴连接功能扩展到其他数据平台。这意味着企业用户将能够选择他们喜欢的平台(或者他们已经绑定的平台),并为目标用例双向共享数据。
好文章,需要你的鼓励
这项研究介绍了Ankh3,一种创新的蛋白质语言模型,通过多任务预训练策略显著提升了模型性能。研究者采用两种互补任务:多掩码概率的掩码语言建模和蛋白质序列补全,使模型仅从蛋白质序列就能学到更丰富的表示。实验表明,Ankh3在二级结构预测、荧光预测等下游任务中表现优异,尤其在模型未曾训练过的任务上展现出强大泛化能力,为蛋白质设计和分析开辟了新路径。
法国波尔多大学研究团队开发了一个突破性框架,用于神经退行性痴呆症的差异化诊断。该框架将3D脑部MRI转换为文本报告,并利用强化学习优化的大语言模型进行详细诊断推理。不同于传统"黑箱"方法,这一系统能生成透明、有因果关系的解释,同时保持高诊断准确率。研究显示,通过群组相对策略优化(GRPO)训练的轻量级模型能展现复杂推理行为,包括假设检验和非线性思考,提供与临床决策流程一致的排序诊断结果。
这项研究提出了CLUE框架,首次能够生成自然语言解释来揭示AI事实核查系统不确定性的来源。与现有方法不同,CLUE能识别文本片段间的冲突与一致关系,并解释它们如何影响模型的预测不确定性。实验表明,CLUE生成的解释在三种语言模型和两个事实核查数据集上都更忠实于模型不确定性,用户评价其更有帮助、信息更丰富、冗余更少且逻辑更一致。CLUE不需要微调或架构更改,适用于任何白盒语言模型,为事实核查提供了实用支持。
来自香港科技大学和MiniMax的研究团队开发了SynLogic,一个可合成35种逻辑推理任务的框架与数据集,填补了AI逻辑训练资源缺口。研究表明,在SynLogic上进行强化学习训练显著提升了模型逻辑推理能力,32B模型在BBEH测试中超越了DeepSeek-R1-Distill模型6个百分点。更值得注意的是,将SynLogic与数学和编程数据混合训练不仅提高了这些领域的学习效率,还增强了模型的泛化能力,表明逻辑推理是构建通用AI推理能力的重要基础。