云基础设施初创公司 Together AI Inc. 在最新一轮融资中筹集了 3.05 亿美元,估值达到 33 亿美元。
该公司今日宣布完成由 General Catalyst 和 Prosperity7 共同领投的 B 轮融资。超过十几家投资方参与其中,包括 Nvidia Corp.、Salesforce Ventures 以及思科系统公司前首席执行官 John Chambers。
总部位于旧金山的 Together AI 运营着一个针对 AI 模型运行优化的公有云平台。该平台使开发者能够配置具有数千个图形处理器的服务器集群。Together AI 的数据中心配备了多种 Nvidia Corp. GPU,包括芯片制造商最新最强大的处理器 Blackwell B200。
Together AI 在名为 Inference Engine 的软件系统上运行客户的 AI 模型。据该公司称,其推理性能是主要公有云服务的两倍以上。该软件实现高速度的方式之一是将 FlashAttention-3 算法应用于客户的 AI 模型。
大语言模型在分析用户输入时会考虑上下文数据,如历史提示。它们使用注意力机制组件来实现这一点。Together AI 使用的性能优化算法 FlashAttention-3 通过重新组织 LLM 注意力机制执行计算的顺序来工作。此外,该算法还减少了 LLM 在底层 GPU 逻辑电路和 HBM 内存之间传输的数据量。
Together AI 的 Inference Engine 还实现了第二个性能优化技术:推测解码。大语言模型通常一次生成一个 token(数据单位)的提示响应。推测解码允许大语言模型同时生成多个 token 以加快工作流程。
据 Together AI 称,Inference Engine 使企业能够在其平台上部署现成和定制模型。
对于选择构建定制大语言模型的客户,该云服务提供商提供了一套名为 Training Stack 的训练工具。与 Inference Engine 一样,它使用 FlashAttention-3 来加速处理。Together AI 创建了一个包含超过 30 万亿个 token 的开源数据集,以加快客户的 AI 训练进程。
对于希望在其平台上运行现成大语言模型的开发者,该公司提供了超过 200 个开源神经网络库。内置的微调工具使用组织的训练数据来定制这些算法成为可能。Together AI 表示,开发者只需一个命令就可以启动微调项目。
Together AI 首席执行官 Vipul Ved Prakash 表示:"我们为这个 AI 优先的世界构建了一家云计算公司——将最先进的开源模型和高性能基础设施与 AI 效率和可扩展性的前沿研究相结合。"
此次融资公告之际,公司年度经常性收入已达到 1 亿美元。Together AI 表示,其平台被超过 45 万开发者使用,包括 Salesforce Inc.、DuckDuckGo Inc. 和 Mozilla Foundation 的工程师。
该公司将利用新资金增强其云平台。它最近获得了 20 千兆瓦的发电能力,以支持新的 AI 集群。其中一个即将建成的集群将配备 36,000 个 Nvidia Corp. 的 GB200 NVL72 芯片,每个芯片包含两个中央处理器和四个 Blackwell B200 图形卡。
好文章,需要你的鼓励
微软高级软件工程师Alice Vinogradova将自己用SAP ABAP语言编写的向量数据库ZVDB移植到了搭载Z80处理器的经典计算机Sinclair ZX Spectrum上。她发现ABAP(1983年)和Z80(1976年)几乎是同时代产物,都诞生于内存珍贵、每个字节都很重要的计算时代。通过应用Z80优化技术,尽管时钟频率相差857倍,但代码运行速度仅慢3-6倍。她认为这些老式优化技术具有普遍适用性,在现代硬件上依然有效。
这项由东京科学技术大学等机构联合发布的研究提出了UMoE架构,通过重新设计注意力机制,实现了注意力层和前馈网络层的专家参数共享。该方法在多个数据集上显著优于现有的MoE方法,同时保持了较低的计算开销,为大语言模型的高效扩展提供了新思路。
韩国电子巨头三星宣布收购美国西雅图数字健康技术公司Xealth,进一步扩大在健康领域的布局。Xealth专注于帮助医疗专业人员将数字健康技术整合到日常实践中,与70多家数字健康技术供应商合作,应用覆盖美国500多家医院。此次收购将推动三星向连接医疗保健平台转型,结合其在传感器技术和可穿戴设备方面的优势,完善Samsung Health平台功能。
小米团队开发的MiMo-7B模型证明了AI领域"小而精"路线的可行性。这个仅有70亿参数的模型通过创新的预训练数据处理、三阶段训练策略和强化学习优化,在数学推理和编程任务上超越了320亿参数的大模型,甚至在某些指标上击败OpenAI o1-mini。研究团队还开发了高效的训练基础设施,将训练速度提升2.29倍。该成果已完全开源,为AI民主化发展提供了新思路。