云基础设施初创公司 Together AI Inc. 在最新一轮融资中筹集了 3.05 亿美元,估值达到 33 亿美元。
该公司今日宣布完成由 General Catalyst 和 Prosperity7 共同领投的 B 轮融资。超过十几家投资方参与其中,包括 Nvidia Corp.、Salesforce Ventures 以及思科系统公司前首席执行官 John Chambers。
总部位于旧金山的 Together AI 运营着一个针对 AI 模型运行优化的公有云平台。该平台使开发者能够配置具有数千个图形处理器的服务器集群。Together AI 的数据中心配备了多种 Nvidia Corp. GPU,包括芯片制造商最新最强大的处理器 Blackwell B200。
Together AI 在名为 Inference Engine 的软件系统上运行客户的 AI 模型。据该公司称,其推理性能是主要公有云服务的两倍以上。该软件实现高速度的方式之一是将 FlashAttention-3 算法应用于客户的 AI 模型。
大语言模型在分析用户输入时会考虑上下文数据,如历史提示。它们使用注意力机制组件来实现这一点。Together AI 使用的性能优化算法 FlashAttention-3 通过重新组织 LLM 注意力机制执行计算的顺序来工作。此外,该算法还减少了 LLM 在底层 GPU 逻辑电路和 HBM 内存之间传输的数据量。
Together AI 的 Inference Engine 还实现了第二个性能优化技术:推测解码。大语言模型通常一次生成一个 token(数据单位)的提示响应。推测解码允许大语言模型同时生成多个 token 以加快工作流程。
据 Together AI 称,Inference Engine 使企业能够在其平台上部署现成和定制模型。
对于选择构建定制大语言模型的客户,该云服务提供商提供了一套名为 Training Stack 的训练工具。与 Inference Engine 一样,它使用 FlashAttention-3 来加速处理。Together AI 创建了一个包含超过 30 万亿个 token 的开源数据集,以加快客户的 AI 训练进程。
对于希望在其平台上运行现成大语言模型的开发者,该公司提供了超过 200 个开源神经网络库。内置的微调工具使用组织的训练数据来定制这些算法成为可能。Together AI 表示,开发者只需一个命令就可以启动微调项目。
Together AI 首席执行官 Vipul Ved Prakash 表示:"我们为这个 AI 优先的世界构建了一家云计算公司——将最先进的开源模型和高性能基础设施与 AI 效率和可扩展性的前沿研究相结合。"
此次融资公告之际,公司年度经常性收入已达到 1 亿美元。Together AI 表示,其平台被超过 45 万开发者使用,包括 Salesforce Inc.、DuckDuckGo Inc. 和 Mozilla Foundation 的工程师。
该公司将利用新资金增强其云平台。它最近获得了 20 千兆瓦的发电能力,以支持新的 AI 集群。其中一个即将建成的集群将配备 36,000 个 Nvidia Corp. 的 GB200 NVL72 芯片,每个芯片包含两个中央处理器和四个 Blackwell B200 图形卡。
好文章,需要你的鼓励
这项研究由新加坡国立大学团队开发的DualParal技术,通过创新的双重并行架构解决了AI视频生成的长度限制问题。该方法同时在时间帧和模型层两个维度实现并行处理,配合分块降噪机制、特征缓存和协调噪声初始化策略,使生成分钟级长视频成为可能。实验表明,在生成1,025帧视频时,DualParal比现有技术减少了高达6.54倍的延迟和1.48倍的内存成本,同时保持了高质量的视频输出,为内容创作者提供了生成更长、更复杂视频叙事的新工具。
SoloSpeech是约翰霍普金斯大学研究团队开发的创新语音处理技术,针对"鸡尾酒会效应"问题提出了全新解决方案。该系统通过级联生成式管道整合压缩、提取、重建和校正过程,实现了高质量目标语音提取。与传统判别式模型相比,SoloSpeech采用无需说话者嵌入的设计,直接利用提示音频的潜在空间信息与混合音频对齐,有效避免特征不匹配问题。在Libri2Mix及多个真实世界数据集上的评测显示,SoloSpeech在清晰度、质量和泛化能力上均达到了领先水平,为语音分离技术开辟了新方向。
这项由北京大学深圳研究生院、伟湾大学、腾讯ARC实验室和兔小贝智能联合研究的Sci-Fi框架,通过创新的对称约束机制,解决了视频帧间插值中的关键问题。研究团队设计了轻量级EF-Net模块,增强结束帧约束力,使其与起始帧形成平衡影响,从而生成更自然流畅的中间过渡帧。实验证明,该方法在各种场景下都优于现有技术,特别适用于电影制作、动画创作和视频编辑领域,显著降低了人力成本。
这项来自西北大学和谷歌的研究突破了传统马尔可夫强化学习的局限,通过贝叶斯自适应RL框架解释了大语言模型中涌现的反思性推理行为。研究团队提出的BARL算法通过维护多个解题策略的后验分布,指导模型何时何地进行反思性探索,在数学推理任务上展现出显著优势,比基线方法减少高达50%的标记使用量,同时提高了准确率。这一研究不仅解释了"为什么反思有用",还提供了实用的指导原则,为AI系统的自适应推理能力开辟了新方向。