专门为人工智能模型开发和部署构建云服务的初创公司Together Computer Inc.(运营名称为Together AI)今日宣布,其自动化GPU集群配置服务Instant Clusters正式全面上线。
该公司表示,客户可以通过单一应用程序编程接口访问GPU集群,规模从配备8个GPU的单节点系统到拥有数百个处理器的大型多节点系统不等。该服务支持英伟达最新硬件,包括Hopper和Blackwell GPU,并针对分布式训练和弹性推理等应用场景进行了优化。
Together AI首席产品官Charles Zedlewski表示,该服务自初夏开始进行内测,正式版本根据用户反馈加入了多项更新功能,包括改进的自动扩缩容功能、动态扩展预留基础设施的能力,以及对基础设施即代码工具Skypilot和Terraform的支持。
"我们添加了Terraform支持,让用户能够围绕这些GPU集群构建自己的自动化系统,"Zedlewski说,"我们还增加了重新创建集群并使用原始数据和存储重新挂载的功能。"
这种重新挂载功能支持间歇性训练工作负载,用户可以在大规模模型开发中常见的长时间周期内暂停和恢复训练任务。
Instant Clusters本质上旨在模拟传统云基础设施的用户体验,同时处理AI工作负载的特定需求。集群预装了驱动程序、调度器和网络组件,包括GPU Operator、英伟达网络操作器和InfiniBand互连。该公司表示,手动配置这些组件可能需要数天时间。
Zedlewski指出,由于GPU基础设施与传统CPU环境存在根本差异,安装和配置仍主要依赖手动流程。"GPU基础设施的整个虚拟化和自动化堆栈与我们长期熟悉的x86 CPU基础设施的等效堆栈存在显著差异,"他说。云计算提供商花费了20年时间微调CPU基础设施,但仍在学习如何针对AI进行优化。
Together AI表示,公司在集群可用前会执行硬件检查、压力测试和节点间通信验证。"如果你配置了一个8节点、64GPU的集群,我们基本上会在每个节点出现在你的环境中之前对其进行预测试,"Zedlewski说。
Instant Clusters针对Kubernetes、Slurm和其他编排工具进行了优化。客户可以锁定特定的驱动程序和英伟达Cuda版本,并重复使用自定义容器镜像,以简化训练和推理阶段的可重现性。
存储可按需挂载到集群。虽然用户必须使用Together AI的POSIX兼容并行文件系统,但存储和计算可以独立扩展。
该服务根据使用时长支持可变定价模式,提供小时、日和多月承诺选项。低端英伟达HGX H100推理集群根据客户的频次承诺,价格从每小时1.76美元到2.39美元不等。英伟达高端HGX B200长期承诺价格为每小时4美元,按需使用价格为每小时5.50美元。
Zedlewski表示,大多数组织很难通过自建基础设施来匹配这种成本效率:"如果有人试图自行构建,我会感到非常惊讶。"
Q&A
Q1:Instant Clusters是什么服务?
A:Instant Clusters是Together AI推出的自动化GPU集群配置服务,允许客户通过单一API访问从8个GPU的单节点到数百个处理器的大型多节点GPU集群,支持英伟达最新的Hopper和Blackwell GPU硬件。
Q2:Instant Clusters有什么优势?
A:该服务集群预装了驱动程序、调度器和网络组件,避免了手动配置需要数天时间的问题。还提供硬件检查、压力测试和节点间通信验证,确保集群在交付前完全可用。
Q3:Instant Clusters的价格如何?
A:服务支持按小时、日和多月承诺的可变定价模式。低端英伟达HGX H100推理集群每小时1.76-2.39美元,高端HGX B200长期承诺每小时4美元,按需使用每小时5.50美元。
好文章,需要你的鼓励
法国人工智能公司Mistral AI宣布完成17亿欧元(约20亿美元)C轮融资,由荷兰半导体设备制造商ASML领投。此轮融资使Mistral估值从去年的60亿美元翻倍至137亿美元。英伟达、DST Global等知名投资机构参投。作为欧洲领先的AI开发商,Mistral凭借先进的多语言大模型与OpenAI等美国公司竞争,其聊天机器人Le Chat具备语音模式等功能。
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
VAST Data收购了成立仅数月的初创公司Red Stapler,该公司由NetApp资深团队创立。Red Stapler创始人兼CEO Jonsi Stefansson将担任VAST云解决方案总经理,负责超大规模云战略。Red Stapler拥有6名开发人员,开发了跨SaaS交付、API集成、监控等功能的云控制平面和服务交付平台,将加速VAST AI OS在超大规模和多云环境中的部署,深化与全球领先超大规模云服务商的合作关系。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。