VAST数据公司与谷歌云联合发布了全托管VAST AI操作系统服务,该服务通过统一的全局命名空间跨混合环境支持谷歌TPU处理器。
VAST AI操作系统服务架构
VAST的AI操作系统本质上是其完整的软件栈,包括数据目录、数据库(通用命名空间)、数据空间、数据引擎、洞察引擎和智能体引擎。这套系统被设计为操作系统层,使用GPU服务器和网络硬件为AI模型和智能体提供训练、推理和智能体交互环境。
谷歌的TPU(张量处理单元)是谷歌为AI训练和推理工作负载设计的专用GPU硬件,可在谷歌云平台上运行此类工作负载。VAST表示,企业级客户现在可以"无缝连接在谷歌云和本地运行的集群,消除复杂的迁移过程,让数据在AI运行的任何地方都能立即可用"。
跨洲际数据流传技术突破
这一合作的重要意义在于,VAST和谷歌已经使用VAST的数据空间技术连接了相距超过10000公里的美国TPU集群和日本GPU处理集群。这一设置"在两个位置运行vLLM推理工作负载时,实现了对相同数据的无缝、近实时访问,支持智能工作负载调度,使组织能够在美国的TPU和日本的GPU上运行AI模型,无需复制数据或管理独立环境"。
VAST联合创始人杰夫·登沃思表示:"通过与谷歌云的合作,我们正在为客户提供完全托管的AI操作系统服务。通过智能流传技术扩展我们的全局命名空间,谷歌云客户可以通过谷歌云市场自动部署VAST托管集群,几分钟内即可投入生产,提供集成的治理和计费、弹性扩展以及由VAST处理的完整运维,让企业数据立即可用于智能体AI。"
技术性能与实测结果
这项VAST对谷歌云平台的支持使用了从收购的Red Stapler公司获得的技术。数据通过经过验证的NFS路径传输到TPU虚拟机,具有优化的模型加载和小文件/元数据感知的输入输出功能。
VAST表示,在使用Meta的Llama-3.1-8B-Instruct模型的测试中,连接到谷歌云平台TPU虚拟机的AI操作系统"在热启动时实现了与本地NVMe磁盘相当的模型加载速度,同时在冷启动期间保持可预测的性能"。更详细的测试结果显示,该设置在热启动时达到了与本地NVMe相当的加载时间,而在冷启动时虽然速度较慢,但表现出"可预测的稳定行为",数据加载时间至少是一致的。
市场竞争格局分析
需要注意的是,谷歌云平台的TPU没有英伟达GPU Direct功能。不过,谷歌云平台确实提供了Hyperdisk ML(为AI推理/服务工作负载优化的块存储服务)以及云存储FUSE和并行存储中的缓存功能,这些功能可以提高训练和推理的吞吐量并降低延迟。
可以将VAST的AI操作系统理解为维护一个虚拟中央数据存储,将数据子集流传输到AI模型在英伟达GPU或谷歌云平台TPU上执行的位置,无论是在本地还是在谷歌云中,或者两者兼而有之。不需要在连接站点的网络中复制或拷贝完整的数据集。VAST表示其客户"今天就可以在谷歌云上针对现有的本地数据集运行生产AI工作负载,无需迁移规划、传输延迟或延长的合规周期"。
客户可以选择将哪些数据迁移、复制或缓存到谷歌云,同时保持单一命名空间,通过在各处应用统一的访问控制、审计和保留策略来实现一致的治理和合规性。
VAST今天就可以在谷歌云中部署。联合验证和建立跨谷歌云和外部集群的VAST数据空间的参考指导已向合格客户和合作伙伴提供。
行业发展前景
这种从虚拟中央位置向全球分布的数据中心提供数据的能力也是Hammerspace全球数据环境的一个特性。这支持包含GPU服务器本地附加存储驱动器(称为零层)的功能,因此等同于VAST数据的"本地NVMe磁盘"。
Arcitecta也具备通过其Mediaflux实时产品将AI相关数据流传输到远程数据中心的能力。VAST、Hammerspace和Arcitecta在这个全球远程智能AI数据流传输市场中形成竞争态势。
VAST的优势在于谷歌TPU和托管服务支持,以及在以CoreWeave为首的NeoCloud GPU服务器云以及X/AI的Colossus等私有GPU云方面的发展势头。我们认为VAST有意与AWS和Azure建立类似的完全托管AI操作系统服务,形成AI操作系统公有云服务三强格局,同时支持在本地、AWS、Azure和谷歌云平台环境中运行混合AI环境的企业客户。
Q&A
Q1:VAST AI操作系统服务的主要功能是什么?
A:VAST AI操作系统是一套完整的软件栈,包括数据目录、数据库、数据空间、数据引擎、洞察引擎和智能体引擎。它能够为AI模型和智能体提供统一的训练、推理和智能体交互环境,通过全局命名空间实现跨混合环境的数据访问。
Q2:VAST如何实现跨洲际的数据流传输?
A:VAST使用数据空间技术连接了相距超过10000公里的美国TPU集群和日本GPU处理集群,实现对相同数据的无缝、近实时访问。这种技术支持智能工作负载调度,让组织能够在不同地区的处理器上运行AI模型,无需复制数据或管理独立环境。
Q3:与本地存储相比,VAST AI操作系统的性能如何?
A:在使用Meta的Llama-3.1-8B-Instruct模型测试中,VAST AI操作系统在热启动时实现了与本地NVMe磁盘相当的模型加载速度。在冷启动时虽然速度较慢,但表现出可预测的稳定行为,数据加载时间保持一致。
好文章,需要你的鼓励
科技泡沫并非世界末日,从经济角度看,泡沫是押注过大导致供过于求。AI泡沫问题复杂在于AI软件开发节奏与数据中心建设周期的时间错配。甲骨文关联数据中心获180亿美元信贷,Meta承诺三年内投入6000亿美元基础设施。麦肯锡调查显示企业虽广泛使用AI但规模有限,多数仍持观望态度。微软CEO表示更担心数据中心空间不足而非芯片短缺,电力需求成为新瓶颈。
Salesforce AI研究团队构建了首个大规模多模态文档RAG评测基准UniDoc-Bench,包含7万页真实PDF文档和1600个问答对,覆盖8个领域。研究发现文本图像融合检索策略显著优于单一模态和联合多模态方法,为未来AI文档理解系统提供了"分工合作"的设计思路。
Goodfire.ai研究人员首次发现AI语言模型中记忆和推理功能通过完全独立的神经通路运作。研究显示,移除记忆通路后,模型丧失97%的训练数据复述能力,但逻辑推理能力几乎完全保留。令人意外的是,算术运算与记忆共享神经通路而非推理通路,这可能解释了AI模型在数学方面的困难。该技术未来有望用于移除版权内容或敏感信息而不损害模型核心功能。
腾讯研究团队发现AI训练中"推理火花"现象,揭示低概率词汇如"等等"、"不过"等在维持AI探索能力中的关键作用。团队开发的低概率正则化方法通过精准保护有价值的低概率词汇,在数学推理任务中实现60.17%准确率,比传统方法提升2.66%,为AI创造性思维研究开辟新路径。