随着图形处理单元(GPU)已成为训练和运行AI工作负载的关键设备,越来越多的云服务提供商现在推出云GPU实例——即配备GPU的云服务器。对于希望避免在自有硬件中部署GPU的高昂成本和复杂性的企业来说,这是个好消息。
然而,鉴于目前可用的GPU实例选择众多,确定哪一种最适合特定工作负载可能是个挑战。为了提供指导,本文将详细介绍当今云环境中可用的GPU实例类型以及各种选项的优缺点。
什么是云GPU实例?
云GPU实例是配备GPU的云服务器。
企业可以像访问任何其他类型的基于云的基础设施即服务(IaaS)资源一样"租用"云GPU实例:他们从云提供商那里选择所需的实例,启动它,然后远程连接到它。
云GPU实例允许组织访问GPU——其大规模并行处理能力在训练和部署AI模型时非常有价值——而无需直接购买昂贵的GPU硬件或担心设置和维护问题。
提供云GPU的平台有时被称为GPU即服务提供商——尽管从技术上讲,并非所有GPU即服务产品都是云GPU实例,因为有些(如GPU-over-IP选项)仅提供对GPU的访问,而不是配备GPU的完整云服务器。
云GPU实例类型
支持GPU的云服务器实例可以通过多种方式分类:
1. 超大规模云提供商与专业云提供商
GPU实例可从大型超大规模云提供商获得,如亚马逊网络服务(AWS)、微软Azure和谷歌云平台(GCP)。同时,越来越多专门从事GPU服务器的小型云供应商,如Lambda Labs和CoreWeave,正在进入市场。
2. 通用实例与专用实例
一些GPU云服务器配置为支持可从GPU受益的各种工作负载。其他则针对特定用例,如训练AI模型或在模型训练后运行模型。
通常,服务器类型之间的差异归结为服务器内GPU的类型,尽管其他资源(如服务器上可用的内存量)也可能是一个因素。
3. 共享服务器与专用服务器
在某些情况下,支持GPU的云服务器与其他用户共享。这意味着多家公司可以在同一服务器上运行工作负载。在其他情况下——通常标记为"专用"或"裸机"GPU实例——每个客户都可以独占访问服务器。后者解决方案通常更昂贵,但可以获得更好的性能,因为多个工作负载不会竞争相同的资源。
如何选择云GPU
要决定哪种云GPU服务器最适合您的需求,请考虑以下因素:
工作负载类型:如上所述,一些云GPU服务器针对特定类型的工作负载进行了优化,如果您需要运行这些类型的工作负载,这使它们很有吸引力。如果您需要支持多种类型的工作负载,请考虑通用云GPU。
GPU类型:一般来说,所有GPU型号都可以支持所有需要GPU的工作负载。区别在于它们的运行速度。也就是说,某些类型的工作负载可能需要仅在某些GPU上可用的硬件功能;如果是这种情况,请确保在承诺之前确定云服务器提供的GPU类型。
成本:云GPU的成本差异很大。如果您想最小化支出,请考虑针对成本优化的GPU实例。如果性能是您的首要任务,您可能会发现支付得越多,就越能访问最强大的GPU。
延迟:延迟(即数据在网络上移动的速度)对于一些受益于GPU的工作负载通常很重要,如服务AI模型(其中模型对用户的响应性取决于最小化GPU延迟)。对于其他工作负载,如模型训练(网络延迟通常不是问题),延迟就不那么重要了。如果您需要最小化延迟,请选择尽可能靠近用户或将与之交互的资源的云GPU服务器。
控制:虽然所有云GPU服务器都提供对配备GPU的硬件的访问,但用户可用的控制级别有所不同。您通常可以从专业云GPU提供商提供的专用服务器实例获得最多控制;超大规模云平台上的共享GPU服务器通常成本较低,但在操作系统和网络配置等领域不提供那么多选项。
在哪里找到云GPU
一旦您知道想要哪种类型的云GPU实例,您就需要找到提供它的云提供商。
一些GPU供应商,如NVIDIA,提供可以将企业连接到多个提供支持GPU服务器的云提供商的中央门户。当然,问题是它们只链接到其生态系统内的云合作伙伴和提供其硬件的合作伙伴。
如果您选择不通过这些中心之一定位云GPU实例,您可以直接连接到云提供商。所有主要的超大规模云服务商——AWS、Azure、GCP、IBM和阿里巴巴——都提供支持GPU的服务器。您还可以从专门从事GPU的云中找到选项,如Lambda Labs、CoreWeave、RunPod、Vast.ai和Paperspace(现在是DigitalOcean的一部分)。
好文章,需要你的鼓励
根据Synergy Research Group报告,超大规模运营商目前占全球数据中心容量的44%,到2025年第一季度末,大型超大规模设施数量达到1189个。企业自有数据中心占比从六年前的56%下降至34%,预计2030年将进一步降至22%。全球数据中心容量将持续快速增长,主要由超大规模容量未来六年三倍扩张驱动。所有地区数据中心总容量年增长率都将达到两位数。
中科院团队开发的SimpleGVR系统革新了AI视频增强技术,通过直接在潜在空间处理和创新的分阶段训练策略,能够将AI生成的低分辨率视频高效提升至高清画质。该系统不仅提升分辨率,还能修正AI视频特有的颜色混合等问题,在多项指标上超越现有顶级方法,为AI视频生成领域提供了实用的解决方案。
亨里克·韦德林通过其新创立的Audos公司,计划利用AI技术将创业孵化规模从每年"数十家"扩展到"数十万家"。该平台专门帮助非技术背景的"普通创业者"创建百万美元AI公司,采用15%收入分成模式而非股权投资。Audos提供AI工具、最高2.5万美元资金支持和社交媒体推广服务,已在测试阶段帮助数百家企业启动,获得1150万美元种子轮融资。
浙江大学联合腾讯AI实验室提出KnowRL方法,通过在强化学习中集成事实性奖励机制,有效解决慢思维AI模型在推理过程中的幻觉问题。该方法在保持原有推理能力的同时,显著提升了模型的事实准确性,为构建更可靠的AI系统提供了新思路。