亚马逊云服务在人工智能时代重新定义Kubernetes运营的重大举措中,今日宣布推出Amazon EKS Capabilities——一套完全托管的Kubernetes原生工具套件,将流行的开源工具直接集成到EKS控制平面中。这一发布标志着该公司在降低企业平台团队运营复杂性、提升开发者生产力方面迈出的最积极步伐之一。
在西雅图举行的re:Invent大会前独家采访中,AWS容器工程总监Eswar Bala表示,Kubernetes已悄然成为人工智能的默认控制平面,引发了在容器上运行的AI工作负载的前所未有增长。EKS Capabilities正是AWS的回应。
"如今开发者70%的时间都在管理基础设施,"他向媒体表示。"EKS Capabilities颠覆了这一模式。我们承担繁重的工作,让他们专注于构建。"
Bala说,AWS正看到由Kubernetes管理的图形处理单元使用量年增长一倍。"智能体工作负载、多模态推理、GPU批处理作业——客户希望自动化、扩展性和可靠性,这正是此次发布所提供的。"
大规模Kubernetes管理
AWS正在推出三个完全托管的组件,支持大规模Kubernetes使用。Argo CD是一个声明性GitOps系统,据AWS称,已被近一半的Kubernetes团队在生产环境中使用。AWS处理Argo CD的所有基础设施,包括升级、补丁、高可用性和扩展。
AWS Controllers for Kubernetes使组织能够通过Kubernetes应用程序编程接口直接管理AWS云资源。AWS表示它承担部署、运营和故障排除控制平面集成的任务,客户无需自行处理。
Kubernetes Resource Orchestrator让平台团队构建可重用的、有明确观点的资源包,在保持完全原生Kubernetes的同时抽象掉复杂性。
这些服务旨在帮助客户管理可扩展、标准化的Kubernetes平台,而无需构建自己的GitOps管道、资源编排层或控制集成。
"这些工具不再需要您自己安装,它们运行在AWS拥有的服务账户中,"Bala说。"我们处理扩展、补丁、升级。客户只需使用它们。"
容器在AI时代的演进
Bala表示,在过去十年中,容器的作用发生了巨大变化。从最初用于Web服务的轻量级打包,现在已成为高级AI部署的支柱。
"基础模型构建者依赖Kubernetes,"他说。"动态GPU分配、调度、大规模扩展——没有Kubernetes生态系统在过去10年中达到的成熟度,这些都无法实现。"
AWS一直在为这一转变做准备:去年12月宣布的EKS Auto Mode自动化GPU配置和大小调整;去年秋季推出的Karpenter动态扩展GPU和CPU集群工作负载;7月宣布的支持多达100000个节点的EKS Ultra Clusters支持基础模型训练和超大规模推理;引入的Amazon Q集成提供AI驱动的故障排除,AWS称可将运营任务从几天缩短到几分钟。
隐形基础设施管理
AWS表示,其目标是让Kubernetes感觉像原生AWS服务,而不是自管理生态系统。通过新的EKS Capabilities,客户团队不再需要维护Argo CD集群或ACK控制器。AWS自动更新、修补和分析兼容性问题。身份和访问管理以及单点登录集成由AWS身份中心处理。平台团队可以更轻松地模板化和标准化集群资源。开发者以声明性方式与Kubernetes交互。
Bala暗示,未来的发展将专注于面向智能体的应用架构,这需要更强的隔离性和超越标准容器的新编排模式。
"您将拥有许多智能体协同工作,"他说。"它们需要沙盒、隔离的环境。容器可能会进一步演进,或者出现全新的边界。"
他指出,生成式AI本身就是一个运行时,容器运行时与AI运行时的融合正在加速。
Amazon EKS Capabilities现已在商用AWS区域提供,无最低费用。客户仅为使用的服务付费。
突破性分析
今天的发布不仅仅是便利性更新;这是AWS对Kubernetes将支撑下一个十年AI基础设施的战略押注。通过在一个伞形结构下运营化GitOps、AWS资源API、AI驱动的故障排除和大规模GPU自动化,AWS正在将EKS从容器编排服务演进为完全托管的AI云平台。
Bala说,这一信息是明确的:"下一个十年的AI将运行在高度自动化、容器原生的基础设施上。EKS Capabilities正是我们交付这一未来的方式。"
Q&A
Q1:Amazon EKS Capabilities是什么?它解决了什么问题?
A:Amazon EKS Capabilities是AWS推出的完全托管Kubernetes原生工具套件,将流行开源工具直接集成到EKS控制平面中。它主要解决开发者70%时间都在管理基础设施的问题,让AWS承担繁重工作,使开发者专注于构建应用。
Q2:EKS Capabilities包含哪些核心组件?
A:EKS Capabilities包含三个核心组件:Argo CD(声明性GitOps系统)、AWS Controllers for Kubernetes(通过Kubernetes API管理AWS云资源)、Kubernetes Resource Orchestrator(构建可重用资源包)。AWS负责所有基础设施管理,包括升级、补丁和扩展。
Q3:为什么AWS要在AI时代重新定义Kubernetes运营?
A:因为Kubernetes已成为AI的默认控制平面,AWS看到由Kubernetes管理的GPU使用量年增长一倍。智能体工作负载、多模态推理、GPU批处理作业等AI应用需要自动化、扩展性和可靠性,传统容器编排已无法满足这些需求。
好文章,需要你的鼓励
英伟达宣布推出Alpamayo-R1开源推理视觉语言模型,专为自动驾驶研究设计,这是首个专注于自动驾驶的视觉语言行动模型。该模型基于英伟达Cosmos Reason模型构建,能够处理文本和图像,让车辆"看见"周围环境并做出决策。英伟达还发布了Cosmos Cookbook开发指南,帮助开发者训练和使用模型。这些技术对实现L4级自动驾驶至关重要。
NVIDIA研究团队开发的OmniVinci是一个突破性的多模态AI模型,能够同时理解视觉、听觉和文本信息。该模型仅使用0.2万亿训练样本就超越了使用1.2万亿样本的现有模型,在多模态理解测试中领先19.05分。OmniVinci采用三项核心技术实现感官信息协同,并在机器人导航、医疗诊断、体育分析等多个实际应用场景中展现出专业级能力,代表着AI向真正智能化发展的重要进步。
波兰AI语音公司ElevenLabs由两位30岁创始人Staniszewski和Dabkowski创立,其AI语音技术能够生成极其逼真的人声。公司在四年内从零发展到估值66亿美元,两位创始人均成为亿万富翁。该公司年收入1.93亿美元,净利润1.16亿美元,服务客户包括思科、Epic Games等知名企业。尽管面临深度伪造等技术滥用风险,ElevenLabs仍在与谷歌、微软等科技巨头竞争AI语音市场主导地位。
Salesforce研究团队发布BLIP3o-NEXT,这是一个创新的图像生成模型,采用自回归+扩散的双重架构设计。该模型首次成功将强化学习应用于图像生成,在多物体组合和文字渲染方面表现优异。尽管只有30亿参数,但在GenEval测试中获得0.91高分,超越多个大型竞争对手。研究团队承诺完全开源所有技术细节。