亚马逊已开始在AWS数据中心部署全新路由架构,据称该架构能够以更少的物理交换机实现更高吞吐量,同时大幅降低电力消耗。
亚马逊表示,这一由AWS网络实验室研究人员开发的架构被命名为"弹性网络图"(Resilient Network Graphs,简称RNG),是对当今数据中心主流"胖树"拓扑结构的一种更高效替代方案。
据亚马逊介绍,自今年4月起,RNG已成为大多数新建AWS数据中心的默认路由架构。该架构能够在减少69%路由器数量的同时,实现33%的吞吐量提升,正是这一优势推动了其大规模部署。更重要的是,在运营成本始终备受关注的行业背景下,路由交换设备数量的减少预计将带来网络基础设施电力消耗降低40%的显著成效。
亚马逊研究人员表示:"对客户而言,这意味着每一次API调用、数据库查询和机器学习训练任务背后都拥有更强韧的基础设施支撑,而无需更改任何一行代码。"
为何需要改变现有架构
科技行业不乏夸大宣传,尤其是在能源效率方面——在当前电力消耗成为重大制约因素的时代,这一领域已被证明存在根本性瓶颈。那么这项技术究竟经得起推敲吗?
回答这个问题,需要先了解现有胖树路由架构的局限性。胖树路由最早应用于20世纪90年代的超级计算领域,在2000年代因能良好应对数据中心庞大带宽需求而被广泛采用。
胖树架构是分层式的:路由交换基础设施按层级叠加,数据包在各层之间上下传输,由结构决定其寻找最短路径的方式。其弊端在于,随着数据中心网络规模扩大,该架构需要不断增加交换机和线缆基础设施才能维持吞吐量。在实际操作中,这迫使数据中心设计者出于成本考量不得不做出妥协,进而导致更高的网络拥塞。
多年来,业界一直在讨论一种理论上的替代方案——使用非层次化的"随机图"拓扑结构,例如2012年一所大学提出的Jellyfish项目所采用的方案。从原理上看,这种方案效率更高:交换机以随机方式在扁平网格中相互连接,避免了多层路由交换结构的需求。
亚马逊研究人员解释称,该方案也具备更强的容错能力:"没有任何一台路由器比其他路由器更重要。1%的路由器发生故障,仅会导致约1%的容量损失。"
然而,随机图拓扑也存在明显缺点,主要问题在于数据中心内部不同距离的交换机之间需要极其复杂的线缆连接,几乎难以实现。此外,每个节点都需要在内存中存储记录所有可能数据路径的庞大路由表。
RNG架构的技术创新
亚马逊研究人员表示,他们通过开发一种名为"Spraypoint"的全新路由算法解决了上述问题。该算法将随机图拓扑的基本理念与胖树的部分层次结构相结合,形成了一种"准随机"的折中方案。
数据流量被随机"分散"至邻近节点,从而拥有多条通往目的地的可选路径;而当数据包接近目的地时,则通过"路径点"交换机使用传统最短路径算法进行路由。
然而,最重要的创新是一种名为"ShuffleBox"的全新数据中心设备。它将随机图拓扑通常所需的复杂布线集中到一个单一设备中,实现了交换机之间的随机互联,同时避免了长距离线缆铺设。
尽管RNG所宣称的效率提升尚未经过独立验证,但亚马逊计划将其作为大多数新建数据中心默认架构这一事实本身,已在一定程度上提供了佐证。
亚马逊表示:"第一个准随机网络于2024年底在爱尔兰都柏林附近上线,承载了真实的生产流量。我们对照数学预测验证了其性能表现,识别出运营层面的优化空间,并在后续两处部署中加以应用。"
行业反响与未来展望
AWS咨询与托管服务提供商Mission Cloud的首席AI与数据科学家Ryan Ries对此项进展给予积极评价。
他表示:"整个行业对数据中心扩张的抵制情绪日益强烈,这与能源消耗、用水量以及对当地社区的影响密切相关,因此电力与水资源表现已成为当今云服务提供商面临的最重要议题之一。RNG的效率声明具有可信度,因为AWS明确表示该架构已投入生产,并已成为全球大多数新建数据中心的默认架构。"
云VoIP服务提供商4Voice的Amruth Laxman补充道,RNG的一个显而易见的优势在于,它证明了随机图特性确实可以融入数据中心网络。然而,由于其专有属性,短期内其直接影响可能较为有限。
他指出:"AWS以自主设计大部分网络设备著称。目前最大的问题在于其设计的开放程度。大多数超大规模客户无力承担相应成本,而AWS有足够的资源承担整个重新设计的费用。"
他还指出,使用任何全新技术对现有数据中心进行改造都将产生大量费用,这也是亚马逊仅计划在新建数据中心中使用RNG的原因。因此在短期内,"不要期望其他公司会效仿这一设计。"
Q&A
Q1:弹性网络图(RNG)架构和传统胖树架构相比,有哪些具体优势?
A:RNG架构相比传统胖树架构,能够在减少69%路由器数量的情况下实现33%的吞吐量提升,同时将网络基础设施的电力消耗降低约40%。此外,RNG采用准随机拓扑结构,没有单点故障风险,1%的路由器发生故障仅导致约1%的容量损失,容错能力更强。对用户来说,无需更改任何代码即可享受更稳定的基础设施支撑。
Q2:ShuffleBox设备在RNG架构中起到什么作用?
A:ShuffleBox是RNG架构中最关键的硬件创新。传统随机图拓扑最大的实施难点在于交换机之间需要大量复杂且跨越不同距离的线缆连接,几乎难以在实际数据中心中落地。ShuffleBox将这些复杂布线集中整合到单一设备中,使交换机之间能够实现随机互联,同时避免了长距离线缆铺设,从而让随机图拓扑真正具备了工程可行性。
Q3:RNG架构目前是否会在AWS现有数据中心全面推广?
A:目前不会。由于对现有数据中心进行架构改造需要承担极高费用,亚马逊仅计划在新建数据中心中采用RNG作为默认架构。该架构自2024年底在爱尔兰都柏林附近首次上线,目前已在多处新建数据中心部署。此外,由于RNG属于亚马逊的专有设计,短期内其他公司也不太可能直接效仿这一方案。
好文章,需要你的鼓励
大众汽车旗下ID. Polo与Cupra Raval已在西班牙马托雷尔工厂正式下线投产。两款车型起售价分别为24,995欧元和26,000欧元,均基于MEB+平台打造,搭载37kWh或52kWh电池组,续航里程最高可达454公里。这是大众"电动城市车家族"系列的首批产品,预计今年夏末秋初开始交付。大众集团通过跨品牌资源整合,实现约6亿欧元的成本节约,后续还将推出ID. Cross等新成员。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
三星宣布将于6月8日起为Samsung Health应用推出重磅功能更新,赶在Galaxy Watch 9传闻发布之前落地。新版本将引入多项AI驱动的生物特征分析功能,包括:综合心率、血氧、皮肤温度等数据的每日活力评分(Vitals)、结合体成分数据评估长期心脏健康的心脏健康评分、优化训练强度的每日有氧负荷追踪,以及横向对比用户群体的健身指数。此外,应用界面将重新划分为睡眠、营养、活动、正念和体征五大板块,并新增抗氧化指数、年龄指数和听力保护等个性化功能。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。