亚马逊云服务如何让网络基础设施"隐于无形"

亚马逊云服务(AWS)正致力于让网络基础设施实现"无感化"运行。过去15年,AWS自主研发了网络硬件与软件,包括运行NetOS系统的定制化交换机,当前传输速率达51.2Tbps,下一代产品将提升至102.4Tbps。AWS网络覆盖约200万台设备、5000至6000万条光学链路,光纤总长约2000万公里。为降低延迟,AWS已部署空芯光纤,延迟减少30%,并为AI服务优化了高带宽网络架构。

在美国加利福尼亚州库比蒂诺市一栋低调的三层办公楼里,亚马逊云服务(AWS)的工程师们正致力于一项特殊使命:让网络变得"无感化"。

他们在大楼中心没有窗户的硬件开发实验室里工作,周围环绕着一圈办公隔间,窗外是稀疏的停车位和围墙边的树木。

AWS全球网络工程副总裁马特·雷德在四月下旬参观位于托里大道的AWS实验室时表示:"网络应该像电灯开关一样——它就该好好用。没有人真正关心网络本身,它只是提供一种功能。坏了你才会注意到它,否则你希望它不碍事。这是我们过去15年来的核心理念——如何让网络退到幕后?"

从业务角度看,AWS在2010年曾遭遇网络瓶颈。亚马逊高级副总裁兼杰出工程师詹姆斯·汉密尔顿在一次题为"数据中心网络挡了我的路"的演讲中明确提出了这一问题。

雷德解释说:"那是云计算的早期阶段。但即便在那时,随着我们观察到的带宽增长趋势,传统网络架构显然无法支撑未来的规模扩张,必须从根本上做出改变。"

汉密尔顿对垂直整合的网络技术栈提出批评,认为这种模式阻碍了创新,同时为网络设备制造商维持了高利润。他将其比作主机业务模式,并表示更倾向于服务器业务模式——那种充满竞争、拥抱开源软件的生态。

打造专属硬件与软件体系

雷德介绍,AWS的网络主要由三类硬件构成:基于专用集成电路(ASIC)的网络设备(含交换机和路由器),负责将数据从一个端口转发至另一个端口;光收发器,通过激光发送和接收光信号;以及光纤或铜线等线缆。

大约15年前,AWS在大规模建设初期便决定掌控自己的网络技术。"它是我们所构建一切的基础,所以我们决定开发自己的硬件和软件,"雷德说。

AWS从小规模起步,与第三方合作开发网络设备,持续迭代,直至将自研技术覆盖数据中心网络、核心网络和边界网络的全部范围。

雷德指出,AWS有一点与众不同:其他网络服务商通常会针对汇聚网络、核心网络和边界网络分别采用不同的交换ASIC,因为各层对内存、性能和吞吐量的需求各异。"他们会为不同的交换机选用不同的芯片,而我们所有场景只用一种。"

原因在于简洁性。"如果只专注于一件事并将其做到极致,所有精力都投入到使其高度可靠上,"雷德说,"这也有助于我们扩展网络,因为在管理供应链或规划扩容时,无需在多个相互竞争的SKU之间权衡。"

他坦承,这种做法也带来了挑战。"不同类型的交换ASIC确实各有功能优势,但这正是掌控自有软件的价值所在。通过在软件层面下功夫,我们有效避免了对定制芯片的依赖,以富有创意的方式让设备端的硬件逻辑尽量简洁,同时仍能为客户提供出色的性能和功能。"

目前,AWS的自研交换机运行在一款名为NetOS的定制Linux系统上,通过64个800Gbps端口可实现51.2Tbps的传输速率。在未来12个月内,下一代交换机将支持64个1.6Tbps端口,总传输速率达102.4Tbps。

"所有设备运行同一套操作系统,这对我们来说非常强大,"雷德说,"从安全角度看,代码完全由我们掌控,我们可以扫描漏洞、修复问题,非常频繁地为设备打补丁和更新。"

规模与精度的新挑战

AWS的网络包含约200万台设备、5000万至6000万条光链路和光收发器,陆地与海底光纤总长约2000万公里——雷德表示,这足以在地球和月球之间来回往返25次。而这仅是建筑物之间的线缆长度,若计入数据中心内部的线缆,总量还要高出约一个数量级。

全网高精度时钟同步是AWS正在攻克的难题之一。AWS网络产品开发总监萨提什·万加拉表示:"我们需要确保数据中心内所有服务器的时钟精确同步,为此专门构建了一套独立网络,将同步精度控制在微秒级别。"

空芯光纤:延迟降低30%

AWS近期网络提升的重要举措之一,是部署空芯光纤。与传统光纤中光信号在玻璃纤芯中传播不同,空芯光纤由玻璃管包裹空气或真空构成,折射干扰更少,光速更接近其自然极限。

这带来了延迟降低30%的效果。雷德表示,这对于数据中心的选址规划意义重大——在同一区域内,不同可用区的数据中心之间的延迟必须足够低,以确保客户应用表现如同部署在同一地点。空芯光纤有效扩大了可用建设半径,为AWS争取更多土地和电力资源创造了条件。

"我们已在部分地点部署了空芯光纤,"雷德说,"它比传统光纤贵,但如果能改善延迟或更好地服务客户,与数据中心、服务器、网络设备等整体成本相比,光纤本身的费用并不高。"

生成式AI驱动带宽需求激增

雷德表示,带宽需求在过去四五年间随着生成式AI服务的兴起而显著增加。"加速计算型服务器的带宽需求是传统CPU服务器的三到四倍,"他说,"我们仍在使用相同的硬件和软件,但以不同的方式将其组合在一起。"

为了在数据中心内让更多高带宽服务器共享同一网络并降低延迟,AWS减少了两台服务器之间的网络设备数量。雷德介绍,AWS的UltraCluster网络将两点之间的网络设备数量从七个减少至五个,从而支持更大规模的集群部署。

确保可靠性:从萤火虫连接器到端到端质检

在大规模运营中,物理布线基础设施的可靠性同样至关重要。雷德指出,光纤连接器若未完全就位或存在污染,就可能影响信号质量,这在高密度部署中是一大挑战。

为此,AWS开发了一种名为"萤火虫"的连接器,外形有些像经典街机游戏《太空侵略者》中的外星人。它的作用是在新端点接入前验证光纤信号路径是否畅通。"它会将发送和接收回路连接起来,"雷德解释道,"交换机发出信号后,如果能收到回传信号,就证明光纤路径是干净的,客户端接入后即可直接使用。"

当网络正常运作时——超过99%的时间都是如此——你甚至不会意识到这些工程的存在。这,正是AWS工程师们所追求的境界。

Q&A

Q1:AWS为什么要自研网络硬件和软件?

A:AWS自研网络硬件和软件的核心原因是掌控性和可靠性。传统垂直整合的网络架构创新慢、成本高,无法支撑云计算的规模扩张。通过自研,AWS可以统一使用一种交换ASIC和一套NetOS操作系统,便于快速修复漏洞、频繁更新,同时降低供应链管理复杂度,并针对客户需求开发独特功能,如微秒级时钟同步网络。

Q2:空芯光纤和普通光纤有什么区别?AWS为什么要用它?

A:普通光纤中光信号在玻璃纤芯中传播,而空芯光纤的芯层是空气或真空,折射干扰更少,光速更接近自然极限,因此延迟可降低约30%。AWS引入空芯光纤主要是为了扩大数据中心的可建设范围——更低的延迟意味着同一区域内的数据中心可以建在更大半径内,有助于获取更多土地和电力资源。目前AWS已在部分地点完成部署。

Q3:生成式AI对AWS网络带宽需求有多大影响?

A:影响非常显著。AWS全球网络工程副总裁雷德表示,过去四五年生成式AI服务的兴起,使带宽需求大幅增长。搭载GPU等加速芯片的服务器,其带宽需求是传统CPU服务器的三到四倍。为此,AWS专门推出了UltraCluster网络拓扑,将两台服务器之间的网络设备数量从七个减少到五个,以支持更大规模、更低延迟的AI训练和推理集群。

来源:The Register

0赞

好文章,需要你的鼓励

2026

05/08

10:07

分享

点赞

邮件订阅