亚马逊云服务如何让网络基础设施"隐于无形"

亚马逊云服务（AWS）正致力于让网络基础设施实现"无感化"运行。过去15年，AWS自主研发了网络硬件与软件，包括运行NetOS系统的定制化交换机，当前传输速率达51.2Tbps，下一代产品将提升至102.4Tbps。AWS网络覆盖约200万台设备、5000至6000万条光学链路，光纤总长约2000万公里。为降低延迟，AWS已部署空芯光纤，延迟减少30%，并为AI服务优化了高带宽网络架构。

在美国加利福尼亚州库比蒂诺市一栋低调的三层办公楼里，亚马逊云服务（AWS）的工程师们正致力于一项特殊使命：让网络变得"无感化"。

他们在大楼中心没有窗户的硬件开发实验室里工作，周围环绕着一圈办公隔间，窗外是稀疏的停车位和围墙边的树木。

AWS全球网络工程副总裁马特·雷德在四月下旬参观位于托里大道的AWS实验室时表示："网络应该像电灯开关一样——它就该好好用。没有人真正关心网络本身，它只是提供一种功能。坏了你才会注意到它，否则你希望它不碍事。这是我们过去15年来的核心理念——如何让网络退到幕后？"

从业务角度看，AWS在2010年曾遭遇网络瓶颈。亚马逊高级副总裁兼杰出工程师詹姆斯·汉密尔顿在一次题为"数据中心网络挡了我的路"的演讲中明确提出了这一问题。

雷德解释说："那是云计算的早期阶段。但即便在那时，随着我们观察到的带宽增长趋势，传统网络架构显然无法支撑未来的规模扩张，必须从根本上做出改变。"

汉密尔顿对垂直整合的网络技术栈提出批评，认为这种模式阻碍了创新，同时为网络设备制造商维持了高利润。他将其比作主机业务模式，并表示更倾向于服务器业务模式——那种充满竞争、拥抱开源软件的生态。

打造专属硬件与软件体系

雷德介绍，AWS的网络主要由三类硬件构成：基于专用集成电路（ASIC）的网络设备（含交换机和路由器），负责将数据从一个端口转发至另一个端口；光收发器，通过激光发送和接收光信号；以及光纤或铜线等线缆。

大约15年前，AWS在大规模建设初期便决定掌控自己的网络技术。"它是我们所构建一切的基础，所以我们决定开发自己的硬件和软件，"雷德说。

AWS从小规模起步，与第三方合作开发网络设备，持续迭代，直至将自研技术覆盖数据中心网络、核心网络和边界网络的全部范围。

雷德指出，AWS有一点与众不同：其他网络服务商通常会针对汇聚网络、核心网络和边界网络分别采用不同的交换ASIC，因为各层对内存、性能和吞吐量的需求各异。"他们会为不同的交换机选用不同的芯片，而我们所有场景只用一种。"

原因在于简洁性。"如果只专注于一件事并将其做到极致，所有精力都投入到使其高度可靠上，"雷德说，"这也有助于我们扩展网络，因为在管理供应链或规划扩容时，无需在多个相互竞争的SKU之间权衡。"

他坦承，这种做法也带来了挑战。"不同类型的交换ASIC确实各有功能优势，但这正是掌控自有软件的价值所在。通过在软件层面下功夫，我们有效避免了对定制芯片的依赖，以富有创意的方式让设备端的硬件逻辑尽量简洁，同时仍能为客户提供出色的性能和功能。"

目前，AWS的自研交换机运行在一款名为NetOS的定制Linux系统上，通过64个800Gbps端口可实现51.2Tbps的传输速率。在未来12个月内，下一代交换机将支持64个1.6Tbps端口，总传输速率达102.4Tbps。

"所有设备运行同一套操作系统，这对我们来说非常强大，"雷德说，"从安全角度看，代码完全由我们掌控，我们可以扫描漏洞、修复问题，非常频繁地为设备打补丁和更新。"

规模与精度的新挑战

AWS的网络包含约200万台设备、5000万至6000万条光链路和光收发器，陆地与海底光纤总长约2000万公里——雷德表示，这足以在地球和月球之间来回往返25次。而这仅是建筑物之间的线缆长度，若计入数据中心内部的线缆，总量还要高出约一个数量级。

全网高精度时钟同步是AWS正在攻克的难题之一。AWS网络产品开发总监萨提什·万加拉表示："我们需要确保数据中心内所有服务器的时钟精确同步，为此专门构建了一套独立网络，将同步精度控制在微秒级别。"

空芯光纤：延迟降低30%

AWS近期网络提升的重要举措之一，是部署空芯光纤。与传统光纤中光信号在玻璃纤芯中传播不同，空芯光纤由玻璃管包裹空气或真空构成，折射干扰更少，光速更接近其自然极限。

这带来了延迟降低30%的效果。雷德表示，这对于数据中心的选址规划意义重大——在同一区域内，不同可用区的数据中心之间的延迟必须足够低，以确保客户应用表现如同部署在同一地点。空芯光纤有效扩大了可用建设半径，为AWS争取更多土地和电力资源创造了条件。

"我们已在部分地点部署了空芯光纤，"雷德说，"它比传统光纤贵，但如果能改善延迟或更好地服务客户，与数据中心、服务器、网络设备等整体成本相比，光纤本身的费用并不高。"

生成式AI驱动带宽需求激增

雷德表示，带宽需求在过去四五年间随着生成式AI服务的兴起而显著增加。"加速计算型服务器的带宽需求是传统CPU服务器的三到四倍，"他说，"我们仍在使用相同的硬件和软件，但以不同的方式将其组合在一起。"

为了在数据中心内让更多高带宽服务器共享同一网络并降低延迟，AWS减少了两台服务器之间的网络设备数量。雷德介绍，AWS的UltraCluster网络将两点之间的网络设备数量从七个减少至五个，从而支持更大规模的集群部署。

确保可靠性：从萤火虫连接器到端到端质检

在大规模运营中，物理布线基础设施的可靠性同样至关重要。雷德指出，光纤连接器若未完全就位或存在污染，就可能影响信号质量，这在高密度部署中是一大挑战。

为此，AWS开发了一种名为"萤火虫"的连接器，外形有些像经典街机游戏《太空侵略者》中的外星人。它的作用是在新端点接入前验证光纤信号路径是否畅通。"它会将发送和接收回路连接起来，"雷德解释道，"交换机发出信号后，如果能收到回传信号，就证明光纤路径是干净的，客户端接入后即可直接使用。"

当网络正常运作时——超过99%的时间都是如此——你甚至不会意识到这些工程的存在。这，正是AWS工程师们所追求的境界。

Q&A

Q1：AWS为什么要自研网络硬件和软件？

A：AWS自研网络硬件和软件的核心原因是掌控性和可靠性。传统垂直整合的网络架构创新慢、成本高，无法支撑云计算的规模扩张。通过自研，AWS可以统一使用一种交换ASIC和一套NetOS操作系统，便于快速修复漏洞、频繁更新，同时降低供应链管理复杂度，并针对客户需求开发独特功能，如微秒级时钟同步网络。

Q2：空芯光纤和普通光纤有什么区别？AWS为什么要用它？

A：普通光纤中光信号在玻璃纤芯中传播，而空芯光纤的芯层是空气或真空，折射干扰更少，光速更接近自然极限，因此延迟可降低约30%。AWS引入空芯光纤主要是为了扩大数据中心的可建设范围——更低的延迟意味着同一区域内的数据中心可以建在更大半径内，有助于获取更多土地和电力资源。目前AWS已在部分地点完成部署。

Q3：生成式AI对AWS网络带宽需求有多大影响？

A：影响非常显著。AWS全球网络工程副总裁雷德表示，过去四五年生成式AI服务的兴起，使带宽需求大幅增长。搭载GPU等加速芯片的服务器，其带宽需求是传统CPU服务器的三到四倍。为此，AWS专门推出了UltraCluster网络拓扑，将两台服务器之间的网络设备数量从七个减少到五个，以支持更大规模、更低延迟的AI训练和推理集群。