在美国加利福尼亚州库比蒂诺市一栋低调的三层办公楼里,亚马逊云服务(AWS)的工程师们正致力于一项特殊使命:让网络变得"无感化"。
他们在大楼中心没有窗户的硬件开发实验室里工作,周围环绕着一圈办公隔间,窗外是稀疏的停车位和围墙边的树木。
AWS全球网络工程副总裁马特·雷德在四月下旬参观位于托里大道的AWS实验室时表示:"网络应该像电灯开关一样——它就该好好用。没有人真正关心网络本身,它只是提供一种功能。坏了你才会注意到它,否则你希望它不碍事。这是我们过去15年来的核心理念——如何让网络退到幕后?"
从业务角度看,AWS在2010年曾遭遇网络瓶颈。亚马逊高级副总裁兼杰出工程师詹姆斯·汉密尔顿在一次题为"数据中心网络挡了我的路"的演讲中明确提出了这一问题。
雷德解释说:"那是云计算的早期阶段。但即便在那时,随着我们观察到的带宽增长趋势,传统网络架构显然无法支撑未来的规模扩张,必须从根本上做出改变。"
汉密尔顿对垂直整合的网络技术栈提出批评,认为这种模式阻碍了创新,同时为网络设备制造商维持了高利润。他将其比作主机业务模式,并表示更倾向于服务器业务模式——那种充满竞争、拥抱开源软件的生态。
打造专属硬件与软件体系
雷德介绍,AWS的网络主要由三类硬件构成:基于专用集成电路(ASIC)的网络设备(含交换机和路由器),负责将数据从一个端口转发至另一个端口;光收发器,通过激光发送和接收光信号;以及光纤或铜线等线缆。
大约15年前,AWS在大规模建设初期便决定掌控自己的网络技术。"它是我们所构建一切的基础,所以我们决定开发自己的硬件和软件,"雷德说。
AWS从小规模起步,与第三方合作开发网络设备,持续迭代,直至将自研技术覆盖数据中心网络、核心网络和边界网络的全部范围。
雷德指出,AWS有一点与众不同:其他网络服务商通常会针对汇聚网络、核心网络和边界网络分别采用不同的交换ASIC,因为各层对内存、性能和吞吐量的需求各异。"他们会为不同的交换机选用不同的芯片,而我们所有场景只用一种。"
原因在于简洁性。"如果只专注于一件事并将其做到极致,所有精力都投入到使其高度可靠上,"雷德说,"这也有助于我们扩展网络,因为在管理供应链或规划扩容时,无需在多个相互竞争的SKU之间权衡。"
他坦承,这种做法也带来了挑战。"不同类型的交换ASIC确实各有功能优势,但这正是掌控自有软件的价值所在。通过在软件层面下功夫,我们有效避免了对定制芯片的依赖,以富有创意的方式让设备端的硬件逻辑尽量简洁,同时仍能为客户提供出色的性能和功能。"
目前,AWS的自研交换机运行在一款名为NetOS的定制Linux系统上,通过64个800Gbps端口可实现51.2Tbps的传输速率。在未来12个月内,下一代交换机将支持64个1.6Tbps端口,总传输速率达102.4Tbps。
"所有设备运行同一套操作系统,这对我们来说非常强大,"雷德说,"从安全角度看,代码完全由我们掌控,我们可以扫描漏洞、修复问题,非常频繁地为设备打补丁和更新。"
规模与精度的新挑战
AWS的网络包含约200万台设备、5000万至6000万条光链路和光收发器,陆地与海底光纤总长约2000万公里——雷德表示,这足以在地球和月球之间来回往返25次。而这仅是建筑物之间的线缆长度,若计入数据中心内部的线缆,总量还要高出约一个数量级。
全网高精度时钟同步是AWS正在攻克的难题之一。AWS网络产品开发总监萨提什·万加拉表示:"我们需要确保数据中心内所有服务器的时钟精确同步,为此专门构建了一套独立网络,将同步精度控制在微秒级别。"
空芯光纤:延迟降低30%
AWS近期网络提升的重要举措之一,是部署空芯光纤。与传统光纤中光信号在玻璃纤芯中传播不同,空芯光纤由玻璃管包裹空气或真空构成,折射干扰更少,光速更接近其自然极限。
这带来了延迟降低30%的效果。雷德表示,这对于数据中心的选址规划意义重大——在同一区域内,不同可用区的数据中心之间的延迟必须足够低,以确保客户应用表现如同部署在同一地点。空芯光纤有效扩大了可用建设半径,为AWS争取更多土地和电力资源创造了条件。
"我们已在部分地点部署了空芯光纤,"雷德说,"它比传统光纤贵,但如果能改善延迟或更好地服务客户,与数据中心、服务器、网络设备等整体成本相比,光纤本身的费用并不高。"
生成式AI驱动带宽需求激增
雷德表示,带宽需求在过去四五年间随着生成式AI服务的兴起而显著增加。"加速计算型服务器的带宽需求是传统CPU服务器的三到四倍,"他说,"我们仍在使用相同的硬件和软件,但以不同的方式将其组合在一起。"
为了在数据中心内让更多高带宽服务器共享同一网络并降低延迟,AWS减少了两台服务器之间的网络设备数量。雷德介绍,AWS的UltraCluster网络将两点之间的网络设备数量从七个减少至五个,从而支持更大规模的集群部署。
确保可靠性:从萤火虫连接器到端到端质检
在大规模运营中,物理布线基础设施的可靠性同样至关重要。雷德指出,光纤连接器若未完全就位或存在污染,就可能影响信号质量,这在高密度部署中是一大挑战。
为此,AWS开发了一种名为"萤火虫"的连接器,外形有些像经典街机游戏《太空侵略者》中的外星人。它的作用是在新端点接入前验证光纤信号路径是否畅通。"它会将发送和接收回路连接起来,"雷德解释道,"交换机发出信号后,如果能收到回传信号,就证明光纤路径是干净的,客户端接入后即可直接使用。"
当网络正常运作时——超过99%的时间都是如此——你甚至不会意识到这些工程的存在。这,正是AWS工程师们所追求的境界。
Q&A
Q1:AWS为什么要自研网络硬件和软件?
A:AWS自研网络硬件和软件的核心原因是掌控性和可靠性。传统垂直整合的网络架构创新慢、成本高,无法支撑云计算的规模扩张。通过自研,AWS可以统一使用一种交换ASIC和一套NetOS操作系统,便于快速修复漏洞、频繁更新,同时降低供应链管理复杂度,并针对客户需求开发独特功能,如微秒级时钟同步网络。
Q2:空芯光纤和普通光纤有什么区别?AWS为什么要用它?
A:普通光纤中光信号在玻璃纤芯中传播,而空芯光纤的芯层是空气或真空,折射干扰更少,光速更接近自然极限,因此延迟可降低约30%。AWS引入空芯光纤主要是为了扩大数据中心的可建设范围——更低的延迟意味着同一区域内的数据中心可以建在更大半径内,有助于获取更多土地和电力资源。目前AWS已在部分地点完成部署。
Q3:生成式AI对AWS网络带宽需求有多大影响?
A:影响非常显著。AWS全球网络工程副总裁雷德表示,过去四五年生成式AI服务的兴起,使带宽需求大幅增长。搭载GPU等加速芯片的服务器,其带宽需求是传统CPU服务器的三到四倍。为此,AWS专门推出了UltraCluster网络拓扑,将两台服务器之间的网络设备数量从七个减少到五个,以支持更大规模、更低延迟的AI训练和推理集群。
好文章,需要你的鼓励
无人机食品配送服务商Flytrex与全球知名披萨连锁品牌Little Caesars宣布合作,推出全新Sky2无人机,最大载重达4公斤,可一次配送两个大披萨及饮料,满足全家用餐需求。Sky2支持最远6.4公里的配送范围,平均从起飞到送达仅需4.5分钟。首个试点门店已在德克萨斯州怀利市上线,并实现与Little Caesars订单系统的直接集成。
FORTIS是专门测量AI代理"越权行为"的基准测试,研究发现十款顶尖模型普遍选择远超任务需要的高权限技能,端到端成功率最高仅14.3%。
法国社会住房项目ViliaSprint?已正式完工,成为欧洲最大的3D打印多户住宅建筑,共12套公寓,建筑面积800平方米。项目由PERI 3D Construction使用COBOD BOD2打印机完成,整体工期较传统建造缩短3个月,实际打印仅用34天(原计划50天),现场操作人员从6人减至3人,建筑废料率从10%降至5%。建筑采用可打印混凝土,集成光伏板及热泵系统,能源自给率约达60%。
荷兰Nebius团队提出SlimSpec,通过低秩分解压缩草稿模型LM-Head的内部表示而非裁剪词汇,在保留完整词汇表的同时将LM-Head计算时间压缩至原来的五分之一,端到端推理速度超越现有方法最高达9%。