全球最大的云服务提供商亚马逊网络服务(AWS)表示,在一次大规模故障导致包括政府机构、人工智能公司和金融平台在内的众多客户服务受损后,问题仍在持续影响其运营。
在周一表示已从数据库网络问题中基本恢复后几小时,AWS称一些用户仍在努力连接租用的服务器。该公司在其健康状况仪表板上的更新中表示,东海岸地区的多项AWS服务遭遇了网络连接问题。
"我们继续观察到所有AWS服务正在恢复,"该公司在周一下午3点15分表示。
亚马逊公司的服务支撑着互联网的大部分基础设施,约占云市场的三分之一。故障监测网站Downdetector追踪到数百个网站出现中断,包括金融服务公司Venmo和Robinhood Markets Inc.、苹果公司的Apple Music和Apple TV、软件公司如Zoom Communications Inc.、Salesforce Inc.和Snowflake Inc.、餐饮巨头麦当劳公司以及Epic Games Inc.等游戏公司。甚至亚马逊自己的服务,包括Alexa和Ring家庭安全系统,也未能幸免。
AWS表示,一个关键数据库服务的数字目录出现故障,当依赖这个广泛使用数据库的软件无法检索信息时,可能引发了连锁故障。该公司已修复了影响其美国东海岸运营的问题,这里是AWS最大的数据中心集群。亚马逊表示,一些用户在恢复过程中可能会遇到响应速度较慢或错误率增加的情况。
AWS在2021年12月曾遭遇另一次重大故障,影响了从迪士尼游乐园和Netflix视频到扫地机器人和阿黛尔演唱会门票销售的各种服务。事件发生几天后,亚马逊表示,一个旨在提高网络可靠性的自动化计算机程序导致其"大量"系统出现意外异常行为。这反过来在AWS网络上产生了大量活动,最终阻止用户访问其某些服务。当月晚些时候,这家云服务提供商又遭遇了一次较小规模的故障。
大多数主要技术系统的故障都能很快修复。然而,相互连接的技术系统意味着一家公司的问题可能对全球经济造成灾难性影响。去年,网络安全公司CrowdStrike Holdings Inc.的软件更新故障导致航班停飞并使全球系统崩溃,造成数十亿美元的损失。
Q&A
Q1:AWS这次故障的主要原因是什么?
A:AWS表示是一个关键数据库服务的数字目录出现故障,当依赖这个广泛使用数据库的软件无法检索信息时,引发了连锁故障。问题主要影响了美国东海岸地区,这里是AWS最大的数据中心集群。
Q2:这次AWS故障影响了哪些知名公司和服务?
A:受影响的包括金融服务公司Venmo和Robinhood、苹果的Apple Music和Apple TV、软件公司Zoom和Salesforce、餐饮巨头麦当劳、游戏公司Epic Games,甚至亚马逊自己的Alexa和Ring家庭安全系统也受到影响。
Q3:AWS之前发生过类似的大规模故障吗?
A:是的,AWS在2021年12月曾遭遇重大故障,影响了迪士尼游乐园、Netflix视频、扫地机器人和阿黛尔演唱会门票销售等各种服务。那次故障是由一个自动化程序引起的,该程序本来是为了提高网络可靠性。
好文章,需要你的鼓励
尽管芯片厂商不断推出性能更强的神经处理单元,声称比上代产品快30-40%,但大多数AI功能仍依赖云端处理。专家指出,云端AI模型拥有数千亿参数,而手机NPU只能处理约30亿参数的模型。本地AI处理虽然在隐私保护和可靠性方面具有优势,但受限于内存容量和处理能力,目前主要应用于特定场景。业界正致力于优化模型压缩技术,实现云端与本地AI的混合处理模式。
NVIDIA联合多所高校开发的SpaceTools系统通过双重交互强化学习方法,让AI学会协调使用多种视觉工具进行复杂空间推理。该系统在空间理解基准测试中达到最先进性能,并在真实机器人操作中实现86%成功率,代表了AI从单一功能向工具协调专家的重要转变,为未来更智能实用的AI助手奠定基础。
Hammerspace通过现有NVMe存储最大化GPU使用率。随着AI计算在混合云和多云环境中扩展,基础设施团队面临着加速洞察时间同时最大化GPU投资的压力。Hammerspace Tier 0将GPU服务器集群内的本地NVMe存储转换为超高速共享存储层,性能比传统网络存储提升10倍,减少检查点时间,提高GPU使用率,改善推理响应时间,无需额外存储系统,节省数百万美元成本。
这项研究解决了现代智能机器人面临的"行动不稳定"问题,开发出名为TACO的决策优化系统。该系统让机器人在执行任务前生成多个候选方案,然后通过伪计数估计器选择最可靠的行动,就像为机器人配备智能顾问。实验显示,真实环境中机器人成功率平均提升16%,且系统可即插即用无需重新训练,为机器人智能化发展提供了新思路。