一项新的业内研究指出,数据中心停机事件仍在发生,尽管停机频率正在下降。
Uptime Institute 发布了第七份年度停机分析报告,显示尽管整体停机频率持续下降,但与电源相关的问题依然是数据中心运营商主要担忧的问题,而当故障发生时,成本却不断上升。
2025 年数据中心停机分析报告与该机构 2024 年报告中的许多核心主题相呼应,后者也指出,随着多年整体趋势的改善,停机事件正在减少。
该研究结合了多种数据来源,包括 Uptime Institute 全球调查、机构成员和合作伙伴提供的信息,以及通过新闻和社交媒体公开报道的事件数据库。
2025 年报告的主要发现包括: 53% 的运营商报告称过去三年内发生过停机事件,而这一比例在 2020 年为 78%。 2024 年报告的停机事件中,只有 9% 被归类为严重或极严重,这是 Uptime Institute 迄今记录的最低水平。 在 54% 的重大停机案例中,故障原因主要归结于电源问题。 未能严格遵守流程的员工比例较 2024 年上升了 10 个百分点。 54% 的受访者表示,他们最近一次重大停机事件造成的损失超过 100,000 美元,其中 20% 的受访者报告损失超过 1,000,000 美元。 80% 的运营商认为,更好的管理和流程本可以防止最近发生的停机事故。
Uptime Institute 研究执行董事 Andy Lawrence 在一场详细介绍报告发现的网络研讨会上表示:“大多数数据中心运营商的停机事件非常罕见,但当然,一旦发生,其后果往往相当严重。”
在日益复杂的环境中停机频率持续下降
报告显示,尽管基础设施日益复杂,整个行业在数据中心停机预防方面都在不断改善,这延续了连续四年下降的事故趋势。
Lawrence 表示:“相较于数字基础设施的快速增长,停机事件正变得越来越少且不再严重。这一趋势已经持续了数年,彰显了业界在风险管理和可靠性方面的进步。”
尽管取得了一定进展,但新的风险正在出现,这可能会对行业可靠性改善提出挑战。Uptime Institute 指出,其中一个新风险就是气候变化。近年来,与气候变化影响相关的停机事件呈现上升趋势,例如极高温度或由于火灾或烟雾导致的停电。
电源问题主导停机原因
与电源相关的故障仍然是数据中心运营商主要关注的问题,其中不间断电源 ( UPS ) 的故障尤为突出。
Uptime Institute 首席技术官 Chris Brown 解释道:“数据中心中的每一台设备,无论是设施设备还是 IT 设备,都需要电源来运行,而电源问题往往是无情的。”
Brown 指出,UPS 硬件是应对来自电网和系统层面异常电源问题的最后防线。他预计,随着 AI 技术对电力需求的增加,电源问题将会继续成为数据中心运营商日益严峻的挑战。
Brown 说:“随着这些密度的提高,以及数据中心整体电力需求的增加,系统将承受更大的压力,这将提高数据中心发生事故的可能性。”
人为错误:可预防的问题
虽然应对电源故障并不容易,但数据中心停机的另一个常见原因——人为错误,应该更容易改进。
报告反复发现,人为错误占所有停机事件的三分之二至四分之三。其中一个显著趋势是数据中心员工未能遵守既定流程的比例有所上升,Brown 将其归因于行业的快速增长和培训不足。
Brown 解释道:“我们看到人员在为数据中心制定流程和程序,并在数据中心上线之前为经验非常有限的人提供基础培训方面遇到了困难。”
Uptime Institute 希望数据中心运营商在未来几年能够通过改进培训、流程、程序和沟通,从根本上解决导致人为错误的问题,从而取得进步。
Lawrence 表示:“这些都是我们可以控制的,这或许是最简单且成本最低的方法,可以减少停机事件发生的可能性。”
好文章,需要你的鼓励
2025年1月,OpenAI、软银、甲骨文和MGX联合宣布"星际之门"计划,承诺投资5000亿美元,部署高达10GW算力基础设施。如今,该项目已从白宫发布会上的宏大承诺,演变为一场前所未有规模的基础设施建设实验。项目已扩展至德克萨斯、威斯康星、俄亥俄等多地,并延伸至阿布扎比和挪威。然而,融资争议、合作伙伴摩擦、能源压力及政策监管收紧,正考验着这一"AI工业园"模式能否真正落地。
阿里Qwen团队通过引入强化学习和在线策略蒸馏,将Qwen-Image-2.0升级为Qwen-Image-2.0-RL,让图像生成模型真正学会人类审美,文生图Elo评分提升78分,图像编辑提升93分。
加密货币交易所OKX正式推出AI智能体交易市场OKX AI,允许AI代理相互雇佣、自主结算,并建立基于区块链的可携带信誉档案。该平台经过50家早期服务商封测后向开发者开放,依托稳定币和链上支付基础设施,支持全天候微支付。OKX创始人徐明星表示,传统金融基础设施为人类而建,智能体经济需要为自主软件专门设计的基础设施。
港科大与快手联合提出NormGuard,针对流匹配模型强化学习训练中速度范数膨胀问题,通过训练时单向惩罚约束,在保留奖励的同时改善图像真实感。