一项新的业内研究指出,数据中心停机事件仍在发生,尽管停机频率正在下降。
Uptime Institute 发布了第七份年度停机分析报告,显示尽管整体停机频率持续下降,但与电源相关的问题依然是数据中心运营商主要担忧的问题,而当故障发生时,成本却不断上升。
2025 年数据中心停机分析报告与该机构 2024 年报告中的许多核心主题相呼应,后者也指出,随着多年整体趋势的改善,停机事件正在减少。
该研究结合了多种数据来源,包括 Uptime Institute 全球调查、机构成员和合作伙伴提供的信息,以及通过新闻和社交媒体公开报道的事件数据库。
2025 年报告的主要发现包括: 53% 的运营商报告称过去三年内发生过停机事件,而这一比例在 2020 年为 78%。 2024 年报告的停机事件中,只有 9% 被归类为严重或极严重,这是 Uptime Institute 迄今记录的最低水平。 在 54% 的重大停机案例中,故障原因主要归结于电源问题。 未能严格遵守流程的员工比例较 2024 年上升了 10 个百分点。 54% 的受访者表示,他们最近一次重大停机事件造成的损失超过 100,000 美元,其中 20% 的受访者报告损失超过 1,000,000 美元。 80% 的运营商认为,更好的管理和流程本可以防止最近发生的停机事故。
Uptime Institute 研究执行董事 Andy Lawrence 在一场详细介绍报告发现的网络研讨会上表示:“大多数数据中心运营商的停机事件非常罕见,但当然,一旦发生,其后果往往相当严重。”
在日益复杂的环境中停机频率持续下降
报告显示,尽管基础设施日益复杂,整个行业在数据中心停机预防方面都在不断改善,这延续了连续四年下降的事故趋势。
Lawrence 表示:“相较于数字基础设施的快速增长,停机事件正变得越来越少且不再严重。这一趋势已经持续了数年,彰显了业界在风险管理和可靠性方面的进步。”
尽管取得了一定进展,但新的风险正在出现,这可能会对行业可靠性改善提出挑战。Uptime Institute 指出,其中一个新风险就是气候变化。近年来,与气候变化影响相关的停机事件呈现上升趋势,例如极高温度或由于火灾或烟雾导致的停电。
电源问题主导停机原因
与电源相关的故障仍然是数据中心运营商主要关注的问题,其中不间断电源 ( UPS ) 的故障尤为突出。
Uptime Institute 首席技术官 Chris Brown 解释道:“数据中心中的每一台设备,无论是设施设备还是 IT 设备,都需要电源来运行,而电源问题往往是无情的。”
Brown 指出,UPS 硬件是应对来自电网和系统层面异常电源问题的最后防线。他预计,随着 AI 技术对电力需求的增加,电源问题将会继续成为数据中心运营商日益严峻的挑战。
Brown 说:“随着这些密度的提高,以及数据中心整体电力需求的增加,系统将承受更大的压力,这将提高数据中心发生事故的可能性。”
人为错误:可预防的问题
虽然应对电源故障并不容易,但数据中心停机的另一个常见原因——人为错误,应该更容易改进。
报告反复发现,人为错误占所有停机事件的三分之二至四分之三。其中一个显著趋势是数据中心员工未能遵守既定流程的比例有所上升,Brown 将其归因于行业的快速增长和培训不足。
Brown 解释道:“我们看到人员在为数据中心制定流程和程序,并在数据中心上线之前为经验非常有限的人提供基础培训方面遇到了困难。”
Uptime Institute 希望数据中心运营商在未来几年能够通过改进培训、流程、程序和沟通,从根本上解决导致人为错误的问题,从而取得进步。
Lawrence 表示:“这些都是我们可以控制的,这或许是最简单且成本最低的方法,可以减少停机事件发生的可能性。”
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。