在2025年,企业IT领域发生了多起重大事件,包括对AI智能体兴趣的增长、对生成式AI幻灭感的加剧,以及ERP厂商SAP推动客户迁移到基于云的S/4HANA平台的持续努力。
与每年一样,2025年也发生了多起重大企业IT灾难,包括服务中断、部署失败和针对厂商的诉讼。我们最近发布了AI灾难列表,所以这里主要避免重复,同时我们基本忽略了数据泄露事件,因为年度重大网络攻击列表可能多达数百起。
简单的请求
7月,美国清洁用品供应商高乐氏公司对高知特公司提起3.8亿美元诉讼,指控这家IT服务提供商的帮助台工作人员向致电询问的网络犯罪分子直接交出了网络密码。
高乐氏声称,2023年的这个方案很简单。根据诉讼文件,"高知特并未被任何精心策划的阴谋或复杂的黑客技术欺骗。网络犯罪分子只是打电话给高知特服务台,索要访问高乐氏网络的凭据,高知特就直接交出了凭据。"
诉讼中提交的通话记录显示,帮助台工作人员向声称没有提供员工身份证号码、经理姓名或任何其他验证信息的来电者提供了密码。
这次攻击被归因于分散蜘蛛组织,这是一个通常使用更复杂方法攻击受害者的网络犯罪集团。
ERP项目失败
医疗设备公司齐默生物美公司9月对德勤提起1.72亿美元诉讼,指控这家IT咨询公司在大规模SAP S/4HANA部署中未能交付承诺的结果。
诉讼指控德勤夸大其能力、超出项目预算,并在ERP系统尚未完全准备好的情况下推动其在2024年7月上线。诉讼声称,到2024年第三季度,ERP系统仍缺乏主要功能,齐默生物美无法使用它来发货或收货、准备发票或生成基本销售报告。
诉讼声称,这些错误的补救成本超过7000万美元,齐默生物美还希望收回向德勤支付的超过1亿美元费用。这家咨询公司称这些指控"毫无根据"。
爆炸电池:另一个需要担心的问题
许多IT灾难可以追溯到有缺陷的软件或糟糕的内部流程,但有时,风险更为基本。
9月,韩国国家信息资源服务(NIRS)政府数据中心发生大火,导致存储在那里的858TB政府数据丢失。
丢失的数据被约12.5万名公务员使用,涉及160多项面向公众的服务。一个主要问题是NIRS没有备份系统,官员表示大量数据使得在其他地方复制变得不切实际。
许多政府服务,包括税务申报和紧急服务,都受到中断,在一周内恢复的受影响系统不到18%。
据报道,火灾发生在涉及锂离子电池重新安置的例行维护期间。工人断开电池连接约40分钟后发生爆炸,导致大火燃烧约22小时,涉及近200名消防员。扑灭火灾和限制损害特别困难,因为电池位于服务器附近。
11月,数据中心主任因被指控玩忽职守而被免职。
网络解决方案提供商InkBridge Networks的客户体验和产品副总裁Jana Sedivy指出,这一事件显示了备份的重要性。
她说:"最重要的是提醒我们'云存储'只是意味着'别人的计算机'。云存储很好,但让你的备份有备份是个好主意。如果这些备份没有连接到你的网络,那就更好了。"
关键云服务消失,第一部分
6月,包括Gmail、Docs、Drive、Maps和Gemini在内的多个谷歌云服务在大规模中断期间停止服务。中断由早期对谷歌服务控制的策略更改触发,这是一个为托管服务提供功能的控制平面服务,空指针崩溃循环破坏了多个产品的API。
事件持续超过七小时,影响了包括北美、欧洲、远东和非洲在内多个地区的谷歌云服务。中断还影响了依赖谷歌的几个基于Web的产品,包括Spotify、Snapchat和Discord,以及几个Cloudflare服务。
尽管谷歌的站点可靠性工程团队在两分钟内开始分类事件,但整体修复花费了更长时间。一些地区在事件发生后40分钟内开始看到恢复,但大型地区的恢复时间更长。
谷歌工程师写道:"在我们的一些较大地区内,当服务控制任务重启时,它对其依赖的底层基础设施产生了群体效应,使基础设施过载。"
谷歌承诺模块化服务控制的架构并隔离潜在问题。该公司还承诺在未来做得更好。
关键云服务消失,第二部分
10月下旬,亚马逊网络服务的US-EAST-1区域遭受重大中断,在凌晨时分持续约三小时。问题与该地区DynamoDB API端点的DNS解析有关,导致多个AWS服务的错误率增加、延迟和新实例启动失败。
虽然AWS发布了详细的事后分析报告,但一些观察者对公司保证已经修复未来问题感到不安。一些专家担心对超大规模云提供商日益增长的依赖,而他们的服务是由几十年前创建的技术拼凑而成的。
其他观察者指出,AWS没有确切解释中断为什么发生。
Hyve托管主机的联合创始人兼董事Jake Madders说,AWS中断表明IT领导者需要多元化他们的云使用。
他说:"AWS事件强烈提醒我们,即使是最大和最可靠的云提供商也可能经历重大中断,但这些风险是可以减轻的。在多个云提供商和地理区域之间进行多元化对于确保冗余并在中断发生时实现无缝故障转移至关重要。"
关键云服务消失,第三部分(和第四部分?)
不甘落后,微软的Azure云服务在2025年经历了两次中断。
7月下旬,微软Azure东部美国地区的服务受到中断,客户在尝试创建或更新虚拟机时遇到分配失败。问题?容量不足,需求激增超过了微软的计算资源。
微软报告问题在8月5日解决,但一些用户抱怨几天后仍有持续问题。
然后,在10月下旬,Azure再次宕机,这次影响了其365、Xbox和Minecraft产品线,以及Costco、星巴克和其他企业运营的网站。
微软将问题归咎于无意的配置更改。近2万名Microsoft 365客户向公司报告了问题,在最初报告中断10多小时后,仍有少数客户受到影响。
关键互联网服务消失
Cloudflare不像上述例子那样是云超大规模提供商,但它确实提供关键的互联网基础设施功能,包括内容分发网络服务、DDoS缓解和域名注册。
它也不能免于自己的中断,其中一些与云超大规模提供商问题有关,如上所见。11月18日的中断,由例行配置更改触发的潜在错误导致,导致包括Spotify、X和ChatGPT在内的几个主要网站出现问题。该错误导致公司网络和其他服务大约两小时的广泛降级。
Cloudflare首席技术官Dane Knecht为中断道歉,并表示公司正在采取措施确保不再发生。他承认中断"造成了真正的痛苦"。
Q&A
Q1:高乐氏公司起诉高知特公司是因为什么?
A:高乐氏公司起诉高知特公司是因为其IT服务帮助台工作人员向网络犯罪分子直接交出了网络访问密码。犯罪分子只是简单地打电话索要凭据,工作人员就直接提供了,而来电者甚至没有提供员工身份证号码、经理姓名或任何验证信息。
Q2:韩国政府数据中心火灾损失有多严重?
A:韩国国家信息资源服务数据中心大火导致858TB政府数据丢失,影响约12.5万名公务员使用的160多项公共服务。由于没有备份系统,火灾燃烧约22小时,一周内恢复的受影响系统不到18%,包括税务申报和紧急服务在内的多项政府服务中断。
Q3:2025年有哪些主要云服务商发生了重大故障?
A:2025年主要云服务商都发生了重大故障,包括谷歌云服务中断超过7小时,影响Gmail、Docs等多个产品;亚马逊AWS美东地区中断约3小时,影响多个服务;微软Azure发生两次故障,分别在7月和10月;Cloudflare也发生了约2小时的网络服务降级。
好文章,需要你的鼓励
来自北京大学多媒体信息处理国家重点实验室和小鹏汽车的研究团队发布了一项重要研究成果,提出了一种名为FastDriveVLA的创新框架,让自动驾驶AI能够像人类司机一样,学会在纷繁复杂的道路场景中快速识别并聚焦于真正重要的视觉信息。
清华团队开发DKT模型,利用视频扩散AI技术成功解决透明物体深度估计难题。该研究创建了首个透明物体视频数据集TransPhy3D,通过改造预训练视频生成模型,实现了准确的透明物体深度和法向量估计。在机器人抓取实验中,DKT将成功率提升至73%,为智能系统处理复杂视觉场景开辟新路径。
TechCrunch年度创业战场大赛从数千份申请中筛选出200强,其中20强进入决赛角逐10万美元大奖。本次消费科技和教育科技领域共有26家公司入选,涵盖无障碍出行、AI视频制作、服装租赁、护肤推荐、纹身预约等创新应用,以及AI语言学习、个性化数学教育、职场沟通培训等教育科技解决方案,展现了科技创新在日常生活和教育领域的广泛应用前景。
字节跳动研究团队提出了专家-路由器耦合损失方法,解决混合专家模型中路由器无法准确理解专家能力的问题。该方法通过让每个专家对其代表性任务产生最强响应,同时确保代表性任务在对应专家处获得最佳处理,建立了专家与路由器的紧密联系。实验表明该方法显著提升了从30亿到150亿参数模型的性能,训练开销仅增加0.2%-0.8%,为混合专家模型优化提供了高效实用的解决方案。