Snowflake数据库更新引发全球大规模服务中断

Snowflake本周推送的一次更新导致全球范围内的"重大故障",用户长达13小时无法查询数据、文件导入失败并收到错误信息。初步调查显示,最新版本引入了不向后兼容的数据库架构更新,导致版本不匹配错误。此次故障影响了全球23个区域中的10个,包括美国、欧洲和亚洲多个数据中心。这是Snowflake一周内第二次发生事故。

Snowflake本周推送的一次更新导致全球范围内出现"重大故障",许多用户无法查询数据,文件导入失败,并持续13小时收到错误消息,该公司在影响声明中写道。

"我们的初步调查发现,最新版本引入了一个向后不兼容的数据库架构更新,"该公司在事故报告中写道。"因此,之前的发布包错误地引用了更新后的字段,导致版本不匹配错误,造成操作失败或需要很长时间才能完成。"

此次更新导致Snowflake全球23个区域中的10个区域服务中断。在美国,故障影响了访问其位于弗吉尼亚州Azure数据中心和俄勒冈州AWS数据中心的大量客户。在全球范围内,爱尔兰、苏黎世、伦敦、瑞典、孟买、新加坡和墨西哥数据中心的用户均受到影响。

故障首次报告时间是周二UTC时间02:55,当时客户查询其数据时返回SQL执行错误。

大约一个半小时后,Snowflake表示已经识别出问题并正在修复。到UTC时间05:00左右,系统恢复正常运行。

"我昨天就遇到了这个问题,"一位用户在Snowflake的Reddit页面上抱怨道。"他们回滚这个变更花了太长时间。"

该公司表示将在关闭事件后五天内发布根本原因分析报告,预计在周日完成。

"我们目前没有更多信息可以分享,"一位发言人告诉The Register。

这是Snowflake一周内的第二次事故。根据其状态页面显示,12月10日,数据库基础设施问题导致使用俄勒冈州AWS数据中心的用户遭遇性能下降。

Snowflake并非本月唯一出现问题的数据平台。

在12月11日至13日期间,Snowflake的主要竞争对手Databricks经历了长达数天的服务中断,美国多个区域的客户在使用Mosaic AI(该公司用于构建智能体的助手)时遇到延迟或错误,问题仅限于使用该公司在美国七个地区Azure数据中心的用户。

在此之前的12月3日,US Gov West AWS区域的客户遭遇了"完全中断,所有Databricks服务均无法使用"的情况,持续约两小时。

与Snowflake在事件页面上列出故障初步原因并跟进根本原因分析不同,Databricks不公布其故障原因。

Databricks未回应The Register的置评请求。

Q&A

Q1:Snowflake这次全球故障的原因是什么?

A:Snowflake最新版本引入了一个向后不兼容的数据库架构更新,导致之前的发布包错误地引用了更新后的字段,造成版本不匹配错误,使操作失败或需要很长时间才能完成。故障影响了全球23个区域中的10个,持续约13小时。

Q2:哪些地区的Snowflake用户受到了影响?

A:在美国,访问弗吉尼亚州Azure数据中心和俄勒冈州AWS数据中心的客户受到影响。在全球范围内,使用爱尔兰、苏黎世、伦敦、瑞典、孟买、新加坡和墨西哥数据中心的用户均遭遇服务中断。

Q3:Databricks最近是否也出现过类似的服务故障?

A:是的,12月11日至13日期间,Databricks经历了长达数天的服务中断,美国多个区域的客户在使用Mosaic AI时遇到延迟或错误。12月3日,US Gov West AWS区域还出现了约两小时的完全中断。但与Snowflake不同,Databricks不公布故障原因。

来源:The Register

0赞

好文章,需要你的鼓励

2025

12/19

07:53

分享

点赞

邮件订阅