Snowflake本周推送的一次更新导致全球范围内出现"重大故障",许多用户无法查询数据,文件导入失败,并持续13小时收到错误消息,该公司在影响声明中写道。
"我们的初步调查发现,最新版本引入了一个向后不兼容的数据库架构更新,"该公司在事故报告中写道。"因此,之前的发布包错误地引用了更新后的字段,导致版本不匹配错误,造成操作失败或需要很长时间才能完成。"
此次更新导致Snowflake全球23个区域中的10个区域服务中断。在美国,故障影响了访问其位于弗吉尼亚州Azure数据中心和俄勒冈州AWS数据中心的大量客户。在全球范围内,爱尔兰、苏黎世、伦敦、瑞典、孟买、新加坡和墨西哥数据中心的用户均受到影响。
故障首次报告时间是周二UTC时间02:55,当时客户查询其数据时返回SQL执行错误。
大约一个半小时后,Snowflake表示已经识别出问题并正在修复。到UTC时间05:00左右,系统恢复正常运行。
"我昨天就遇到了这个问题,"一位用户在Snowflake的Reddit页面上抱怨道。"他们回滚这个变更花了太长时间。"
该公司表示将在关闭事件后五天内发布根本原因分析报告,预计在周日完成。
"我们目前没有更多信息可以分享,"一位发言人告诉The Register。
这是Snowflake一周内的第二次事故。根据其状态页面显示,12月10日,数据库基础设施问题导致使用俄勒冈州AWS数据中心的用户遭遇性能下降。
Snowflake并非本月唯一出现问题的数据平台。
在12月11日至13日期间,Snowflake的主要竞争对手Databricks经历了长达数天的服务中断,美国多个区域的客户在使用Mosaic AI(该公司用于构建智能体的助手)时遇到延迟或错误,问题仅限于使用该公司在美国七个地区Azure数据中心的用户。
在此之前的12月3日,US Gov West AWS区域的客户遭遇了"完全中断,所有Databricks服务均无法使用"的情况,持续约两小时。
与Snowflake在事件页面上列出故障初步原因并跟进根本原因分析不同,Databricks不公布其故障原因。
Databricks未回应The Register的置评请求。
Q&A
Q1:Snowflake这次全球故障的原因是什么?
A:Snowflake最新版本引入了一个向后不兼容的数据库架构更新,导致之前的发布包错误地引用了更新后的字段,造成版本不匹配错误,使操作失败或需要很长时间才能完成。故障影响了全球23个区域中的10个,持续约13小时。
Q2:哪些地区的Snowflake用户受到了影响?
A:在美国,访问弗吉尼亚州Azure数据中心和俄勒冈州AWS数据中心的客户受到影响。在全球范围内,使用爱尔兰、苏黎世、伦敦、瑞典、孟买、新加坡和墨西哥数据中心的用户均遭遇服务中断。
Q3:Databricks最近是否也出现过类似的服务故障?
A:是的,12月11日至13日期间,Databricks经历了长达数天的服务中断,美国多个区域的客户在使用Mosaic AI时遇到延迟或错误。12月3日,US Gov West AWS区域还出现了约两小时的完全中断。但与Snowflake不同,Databricks不公布故障原因。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。