昨晚的谷歌全球宕机事件,竟然是磁盘写满导致?

来源:戴尔    2020-12-16 17:15:53

关键字: 戴尔易安信解决方案

北京时间昨晚7:30分左右,谷歌又双叒遭遇了瘫痪事件,而且这次影响还不小,旗下Gmail邮箱,谷歌日历、视频网站YouTube等服务在全球都受到了影响。

北京时间昨晚7:30分左右,谷歌又双叒遭遇了瘫痪事件,而且这次影响还不小,旗下Gmail邮箱,谷歌日历、视频网站YouTube等服务在全球都受到了影响。

至于为什么说又双叒,因为这已经是近5个月以来,谷歌的第3次宕机大规模事件(SRE年终奖不保...)。

之后,谷歌云在推特上

发布了对于这次问题的简要介绍

???

2.JPG

而就是其中的

“internal storage quota issue”

让很多人误以为是存储容量写满导致

让广大吃瓜群众,着实欢乐了一把

???

2.JPG

3.JPG

4.JPG

也让抓紧蹭热点的小编,差点祭出了最近的一个真实案例,顺便也推荐谷歌用用这个——戴尔科技存储优化服务

不过,万事留个心眼,先不说因磁盘写满导致宕机这样的低级错误,在今天任何一家正常运行的公司都不太可能发生(监控和报警去哪了)更何况谷歌这样的大公司。

保险起见,小编去问了问老朋友,戴尔科技售前工程师刘工。

刘工,请教一个问题:昨晚谷歌的宕机事件,真的是磁盘写满导致的吗?

storage quota问题,不一定是磁盘满了,也可能是配额设置有问题,配少了,或者没有自动调整配额,等等。

自动配额八成是算法问题,没有及时调整存储池配额或者是应用了错误的配额。

明白了,谢谢!

果然,谷歌在其Google Cloud Status Dashboard发布的本次宕机事件的初步报告,也证实了这一点

 

5.JPG

翻译:

Google Cloud Platform和Google Workspace经历了一次全球中断,影响了所有需要Google账户认证的服务,持续时间为50分钟。根本原因是我们的自动配额管理系统出现了问题,降低了谷歌中央身份管理系统的容量,导致其在全球范围内返回错误。因此,我们无法验证用户请求是否经过认证,并向用户提供错误。

自动配额管理系统出现了问题(原因),导致了谷歌中央身份管理系统的容量降低(结果),引发谷歌服务宕机(结果)。

所以,并不是磁盘写满导致谷歌服务宕机,自动配额管理系统,才是真正的元凶。

最后来一波硬广

最近,戴尔科技某个客户遭遇了磁盘写满事件,幸运的是,多亏了“私人医生”的及时提醒,一场宕机化险为夷。而这个服务就是戴尔科技存储优化服务

6.png

简单来说,戴尔科技存储优化服务是面向戴尔易安信存储如Unity/PowerStore推出的优化服务,可以实时监控客户存储系统状态,还提供深入、预测式分析和存储专家指导,以及年度上门/远程战略规划、日常配置维护等,堪比客户存储的私人医生。从此客户在IT运维上就能做到高枕无忧,可以有更多的时间去考虑上层应用系统、业务系统。

让客户把时间花在更有价值的事情上,这就是戴尔科技存储优化服务的价值所在

戴尔科技存储优化服务介绍

存储性能调优:存储技术客户经理会日常检查存储日志,检查存储性能指标,如果发现存储访问有比较高的延时,我们就会主动联络客户进行相关的分析检查,协助找出问题所在;

存储空间调优:当我们发现存储空间分配和使用不合理或者不是最优的时候,优化技术客户经理就会主动联系客户,进行相关的空间调优和重新分配,尤其是空间使用极度紧张的情况,就需要提前进行空间预警,释放空间,避免由于空间问题导  致的系统访问影响;

存储配置文件和存储快照配置文件的调优:存储配置文件和快照配置决定存储磁盘层和空间的合理分配使用,如果配置不合理会造成空间使用效率低下,影响存储效率;

最佳实践检查和知识传授:培养客户专业技术能力,成就客户成功。

7.jpg

相关内容推荐:戴尔科技数据平台|第五代存储产品戴尔易安信PowerStore

    扫一扫

    分享文章到微信


    北京第二十六维信息技术有限公司(至顶网)版权所有. 京ICP备15039648号-7 京ICP证161336号京公网安备 11010802021500号
    举报电话:010-62641205-5060 举报邮箱:jubao@zhiding.cn 安全联盟认证