某天,聚集了各行业甲方用户或集成商工程师的微信群里。
我:诸位,你们平时运维戴尔易安信存储系统时基本都有什么套路或者发生过什么事件啊?
群友甲:一般一天啥都不干,哈哈哈哈
群友乙:楼上正解
两位群友的回答着实让我羡慕了一番,不过也有所感慨。当然,这个回复有些许夸张,但也明显地暗示了一个结论:戴尔易安信的存储系统就是一个字:稳!
稳定是存储系统的第一要义,一个系统纵然功能再强、性能再高,如果不稳定,天天出事故,都是白搭。本文我们就来论一论存储系统的稳定性,以及影响稳定性的因素。
1存储系统的构成
传统SAN、NAS存储系统由Controller和JBOD构成。
Controller就是一台定制化服务器,主要部件为主板、CPU、RAM、HBA;JBOD内部则包含双SAS Expander卡、背板、硬盘。其中HBA、SAS Expander芯片和硬盘内部还运行有固件。
存储系统整体架构如下图所示▼,左侧为单控系统,右侧则为双控系统。
以下为戴尔易安信 VNX存储系统前视图▼。其中包含两个SAN Controller(Storage Processor)、两个NAS Controller(Data Mover),以及DAE、电池模块、Console控制台服务器。
此外,SAN/NAS Controller中还运行有存储系统核心操作系统和对应的功能软件,由于整个存储系统模块众多,所以各类故障在所难免。
SAN存储系统的基本思路是将主要部件形成双冗余架构,这些双份组件包括:SAS Expander、电源模块、SAS线缆、SAN/NAS控制器。然而,单纯的双冗余架构只能保证可用性,无法确保可靠性。
2稳定性的体现
➣可用性:在组件故障之后系统是否依然可以提供服务,能够读写数据,也就是仍然可以使用。
➣可靠性:在可用的前提下,系统是否可以提供与正常状态下同等质量的服务。如果非正常状态下读写的数据存在大量校验错误,或者非正常状态下的吞吐量忽高忽低、抖动剧烈,那么此时系统就是不可靠的。
保证可用性的前提是关键部件双冗余,但是仅这样还不够,上层软件也必须做足功夫。比如,当一个SAS Expander出现莫名其妙卡死、性能抖动、误码率激增等各种奇葩故障时,系统软件具体如何判断此时是否需要切换到另外的冗余路径上?
如果频繁切换,系统前端的I/O就会停顿,不可用;如果切换迟缓,前端I/O也会由于超时而被中断,同样导致系统不可用。所以,如何拿捏这个时间点,就是不同存储厂商长期积累下来的经验了。
同样,硬盘、HBA的不稳定,以及控制器内部OS内核的不稳定,都需要判断是否切换路径。此外,应用服务器上也需要多路径软件来配合这种路径切换,加之服务器上各种不同的操作系统版本、前端网络HBA、驱动版本之间难免会有兼容性问题,所以整条系统路径非常复杂,一线大厂和二三线小厂的区别多在此。至于硬件,其实大家并无本质区别。
3稳定性是练出来的
稳定性,3分靠设计,7分靠市场上的摸爬滚打。
产品初始集成开发阶段,无法对现场环境中的全部故障类型进行模拟,因为不同的用户现场环境可能会有很大差异,包括供电、电磁干扰、承重形变、散热情况,并且对应线缆、光纤的质量等也都无法控制。
如果用户自购任意品牌型号的硬盘,系统将失去可控性,因为不同硬盘的行为有所不同。像SSD厂商,都要针对选中的NAND进行详细测试以预知其在特定情况下的响应,从而实现SSD性能的稳定。SSD厂商不可能兼容所有厂家的NAND颗粒,在有限的成本下,他们只会选中1~2家。
➣所以,目前的SAN存储系统无一例外都不允许用户自购硬盘,必须使用经过对应SAN存储厂商认证测试过的型号,并在硬盘固件中通过对应的认证机制,有些甚至还定制了特殊的控制码来获取深层次硬盘信息。
针对上述不可控因素,实力强的厂商会从以往的经验中总结抽象出对应的故障模型,并采取对应的故障注入手段,对新产品进行黑盒测试。
而经验不足的厂商就比较难受,经验的缺乏导致其不得不以用户现场为实验田,在早期忍受用户的指责,挺过来,则逐渐步入正轨,否则就很难发展。
大厂的产品在日志、故障模式方面比较成熟,运维人员单凭日志就可以排查出90%以上的故障原因,从而早早介入使系统恢复正常。经验不足的厂商在这些方面就有所欠缺,遇见一些原因不可知的故障,不得不传递给后端研发人员,导致后者忙于救火,又影响了新版本开发,如此恶性循环,短期内其产品质量就难以保证。
戴尔易安信稳定的存储系统就是建立在不断的探索和改进之上的,无论是全闪存、横向扩展架构亦或云就绪、软件定义,还是安全保护应用装置,戴尔易安信都有全面而完善的存储解决方案,帮助企业打造稳定、健康的存储环境,实现运维无忧。
好文章,需要你的鼓励
Blackwell GPU的生产制造工作量达到Hopper GPU的两倍有余,但带来的收入仅增加至约1.7倍。
由AMD驱动的El Capitan超级计算机(现位于美国劳伦斯利弗莫尔国家实验室(LLNL))成为世界上速度最快的超级计算机。