上个月Gartner发布的全闪存阵列魔力象限(Magic Quadrant for Solid-State Arrays)已经不算是新闻了,国内外同行都发现有两家重要的企业存储厂商不在其中——戴尔和HDS,原因是他们没有专门针对全闪存的阵列型号。
关于Gartner魔力象限的吐槽
这些天有人吐槽Gartner魔力象限:“Gartner并不在意你是否完全针对全闪存重新设计,优化到什么程度,只要这个型号不支持硬盘就能入围。”早在数年前就见过类似的评论。
在目前的全闪存阵列市场中,新兴厂商和传统厂商在磁盘阵列基础上针对SSD优化,均有各自的斩获。毕竟传统存储有更加成熟、可靠的架构,以及完备的快照、同步/异步复制等软件功能。部分全闪存阵列提供的重删、压缩特性,有提高闪存空间利用率的价值,但多少还是以牺牲性能为代价,特别是写入性能。如果有哪家厂商宣称由于数据缩减后写入量减少,反而速度快了的话,您应该追问一下他们是否用“全零”这样的数据来跑理论值了。
举几个例子,这些入围厂商中有几款符合Gartner标准的型号,其控制器硬件和对应的磁盘阵列/混合阵列产品线并没有明显的区别,软件上应该最多就是针对闪存性能的发挥和寿命控制方面做了优化。其实类似的产品,戴尔早在5、6年前的EqualLogic PS6000S就已经在卖了;而Compellent SC系列提则供了更多针对闪存的附加值。
以MLC的价格提供SLC闪存性能
自动分层存储技术的出现,最初是在不同转速的机械硬盘之间,像戴尔Compellent这样水平高的还能做到不同RAID类型和硬盘内外圈磁道,目的是为了兼顾存储性能和容量。SSD的出现使自动分层更加普及,但如果用户想要全闪存,分层的意义还有吗?
根据NAND闪存介质的特点,会有SLC、MLC、TLC等类型,目前企业存储中主要使用的是前两种。如上图,写密集型(SLC)SSD读写速度均较快,寿命长,但是成本较高,并且容量相对较小;读密集型(MLC)SSD读速度也不差,有大容量型号,但写入较慢(虽然比硬盘还是要快不少),擦写寿命相对较短。
一般认为企业级高耐久度MLC闪存的可写入数据量,是相同容量的SLC的1/3至1/10,而普通MLC还会更低。那么有什么方法可以结合二者优势,在某种程度上鱼与熊掌兼得呢?
如上图,戴尔SC系列SLC+MLC全闪存配置,在Tier 1高性能和Tier 2成本优化型SSD之间,在Compellent标准存储类型Data Progression自动分层存储策略的基础上,继续发挥读写分离的思想,让我们来看看它为何宣称让整个阵列获得“all-WI”的性能同时只有“all-RI”的价格。
①所有写数据进入Tier 1写密集型SSD,以实现最快写入;
②自动将数据按照细粒度块级迁移至Tier 2读密集型SSD,降低存储的整体成本;
③得益于底层虚拟化条带管理,读密集型SSD只响应来自主机的读请求,因此没有速度下降;当需要修改上面的数据时,更新的内容会写入到Tier 1(也就是SLC),Tier 2中原有的数据块可用于历史快照或者回收空间;
④当数据集由产生到“下沉”至Tier 2时,可能已经过了多次写入合并,这样可以减少对读密集型驱动器的写入量,延长寿命。
当了解戴尔SC自动分层存储——Data Progression调度算法的精妙之处后,才能感觉到不同分层存储技术之间的差异,以及Compellent为什么被称为该领域的“鼻祖”。以后我们有机会再慢慢向大家介绍。而在本文中重要的一点是,这种Flash Optimized with Progression是对闪存友好的。
非戴尔莫属 混合阵列市场广大
戴尔存储提供入门级闪存和闪存优化分层两种不同的配置方式,为什么坚持不像有些厂商那样推出专门的全闪存型号呢?原因就是戴尔认为,在当前混合阵列出货量还远多于全闪存的情况下,应该给用户充分的选择空间——无论是在单一闪存层的基础上增加硬盘分层,还是写密集型SSD+读密集型SSD+HDD的组合。按照我们的理解,就是不应为了适应分析机构的报告而去专门推出新型号,如果报告真的达到了那样的目的,反而是一种行业的悲哀!
根据IDC的统计数字,2014年上半年混合阵列的出货金额是全闪存的9倍。
随着闪存价格的不断降低,根据预测数字,SSD的单位容量价格($/GB)将接近15K高转速硬盘,因此万转及以上的硬盘需求会越来越少,戴尔也因此能够以磁盘阵列的价格来提供全闪存。但7.2K硬盘的单位容量价格仍然比SSD(这里应该是企业级)便宜20倍,所以戴尔的分层存储技术仍然能带来显著的成本效益。
分层存储宝刀不老 统计数字和用户反馈双丰收
上面图表来自IDC报告《Worldwide All-Flash Array and Hybrid Flash Array 2014–2018 Forecast and 1H14 Vendor Shares》,我们可以看到2014年上半年戴尔在混合阵列中出货的SSD容量,在整个市场中所占的比例。
还是看这个数字,戴尔以接近45PB的混合阵列SSD出货容量,排在第二位并且靠近第一,年复合增长率高达115%。
最后这个对比来自The 451 Group的《Storage pros rate Dell above others for low-stress automated tiering》,其中调查了自动分层存储用户的反馈。我们看到红色部分,戴尔的Success(成功率)在3家提供该技术的主要阵列厂商中最高——达到69%;而红色部分的Stress(感到明显压力)仅为8%,远低于平均水平22%,而Some Stress(一些压力)+ Stress的比例也低于其它厂商。
相信用户反馈与市场表现才是硬道理!
好文章,需要你的鼓励
谷歌发布新的AI学术搜索工具Scholar Labs,旨在回答详细研究问题。该工具使用AI识别查询中的主要话题和关系,目前仅对部分登录用户开放。与传统学术搜索不同,Scholar Labs不依赖引用次数或期刊影响因子等传统指标来筛选研究质量,而是通过分析文档全文、发表位置、作者信息及引用频次来排序。科学界对这种忽略传统质量评估方式的新方法持谨慎态度,认为研究者仍需保持对文献质量的最终判断权。
Meta公司FAIR实验室与UCLA合作开发了名为HoneyBee的超大规模视觉推理数据集,包含250万训练样本。研究揭示了构建高质量AI视觉推理训练数据的系统方法,发现数据质量比数量更重要,最佳数据源比最差数据源性能提升11.4%。关键创新包括"图片说明书"技术和文字-图片混合训练法,分别提升3.3%和7.5%准确率。HoneyBee训练的AI在多项测试中显著超越同规模模型,同时降低73%推理成本。
Meta发布第三代SAM(分割一切模型)系列AI模型,专注于视觉智能而非语言处理。该模型擅长物体检测,能够精确识别图像和视频中的特定对象。SAM 3在海量图像视频数据集上训练,可通过点击或文本描述准确标识目标物体。Meta将其应用于Instagram编辑工具和Facebook市场功能改进。在野生动物保护方面,SAM 3与保护组织合作分析超万台摄像头捕获的动物视频,成功识别百余种物种,为生态研究提供重要技术支持。
上海AI实验室团队提出ViCO训练策略,让多模态大语言模型能够根据图像语义复杂度智能分配计算资源。通过两阶段训练和视觉路由器,该方法在压缩50%视觉词汇的同时保持99.6%性能,推理速度提升近一倍,为AI效率优化提供了新思路。