智慧是唯一的自由,让数据如风般自由!

据IDC预测,到2019年,全球HPC市场将达到152亿美元的规模。HPC存在一个明显的挑战,但是,就是在用户HPC应用升级或数据量暴增的情况下,存储会成为影响性能的瓶颈之一。如何搞定HPC的存储短板,也是影响到HPC实际应用的整体计算能力的重要因素。

自由当然是许多人的追求,同样的,在HPC领域,大家也追求一种自由,希望数据像风一样的自由。

存储缘何成为HPC应用的短板?

据IDC预测,到2019年,全球HPC市场将达到152亿美元的规模。

众所周知,HPC在解决计算性能上拥有特别的效率,也备受行业用户越来越多的青睐,HPC的应用领域不断拓展,在科学计算、天文、医学、能源、生命科学以及仿真设计等领域发挥着重要的作用。

但是,HPC存在一个明显的挑战,就是在用户HPC应用升级或数据量暴增的情况下,存储会成为影响性能的瓶颈之一。如何搞定HPC的存储短板,也是影响到HPC实际应用的整体计算能力的重要因素。

就拿教育行业HPC的应用现状来说,2016年年初,中桥调研咨询对教育行业信息主管进行的调查显示,“有47.7%的受访者表示,在未来24个月,其所在高校或教学研究机构将部署HPC”。

智慧是唯一的自由,让数据如风般自由!

可见,HPC在高校和教育研究机构的应用也将会越来越广泛,这不仅代表着中国高性能计算的教育硬实力,同时也为中国高性能计算的人才培养与储备奠定了良好的基础。因此,HPC对于教育行业的意义将会越发重要,如果搞定存储这个短板迫在眉睫。

上海交大HPC中心的焦虑

之前,来自上海交大高性能计算中心的韦建文老师有些焦虑,因为“用户数量的增长和所支持的学科课题组组的增多,运算量也日益飙升,这给从成立之后系统一直没有升级的HPC中心带来了不小的压力,尤其在存储方面,所面对的挑战更多,迫切通过对系统的升级来应对。”

俗话说,有压力必然有动力。

但是,对于一个2013年构建的拥有332个CPU节点、130块GPU加速卡和65个GPU加速卡节点的高性能计算中心来说,每年系统的整体资源利用率保持在60%以上,光是CPU的利用率则常年超过70%。想要为此升级存储,实现梦寐以求的高效、快捷、稳定谈何容易。

摆在上海交大高性能计算中心面前的现实,就是必须解决当前面临的数据与应用带来的存储挑战。但他们的理想却不止于此, 如何让数据像风一样自由,成为了他们更大的梦想。

“数据像风一样自由”面临四大问题

既然有现实,也有梦想,那么我们可以首先详细分析一下上海交大高性能计算中心面临的现实问题。那就是如何针对现有的HPC存储系统进行有效的升级。毕竟如专业人士所说:“存储是决定HPC系统性能、服务水准和用户体验等的关键因素之一。”

对于存储升级,许多行业用户这些年见得多了,可谓见怪不怪。

所谓兵来将挡,水来土掩。谁怕谁?找准了问题,自然就可以迎刃而解。就像庖丁解牛一样,必须找准关键,才能游刃有余。

上海交大HPC中心在存储方面首先面临的关键问题就是从2013年到2016年以来,因为应用的广泛,存储容量早已告急。存储扩容成为首要任务,但是该如何扩容呢?

如何高效解决伴随用户数量和数据量增长而带来的存储容量不足问题,经济高效地实现存储容量的扩展升级,成为了上海交大在选择新系统时的第一诉求。

其二,对上海交大HPC用户有一个应用特点,就是在使用HPC进行课题研究的过程中,经常涉及到小文件读写操作。那么想要进一步提升用户的使用体验,就必须优化对小文件的读写。因为对小文件读写速度的提升,可以从整体上保证存储系统的稳定,从而整体提升计算速度。

其三,上海交大HPC整体运维也是一大挑战,如何在自身有限的预算前提下,升级存储系统的同时提升系统的可管理性,降低后续的系统运维工作量,这也是非常关键的问题。

其四,对服务方面也是一个挑战上海交大HPC中心真正做日常维护和技术运维的人员还是有限,那么势必要考虑到存储升级方案提供商本身在HPC领域的技术服务能力与经验,整体解决方案部署实施与本地售后服务支持方面必须得到很好的保障。这样才能降低项目实施中的风险,加速IT服务交付管理效率。

如何采购“数据像风一样自由”的新存储呢?

针对存储扩容、小文件读写优化、系统可管理性、服务交付这四个关键方面的考虑,在众多存储供应商品牌中,上海交大心目中早已敲定了自己的明确目标。

在上海交大高性能计算中心相关负责人看来,这个供应商必须具备四大理由才能成其为合格的存储系统方案提供商。

·首先,必须具备高性价比,这是几乎所有教育行业用户采购的习惯性要求。

·其次,必须拥有完善的服务体系,也只有完善的服务才能让上海交大HPC应用更为专心应用。

·再次,必须具备早已验证的参考架构,这就要求供应商有一个强健的生态体系,具备业界一流的技术和架构组合。

·最终,还必须看到众多成功案例可以参考借鉴,特别是有类似高效应用案例最能说明问题。

理由很充分,想法很现实,这也代表了中国教育行业用户特别高校用户在HPC应用领域颇为一致的特点。

为此,新的存储系统还必须承担主存储系统的作用,之前上海交大HPC中心所有的应用和数据也需要无缝迁移到新的存储系统上,并能完全满足HPC系统对存储的所有需求。

如果真的可以实现以上几个方面的要求,那么似乎就可以让HPC中心的数据像风一样自由了。因此,实现高性能计算应用过程中的各种存储满足,成为了真正的现实。

如何保障HPC中心的数据像风一样自由?

但是,问题又来了。若要数据在HPC中心如风一样自由,那就必然需要一个健壮的系统架构。

智慧是唯一的自由,让数据如风般自由!

最终,上海交大HPC中心选取了这样的系统架构,囊括了存储、服务器、管理运维所能实现的良好应用,充分体现出了其存储系统的三大优势。

满足存储容量方面, 上海交大HPC中心采用了戴尔PowerVault MD3高密度阵列最高可存储540TB数据,向上可以扩容至180块硬盘。模块化、可扩展设计提供多种选项,可简便地实现扩容,为未来业务发展提供保障。

性能稳定方面,戴尔MD3460和MD3420采用双12G SAS控制器,提供高速连接,每个阵列的高速缓存容量达到16GB,保证上海交大对于HPC系统容量和性能的需求。此外,戴尔PowerVault MD3460 标配高性能分层以及固态硬盘高速缓存、动态磁盘池和精简配置功能,可优化性能和容量。

好马配好鞍,方能跑得欢。好的存储必然需要好的服务器与之匹配,这样才能更好地发挥出计算的高性能和运营效益。

在服务器方面,上海交大HPC中心采用了戴尔PowerEdge R730服务器,这款服务器采用英特尔至强E5-2600 V3系列处理器,配有7个PCIe3.0扩展插槽,内存容量可从64GB可扩展到128GB,这有助于工作负载的计算性能提升。

为了加快应用程序的数据访问速度,R730采用16个12Gbps SAS驱动器和高性能双RAID。 同时为了助于HPC 最大限度地发挥出性能优势,R730还利用了高级加速器和GPU。

·在数据安全方面,利用快照、VDC和远程复制功能,确保用户的数据得到保护。

·在经济高效方面, 戴尔PowerVault MD3通过模块化架构,实现按需升级,节省存储成本,同时降低了能耗、制冷和空间。其软件功能可保护数据、提高性能和简化管理。这可腾出宝贵的资源,有助于减少成本,并在日常工作中进行创新。

·在提高运营效益方面,戴尔PowerEdge服务器自动化的部署流程有助于减少手动步骤,并降低出错的可能性。iDRAC工具的应用,有助于提高服务器远程管理效率和生命周期管理效率,进而提高IT效率。

值得一提的是,上海交大HPC中心采用了英特尔文件系统Intel Manager for Lustre (IML), 大大简化了所有硬件和存储系统组件的管理和监控。Lustre不仅是一个专为超级计算机和集群设计的文件系统,而且也是一个面向大规模集群的存储架构,基于Linux平台的开源集群并行文件系统,符合GNU GPL v2协议,其最大特征是高扩展性和高性能,能够支持数万客户端系统、PB级存储容量、GB/s级别的I/O吞吐量。

对于如此强大的Lustre,英特尔通过提供一个用于进行管理的集中式Web GUI,简化Lustre文件系统的管理,直观地进行监控和操作,如启动从一个节点到另一个节点(对于OSS或MDS)的文件系统故障转移、格式化文件系统、发出对目标的装入和卸载命令、监控Lustre文件系统的性能和其各个组件的状态。

智慧是唯一的自由,让数据如风般自由!

不仅要自由,还须要效益

有了这些全面的考量和针对性的解决问题的技术和方案之后,上海交大HPC中心不仅实现了数据像风一样自由,而且还赢得了很好的收益。

通过安装戴尔HPC存储系统解决方案,成功解决了上海交大HPC系统的痛点,不仅成功应对了用户日益增长的存储要求,提升了存储系统性能的稳定性,并提供了轻松、高效、安全的管理环境。这不仅有利于满足教学科研等相关课题组的需求,强化了校内各院系科研实力,保证各院系课题组科研和教学的正常、顺利进行,更有助于提升上海交大科研和教学的竞争力。

·首先,突破了存储容量和性能瓶颈。新系统上线后,目前投入使用的存储容量达到了2PB,几乎是原有存储系统容量的3倍,后续还会继续扩容至3PB。文件系统的负载目前可保持在一个较低的水平,同时小文件的读写操作速度很快。

生命科学学院基因组测序课题组一直是HPC系统的用户,新系统上线后,他们不再受原来系统在容量或性能上的限制,已经在新的系统上新增存储100TB。课题组的研究人员说:“与以前的系统相比,新系统运行更加稳定,没有出现什么问题导致整个集群性能下降,可以同时利用100多个节点进行高通量的基因测序分析。”

·其次,简化了人员管理难度 。英特尔文件系统Lustre智能、丰富且直观的管理界面大大简化了所有硬件和存储系统组件的管理和监控。

上海交大HPC中心韦建文老师表示:“在可管理性上,Intel Lustre提供了一个Web界面,使我们能够非常方便地查看整个文件系统的吞吐量和故障点,并且当出现故障时操作也非常简单和方便。管理员只要远程登录到管理界面,鼠标点击几下就能完成故障恢复,比以前要方便很多。”

·再次,稳定的文件系统性能值得关注。在保障文件系统性能稳定方面,Intel Lustre并行文件系统搭配戴尔HPC存储设备这一得以验证的参考架构,对于Lustre并行文件系统有针对性地进行了优化,提高了文件读取速度。

上海交大HPC中心韦建文老师说:“我们对于系统的小文件操作非常满意。在我们系统运行过程中,整个文件系统的负载可以保持在非常低的水平。”

对于HPC的应用方面,存储如何有效的配合显得非常重要。特别针对高校领域的用户方面,如上海交大HPC中心的各种痛点、困惑等问题,在合理、客观分析问题的基础上,提供一个全面、有效的数据存储解决方案,不仅可以让 HPC应用性能获得提升,同时也改善了应用体验。

如何让HPC的数据像风一样自由,其中的几个关键必须做到,包括了存储容量、存储性能、经济高效、安全而运营收益明显,如果可以实现这些用户的根本需求,解决其中的难点,那么HPC在教育高校领域,乃至其他领域的应用也将更为广泛。

来源:ZDNet云计算频道

0赞

好文章,需要你的鼓励

2017

04/07

15:35

分享

点赞

邮件订阅
白皮书