仅仅快了“半步”?

Dell在包括机器学习,深度学习等人工智能领域持续发力,是OpenHPC的创建成员,与中科院合建“人工智能与先进计算联合实验室”,联合推出首个企业级深度学习应用与服务平台“诸葛·深知”,为用户提供高性能计算创新实验室和培训服务。

俗话说,“快人一步是先烈,快人半步是先驱”,人生的哲理浩瀚而精炼,科技行业又何尝不是如此。

让我们言归正传,HPC (High-Performance Computing),即高性能计算,通常指使用很多处理器(作为单个机器的一部分)或者某一集群中组织的多台计算设备(作为单个计算资源操作)的计算系统和环境。有许多类型的HPC 系统,其范围从标准计算机的大型集群,到高度专用的硬件。大多数基于集群的HPC系统会使用高性能低延迟网络互连。

仅仅快了“半步”?

HPC应用日新月异

今天的HPC应用日新月异,高性能计算驱动的变革成为科研领先、工业行业领先、经济进步、国家和地区安全的先决条件。

仅仅快了“半步”?

HPC项目中的普遍挑战

然而HPC用户普遍遇到以下挑战,用户需要更好的密度优化并且极具弹性的架构以应对今天新的工作负载。

仅仅快了“半步”?

面向未来的Dell HPC 解决方案

让客户丰富多样的HPC计划来适应厂商的解决方案吗?答案是否定的。Dell基于未来就绪的HPC解决方案,以及从未停止收购科技前沿公司的步伐,将其技术融合到Dell的创新解决方案中,不断拓展了我们解决方案的边界。

那么谁家HPC又更快半步呢?

Dell & Intel 联合认证Lustre HPC解决方案

业界HPC解决方案很多,相信业内人士都能如数家珍,但我们知道的Lustre,在全球超级计算市场Top 100用户中有70%的用户使用Lustre, Intel Enterprise Edition for Lustre是其中成熟稳定且不断向前演进的商业版本。

对于中大规模HPC集群,数据量较大时,我们可以配置并行的文件系统,如Intel Enterprise Edition for Lustre (IEEL)。归档系统可以采用磁带库,由IEEL或其他归档软件实现。

Dell 公司美国高性能计算产品部门,针对当前市场HPC存储市场的需求、并行文件系统技术的发展趋势,采用Dell 领先的服务器、存储、网络产品,和Intel 公司合作,共同推出了 Dell Intel Lustre 高性能存储解决方案。

我们将装有Intel Enterprise Edition for Lustre软件的Dell HPC存储设备称为安装了Intel EE for Lustre软件的Dell HPC存储设备,此款存储设备是为那些需要部署完全受支持、易于使用、具有高吞吐量、能够横向扩展且经济实惠的并行文件系统存储解决方案的学术研究和行业用户而设计的。安装了Intel EE for Lustre软件的Dell HPC存储设备是一款可横向扩展的存储解决方案设备,能够提供高性能和高可用的存储系统。

该解决方案利用智能、丰富且直观的管理界面(即IML, Intel Manager for Lustre ),大大简化了所有硬件和存储系统组件的管理和监控。它在容量和性能方面易于扩展,从而为未来增长提供了方便的途径。

Dell HPC存储系统通过采用Dell PowerEdge 服务器,Dell PowerVault 存储设备,Dell Force10网络设备和Intel Enterprise Edition for Lustre 商用并行文件系统,组成稳定可靠,高性能且经济性佳的整体解决方案。根据用户的要求,和Dell Intel 在高性能存储领域的经验,我们提供了一个可以快速部署、高可用、并可以提供安装部署,售后服务和技术培训的整体解决方案。

提供高性能的并行文件系统Lustre

Lustre是一种并行文件系统,它通过并行数据访问和分布式锁定功能来提供高性能。一个Lustre安装实例由以下三个关键要素组成:元数据子系统、对象存储子系统(数据)和用来访问和操作数据的计算客户端。

元数据子系统由元数据目标(MDT)、管理目标(MGT)和元数据服务器(MDS)组成。MDT存储文件系统的所有元数据,其中包括文件名、权限、时间戳和数据对象在对象存储系统中的位置。MGT存储管理数据(如配置信息和注册表)。MDS是用来管理MDT的专用服务器。

对象存储子系统由一个或多个对象存储目标(OST)和一个或多个对象存储服务器(OSS)组成。OST为文件对象数据提供存储,而每个OSS则管理一个或多个OST。通常,在任何时候都有多个OSS处于活动状态。Lustre能够通过增加活动OSS(和相关OST)的数量来提高吞吐量。每增加一个OSS都会提高现有的网络吞吐量,而每增加一个OST都增加存储容量。下图显示了典型的Lustre配置中MDS、MDT、MGS、OSS和OST组件之间的关系。

仅仅快了“半步”?

HPC集群拓扑图

并行文件系统(如Lustre)通过跨多个对象存储目标(OST)分布数据(“条带化”数据)来提供高性能和可扩展性,从而使多个计算节点能够同时以高效方式访问数据。在设计Lustre时,需要考虑的一个关键因素就是将元数据访问与IO数据访问分开以改善总体系统性能。

Lustre客户端软件安装在计算节点上以允许访问Lustre文件系统上存储的数据。对于客户端来说,文件系统显示为单个在装入后可进行访问的命名空间。由于只需要这一个装入点,因此为访问应用程序数据提供一个简单的起点,并且还可以通过本机客户端操作系统工具进行访问,从而更方便管理。

Lustre包括一个先进的增强型存储网络协议,该协议的名称是Lustre 网络(简称LNet)。LNet能够利用某些类型的网络功能。例如,当安装了Intel EE for Lustre软件的Dell HPC存储设备使用InfiniBand作为网络来连接客户端、MDS和OSS时,LNet使Lustre得以利用InfiniBand结构的RDMA功能,提供比典型网络协议更快的I/O传输和更短的延迟时间。

总之,Lustre文件系统中包含以下要素:

• 元数据目标(MDT)——存储数据“条带”的位置、文件名、时间戳等。

• 管理目标(MGT)——存储管理数据(如配置和注册表)。

• 元数据存储服务器(MDS)——管理MDT并为Lustre客户端提供对文件的访问。

• 对象存储目标(OST)——存储文件系统上文件的数据条带或扩展区。

• 对象存储服务器(OSS)——管理OST并为Lustre客户端提供对数据的访问。

• Lustre客户端——访问MDS以确定文件所在的位置,然后访问OSS以读取和写入数据。

满足高性能需求的Dell HPC存储集群方案

安装了Intel EE for Lustre软件的Dell HPC存储设备组件,请参考下图:

仅仅快了“半步”?

Dell HPC存储集群拓扑图

在该配置中,安装了Intel EE for Lustre软件的DellHPC存储设备解决方案将Dell PowerEdge R430服务器用作管理服务器,R630服务器用作对象存储服务器和元数据服务器。该解决方案支持Mellanox (40 Gb/s)适配器,该适配器利用Dell的第13代服务器所支持的PCIe 3.0, 通过Dell S4048-ON低延迟数据中心交换机互联MDS和OSS, 满足项目对于性能的要求。

1、管理服务器

Intel Manager Server是通过内部1GbE网络与元数据服务器和对象存储服务器相连的单个服务器。

管理服务器负责用户交互、系统运行状况管理和基本的监控数据,这些数据是通过交互式Web GUI控制台Intel Manager for Lustre来收集和提供的。对于安装了Intel EE for Lustre软件的Dell HPC存储设备的所有管理访问都将通过此服务器来执行。虽然管理服务器负责收集与Lustre文件系统相关的数据并为该解决方案提供管理,但它在Lustre文件系统或数据路径本身中不扮演主动操作角色。

Intel Manager for Lustre (IML) GUI可降低安装的复杂程度并尽可能缩短Lustre部署和配置时间。它还自动监控不同组件的运行状况和性能。缩减部署和配置工作所需的时间和工作量可加快为投入生产所做的一般准备。自动监控可为最终用户提供更好的服务,而不会增加系统管理员的负担。另外,使用该解决方案所提供的工具,可帮助解决与文件系统性能相关的问题。最后,监控工具能够保留历史信息,通过监控工具可以为扩展、维护和升级存储设备做更好的规划。

2、元数据服务器

元数据服务器对(如下图所示)由两个Dell PowerEdge R630服务器组成,这两个服务器配置为主动/被动高可用性群集。每个服务器都直接连接到单个用来存放Lustre MDT和MGT的Dell PowerVault MD3420存储阵列。Dell PowerVault MD3420用24个300 GB、15K RPM、2.5英寸近线SAS驱动器完全填充,这些驱动器配置于带有2个热备盘的22磁盘RAID10中。在该元数据目标(MDT)中,该解决方案为文件系统元数据提供大约3TB空间。元数据存储服务器(MDS)负责处理文件和目录请求并将任务路由到相应的对象存储目标上执行。使用单个具有此大小的MDT时,最多可以为16亿多文件提供服务。在该解决方案中,存储请求由单个40Gb/s 连接通过LNet来处理。

仅仅快了“半步”?

元数据服务器对

3、对象存储服务器

对象存储服务器(如下图所示)排列在双节点高可用性(HA)群集中,它们提供对两个Dell PowerVault MD3460高密度存储阵列(每个阵列都有MD3060e扩展盘柜)的主动/主动访问。每个PowerVault MD3460阵列都用60个6TB的3.5英寸NL SAS驱动器填充。每个PowerVault MD3460阵列的容量都用一个额外的PowerVault MD3060e高密度扩展阵列进行扩展。此配置为每个OSS对提供1440TB的原始存储容量。

仅仅快了“半步”?

对象存储服务器对

对象存储服务是该解决方案的构建块。利用每个PowerEdge R630中的两个双端口12Gb/s SAS控制器,两个服务器均以冗余方式连接到两个PowerVault MD3460高密度存储阵列。

将每个存储阵列分成六个RAID 6虚拟磁盘(每个虚拟磁盘中包含八个数据磁盘和两个奇偶校验磁盘),并在每个阵列托架中使用两个磁盘。这会在每个盘柜中生成六个对象存储目标。通过使用RAID 6,该解决方案以边际成本针对写入性能提供更高的可靠性(由于每个RAID 6需要一组额外的奇偶校验数据)。使用安装了Intel EE for Lustre软件的Dell HPC存储设备解决方案,单个OSS对通过向MD3460阵列中添加PowerVault MD3060e扩展阵列拥有20个OST。OST通过40Gb/s 以太网连接,使用LNet提供给客户端。

在从配有Lustre客户端的任何计算节点查看时,整个命名空间可以像任何其他文件系统那样查看和管理,但它具备Lustre管理增强功能。

4、可扩展性

在主动/主动群集配置中提供对象存储服务器会生成更大的吞吐量和产品可靠性。此配置提供高可用性,它降低维护要求,并因此缩短潜在的停机时间。

戴尔PowerEdge R630服务器提供性能和密度。该解决方案为每个OSS对提供1440TB的原始存储。该解决方案还利用Dell Force10 S4048-ON 40Gb/s互连实现极高速度的低延迟存储事务。PowerEdge R630针对InfiniBand 40Gb以太网卡使用PCIe Gen3接口,帮助实现更高的每OSS网络吞吐量。

对于具有Mellanox OFED版本2.2-1的RHEL6.5内核,基于RPM的Lustre 2.5.23版客户端可用于访问安装了Intel EE for Lustre软件的DellHPC存储设备。

可以通过添加具有存储后端的额外OSS对来扩展安装了Intel EE for Lustre软件的DellHPC存储设备,因此总网络吞吐量和存储容量将立即增加。这样,会在网络吞吐量保持最大的情况下增加可用存储量。

5、网络

专用管理网络为Lustre和Lustre HA功能提供通信基础架构,还提供存储配置、监控和维护。此网络会创建为了便于执行日常操作和限制故障排除与维护范围而所需的分段。管理服务器使用此网络与不同的解决方案组件进行交互,以查询和收集系统运行状况信息,并执行由管理员启动的任何管理变更。

OSS和MDS服务器与管理服务器进行交互,以便提供运行状况信息和性能数据并在执行管理操作期间进行交互。从带外(外部端口)访问PowerVault MD3420和MD3460控制器,以监控存储阵列的运行状况并针对存储后端执行管理操作。

操作人员甚至可以使用这种级别的集成,毫不费力地高效监控和管理该解决方案。对所提供的信息进行了汇总以供用户快速查看,但是用户可以将服务器组件或存储组件的消息放大到所需的详细程度。

Lustre文件系统通过40GbE上实施的Lustre网络 (LNet) 获得服务。客户端正是使用此网络来访问数据。Intel Manager for Lustre(IML) GUI界面提供了一个用来将MDS和OSS服务器上的多个Lustre网络标识符(NID)服务器配置为参与Lustre网络的选项。例如,您应当在OSS服务器上将40GbE以太网接口(即eth0)配置为均参与Lustre网络。

在40GbE网络中,可以实现较快的传输速度和较短的延迟时间。LNet利用RoCE在MDT和OST与客户端之间快速传输数据和元数据。OSS和MDS服务器利用具有双端口Mellanox ConnectX-3 40 Gb适配器架构,从快速传输速度获益并利用以太网技术的较低成本和普遍性。

6、管理安装了Intel EE for Lustre软件的Dell HPC存储设备

Intel Manager for Lustre (IML) 通过提供一个用于进行管理的集中式Web GUI,使Lustre文件系统的管理不再复杂。例如,可以使用IML作为对以下操作进行标准化的工具:启动从一个节点到另一个节点(对于OSS或MDS)的文件系统故障转移、格式化文件系统、发出对目标的装入和卸载命令、监控Lustre文件系统的性能和其各个组件的状态。下图说明了几个IML监控界面。

IML是基于Web的管理控制台,可用来管理解决方案(假设满足了所有的安全要求)。它提供硬件、软件和文件系统组件的视图,而且还可用于进行监控和管理。

如果使用IML,那么,以前需要复杂CLI指令的许多任务现在只需单击几次鼠标即可轻松完成。IML可用于关闭文件系统、启动从一个MDS到另一个MDS的故障转移、进行监控等。

仅仅快了“半步”?

Intel Manager for Lustre (IML)界面

Dell HPC存储方案的五大特点

Dell HPC存储系统由HPC行业经验丰富的Dell 硬件产品和Intel Enterprise Edition for Lustre组成。具有以下特点:

1、高性能

• 采用基于面向对象的并行文件系统,Intel Enterprise Edition for Lustre

• 采用高性能的Dell 服务器产品,配置高性能Intel 处理器和Dell MD3 12Gb SAS 存储产品

• 采用40Gb 无阻塞以太网网络

• 设计借助动态存储扩展,每构建块峰值达到 18.5GB/s 读取速率和 15.1 GB/s 写入速率

2、高可靠性

• MDS和OSS采用成对HA配置

• 配置冗余磁盘控制器

• 对磁盘组进行RAID 配置

• Intel 公司原代码级的技术支持服务

3、易于管理

• 配置单独的管理服务器

• 自动安装

• 图形化界面

4、多平台支持

• 可以通过CIFS网关提供对CIFS 文件系统的访问,CIFS可以配置集群

• 可以提供IB转以太网网络的网关,支持以太网客户端访问连接IB 的Lustre 文件系统

• 支持Hadoop 大数据文件系统

5、支持分层存储

通过Dell MD存储设备的Snapshot功能和IELL软件可以实现Lustre文件系统的数据备份归档

安装了Intel EE for Lustre软件的Dell HPC存储设备解决方案可提供基于并行文件系统的横向扩展存储的所有好处,从而满足您的高性能计算需求。

快速前进、持续发力的Dell HPC

仅仅快了“半步”?

高性能计算发展趋势

Dell公司在科技的发展浪潮中,总能成为时代的弄潮儿,例如在高性能计算领域全面率先支持Intel Lustre, Intel Phi CPU, NVIDIA CPU, AMD GPU: 1U机架服务器C4130 (支持4个GPU), 2U机架服务器C6320p (支持4个Intel Phi CPU计算节点), 2U超融合FX2 (支持8个带InfiniBand接口的FC430计算节点), Dell S系列10Gb/25Gb/40Gb/100Gb 低延迟无阻塞数据中心交换机,支持Intel OPA架构的H系列交换机,HPDA高性能数据分析解决方案等。

Dell在包括机器学习,深度学习等人工智能领域持续发力,是OpenHPC的创建成员,与中科院合建“人工智能与先进计算联合实验室”,联合推出首个企业级深度学习应用与服务平台“诸葛·深知”,为用户提供高性能计算创新实验室和培训服务。这些工作让Dell得到了广大用户和业界的认可,2016年HPC China大会上,Dell公司荣获了“人工智能技术实践创新奖”。“唯快不破”,Dell会在HPC领域继续稳步快速地前进。

来源:ZDNet云计算频道

0赞

好文章,需要你的鼓励

2017

04/17

17:21

分享

点赞

邮件订阅
白皮书