「智能家居」不一样的深度学习体验

近期,戴尔公司与全球大型家电的第一品牌,就智能家居项目中的深度学习达成合作。

家里的灯泡坏了,到网上商城买了一个,然后几乎每天都会收到该商城推送的关于灯的信息;用手机APP订餐后,第二天再次登陆时,总是向你推送类似的餐饮信息……相信有这样经历的人不在少数。其实,这只是深度学习最终应用的一个体现,本文想跟您聊聊深度学习背后的故事。

面向智能家居的深度学习

近期,戴尔公司与全球大型家电的第一品牌,就智能家居项目中的深度学习达成合作。

深度学习(Deep Learning)是机器学习拉出的分支,它试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的方法。表征学习的目标是寻求更好的表示方法并创建更好的模型来从大规模未标记数据中学习这些表示方法。

深度学习通过大量的数据分析用户需求,并匹配其需要的信息,当前很多购物平台与推荐类APP也是如此,另外像自动驾驶、照片定位、实时语音翻译、自动回复电子邮件、脸部识别等都是深度学习的研究范畴。

戴尔助力的这一智能家居项目,其主要目的是改善人工智能深度学习,研发无集中高性能计算资源的现状,建立统一的端到端的人工智能深度学习高性能计算平台,同时用于该集团内部的产品设计、智能仿真、科普数据库、集中渲染等业务需求基础架构平台,未来作为该集团内外部用户共享高性能计算资源的平台。

为构建此深度学习平台,Dell 公司提供了灵活的HPC技术框架、产品、服务和专业技能来解决特定用户在任意扩展性上的挑战。并行计算是目前业界较为先进的计算体系,是融合了计算、存储、网络和软件于一体的系统,是一个成熟的产品和技术

「智能家居」不一样的深度学习体验

戴尔拥有非常完善的HPC解决方案生态体系架构:

1客户化的解决方案:

自信地选择何时、何处、如何将新的HPC环境添加或替换现有的HPC环境;

2预先定制的解决方案:

无需很多专家及支持即可在几天或几周内快速部署、高效、集成化的HPC基础架构;

3云就绪的解决方案:

从裸设备部署到按需的云部署,戴尔能够帮助您应对任何规模的云计算部署的挑战;

4完善的支持服务体系:

利用可靠灵活的戴尔服务帮助您更简便地部署和管理您的HPC集群;

5强大的硬件支撑平台:

PowerEdge Servers + Dell Storage + Dell Networking + Dell software + Dell Services.

深度学习方案的重要组成

「智能家居」不一样的深度学习体验

智能家居项目中深度学习方案拓扑架构图

1CPU+GPU集群工作模式

戴尔高性能运算解决方案利用CPU+GPU集群工作模式,采用胖节点、瘦节点、GPU节点三种结合的方式来为用户提供数据处理。

胖节点

采用戴尔专为最严苛的企业应用程序而设计,具有行业领先的内部存储和内存可扩展性,可以优化应用程序性能的R930服务器。

「智能家居」不一样的深度学习体验

GPU节点

采用C4130,在1U空间内配置4块NVIDIA Tesla K80 GPU卡,提供双精度浮点计算能力达12.8TFlops。

「智能家居」不一样的深度学习体验

瘦节点

采用1U机架式服务器R630,在1U外形规格中提供双倍的机架密度,并降低电力、冷却和空间成本,提供一种24个1.8英寸全固态硬盘配置,以显著提高性能(最多提高240%),可选择各种RAID选项,包括可实现更高性能的双PERC选项 ,支持最多4个超快NVMe Express Flash PCIe设备。

「智能家居」不一样的深度学习体验

2高速InfiniBand网络互连

在大规模并行计算和机群等高性能计算系统中,处理器之间或计算节点之间的快速互联网络的重要程度并不亚于处理器本身,在早期的大型计算系统中,处理器之间的通信一直被所采用的互联网络(通常是以太网),延时大、带宽不足等因素所牵制。高性能计算系统的互联方式有很多种,最初的机群系统是基于LAN技术的,也就是以最普通的以太网(Ethernet)作为数据交换媒介。其优势在于可以方便地增加计算节点到集群系统中,但是其缺点也很多,传输速度较慢,复杂的协议造成非常高的延时,并且限制了扩展性。

Infiniband是一种非常成熟的技术,其技术规格在2001年6月完成。从2002年开始,很多制造商开始提供基于Infiniband标准的产品。Infiniband可以用于连接多种系统部件。Infiniband架构由可编程交换机连接通道适配器(Channel Adapters,CA)组成。CA能够被安置在服务器中(称为主通道适配器,Host Channel Adapers,HCA),或者是转换到存储设备和以太网的I/O转换器中(称为目标通道适配器,Target Channel Adapter,TCA)。基于Infiniband的远程内存存取(RDMA)功能,消息可以从一个HCA/TCA传递到另一个HCA/TCA,也就是说,允许从一个HCA/TCA读/写另一个HCA/TCA的内存。另外,交换机可以用不同级别的网络来堆叠。

本次项目中计算节点间采用高速InfiniBand网络互连,速度可以达到双向56Gb/s。

「智能家居」不一样的深度学习体验

3并行可扩展文件系统

「智能家居」不一样的深度学习体验

根据上面的图表, 2016年11月的统计数字显示75%的高性能计算存储使用了Lustre文件系统,GPFS仅为19%。

Lustre属于一种分布式文件系统,同时也是并行文件系统。它的优势包括提供单一命名空间;可增加节点数来扩展容量和性能,并支持在线扩展;支持多个客户端并发读/写,通过分布式锁机制保障数据一致性等。它存在的挑战之处:架构规划,设计,概念验证,网络带宽、应用设计、应用负载设计、OSS和LUN的负载均衡、故障切换等方面。让我们看看,戴尔是如何快速有效地解决这些问题的。

「智能家居」不一样的深度学习体验

本次项目中我们采用的也是并行可扩展文件系统,基于 Intel Enterprise Edition for Lustre 软件,Dell HPC Engineering 开发的最佳做法,在 Dell 硬件上提供最佳性能,设计借助动态存储扩展,每构建块提供 10.5 GB/s 读取速
率和 6 GB/s 写入速率 ,使用 Intel Hadoop Adapter for Lustre (HAL) 的大数据工作负载的解决方案设计,与利用可选 NFS/CIFS 网关的其它文件系统共享数据。

「智能家居」不一样的深度学习体验

口说无凭,那么咱们看几个测试结果:

「智能家居」不一样的深度学习体验

从图中可以看到Boulder配置的IOzone/IOR性能测试结果中,单一客户端读写性能分别达到0.75G/s和0.63GB/s,24客户端时的最大性能,读写分别达到10.04GB/s和5.68GB/s,完全满足客户方案要求的10GB/S的性能要求。

另外在本项目中还配置了Hadoop模块,在Hadoop应用中采用Lustre的优势有:

无需更改软件即可提升应用性能

更低的成本,更简便的管理

更高效的存储系统

在加载数据或分析结果时没有额外的数据传输开销

无需区分哪些存储是用于HPC(Lustre),哪些是用于数据分析(HDFS)

通过这些优势可以平滑实现Hadoop的分析运算,满足客户业务需求。

4领先的BCM集群任务管理

「智能家居」不一样的深度学习体验

本次项目中采用业界领先的Bright Cluster Manager集群管理软件。BCM是Intel Cluster Ready的官方认证高性能集群管理软,采用高性能、高可靠性设计,具有丰富的图形界面,易于管理使用,包含广泛的HPC应用软件包,提供HPC集群、Hadoop集群等集群管理功能。

「智能家居」不一样的深度学习体验

利用戴尔服务器管理软件,对服务器、存储、网络等产品进行发现、监控、管理、部署以及安装补丁程序,帮助管理员通过单一的管理界面清晰地了解服务器的状态并进行管理,时时收集磁盘IO、吞吐量、容量、CPU、内存使用率、IO延时、队列深度、读写比例等指标,为用户提供统一的运维、监控。

5优质的支撑服务

「智能家居」不一样的深度学习体验

成功的项目背后离不开一个强大的售后服务体系,为此我们也为客户提供了优质的服务来支撑本次项目,戴尔最高级别的白金服务,提供24*7全天候售后电话技术支持,专属的800售后服务热线,享受人力和备件派遣的最优先派遣,加速解决关键问题;配备原厂专属大客户经理对紧急报修进行资源协调和报修跟踪,并且提供每季度不少于一次的上门巡检服务,提供月度设备运行状况检查及性能建议;鉴于数据的安全性所有故障硬盘配置硬盘不返还服务。

那么,戴尔给智能家居客户

带来什么不一样的深度学习体验呢?

1、深度学习研发使用集群GPU+CPU方式进行,可以满足日益增加的深度学习研发需求;集群后GPU资源可以实现灵活调度,提高利用率。

2、采用Dell/Intel认证的方案架构,方案先进,架构成熟,Dell能够提供给客户端到端的整体解决方案。

3、资深的销售/售前技术支持团队与完善的售后服务体系保证业务高忱无忧。

来源:ZDNet云计算频道

0赞

好文章,需要你的鼓励

2017

03/20

11:02

分享

点赞

邮件订阅
白皮书