美国时间11月18日,业界瞩目的SC19国际超算大会在科罗拉多州丹佛会展中心举行。本届大会由ACM与IEEECOMPUTER SOCIETY联合主办,以“HPC正当时(HPC is Now)”为主题。
作为全球超算领域中规模大、规格高、辐射面广的学术与产业大会,SC19以主旨报告、特邀报告、专题讨论、科研论文、学术墙报、学术论坛、创新成果展览等多种形式,向大家展示全球超算领域高性能计算、网络传输、存储架构及数据分析等方面在过去一年来取得的重大突破和超算创新应用成果。
然而最让人兴奋的,还是11月18日晚间7点的Gala开场活动。也是从这一刻起,SC19大会的展区部分正式开放,来自全球的政府部门、高校与科研机构、解决方案提供商汇聚一堂,为到场嘉宾展开一场科技盛宴。而在这个舞台上,戴尔科技集团(以下简称“戴尔科技”)的表现尤为抢眼。
看着我一脸好奇的走进展台,一位叫做Tom的小哥热情的接待了我,并介绍说他是戴尔科技某解决方案部门的工程师。随后,他滔滔不绝的介绍起了戴尔科技本次展示的解决方案。
从服务器到整机柜,
戴尔液冷的全生态布局
本次大会上,为了让嘉宾更清楚的了解展区的应用场景,戴尔科技对所有展区进行的分类,于是就有了AI区、存储区、工作站区等多个区域。而在核心位置,戴尔科技摆放了一台采用英特尔傲腾数据中心持久级内存加速的服务器,它的型号叫做——PowerEdge C6420液冷版。
最近几年,SC大会的展区上总少不了液冷的身影,这一方面是由于液冷技术的发展,另一方面也是传统风冷面对超级计算机这种性能“怪兽”有点力不从心。所以这次,戴尔也为那些需要高性能计算同时又需要高能效表现的用户提供了液冷服务器,PowerEdge C6420就是其中的代表。
PowerEdge C6420
PowerEdge C6420是面向高性能计算的高密度产品,它最大的特点就是在一个超高密度的2U机箱中提供多达4台独立的热插拔双路服务器,相当于在单位空间内为用户提供了充足的计算、内存、存储等等,密度比非常高。但是同样,狭小的空间也为散热带来了难题,所以戴尔科技为期搭配了与CoolIT合作开发的液冷解决方案,可以有效保证服务器的稳定运行。
虽然相对于风冷平台来说,液冷设备的初期采购成本相对贵一些,但是对于一台服务器来说,一般的生命周期都要在3-5年,而这么长的时间内液冷所提供的散热效率和节能优势,已经低于风冷平台的采购成本。
在算明白这本“经济账”之后,越来越多的超算用户开始讲目光聚焦在液冷平台上来,TOP500榜单中排名靠前的多套系统都采用液冷散热,比如中国顶尖的神威·太湖之光和天河二号A。
不过PowerEdge C6420虽好,只适合全新采购的项目,那么客户现有的机柜如何能够享受到液冷的优势呢?对此,戴尔科技也有了精心的准备。据Tom介绍,目前戴尔科技已经与业界著名的Motivair公司展开合作,推出了一款名为ChilledDoor(冷门)的机柜式冷却系统,在看到这套系统的第一眼,我就被震惊了——的确是与众不同。
ChilledDoor
ChilledDoor系统的运行原理就是将一个主动式后门热交换器,直接安装在任何标准服务器机架的背面,这样就可以帮助传统机架进行散热,从而确保最佳的计算机性能和最长的正常运行时间。
具体规格方面,ChilledDoor系统具最高75kW机架冷却能力,符合Open19和OCP设计标准,可以兼容绝大多数机架设备。通过内置的大功率可调节PLC控制系统,ChilledDoor系统可以帮助服务器机架实现主动冷却,多达5个可热交换的离心风扇更能够实现快速更换和扩展。
“It's Very Cool”,Tom说。我理解他这句话的意思可谓是一语双关,ChilledDoor系统不仅仅可以帮助系统实现散热,其本身的设计理念也属于业界领先,使得传统数据中心不需要进行大面积的机房改造就能实现升级,也让客户的业务实现了连续不间断运行。
这样一来,无论是全新采购还是老设备利旧,戴尔科技的液冷解决方案都可以让你的数据中心焕发生机。
深耕FPGA,
戴尔结下产业应用累累硕果
在看完了液冷解决方案之后,Tom又带我来到了AI与工作站的展区。如今,AI是整个行业非常热门的概念,戴尔科技也针对AI应用推出了诸多解决方案。这一次,戴尔科技展示了包括英特尔和AMD在内的两大类计算平台,并且搭配的加速设备也涉及到GPU和FPGA等多个方面,全面覆盖了AI应用。
刚刚介绍了戴尔科技与英特尔傲腾数据中心持久内存所进行的合作,其实在FGPA领域双方也已经合作日久。在现场,我们看到了Dell EMC PowerEdge R740和PowerEdge R840两大系列产品与英特尔FPGA的结合。
有数据统计,近年来全球FPGA的市场规模,基本在50亿~60亿美元左右。而来自研调机构Global Market Insights的最新报告则显示,在2015~2022年间,FPGA市场将出现8.4%的年复合增长率,到2022年规模有望超过99.8亿美元。
为什么FPGA会得到行业越来越多的关注?
因为它具有高性能、低功耗、灵活性强等优势。尤其对于那些数据串行排列需要解决运算的场景,比如基因测序、深度学习、大数据分析、安全应用、超算、存储编码等等,FPGA的表现尤其突出,而且在很多应用场景中,其性能会比通用处理器快10倍甚至是100倍,并且功耗非常低,还可以不断重写。
其实早在去年,英特尔FPGA中国创新中心在重庆西永微电子产业园的盛大揭幕,戴尔就是这一历史性时刻的见证者,同时也是英特尔最亲密的合作伙伴。而戴尔科技之所以如此看重FPGA,也是因为可编程的FPGA拥有很强的灵活性,支持差异化定制,并且在实现整点运算的时候更有优势。
就应用来说,戴尔科技的FPGA在国内也是硕果累累。比如国内某知名的某语音交互人工智能企业,就采用了戴尔科技相关解决方案开发和运行AI应用;国内著名的某理工科学院,也采用了戴尔科技FPGA架构进行生命科学研究;包括其他很多应用场景的探索和分析,也已经在陆续展开当中。可以预见的是,未来FPGA将会成为越来越重要的芯片,CPU+FPGA深度融合的异构计算更是成为了产业发展的必然选择。
携手合作伙伴,
戴尔虚拟化平台更添新动能
除了英特尔之外,在戴尔科技展台你还能看到AMD最新发布的Zen2架构处理器平台。现场,Tom详细介绍了基于AMD最新平台的虚拟化解决方案,这款方案的承载平台是Dell EMCPowerEdge R7515。按照行业命名规则,所有AMD平台都由5结尾。
Tom特别展示了这台Dell EMC PowerEdge R7515的配置卡片,原来它所采用的是AMD最高端的EPYC 7702处理器核心,它具备了64核128线程,主频从2.00GHz最高可以达到3.35GHz,具备256MB缓存,整体的TDP只要250W。“64个核心,用来做虚拟化非常合适”,Tom表现得非常兴奋。
当然,虚拟化并非单独依靠服务器来完成,要想实现良好的云端访问体验和低延迟的应用场景,网络平台也是不必可少的。这里,戴尔为客户提供的是最先进的、200Gb/s带宽的Mellanox HDR网络,这种InfiniBand网络的最大特点就是高带宽低延迟,而200Gb/s也是目前业内顶尖级别。
由此也看出了戴尔科技在生态上的广泛布局,并与包括Mellanox在内的许多合作伙伴达成了良好的合作关系。虽然戴尔科技自家也有网络解决方案,但是这些方案都是基于以太网,而对于HPC应用来说InfiniBand网络的延迟优势更被用户所青睐。而在携手Mellanox之后,戴尔也为整个产业提供了更为丰富的解决方案。
一直以来,戴尔科技集团作为业界领先的解决方案提供商,都在不断帮助客户实现业务进步,特别是在如今数字化转型的时代,在强调AI计算的智能化时代,客户需求已经不仅仅是单一设备,而更需要类似戴尔科技这样能提供全面解决方案,从底层应用到上层优化的企业。
戴尔科技集团全球资深副总裁、大中华区企业解决方案总经理曹志平
在上个月刚刚结束的戴尔科技峰会上,戴尔科技集团全球资深副总裁、大中华区企业解决方案总经理曹志平就曾表示——智能+正在给中国企业的全球创新发展带来前所未有的机遇和挑战,越来越多的企业级用户的IT战略重点从‘资源平台’转移到‘创新平台’。
如今对于戴尔科技集团来说,早已经为客户提供了最为丰富的解决方案。无论是计算、存储亦或是网络平台,无论是多云、跨云还是边缘计算能力,戴尔都能够因势利导的将其转化为业务增长引擎,助力客户应对数字化转型大潮,共赢数字化未来。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。