新年之初
向各位读者报告一则喜讯!
刚刚过去的12月
戴尔易安信PowerEdge XE8545
在“2021中国互联网经济论坛”上
喜提“2021年度卓越人工智能产品”奖
祝贺XE8545!
恭喜戴尔易安信AI服务器再创佳绩!
2021中国互联网经济论坛由互联网周刊、中国社会科学院信息化研究中心、eNet研究院、德本咨询联合主办,自2002年起已成功举办十九届,是业内极具分量的互联网行业盛会。论坛核心板块的“金i奖”极具权威性和专业度,覆盖了AI、大数据、5G等各行业领域,历来被业内视为代表互联网精神和产业发展创新的风向标。
辞旧迎新之际,宜总结过去展望未来,当下AI大潮席卷全球,作为底层逻辑的AI服务器又将走向何方?或许我们能从基准( Benchmark )测试里读出一些趋势。
基准( Benchmark ) 测试是目前最主要的信息系统性能测试技术,它按照统一的测试规范(test specification)对被测对象进行测试,测试结果具有可比性和可再现性。在计算机领域,Benchmark测试应用最广泛和最成功的是性能测试,主要关注响应时间、传输速率和吞吐量等。
对生产厂商而言,Benchmark测试可以为产品进行市场宣传,发现系统瓶颈;对用户的作用则在于指导产品选择。一个优秀的Benchmark测试可以为某一领域的技术发展起到积极导向作用,引导厂商采用新技术以改进产品。
笔者记得20年前最火的Benchmark测试无疑是TPC-C ,当年还是小型机(简称小机)时代,PS小机是中国特色的叫法,国外称其为UNIX服务器。随着x86和云原生应用的兴起,TPC瞬间就不香了。
自2006年AlphaGo打败李世石后,业界急需公认的AI时代基准测试程序,万众期待之下,MLPerf AI性能基准测试于2018年由MLCommons发布。
MLCommons成员包括谷歌、微软、英特尔、NVIDIA、Facebook、阿里巴巴等多家在人工智能领域颇有建树的领导企业。自推出后,MLPerf AI性能基准测试以其全面性、科学性、广泛参与度,业已成为全球最受关注的AI性能基准测试,并为很多用户AI计算方案设计及选型提供重要参考依据,(关于MLPerf AI性能基准测试详细信息,欢迎移步这里查看)。
(一)
AI/DL落地传统企业,
4GPU服务器是最佳平衡
在去年12月初发布的MLPerf Training v1.1基准测试中,戴尔易安信共提交了51项测试结果,包括全部八个项目的性能数据,取得多项世界纪录。
戴尔易安信参评了两款4GPU机型服务器——PowerEdge XE8545和R750xa,分别取得如下几项的世界第一:
(1)XE8545获得四卡GPU加速服务器的四项最佳:
●目标检测Mask R-CNN(83.77分钟)
●语音识别RNN-T(79.56分钟)
●自然语言处理BERT(38.85分钟)
●强化学习Mini Go(451.29分钟)
(2)R750xa获得四卡GPU加速服务器的语音识别RNN-T最佳(84.02分钟);
戴尔易安信的测试数据、配置及Log,均可以在GitHub上找到:
https://sourl.cn/3FXXed
和友商专注于8颗GPU的单机测试不同,戴尔易安信更关注4颗GPU的单机和集群测试。
根据IDC连续三年的统计,4个双宽GPU的机型在2021年成为市场主流。主要在于随着单GPU性能的提升(如A100 vs V100),现如今4*GPU机器的性能已经超越上代8*GPU的机型。
另一个主要原因是AI/DL(Deep Learning)的早期采用者,互联网行业的GPU服务器占比正逐年下降,而金融/制造/政府/电信等行业占比则逐渐上升,AI/DL正逐渐落地传统行业。
相比互联网,传统行业很少需要高密度GPU服务器,因而4GPU服务器是当前条件下的最佳平衡。
(二)
多机多卡GPU分布式训练
成为必然选择
MLPerf Training v1.1基准测试中,除了GPU服务器单机测试外,戴尔易安信是唯一的服务器厂家提供基于GPU多机分布式训练测试结果的厂商。
万亿级参数规模的AI模型训练、超大规模NLP/推荐系统特征向量、更大规模数据集更短训练时间——AI时代汹涌而来的超级算力需求,仅靠单台GPU服务器已经无法满足,多机多卡GPU分布式训练成为必然选择。
我们可以类比一下从当年128路SMP小机到现在主流两路x86集群的进化历程,戴尔易安信认为GPU服务器的进化也是类似:单机16/20个GPU的服务器已经让位于4/8个GPU服务器的集群。
2021年,戴尔易安信在国内发布了《戴尔科技AI GPU分布式训练技术白皮书》,将戴尔易安信在构建AI GPU加速集群、进行AI GPU分布式训练全局优化的参考架构和最佳实践分享给更多的用户和朋友(本公众号后台回复关键字“白皮书”即可获取)。
特别值得一提的是参与MLPerf Training v1.1基准测试的PowerEdge XE8545,它在4U机架式空间内可以支持风冷散热的4张NVIDIA A100 80GB/500W GPU加速卡,通过最新的NVLink技术实现全互联(full mesh)。
XE8545服务器设计简单直接,CPU(AMD第三代EPYC米兰)与GPU、GPU与GPU、CPU与网卡及NVME SSD存储,采用PCI-E 4.0或者NVLink实现直连,可最大程度降低通信及IO延迟,同时大大简化程序员工作。
戴尔易安信 PowerEdge XE8545
由于卓越的性能和市场表现,PowerEdge XE8545喜提“金i奖”荣誉,它历经层层筛选脱颖而出,表明其不凡实力已获得行业高度认可。
再过几年,戴尔服务器也将迎来30周年,作为“在中国,为中国”的“外资本土”企业,戴尔易安信一定不负用户和媒体的支持和厚爱,持续研发各行业都适用的IT基础设施,推动AI项目在中国传统行业真正落地。
好文章,需要你的鼓励
施耐德电气以“新质服务+产业向‘新’行”为主题,第六次参会,展示全新升级的“新质服务体系”,围绕创新驱动、生态协同和行业赋能三大核心领域,以全新升级的“新质服务体系”,助力中国产业向高端化、智能化、绿色化迈进。
香港中文大学联合上海AI实验室推出Dispider系统,首次实现AI视频"边看边聊"能力。通过创新的三分式架构设计,将感知、决策、反应功能独立分离,让AI能像人类一样在观看视频过程中进行实时交流,在StreamingBench测试中显著超越现有系统,为教育、娱乐、医疗、安防等领域的视频AI应用开启新可能。
甲骨文正在成为大规模基础设施供应商的可靠选择。该公司通过AI技术推动应用开发,构建GenAI模型并将智能代理集成到应用套件中。CEO萨弗拉·卡茨透露,公司剩余履约义务达4553亿美元,同比增长4.6倍,并预测OCI收入将从2026财年的180亿美元增长至2030财年的1440亿美元。甲骨文正积极布局AI推理市场,凭借其作为全球最大企业私有数据托管方的优势地位,有望在云计算领域实现重大突破。
Atla公司发布Selene Mini,这是一个仅有80亿参数的AI评估模型,却在11个基准测试中全面超越GPT-4o-mini。通过精心的数据筛选和创新训练策略,该模型不仅能准确评判文本质量,还能在医疗、金融等专业领域表现出色。研究团队将模型完全开源,为AI评估技术的普及和发展做出贡献。