在《这届超算大会展示了哪些黑科技?》一文中,提到过专门用于GPU/协处理器(下文中简称GPU或者加速器)计算的DellPowerEdge C4130服务器平台。戴尔C4130可以保证在1U空间内支持4块全尺寸GPU卡,大大提升了系统的计算密度比。中国有句话叫做,龙生九子,各有不同,这句话放在C4130身上特别的贴切。这款产品拥有九种形态,可以适应不同的应用需求。
同样我也提到过C4130中可选96 lane PCIe 3.0Switch,引入它之后该平台的GPU/协处理器卡连接方案达到9种之多。这样设计的目的,或者说对用户的价值是什么呢?
我们先列出一些值得关注的方面,下文中将围绕它们进行衡量:
1、CPU to GPU/协处理器带宽;
2、GPU to GPU直连访问(GPUDirect),
池化or拆分;
3、网络I/O带宽限制;
4、散热、功耗和成本。
Xeon CPU PCIe
通道限制及解决方案
蓝色标注部分包括“GPU switchboard”和电源功率,注意只有1600W和2000W电源模块可以支持4个GPU/协处理器卡。
上图引用自《Dell PowerEdge C4130 Owner's Manual》,里面明确标出了CPU、GPU等组件在机箱中的位置,以及从A到I共9种连接方案,除了CPU和GPU的数量、有没有PCIe Switch板之外,还有一点受影响的就是服务器PCIe扩展槽。
这个示意图是GPU卡的安装。用于高密度服务器的GPU都是被动散热方案,系统风扇和风道设计就很重要了。
GPU switch board
6个插槽的作用我会在后面讲
这个转接板的金手指不是标准的PCIe定义,下面我们来看看它的连接示意:
PowerEdge C4130主板上有4个PCIe x16连接器,它们都不是直接插设备的。中间2个可以选择选向后连接其它PCIe扩展卡,位于两侧的我在这个示意图里用蓝色标出。
我们知道每颗Xeon E5 CPU提供40 lane PCIe 3.0通道,如果提供2个x16用于全速连接GPU,不做专门设计的话,位于PCIe扩展卡的位置只能提供x8的带宽。由于C4130的HPC用途和计算密度,有时需要配置双端口56Gb/s Infiniband,以及100Gb/s EDR IB和Intel Omni-Path高速网卡。因此才会有上面的连接选项。
在这种情况下CPU自身的PCIe控制器信道数开始不够用,PCIe Switch被引入,同时GPU之间的直接通信效率更高。
配置A&B;:GPU点对点,重加速器轻I/O
如上图,配置A是将单Xeon E5 CPU的一个PCIe x16连接到GPU switch board,然后再用后者连接4个GPU,同时CPU 1的另一个PCIe x16插槽用于提升其它扩展卡的带宽。在同等密度下经济性最好,每个GPU/协处理器到CPU之间的平均带宽虽然不算高,但GPU之间可以通过GPUDIRECT技术直接高效通信。
配置B是在这个基础上增加了一颗CPU,保持PCIe Switch和GPU的池化连接方式,与配置A相比提高了CPU计算能力和内存支持。
这张示意图是PowerEdge C4130的GPU供电连接,四条线缆都是从电源与主板连接的位置附近引出。如果是没有GPU switch board的配置,那条浅绿色的就不需要了。
配置C:最大加速器&CPU;密度,高度均衡架构
配置C也是一种比较常用的方案。不需要增加GPU switch board,而且CPU与GPU之间还都是PCIe x16全速连接。它对4个GPU的支持为拆分(split)模式,如果说尚有缺憾之处,就是必须配2颗CPU,并且后面2个常规PCIe扩展槽位都只有x8带宽。正是因为每种方案各有取舍而非十全十美,所以C4130才提供了这么多选择。
配置D:平衡加速器密度和高性能I/O
配置D只安装了2个GPU/协处理器卡,所以每CPU都剩下1个PCIe x16,这样在不用GPU switch board的情况下后面的2个扩展卡就都可以跑到全速。能够充分发挥InfiniBand EDR高速网卡的带宽。
配置E/F:低密度Scale-out电源散热需求放松
配置E针对入门级GPU密度环境,单一CPU不用switch board PCIe x16直连两块GPU卡。因为没有插第二个CPU,这时PCIe扩展卡只能支持1块x8带宽的。该配置以相对较低的功耗换来了良好的Scale-out能力,因为每台PowerEdge C4130的供电和散热需求降低了,单位机架空间内就可以多放几台。
配置F是在配置E基础上增加第二颗CPU,除了前面提到过的好处之外,就是第二个x8 PCIe扩展槽也可以使用了。这里CPU2上的PCIe也没有使用x16宽度连线,估计是为了保持其入门级定位。
配置G:最大计算密度均衡I/O方案
配置G一方面将96 lane PCIe Switch交换板充分利用(拆分成2个池),共2个上行to CPU + 4个下行to GPU,同时常规PCIe扩展槽位还能提供2个x16支持。是一种最大化加速器和CPU密度的高度均衡方案。
配置H&I;:重VDI(图形)工作负载方案
配置H和I是用一颗CPU的2个PCIe x16直连2块GPU卡,另一颗CPU连接另1块GPU,同时提供2个或者1个常规PCIe x8扩展槽位。该方案的GPU/CPU核心配比为图形密集型VDI应用进行了优化,专门针对NVIDIA Grid K1 GPU设计。
从灵活性到HPC的进一步咨询
大家知道GPU服务器面向一些特定应用领域,不如常规服务器那样标准化。起初我以为只需要考虑密度和PCIe连接带宽,而通过对Dell PowerEdge C4130的学习之后,却发现里面还有这么多门道。
对异构HPC有需求的用户,如果还不确定什么样的配置最适合自己,可以找HPC方面的专家顾问进一步咨询。他们可能会有不少同行业应用的经验分享给您哦 ( ̄︶ ̄)
好文章,需要你的鼓励
尽管全球企业AI投资在2024年达到2523亿美元,但MIT研究显示95%的企业仍未从生成式AI投资中获得回报。专家预测2026年将成为转折点,企业将从试点阶段转向实际部署。关键在于CEO精准识别高影响领域,推进AI代理技术应用,并加强员工AI能力培训。Forrester预测30%大型企业将实施强制AI培训,而Gartner预计到2028年15%日常工作决策将由AI自主完成。
这项由北京大学等机构联合完成的研究,开发了名为GraphLocator的智能软件问题诊断系统,通过构建代码依赖图和因果问题图,能够像医生诊断疾病一样精确定位软件问题的根源。在三个大型数据集的测试中,该系统比现有方法平均提高了19.49%的召回率和11.89%的精确率,特别在处理复杂的跨模块问题时表现优异,为软件维护效率的提升开辟了新路径。
2026年软件行业将迎来定价模式的根本性变革,从传统按席位收费转向基于结果的付费模式。AI正在重塑整个软件经济学,企业IT预算的12-15%已投入AI领域。这一转变要求建立明确的成功衡量指标,如Zendesk以"自动化解决方案"为标准。未来将出现更精简的工程团队,80%的工程师需要为AI驱动的角色提升技能,同时需要重新设计软件开发和部署流程以适应AI优先的工作流程。
这项由德国达姆施塔特工业大学领导的国际研究团队首次发现,当前最先进的专家混合模型AI系统存在严重安全漏洞。通过开发GateBreaker攻击框架,研究人员证明仅需关闭约3%的特定神经元,就能让AI的攻击成功率从7.4%暴增至64.9%。该研究揭示了专家混合模型安全机制过度集中的根本缺陷,为AI安全领域敲响了警钟。