NVIDIA 用英特尔 Xeon 来“看管”GPU
CBINEWS
责任编辑:邹大斌
电脑商情在线
时间:2025-05-26 10:23
英伟达 英特尔 x86 GPU
2021 年,当 NVIDIA 首次发布其基于 Arm 架构的 Grace CPU 时,许多人将其视为对英特尔和 AMD 的威胁。然而四年过去了,虽然这款基于 Arm 的芯片如今已成为这家 GPU 巨头最强大的 AI 系统的核心,但它尚未完全取代 x86 架构。
在Computex 展会,英特尔展示了三款新的 Xeon 6 处理器,其中有一款将用于 NVIDIA 今年 3 月在 GTC 大会上宣布的 DGX B300 平台。
根据英特尔的说法,每台 DGX B300 将配备一对 64 核心的 Xeon 6776P 处理器,它们的任务是为平台中的 16 块 Blackwell Ultra GPU 提供数据处理支持。
不过,这批新发布的芯片并不是普通的 Xeon。与 Xeon 6 系列其他成员不同,这些芯片专门针对“看管”GPU 进行了优化。
尽管大多数人将生成式 AI 与高能耗的显卡联系在一起,但 CPU 依然承担着大量任务。例如,在 AI 会话启动或超时时,模型的短期记忆——也就是所谓的键值缓存(key-value caches)——往往需要从系统内存传输到 HBM。此外,像 RAG(检索增强生成)流水线中使用的向量数据库等任务,也常常运行在 CPU 核心上。
Xeon 6776P 是三款具备 Intel Priority Core Turbo(PCT,优先核心睿频)和 Speed Select Technology Turbo Frequency(SST-TF,速度选择技术睿频)功能的 CPU 之一。
这些技术背后的思路是:通过限制大多数核心运行在基础频率,可以让剩下的部分核心在芯片满载的情况下也能持续维持更高的频率。
英特尔至强产品部高级产品经理 Milan Mehta表示,这项技术可以让每个插槽中的最多 8 个核心运行在 4.6GHz,比芯片标称的最大睿频高出 700MHz,而其余的 48 个核心则固定运行在 2.3GHz 的基础频率。
如果你觉得这个策略听起来很熟悉,那是因为英特尔早在桌面处理器 Alder Lake 中就采用了类似方法,即通过将后台任务交给专用的能效核心(E-core),释放性能核心(P-core)来处理更高优先级的工作负载。
但由于 6700P 系列芯片没有 E-core,因此必须通过锁定时钟频率的方式来实现类似功能。
Mehta 表示:“我们发现,这种高低频混合的方式有助于更好地将数据输送给 GPU。虽然不会带来三倍的提升,但它确实改善了整体的 GPU 利用率,以及 AI 推理和训练的整体性能。”
虽然这一代 CPU 是专为 AI 主机任务优化的,但 DGX B300 本身的配置仍然相对标准。每颗 Xeon CPU 通过相同数量的 ConnectX-8 网卡,连接四个双 GPU 的 Blackwell Ultra SXM 模块,采用一种菊花链式的结构。
尽管 NVIDIA 正在向新的 CPU 平台敞开大门,但这家芯片公司仍在继续投资于自己研发的基于 Arm 的芯片。
在今年 3 月的 GTC 大会上,NVIDIA 展示了其下一代 CPU 平台 Vera 的最新细节。这款 CPU 以美国天文学家 Vera Rubin 的名字命名,计划在明年取代现有的 Grace CPU。
该芯片将配备 88 个“定制 Arm 核心”,并支持同步多线程(SMT),每个插槽可提供 176 个线程,同时搭载 NVIDIA 最新的 1.8 TB/s NVLink-C2C 互连技术。
尽管核心数量更高,但它的 热设计功耗(TDP)仅为 50W,这表明这些核心可能被简化到了维持 GPU 正常运行所需的最低限度。虽然这听起来有些不同寻常,但许多这类 AI 系统本质上更像是通过 API 进行交互的专用设备。
据悉,Vera 将与 NVIDIA 明年推出的 288GB Rubin GPU 同步亮相。