moe

NVSwitch Architecture and NVL72

NVSwitch Architecture and NVL72

Posted by George Lin on June 21, 2026

引言:走进 GTC 2024,站在 120kW 的机柜面前

GTC 2024 的展台上放着一个机柜。

ServeTheHome 的主编 Patrick Kennedy 在现场拍了几张照片。这个机柜从上到下排布着 10 个计算节点,接着是 9 层 NVSwitch 交换盘,底部还有 8 个计算节点。前面板的每个计算节点露出两对 InfiniBand 端口、四个 E1.S 硬盘托架、以及一排管理网口。右侧嵌着 BlueField-3 DPU。机柜背面是一整面盲插(blind-mate)连接的 NVLink 铜缆背板——5,184 根无源铜缆,密布如织。最底部是三条厚重的汇流排(bus bar),输送着 48V 直流电,最高 2,500 安培。

这些东西拼在一起,叫 DGX GB200 NVL72。

它在单个机柜里装下了 72 块 Blackwell B200 GPU、36 颗 Grace CPU、30TB 统一内存、130 TB/s 的聚合双向互联带宽。整机功耗 120kW——是当前主流数据中心单机柜容量(约 40-60kW)的两到三倍。NVIDIA 管它叫”一个机柜里的 ExaFLOP AI 超级计算机”。

它不是靠蛮力堆出来的。这个机柜可以存在,是因为一块叫 NVSwitch 的交换芯片——从 2018 年 DGX-2 上那枚 6 端口的第一代原型,用了六年、三代工艺和四次架构迭代,进化成了现在这枚 72 端口、14.4 Tb/s 全双工、25.1B 晶体管的 NVSwitch 4.0。它的设计选择——铜还是光、48V 还是 12V、单级全互联还是两级级联——每一个都在定义”AI 超大规模互联”的物理边界。

本文就是来拆解这些选择。


系统剖析:NVSwitch 的四代进化与 NVL72 的物理架构

NVSwitch 的代际演进:从小型交换到全机柜互联

NVSwitch 不是一天长成巨物的。它的进化路线从支持 8 GPU 的小型交叉互联,一路走到今天单域 576 GPU 的全连接。每一代的带宽、端口数、工艺和晶体管规模都发生了质变。

特性 NVSwitch Gen1 (DGX-2) NVSwitch Gen2 (DGX A100) NVSwitch Gen3 (DGX H100) NVSwitch 4.0 (GB200 NVL72)
年代 2018 2020 2022 2024
配套 GPU V100 A100 H100 B200
工艺 TSMC 12nm TSMC 7nm TSMC 4N TSMC 4NP
每芯片端口数 6 ~20 64 72
每端口带宽(单向) 50 GB/s 50 GB/s 50 GB/s 100 GB/s
每芯片总带宽(双向) ~600 GB/s ~2.0 TB/s 3.2 TB/s 14.4 Tb/s (~1.8 TB/s)
单域最大 GPU 数 8 8 8(DGX)/ 256(SuperPOD) 72(单机柜)/ 576(两级级联)
NVLink 代次 Gen2 Gen2 Gen4 Gen5
每 GPU NVLink 带宽 300 GB/s 600 GB/s 900 GB/s 1.8 TB/s
单域聚合双向带宽 ~2.4 TB/s ~4.8 TB/s ~3.6 TB/s (DGX) 130 TB/s

NVSwitch 的进化可以拆成四个维度来看:

端口密度爆炸:Gen1 的 6 个端口对应 DGX-2 里 8 块 V100 的互连——两块 NVSwitch 芯片共同构成 8 GPU 的全互联。Gen3(H100 代)跳到 64 端口,使得单个 NVSwitch 可以直接连接 64 个 NVLink 通道。到了 Gen4(B200 代),72 个端口正好等于 NVL72 中 72 GPU 的 18 个第四代 NVLink 通道 × 4(每个 NVSwitch 芯片连接 4 GPU 的全通道)——这 72 个端口是经过精确计算的,不是随便定的。

SerDes 速率翻倍:Gen1 到 Gen3 使用 50 Gb/s(PAM4)的 SerDes 速率,每差分对 50 GT/s。Gen4 升级到 200 Gb/s——这是 NVLink 5.0 的物理层基础。但注意这里的数字换算:NVLink 5.0 的有效带宽每端口 100 GB/s(800 Gb/s),因为使用了更高阶的信号调制和更密集的链路捆绑。

工艺升级带来的晶体管翻倍:NVSwitch 4.0 在 TSMC 4NP 工艺上集成了 25.1B 个晶体管,芯片面积 294mm²,封装用 2,645 个焊球连接到基板。对比前代——NVSwitch Gen3 在 4N 工艺上约为 10-12B 晶体管——晶体管数量翻了一倍多。这些新增的晶体管主要用在了端口 SerDes(72 个 200 Gb/s 链路需要巨大的模拟电路面积)、更大的片上交换矩阵(72×72 crossbar 的规模比 64×64 大了约 26%)、以及新增的 SHARP 在网计算引擎。

拓扑能力质变:Gen1 只是一个 8 GPU 的胖树叶子层交换。Gen3 开始支持跨机箱的多级 NVSwitch 级联(这是 DGX SuperPOD 的基础)。Gen4 直接在单个 72 端口的芯片上实现了单跳全互联——任何 GPU 到任何 GPU 只需经过一片 NVSwitch 芯片的一次转发,这是后面的 NVL72 架构能工作在最理想延迟条件下的物理基础。

NVSwitch 4.0 芯片设计:一枚 25.1B 晶体管的通信中枢

从 2022 年 Hot Chips 34 上 Ishii 和 Wells 公开的 NVSwitch 架构细节来看,NVSwitch 芯片的内部结构远比一个简单的 crossbar 复杂:

                     ┌──────────────────────────────────────┐
                     │          NVSwitch 4.0 Die            │
                     │           294mm², 4NP               │
                     │                                      │
                     │  ┌──────────────────────────────┐   │
                     │  │    72-Port Shared Crossbar    │   │
                     │  │   (Fully Non-Blocking)        │   │
                     │  └──────────────────────────────┘   │
                     │           │          │               │
                     │  ┌────────┴──────────┴────────┐     │
                     │  │    Port Group 0..8          │     │
                     │  │  (8 ports × 200Gb/s each)   │     │
                     │  │  ┌────┐ ┌────┐    ┌────┐   │     │
                     │  │  │SerD│ │SerD│ .. │SerD│   │     │
                     │  │  │es  │ │es  │    │es  │   │     │
                     │  │  │PHY │ │PHY │    │PHY │   │     │
                     │  │  └────┘ └────┘    └────┘   │     │
                     │  └──────────────────────────────┘     │
                     │                                      │
                     │  ┌──────────────────────────────┐   │
                     │  │  SHARP In-Network Compute    │   │
                     │  │  (Reduction / Multicast)      │   │
                     │  └──────────────────────────────┘   │
                     │                                      │
                     │  ┌──────────────────────────────┐   │
                     │  │  NVLink Protocol Engine       │   │
                     │  │  (Link Training, Flow Control) │   │
                     │  └──────────────────────────────┘   │
                     └──────────────────────────────────────┘

SerDes 物理层:NVSwitch 4.0 每个差分对支持 50 Gbaud 的 PAM4 信号——这意味着一对差分线上同时传输 2 bit 信息,等效于 100 Gb/s 的原始数据率。加上前向纠错(FEC)和编码开销,实际有效带宽约为 100 GB/s 每 NVLink 端口。18 对差分线组成一个完整的第五代 NVLink,提供 1.8 TB/s 的双向带宽。

50 Gbaud PAM4 在 PCB 走线或铜缆上传输时面临严重的信号完整性挑战。插入损耗(insertion loss)随频率指数增长,50 Gbaud 的奈奎斯特频率 12.5 GHz 处,即使是最好的 PCB 材料(如 Megtron 7/8)的损耗也已经很显著。这也是为什么 NVLink 5.0 的铜缆长度被严格限制——我们会在后面讨论铜与光的选择时回到这个话题。

交换矩阵(Crossbar):72 端口全互联无阻塞 crossbar。无阻塞(non-blocking)意味着在任何流量模式下——即使所有 72 个端口同时以满带宽向 72 个不同目标发送——交换矩阵内部的带宽分配不会被任何一对通信阻塞。对于一个 72×72、每个端口 200 Gb/s 的交换矩阵,内部需要的总带宽是 72 × 200 Gb/s = 14.4 Tb/s 单向——这是交换矩阵内部的转发带宽需求。双向翻倍到 28.8 Tb/s,这大致对应公开资料中的”14.4 Tb/s per chip”(实指半双工峰值或特定方向)。

实现一个 72×72 的无阻塞 crossbar 在物理设计上是一个巨大的挑战。每一个输入端口需要一条内部总线连接到每一个输出端口——这意味着 72×72 = 5,184 条内部数据通路。在实际布局中,这些通路通过分层的金属层(metal stack)和分组的交换单元来实现。NVSwitch 将 72 个端口分成 9 组(每组 8 端口),组内采用局部交换,组间通过高速桥接——这是一种”分层 crossbar”设计,在不牺牲无阻塞特性的前提下减少了全局连线数量。

在网计算(SHARP):每一颗 NVSwitch 4.0 芯片内部都集成了 SHARP(Scalable Hierarchical Aggregation and Reduction Protocol)加速引擎。这个引擎可以在交换机内部直接完成 AllReduce 和 multicast 操作——不把数据送回 CPU/GPU 再转发,而是在交换机内部就执行求和、平均、广播。第三代 SHARP(当前用于 Quantum-2 NDR InfiniBand)已经支持多租户并行在网计算;NVSwitch 4.0 集成的版本在此基础上增加了对 NVLink 内存语义的原生支持——即 NVLS(NVLink SHARP),这是我们在第十二篇中详细讨论的 DySHARP 工作的硬件基础。

SHARP 的物理实现占用了一小部分芯片面积(公开数据中 < 1% 的 NVSwitch die area),但通过消除通信中的冗余数据搬运,可以让 AllReduce 操作获得接近 2× 的有效带宽提升。对于 MoE 训练中的 All-to-All 通信——虽然 SHARP 的静态集体通信模式不能直接加速动态的 Dispatch/Combine——但 DySHARP 的扩展方案(动态 multimem 寻址)已经证明,通过 ISA、微架构和运行时的全栈协同设计,可以把冗余数据传输削减近 50% 并转化为实际加速。

NVL72 机柜物理组装:18 计算节点 + 9 交换盘的排列法则

走进 NVL72 的物理结构,整个机柜可以分成四个纵向区域:

     ┌─────────────────────────────────┐
     │  ┌─────────────────────────┐    │  ← 顶部交换区 (Ethernet/IB)
     │  │  Top-of-Rack Switches   │    │
     │  └─────────────────────────┘    │
     │  ┌─────────────────────────┐    │
     │  │  Compute Node 10         │    │
     │  │  Compute Node 9          │    │
     │  │  ...                     │    │  ← 上部计算区 (10 节点)
     │  │  Compute Node 1          │    │
     │  └─────────────────────────┘    │
     │  ┌─────────────────────────┐    │
     │  │  NVSwitch Tray 9         │    │
     │  │  NVSwitch Tray 8         │    │
     │  │  ...                     │    │  ← 交换区 (9 个 NVSwitch 盘)
     │  │  NVSwitch Tray 1         │    │
     │  └─────────────────────────┘    │
     │  ┌─────────────────────────┐    │
     │  │  Compute Node 18         │    │
     │  │  Compute Node 17         │    │
     │  │  ...                     │    │  ← 下部计算区 (8 节点)
     │  │  Compute Node 11         │    │
     │  └─────────────────────────┘    │
     │                                 │
     │  ┌─────────────────────────┐    │  ← 电源区
     │  │  Power Shelves (6×3kW+) │    │
     │  └─────────────────────────┘    │
     └─────────────────────────────────┘

计算节点(Compute Node):每个计算节点基于 NVIDIA MGX 参考设计,包含 2 颗 Grace CPU + 4 块 Blackwell B200 GPU——即两个 GB200 Grace Blackwell Superchip。每个 Superchip 通过 NVLink-C2C(Chip-to-Chip)将一颗 Grace CPU 与两块 B200 GPU 连接,提供 900 GB/s 的双向带宽和统一内存语义。18 个计算节点 × 4 GPU = 72 GPU。

每个计算节点还配备双端口 InfiniBand NDR(400 GB/s × 2)、BlueField-3 DPU 用于存储和管理卸载、以及四个 E1.S NVMe 硬盘托架用于本地存储。

NVSwitch 交换盘(Switch Tray):9 个交换盘位于机柜中间。每个交换盘包含 2 块 NVSwitch 4.0 芯片,共计 18 块芯片。每块 NVSwitch 芯片有 72 个 200 Gb/s 端口,每两颗芯片管理 8 GPU 的 NVLink 连接(每个 B200 GPU 有 18 个 NVLink 5.0 lane)。

精确的端口匹配公式:

72 GPUs × 18 NVLink lanes per GPU = 1,296 lanes 18 NVSwitch chips × 72 ports per chip = 1,296 ports 1,296 lanes ⟷ 1,296 ports → 一对一匹配

这个精确匹配不是巧合。NVSwitch 4.0 的 72 端口设计就是为了让 18 颗芯片恰好覆盖 72 GPU。如果 GPU 数量不是 72,这个比率会变化——比如 NVL36 配置用 72 GPU 的一半,就需要 9 颗 NVSwitch 芯片(而不是 18)。

当 ServeTheHome 的 Patrick 在现场看到交换盘前板那些金色把手时,有人在评论区问这些把手是不是 24K 镀金。Patrick 的回复是”油漆涂装,不是真金”。但这些交换盘内部的工艺比黄金更值钱——每片 NVSwitch 芯片的研发和流片成本以数亿美元计。

盲插连接(Blind-Mate):整个机柜背面设计为盲插式连接——计算节点、交换盘、电源模组推进机柜时,所有电连接(NVLink 铜缆、电源汇流排、液冷快速接头)自动对准并连接。这需要 Amphenol Paladin HD 224G 系列连接器提供微米级的机械定位精度和足够的插入容差。

盲插设计的工程挑战在于:NVLink 5.0 的 200 Gb/s PAM4 信号不能容忍超过几百微米的连接器阻抗不匹配(impedance mismatch),否则信号完整性崩溃、链路降速或无法训练(link training failure)。而机械盲插需要在成本和可靠性之间寻找一个精确的平衡点——连接器必须有足够的机械柔度来吸收制造误差,又不能产生过大的电气不连续性。

铜缆背板:5,184 根线,省下 20kW

这可能是 NVL72 工程中最反直觉的决策:在 200 Gb/s 的速率下,为什么还用铜缆,而不是光模块?

NVIDIA 官方的答案很直接:用铜省了约 20kW。让我们把这个数字拆开。

铜缆方案:NVL72 背后的 NVLink 背板由 5,184 根 Amphenol SkewClear EXD Gen 2 无源铜缆组成。每根铜缆承载一个 NVLink 差分对。无源铜缆(passive copper cable)意味着没有信号重定时器(retimer)或信号放大器——信号直接以电信号形式在差分对两端传输。

光模块方案:如果将全部 5,184 个差分对全部替换为 1.6T 光模块(以 648 个模块覆盖),每个模块功耗约 30W(包括 DSP、激光驱动器、TIA 等),总功耗 648 × 30W = 19,440W ≈ 19.4kW。加上额外的 retimer 芯片和光模块散热需求,实际超过 20kW。

这 20kW 的数字必须放在全机柜 120kW 的背景下理解:铜缆背板的功耗接近零(passive cables 只在极高频率下有微弱的介电损耗),光模块则要吃掉整柜近 17% 的电力预算。 在数据中心的总拥有成本(TCO)模型中,每 1kW 的年度电费约为 $1,000-$2,000(取决于电价),20kW 意味着每年 $20,000-$40,000 的额外电力成本——乘以成百上千个机柜,这是一笔巨大的运营支出。

但铜缆的代价是长度。50 Gbaud PAM4 信号在铜缆中的插入损耗随长度急剧上升,导致信号眼图(eye diagram)闭合。NVLink 背板铜缆的长度被严格限制在机柜深度以内(约 1-1.5 米,取决于具体走线)。这就是为什么 NVL72 可以是全铜互联——所有 GPU 都在同一个机柜里,物理距离不超过 2 米。

对于 NVL576(跨机柜的 576 GPU 互联),这个限制被打破——铜缆不够长。所以 NVL576 使用的是两级 NVSwitch 级联:第一级在机柜内(铜缆),第二级在机柜间(很可能使用光模块或有源铜缆)。

信号完整性:SkewClear EXD Gen 2 是 Amphenol 专为 224G PAM4 设计的差分对电缆。它的关键技术参数包括低 skew(差分对两根线之间的时延差 < 1ps),这直接影响 PAM4 眼图的质量。如果 skew 过大,差分信号的共模噪声增加,眼图在接收端闭合,导致误码率(BER)上升。NVLink 5.0 的 FEC(前向纠错)可以容忍一定的误码,但过高的原始 BER 会使得 FEC 失效,链路回退到低速率甚至断开。


关键技术决策:五个工程权衡

决策 1:Single-Hop Full Mesh 还是 Hierarchical Tree?

NVL72 选择的拓扑是单跳全互联非阻塞 All-to-All

     GPU 0 ──────────────────────────────────────────→ NVSwitch 0──┐
     GPU 1 ──────────────────────────────────────────→ NVSwitch 1  │
     ...                                                              │
     GPU 71 ─────────────────────────────────────────→ NVSwitch 17  │
                                                                     │
     ┌────────────────────────────────────────────────────────────────┘
     │  任何 GPU ↔ 任何 GPU:1 跳,1 片 NVSwitch 芯片
     │  带宽:每 GPU 1.8 TB/s,全双工
     └────────────────────────────────────────────────────────────────

在这个拓扑中,每个 B200 GPU 的 18 个第五代 NVLink lane 各连到不同的 NVSwitch 芯片(总共 18 块 NVSwitch 芯片)。因此,任何 GPU 对之间的通信最多经过一个 NVSwitch 芯片的一次交叉转发。这就是 “single-hop” 的含义——没有中间 NVSwitch 芯片的二次转发。

单跳拓扑的好处是延迟确定性和对分带宽最大化。在 MoE 的 All-to-All dispatch 中,每个 GPU 可能同时向 71 个其他 GPU 发送 token。如果存在多级交换(比如某些 GPU 对需要经过两个 NVSwitch 芯片),那么跨级通信的延迟就会是单跳的 2-3 倍,并且会在多跳路径上与其他流量竞争,导致非确定性拥塞。

NVL72 的分带宽(bisection bandwidth)——将 72 GPU 任意分成两组,两组之间的最大通信带宽——等于所有 NVSwitch 端口的聚合带宽:18 芯片 × 72 端口 × 100 GB/s = 129,600 GB/s ≈ 129.6 TB/s(单向)。这个数字超过 130 TB/s(双向聚合)的原因在于对分带宽的定义方式不同——NVIDIA 公布的是 fabric 级别的聚合双向带宽。

为什么不是 3 层胖树? 在传统的 InfiniBand 网络中,256 GPU 通常使用 3 层胖树(leaf-spine-core)拓扑。3 层胖树提供的是渐进收敛比(over-subscription ratio),而非全分带宽——在 MoE 的 All-to-All 通信中,渐进收敛意味着某些带宽需求大的 GPU 对会阻塞。NVSwitch 选择全无阻塞全互联,是因为 NVLink 域的规模(72 GPU)恰好处于”一个交换芯片能直接连完”的范围内——这是 NVSwitch 4.0 的 72 端口密度使能的。

但 72 是上限。对于更大的 NVLink 域(如 576 GPU),单跳全互联不再可能——这就是 NVL576 选择两级级联的原因。

决策 2:铜缆 vs 光互联 —— 距离、功耗与成本的三角

前面已经讨论了 20kW 的功耗节省,但这只是三角的一个角。完整的分析表:

维度 铜缆(NVL72 方案) 光互联(假设替代方案)
功耗 ~0W(无源) ~20kW(648 × 1.6T 光模块 @30W)
最大长度 ~1-2 米(50 Gbaud PAM4,插入损耗限制) ~30-100 米(单模光纤)
成本 ~$10-30/根(无源铜缆批量成本) ~$500-1000/光模块(2024 价格)
重量 较高(铜介质密度 ~8.9 g/cm³) 较低
可靠性 高(无有源器件,MTBF 极长) 中(激光器老化、DSP 故障)
布线复杂度 高(5,184 根独立电缆,需精确管理) 中(光纤更细,但管理帧架仍需设计)
信号完整性 插入损耗随长度急剧恶化 几乎无损耗,但有色散和反射

关键洞察:铜缆胜在单机柜内,光互联胜在跨机柜。 NVL72 内部的所有 NVLink 连接都在同一机柜的物理范围内(~1-1.5 米),所以铜缆是明显的赢家——零功耗、低成本、高可靠性。到了 NVL576,跨机柜的 NVLink 需要连接物理上数米到数十米的距离,铜缆无法胜任,所以必须引入光互联或其他有源重定时方案。

一个经常被忽略的细节:NVL72 背板的 5,184 根铜缆不是随机走线的。每根电缆的长度被精确匹配到同一 GPU 的 18 个 NVLink lane 之间。这是为了避免 lane-to-lane skew——如果同一 NVLink 链路的 18 个 lane 信号到达时间差异过大,接收端的比特对齐(bit deskewing)将超出 PHY 的可调范围,导致整个 18-lane 链路降速或无法建立连接。Amphenol 的 SkewClear EXD Gen 2 电缆系列的设计初衷就是解决这个问题——低 skew 并且在不同批次间保持一致性。

决策 3:48V 汇流排 + 盲插供电 —— 2500A 的物理挑战

NVL72 用 48V 直流汇流排供电,最高 2,500A。选择 48V 而非传统的 12V 或更高的 380V,是三股力量的折中:

为什么不用 12V? 120kW @ 12V = 10,000A。10,000A 需要汇流排的截面积达到数百平方毫米,物理上无法在标准 19 英寸机柜内实现。汇流排上的电阻损耗(I²R)也会呈二次方增长——10,000A 穿过 1mΩ 的接触电阻就产生 100W 的热量,而且这只是一处接触电阻。整个供电通路上成百上千个接触点,累积的电阻损耗会吃掉不可接受的功耗。

为什么不用 380V? 380V DC 已经接近更高的电压等级,需要更大的电气间隙(creepage distance)和更强的绝缘设计——在机柜密集的盲插背板上实现 380V 连接器的安全间距,物理空间不允许。而且 48V 正好低于安全特低电压(SELV, 60V DC 以下),在操作安全和法规合规方面有天然优势。

48V 是一个物理上的甜点:电流在大约 2,500A(120kW / 48V),这个电流水平在合理截面积的汇流排上可控。汇流排设计为上下两端供电(2 sets of 3 power shelves),这样在垂直方向上电流分担——上半段 6 个电源模组向 10 个计算节点供电,下半段 6 个电源模组向 8 个计算节点供电,任何位置的汇流排电流峰值不超过约 1,250A。

每个电源模组(front-end)提供约 3kW(新一代可到 5.5kW),6 个模组 × 3kW × 2 组 = 36kW × 2 = 72kW,再加上新一代 5.5kW 模组(6 × 5.5kW × 2 = 66kW),可以实现冗余设计——即一组电源下线时另一组仍能支撑全负载。

决策 4:强制直冷液体散热 —— 120kW 不是开玩笑

NVL72 全部采用液冷——不是选择性的,不是可选的,是强制的。每块 GB200 Superchip 上覆盖着冷板(cold plate),冷却液贯穿所有计算节点和 NVSwitch 交换盘。

120kW 在一个 19 英寸机柜中的热密度大约是传统风冷数据中心单机柜(~10-15kW)的 10 倍。用风冷处理 120kW 需要的气流速度将超过 20 m/s——这是小型风洞的速度,噪音和湍流对硬件可靠性构成严重威胁。

液冷设计的几个物理约束:

  1. 冷板的热接触电阻:GB200 Superchip 的两块 B200 GPU 和一颗 Grace CPU 共享一块冷板。B200 GPU 的 TDP(热设计功耗)约为 1,000W(B100 约 700W,B200 更高一些),两块合计 2,000W+ 加上 CPU 的约 300W,每 Superchip 约 2,300W 的散热需求通过一块冷板传导。冷板与芯片之间的热界面材料(TIM)的导热系数必须在 5-10 W/(m·K) 以上才能将结温控制在 85°C 以下。

  2. 冷却液的流量和温升:水的比热容 ~4.18 kJ/(kg·K)。如果液体入口温度 30°C、出口 45°C(ΔT = 15°C),带走 120kW 需要的质量流量约为 120 / (4.18 × 15) ≈ 1.9 L/s。这需要在机柜背后通过快速接头(quick-disconnect)连接到设施的冷却液分配单元(CDU)。

  3. 盲插液冷接头:每个计算节点和交换盘在推入机柜时,其液冷接头必须与背板上的对应接头零泄漏连接。盲插液冷接头是两阶段设计——先完成机械导向(guide pin),再完成密封面接触。如果密封失效,冷却液泄漏到 NVLink 连接器上将导致信号短路和腐蚀。NVIDIA 的工程设计在此处使用了双密封面(dual-seal)设计,每个接头有两道密封环,在第一道失效时仍有第二道阻断。

决策 5:四级网络分层 —— Scale-Up、Backend、Frontend、Management

NVL72 的网络不是一个平坦的集群互联。NVIDIA 的架构设计将网络分成了四个明确的功能层:

┌─────────────────────────────────────────────────────────┐
│                    网络层级架构                          │
│                                                         │
│  Scale-Up 网络 (NVLink 5.0 + NVSwitch 4.0)              │
│  ├─ 单域 72 GPU 全互联                                  │
│  ├─ 每 GPU 1.8 TB/s                                     │
│  ├─ 延迟 < 1µs (单跳)                                   │
│  └─ 内存语义 (load/store 远程 GPU 内存)                 │
│                                                         │
│  Backend Scale-Out 网络 (InfiniBand NDR / Spectrum-X)   │
│  ├─ 跨机柜 GPU-to-GPU 通信 (AllReduce, All-to-All)      │
│  ├─ 每 GPU 400 GB/s × 2 端口 (双向)                     │
│  ├─ SHARPv3 在网计算                                    │
│  └─ 多租户 AI 工作负载隔离                              │
│                                                         │
│  Frontend 网络 (Ethernet)                               │
│  ├─ 数据加载 (从存储到 GPU 显存)                        │
│  ├─ 模型检查点 (checkpointing)                          │
│  └─ 外部 API 服务                                       │
│                                                         │
│  Out-of-Band 管理网络                                   │
│  ├─ BMC (基板管理控制器)                                │
│  ├─ 电源/散热监控                                       │
│  └─ 固件更新和诊断                                      │
└─────────────────────────────────────────────────────────┘

Scale-Up 和 Scale-Out 的分工是 NVL72 架构设计的核心哲学。

在传统的 DGX A100/H100 中,Scale-Up(NVLink 域内 8 GPU)和 Scale-Out(InfiniBand 跨节点)之间有明显的性能鸿沟——NVLink 带宽(900 GB/s)是 InfiniBand NDR(50 GB/s)的 18 倍。这意味着任何跨节点的通信都会遭受巨大的带宽落差。

NVL72 通过将 Scale-Up 域从 8 GPU 扩展到 72 GPU,大幅减少了需要走 Scale-Out 的通信比例。在 72 GPU 域内,每一对 GPU 之间都有 1.8 TB/s 的全带宽——对于训练一个 MoE 模型,如果专家数量 ≤ 72 且每个专家恰好放在一块 GPU 上,那么整个 MoE 层的 All-to-All dispatch 和 combine 全部在 NVLink 域内完成,完全不使用 InfiniBand。

只有当模型规模超过 72 GPU(即专家数 > 72,或数据并行组 > 72)时,才需要跨越 Scale-Out 网络。 这就是 NVL72 的核心价值主张:用 72 GPU 的 NVLink 域解决”最大的单域问题”,再把更大规模的集群用 Scale-Out 网络拼接。

InfiniBand 层面的 SHARPv3:在后端 Scale-Out 网络上,NVIDIA Quantum-2 InfiniBand 交换机集成了 SHARPv3 在网计算引擎。SHARPv3 支持多租户并行 AllReduce(相比 SHARPv2 的单租户限制),可以将 AllReduce 延迟降低近一个数量级。在 MoE 训练中,当专家梯度需要在跨节点的 EP 组间同步时,SHARPv3 的 AllReduce 加速可以直接缩短梯度同步时间。

DjSHARP 的论文指出,NVLink SHARP(NVLS)和 InfiniBand SHARP 的工作机制不同——前者基于 NVLink 内存语义(load/store + multimem 指令),后者基于消息语义。但两者的核心思想是一致的:将数据编排操作(multicast、reduction)下推到交换芯片内部,消除端到端的数据搬运冗余。


横向对比:NVL72 vs NVL36×2 vs DGX H100 vs 传统集群

NVL72 与 NVL36×2:为什么要区分?

NVIDIA 同时推出了 GB200 NVL72(单机柜 72 GPU)和 GB200 NVL36(单机柜 36 GPU)。两者的选择不只是”买大还是买小”——实际上涉及架构和物理极限的妥协。

维度 NVL72(单机柜) NVL36×2(双机柜) DGX H100(8 GPU 节点)
GPU 总数 72 B200 36 × 2 = 72 B200 8 H100(需 9 节点 = 72 GPU)
NVSwitch ASIC 数 18 9 × 2 = 18 4 × 9 = 36(3rd-gen)
NVLink 域 单一域,72 GPU 全互联 两个独立域,各 36 GPU 9 个独立域,各 8 GPU
NVLink 跳数 1 跳(任意 GPU ↔ GPU) 域内 1 跳,跨域经 IB 多跳 域内 1 跳,跨域经 IB 多跳
跨域通信 无(72 GPU 一个域) 有(36↔36 需走 InfiniBand) 有(8↔8 需走 InfiniBand)
单柜功耗 ~120kW ~60kW × 2 ~10.2kW × 9 = 91.8kW
每 GPU 互联带宽 1.8 TB/s(全互联) 1.8 TB/s(域内) 900 GB/s(域内,NVLink 4)
对分带宽 129.6 TB/s(单向) 64.8 TB/s(每域,但跨域需 IB) 4.5 TB/s(每域)
液冷 强制液冷 强制液冷 风冷或液冷
数据中心要求 >120kW 单柜容量 >60kW 单柜容量 >10.2kW 单柜容量

NVL36×2 的代价是跨域通信。 当你有一个训练任务需要超过 36 GPU 时(比如 MoE 有 64 个专家),NVL36×2 的两个域之间必须通过 InfiniBand 通信——这个带宽大约是 400 GB/s(InfiniBand NDR × 2 端口),是 NVLink 域内带宽 1.8 TB/s 的约 1/4.5。所以虽然 GPU 总数一样,NVL36×2 在实际训练中的通信效率可能低于 NVL72——特别是当负载需要频繁跨域交换数据时。

NVL72 的代价是单柜功耗不可接受。 120kW 的功耗使得 NVL72 只能在少数具备对应供电和冷却能力的数据中心部署。大多数数据中心单柜容量仍然在 40-60kW 的范围。这也是为什么 NVL36 作为”降配”选项存在——它不是为性能最优而设计的,而是为兼容性设计的。

DGX H100 到 NVL72 的跳跃:不仅仅是 9 倍 GPU

从 DGX H100(8 GPU)到 NVL72(72 GPU),GPU 数量翻了 9 倍,但结构上的变化远比数字深刻:

  1. NVLink 域从 8 到 72:8 倍扩展。这是架构的真正革命——不再需要 InfiniBand 来完成大部分通信。在 DGX H100 上,一个最简单的 16 GPU 的 MoE 训练就需要至少 2 个 DGX 节点和 InfiniBand 互联。在 NVL72 上,72 GPU 以内的 MoE 训练不需要 InfiniBand。

  2. NVLink 带宽从 900 GB/s 到 1.8 TB/s:2 倍。NVLink 5.0 的带宽翻倍,而且由于 NVSwitch 从 64 端口升到 72 端口——和 GPU 数量精确匹配——单芯片不需要级联就能覆盖整个系统。

  3. 功耗从 ~10kW 到 ~120kW:12 倍。功耗增长快于 GPU 数量的原因是 NVSwitch 芯片本身的功耗(18 颗 NVSwitch 4.0 芯片,每颗功耗在 100-200W 量级),以及更高带宽的 SerDes 消耗更多电力。

  4. 物理形态从”节点拼装”到”机柜整装”:DGX H100 是独立的服务器节点,用户可以像买服务器一样买一台。NVL72 是一个完整的机柜系统——在整个机柜被运到数据中心之前,NVIDIA(或集成商)在工厂完成组装、线缆连接和液冷管路安装。这是从”服务器”到”整机柜系统工程”的范式转变。

NVL576:两级 NVSwitch 级联至 576 GPU

NVL576 是 NVL72 的 Scale-Up 扩展——通过两级 NVSwitch 级联将 576 GPU 连接在一个 NVLink 域内,聚合带宽超过 1 PB/s。

     ┌─────────────────────────────────────────────────────┐
     │                   NVL576 拓扑                        │
     │                                                      │
     │  Rack 0                    Rack 7                    │
     │  ┌──────┐                 ┌──────┐                  │
     │  │72 GPU│   ...   ...     │72 GPU│                  │
     │  │18 NV │                 │18 NV │   ← 第一级       │
     │  │Switch│                 │Switch│      NVSwitch     │
     │  └──┬───┘                 └──┬───┘                  │
     │     │                        │                       │
     │     └────────┬───────────────┘                       │
     │              │                                       │
     │     ┌────────┴──────────┐                            │
     │     │  第二级 NVSwitch   │  ← 跨机柜聚合层           │
     │     │  (Uplink Switch)   │                            │
     │     └───────────────────┘                            │
     │                                                      │
     │  576 GPUs × 18 NVLink lanes = 10,368 lanes          │
     │  聚合带宽 > 1 PB/s                                   │
     │  统一内存 = 240 TB (576 × 416 GB)                   │
     └─────────────────────────────────────────────────────┘

NVL576 的架构在 NVL72 单柜的基础上,在第一级保持柜内 72 GPU 全互联(铜缆),第二级通过 uplink NVSwitch 交换机(可能使用光互联)将 8 个 NVL72 机柜组成一个 576 GPU 的单一 NVLink 域。NVLink 域的总聚合带宽 1 PB/s ——相较于 2014 年第一代 NVLink 的 NVLink 域总带宽约 1.2 TB/s,增长约 900 倍。

两级级联的代价:跨机柜的 GPU 对通信需要 2 跳(GPU → 第一级 NVSwitch → 第二级 NVSwitch → 目标 GPU),延迟是单跳的 2-3 倍。对分带宽上,第二级的 uplink 端口数量决定收敛比(over-subscription)——如果 18 个第一级 NVSwitch 的上行端口聚合带宽小于 72 GPU 的对分带宽,那么跨机柜通信的带宽就不是全分带宽。NVIDIA 没有公开 NVL576 的第二级交换机端口数量,但物理限制决定了它不可能是 NVL72 那种完美的无阻塞全互联。

不过对 MoE 训练而言,如果做到足够好的专家分区(让同一 token 经常选择的专家在同一机柜内),跨柜通信的频率可以被大幅降低。这是软件-硬件协同设计的一个关键课题,也是我们后续文章(并行策略设计)会深入讨论的内容。


总结与清单:从 NVL72 看 AI 互联的工程极限

本文的核心论断

  1. NVSwitch 是 NVIDIA 在 Scale-Up 方向的最关键投资。 从 2018 年 DGX-2 上那个 6 端口的芯片,到 2024 年 NVL72 上 72 端口 25.1B 晶体管的 NVSwitch 4.0,每一代的端口密度翻倍、SerDes 速率翻倍、工艺和晶体管的升级——使得 NVLink 域从 8 GPU 膨胀到 72 GPU。这不是增量改进,是范式转变。

  2. NVL72 的工程本质是”把所有东西塞进一个机柜”。 全铜互联省下 20kW 的电力开销;盲插连接器让 5,184 根电缆的组装在工厂完成而非现场布线;48V 汇流排和直冷液冷把 120kW 打包在一个箱体的物理限制内。这一切的出发点都是:只要能把东西放在一个机柜里,铜缆就比光模块好;NVLink 就比 InfiniBand 好;单跳就比多跳好。

  3. 物理定律在说话。 50 Gbaud PAM4 信号不能传远——铜缆极限约 2 米。48V 汇流排不能无限加电流——2,500A 的截面已经巨大。120kW 不能靠风扇来吹——20m/s 的气流是不切实际的。NVL72 的每一个设计选择,本质上都是在跟物理定律讨价还价。

工程决策清单

以下清单可以用作评估或设计类似 AI 互联系统时的参考框架:

  • Scale-Up 域的规模:单域 GPU 数——由 NVSwitch 芯片的端口数决定。NVSwitch 4.0 = 72 端口 → 单域 ≤ 72 GPU(单级)或 ≤ 576 GPU(两级级联)
  • 拓扑的选择(全互联 vs 胖树):单跳全互联延迟最低但受芯片端口数限制;胖树可扩展至更大规模但收敛比和多跳延迟增加
  • 铜缆 vs 光互联的决策:同一机柜内(< 2m)用无源铜缆 = 零功耗 + 低成本 + 高可靠;跨机柜用光模块 = 长距离 + 低损耗 + 高功耗
  • 供电方案:48V DC 汇流排是当前 100-150kW/柜 的甜点;12V 需要不可接受的电流;>60V 的 SELV 上限带来的安全设计复杂度增加不可忽视
  • 冷却方案:超过 30-40kW/柜必须考虑液冷;超过 80kW/柜必须强制液冷
  • 网络分层:Scale-Up(NVLink)、Backend Scale-Out(InfiniBand/Spectrum-X)、Frontend(Ethernet)、Management——四层各司其职,避免流量互相干扰
  • 盲插连接器的信号完整性:224G PAM4 对连接器的阻抗匹配和 skew 控制有极端要求;Amphenol Paladin HD 级别的连接器是必需而非可选

下一篇预告

NVL72 解决了 GPU 之间的”近场通信”问题——72 GPU 以内,全带宽、单跳、无阻塞。但当模型需要成千上万块 GPU 时,Scale-Out 网络就成了新的瓶颈。InfiniBand NDR/XDR 如何管理 AllReduce 和 All-to-All 的拥塞?SHARPv4 在网计算在多大程度上能减少数据搬运?Spectrum-X 以太网方案在性能和生态上如何与传统 InfiniBand 竞争?

下一篇:InfiniBand 与 Scale-Out 网络 —— 从 NDR 到 XDR 的拥塞控制与在网计算。


本文数据来源:NVIDIA GB200 NVL72 开发者技术博客 (March 2024);ServeTheHome GTC 2024 现场报道;NVIDIA SHARP 技术博客 (October 2024);”Accelerating MoE with Dynamic In-Switch Computing on Multi-GPUs” (DySHARP, ISCA’26);Hot Chips 34 NVSwitch 架构演讲 (Ishii & Wells, 2022)。