引言:走进 GTC 2024,站在 120kW 的机柜面前
GTC 2024 的展台上放着一个机柜。
ServeTheHome 的主编 Patrick Kennedy 在现场拍了几张照片。这个机柜从上到下排布着 10 个计算节点,接着是 9 层 NVSwitch 交换盘,底部还有 8 个计算节点。前面板的每个计算节点露出两对 InfiniBand 端口、四个 E1.S 硬盘托架、以及一排管理网口。右侧嵌着 BlueField-3 DPU。机柜背面是一整面盲插(blind-mate)连接的 NVLink 铜缆背板——5,184 根无源铜缆,密布如织。最底部是三条厚重的汇流排(bus bar),输送着 48V 直流电,最高 2,500 安培。
这些东西拼在一起,叫 DGX GB200 NVL72。
它在单个机柜里装下了 72 块 Blackwell B200 GPU、36 颗 Grace CPU、30TB 统一内存、130 TB/s 的聚合双向互联带宽。整机功耗 120kW——是当前主流数据中心单机柜容量(约 40-60kW)的两到三倍。NVIDIA 管它叫”一个机柜里的 ExaFLOP AI 超级计算机”。
它不是靠蛮力堆出来的。这个机柜可以存在,是因为一块叫 NVSwitch 的交换芯片——从 2018 年 DGX-2 上那枚 6 端口的第一代原型,用了六年、三代工艺和四次架构迭代,进化成了现在这枚 72 端口、14.4 Tb/s 全双工、25.1B 晶体管的 NVSwitch 4.0。它的设计选择——铜还是光、48V 还是 12V、单级全互联还是两级级联——每一个都在定义”AI 超大规模互联”的物理边界。
本文就是来拆解这些选择。
系统剖析:NVSwitch 的四代进化与 NVL72 的物理架构
NVSwitch 的代际演进:从小型交换到全机柜互联
NVSwitch 不是一天长成巨物的。它的进化路线从支持 8 GPU 的小型交叉互联,一路走到今天单域 576 GPU 的全连接。每一代的带宽、端口数、工艺和晶体管规模都发生了质变。
| 特性 | NVSwitch Gen1 (DGX-2) | NVSwitch Gen2 (DGX A100) | NVSwitch Gen3 (DGX H100) | NVSwitch 4.0 (GB200 NVL72) |
|---|---|---|---|---|
| 年代 | 2018 | 2020 | 2022 | 2024 |
| 配套 GPU | V100 | A100 | H100 | B200 |
| 工艺 | TSMC 12nm | TSMC 7nm | TSMC 4N | TSMC 4NP |
| 每芯片端口数 | 6 | ~20 | 64 | 72 |
| 每端口带宽(单向) | 50 GB/s | 50 GB/s | 50 GB/s | 100 GB/s |
| 每芯片总带宽(双向) | ~600 GB/s | ~2.0 TB/s | 3.2 TB/s | 14.4 Tb/s (~1.8 TB/s) |
| 单域最大 GPU 数 | 8 | 8 | 8(DGX)/ 256(SuperPOD) | 72(单机柜)/ 576(两级级联) |
| NVLink 代次 | Gen2 | Gen2 | Gen4 | Gen5 |
| 每 GPU NVLink 带宽 | 300 GB/s | 600 GB/s | 900 GB/s | 1.8 TB/s |
| 单域聚合双向带宽 | ~2.4 TB/s | ~4.8 TB/s | ~3.6 TB/s (DGX) | 130 TB/s |
NVSwitch 的进化可以拆成四个维度来看:
端口密度爆炸:Gen1 的 6 个端口对应 DGX-2 里 8 块 V100 的互连——两块 NVSwitch 芯片共同构成 8 GPU 的全互联。Gen3(H100 代)跳到 64 端口,使得单个 NVSwitch 可以直接连接 64 个 NVLink 通道。到了 Gen4(B200 代),72 个端口正好等于 NVL72 中 72 GPU 的 18 个第四代 NVLink 通道 × 4(每个 NVSwitch 芯片连接 4 GPU 的全通道)——这 72 个端口是经过精确计算的,不是随便定的。
SerDes 速率翻倍:Gen1 到 Gen3 使用 50 Gb/s(PAM4)的 SerDes 速率,每差分对 50 GT/s。Gen4 升级到 200 Gb/s——这是 NVLink 5.0 的物理层基础。但注意这里的数字换算:NVLink 5.0 的有效带宽每端口 100 GB/s(800 Gb/s),因为使用了更高阶的信号调制和更密集的链路捆绑。
工艺升级带来的晶体管翻倍:NVSwitch 4.0 在 TSMC 4NP 工艺上集成了 25.1B 个晶体管,芯片面积 294mm²,封装用 2,645 个焊球连接到基板。对比前代——NVSwitch Gen3 在 4N 工艺上约为 10-12B 晶体管——晶体管数量翻了一倍多。这些新增的晶体管主要用在了端口 SerDes(72 个 200 Gb/s 链路需要巨大的模拟电路面积)、更大的片上交换矩阵(72×72 crossbar 的规模比 64×64 大了约 26%)、以及新增的 SHARP 在网计算引擎。
拓扑能力质变:Gen1 只是一个 8 GPU 的胖树叶子层交换。Gen3 开始支持跨机箱的多级 NVSwitch 级联(这是 DGX SuperPOD 的基础)。Gen4 直接在单个 72 端口的芯片上实现了单跳全互联——任何 GPU 到任何 GPU 只需经过一片 NVSwitch 芯片的一次转发,这是后面的 NVL72 架构能工作在最理想延迟条件下的物理基础。
NVSwitch 4.0 芯片设计:一枚 25.1B 晶体管的通信中枢
从 2022 年 Hot Chips 34 上 Ishii 和 Wells 公开的 NVSwitch 架构细节来看,NVSwitch 芯片的内部结构远比一个简单的 crossbar 复杂:
┌──────────────────────────────────────┐
│ NVSwitch 4.0 Die │
│ 294mm², 4NP │
│ │
│ ┌──────────────────────────────┐ │
│ │ 72-Port Shared Crossbar │ │
│ │ (Fully Non-Blocking) │ │
│ └──────────────────────────────┘ │
│ │ │ │
│ ┌────────┴──────────┴────────┐ │
│ │ Port Group 0..8 │ │
│ │ (8 ports × 200Gb/s each) │ │
│ │ ┌────┐ ┌────┐ ┌────┐ │ │
│ │ │SerD│ │SerD│ .. │SerD│ │ │
│ │ │es │ │es │ │es │ │ │
│ │ │PHY │ │PHY │ │PHY │ │ │
│ │ └────┘ └────┘ └────┘ │ │
│ └──────────────────────────────┘ │
│ │
│ ┌──────────────────────────────┐ │
│ │ SHARP In-Network Compute │ │
│ │ (Reduction / Multicast) │ │
│ └──────────────────────────────┘ │
│ │
│ ┌──────────────────────────────┐ │
│ │ NVLink Protocol Engine │ │
│ │ (Link Training, Flow Control) │ │
│ └──────────────────────────────┘ │
└──────────────────────────────────────┘
SerDes 物理层:NVSwitch 4.0 每个差分对支持 50 Gbaud 的 PAM4 信号——这意味着一对差分线上同时传输 2 bit 信息,等效于 100 Gb/s 的原始数据率。加上前向纠错(FEC)和编码开销,实际有效带宽约为 100 GB/s 每 NVLink 端口。18 对差分线组成一个完整的第五代 NVLink,提供 1.8 TB/s 的双向带宽。
50 Gbaud PAM4 在 PCB 走线或铜缆上传输时面临严重的信号完整性挑战。插入损耗(insertion loss)随频率指数增长,50 Gbaud 的奈奎斯特频率 12.5 GHz 处,即使是最好的 PCB 材料(如 Megtron 7/8)的损耗也已经很显著。这也是为什么 NVLink 5.0 的铜缆长度被严格限制——我们会在后面讨论铜与光的选择时回到这个话题。
交换矩阵(Crossbar):72 端口全互联无阻塞 crossbar。无阻塞(non-blocking)意味着在任何流量模式下——即使所有 72 个端口同时以满带宽向 72 个不同目标发送——交换矩阵内部的带宽分配不会被任何一对通信阻塞。对于一个 72×72、每个端口 200 Gb/s 的交换矩阵,内部需要的总带宽是 72 × 200 Gb/s = 14.4 Tb/s 单向——这是交换矩阵内部的转发带宽需求。双向翻倍到 28.8 Tb/s,这大致对应公开资料中的”14.4 Tb/s per chip”(实指半双工峰值或特定方向)。
实现一个 72×72 的无阻塞 crossbar 在物理设计上是一个巨大的挑战。每一个输入端口需要一条内部总线连接到每一个输出端口——这意味着 72×72 = 5,184 条内部数据通路。在实际布局中,这些通路通过分层的金属层(metal stack)和分组的交换单元来实现。NVSwitch 将 72 个端口分成 9 组(每组 8 端口),组内采用局部交换,组间通过高速桥接——这是一种”分层 crossbar”设计,在不牺牲无阻塞特性的前提下减少了全局连线数量。
在网计算(SHARP):每一颗 NVSwitch 4.0 芯片内部都集成了 SHARP(Scalable Hierarchical Aggregation and Reduction Protocol)加速引擎。这个引擎可以在交换机内部直接完成 AllReduce 和 multicast 操作——不把数据送回 CPU/GPU 再转发,而是在交换机内部就执行求和、平均、广播。第三代 SHARP(当前用于 Quantum-2 NDR InfiniBand)已经支持多租户并行在网计算;NVSwitch 4.0 集成的版本在此基础上增加了对 NVLink 内存语义的原生支持——即 NVLS(NVLink SHARP),这是我们在第十二篇中详细讨论的 DySHARP 工作的硬件基础。
SHARP 的物理实现占用了一小部分芯片面积(公开数据中 < 1% 的 NVSwitch die area),但通过消除通信中的冗余数据搬运,可以让 AllReduce 操作获得接近 2× 的有效带宽提升。对于 MoE 训练中的 All-to-All 通信——虽然 SHARP 的静态集体通信模式不能直接加速动态的 Dispatch/Combine——但 DySHARP 的扩展方案(动态 multimem 寻址)已经证明,通过 ISA、微架构和运行时的全栈协同设计,可以把冗余数据传输削减近 50% 并转化为实际加速。
NVL72 机柜物理组装:18 计算节点 + 9 交换盘的排列法则
走进 NVL72 的物理结构,整个机柜可以分成四个纵向区域:
┌─────────────────────────────────┐
│ ┌─────────────────────────┐ │ ← 顶部交换区 (Ethernet/IB)
│ │ Top-of-Rack Switches │ │
│ └─────────────────────────┘ │
│ ┌─────────────────────────┐ │
│ │ Compute Node 10 │ │
│ │ Compute Node 9 │ │
│ │ ... │ │ ← 上部计算区 (10 节点)
│ │ Compute Node 1 │ │
│ └─────────────────────────┘ │
│ ┌─────────────────────────┐ │
│ │ NVSwitch Tray 9 │ │
│ │ NVSwitch Tray 8 │ │
│ │ ... │ │ ← 交换区 (9 个 NVSwitch 盘)
│ │ NVSwitch Tray 1 │ │
│ └─────────────────────────┘ │
│ ┌─────────────────────────┐ │
│ │ Compute Node 18 │ │
│ │ Compute Node 17 │ │
│ │ ... │ │ ← 下部计算区 (8 节点)
│ │ Compute Node 11 │ │
│ └─────────────────────────┘ │
│ │
│ ┌─────────────────────────┐ │ ← 电源区
│ │ Power Shelves (6×3kW+) │ │
│ └─────────────────────────┘ │
└─────────────────────────────────┘
计算节点(Compute Node):每个计算节点基于 NVIDIA MGX 参考设计,包含 2 颗 Grace CPU + 4 块 Blackwell B200 GPU——即两个 GB200 Grace Blackwell Superchip。每个 Superchip 通过 NVLink-C2C(Chip-to-Chip)将一颗 Grace CPU 与两块 B200 GPU 连接,提供 900 GB/s 的双向带宽和统一内存语义。18 个计算节点 × 4 GPU = 72 GPU。
每个计算节点还配备双端口 InfiniBand NDR(400 GB/s × 2)、BlueField-3 DPU 用于存储和管理卸载、以及四个 E1.S NVMe 硬盘托架用于本地存储。
NVSwitch 交换盘(Switch Tray):9 个交换盘位于机柜中间。每个交换盘包含 2 块 NVSwitch 4.0 芯片,共计 18 块芯片。每块 NVSwitch 芯片有 72 个 200 Gb/s 端口,每两颗芯片管理 8 GPU 的 NVLink 连接(每个 B200 GPU 有 18 个 NVLink 5.0 lane)。
精确的端口匹配公式:
72 GPUs × 18 NVLink lanes per GPU = 1,296 lanes 18 NVSwitch chips × 72 ports per chip = 1,296 ports 1,296 lanes ⟷ 1,296 ports → 一对一匹配
这个精确匹配不是巧合。NVSwitch 4.0 的 72 端口设计就是为了让 18 颗芯片恰好覆盖 72 GPU。如果 GPU 数量不是 72,这个比率会变化——比如 NVL36 配置用 72 GPU 的一半,就需要 9 颗 NVSwitch 芯片(而不是 18)。
当 ServeTheHome 的 Patrick 在现场看到交换盘前板那些金色把手时,有人在评论区问这些把手是不是 24K 镀金。Patrick 的回复是”油漆涂装,不是真金”。但这些交换盘内部的工艺比黄金更值钱——每片 NVSwitch 芯片的研发和流片成本以数亿美元计。
盲插连接(Blind-Mate):整个机柜背面设计为盲插式连接——计算节点、交换盘、电源模组推进机柜时,所有电连接(NVLink 铜缆、电源汇流排、液冷快速接头)自动对准并连接。这需要 Amphenol Paladin HD 224G 系列连接器提供微米级的机械定位精度和足够的插入容差。
盲插设计的工程挑战在于:NVLink 5.0 的 200 Gb/s PAM4 信号不能容忍超过几百微米的连接器阻抗不匹配(impedance mismatch),否则信号完整性崩溃、链路降速或无法训练(link training failure)。而机械盲插需要在成本和可靠性之间寻找一个精确的平衡点——连接器必须有足够的机械柔度来吸收制造误差,又不能产生过大的电气不连续性。
铜缆背板:5,184 根线,省下 20kW
这可能是 NVL72 工程中最反直觉的决策:在 200 Gb/s 的速率下,为什么还用铜缆,而不是光模块?
NVIDIA 官方的答案很直接:用铜省了约 20kW。让我们把这个数字拆开。
铜缆方案:NVL72 背后的 NVLink 背板由 5,184 根 Amphenol SkewClear EXD Gen 2 无源铜缆组成。每根铜缆承载一个 NVLink 差分对。无源铜缆(passive copper cable)意味着没有信号重定时器(retimer)或信号放大器——信号直接以电信号形式在差分对两端传输。
光模块方案:如果将全部 5,184 个差分对全部替换为 1.6T 光模块(以 648 个模块覆盖),每个模块功耗约 30W(包括 DSP、激光驱动器、TIA 等),总功耗 648 × 30W = 19,440W ≈ 19.4kW。加上额外的 retimer 芯片和光模块散热需求,实际超过 20kW。
这 20kW 的数字必须放在全机柜 120kW 的背景下理解:铜缆背板的功耗接近零(passive cables 只在极高频率下有微弱的介电损耗),光模块则要吃掉整柜近 17% 的电力预算。 在数据中心的总拥有成本(TCO)模型中,每 1kW 的年度电费约为 $1,000-$2,000(取决于电价),20kW 意味着每年 $20,000-$40,000 的额外电力成本——乘以成百上千个机柜,这是一笔巨大的运营支出。
但铜缆的代价是长度。50 Gbaud PAM4 信号在铜缆中的插入损耗随长度急剧上升,导致信号眼图(eye diagram)闭合。NVLink 背板铜缆的长度被严格限制在机柜深度以内(约 1-1.5 米,取决于具体走线)。这就是为什么 NVL72 可以是全铜互联——所有 GPU 都在同一个机柜里,物理距离不超过 2 米。
对于 NVL576(跨机柜的 576 GPU 互联),这个限制被打破——铜缆不够长。所以 NVL576 使用的是两级 NVSwitch 级联:第一级在机柜内(铜缆),第二级在机柜间(很可能使用光模块或有源铜缆)。
信号完整性:SkewClear EXD Gen 2 是 Amphenol 专为 224G PAM4 设计的差分对电缆。它的关键技术参数包括低 skew(差分对两根线之间的时延差 < 1ps),这直接影响 PAM4 眼图的质量。如果 skew 过大,差分信号的共模噪声增加,眼图在接收端闭合,导致误码率(BER)上升。NVLink 5.0 的 FEC(前向纠错)可以容忍一定的误码,但过高的原始 BER 会使得 FEC 失效,链路回退到低速率甚至断开。
关键技术决策:五个工程权衡
决策 1:Single-Hop Full Mesh 还是 Hierarchical Tree?
NVL72 选择的拓扑是单跳全互联非阻塞 All-to-All。
GPU 0 ──────────────────────────────────────────→ NVSwitch 0──┐
GPU 1 ──────────────────────────────────────────→ NVSwitch 1 │
... │
GPU 71 ─────────────────────────────────────────→ NVSwitch 17 │
│
┌────────────────────────────────────────────────────────────────┘
│ 任何 GPU ↔ 任何 GPU:1 跳,1 片 NVSwitch 芯片
│ 带宽:每 GPU 1.8 TB/s,全双工
└────────────────────────────────────────────────────────────────
在这个拓扑中,每个 B200 GPU 的 18 个第五代 NVLink lane 各连到不同的 NVSwitch 芯片(总共 18 块 NVSwitch 芯片)。因此,任何 GPU 对之间的通信最多经过一个 NVSwitch 芯片的一次交叉转发。这就是 “single-hop” 的含义——没有中间 NVSwitch 芯片的二次转发。
单跳拓扑的好处是延迟确定性和对分带宽最大化。在 MoE 的 All-to-All dispatch 中,每个 GPU 可能同时向 71 个其他 GPU 发送 token。如果存在多级交换(比如某些 GPU 对需要经过两个 NVSwitch 芯片),那么跨级通信的延迟就会是单跳的 2-3 倍,并且会在多跳路径上与其他流量竞争,导致非确定性拥塞。
NVL72 的分带宽(bisection bandwidth)——将 72 GPU 任意分成两组,两组之间的最大通信带宽——等于所有 NVSwitch 端口的聚合带宽:18 芯片 × 72 端口 × 100 GB/s = 129,600 GB/s ≈ 129.6 TB/s(单向)。这个数字超过 130 TB/s(双向聚合)的原因在于对分带宽的定义方式不同——NVIDIA 公布的是 fabric 级别的聚合双向带宽。
为什么不是 3 层胖树? 在传统的 InfiniBand 网络中,256 GPU 通常使用 3 层胖树(leaf-spine-core)拓扑。3 层胖树提供的是渐进收敛比(over-subscription ratio),而非全分带宽——在 MoE 的 All-to-All 通信中,渐进收敛意味着某些带宽需求大的 GPU 对会阻塞。NVSwitch 选择全无阻塞全互联,是因为 NVLink 域的规模(72 GPU)恰好处于”一个交换芯片能直接连完”的范围内——这是 NVSwitch 4.0 的 72 端口密度使能的。
但 72 是上限。对于更大的 NVLink 域(如 576 GPU),单跳全互联不再可能——这就是 NVL576 选择两级级联的原因。
决策 2:铜缆 vs 光互联 —— 距离、功耗与成本的三角
前面已经讨论了 20kW 的功耗节省,但这只是三角的一个角。完整的分析表:
| 维度 | 铜缆(NVL72 方案) | 光互联(假设替代方案) |
|---|---|---|
| 功耗 | ~0W(无源) | ~20kW(648 × 1.6T 光模块 @30W) |
| 最大长度 | ~1-2 米(50 Gbaud PAM4,插入损耗限制) | ~30-100 米(单模光纤) |
| 成本 | ~$10-30/根(无源铜缆批量成本) | ~$500-1000/光模块(2024 价格) |
| 重量 | 较高(铜介质密度 ~8.9 g/cm³) | 较低 |
| 可靠性 | 高(无有源器件,MTBF 极长) | 中(激光器老化、DSP 故障) |
| 布线复杂度 | 高(5,184 根独立电缆,需精确管理) | 中(光纤更细,但管理帧架仍需设计) |
| 信号完整性 | 插入损耗随长度急剧恶化 | 几乎无损耗,但有色散和反射 |
关键洞察:铜缆胜在单机柜内,光互联胜在跨机柜。 NVL72 内部的所有 NVLink 连接都在同一机柜的物理范围内(~1-1.5 米),所以铜缆是明显的赢家——零功耗、低成本、高可靠性。到了 NVL576,跨机柜的 NVLink 需要连接物理上数米到数十米的距离,铜缆无法胜任,所以必须引入光互联或其他有源重定时方案。
一个经常被忽略的细节:NVL72 背板的 5,184 根铜缆不是随机走线的。每根电缆的长度被精确匹配到同一 GPU 的 18 个 NVLink lane 之间。这是为了避免 lane-to-lane skew——如果同一 NVLink 链路的 18 个 lane 信号到达时间差异过大,接收端的比特对齐(bit deskewing)将超出 PHY 的可调范围,导致整个 18-lane 链路降速或无法建立连接。Amphenol 的 SkewClear EXD Gen 2 电缆系列的设计初衷就是解决这个问题——低 skew 并且在不同批次间保持一致性。
决策 3:48V 汇流排 + 盲插供电 —— 2500A 的物理挑战
NVL72 用 48V 直流汇流排供电,最高 2,500A。选择 48V 而非传统的 12V 或更高的 380V,是三股力量的折中:
为什么不用 12V? 120kW @ 12V = 10,000A。10,000A 需要汇流排的截面积达到数百平方毫米,物理上无法在标准 19 英寸机柜内实现。汇流排上的电阻损耗(I²R)也会呈二次方增长——10,000A 穿过 1mΩ 的接触电阻就产生 100W 的热量,而且这只是一处接触电阻。整个供电通路上成百上千个接触点,累积的电阻损耗会吃掉不可接受的功耗。
为什么不用 380V? 380V DC 已经接近更高的电压等级,需要更大的电气间隙(creepage distance)和更强的绝缘设计——在机柜密集的盲插背板上实现 380V 连接器的安全间距,物理空间不允许。而且 48V 正好低于安全特低电压(SELV, 60V DC 以下),在操作安全和法规合规方面有天然优势。
48V 是一个物理上的甜点:电流在大约 2,500A(120kW / 48V),这个电流水平在合理截面积的汇流排上可控。汇流排设计为上下两端供电(2 sets of 3 power shelves),这样在垂直方向上电流分担——上半段 6 个电源模组向 10 个计算节点供电,下半段 6 个电源模组向 8 个计算节点供电,任何位置的汇流排电流峰值不超过约 1,250A。
每个电源模组(front-end)提供约 3kW(新一代可到 5.5kW),6 个模组 × 3kW × 2 组 = 36kW × 2 = 72kW,再加上新一代 5.5kW 模组(6 × 5.5kW × 2 = 66kW),可以实现冗余设计——即一组电源下线时另一组仍能支撑全负载。
决策 4:强制直冷液体散热 —— 120kW 不是开玩笑
NVL72 全部采用液冷——不是选择性的,不是可选的,是强制的。每块 GB200 Superchip 上覆盖着冷板(cold plate),冷却液贯穿所有计算节点和 NVSwitch 交换盘。
120kW 在一个 19 英寸机柜中的热密度大约是传统风冷数据中心单机柜(~10-15kW)的 10 倍。用风冷处理 120kW 需要的气流速度将超过 20 m/s——这是小型风洞的速度,噪音和湍流对硬件可靠性构成严重威胁。
液冷设计的几个物理约束:
-
冷板的热接触电阻:GB200 Superchip 的两块 B200 GPU 和一颗 Grace CPU 共享一块冷板。B200 GPU 的 TDP(热设计功耗)约为 1,000W(B100 约 700W,B200 更高一些),两块合计 2,000W+ 加上 CPU 的约 300W,每 Superchip 约 2,300W 的散热需求通过一块冷板传导。冷板与芯片之间的热界面材料(TIM)的导热系数必须在 5-10 W/(m·K) 以上才能将结温控制在 85°C 以下。
-
冷却液的流量和温升:水的比热容 ~4.18 kJ/(kg·K)。如果液体入口温度 30°C、出口 45°C(ΔT = 15°C),带走 120kW 需要的质量流量约为 120 / (4.18 × 15) ≈ 1.9 L/s。这需要在机柜背后通过快速接头(quick-disconnect)连接到设施的冷却液分配单元(CDU)。
-
盲插液冷接头:每个计算节点和交换盘在推入机柜时,其液冷接头必须与背板上的对应接头零泄漏连接。盲插液冷接头是两阶段设计——先完成机械导向(guide pin),再完成密封面接触。如果密封失效,冷却液泄漏到 NVLink 连接器上将导致信号短路和腐蚀。NVIDIA 的工程设计在此处使用了双密封面(dual-seal)设计,每个接头有两道密封环,在第一道失效时仍有第二道阻断。
决策 5:四级网络分层 —— Scale-Up、Backend、Frontend、Management
NVL72 的网络不是一个平坦的集群互联。NVIDIA 的架构设计将网络分成了四个明确的功能层:
┌─────────────────────────────────────────────────────────┐
│ 网络层级架构 │
│ │
│ Scale-Up 网络 (NVLink 5.0 + NVSwitch 4.0) │
│ ├─ 单域 72 GPU 全互联 │
│ ├─ 每 GPU 1.8 TB/s │
│ ├─ 延迟 < 1µs (单跳) │
│ └─ 内存语义 (load/store 远程 GPU 内存) │
│ │
│ Backend Scale-Out 网络 (InfiniBand NDR / Spectrum-X) │
│ ├─ 跨机柜 GPU-to-GPU 通信 (AllReduce, All-to-All) │
│ ├─ 每 GPU 400 GB/s × 2 端口 (双向) │
│ ├─ SHARPv3 在网计算 │
│ └─ 多租户 AI 工作负载隔离 │
│ │
│ Frontend 网络 (Ethernet) │
│ ├─ 数据加载 (从存储到 GPU 显存) │
│ ├─ 模型检查点 (checkpointing) │
│ └─ 外部 API 服务 │
│ │
│ Out-of-Band 管理网络 │
│ ├─ BMC (基板管理控制器) │
│ ├─ 电源/散热监控 │
│ └─ 固件更新和诊断 │
└─────────────────────────────────────────────────────────┘
Scale-Up 和 Scale-Out 的分工是 NVL72 架构设计的核心哲学。
在传统的 DGX A100/H100 中,Scale-Up(NVLink 域内 8 GPU)和 Scale-Out(InfiniBand 跨节点)之间有明显的性能鸿沟——NVLink 带宽(900 GB/s)是 InfiniBand NDR(50 GB/s)的 18 倍。这意味着任何跨节点的通信都会遭受巨大的带宽落差。
NVL72 通过将 Scale-Up 域从 8 GPU 扩展到 72 GPU,大幅减少了需要走 Scale-Out 的通信比例。在 72 GPU 域内,每一对 GPU 之间都有 1.8 TB/s 的全带宽——对于训练一个 MoE 模型,如果专家数量 ≤ 72 且每个专家恰好放在一块 GPU 上,那么整个 MoE 层的 All-to-All dispatch 和 combine 全部在 NVLink 域内完成,完全不使用 InfiniBand。
只有当模型规模超过 72 GPU(即专家数 > 72,或数据并行组 > 72)时,才需要跨越 Scale-Out 网络。 这就是 NVL72 的核心价值主张:用 72 GPU 的 NVLink 域解决”最大的单域问题”,再把更大规模的集群用 Scale-Out 网络拼接。
InfiniBand 层面的 SHARPv3:在后端 Scale-Out 网络上,NVIDIA Quantum-2 InfiniBand 交换机集成了 SHARPv3 在网计算引擎。SHARPv3 支持多租户并行 AllReduce(相比 SHARPv2 的单租户限制),可以将 AllReduce 延迟降低近一个数量级。在 MoE 训练中,当专家梯度需要在跨节点的 EP 组间同步时,SHARPv3 的 AllReduce 加速可以直接缩短梯度同步时间。
DjSHARP 的论文指出,NVLink SHARP(NVLS)和 InfiniBand SHARP 的工作机制不同——前者基于 NVLink 内存语义(load/store + multimem 指令),后者基于消息语义。但两者的核心思想是一致的:将数据编排操作(multicast、reduction)下推到交换芯片内部,消除端到端的数据搬运冗余。
横向对比:NVL72 vs NVL36×2 vs DGX H100 vs 传统集群
NVL72 与 NVL36×2:为什么要区分?
NVIDIA 同时推出了 GB200 NVL72(单机柜 72 GPU)和 GB200 NVL36(单机柜 36 GPU)。两者的选择不只是”买大还是买小”——实际上涉及架构和物理极限的妥协。
| 维度 | NVL72(单机柜) | NVL36×2(双机柜) | DGX H100(8 GPU 节点) |
|---|---|---|---|
| GPU 总数 | 72 B200 | 36 × 2 = 72 B200 | 8 H100(需 9 节点 = 72 GPU) |
| NVSwitch ASIC 数 | 18 | 9 × 2 = 18 | 4 × 9 = 36(3rd-gen) |
| NVLink 域 | 单一域,72 GPU 全互联 | 两个独立域,各 36 GPU | 9 个独立域,各 8 GPU |
| NVLink 跳数 | 1 跳(任意 GPU ↔ GPU) | 域内 1 跳,跨域经 IB 多跳 | 域内 1 跳,跨域经 IB 多跳 |
| 跨域通信 | 无(72 GPU 一个域) | 有(36↔36 需走 InfiniBand) | 有(8↔8 需走 InfiniBand) |
| 单柜功耗 | ~120kW | ~60kW × 2 | ~10.2kW × 9 = 91.8kW |
| 每 GPU 互联带宽 | 1.8 TB/s(全互联) | 1.8 TB/s(域内) | 900 GB/s(域内,NVLink 4) |
| 对分带宽 | 129.6 TB/s(单向) | 64.8 TB/s(每域,但跨域需 IB) | 4.5 TB/s(每域) |
| 液冷 | 强制液冷 | 强制液冷 | 风冷或液冷 |
| 数据中心要求 | >120kW 单柜容量 | >60kW 单柜容量 | >10.2kW 单柜容量 |
NVL36×2 的代价是跨域通信。 当你有一个训练任务需要超过 36 GPU 时(比如 MoE 有 64 个专家),NVL36×2 的两个域之间必须通过 InfiniBand 通信——这个带宽大约是 400 GB/s(InfiniBand NDR × 2 端口),是 NVLink 域内带宽 1.8 TB/s 的约 1/4.5。所以虽然 GPU 总数一样,NVL36×2 在实际训练中的通信效率可能低于 NVL72——特别是当负载需要频繁跨域交换数据时。
NVL72 的代价是单柜功耗不可接受。 120kW 的功耗使得 NVL72 只能在少数具备对应供电和冷却能力的数据中心部署。大多数数据中心单柜容量仍然在 40-60kW 的范围。这也是为什么 NVL36 作为”降配”选项存在——它不是为性能最优而设计的,而是为兼容性设计的。
DGX H100 到 NVL72 的跳跃:不仅仅是 9 倍 GPU
从 DGX H100(8 GPU)到 NVL72(72 GPU),GPU 数量翻了 9 倍,但结构上的变化远比数字深刻:
-
NVLink 域从 8 到 72:8 倍扩展。这是架构的真正革命——不再需要 InfiniBand 来完成大部分通信。在 DGX H100 上,一个最简单的 16 GPU 的 MoE 训练就需要至少 2 个 DGX 节点和 InfiniBand 互联。在 NVL72 上,72 GPU 以内的 MoE 训练不需要 InfiniBand。
-
NVLink 带宽从 900 GB/s 到 1.8 TB/s:2 倍。NVLink 5.0 的带宽翻倍,而且由于 NVSwitch 从 64 端口升到 72 端口——和 GPU 数量精确匹配——单芯片不需要级联就能覆盖整个系统。
-
功耗从 ~10kW 到 ~120kW:12 倍。功耗增长快于 GPU 数量的原因是 NVSwitch 芯片本身的功耗(18 颗 NVSwitch 4.0 芯片,每颗功耗在 100-200W 量级),以及更高带宽的 SerDes 消耗更多电力。
-
物理形态从”节点拼装”到”机柜整装”:DGX H100 是独立的服务器节点,用户可以像买服务器一样买一台。NVL72 是一个完整的机柜系统——在整个机柜被运到数据中心之前,NVIDIA(或集成商)在工厂完成组装、线缆连接和液冷管路安装。这是从”服务器”到”整机柜系统工程”的范式转变。
NVL576:两级 NVSwitch 级联至 576 GPU
NVL576 是 NVL72 的 Scale-Up 扩展——通过两级 NVSwitch 级联将 576 GPU 连接在一个 NVLink 域内,聚合带宽超过 1 PB/s。
┌─────────────────────────────────────────────────────┐
│ NVL576 拓扑 │
│ │
│ Rack 0 Rack 7 │
│ ┌──────┐ ┌──────┐ │
│ │72 GPU│ ... ... │72 GPU│ │
│ │18 NV │ │18 NV │ ← 第一级 │
│ │Switch│ │Switch│ NVSwitch │
│ └──┬───┘ └──┬───┘ │
│ │ │ │
│ └────────┬───────────────┘ │
│ │ │
│ ┌────────┴──────────┐ │
│ │ 第二级 NVSwitch │ ← 跨机柜聚合层 │
│ │ (Uplink Switch) │ │
│ └───────────────────┘ │
│ │
│ 576 GPUs × 18 NVLink lanes = 10,368 lanes │
│ 聚合带宽 > 1 PB/s │
│ 统一内存 = 240 TB (576 × 416 GB) │
└─────────────────────────────────────────────────────┘
NVL576 的架构在 NVL72 单柜的基础上,在第一级保持柜内 72 GPU 全互联(铜缆),第二级通过 uplink NVSwitch 交换机(可能使用光互联)将 8 个 NVL72 机柜组成一个 576 GPU 的单一 NVLink 域。NVLink 域的总聚合带宽 1 PB/s ——相较于 2014 年第一代 NVLink 的 NVLink 域总带宽约 1.2 TB/s,增长约 900 倍。
两级级联的代价:跨机柜的 GPU 对通信需要 2 跳(GPU → 第一级 NVSwitch → 第二级 NVSwitch → 目标 GPU),延迟是单跳的 2-3 倍。对分带宽上,第二级的 uplink 端口数量决定收敛比(over-subscription)——如果 18 个第一级 NVSwitch 的上行端口聚合带宽小于 72 GPU 的对分带宽,那么跨机柜通信的带宽就不是全分带宽。NVIDIA 没有公开 NVL576 的第二级交换机端口数量,但物理限制决定了它不可能是 NVL72 那种完美的无阻塞全互联。
不过对 MoE 训练而言,如果做到足够好的专家分区(让同一 token 经常选择的专家在同一机柜内),跨柜通信的频率可以被大幅降低。这是软件-硬件协同设计的一个关键课题,也是我们后续文章(并行策略设计)会深入讨论的内容。
总结与清单:从 NVL72 看 AI 互联的工程极限
本文的核心论断
-
NVSwitch 是 NVIDIA 在 Scale-Up 方向的最关键投资。 从 2018 年 DGX-2 上那个 6 端口的芯片,到 2024 年 NVL72 上 72 端口 25.1B 晶体管的 NVSwitch 4.0,每一代的端口密度翻倍、SerDes 速率翻倍、工艺和晶体管的升级——使得 NVLink 域从 8 GPU 膨胀到 72 GPU。这不是增量改进,是范式转变。
-
NVL72 的工程本质是”把所有东西塞进一个机柜”。 全铜互联省下 20kW 的电力开销;盲插连接器让 5,184 根电缆的组装在工厂完成而非现场布线;48V 汇流排和直冷液冷把 120kW 打包在一个箱体的物理限制内。这一切的出发点都是:只要能把东西放在一个机柜里,铜缆就比光模块好;NVLink 就比 InfiniBand 好;单跳就比多跳好。
-
物理定律在说话。 50 Gbaud PAM4 信号不能传远——铜缆极限约 2 米。48V 汇流排不能无限加电流——2,500A 的截面已经巨大。120kW 不能靠风扇来吹——20m/s 的气流是不切实际的。NVL72 的每一个设计选择,本质上都是在跟物理定律讨价还价。
工程决策清单
以下清单可以用作评估或设计类似 AI 互联系统时的参考框架:
- Scale-Up 域的规模:单域 GPU 数——由 NVSwitch 芯片的端口数决定。NVSwitch 4.0 = 72 端口 → 单域 ≤ 72 GPU(单级)或 ≤ 576 GPU(两级级联)
- 拓扑的选择(全互联 vs 胖树):单跳全互联延迟最低但受芯片端口数限制;胖树可扩展至更大规模但收敛比和多跳延迟增加
- 铜缆 vs 光互联的决策:同一机柜内(< 2m)用无源铜缆 = 零功耗 + 低成本 + 高可靠;跨机柜用光模块 = 长距离 + 低损耗 + 高功耗
- 供电方案:48V DC 汇流排是当前 100-150kW/柜 的甜点;12V 需要不可接受的电流;>60V 的 SELV 上限带来的安全设计复杂度增加不可忽视
- 冷却方案:超过 30-40kW/柜必须考虑液冷;超过 80kW/柜必须强制液冷
- 网络分层:Scale-Up(NVLink)、Backend Scale-Out(InfiniBand/Spectrum-X)、Frontend(Ethernet)、Management——四层各司其职,避免流量互相干扰
- 盲插连接器的信号完整性:224G PAM4 对连接器的阻抗匹配和 skew 控制有极端要求;Amphenol Paladin HD 级别的连接器是必需而非可选
下一篇预告
NVL72 解决了 GPU 之间的”近场通信”问题——72 GPU 以内,全带宽、单跳、无阻塞。但当模型需要成千上万块 GPU 时,Scale-Out 网络就成了新的瓶颈。InfiniBand NDR/XDR 如何管理 AllReduce 和 All-to-All 的拥塞?SHARPv4 在网计算在多大程度上能减少数据搬运?Spectrum-X 以太网方案在性能和生态上如何与传统 InfiniBand 竞争?
下一篇:InfiniBand 与 Scale-Out 网络 —— 从 NDR 到 XDR 的拥塞控制与在网计算。
本文数据来源:NVIDIA GB200 NVL72 开发者技术博客 (March 2024);ServeTheHome GTC 2024 现场报道;NVIDIA SHARP 技术博客 (October 2024);”Accelerating MoE with Dynamic In-Switch Computing on Multi-GPUs” (DySHARP, ISCA’26);Hot Chips 34 NVSwitch 架构演讲 (Ishii & Wells, 2022)。