Blog of George Lin

Thinking will not overcome fear but action will.
You Are the No. Visitor!

在上一篇文章中,我们深入剖析了 Tutel 的自适应并行切换与流水线优化、FasterMoE 的影子专家与拓扑感知调度、以及 DeepSpeed-MoE 的层次化存储与多维度并行。这些工作的共同特征是在不改变 MoE 基本计算范式的前提下,通过系统层面的优化来缓解通信瓶颈和负载不均。 本篇文章将转向三条更为激进的技术路线。它们不再满足于在现有范式下做工程优化,而是试图从更根本的层面重新思考...

引言:微软的两条路线 2022 年到 2023 年,微软研究院在 MoE 训练系统方向上连续发表了两篇重量级论文:ICML 2022 的 DeepSpeed-MoE 和 MLSys 2023 的 Tutel。同一个机构,同一个问题——”怎么让 MoE 训练又快又好”——却给出了两种完全不同风格的答案。 DeepSpeed-MoE 的思路是架构创新:改模型结构,用更少的参数达到同样的精度。...

Specialized Chips and Future Outlook

Specialized Chips and Future Outlook

系列编号:第 15 篇(终篇) 系列主题:面向工业 MoE 大模型训练的互联通信技术深度研究 所属系列:工业 MoE 通信体系:从芯片互联到集群拓扑的实战手册 目标读者:工业架构师、AI 芯片设计者、分布式系统研究员、高性能网络工程师 建议阅读顺序:建议在阅读本篇之前,至少完成本系列前 5 篇(MoE 基础 + 通信原语 + NVLink/NVSwitch + 集群拓扑 + 调度策略)的阅读...

MoE Inference Communication

MoE Inference Communication

引言:训练赢了,推理怎么办? 如果你读完了这系列的前十三篇,你应该对 MoE 训练的通信问题有了相当清晰的认识:AllReduce + All-to-All 双重轰炸、跨节点带宽瓶颈、负载不均引发的尾延迟、还有 1:1 的计算-通信比。DeepSeek-V3 用 DualPipe、节点限制路由、warp specialization 等一系列工程技巧硬生生把这个瓶颈”吃”掉了——但这一切都...

Full System Power, Thermal and Parallelism

Full System Power, Thermal and Parallelism

引言:跑满不代表跑好 A100 GPU 标称的 FP16 峰值是 312 TFLOPS,一块卡。如果有人告诉你,拿 3072 块 A100 绑在一起,你的训练吞吐能稳在每块 163 TFLOPS、合计 502 PFLOPS —— 也就是理论峰值的 52% —— 你会觉得这是及格还是优秀? Megatron-LM 团队 2021 年在 SC 会议上给出的答案就是这个 52%。按今天大模型训...

Lina Communication Scheduling

Lina Communication Scheduling

引言:同一种通信操作,两个截然不同的瓶颈 如果你在 2023 年问一个做 MoE 系统工程的人”All-to-All 到底慢在哪”,你大概率会得到模棱两可的回答——”带宽不够吧”、”卡太多互相等”、”不均衡”——然后就没有然后了。这些回答不是全错,但它们把原因和结果搅在了一起,导致你在做优化时无从下手。 Hong Kong 的几位研究者——以 CityU 的 Jiamin Li 为首,联...

Torus Fault-Tolerant All-to-All

Torus Fault-Tolerant All-to-All

引言:当一条链路断了,整个 All-to-All 就停了 想象一下这个场景。你在一个 4x4x4 的 TPUv4 Pod 上跑着 MoE 训练,1024 个 TPU 芯片通过 3D Torus 互联在一起。All-to-All 正在执行——每个芯片向其他所有芯片分发 token 的 hidden state,同时从其他所有芯片接收计算结果。这一个操作占了端到端训练时间的 41.5% 到 9...

TPU Torus and OCS Optical Switching

TPU Torus and OCS Optical Switching

引言:两条路的分岔——GPU 的交换机帝国与 TPU 的邻居网络 在 AI 训练芯片的互联战场上,NVIDIA 和 Google 各自选择了一条截然不同的路。 NVIDIA 的路是交换机之路。从 DGX-1 的 8 卡 PCIe Switch,到 DGX-2 的 NVSwitch 初代,再到 H100 的第三代 NVSwitch——每一代都在扩张交换机覆盖的 GPU 数量。NVIDIA ...

FlexLink Heterogeneous Link Aggregation

FlexLink Heterogeneous Link Aggregation

引言:H800 的 400GB/s,和你手里闲置的那些链路 2023 年下半年,H800 成为大模型训练事实上的主力 GPU——不是因为性能最强,而是因为合规可采购。H800 的算力和 H100 基本持平,但在一个关键维度上被大幅削弱:NVLink 带宽从 H100 的 900 GB/s 砍到 400 GB/s,降幅超过 55%。 这个数字具体意味着什么?在标准的 8×H800 服务器上...

DySHARP Dynamic In-Switch Computing

DySHARP Dynamic In-Switch Computing

引言:两台交换机的距离 想象一个场景:你坐在 GPU 0 上,手里握着一个 token。路由网络告诉你,这个 token 需要专家 2 和专家 3 来处理。专家 2 在 GPU 2 上,专家 3 在 GPU 3 上。在标准的 MoE dispatch 流程中,你要把这个 token 的 hidden state 原封不动地发送两次——一次从 GPU 0 到 GPU 2,一次从 GPU 0 ...