George Lin's Blog

Load/Store vs Send/Recv —— AI互联各层次的语义选择

AI Interconnect Semantic Model

一个让人睡不着觉的问题 2024 年，NVIDIA 的 NVLink 已经到了第五代（Blackwell），SerDes 跑 224 Gbps PAM4，有效速率 200 Gbps/lane，单 GPU 双向带宽 1.8 TB/s。一个 NVL72 机柜里，72 块 Blackwell GPU 通过 NVSwitch 全互联，机柜内总带宽 130 TB/s。这些数字大到已经不太好想象。 ...

Posted by George Lin on June 23, 2026

Specialized Chips and Future Outlook

系列编号：第 15 篇（终篇）系列主题：面向工业 MoE 大模型训练的互联通信技术深度研究所属系列：工业 MoE 通信体系：从芯片互联到集群拓扑的实战手册目标读者：工业架构师、AI 芯片设计者、分布式系统研究员、高性能网络工程师建议阅读顺序：建议在阅读本篇之前，至少完成本系列前 5 篇（MoE 基础 + 通信原语 + NVLink/NVSwitch + 集群拓扑 + 调度策略）的阅读...

Posted by George Lin on June 21, 2026

MoE Inference Communication

引言：训练赢了，推理怎么办？如果你读完了这系列的前十三篇，你应该对 MoE 训练的通信问题有了相当清晰的认识：AllReduce + All-to-All 双重轰炸、跨节点带宽瓶颈、负载不均引发的尾延迟、还有 1:1 的计算-通信比。DeepSeek-V3 用 DualPipe、节点限制路由、warp specialization 等一系列工程技巧硬生生把这个瓶颈”吃”掉了——但这一切都...

Posted by George Lin on June 21, 2026

Full System Power, Thermal and Parallelism

引言：跑满不代表跑好 A100 GPU 标称的 FP16 峰值是 312 TFLOPS，一块卡。如果有人告诉你，拿 3072 块 A100 绑在一起，你的训练吞吐能稳在每块 163 TFLOPS、合计 502 PFLOPS —— 也就是理论峰值的 52% —— 你会觉得这是及格还是优秀？ Megatron-LM 团队 2021 年在 SC 会议上给出的答案就是这个 52%。按今天大模型训...

Posted by George Lin on June 21, 2026

Lina Communication Scheduling

引言：同一种通信操作，两个截然不同的瓶颈如果你在 2023 年问一个做 MoE 系统工程的人”All-to-All 到底慢在哪”，你大概率会得到模棱两可的回答——”带宽不够吧”、”卡太多互相等”、”不均衡”——然后就没有然后了。这些回答不是全错，但它们把原因和结果搅在了一起，导致你在做优化时无从下手。 Hong Kong 的几位研究者——以 CityU 的 Jiamin Li 为首，联...

Posted by George Lin on June 21, 2026

MoE Training: MegaBlocks, FlexMoE and Fused

在上一篇文章中，我们深入剖析了 Tutel 的自适应并行切换与流水线优化、FasterMoE 的影子专家与拓扑感知调度、以及 DeepSpeed-MoE 的层次化存储与多维度并行。这些工作的共同特征是在不改变 MoE 基本计算范式的前提下，通过系统层面的优化来缓解通信瓶颈和负载不均。本篇文章将转向三条更为激进的技术路线。它们不再满足于在现有范式下做工程优化，而是试图从更根本的层面重新思考...

Posted by George Lin on June 21, 2026

MoE Training: DeepSpeed and Tutel

引言：微软的两条路线 2022 年到 2023 年，微软研究院在 MoE 训练系统方向上连续发表了两篇重量级论文：ICML 2022 的 DeepSpeed-MoE 和 MLSys 2023 的 Tutel。同一个机构，同一个问题——”怎么让 MoE 训练又快又好”——却给出了两种完全不同风格的答案。 DeepSpeed-MoE 的思路是架构创新：改模型结构，用更少的参数达到同样的精度。...

Posted by George Lin on June 21, 2026

Torus Fault-Tolerant All-to-All

引言：当一条链路断了，整个 All-to-All 就停了想象一下这个场景。你在一个 4x4x4 的 TPUv4 Pod 上跑着 MoE 训练，1024 个 TPU 芯片通过 3D Torus 互联在一起。All-to-All 正在执行——每个芯片向其他所有芯片分发 token 的 hidden state，同时从其他所有芯片接收计算结果。这一个操作占了端到端训练时间的 41.5% 到 9...

Posted by George Lin on June 21, 2026

TPU Torus and OCS Optical Switching

引言：两条路的分岔——GPU 的交换机帝国与 TPU 的邻居网络在 AI 训练芯片的互联战场上，NVIDIA 和 Google 各自选择了一条截然不同的路。 NVIDIA 的路是交换机之路。从 DGX-1 的 8 卡 PCIe Switch，到 DGX-2 的 NVSwitch 初代，再到 H100 的第三代 NVSwitch——每一代都在扩张交换机覆盖的 GPU 数量。NVIDIA ...

Posted by George Lin on June 21, 2026

FlexLink Heterogeneous Link Aggregation

引言：H800 的 400GB/s，和你手里闲置的那些链路 2023 年下半年，H800 成为大模型训练事实上的主力 GPU——不是因为性能最强，而是因为合规可采购。H800 的算力和 H100 基本持平，但在一个关键维度上被大幅削弱：NVLink 带宽从 H100 的 900 GB/s 砍到 400 GB/s，降幅超过 55%。这个数字具体意味着什么？在标准的 8×H800 服务器上...

Posted by George Lin on June 21, 2026

Blog of George Lin

Load/Store vs Send/Recv —— AI互联各层次的语义选择

AI Interconnect Semantic Model

Specialized Chips and Future Outlook

Specialized Chips and Future Outlook

MoE Inference Communication

MoE Inference Communication

Full System Power, Thermal and Parallelism

Full System Power, Thermal and Parallelism

Lina Communication Scheduling

Lina Communication Scheduling

MoE Training: MegaBlocks, FlexMoE and Fused

MoE Training: MegaBlocks, FlexMoE and Fused

MoE Training: DeepSpeed and Tutel

MoE Training: DeepSpeed and Tutel

Torus Fault-Tolerant All-to-All

Torus Fault-Tolerant All-to-All

TPU Torus and OCS Optical Switching

TPU Torus and OCS Optical Switching

FlexLink Heterogeneous Link Aggregation

FlexLink Heterogeneous Link Aggregation

FEATURED TAGS

ABOUT ME