
作者:戈多Godot
我们的故事,要从一个比赛说起。
李飞飞曾任 Google 副总裁及 Google Cloud AI/ML 首席科学家,同时也是斯坦福大学教授。但她还有另一重身份——ImageNet 大赛创办人。
ImageNet 大赛,正式名称 ILSVRC(ImageNet Large Scale Visual Recognition Challenge),是计算机视觉领域最具影响力的学术竞赛。
2012年 ImageNet 大赛,图灵奖得主杰弗里·欣顿(Geoffrey Hinton)的学生 Alex Krizhevsky,凭借 AlexNet 神经网络将图像识别错误率从 26% 降至 15.3%,以领先第二名 10.8个百分点的惊人优势震惊世界。
关键在于,AlexNet 并未使用超级计算机,而是仅靠两块普通的英伟达 GTX 580 游戏显卡完成训练。这是 AI 首次大规模使用 GPU 加速。在此之前,训练主要依赖 CPU。
这一结果等于向全世界宣告:AI 深度学习 + GPU = 算力革命。
当研究者们纷纷将目光转向 GPU 时,他们发现,只有英伟达的 CUDA 能让他们用类 C 语言编写复杂算法。

黄仁勋的“十年豪赌”
时间拨回 2006年。彼时 GPU 的职责只有一件事:渲染游戏画面。
但黄仁勋想让 GPU 变成通用计算工具。他坚信摩尔定律在 CPU 上已近失效,串行计算的未来必然是并行计算。
于是在 2006年,首席科学家 Ian Buck 领衔开发 CUDA(Compute Unified Device Architecture)。然而当时根本没人知道这东西有什么用。
为了支撑 CUDA,英伟达在每一颗 GPU 芯片中都额外嵌入一块专用计算电路。这意味着芯片面积增大、功耗升高、良品率下降、成本飙升。
除了极少数科研人员,没人买账。在深度学习爆发前,英伟达甚至主动向全球顶尖实验室免费寄送显卡,并派驻工程师协助优化。
CUDA 每年要烧掉英伟达约 5亿美元的研发费用,而当时英伟达一年的利润也不过几亿美元。2008年金融危机来袭,英伟达股价暴跌。
黄仁勋顶着股价暴跌的压力,坚持了整整十年。他始终坚信,GPU 不仅仅是用来渲染游戏画面的,而是一台通用并行处理器。
在 2012年那个转折点上,Intel 还在忙着维护 CPU 的霸权。Intel 长期迷信 CPU 的通用性,认为神经网络不过是一阵风。即便要算,也可以通过扩展 CPU 指令集(如 AVX)来解决。
AMD 当时正深陷收购后的阵痛,在软件投入上极其吝啬,导致其 AI 软件栈 ROCm 直到今天在易用性和稳定性上仍落后 CUDA 几个身位。
于是,2012年那个夏天,Alex Krizhevsky 面对 ImageNet 比赛中数百万张图片,正愁 CPU 算不动。他发现 CUDA 极其好用,便用类 C 语言写了几千行代码,跑在两块 GTX 580 上。
结果一出,全球学术界震动。原本要跑几周的实验,在 GPU 上几天便出了结果,且准确率断层领先。
放弃移动互联网,全面转向 GPU 计算
2013年,黄仁勋在 GTC 大会上做出了一个在当时看来近乎疯狂的决定,将公司重心全面转向 GPU 计算。
那是移动互联网的黄金时代,智能手机浪潮正盛。英伟达虽在手机市场受挫,却没有在手机芯片领域死磕,而是果断将资源全部抽调回来,押注当时还极为小众的数据中心加速计算。
同年,CUDA 进入 5.0/5.5 时代,引入动态并行(Dynamic Parallelism),GPU 可在不回传 CPU 的情况下自行启动新任务,大幅削减通信延迟。
与此同时,英伟达内部开始秘密研发 cuDNN,专为深度神经网络打造 CUDA 深度学习库,将神经网络中最难编写的卷积算法直接封装在底层库中。开发者只需调用一行命令即可完成操作。
而换到 AMD 的显卡上,同样的功能得自己写几百行复杂的底层代码。
2014年,深度学习框架混战拉开帷幕。Google 开源了 TensorFlow,英伟达随即派出大量工程师驻扎在开源社区,持续优化 CUDA 适配。当 TensorFlow 1.0 发布时,在英伟达显卡上的运行效率比 AMD 显卡高出数倍。
"显卡买英伟达",开始成为行业共识。
时至今日,CUDA 已从一个开发工具演变为一种行业标准语言。GitHub 上数以亿计的 AI 代码库依赖 CUDA 原语,大学课程几乎全部基于 CUDA 教学。这意味着新一代工程师在毕业前就已成为英伟达生态的"原住民"。
GitHub 上数以亿计的 AI 代码库依赖 CUDA 原语。大学课程几乎全基于 CUDA 教学。这意味着新一代的工程师在毕业前就已经成为了 NVIDIA 生态的“原住民”。
在 CUDA 之上,还有一套庞大的中间件与库体系。
A. cuDNN 与 cuBLAS
深度神经网络与线性代数库,历经十余年手工汇编级优化。
B. TensorRT
推理优化引擎,能自动融合算子、筛选最佳 kernel、执行量化校准。进入 Blackwell 时代后,TensorRT-LLM 更成为部署大语言模型的标配,直接支持 FP4/FP8 极致优化,竞争对手难以望其项背。
C. Triton Inference Server
已成为云原生 AI 推理的事实标准。
黄仁勋、马斯克 、OpenAI、《Attention is All You Need》…2017,AI 之神显灵
2017年,英伟达 Volta 架构诞生,旗舰产品 Tesla V100 随之发布。这颗芯片上第一次出现了 Tensor Core。
AI 计算从这一刻起,由矢量运算迈入矩阵运算时代。AI 算力爆发,迎来元年。
而早在 2016年底,黄仁勋便亲手将全球第一台搭载早期加速卡的 DGX-1 超级计算机,送到了当时还名不见经传的 OpenAI 办公室。
于是便有了那张著名的照片。照片中那个双手交叉的人,正是 OpenAI 出资人马斯克。这台机器后来成为训练 GPT 系列模型的"始祖机"。
2017年还发生了一件看似无关、实则决定了今天格局的大事:Google 发表论文《Attention is All You Need》,提出了 Transformer 架构。
这篇论文奠定了当今大语言模型的基石,彻底改变了 AI 处理信息的方式,并直接促成了后来 ChatGPT、Claude、Gemini 等大模型的诞生。
Transformer 架构的计算几乎全部由矩阵乘法构成,对算力的需求极为贪婪。
矩阵乘法,是不是有些眼熟?没错,英伟达的 Tensor Core,恰恰就是为矩阵乘法而生的。
至此,AI 的"寒武纪大爆发"正式拉开序幕。
宏观角度看,英伟达的霸主地位建立在三大支柱之上:
1)Tensor Core 架构
实现了矢量计算到矩阵计算的跨越、从通用计算到深度学习专用计算的跨越。
2)CUDA 软件生态
英伟达最深护城河,不仅是一门编程语言,更是一个涵盖 cuDNN、cuBLAS 等在内的庞大库与工具集合,使得迁移成本极高。
3)NVLink 互连技术
GPU 之间协作的桥梁。
通俗理解三者的关系:Tensor Core 是硬件创新,CUDA 是软件生态,NVLink 是互联通道,分别对应性能、生态与可组合性。
其中 Tensor Core 是英伟达真正甩开对手、确立 AI 霸主地位的关键。不理解 Tensor Core,就无法理解现代 AI 芯片。
Tensor Core 标志着 GPU 从图形渲染设备彻底转型为 AI 专用计算平台,以牺牲通用性为代价,换取矩阵乘法(Matrix Multiply)这一 AI 核心运算上的极致性能。
什么是 Tensor Core ?
Tensor Core 可进一步拆解为三个核心概念:
1)矩阵乘法(Matrix Multiplication) 2)混合精度(Mixed Precision) 3)架构演进
1)矩阵乘法(Matrix Multiplication)
从矢量计算迈向矩阵计算,是 Tensor Core 实现性能飞跃的核心逻辑。
传统 CUDA Core 执行的是标量或向量运算,例如 A + B。即便并发执行,每个周期也只能处理有限的数据点。
Tensor Core 则是嵌入 GPU 内部的 DSA(Domain Specific Architecture,领域专用架构)模块,相当于在通用 GPU 架构内部植入了 ASIC 级别的专用加速单元。
Tensor Core 并不是为了执行所有类型的指令,而是专攻一种特定运算——矩阵乘累加,即 D = A × B + C。
通俗地说,矢量计算像是一行一行地下达计算指令;矩阵计算则是直接输出一整块表格(4×4 矩阵)。
2)混合精度(Mixed Precision)——模糊的艺术
AI 的本质是概率,而非定论。
判断一张图里是猫还是狗,98.0001% 的概率与 98.0000000001% 的概率并无区别。但精度不同,对算力效率的影响却天差地别。
所谓混合精度,就是在不影响结果正确性的前提下,尽可能用低精度换取极致效率。
A. 如何衡量精度?
这里要引入一个概念:FP(Floating Point),即浮点数。
在计算机内部,任何数字都由 0 和 1(位/Bit)组成。一个浮点数通常包含三部分:
1)符号位(Sign),表示数字是正还是负。 2)指数位(Exponent),决定数字的大小范围。 3)尾数位(Mantissa/Fraction),决定数字精度,即小数点后有多少位。
常见的如 FP32,用 32位记录一个数,极其精确但占用空间大。
FP16 空间减半、速度翻倍,但精度和范围都随之缩小;FP4 则是极低精度,类似像素画,只能记录非常模糊的数值。
在计算机科学中,这本质上是在有效信息量(信息熵)、计算吞吐量与数值稳定性之间寻找最优解。
B. 混合精度如何运作?
a. 精度降级
计算时,Tensor Core 将原本 32位的输入强制转换为 16位。
FP32:1位符号 + 8位指数 + 23位尾数。 FP16:1位符号 + 5位指数 + 10位尾数。
尾数位从 23 降到 10,在矩阵乘法阶段,计算压力减少 4倍以上。
b. 累加保护
这是 Tensor Core 设计最精妙之处。
输入是 FP16,但累加使用 FP32——注意,加法用的是 FP32。
原因在于,小误差在相乘时尚且安全,但若在数万次相加中持续丢弃微小值,误差会迅速放大。通过在高精度下累加,英伟达保障了最终结果的精确性。
c. 损失缩放——对抗"下溢出"
AI 训练中,若全程使用 FP16,模型会崩溃。因为有些关键数据极其微小,FP16 根本无法表达,这个问题叫下溢出。
对策是,程序在计算前将损失值乘以一个巨大的系数(如 1024),强行将这些微小梯度推回 FP16 能表达的有效范围内。计算完成后,再除以 1024 还原。
C. 混合精度的极限——Microscaling Format(MX)微缩放
英伟达 V100 支持 FP16,到了 H100 变成 FP8,B200 进一步降至 FP4。
FP4 虽然比 FP16 快得更极致,但 FP4 只能表达 2⁴ = 16 个数值。要知道一张图片中的色号都远不止 16个,AI 将无法分辨梵高的《向日葵》和《星空》。
于是在 Blackwell 架构中,英伟达引入了 Microscaling Format,其核心思想是块浮点(Block Floating Point)。
通俗地说,AI 网络同一个向量块中,数值的数量级往往相近。与其对每个数值逐一缩放,不如按批处理:在一批数值中找到绝对值最大的那个,以此确定公共缩放因子。
最棘手的情况是,一组数据里混入了一个极大值,而其余都是极小值。
就像一张照片里既有太阳,旁边又有一只微弱的萤火虫。在 AI Transformer 的某些层中,这种"异常值"时常冒出。
这也正是英伟达在 Blackwell 架构中并未完全抛弃 FP8 和 FP16,并且在软件层面投入大量精力做平滑处理的原因。
3)架构演进
这里有个很方便的记忆方式:
Volta 是诞生——Ampere 走向主流——Hopper 大爆发——Blackwell 现在最火。
年份越往后,架构名越靠后,支持的精度(FP 后的数字)越小,矩阵运算的量级越大,AI 越像人。
2017年 Volta(V100):一场极其冒险的豪赌
2017年 Volta 问世,是英伟达发展历程中的关键分水岭。
在此之前 Pascal 架构,比如 GTX 1080 Ti,主要目标还是让游戏画面更好看。
而从 Volta 开始,黄仁勋做了一个当时看来极其冒险、事后证明是神来之笔的决定——模糊精度,即降低精度换取极致 AI 计算效率,让 GPU 从通用计算设备变成 AI 专用平台。
2017年之前,科学计算领域如天气模拟、核爆仿真,要求绝对精准,大家都在比拼 FP32 单精度甚至 FP64 双精度算力。
但突然之间,AI 爆发了。而 AI 网络恰恰很"抗噪"。
训练 AI 就像教小孩认猫,不需要告诉孩子这只猫耳朵长 3.1415926 厘米,只需要说大概 3 厘米就够了。
英伟达在 V100 上大力推行混合精度:计算用 FP16 半精度,累加时用 FP32 高精度防止误差积累。就像从写楷书变成写草书,速度瞬间翻倍,而 AI 准确率几乎没有下降。
这在当时极其冒险。在一颗极其昂贵的芯片上划出一大块面积,为一个当时仅有少数人在用的矩阵运算做专用电路,这是非常、非常、非常冒险的决定。
但黄仁勋和英伟达赌对了 AI 大爆发。
于是,这成为了其他竞争对手,如英特尔,至今落后的原因。
2018年 Turing(T4)——游戏画质的超级革新:光追与 DLSS
其实到此时,芯片的主要使用场景仍然是游戏画面渲染。
2018年,英伟达发布 Turing 架构(RTX 2080 Ti)。这是显卡历史上第一次将三种完全不同性质的处理器封装在同一块硅片上。
先解释一下背景。
在此之前,游戏画面渲染用的是光栅化(Rasterization),本质上就是 2D 贴图。老游戏玩家应该深有体会。比如水面倒影,其实是预先画好再贴上去的,玩家视角变了,影子纹丝不动。
光线追踪(Ray Tracing)则是模拟真实物理世界的光影效果。游戏中的光线和倒影会随玩家视角与光源实时变动。
光追在此之前并非做不了,只是计算量太大,游戏会直接卡成 PPT。
Turing 架构中,三种完全不同性质的处理器分别是 RT Core、CUDA Core 和 Tensor Core。
1)RT Core(Ray Tracing Core,光线追踪核心)
这是 Turing 的独创,专门负责计算光线与三角形的求交运算(BVH Traversal)。功能极其单一,只用于光追计算。将这类枯燥的几何运算从通用核心中抽离出来,效率提升了数十倍。
2)CUDA Core(通用计算核心)
继续承担传统的光栅化渲染任务。
3)Tensor Core(混合精度计算核心)
新增 INT8、INT4、INT1 支持,引入低精度推理能力,并首次将 Tensor Core 带入消费级显卡(RTX 20 系列)。
这里隐藏着一个伟大的发明——DLSS(深度学习超级采样)。
其逻辑是,光追计算太吃力,先渲染 1080P 画面,再用 Tensor Core 跑一个神经网络,将 1080P 的画面"脑补"成 4K。
这是 AI 生成内容在图形领域的首次大规模落地,证明了 AI 可以成为传统图形流水线的一部分。
2018年前后,传统性能增长已触及瓶颈。英伟达强推光追,本质上是重新定义了衡量显卡优劣的标准。AMD 或 Intel 即使想跟进,也缺乏像 Tensor Core 这样高效的硬件来支撑。
也就是说,英伟达形成了"算法 + 硬件 + 训练数据"的全方位封锁。
光追与 Tensor Core 的结合,还意外打开了通往元宇宙和数字孪生的大门。
既然 Tensor Core 能通过 AI 补全游戏画面,那能不能根据几张照片,直接"脑补"出一个真实的 3D 空间?这便是近几年大热的 NeRF 神经辐射场技术,实现了仅需几秒钟便能从视频生成 3D 模型。
2020年 Ampere(A100)——史上最成功的 AI 芯片
用"易用性革命"概括 A100,再合适不过。A100 之前,计算领域存在三个问题: 1)精度分裂。FP32 太慢,FP16 太难驾驭; 2)算力分裂。训练卡和推理卡互不通用; 3)资源分裂。大模型吃不饱,小模型吃撑了。
英伟达在 A100 上做出了堪称革命性的改进: 1)TF32(TensorFloat-32) 2)结构化稀疏(Structural Sparsity) 3)MIG(Multi-Instance GPU)
三者合力,实现了单张芯片的大一统。
TensorFloat-32 (TF32)
这是一个天才设计。还记得上文提到,此前 AI 计算沿用高精度方案,进行气象模拟、粒子仿真、核爆轨迹推演等场景吗?
TF32 能让那些习惯编写高精度 FP32 代码的开发者,不改代码,直接享受 Tensor Core 的模糊精度加速。
TF32 并非一种全新的存储格式,而是一种运算中间格式。
通过对 FP32 进行"截断"实现加速,本质是为了平衡计算精度与数值范围,设计的一种全新数学格式。
上篇提到,计算机内部任何数字都由 0 和 1(位/Bit)组成。一个浮点数通常由三部分构成: 1)符号位(Sign),数字是正还是负。 2)指数位(Exponent),决定数字的大小范围。 3)尾数位(Mantissa/Fraction),决定数字精度,即小数点后有多少位。
常见的如 FP32,用 32位记录一个数,极其精确但占用空间大;FP16 空间减半、速度翻倍,但精度和范围都随之缩小;FP4 则是极低精度,类似像素画,只能记录非常模糊的数值。
TF32 精妙之处在于,把 FP32 的范围和 FP16 的精度拼接在一起,形成一个 19位的格式:符号位 1 bit,指数位 8 bit(与 FP32 一致),尾数位 10 bit(与 FP16 一致)。
换句话说,TF32 是 FP32 与 FP16 之间的桥梁。是不是非常天才!!!!!!!
其工作流程如下:TF32 从显存中读取标准 FP32 数据,Tensor Core 在硬件电路中自动将尾数位从 23-bit 截断为 10-bit,转换为 TF32 格式,在此格式下执行高效乘法;所有中间乘积最终在 FP32 精度下完成累加;写回显存的数据依然是标准 FP32。
更关键的是,截断过程完全自动,意味着可以自动兜住数值的下溢出问题。
结构化稀疏(Structural Sparsity)
稀疏的本质,是把不重要的权重变成 0。就像识别一张猫的图片,大部分像素不起决定作用。
英伟达规定:在每 4 个连续权重中,必须有 2 个被设为 0。原本需要 64 bit 的数据,现在只需约 34 bit,模型在显存中几乎瘦身一半。
打个比方,如果显卡有 80GB 显存,原本只能装下 400亿参数(40B)的模型。开启结构化稀疏后,可能就能塞进一个接近 700亿(70B)甚至 800亿(80B)参数的模型。
而且性能还翻了倍。密集计算 156 TFLOPS(每秒 156 万亿次运算),稀疏计算 312 TFLOPS。
如果再叠加上文提到的 TF32 相较传统 FP32 带来的近 10倍提升,会发现 A100 在处理特定 AI 任务时,比几年前的旧显卡快了整整一个时代。
至于是否会担心连续 4 个权重都很重要、丢失关键信息?首先,模型尚未"定型"时,权重是可以流动调整的。
其次,神经网络具有极强的容错能力——虽然在某个小局部损失了信息,但其他层可以通过学习来弥补这一损失。
此外,稀疏并非随机删除,而是按权重大小裁剪。
MIG(Multi-Instance GPU)
MIG 用于芯片的空间管理,将单颗 GPU 在物理电路层面进行"硬分割"。没看错,是物理层面的切分。
在 A100 上,MIG 最多可将 GPU 切成 7 个独立实例(Instance),每一份都拥有自己专属的 Tensor Core 和显存路径。
切分方式灵活多样,比如切成 7 个小实例,或者 1 个大实例加 3 个小实例。硬件在出厂时就具备了这种"切割"能力,但具体怎么切、切成几份,完全可以在购入后通过软件命令实时控制。
在 A100 的硬件结构中,MIG 主要切割三类核心资源: 1)SM(流式多处理器)。计算核心,包含 CUDA Core 和 Tensor Core。 2)内存系统(Memory System),包括 HBM2 显存与 L2 缓存。 3)带宽(Pathways),芯片内部的数据传输通道(On-chip crossbar)。
每个实例拥有独立、固定的内存地址空间和计算路径。这意味着 A 实例在疯狂读写数据时,其产生的电磁信号和总线占用完全不会干扰到 B 实例。
这带来的好处显而易见:
- 其一,大幅提高利用率、节省成本。一张 A100 售价数万美元,如果只给一个博士生跑实验,未免太过奢侈。有了 MIG,一家公司可以让 7 位工程师在同一张卡上同时进行不同实验,效率提升 7倍。
- 其二,深受云租赁市场欢迎。云服务商可以按需灵活出租算力。
从更宏观的视角回望:
- Volta(2017):证明通用计算的 CUDA Core 不再是唯一主角,矩阵计算的 Tensor Core 才是 AI 时代的皇冠。
- Turing(2018):证明精度并非越高越好,低精度 INT8/INT4 才是推理时代的王道;同时证明 AI 可以反哺图形学。
- Ampere(2020):证明分裂是低效的,统一才是最终答案。训练与推理被整合进同一块硅片(A100);同时证明稀疏化与 TF32 比"蛮力的精准"更具生产力。
在进入 2022年的 H100 之前,不得不先介绍英伟达垄断地位的另一项关键创新——NVLink。
如果说 Tensor Core 是芯片的心脏,那 NVLink 就是连接数万颗心脏的大动脉。
NVLink:GPU 之间的点对点高速互连协议
NVLink 是 GPU 之间的点对点高速互连协议,在 GPU 之间搭建高速公路,让 GPU 直接对话,绕过 CPU。
NVLink 存在的唯一目的——干掉 PCIe 瓶颈。
什么是 PCIe 瓶颈?
PCIe(Peripheral Component Interconnect Express)是计算机主板上的通用总线,设计初衷是让 CPU 连接各类外设,如显卡、声卡、网卡、硬盘。
AI 场景下,瓶颈主要体现在:
1)带宽太低。目前最先进的 PCIe 5.0 x16 理论带宽约为 63 GB/s,听起来很快,但 H100 的显存带宽高达 3,350 GB/s。这意味着 GPU 内部算得极快,但数据进出的速度比内部运算慢了 50倍。
2)延迟太高。通过 PCIe 传输需要 CPU 介入。数据先从显卡 A 传给 CPU,再由 CPU 转发给显卡 B,由此产生巨大的延迟。
为何这个瓶颈?最主要原因是,PCIe 的设计初衷是通用。
说句题外话,通用与 AI 专用之间的权衡,贯穿英伟达崛起的始终,也是英伟达能弯道超车 Intel 的最核心原因。Intel 的长处在于 CPU——功能强大、通用性强,但也恰恰构成了 AI 计算的瓶颈。
而英伟达的崛起,正是因为敢于押注 AI 计算的专用性,并且赌对了。
从物理极限、协议损耗、拓扑矛盾三个更专业的维度,可以更好地理解通用性与专用性之间的权衡。 1)拓扑矛盾。在 PC 端或服务器架构中,所有 PCIe 通道最终都汇聚于 CPU。
CPU 像交通环岛,所有车辆必须绕岛一圈。即便 GPU 算力再强,只要 CPU 调度不过来,或者 CPU 连接的带宽被占满,数据交换就会卡顿。这就是所谓的 CPU 绑定瓶颈。
2)协议损耗。PCIe 传输数据包时,需要附加报文头、校验码等额外信息;传输完成后,还要向 CPU 发送"中断请求",让 CPU 处理后续逻辑。
3)物理层面的干扰。趋肤效应(Skin Effect)——频率越高,电信号越倾向于在导线表面流动,导致电阻增大、信号衰减。
NVLink 如何干掉 PCIe 瓶颈?
回到那句话:NVLink 存在的唯一目的——干掉 PCIe 瓶颈。如何做到?逐一来看。
1)拓扑结构重构
NVLink 让 GPU 之间直接点对点通信,彻底绕开 CPU 和系统内存。
2)协议极致简化
NVLink 采用类内存传输协议,协议开销极低,有效载荷比远高于 PCIe。
3)物理层面升级:多通道并行与高带宽
在 H100 芯片背面,英伟达密密麻麻地布满了 18 条 NVLink 链路,双向总带宽达到 900 GB/s。而 PCIe 5.0 x16 的带宽仅为 63 GB/s。NVLink 的速度是 PCIe 的 14倍以上。
4)多卡合一:内存池化与 NVSwitch
英伟达不仅做了线,还专门做了交换机芯片——NVSwitch。在服务器内部,所有 GPU 都连接在 NVSwitch 上。
NVLink 网络化:从点对点到全互联
更进一步,NVLink 能将多张 GPU 连接为统一整体,以装载更大的模型。要理解这一点,需要补充三个硬核维度。
1)NVSwitch——从高速路到立交桥
NVSwitch 并非集成在 GPU 芯片内部,而是独立的交换机芯片,安装在 GPU 基板上。如果说 NVLink 是高速公路,NVSwitch 就是立交桥。
A100 之前,GPU 之间主要是点对点连接。H100 之后,有了 NVSwitch,GPU 从点对点通信迈入了网络化时代,可以将多张卡连成更大的整体,装载更大的模型。
想象一下点对点通信的局限:如果有 8张卡,卡 A 与卡 B 有 NVLink 物理连线,但卡 A 想与卡 D 通信,就需要经过 B 和 C 中转,占用它们的带宽。
以 H100 为例,GPU 底部有 18 条第四代 NVLink 链路,这些链路插在主板的 NVLink 背板上。在 8张卡之间,分布着 4 到 6颗专用的 NVSwitch 芯片。每张 GPU 的所有 NVLink 路径都直连到这些交换机上,而非直接连到另一张卡。
这种拓扑结构确保了任意两张卡之间的通信,无需经过 CPU 或主板上的 PCIe 总线。
更专业地说,NVSwitch 的核心技术指标是无阻塞全双工带宽(Non-blocking Switch),保证任何一张 GPU 都能同时以最高速率与另一张 GPU 通信。
2)网络计算(SHARP)——让交换机一边搬数据一边算数
网络计算是英伟达又一项黑科技,改变了计算机通信的基本逻辑:网络交换机不再只是搬运数据,而是在传输过程中直接把数学题算了。
在 AI 大模型训练中,有一个动作会重复千万次:梯度聚合(All-Reduce)。
简单来说,梯度聚合就是让参与训练的所有 GPU 交换彼此的计算结果,最终让每张卡都拥有完全相同的、经过汇总后的最新数据。
梯度聚合有点类似区块链的分布式计算,顾名思义,主要包含"梯度"和"聚合"两个步骤。
训练大模型时会涉及并行计算。每张显卡拿到一部分数据,算出自己那份数据的误差方向,即梯度。
由于每张卡看到的数据不同,算出的梯度也不同。如果各自直接更新,几张卡上的模型就会南辕北辙。
因此在更新权重之前,所有卡必须把各自的梯度加起来求平均值。所有卡拿到这个全局平均梯度后同步更新,保证 8张卡里的模型永远一模一样。
关于梯度聚合的具体计算方式。
A100 采用环形聚合(Ring All-Reduce),是当时最节省带宽的算法,将数据切成 N 片,像接力赛一样传球。
SHARP 则采用树形聚合(Tree All-Reduce),是英伟达目前力推的方案,数据像树根一样层层汇聚。GPU 将数据发给第一层 NVSwitch,SHARP 技术在交换机芯片接收多个 GPU 数据流时直接完成加法运算,再把结果发回各 GPU 芯片。
为什么梯度聚合(All-Reduce)是 AI 的生命线?
评价一个 GPU 集群优劣的标准,不是看单卡多快,而是看当卡数增加到 1000张时,梯度聚合耗时是否还能控制在毫秒级。
如果显卡算力很强(如 H100),但网络很弱,就会发现 GPU 有 70% 的时间在跑梯度聚合。也就是在等数据,只有 30% 的时间在真正计算 AI。这就是所谓的通信受限。
NVLink、NVSwitch、SHARP 这一系列技术的存在,本质上都是为梯度聚合提供最快的通道。
接下来,2022年,英伟达核弹级产品 H100 将登上舞台。
2022年 Hopper(H100)——Transformer 引擎,现代大模型的基石
2022年,H100 问世,堪称核弹。
H100 直接将特定的软件算法 Transformer 刻进芯片,专为处理万亿级参数的大语言模型 LLM 而生。
2022年 H100,堪称核弹。
Transformer 架构源于 Google 在 2017年发表的论文《Attention Is All You Need》,是现代大语言模型的基础。而 Transformer 引擎是 H100 内部的一个物理模块。不是软件,是硬连线的电路。
与此同时,H100 利用 FP8 精度实现了比 A100 快 9倍的训练性能,配合 NVLink Switch,能让 256张显卡化身为一个巨型超级大脑。没有 H100,就没有 ChatGPT 及万亿参数大模型时代的爆发。

研究 H100,可以从四个方面入手:
1)Tensor Core 引入 Transformer 引擎与 FP8;
2)第四代 NVLink 与 NVSwitch 实现 900 GB/s 带宽;
3)引入新 CUDA 特性——DPX 指令集加速动态规划;
4)全球首款支持隐私计算的 GPU。
Tensor Core 引入 Transformer 引擎与 FP8
在 H100 中,FP8 像冲锋陷阵的执行者。推理和训练的大部分矩阵乘法都可以跑在 FP8 上。
FP16 像老谋持重的文官,保留副本,不至于因精度太低而丢掉更新量,起到承上启下的作用,兼顾速度与稳定。
FP32 垂帘听政,专用于存储与权重更新,因为低精度累加时细微梯度会被"四舍五入"抹除,导致误差积累而停止学习。

FP8 使得在有限显存下训练万亿参数模型成为可能,吞吐量随之翻倍。

DPX 指令集:顺手比大小
DPX 本质是英伟达在芯片里焊死了一个"算完加法顺手比大小"的快捷键。
想象在一个棋盘格上,从左上角走到右下角,每走一步都有代价,你想找代价最小的路线。于是你看看从上面来要花多少、从左边来要花多少、从斜上方来要花多少,挑最便宜的那个。
注意这个动作的结构:先加,再比谁小。
整个棋盘有几百万甚至几十亿个格子,每个格子都要执行一遍这个动作。这就是动态规划的日常。
H100 的 DPX 把这两步焊成了一步。之所以用"焊"这个字,是因为这确实是芯片上的硬件结构。
DPX 不需要像 Tensor Core 那样增加大型专用单元,只是在现有整数计算通路上添加了一个"顺手比大小"的功能——芯片面积开销很小,但收益巨大。
比如基因测序,一次要比对几十亿个碱基对,每个碱基对都要执行这个操作。省一条指令乘以几十亿次,节省的时间极为可观。
此外,H100 是全球第一款支持硬件级 TEE 的 GPU,由此开启了隐私计算的新篇章。
TMA(Tensor Memory Accelerator):异步数据搬运引擎
TMA 是 H100 在 SM 微架构层面最重大的变化之一,直接决定了 Tensor Core 和 Transformer Engine 能否跑满。
简单来说,TMA 就是英伟达在芯片里安了一个专职搬运工,让干活的线程不用再自己跑去仓库搬数据。
GPU 的内存结构分为两层:
1)全局内存(Global Memory/HBM)容量大(80GB),但离计算单元远、访问慢,像一个巨大的远郊仓库;
2)共享内存(Shared Memory/SMEM)容量小(每个 SM 最多 228KB),但离计算单元近、访问快,像工位旁的小柜子。
所有计算都必须先把数据从远郊仓库搬到工位小柜子里,算完再搬回去。搬数据本身不产生任何有用的计算结果,但搬不完就没法算。
TMA 就是一个专职搬运模块,让分工更加精细。它理解张量的形状,而且关键在于,可异步执行。
TMA 还有一招杀手锏:Multicast。
H100 引入了 Thread Block Cluster(多个 SM 组成一个集群),TMA 不仅能把数据搬到发起请求的那个 SM 的共享内存,还能将同一份数据同时抄送给集群中的多个 SM。
总结一下,
GPU 的核心矛盾是"算得快但搬得慢"。A100 时代,干活的人还得自己去搬货,大家一起停下来搬完再开工。
H100 的 TMA 则是一个专职快递员。写个地址贴上去,快递员自行搞定,其他人继续干自己的活。而且这个快递员还懂张量的形状,不管数据是几维的,给个坐标它自己就能找到。
如果说 DPX 是"让计算更快",一条指令干两条的活,那 TMA 就是"让搬运不再拖后腿",搬运和计算并行,互不耽误。两者协同,才让 H100 真正跑满了算力。
从显卡供应商到 AI 基础设施的绝对统治者
2023年,英伟达彻底蜕变。从显卡供应商跃升为全球人工智能基础设施的绝对统治者,市值首次突破 1万亿美元。
财报连续三个季度大幅超出华尔街预期。数据中心业务收入取代游戏业务,成为公司的绝对核心支柱。
从微软、Meta、Google 等硅谷巨头,到沙特、阿联酋等主权国家,全球都在疯狂囤积 H100 芯片。由于台积电 CoWoS 封装产能受限,H100 变得一卡难求,单卡价格在二手市场一度炒到 4万美元以上。
几乎所有主流大模型,如 GPT-4、Llama 等,都在 CUDA 架构上开发。即便 AMD 的硬件参数更优,开发者也很难迁移,因为所有底层优化和算子库都握在英伟达手里。
与此同时,英伟达开始通过软件授权变现。硬件是一次性买卖,但软件订阅带来的是源源不断的现金流。
GTC 2023 上,黄仁勋喊出了那句著名的口号:"AI 的 iPhone 时刻已经到来。"
2024 Blackwell(B200)——微张量缩放
3月 GTC 大会,英伟达发布 Blackwell(B200/GB200),通过 NVLink-C2C 将两块芯片连为一体,即"双芯一体"结构,晶体管数量暴增至 2080亿颗。
而在软件端,B200 依然呈现为一个统一整体。
我们可以从 Tensor Core、CUDA、NVLink 三个维度分析 B200。
第五代 Tensor Core:支持 FP4
B200 的 Tensor Core 核心突破在于支持 FP4。
从 2017年第一代 Tensor Core 支持 FP16,到 2022年 H100 支持 FP8,再到如今 B200 的第五代 Tensor Core 支持 FP4。精度一路下探,算力一路飙升。
B200 的 FP4 并非简单的精度截断,而是引入了微张量缩放(Micro-tensor Scaling)。
一句话,微张量缩放是一种数据压缩与量化技术,让每个数字变小,但不丢弃数字。
本质是动态范围管理算法与硬件级缩放的协同,允许数十个元素组成的群组拥有独立的缩放因子。
硬件层面,微张量缩放依靠 Blackwell 的第二代 Transformer Engine 与第五代 Tensor Core 的物理电路协同完成。
第二代 Transformer Engine 充当硬件调度中枢,负责动态范围管理算法,实时追踪不同网络层和不同张量 Tensor 数值分布范围,计算出最优公共放大/缩小比例。
第五代 Tensor Core 则在物理层面直接增加了对 FP4 的原生硬件支持,即硬件级缩放,负责执行。算术逻辑单元(ALU)能在接收 FP4 数据和缩放因子的同时,直接在硬件层级执行矩阵乘法运算。
FP4 数据在计算时能瞬间对齐,恢复出高精度的动态范围,从而在不丢失关键特征的前提下实现算力翻倍,专为超大规模模型设计。
此外,硬件解压缩引擎(Decompression Engine)的引入,变相提升了 PCIe 和 NVLink 的有效带宽利用率。
CUDA 13.0
重点在于如何让开发者无感地操控 B200 这种复杂的"双芯一体"结构。
尽管 B200 物理上由两颗芯片组成,但 CUDA 通过 NV-HBI(High-Bandwidth Interface)让开发者看到的依然是一个拥有 192GB 显存的统一实体,无需手动处理跨芯片的数据同步。
NVLink 5.0 与 NVL72
第五代 NVLink 协议将单个 GPU 的双向带宽提升至 1.8 TB/s,是 H100 的两倍。两颗芯片之间的带宽更是高达 10 TB/s,让软件层完全感知不到这是两块芯片。
在此基础上,英伟达还推出了 GB200 NVL72 机柜,集成 36颗 Grace CPU 和 72颗 Blackwell GPU,形成了一个拥有 1.4 EB/s 聚合带宽的巨型资源池。
GB200 NVL72 不得不采用液冷设计,因为风扇已经不管用了。机柜背面使用了 5000 根铜线而非光纤,大幅降低功耗的同时,消除了光电转换带来的纳秒级延迟。
至此,英伟达开始以"机柜"为最小销售单元。
SHARP 也进化至 v4 版本,网络计算能力再次翻倍。
NIM (NVIDIA Inference Microservices) :软件闭环
过去,企业想把一个开源大模型部署到自己的服务器上,是一件极其痛苦的手工活。
工程师需要配置底层环境、安装 CUDA、编译 PyTorch、手写加速脚本,最后还要自行封装接口,整个过程往往耗费数周。
NIM 是一个预装好的软件容器,内部已调优好模型。企业只要买了英伟达的卡,直接一键即可运行,不再需要昂贵的算法团队去逐项调优。
企业可以将 NIM 部署在自己的内网中。借助 AWS 等云服务上的 NIM,企业能在享受最新模型的同时,保持对专有数据和应用程序的绝对安全控制——数据永远不会泄露给第三方模型提供商。
2024年 6月,英伟达市值一度超越微软和苹果,成为全球市值最高的公司。
但同年,市场开始出现分歧。一方面,英伟达财报依然炸裂,利润率高得惊人。
另一方面,硅谷开始担忧 AI 的投资回报率。微软、Google 砸了数千亿美元买 GPU,但增值服务收入未能覆盖成本,导致英伟达股价在 8至 9月经历剧烈波动,尽管业绩依然保持着百分之几百的增长。
2025年,英伟达市值一度冲破 5万亿美元大关,坐稳全球市值第一。
尽管年初受到 DeepSeek R1 号称减少了对顶级芯片依赖的短期冲击,市值单日大幅蒸发,但市场随后意识到 AI 训练对高性能算力的需求并未改变,英伟达股价反而更具刚性。
2025财年营收达 1305亿美元,同比增长 114%,数据中心业务占比接近 80%。英伟达财报发布会已取代传统经济指标,成为美股风向标。
英伟达还参与了微软与 OpenAI 耗资 5000亿美元的 Stargate 星际之门超算项目。
2025年,英伟达实际上有多个重要的战略方向转变:
1)业务层面:面向主权国家出口芯片,构建主权 AI;
2)技术路线:从生成式 AI 转向 Agentic AI Swarm;
3)应用前沿:深耕机器人与数字孪生。
2025年,英伟达还发布了两个少有人关注但极具分量的重磅计划:GR00T 与 Cosmos。
GR00T 是首个开源人形机器人通用基础模型,Cosmos 是物理模拟平台,与 Google、迪士尼等合作。
两者结合,可让机器人在数字孪生世界中完成训练,在计算机虚拟环境里模拟重力、摩擦力、流体力学,甚至材质的弹性与光影。
借助 GPU 强大的算力,虚拟世界可以倍速运行。现实中的一天,在虚拟世界里可以跑完相当于几十年甚至上百年的物理模拟过程。机器人的 AI 大脑在极短的现实时间里,经历了亿万次的摔倒与爬起。
相当于"人间一天,数字世界十年"。
人形机器人原型 Isaac GR00T N1 的量产,标志着英伟达正式成为全球机器人的"脑干供应商"。
Jetson Thor 则是专为机器人设计的车载级计算平台,已开始大规模量产,目标是成为所有会动的"智能体"的脑干。
年底,英伟达正式预告下一代 Rubin 架构。
2026 Rubin(R100)—— Agentic AI Swarms 超大规模推理
年初,英伟达交付 Rubin R100,重新设计了 CPU、GPU、NVSwitch、NIC、DPU、SuperNIC 六款关键芯片。英伟达将这一理念称为极限协同设计(Extreme Co-design)。
第四代高带宽内存 HBM4 与 12-Hi 堆叠
这里涉及三个概念:内存墙、堆叠、HBM。而这三个词汇恰好构成了"发现问题——提出思路——解决问题"的完整链路:内存墙是问题,堆叠是思路,HBM 是解法。
什么是内存墙?
一句话,RAM/显存的数据传输速度跟不上 GPU/CPU 的计算速度。
比如 GPU 一秒钟能做 100万次乘法,但内存一秒钟只能送来 10万个数字,GPU 剩下 90% 的时间都在闲置。
像 ChatGPT 这样的模型,参数动辄几千亿,每次回答问题都要把这几千亿个数字从内存里搬出来算一遍。存在内存墙问题,GPU 算力再强也是一堆废铁。
堆叠:从物理层面打破内存墙
打破内存墙,最简单粗暴的方式是,把内存和 GPU 挨得越近越好,并且多放几块内存。
但 GPU 周围的主板面积有限。于是工程师利用 TSV(硅通孔)在内存芯片上打出数以万计的微小孔洞,填入铜导线,然后将 4层、8层、12层甚至未来的 16层内存芯片像叠汉堡一样垂直堆叠在一起。这就是堆叠。
HBM(高带宽内存):堆叠里的高速公路
HBM 是利用堆叠技术造出来的数据高速路,主要依靠 TSV(Through Silicon Via,硅通孔)和硅中介层(解决外部水平连接)实现。
HBM4(High Bandwidth Memory 4)是目前全球最先进的第四代高带宽内存技术。而 12-Hi 堆叠指的是利用先进封装技术,将 12层内存芯片像盖楼一样垂直叠放为一颗芯片。
单颗 Rubin 芯片原生集成 288GB 的 HBM4 显存,聚合带宽达到了恐怖的 22 TB/s。在处理主流 10万亿参数超大模型时,Rubin 能在不增加 GPU 数量的前提下,将训练效率提升 3.5倍,推理成本降低 10倍。
Vera CPU——原生支持 FP8
先回顾一下 CPU 与 GPU 的本质差异。
CPU 将大量晶体管用于复杂的控制单元(Control Unit)和缓存(Cache),而非计算单元(ALU)。
这种设计对逻辑复杂的操作系统非常有效,但面对 AI 这种"呆板"的大规模数学运算,复杂的控制单元就是纯粹的浪费,能效比极低。
GPU 采用 SIMD(单指令多数据流)或更进一步的 SIMT(单指令多线程)架构。一个控制单元指挥一大群计算单元。
就像广播体操,教官(CU)喊一句"抬手",几千个学生(ALU)同时做动作,极大节省用于"指挥"的晶体管面积,将其全部转化为"干活"的算力。
这就是 GPU 在 AI 任务上能效比远超 CPU 的根本原因。
但 GPU 没有能力运行操作系统,无法直接读取硬盘文件,也不能处理外部网络请求,必须受雇于 CPU,由 CPU 派活、准备数据。
Vera CPU 并非处理 Windows 数据的通用处理器,而是英伟达专为 Agentic AI 定制的数据管家,以极低延迟和极高带宽,稳定地给旁边的 Rubin GPU 喂数据。
其本质是一个为最大化 GPU 算力吞吐而生的特化型处理器。舍弃传统通用计算中的冗余功能,用极致的内存带宽、极低的单线程功耗和原生的低精度数据支持,换取在单一 AI 计算场景下的绝对数据调度效率。
2022年之前,英伟达只造 GPU。所有 AI 服务器都是买 Intel 或 AMD 的 x86 CPU 作为主板核心,再把英伟达的 GPU 像插 U 盘一样插上去。于是就有了前文提到的 PCIe 瓶颈。
到了 Hopper(H100)时代,英伟达自研 ARM 架构的 Grace CPU,并推出 GH200(Grace Hopper Superchip),第一次将自家 CPU 和 H100 GPU 封装在同一块超级主板上。
而到了 Vera,CPU 与 GPU 之间的数据壁垒被彻底打通。
此前,GPU 内部已经在用极低精度(如 FP8)计算,但 CPU 传统上只擅长处理高精度 FP32/FP16 数据。数据在两者之间传递时需要频繁进行格式转换,白白浪费大量带宽和时间。
Vera 是业界首款在硬件底层原生支持 FP8 的 CPU,可在数据喂给 Rubin GPU 之前,直接在 CPU 层面完成 FP8 的预处理和对齐,彻底消除数据格式转换的延迟开销。
NVLink 6 与硅光子 (CPO)
在物理层面上,英伟达已经触及多个工程与材料学的极限。接下来要说的从铜线到硅光子 CPO 的设计,正是这一极限的缩影。
硅光子与 CPO 技术,是用极其高昂的制造成本与灾难级的维护难度,换取打破物理极限的海量带宽与极低功耗。铜线则以低廉的成本和极高的物理可靠性,在单机柜内做最后的坚守。
但 R100 已经触及了铜线的极限。
上一代 Blackwell 架构的机柜中,为实现 72颗算力芯片的全铜线互连,机柜背板已塞满五千多根极其沉重的粗壮铜缆。而 2026年发布的 NVLink 6 将单卡互连带宽再次翻倍至 3.6 TB/s。
如果继续沿用纯铜方案,机柜内的铜缆数量将直接破万。不仅在物理空间上根本塞不下,极其密集的线缆还会彻底堵死整个机柜的散热风道。
更致命的是,在极高频信号传输下,铜线的电阻会导致严重的信号衰减。为了把电信号"硬推"过去,系统必须消耗巨大的电力。在单机柜功耗已极度夸张的 Rubin 时代,这种因信号衰减带来的无谓能耗完全不可接受。
因此,英伟达从铜线转向硅光子 CPO,与其说是主动选择,不如说是一种不得不做的权衡与取舍。
NIM 2.0 与推理存储
R100 的核心关键词是"Agentic AI"。前文介绍的是硬件层面对 Agentic AI 的支撑,而 NIM 则是硬件与软件的协同。
NIM 2.0 是专为多智能体(Multi-Agent)协同计算设计的标准化软件容器与调度总线,作用是实现不同 AI 模型间的极速数据交互与算力分配。
在软件层面将不同的 AI 模型封装好,以极低延迟互相调用,并全自动地将复杂任务拆解、分发。
推理存储(Inference Storage) 则是针对大模型超长上下文(KV Cache)专门构建的物理多级内存架构,作用是彻底打破单卡显存容量的物理上限。
模型推理时的上下文数据不再频繁往返于主存,而是在网络交换阶段就被动态缓存。
二者软硬结合,解决了 Agentic AI 在处理百万字级别复杂任务时的延迟与内存溢出瓶颈。
传统推理服务框架主要针对单一模型(如让单个 LLM 不断生成文本)进行串行优化,而在 Agentic AI 工作流中,往往需要多个模型高频并发协作。NIM 2.0 正是为此重构的软件基础设施。
另外,代表未来方向的 GR00T 与 Cosmos 进化至 2.0 版本。英伟达与宝马、特斯拉等工厂深度绑定,2026年已有数十万台由 GR00T 2.0 驱动的协作机器人通过英伟达 Isaac 平台实现云端联动。
至此,英伟达的发展脉络已全部梳理完毕。
后记
研究英伟达的过程中,我深深为其两个方面折服:
1)黄仁勋的判断力
2012年 ImageNet 大赛,Alex Krizhevsky 凭借两块普通的英伟达 GTX 580 游戏显卡,将图像识别错误率从 26% 降至 15.3%,以领先第二名 10.8% 的惊人优势震惊世界。
2013年,黄仁勋将重心全面转向 CPU。
要知道,这距离 Google 发表论文 《Attention is All You Need》,提出了 Transformer 架构,奠定现代 LLM 大模型基础还有 4年时间。彼时芯片领域竞争还在更通用的 CPU 领域。
此后,黄仁勋几乎判断对了每一个关键节点的选择。
2006年,没人知道 CUDA 有什么用,他每年烧掉 5亿美元坚持投入。
2017年,科学计算界还在追求 FP64 的绝对精确,他敢在最贵的芯片上划出大片面积给当时只有少数人在用的矩阵运算做专用电路。
2018年,移动互联网浪潮正盛,他果断放弃手机芯片,把全部资源押注数据中心。
2022年,他亲手把第一台 DGX-1 送进了还名不见经传的 OpenAI 办公室。
每一次决策,在当时看来都近乎疯狂。
这种判断力并非来自先知式的预言,而是来自对技术底层逻辑的深刻理解。黄仁勋始终在问一个问题:计算的未来是什么?他的答案也始终如一:并行计算终将取代串行计算,专用效率终将战胜通用性能。
这个信念贯穿了英伟达从 CUDA 到 Tensor Core,从 NVLink 到 Rubin 的整条发展脉络。
2)英伟达的工程能力
英伟达的芯片迭代多次触及物理极限,为此做出的创新、权衡与取舍,不仅涉及通信、材料、光学领域,更延伸至量子物理学的边界。
混合精度是一种权衡,用模糊换速度。
结构化稀疏是一种权衡,用裁剪换容量。
从铜线到硅光子是一种权衡,用制造难度换传输极限。
每一代架构的进步,都不是简单地把数字做大,而是在精度与效率、通用与专用、成本与性能之间反复寻找最优解。
这背后是一支极其庞大且深入底层的工程团队。
cuDNN 里的卷积算法经过了十余年手工汇编级优化;TensorRT 的算子融合精确到每一条 kernel 的调度策略;TMA 的异步搬运机制让计算与数据传输真正实现了并行。这些看不见的底层功夫,才是 CUDA 生态护城河最深处的基石。
更难得的是,英伟达在硬件和软件之间搭建了一座极其坚固的桥梁。
从 CUDA 到 cuDNN,从 TensorRT 到 NIM,从芯片到机柜再到整个数据中心,每一层都严丝合缝地咬合在一起。竞争对手即便在某一层追上来,也很难在整个栈上同时追平。
这不是一家只会造芯片的公司,而是一家从晶体管到软件容器、从单卡到万卡集群、从算法到物理定律都在同时推进边界的系统级公司。
回望英伟达的崛起之路,最让我感慨的是一个朴素的道理:真正的护城河,从来不是某一项单点技术,而是无数个正确决策在时间轴上的复利。
CUDA 用了十年才等来深度学习的爆发。Tensor Core 用了五年才等来 Transformer 的统治。NVLink 用了三代才从点对点连接进化为全互联网络。每一项技术在诞生之初都显得超前甚至多余,但当历史的浪潮真正涌来时,它们恰好就在那里。
这大概就是黄仁勋常说的那句话最好的注脚——
"我们公司距离倒闭永远只有 30 天。"
正是这种危机感,驱动英伟达在每一个别人觉得"还早"的时刻,提前十年布局。而当风口真正到来时,所有人才发现:跑道上只剩英伟达一个人。
最后,说几句感想。
除了英伟达,研究过程中更让我心生敬畏、甚至心潮澎湃的是人类所展现出的智慧。
单颗 B200 芯片上集成了 2080亿个晶体管。2080亿是什么概念?银河系中肉眼可见的恒星大约 6000亿颗,一颗指甲盖大小的芯片上,晶体管数量已经是同一个数量级。
而这 2080亿个晶体管,不是一颗一颗焊上去的,是光刻出来的,用波长仅 13.5 纳米的极紫外光,穿过极其精密的掩模版,将电路图案投射到硅片上,一层一层地"印刷"而成。每一层的对准精度要求在亚纳米级别,相当于从地球上用激光瞄准月球表面的一枚硬币。
当晶体管的栅极长度缩小到 3 纳米甚至更小时,电子的行为不再完全遵循经典物理学,量子隧穿效应开始显现,电子会像幽灵一样穿过本应是绝缘体的薄壁。换句话说,芯片工程已经触及了量子力学中测不准原理的边界。
这也正是 B200 不得不采用"双芯一体"拼接方式的根本原因:单块硅片已经逼近了当前光刻技术与物理定律的极限,继续做大只会让良品率崩塌。
于是工程师换了一种思路。既然一块做不到,就把两块完美拼在一起,再用 NVLink-C2C 以 10 TB/s 的带宽缝合为一个整体,让软件层完全感知不到接缝的存在。
从量子物理到材料科学,从光学工程到封装技术,一颗芯片的诞生汇聚了人类几乎所有前沿学科的智慧结晶。
想起茨威格一本著作《人类群星闪耀时》。我们用沙子造出了思考的机器,又用这台机器去探索宇宙、模拟物理、甚至试图理解意识本身。
这或许是比任何一家公司的崛起都更值得书写的故事。
