消息人士称,英伟达计划于 7 月推出第三代 “阉割芯片”。此次推出的 B20 和 B40/B30 芯片将替代 H20 芯片,试图重新夺回市场份额。

B20 芯片基于 GB202 GPU,采用 GDDR7 内存,最大带宽可达 800Gbps,适合小规模集群推理和小模型后训练;B40/B30 芯片则保留了与 H20 相同的 NVLink 互联功能,最大带宽可达 900GB/s,但性能有所下滑。单卡售价预计在 6500 至 8000 美元之间,服务器价格预计在 8 万至 10 万美元之间。

英伟达此次产品的变动源自美国出口管制的升级。2024 年,美国将 HBM 内存(带宽密度≥2GB/s・mm²)列为特殊管控对象,英伟达被迫采用 GDDR7 规避限制。此外,芯片的双精度浮点计算(FP64)单元、张量核等关键模块可能通过后道点断工艺屏蔽,导致计算能力进一步受限。北京时间 4 月 16 日凌晨,英伟达向美国证券交易委员会(SEC)提交 8-k 文件,称已接到美国政府通知(原文 “特朗普政府” 表述有误,2024 年特朗普未执政 ),H20 芯片及达到 H20 内存带宽、互连带宽等的芯片向中国等国家和地区出口需要获得许可证。

这一调整直接导致芯片支持的模型并发数减少,难以支撑大规模训练任务。例如,B20 使用英伟达的 ConnectX-8 实现互连功能,通过以太网实现连接,最大互连带宽为 800Gbps。每块 B20 芯片通过 NVlink 总线连接到 ConnectX-8 芯片,形成一个相当于 PCIe 卡的离散模块,支持 PCIe 卡格式的互连。而这种连接性能仅适合 8 – 16 卡小规模集群的推理和小模型后训练,不过对于一些偏重网络传输,且推理任务繁重但体量小的客户而言,B20 还是有一定性价比的。

尽管芯片性能受限,英伟达仍凭借 CUDA 生态垄断(统一编程模型、丰富代码库)维持市场地位。此前,英伟达 H20 芯片就在 2024 年被中国互联网公司大批量采购。类似逻辑下,B40/B30 因保留 NVLink 互联能力,可能被科技巨头用于构建高密度集群(如 NVL72 机柜),满足模型微调、推理等场景需求。

不过,美国的政策正在引发反向替代效应。在国内,已经有不少芯片能够用于替代英伟达的芯片。比如,昇腾 910B 的 FP16 算力达 376TFLOPS,超越英伟达 A100 的 312TFLOPS;显存带宽 1600GB/s,支持全自研 HCCS 高速互联。根据此前的报道,在全球 AI 算力竞赛进入关键阶段的背景下,硅基风暴(Siliconstorm)与华为昇腾云正式达成深度技术合作。本次合作基于昇腾 910B 芯片的算力底座,在大型模型推理加速领域取得突破性进展 —— 联合研发的 DeepSeek-R1 架构实现推理效率提升 10 倍,推理成本较传统方案降低 97%。这是国产算力体系首次在 AI 推理性能与性价比双重指标上超越国际主流方案。

因此,美国的技术封锁如同「鲇鱼效应」,迫使中国半导体产业跳出「跟随式创新」的路径依赖,在技术路线、产业链布局、生态规则三大维度实现范式变革。短期内,国产芯片将在中低端推理、边缘计算等场景全面替代英伟达阉割版产品,并通过算法优化(如模型压缩、稀疏计算)部分弥补高端训练场景的性能差距。中长期来看,随着存算一体、光子芯片、量子计算等颠覆性技术突破,以及 RISC-V、开源框架等自主生态成熟,中国有望在特定领域建立全球标准,推动半导体产业从「单极垄断」向「多元竞合」转型。

文章来自:电子发烧友

Loading

作者 yinhua

发表回复