英伟达预计向中国客户交付 “第三代” 阉割芯片

消息人士称，英伟达计划于 7 月推出第三代 “阉割芯片”。此次推出的 B20 和 B40/B30 芯片将替代 H20 芯片，试图重新夺回市场份额。

B20 芯片基于 GB202 GPU，采用 GDDR7 内存，最大带宽可达 800Gbps，适合小规模集群推理和小模型后训练；B40/B30 芯片则保留了与 H20 相同的 NVLink 互联功能，最大带宽可达 900GB/s，但性能有所下滑。单卡售价预计在 6500 至 8000 美元之间，服务器价格预计在 8 万至 10 万美元之间。

英伟达此次产品的变动源自美国出口管制的升级。2024 年，美国将 HBM 内存（带宽密度≥2GB/s・mm²）列为特殊管控对象，英伟达被迫采用 GDDR7 规避限制。此外，芯片的双精度浮点计算（FP64）单元、张量核等关键模块可能通过后道点断工艺屏蔽，导致计算能力进一步受限。北京时间 4 月 16 日凌晨，英伟达向美国证券交易委员会（SEC）提交 8-k 文件，称已接到美国政府通知（原文 “特朗普政府” 表述有误，2024 年特朗普未执政），H20 芯片及达到 H20 内存带宽、互连带宽等的芯片向中国等国家和地区出口需要获得许可证。

这一调整直接导致芯片支持的模型并发数减少，难以支撑大规模训练任务。例如，B20 使用英伟达的 ConnectX-8 实现互连功能，通过以太网实现连接，最大互连带宽为 800Gbps。每块 B20 芯片通过 NVlink 总线连接到 ConnectX-8 芯片，形成一个相当于 PCIe 卡的离散模块，支持 PCIe 卡格式的互连。而这种连接性能仅适合 8 – 16 卡小规模集群的推理和小模型后训练，不过对于一些偏重网络传输，且推理任务繁重但体量小的客户而言，B20 还是有一定性价比的。

尽管芯片性能受限，英伟达仍凭借 CUDA 生态垄断（统一编程模型、丰富代码库）维持市场地位。此前，英伟达 H20 芯片就在 2024 年被中国互联网公司大批量采购。类似逻辑下，B40/B30 因保留 NVLink 互联能力，可能被科技巨头用于构建高密度集群（如 NVL72 机柜），满足模型微调、推理等场景需求。

不过，美国的政策正在引发反向替代效应。在国内，已经有不少芯片能够用于替代英伟达的芯片。比如，昇腾 910B 的 FP16 算力达 376TFLOPS，超越英伟达 A100 的 312TFLOPS；显存带宽 1600GB/s，支持全自研 HCCS 高速互联。根据此前的报道，在全球 AI 算力竞赛进入关键阶段的背景下，硅基风暴（Siliconstorm）与华为昇腾云正式达成深度技术合作。本次合作基于昇腾 910B 芯片的算力底座，在大型模型推理加速领域取得突破性进展 —— 联合研发的 DeepSeek-R1 架构实现推理效率提升 10 倍，推理成本较传统方案降低 97%。这是国产算力体系首次在 AI 推理性能与性价比双重指标上超越国际主流方案。

因此，美国的技术封锁如同「鲇鱼效应」，迫使中国半导体产业跳出「跟随式创新」的路径依赖，在技术路线、产业链布局、生态规则三大维度实现范式变革。短期内，国产芯片将在中低端推理、边缘计算等场景全面替代英伟达阉割版产品，并通过算法优化（如模型压缩、稀疏计算）部分弥补高端训练场景的性能差距。中长期来看，随着存算一体、光子芯片、量子计算等颠覆性技术突破，以及 RISC-V、开源框架等自主生态成熟，中国有望在特定领域建立全球标准，推动半导体产业从「单极垄断」向「多元竞合」转型。

文章来自：电子发烧友

世界半导体论坛

英伟达预计向中国客户交付 “第三代” 阉割芯片

作者yinhua

作者 yinhua

相关文章

Arm 出席 OPPO 开发者大会，解读端侧 AI 技术与应用新趋势

安世中国：工厂材料告急，员工“上四休三”

迈来芯推磁位置传感器新品：双通道同步计算+多接口兼容

发表回复取消回复

You missed