亚马逊启动“登月”计划，目标部署10万颗自研AI芯片

日前，彭博社发文称，为减少对英伟达芯片的依赖，亚马逊已经秘密启动了“登月”（moonshot）的计划，目前正在其位于得克萨斯州奥斯汀的工程实验室加紧研发一款新的AI芯片：Trainium2，目标是在亚马逊自己的数据中心里部署10万颗Trainium2，以提高数据处理效率并降低AI芯片采购成本。

近几年，亚马逊一直都在致力于自研芯片以降低数据中心成本，根据云成本管理和优化平台Vantage此前的一项调查数据，在Amazon EC2 M7系列通用实例的成本支出方面，采用Amazon Graviton的M7g系列已经超过三分之一（34.5%）。

亚马逊自研芯片第一次亮相始于2016年，在当年的re:Invent大会上，亚马逊云传奇工程师James Hamilton展示了该公司第一颗自研芯片，这便是第一代Graviton芯片。和英特尔、AMD的芯片不同，第一代Graviton芯片便是基于Arm架构的Neoverse内核打造，可以支持2x25G以太网的数据包处理。随后，亚马逊在2019年推出了Graviton2、2021年推出了Graviton3、2023年推出了Graviton4。

作为最新版本的Graviton芯片，Graviton4采用了最先进的Arm架构 Neoverse V2 核心，具有更高的计算核心数量和更快的内存带宽。7月15日，亚马逊发布了基于自研芯片Graviton4的Amazon EC2 R8g实例。根据phoronix测试的结果，和上一代芯片Graviton3相比，Graviton4性能提升达30%以上，内核数增加50%，内存带宽增加75%。

同时，根据测试结果，Graviton4处理器的性能略优于英特尔至强处理器约5%，但AMD的EPYC处理器在整体性能上仍领先约25%。有评测报告认为，Graviton4搭载的Neoverse-V2内核与英特尔Sapphire Rapids内核在性能上旗鼓相当，在某些工作负载下甚至优于AMD第四代EPYC。

Graviton4处理器发布于2023年11月28日，与其同时发布的还有升级款处理器Trainium2。AWS首席执行官Adam Selipsky在re:Invent主题演讲中透露，亚马逊已经购买了数百万个英伟达的A100和H100产品，在此方面投入了巨大的成本。而业界人士预测，Trainium2是一颗有望正面和英伟达H100芯片竞争的AI芯片。

Trainium2是多年磨一剑的产品，据悉在亚马逊2015年收购Annapurna Labs之后，这个项目就在秘密研发。根据亚马逊方面的数据，Trainium2相较于上一代产品，训练速度提升多达4倍，能效提升多达2倍，内存容量则达此前3倍，能在EC2 UltraClusters中扩展至多达10万个芯片，可以在极短的时间内训练基础模型和大语言模型。目前，该芯片已经在接受包括Anthropic、Databricks、Stockmark三家AI创企以及德国电信、日本理光在内的多个客户的测试。

同时，亚马逊方面表示，Trainium2芯片已在数据中心部署，预计将在俄亥俄州等多个核心数据中心推广，目标是形成多达100000个芯片的集群。而这正是亚马逊秘密计划——“登月”计划的一部分。按照规划，Trainium2芯片先期主要承担亚马逊内部的AI训练项目，并在初创企业客户方面得到测试，随着项目成熟将陆续有大客户导入到基于Trainium2芯片的算力平台上，一旦大客户有项目使用，亚马逊Trainium2芯片的任务便被视为取得成功。

不过，业内人士认为，亚马逊Trainium2芯片也面临诸多方面的挑战，其中最显著的两大挑战是自研芯片本身和软件生态。在自研芯片方面，由于英伟达在通用计算GPU领域已经积累了深厚的研发经验，单芯片的优化已经接近了极限，要想实现超越，尤其是在核心指标PPA方面实现超越，可能需要更加前沿的工艺平台进行芯片实现，或者在芯片设计过程中导入工程设计的“know how”，但无论怎样的技术路径，背后面临的挑战都是巨大的，且可能会由于先期用量低而导致高昂的成本，再加上本就客观存在的研发成本，这对公司内部推进自研芯片的决心会有挑战。

在软件方面的挑战就更大了，目前全球主要的GPGPU基本是依存于英伟达的CUDA生态生存，如果不兼容基本很难部署落地，这就导致英伟达在软硬件结合方面具有巨大的先发优势。重新部署软件生态当然也是有效的途径，一旦成功会获得巨大的商业回报。但分析人士认为，目前亚马逊提供的Neural SDK软件工具尚处于初期阶段，无法与英伟达的解决方案相匹敌。

结语
就像人类登月一样，亚马逊Trainium2芯片的野心是巨大的，一旦成功带来的商业回报也是非常可观的。但登月本就凶险万分，Trainium2芯片离成功替代英伟达H100还有很长很长的路要走。

文章来自：电子发烧友

世界半导体论坛

亚马逊启动“登月”计划，目标部署10万颗自研AI芯片

作者yinhua

作者 yinhua

相关文章

回顾ADI的六十年，模拟公司如何抓住人工智能时代的机会

ADI中国区销售副总裁：2026年模拟芯片乘物理智能之风领航起飞

e络盟任命陈骏扬为亚太区销售与服务副总裁

发表回复取消回复

You missed