日前,彭博社发文称,为减少对英伟达芯片的依赖,亚马逊已经秘密启动了“登月”(moonshot)的计划,目前正在其位于得克萨斯州奥斯汀的工程实验室加紧研发一款新的AI芯片:Trainium2,目标是在亚马逊自己的数据中心里部署10万颗Trainium2,以提高数据处理效率并降低AI芯片采购成本。
近几年,亚马逊一直都在致力于自研芯片以降低数据中心成本,根据云成本管理和优化平台Vantage此前的一项调查数据,在Amazon EC2 M7系列通用实例的成本支出方面,采用Amazon Graviton的M7g系列已经超过三分之一(34.5%)。
亚马逊自研芯片第一次亮相始于2016年,在当年的re:Invent大会上,亚马逊云传奇工程师James Hamilton展示了该公司第一颗自研芯片,这便是第一代Graviton芯片。和英特尔、AMD的芯片不同,第一代Graviton芯片便是基于Arm架构的Neoverse内核打造,可以支持2x25G以太网的数据包处理。随后,亚马逊在2019年推出了Graviton2、2021年推出了Graviton3、2023年推出了Graviton4。
作为最新版本的Graviton芯片,Graviton4采用了最先进的Arm架构 Neoverse V2 核心,具有更高的计算核心数量和更快的内存带宽。7月15日,亚马逊发布了基于自研芯片Graviton4的Amazon EC2 R8g实例。根据phoronix测试的结果,和上一代芯片Graviton3相比,Graviton4性能提升达30%以上,内核数增加50%,内存带宽增加75%。
同时,根据测试结果,Graviton4处理器的性能略优于英特尔至强处理器约5%,但AMD的EPYC处理器在整体性能上仍领先约25%。有评测报告认为,Graviton4搭载的Neoverse-V2内核与英特尔Sapphire Rapids内核在性能上旗鼓相当,在某些工作负载下甚至优于AMD第四代EPYC。
Graviton4处理器发布于2023年11月28日,与其同时发布的还有升级款处理器Trainium2。AWS首席执行官Adam Selipsky在re:Invent主题演讲中透露,亚马逊已经购买了数百万个英伟达的A100和H100产品,在此方面投入了巨大的成本。而业界人士预测,Trainium2是一颗有望正面和英伟达H100芯片竞争的AI芯片。
Trainium2是多年磨一剑的产品,据悉在亚马逊2015年收购Annapurna Labs之后,这个项目就在秘密研发。根据亚马逊方面的数据,Trainium2相较于上一代产品,训练速度提升多达4倍,能效提升多达2倍,内存容量则达此前3倍,能在EC2 UltraClusters中扩展至多达10万个芯片,可以在极短的时间内训练基础模型和大语言模型。目前,该芯片已经在接受包括Anthropic、Databricks、Stockmark三家AI创企以及德国电信、日本理光在内的多个客户的测试。
同时,亚马逊方面表示,Trainium2芯片已在数据中心部署,预计将在俄亥俄州等多个核心数据中心推广,目标是形成多达100000个芯片的集群。而这正是亚马逊秘密计划——“登月”计划的一部分。按照规划,Trainium2芯片先期主要承担亚马逊内部的AI训练项目,并在初创企业客户方面得到测试,随着项目成熟将陆续有大客户导入到基于Trainium2芯片的算力平台上,一旦大客户有项目使用,亚马逊Trainium2芯片的任务便被视为取得成功。
不过,业内人士认为,亚马逊Trainium2芯片也面临诸多方面的挑战,其中最显著的两大挑战是自研芯片本身和软件生态。在自研芯片方面,由于英伟达在通用计算GPU领域已经积累了深厚的研发经验,单芯片的优化已经接近了极限,要想实现超越,尤其是在核心指标PPA方面实现超越,可能需要更加前沿的工艺平台进行芯片实现,或者在芯片设计过程中导入工程设计的“know how”,但无论怎样的技术路径,背后面临的挑战都是巨大的,且可能会由于先期用量低而导致高昂的成本,再加上本就客观存在的研发成本,这对公司内部推进自研芯片的决心会有挑战。
在软件方面的挑战就更大了,目前全球主要的GPGPU基本是依存于英伟达的CUDA生态生存,如果不兼容基本很难部署落地,这就导致英伟达在软硬件结合方面具有巨大的先发优势。重新部署软件生态当然也是有效的途径,一旦成功会获得巨大的商业回报。但分析人士认为,目前亚马逊提供的Neural SDK软件工具尚处于初期阶段,无法与英伟达的解决方案相匹敌。
结语
就像人类登月一样,亚马逊Trainium2芯片的野心是巨大的,一旦成功带来的商业回报也是非常可观的。但登月本就凶险万分,Trainium2芯片离成功替代英伟达H100还有很长很长的路要走。
文章来自:电子发烧友