AI热潮不仅没有熄火,反而愈演愈烈。2024年,由于市场对于AI硬件的需求永不满足,计算处于变革阵痛中。随着人工智能 (AI) 渗透到教育、就业、制造、医疗和交通等领域,AI 正在改变经济发展和我们的日常生活,而 Arm 是这一切改变的基石。
5年前,Arm 宣布了针对服务器、云和基础设施 CPU 内核的 Neoverse 计划。彼时,Arm制定了一项雄心勃勃的计划,计划开发V、N、E三个CPU内核系列产品,以满足市场的不同细分市场。虽然后续发展与Arm最初预测略有不同,但基于 Neoverse内核定制CPU的设计已经逐渐成为云服务商采用的风潮。
日前,Arm推出新一代Neoverse CPU内核和计算子系统(CSS)——Neoverse CSS V3和CSS N3,以此帮助数据中心实现更优的AI性能。
CSS V3:最多128内核,具有CXL 3.0和HBM3
Neoverse V系列是强调性能优先的一个系列,拥有最高的单线程性能,也是Arm“秀肌肉”的战场。去年,Neoverse V3在Arm的路线图中被列为V-Next,代号Poseidon。
CSS V3 基于最新Neoverse V3核心打造,是Arm目前单线程性能最高的Neoverse 核心。V3为Arm机密计算架构 (CCA) 提供硬件支持。与CSS N2 产品相比,CSS V3的单芯片性能提高了50%。
CSS V3 在单芯片上最多可扩展至128核,支持12通道 (40b) DDR5/LPDDR5和HBM3内存、64路PCIe 5.0或CXL 3.0、支持UCIe 1.1或定制化PHYS高速互联。同时可提供业界领先的专用L2缓存大小,显著改善性能表现。
CSS V3针对3nm级工艺,并带有支持的平面图和实现流程,以最大限度地降低物理设计风险。
从核心功能上来看, V3基于Arm®v9.2-A A64指令集、支持AArch64 所有异常级别的执行状态(EL0 到 EL3)、拥有48 位物理地址 (PA) 和 48 位虚拟地址 (VA),实现具有 128 位向量长度的可扩展矢量扩展 (SVE) 和可扩展矢量扩展 2 (SVE2)。
从部件构成上来看,V3内核包括一个将内核连接到DSU-120的CPU桥接器。DSU-120将内核连接到外部存储器系统和SoC的其余部分。
CSS N3:最多32核,每瓦性能提高 20%
Neoverse N聚焦于能效,是Arm比较均衡的系列。与CSS N2相比,CSS N3每核心的每瓦性能提升20%。
此外,从核心的性能上来看,与Neoverse N2相比,Neoverse N3在机器学习和数据分析工作负载上的性能提高了约3倍,在SQL数据库上提高了1.3倍,在选定的压缩应用程序上提高了1.2倍,在整数性能上提高了1.1倍——在同一技术节点上,与Neoverse N2的面积和功耗大致相同。
根据Arm 基础设施事业部产品解决方案副总裁 Dermot O’Driscoll的介绍,Arm对CSS N3进行了调优,以填补市场的空缺,提供满足基础设施性能要求的高效计算。
CSS N3首个实例可提供32核,热设计功耗 (TDP) 低至40W,支持4通道(40b)DDR5/LPDDR5、32路PCIe 5.0和CXL 3.0、支持UCIe 1.1或定制化PHYS高速互联。CSS N3建立在Neoverse S3系统IP之上,其中包括相干网状网络CMN S3、系统内存管理单元MMU S3、片上网络NOC S3。
其可扩展性非常强,可覆盖电信、网络和DPU等一系列应用。同时Arm考虑横向扩展云配置。
CSS N3基于新的Neoverse N3 IP平台打造,为新的N系列引入了Armv9.2功能,能为每个核心提供2MB的专用L2缓存。
两大产品在AI性能有巨大提升
AI飞临,除了加速器,很多工作负载也会落到CPU头上。Arm展示的数据则显示,Neoverse V3和N3内核在AI数据分析方面的性能分别比其前代产品提高了84%和196%。
更重要的是,如今,人们常常忽视的一点是,有多少计算周期最终被用于压缩和协议转换等后台任务。而N系列在压缩方面取得了性能优势,可降低云服务运营商的成本,并最终降低云服务客户的成本;同样,V系列显著提高了协议缓冲区的性能,这是在数据中心内传输数据的一项关键功能。
去年,有关 AI 的讨论焦点主要集中在于生成式 AI 和大语言模型 (LLM) 。目前行业重点更多放在训练LLM上,但随着生成式AI广泛应用于实际业务场景,其工作重点将转向推理。
这一转变意味着要找到合适的模型和模型配置,并加以训练,然后将其部署到更具成本效益的计算基础设施上。吞吐量是其中一部分考虑因素,而在当今广泛部署的基于 Arm架构的芯片上,Token生成吞吐量表现相当优异。
据最近统计,全世界打造AI加速器的企业已经超过80家,每一家都在加大自己的投入,但事实上,这些加速器也需要与CPU紧密耦合,才能发挥最佳功效。
比如说,NVIDIA不仅利用其领先的Hopper GPU,同时也使用了基于Neoverse V2平台的紧耦合计算芯粒Grace。NVIDIA Grace Hopper的一大关键创新在于内存容量和共享内存模式。这种紧耦合的CPU加上加速器配置,对大参数LLM非常有益,对检索-增强-生成 (RAG) 等新兴方法也很有帮助。
“Neoverse CSS是专为帮助客户在基于Arm领先的CPU平台上,快速打造通用计算芯粒而推出的产品。它能提供客户所需的所有接口,以便选择耦合自身的加速器。这种方法既可以在需要CPU时提供CPU,又可以在需要AI加速器时提供AI加速器,做到两全其美。”Dermot O’Driscoll如是说。
CSS:给芯片打个包
这一次,V3和N3都有一个前缀CSS。所谓CSS全称是Compute Subsystem,可以理解成Arm把一切都打了个包,包括core、CMN mesh、系统IP、系统管理、电源管理、软件和开发工具等。更通俗点的理解,就是半预制菜。
如今,AI行业快速发展,芯片制程提高,成本不断攀升,芯片设计制作缓慢,但是需求并不缓慢,越来越多的企业开始定制化自己的芯片。此时,CSS就能省略很多开发步骤,包括IP选择、系统配置、布局规划、验证、确认、第三方IP和晶圆厂集成等。
根据Arm的分享,有客户使用CSS后,芯片开发从启动到流片,总共可以只花9个月。
在 Hot Chips 2023 上,Arm首次公开宣布推出新产品——Arm Neoverse计算子系统 (CSS) 以及首款产品 Arm Neoverse CSS N2。而现在,Neoverse V3和N3全面延续CSS。
不止如此,Arm一直在将更多半导体力量汇聚在一起,以此形成更好的Neoverse CSS服务——即Arm去年10月宣布的“Arm全面设计”。
该项目汇集了半导体领域的各路领先企业,囊括了芯片设计合作伙伴、IP 供应商、EDA 工具提供商、代工厂和固件开发商等,共同加快并简化基于 Neoverse CSS 的系统开发。
目前,在推出后短短四个月内,Arm全面设计已经有20多家成员加入。其中包括新的 EDA和配套IP提供商,以及来自包括韩国、中国台湾、中国大陆和印度等战略市场的芯片设计合作伙伴,这些市场存在巨大的发展潜力。
其中,云豹智能是 Arm 全面设计生态项目在中国市场的首家合作伙伴。云豹智能是一家专注于云计算和数据中心数据处理器芯片 (DPU) 和解决方案的领先半导体公司。Arm 全面设计正帮助云豹智能将业务拓展到其他领域,并有助于其开发其他类型的基础设施系统级芯片 (SoC)。
此外,Arm正在与台积电、三星代工厂、英特尔代工服务三家主要代工厂合作,以确保CSS产品能在其先进工艺节点上进行优化。定制芯片离不开可靠供应链的支持,唯有Arm可提供多样的技术和选择。
Arm 基础设施事业部营销副总裁 Eddie Ramirez表示,三个典型案例揭示了合作伙伴可以借助Arm全面设计设计何种类型芯片:
- 去年十月,Socionext 成为首家宣布计划在台积公司领先的2nm工艺上开发基于CSS芯粒的合作伙伴,这款设计基于Neoverse CSS V3打造,配置32核的芯粒可与其他芯粒结合使用,提供可扩展且经济高效的计算解决方案;
- 智原科技也在构建基于芯粒的服务器芯片,该芯片将搭载64颗N系列核心,并基于英特尔代工服务的18A工艺节点进行生产制造;
- 此外,ADTechnology将提供高性价比的16核CSS N系列边缘服务器平台。他们将与三星代工厂合作,为边缘计算释放更强大的算力。
灵活性是Arm的强项
当前 AI 计算领域火热,芯片技术要求不断变化,Arm高级副总裁兼基础设施事业部总经理Mohamed Awad认为,Arm独特的优势,就是能够赋能广泛的生态系统进行创新。正因如此,Arm汇聚高性能计算的形式,能为合作伙伴带来十足的灵活性,帮助他们打造新的设计,进行创新。
聚焦 Arm Neoverse 来看,Arm着手的方向包括:
- 通过诸如Bfloat16、MatMul、SVE和SVE2等架构功能,以及微架构的优化,持续提升运行在CPU上的机器学习 (ML) 计算的表现;
- 通过支持最新的行业标准接口,以及提供用于一致性高带宽连接的CHI协议,为定制 AI加速器与Arm Neoverse平台和Arm Neoverse CSS的紧耦合提供无与伦比的灵活性;
- 为自研定制AI加速器的合作伙伴提供我们行业领先的系统互连技术,以实现与主机计算的紧密耦合链接,并提供CPU来处理AI工作的编排,同时支持利用Arm基础设施软件生态系统的云原生软件,以便最佳地运行在Arm平台上。
总结来说,Arm Neoverse CSS可以帮助合作伙伴在构建芯片时,进一步简化流程,进而加速产品上市时间。而Arm全面设计重要意义在于,现在Arm有许多不同的生态系统合作伙伴共同投资于Neoverse CSS,使得设计能够更轻松地推向市场,并且可以很容易地在Arm Neoverse CSS上取用到先进技术,进而加速产品上市时间,并降低构建新芯片的成本。最终,合作伙伴可以将构建芯片的投资重点放在创新上。