AI持续发热，Arm新一代Neoverse CSS V3和CSS N3为客户释放最优性能

AI热潮不仅没有熄火，反而愈演愈烈。2024年，由于市场对于AI硬件的需求永不满足，计算处于变革阵痛中。随着人工智能 (AI) 渗透到教育、就业、制造、医疗和交通等领域，AI 正在改变经济发展和我们的日常生活，而 Arm 是这一切改变的基石。

5年前，Arm 宣布了针对服务器、云和基础设施 CPU 内核的 Neoverse 计划。彼时，Arm制定了一项雄心勃勃的计划，计划开发V、N、E三个CPU内核系列产品，以满足市场的不同细分市场。虽然后续发展与Arm最初预测略有不同，但基于 Neoverse内核定制CPU的设计已经逐渐成为云服务商采用的风潮。

日前，Arm推出新一代Neoverse CPU内核和计算子系统（CSS）——Neoverse CSS V3和CSS N3，以此帮助数据中心实现更优的AI性能。

CSS V3：最多128内核，具有CXL 3.0和HBM3

Neoverse V系列是强调性能优先的一个系列，拥有最高的单线程性能，也是Arm“秀肌肉”的战场。去年，Neoverse V3在Arm的路线图中被列为V-Next，代号Poseidon。

CSS V3 基于最新Neoverse V3核心打造，是Arm目前单线程性能最高的Neoverse 核心。V3为Arm机密计算架构 (CCA) 提供硬件支持。与CSS N2 产品相比，CSS V3的单芯片性能提高了50%。

CSS V3 在单芯片上最多可扩展至128核，支持12通道 (40b) DDR5/LPDDR5和HBM3内存、64路PCIe 5.0或CXL 3.0、支持UCIe 1.1或定制化PHYS高速互联。同时可提供业界领先的专用L2缓存大小，显著改善性能表现。

CSS V3针对3nm级工艺，并带有支持的平面图和实现流程，以最大限度地降低物理设计风险。

从核心功能上来看， V3基于Arm®v9.2-A A64指令集、支持AArch64 所有异常级别的执行状态（EL0 到 EL3）、拥有48 位物理地址（PA）和 48 位虚拟地址（VA），实现具有 128 位向量长度的可扩展矢量扩展（SVE）和可扩展矢量扩展 2 （SVE2）。

从部件构成上来看，V3内核包括一个将内核连接到DSU-120的CPU桥接器。DSU-120将内核连接到外部存储器系统和SoC的其余部分。

CSS N3：最多32核，每瓦性能提高 20%

Neoverse N聚焦于能效，是Arm比较均衡的系列。与CSS N2相比，CSS N3每核心的每瓦性能提升20%。

此外，从核心的性能上来看，与Neoverse N2相比，Neoverse N3在机器学习和数据分析工作负载上的性能提高了约3倍，在SQL数据库上提高了1.3倍，在选定的压缩应用程序上提高了1.2倍，在整数性能上提高了1.1倍——在同一技术节点上，与Neoverse N2的面积和功耗大致相同。

根据Arm 基础设施事业部产品解决方案副总裁 Dermot O’Driscoll的介绍，Arm对CSS N3进行了调优，以填补市场的空缺，提供满足基础设施性能要求的高效计算。

CSS N3首个实例可提供32核，热设计功耗 (TDP) 低至40W，支持4通道（40b）DDR5/LPDDR5、32路PCIe 5.0和CXL 3.0、支持UCIe 1.1或定制化PHYS高速互联。CSS N3建立在Neoverse S3系统IP之上，其中包括相干网状网络CMN S3、系统内存管理单元MMU S3、片上网络NOC S3。

其可扩展性非常强，可覆盖电信、网络和DPU等一系列应用。同时Arm考虑横向扩展云配置。

CSS N3基于新的Neoverse N3 IP平台打造，为新的N系列引入了Armv9.2功能，能为每个核心提供2MB的专用L2缓存。

两大产品在AI性能有巨大提升

AI飞临，除了加速器，很多工作负载也会落到CPU头上。Arm展示的数据则显示，Neoverse V3和N3内核在AI数据分析方面的性能分别比其前代产品提高了84%和196%。

更重要的是，如今，人们常常忽视的一点是，有多少计算周期最终被用于压缩和协议转换等后台任务。而N系列在压缩方面取得了性能优势，可降低云服务运营商的成本，并最终降低云服务客户的成本；同样，V系列显著提高了协议缓冲区的性能，这是在数据中心内传输数据的一项关键功能。

去年，有关 AI 的讨论焦点主要集中在于生成式 AI 和大语言模型 (LLM) 。目前行业重点更多放在训练LLM上，但随着生成式AI广泛应用于实际业务场景，其工作重点将转向推理。

这一转变意味着要找到合适的模型和模型配置，并加以训练，然后将其部署到更具成本效益的计算基础设施上。吞吐量是其中一部分考虑因素，而在当今广泛部署的基于 Arm架构的芯片上，Token生成吞吐量表现相当优异。

据最近统计，全世界打造AI加速器的企业已经超过80家，每一家都在加大自己的投入，但事实上，这些加速器也需要与CPU紧密耦合，才能发挥最佳功效。

比如说，NVIDIA不仅利用其领先的Hopper GPU，同时也使用了基于Neoverse V2平台的紧耦合计算芯粒Grace。NVIDIA Grace Hopper的一大关键创新在于内存容量和共享内存模式。这种紧耦合的CPU加上加速器配置，对大参数LLM非常有益，对检索-增强-生成 (RAG) 等新兴方法也很有帮助。

“Neoverse CSS是专为帮助客户在基于Arm领先的CPU平台上，快速打造通用计算芯粒而推出的产品。它能提供客户所需的所有接口，以便选择耦合自身的加速器。这种方法既可以在需要CPU时提供CPU，又可以在需要AI加速器时提供AI加速器，做到两全其美。”Dermot O’Driscoll如是说。

CSS：给芯片打个包

这一次，V3和N3都有一个前缀CSS。所谓CSS全称是Compute Subsystem，可以理解成Arm把一切都打了个包，包括core、CMN mesh、系统IP、系统管理、电源管理、软件和开发工具等。更通俗点的理解，就是半预制菜。

如今，AI行业快速发展，芯片制程提高，成本不断攀升，芯片设计制作缓慢，但是需求并不缓慢，越来越多的企业开始定制化自己的芯片。此时，CSS就能省略很多开发步骤，包括IP选择、系统配置、布局规划、验证、确认、第三方IP和晶圆厂集成等。

根据Arm的分享，有客户使用CSS后，芯片开发从启动到流片，总共可以只花9个月。

在 Hot Chips 2023 上，Arm首次公开宣布推出新产品——Arm Neoverse计算子系统 (CSS) 以及首款产品 Arm Neoverse CSS N2。而现在，Neoverse V3和N3全面延续CSS。

不止如此，Arm一直在将更多半导体力量汇聚在一起，以此形成更好的Neoverse CSS服务——即Arm去年10月宣布的“Arm全面设计”。

该项目汇集了半导体领域的各路领先企业，囊括了芯片设计合作伙伴、IP 供应商、EDA 工具提供商、代工厂和固件开发商等，共同加快并简化基于 Neoverse CSS 的系统开发。

目前，在推出后短短四个月内，Arm全面设计已经有20多家成员加入。其中包括新的 EDA和配套IP提供商，以及来自包括韩国、中国台湾、中国大陆和印度等战略市场的芯片设计合作伙伴，这些市场存在巨大的发展潜力。

其中，云豹智能是 Arm 全面设计生态项目在中国市场的首家合作伙伴。云豹智能是一家专注于云计算和数据中心数据处理器芯片 (DPU) 和解决方案的领先半导体公司。Arm 全面设计正帮助云豹智能将业务拓展到其他领域，并有助于其开发其他类型的基础设施系统级芯片 (SoC)。

此外，Arm正在与台积电、三星代工厂、英特尔代工服务三家主要代工厂合作，以确保CSS产品能在其先进工艺节点上进行优化。定制芯片离不开可靠供应链的支持，唯有Arm可提供多样的技术和选择。

Arm 基础设施事业部营销副总裁 Eddie Ramirez表示，三个典型案例揭示了合作伙伴可以借助Arm全面设计设计何种类型芯片：

去年十月，Socionext 成为首家宣布计划在台积公司领先的2nm工艺上开发基于CSS芯粒的合作伙伴，这款设计基于Neoverse CSS V3打造，配置32核的芯粒可与其他芯粒结合使用，提供可扩展且经济高效的计算解决方案；
智原科技也在构建基于芯粒的服务器芯片，该芯片将搭载64颗N系列核心，并基于英特尔代工服务的18A工艺节点进行生产制造；
此外，ADTechnology将提供高性价比的16核CSS N系列边缘服务器平台。他们将与三星代工厂合作，为边缘计算释放更强大的算力。

灵活性是Arm的强项

当前 AI 计算领域火热，芯片技术要求不断变化，Arm高级副总裁兼基础设施事业部总经理Mohamed Awad认为，Arm独特的优势，就是能够赋能广泛的生态系统进行创新。正因如此，Arm汇聚高性能计算的形式，能为合作伙伴带来十足的灵活性，帮助他们打造新的设计，进行创新。

聚焦 Arm Neoverse 来看，Arm着手的方向包括：

通过诸如Bfloat16、MatMul、SVE和SVE2等架构功能，以及微架构的优化，持续提升运行在CPU上的机器学习 (ML) 计算的表现；
通过支持最新的行业标准接口，以及提供用于一致性高带宽连接的CHI协议，为定制 AI加速器与Arm Neoverse平台和Arm Neoverse CSS的紧耦合提供无与伦比的灵活性；
为自研定制AI加速器的合作伙伴提供我们行业领先的系统互连技术，以实现与主机计算的紧密耦合链接，并提供CPU来处理AI工作的编排，同时支持利用Arm基础设施软件生态系统的云原生软件，以便最佳地运行在Arm平台上。

总结来说，Arm Neoverse CSS可以帮助合作伙伴在构建芯片时，进一步简化流程，进而加速产品上市时间。而Arm全面设计重要意义在于，现在Arm有许多不同的生态系统合作伙伴共同投资于Neoverse CSS，使得设计能够更轻松地推向市场，并且可以很容易地在Arm Neoverse CSS上取用到先进技术，进而加速产品上市时间，并降低构建新芯片的成本。最终，合作伙伴可以将构建芯片的投资重点放在创新上。

世界半导体论坛

AI持续发热，Arm新一代Neoverse CSS V3和CSS N3为客户释放最优性能

作者yinhua

作者 yinhua

相关文章

Imagination访谈：边缘AI处理器的架构创新

美商务部长施压三星SK海力士扩大在美内存芯片生产缓解全球短缺

慕展观察｜从座舱互联到电池感知，ADI构筑软件定义汽车全栈技术底座

发表回复取消回复

You missed