这几年,AI越来越火了,尤其是DeepSeek和Grok 3的到来之后,这个赛道更加拥挤和“卷”了。所谓大模型,一定是规模越大越智能,所以AI算力至关重要。而我们都知道摩尔定律的速度远远比不过AI的更迭速度,所以Chiplet(小芯片、芯粒)技术就至关重要了。
日前,IDTechEx的一份报告,Chiplet技术预计在未来十年内将大幅扩张。该报告的作者Xiaoxi He博士和Yu-Han Chang博士称,Chiplet市场可能蕴含着近4110亿美元的商机,对这一市场进行恰当投资,将从根本上改变半导体行业未来的发展走向。无独有偶,Market.us报告显示,2024年至2033年,Chiplet行业的复合年均增长率预计将达到42.5%,到2033年估值将达到1070亿美元。
为了让Chiplet更好发展,Arm、AMD、Meta、英特尔、谷歌云、微软、高通、三星、日月光和台积电曾发起UCIe产业联盟。不过,除了UCIe,Arm也推出了CSA(Chiplet System Architecture)。这一规范有什么值得关注的细节?
Chiplet怎么那么重要
Chiplet说起来,就像搭积木。是将大尺寸多核心分散到多个微小裸芯片上,如不同类型的处理器、模拟组件、存储器等,再用3D立体堆栈的方式。
随着摩尔定律逐渐逼近物理极限,工程师和物理学家普遍认为,未来我们将无法在相同空间中塞入更多晶体管,同时还要克服热量和其他物理限制。因此,芯片设计的重点从单纯增加晶体管的物理密度,转向通过功能密度提升芯片性能。
在处理器发展的早期,芯片制造商将多种功能集成到单个芯片上,取代了传统的分立元件设计。随后,芯片组的概念出现,将多个芯片组合在一个封装中,通过高速、低延迟触点连接。而Chiplet技术则进一步优化了这一思路。
SoC是目前与小芯片竞争的主要技术。两者都将任务和硅片划分为功能模块,例如 GPU负责图形处理,通信模块处理通信任务,传感器模块集成传感器功能等。然而,SoC存在一些局限性:一是制造成本高,整个SoC必须基于最高分辨率工艺(如5nm米)制造,导致成本高昂;二是良率低,如果SoC中某个组件(如 I/O 模块)出现缺陷,整个芯片将失效,降低了整体良率。
反观小芯片技术,它先将各个部分作为单独模块制造,随后再进行组装。这意味着一批晶圆可专门用于生产5 nm CPU,而另一批28nm晶圆则可用来生产 MEMS。每批生产完成后,再把小芯片连接起来。由于仅部分组件以最高分辨率和最大成本制造,芯片制造商采用小芯片架构能节省大量成本。同时,小芯片技术还能简化光罩设计,每个晶圆可重复对一个模块进行图案化处理,进而提高整体成品率。芯片构造的复杂组装步骤在晶圆分类之后开展,确保在生产的最后阶段仅连接合格芯片。
与SoC相比,Chiplet技术具有显著的经济优势。芯片制造商可以根据需求定制不同技术和分辨率级别的组件,从而提高成品率并降低成本。未来十年,Chiplet技术有望实现高速增长,成为芯片行业的重要发展方向。通过模块化设计和灵活组装,小芯片技术不仅突破了传统SoC的限制,还为芯片制造带来了更高的效率和性能潜力。
一直努力的Arm
事实上,一直以来,Arm都在Chiplet发展过程中扮演重要角色:
2023年10月,Arm 全面设计(Arm Total Design)推动芯粒生态系统蓬勃发展。
2024年2月,Arm宣布推出Arm 芯粒系统架构 (Chiplet System Architecture, CSA)和更新 AMBA 两个计划以帮助实现该通用框架。
2024年4月,Arm携手合作伙伴共同推动AMBA CHI芯片到芯片互连协议等倡议的落地实施。AMBA CHI C2C 对于Chiplet市场至关重要,其利用现有的单芯片上CHI协议定义了数据的封装格式,使数据能够通过芯粒间链路进行传输。它不仅适用于同一供应商的芯粒,还能确保来自不同供应商的不同芯粒通过一个统一的接口协议来确保芯粒之间的互操作性。作为在AMBA CHI C2C领域的重要合作伙伴,NVIDIA高度认可该标准的重要性。此外,Arm和新思科技继续就AMBA协议系列的最新扩展密切合作,以确保双方的共同客户能够从使用AMBA CHI C2C协议中获益,同时确保小芯片和Multi-Die设计符合协议标准。
2024年10月,在推出一年后,Arm全面设计的参与企业已迅速扩展到近30家,涵盖了从IC设计到晶圆代工服务等各项专业能力。
2025年1月,Arm宣布其芯粒系统架构 (CSA) 正式推出首个公开规范,在AMBA CHI C2C统一接口协议基础上,进一步推动芯粒技术的标准化,并减少行业的碎片化。目前,已有超过60 家行业领先企业,如 ADTechnology、Alphawave Semi、AMI、楷登电子、云豹智能、Kalray、Rebellions、西门子和新思科技等,积极参与了 CSA 的相关工作,助力不同领域的芯片战略制定并遵循统一的标准。
CSA作为对于推动芯粒技术标准化、减少行业碎片化拥有很大的意义。根据Arm的说法,通过复用专用芯粒开发定制 SoC 有诸多优势,但缺乏统一标准会引发兼容性问题,阻碍创新。为此,Arm去年推出 CSA,提供系统切分和芯粒互联标准,加速基于芯粒的系统创新,降低碎片化风险。
CSA首个公开规范发布后,设计人员对构建可组合SoC有了一致理解,能满足 AI 工作负载多样性需求。参与CSA的多家合作伙伴在Arm全面设计生态项目中构建解决方案,目前,Arm在推进Chiplet上有两个成果案例:
为不同市场定制 AI 工作负载: Alphawave Semi 的客户需要高性能芯片来处理 AI 工作负载,包括网络、边缘计算、存储和安全性。通过将由 Arm Neoverse CSS 提供支持的小芯片与专有 I/O 芯片相结合,Alphawave Semi 可以使用 AMBA CHI C2C 连接针对每个市场的特定需求量身定制的加速器。针对特定市场的自定义 SKU 源自标准基础,分摊了计算芯片的成本,同时保持了构建多个系统的灵活性;
彻底改变大规模 AI 训练和推理工作负载: ADTechnology、Samsung Foundry、Rebellions 和 Arm 结合技术创建了一个 AI CPU 小芯片平台,用于在数据中心训练和推理大规模 AI 工作负载,估计 GenAI 工作负载(Llama3.1 405B 参数 LLM)的效率优势为 2-3 倍。这个多供应商小芯片平台将 Rebellions 的 REBEL AI 加速器与使用 AMBA CHI C2C 互连的相干 NPU 相结合,并使用 ADTechnology 的 Neoverse CSS V3 驱动的计算小芯片构建,该小芯片现在可以使用三星代工 2nm 全环绕栅极 (GAA) 先进工艺技术实现,这是迄今为止与 CSA 一起完成的标准化工作的结果。
根据Arm的说法,随着 CSA 生态系统壮大,将加速定制芯片解决方案的开发与部署。所以,在CSA中,Arm主要定义了什么?
CSA具体定义了什么
Arm官网的CSA文件中,对于CSA(Chiplet System Architecture )有很详细的定义:
CSA是Arm提出的一个硬件系统架构,用于支持基于Chiplet的Arm系统设计。它定义了如何在多个Chiplet之间分配系统功能,并确保这些Chiplet能够协同工作,形成一个完整的系统。CSA的目标是为基于Arm架构的Chiplet生态系统提供一个标准化的框架,确保不同Chiplet之间的兼容性和互操作性。CSA适用于分布式系统,即系统的硬件功能分布在多个Chiplet上,而不是传统的单片芯片设计。
CSA主要适用于Arm系统,即支持单一系统软件镜像(如操作系统或虚拟机监控程序)的硬件系统。这些系统基于Arm的64位架构。CSA不适用于与单一Arm系统无关的硬件功能(如独立的Arm系统之间的集成);或者不适用于完全抽象于Arm系统的Chiplet(如符合JEDEC标准的内存Chiplet)。
CSA定义了几种不同类型的Chiplet,每种Chiplet都有特定的功能和接口要求。主要的Chiplet类型包括:Compute 1 Chiplet:包含一个或多个应用处理单元(Application PE),但不包含系统主内存或I/O外设;Compute 2 Chiplet:包含应用处理单元,并直接访问系统主内存和I/O外设。
CSA的目标是为基于Arm的Chiplet生态系统提供一个标准化的框架,确保不同Chiplet之间的兼容性和互操作性。通过CSA,Arm希望推动Chiplet设计的重用,减少设计成本,并支持多样化的系统配置。
CSA定义了Chiplet之间的接口要求,并映射到现有的行业标准协议和传输机制(如AMBA、PCIe等)。CSA不定义新的接口功能,而是依赖于现有的标准协议。
总结
随着AI发展愈深愈快,Arm作为行业的重要参与者,正在积极推动Chiplet技术的发展,通过推出CSA,未来有望加速定制芯片解决方案的开发与部署,为满足AI多样化工作负载需求、提升芯片制造效率和性能潜力注入强大动力,进而深刻改变半导体行业的格局。
文章来自:电子工程世界