“计算的未来,尤其是 AI 的未来,取决于我们能否持续突破芯片技术的极限。” Arm解决方案工程部执行副总裁Kevork Kechichian在4月17日举办的《芯片新思维:人工智能时代的新根基》行业报告媒体沟通会上如是说。

随着AI大模型的发展速度逐渐超越摩尔定律,芯片越来越难以追赶上AI的发展步伐。在这样的情况下,AI芯片将会如何发展,芯片厂商又该如何破局?Arm在这份报告中指出了道路。

定制化和Chiplet,AI时代必行之路

报告提到,过去40年中,芯片技术经历了深刻的演进与革新。从最初的超大规模集成电路(VLSI)到极大规模集成电路 (ULSI),演进到移动系统级芯片(SoC),再到如今的AI优化的定制芯片解决方案。整个行业都在推动 AI 高能效计算的发展,这将覆盖从大型数据中心到边缘设备的所有技术触点。

在AI时代,芯片设计方式持续演进,并重新聚焦于高能效计算,以应对日益复杂的计算工作负载。这一趋势体现在通过定制芯片、芯粒等创新方式打造的专用芯片组,从而优化芯片设计中的功耗、性能与面积。

首先,在定制芯片方面,Kevork Kechichian指出,定制芯片设计的关键在于确保芯片与软件具备高度的可复用性。虽然可以很简单地说,每颗芯片都是根据特定需求定制而成,但底层平台必须具备一定的通用性,这正是Arm平台的核心价值所在。这些平台需要支持不同定制芯片之间实现一定程度的相互复用,从而有效应对开发成本与产品上市时间的挑战。

然而,定制芯片的开发成本极高,不仅需要大量的人力资源投入,还依赖庞大的计算资源。为此,Arm探索了多种降低开发投入的方法。Kevork Kechichian表示,从加快产品上市的角度出发,Arm 的定制化解决方案能够让合作伙伴显著缩短其产品上市周期。最基础的方法是从平台的角度出发,识别可复用的模块与资源,并确保定制工作是在已有基础上进行。这意味着需要对现有的资源事先进行评估,并在此基础上构建定制化产品。正是基于这种方式,Arm 与 SoC 及各类 IP 提供商密切合作,将解决方案交付给合作伙伴。

此外,先进的封装技术和工艺推动了芯粒的发展。这些技术允许多个半导体晶粒的堆叠和互连,在提升性能和能效的同时,开创了现代芯片设计的可能性。理想情况下,芯片厂商无需重新设计一款芯片,只需添加更多芯粒以增加算力和性能,甚至可以升级现有芯粒,从而更快地将新产品推向市场。与此同时,生产更小的芯片还有助于提高良率,并减少制造过程中的浪费。

在谈及应如何应对芯粒发展过程的主要挑战时,Kevork Kechichian表示,在当前技术范式中,最关键的是对Chiplet的设计与接口进行标准化,涵盖从封装厂如何集成这些芯粒,一直到在系统中不同芯粒间进行通信的全过程,因此与合作伙伴就标准化达成共识至关重要。

为此,Arm推出了芯粒系统架构(Chiplet System Architecture, CSA),旨在标准化芯粒间及系统内的通信方式,同时Arm还与合作伙伴共同推动AMBA CHI芯片到芯片互连协议等倡议,确保不同供应商的芯粒通过统一接口实现互操作性。过去标准化常被视为放弃自身IP或竞争优势,但如今面对系统的高度复杂性和合作模式的演变,标准化变得尤为重要,所有参与方都将从中受益。

既要性能又要能效,AI芯片该怎么破局

在AI时代,能效的概念越来越火了。无论是号称“吞电兽”的数据中心,还是对功耗非常敏感的边缘AI设备,都开始变得“既要又要”——既要拥有极高的AI算力,又要实现最低的能耗。在这种情况下,AI与芯片解决方案面临的能源挑战正在成为行业的一大难题。

报告指出,从芯片设计的角度来看,最主要的能耗来源有两个:计算和数据传输。此外,还需要对过程中所产生的热量进行冷却处理。理想的情况是,AI和芯片技术能够实现一种整体协同设计的方法,即硬件和算法同步开发,以实现最佳性能和效率。

此外,通过云端协同,能够有效解决能效的问题。无论是现在还是将来,AI 都需要在云端和边缘端进行混合处理。在推动更高效的 AI 发展进程中,两者都发挥着重要作用。事实上,边缘处理将与数据中心处理相辅相成,以更节能的方式完成推理任务。

总之,高能效的 AI 芯片正处于挑战与机遇的交汇点。硬件创新加之与软件的协同设计,正在为可持续、可扩展的AI解决方案铺平道路。随着边缘计算和数据中心处理的相辅相成,未来的芯片解决方案将充分释放AI潜力,并满足其对能效的迫切需求。未来的发展方向聚焦于实现功率、性能和经济效益的三维平衡,构建能灵活适应更广泛AI 和技术需求的硬件架构。这将确保这场芯片驱动的AI革新兼具颠覆性与可持续性。

Kevork Kechichian认为,为了实现高能效目标,需要遵循从底层到顶层的优化路径:

晶体管层:与晶圆代工厂密切协作,对晶体管的动态功耗和漏电功耗等进行优化,以确保其在功耗和性能方面达到最优状态;

架构层面:针对 CPU 以及各类处理引擎的指令集,进行有针对性的优化;

系统级层面:涵盖系统级芯片 (SoC) 设计、封装以及数据中心等方面,对整个结构中的更高层级进行优化。在这一过程中,尤其要注重对数据及其传输过程的保护,降低内存间数据传输的电力消耗;

软件层:在支撑大型数据中心运行的软件层面,实现智能负载均衡。具体而言,针对人工智能 (AI) 的不同方面进行处理优化,并合理分配工作负载,最大程度减少不同节点之间的数据传输。

为AI芯片提供保护,就是现在

随着AI时代的到来,安全威胁也在同步演进。报告指出,如今的安全防御已不再仅仅是防御传统恶意软件的问题,而是要为一个 AI 本身成为攻击者的未来做好准备。

在报告中,Arm分享了三点重要趋势:

首先,随着AI模型在日常计算中的广泛应用,其完整性保护成为关键,机密计算架构(CCA)应运而生,为敏感AI计算在不可信环境中创建了 “安全飞地”;同时,针对内存漏洞,行业采用创新手段应对,如通过Armv9架构中的内存标记扩展(MTE)增强内存安全性。

其次,AI 从集中式数据中心向网络边缘拓展,促使数据隐私与安全模式革新。现代 SoC 集成安全飞地和可信执行环境(TEE),在芯片内部构建起坚固的数字保险库,有效保护敏感的 AI 推理等计算,防止未经授权的访问和篡改。

最后,专用计算兴起引发定制芯片需求激增,在提升性能优化的同时,对安全性提出了更高挑战。PSA Certified认证项目作为安全芯片设计的黄金标准,通过对安全启动、加密服务等方面制定全面要求,为芯片制造商提供了安全设计路线图,确保定制芯片符合严格保护标准。

异构计算,推动AI革新

“我们正处于一种全新基础模型范式的关键转折点,这不仅会增加 AI 推理的复杂性,还将催生对更多专用 CPU 架构的需求。” Creative Strategies 首席执行官兼首席分析师 Ben Bajarin在报告中如是说。

目前,基于Arm架构的CPU正成为GPU和TPU等AI加速器的理想搭档——既能高效管理数据流和通用计算任务,又能应对工作流程中遇到的瓶颈。

“Arm 聚焦于异构计算,该范式中的CPU、GPU和TPU能够支持不同的工作负载。上述所有处理器都可以作为 AI 推理的处理引擎,部署到Arm合作伙伴所开发的SoC 中。”Kevork Kechichian强调道。

AI发展的未来,在于软硬协同

Kevork表示:“AI 发展的未来在于软件与硬件的协同发展。” 其中,AI框架间的互操作性是开发者关注的一个核心议题。嵌入式设备和物联网设备,尤其是专为边缘 AI 推理设计的终端设备,往往需要在多种硬件平台上运行。因此,开发者常常倾向于采用 CPU 作为后端,因为 CPU 的普及性有助于确保更广泛的兼容性。此外,在AI发展领域标准化实践的缺失也是制约其创新的一大因素。开放标准在打破这些壁垒的过程中发挥了关键作用,它使开发者能够在不同平台之间实现无缝迁移。

过去十年间,AI 的演进还催生了新的数据类型,经历了从整数表示向浮点数表示的迁移,近年来更是发展到更小位宽的浮点格式。这一演进对硬件构成了挑战,大量设备尤其是智能手机仍然依赖由其 NPU 所支持的整数类型。要跟上这种变化趋势,硬件必须不断做出调整,这也凸显了软件兼容性与支持能力的重要性。

总结

从本次发布的报告中可以看到,Arm 提出的诸多理念与方案,如强调底层平台通用性以平衡定制化与通用性,从多层面着手优化来实现算力与能效的平衡,通过标准化推进芯粒技术发展,构建多层级防护体系应对安全挑战,整合各方专长打造可持续生态系统等,为行业参与者提供了切实可行的行动指南。这些策略不仅有助于企业提升自身竞争力,更是推动整个 AI 芯片产业生态朝着高效、安全、协同方向进化的重要驱动力。

总结而言,未来的AI芯片将朝着更协作化、标准化、专用化/定制化、系统化以及能效化的方向发展。Arm能够为AI芯片赋予所有这些特性,并且将各方紧密连接在一起,携手开启AI智能时代的新篇章。

文章来自:电子工程世界

Loading

作者 yinhua

发表回复