“预计到2025年底,全球将有超过1000亿台具备AI能力的Arm设备。”Arm 基础设施事业部产品解决方案副总裁Dermot O’ Driscoll在Arm Tech Symposia 2024年度技术大会主题演讲如是说。
随着AI发展渐深,我们正身处AI爆发的新时代。对许多人而言,更多感知到的是ChatGPT,但实际上AI的潜力和颠覆性并不止如此。比如说,DeepMind最近使用AI预测蛋白质结构而荣获诺贝尔化学奖。再比如,AI能将临床试验的时间缩短高达50%。AI不仅改变着我们与世界交互的方式,也在为美好的未来奠定着基础。
Arm一直在AI领域中不断投入。本次大会上,Dermot分享了Arm在AI方面的计划,目标是快速且高效地将AI带给每个人和世界的每一个角落。
AI时代,软件开始掌握话语权
Dermot表示,随着Arm拜访了许多AI创业公司,观察到了一些趋势:在传统的、AI热潮兴起前的初创公司中,硬件和软件工程师的比例大约是50/50。但现在,情况完全不同了,变成了10/90,即10%的硬件工程师和90%的软件工程师。这意味着,软件的地位已经压倒性地提升,而围绕软件构建的复杂性也在持续增长。
在过去三十多年里,Arm一直致力于打造全球最大的计算平台。现在,芯片不再是一个由离散模块或组件以模块化方式构建的简单集合,而是一个要求将硬件、软件与生态系统紧密耦合、高度协同的整体工程。这一切的实现,依赖于全面的软件和固件、先进的代工支持、强大的第三方IP及专业的设计服务,它们共同协作,才能充分释放和提升计算能力、性能水平、能效表现及加速产品上市时间。
此前,Arm就曾公开表示,软件始终是Arm计算平台的重要组成部分,Arm相信不管在任何硬件平台上,都需要不断优化软件。尤其在AI软件生态系统上,需要确保全球领先的AI框架在Arm上开箱即用,并达到最佳运行水平。
本次,则更加强调了Arm今后对于AI的软件方面的投资。Dermot强调,Arm 聚焦于整体的技术栈,从底层硬件到整个技术栈中的软件和应用程序。迄今为止,Arm已投入30多年来编写和优化软件,软件是让 Arm 计算平台独树一帜的原因。未来技术将变得更加复杂,并且需要大量的支持。软件的开发成本高且耗时,因此投资策略也必须不断进化。
对此,Dermot提到了Arm的一些策略,帮助开发者简化流程,加速产品上市,节约成本:一是在硬件平台中提供加速功能,以便更多合作伙伴借助异构计算的能力;二是提升系统易用性,提高开发效率;三是使开发人员可将更多时间精力放在他们所开发的应用程序上,而无需过多关注硬件细节。
目前Arm平台已有2000万名开发者,之所以选择Arm,是因为Arm拥有全球最大的计算平台,从而形成良性循环。这一过程贯穿整个技术栈,即从底层操作系统到顶层应用程序和用户与科技的互动方式。一致的计算平台为开发者提供了信心,使他们能够编写出可在当前数十亿台 Arm 硬件上良好运行的软件。
AI PC同样为Arm带来巨大机遇
“我们相信 AI PC 将带来巨大的机遇。”在本次Arm Tech Symposia 期间,Dermot解释道,目前已有众多原生应用程序在Windows on Arm平台上运行,也有丰富的开发工具,以及越来越多的创新应用。
其实Arm很早就洞察到AI的发展趋势,并率先拥抱了这一领域。十多年前,Arm就首次将AI功能引入Arm架构,随后在Armv8架构中引入了64位技术。不过,真正开启Arm公司AI时代的是Armv9,Arm在过去几年不断加大对其投入力度,通过加入诸多围绕AI的核心功能,使得该架构具备一定的前瞻性。
而在未来十年,Arm计算平台将持续为AI而优化,所有这些功能将通过软硬件能力的结合来实现。对此,Arm坐拥两大关键技术:
第一是可伸缩向量扩展 (SVE):SVE2可提升视频和图像处理,提供更好的照片质量。目前,SVE2已应用于一些领先的计算产品中,如全新的天玑9400,可加速工作负载,惠及开发者和终端用户。
第二是可伸缩矩阵扩展 (SME):SME建立在SVE2的基础之上,新增了高效处理矩阵的能力,架构专为AI而设计。此外,新一代架构功能将为开发者提供通用指令集,使其能够一次在多个硬件平台上实现 Arm 架构中的加速效果。
聚焦中国市场,Arm中国区业务全球副总裁邹挺表示,中国是Arm重要的市场之一。从数据中心、汽车、智能终端到物联网,中国市场都展现了强劲的发展势头,Arm的技术进步为中国产业的发展提供了动力,同时,中国市场的创新也是Arm持续发展和业务成功的重要推动力。在PC领域,Arm的合作伙伴此芯科技推出了基于Armv9架构的P1芯片,面向Arm PC。后续,Arm将持续对Arm9架构迭代更新,包括带来更多支撑AI计算的新技术,为用户带来更加高效、易用、无缝的产品体验。
让开发者轻松触达AI
AI 开发者大致可分为两类,一类专注于AI训练,一类专注于 AI 应用。但现在后一类开发者在应用流程方面是有挑战的。Arm目前也看到了这种趋势,Dermot表示,Arm已在AI训练领域已经见证很多创新,接下来市场将看到更多关于 AI 推理领域的更多突破,即AI的实际应用,从数据中心延伸到边缘计算,再进一步扩展至终端设备。
“因此,Arm下一轮创新的重点将从AI训练转向AI推理。这意味着Arm和合作伙伴在 AI推理领域将迎来巨大的机遇。”根据Dermot的解析,Arm正在通过Arm Kleidi所做的一部分工作,为高性能的AI硬件提供一个更便捷的开发途径,来帮助开发者可以更轻松地利用CPU的性能进行AI开发。
Kleidi这一名字的灵感来自希腊语中的“关键/钥匙”,正如其名,象征其在提升Arm CPU上AI性能方面发挥着关键作用。Kleidi确保全球领先的AI框架可以基于Arm平台即刻运行,解锁性能,无需额外工作。当新的模型发布时,其性能可以在第一时间被利用。
其内又包括KleidiAI和KleidiCV两款软件,KleidiAI是面向AI框架开发者的开源库,可为Arm CPU提供经过优化的性能关键型例程。尽管KleidiAI仍处于早期阶段,但已帮助Google MediaPipe和XNNPACK团队将开源大语言模型 (LLM) Gemma的性能提高了25%。
通过Arm公布的一些信息来看,Kleidi的设计原则是让框架开发者能够轻松集成所需的微内核,只需拉取相应的 .c 和 .h 文件,以及所有微内核共享的通用头文件(kai_common.h),即可集成每个微内核。
在最近,Kleidi也有一些全新动作值得关注。即Arm与Meta合作,在ExecuTorch中引入了对Arm平台的支持,这进一步简化了这一过程,使在边缘设备上无缝部署PyTorch模型成为可能。随着此软件包的推出,成千上万希望创建 Edge AI 应用程序的开发人员可以在平台上市前几个月开始他们的模型和应用程序开发。
针对中国市场,KleidiAI也和腾讯的混元大模型进行集成,有效提高了移动端 AI 服务的推理性能和效率,为用户带来了卓越的端侧 AI 体验。
“随着Kleidi逐步普及和更多开发者的参与,我们将看到更多的优化。作为开源生态系统的一部分,我们期待开发者为其贡献力量,从而在整个Arm生态系统中实现更广泛的协作。”Dermot如是说。
除了拥有强大的工具和软件库支持、积极加入开源社区之外,Arm还格外注重与开发者的持续交流。据邹挺介绍,在过去一年里,Arm积极举办和参与了众多开发者活动,如WoA Arm人工智能创新应用大赛、虚幻引擎技术开放日、AICAS竞赛,以及参与合作伙伴的倚天技术沙龙等,这些项目触达到了几十万、上百万的中国开发者。在年度技术大会现场,Arm首次举办了开发者工作坊,帮助开发者了解 Arm 技术将如何简化开发过程中遇到的难题。
SOAFEE助力车用AI不断发展
车辆作为一个终端,也在不断向AI靠拢。
根据Arm 汽车事业部市场总监Robert Day在会上的分享,随着车辆自主化程度的提高以及对不同用户体验的需求增加,车辆中所需的软件也变得越来越多。最初的自动驾驶汽车也是借助 AI,使车辆能够理解周围的环境并做出相应的决策。而现在,一些AI大模型也开始上车,开始融入座舱,帮助打造更先进的用户体验。
对于解决AI时代下,汽车行业趋势带来的挑战,Arm关注的是一种全栈策略。随着车辆电子电气架构的变化,车内的计算硬件也在发生改变。在此基础上,Arm引入了虚拟原型的概念。硬件方面,Arm正在通过在2025年引入汽车计算子系统 (CSS) 来帮助新硬件系统的设计。生态合作方面,SOAFEE.next是SOAFEE的最新发展阶段,标志着其已经进入执行阶段。目前 SOAFEE 的成员数量已超过 140 家。
对于AI如何在 SOAFEE中体现,Robert解释,在Arm开始推动SOAFEE之初,便重点关注如何从软件的角度支持异构计算架构,考虑AI在汽车上的应用,尤其是在混合关键性的部分。SOAFEE架构中则会编排AI工作负载,究竟是在运行在CPU、GPU还是专用的 AI 加速器上。当开发者分析这些 AI 工作负载的运行位置时,通过合理分配工作负载的位置,方可实现最佳的每瓦性能表现。
而在关于车载AI及其性能需求上,Robert认为,Arm的优势在于其CPU能够高效运行AI工作负载,这正是Armv9架构所能达成的,赋予计算更强的AI能力。今年早些时候,Arm针对汽车行业推出了四款基于Armv9架构的处理器,这些处理器不仅大幅提升了AI工作负载的处理能力,还能与GPU等AI加速器无缝协作。
不止如此,Arm还注意到,许多AI初创公司专注于汽车工作负载。这些公司通常会选择与Arm合作,将Arm的CPU与其AI加速器结合使用,可以帮助实现更高的能效表现。
Arm在AI领域的三大支柱
纵观本届Arm Tech Symposia,AI含量极高。而从目前Arm的动作来看,不仅着重”软硬件一体“这一关键词,同时也非常看重对于合作伙伴和生态方面的建设。Dermot谈到了支持Arm在AI工作的许多内容,可以概括为三大支柱。
首先,Arm CPU已经为无处不在的加速AI奠定了基础,从最小的嵌入式设备到最大的数据中心。这是因为其拥有很强大的能效、普遍性、可编程性和灵活性。Arm CPU作为一个基础平台,可以与 AI 加速器技术紧密集成,并支持从128位到2048位的各种矢量长度,从而允许在许多不同的数据点上轻松执行多个神经网络。
其次,除了CPU产品组合外,Arm计算平台还包括GPU和NPU等AI加速器技术,这些技术正在各个市场与CPU集成。
最后,Arm可以提供更多样化的定制机会,合作伙伴可以在一个差异化的芯片解决方案之下定制自己的芯片。通过有小芯片系统架构(CSA)、计算子系统 (CSS)解决方案,以及 Arm全面设计(Arm Total Design)生态项目等,那些想要拥有自己的自定义CPU和XPU的合作伙伴,就可以从组件和小芯片的混合开始,将这些组件和小芯片可以组装成独特的组合,用于特定类别的AI工作。
值得一提的是,Arm推出的Arm全面设计 (Arm Total Design, ATD) 生态项目这样的合作伙伴平台,致力于助力生态系统合作伙伴能够专注于各自擅长的领域,进而更快、更具成本效益地开发出更好、更强大的产品。
在大会最后,Dermot谈及Arm如何以创新应用赋能AI时代时强调,AI将改变一切,而为了促进更加繁荣的芯片市场,Arm的CSS、ATD和CSA会是关键。
文章来自:电子工程世界