端侧 AI 芯片,是专门为在诸如智能手机、IoT 设备、自动驾驶汽车等终端设备上,高效运行人工智能算法而设计的处理器。通过硬件级优化,它们能够实现低功耗、高实时性的 AI 计算,构成了端侧 AI 落地的核心硬件基础。

为何需要端侧 AI 芯片?随着 AI 技术不断发展,传统芯片暴露出局限性。CPU 和 GPU 虽通用性强,但能效比较低,难以契合移动设备对功耗的严苛要求;依赖云端则会引发延迟、隐私以及网络稳定性等问题。与之相比,专用端侧 AI 芯片优势显著,具备高能效比、低延迟、隐私安全保障以及离线运行能力等特性。

端侧 AI 芯片的核心技术涵盖架构设计与关键技术创新等方面。在架构设计上,NPU(神经网络处理单元)堪称端侧 AI 芯片的核心。它是专为神经网络设计的加速器,像华为昇腾 NPU、Apple 神经引擎等,支持并行计算以及 INT8/FP16 低精度运算。

再者是异构计算架构,现代端侧 AI 芯片普遍采用该架构,集成了 CPU、GPU、NPU、DSP(数字信号处理器)等多种计算单元,以应对各类不同的计算任务,高通 Hexagon 便是典型代表。

在关键技术创新方面,量化计算可支持 INT4/INT8 低精度运算,有效提升能效,联发科 APU 就是范例;稀疏化加速技术能够跳过零值权重计算,例如特斯拉 Dojo 芯片;存算一体技术可减少数据搬运功耗(即存内计算,如存算一体芯片);动态调度技术能够依据任务负载动态分配算力,ARM Ethos NPU 便是如此。

主流的端侧 AI 芯片厂商及产品有哪些?在此列举部分广为人知的厂商及其产品。华为海思昇腾(Ascend)系列,属于面向边缘推理的 AI 芯片,如 Ascend 310;麒麟 SoC 集成了 NPU,像麒麟 9000,可支持手机端 AI 任务。

高通骁龙移动平台,部分型号支持端侧 AI,比如骁龙 8 Gen 2 集成了 Hexagon 处理器,算力超过 60 TOPS;QCS 系列则是面向物联网设备的 AI 芯片,例如 QCS8250 支持 15 TOPS 算力。

联发科天玑系列集成了 AI 处理器,可支持端侧 AI 任务。

苹果 A 系列 / M 系列芯片集成了神经网络引擎,像 A17 Pro 算力达 35 TOPS,M2 芯片算力达 15.8 TOPS。

三星 Exynos 系列,例如 Exynos Auto V 系列,是面向车用的 AI 芯片,算力超过 10 TOPS。

英特尔 Movidius VPU 专为视觉 AI 优化,比如 Myriad X 支持 4 TOPS 算力。

地平线(Horizon Robotics)征程系列面向自动驾驶和智能座舱,如征程 5 算力达 128 TOPS。

寒武纪(Cambricon)MLU 系列,像 MLU220 支持 8 TOPS 算力,面向边缘推理。

全志科技(Allwinner)V/R 系列,例如 V853 集成了 NPU,算力 1.2 TOPS,适用于智能摄像头。

瑞芯微(Rockchip)RK3588 内置 6 TOPS NPU,支持旗舰级边缘计算。

当前,端侧 AI 芯片的发展面临诸多挑战:在能效平衡方面,移动设备需要在 1W 以下功耗实现 TOPS 级算力;算法适配层面,芯片需要支持动态稀疏化、混合精度等前沿算法;开发门槛上,存在厂商专用工具链(如华为 MindSpore Lite)与通用框架(TensorFlow Lite)的兼容性问题;碎片化生态方面,不同厂商的 NPU 指令集和编译器存在差异,导致移植成本居高不下。

从发展趋势来看,随着 AI 模型复杂度提升,端侧 AI 芯片的算力会持续增强,同时维持低功耗状态。端侧 AI 芯片将支持多模态数据(如图像、语音、传感器数据)的融合处理,从而拓展更为丰富的应用场景。轻量化模型(如 MobileNet、EfficientNet)和神经架构搜索(NAS)技术将进一步优化端侧 AI 的性能。端侧 AI 芯片与云端 AI 的协同作业将成为主流模式,复杂任务交由云端处理,实时任务则由端侧设备完成。

总而言之,端侧 AI 芯片是推动 AI 技术在终端设备落地的核心硬件,其发展将对智能手机、智能穿戴、自动驾驶、工业物联网等众多领域产生深远影响。尽管目前面临一些挑战,但未来端侧 AI 芯片必将朝着更高算力、更低功耗、更强安全性以及更丰富应用场景的方向迈进。

文章来自:电子发烧友

Loading

作者 yinhua

发表回复