当前,AI 技术已深度融入生产生活,从 AI 手机、AI PC 到云端大模型推理,再到未来的具身智能机器人,对算力的需求呈指数级增长。然而,在 AI 飞速发展的同时,算力、能效与带宽瓶颈成为行业前行的关键阻碍,而美西方的技术禁运更让中国芯片产业面临严峻挑战。
在这一大背景下,存算一体成为国产算力突破的重要手段。近日,在杭州举办的 RISC-V 存算一体产业论坛暨应用组启动大会上,微纳核芯、浙江省北大信息技术高等研究院、知合计算、小米移动、浪潮计算机、紫光展锐、兆易创新、北京智芯、上海兆芯、安路信息、英韧科技、麒麟软件、清微智能、进迭时空、算能科技、澎峰科技、希姆计算、千芯科技、雄安安算、元石智算、尘点科技、凌川科技、新华三等企业与机构代表及行业专家齐聚一堂,共同确立了 “RISC-V + 存算一体” 技术的标准化路线图,旨在为国产芯片应对大模型时代的算力挑战提供核心支撑。
会上,杭州微纳核芯首席科学家叶乐教授作了题为《三维存算一体 3D-CIM:赋能 RISC-V AI 生态》的报告,分享了微纳核芯在三维存算一体(3D-CIM)技术领域的探索与实践,以及该技术如何为 RISC-V AI 生态注入新活力,助力我国芯片产业实现自主可控。
杭州微纳核芯首席科学家叶乐教授
3D-CIM 助力国产算力腾飞
如上所述,后摩尔定律时代,国产算力芯片发展面临更为严峻的挑战,叶乐教授在此列举了三点:
·算力密度瓶颈:摩尔定律逐渐逼近物理极限,传统芯片依赖先进工艺提升算力的路径愈发艰难。
·数据带宽瓶颈:大模型参数量动辄达千亿级别,在传统冯・诺依曼架构下,计算单元与存储单元分离,数据搬运量远超算力需求,数据通道如同 “交通堵塞”,严重制约大模型应用效率。
·软硬件生态瓶颈:现有 AI 硬件发展缺乏标准指令集与工具链,软件生态多被美西方掌控,自主生态建设面临高昂的迁移成本与兼容难题。
他认为,要克服这些挑战,急需发展 “基于现有国产工艺条件、突破上述关键挑战的新架构技术路线 + 开源自主可控生态” 的创新路径。微纳核芯团队经过多年深耕,提出了以三维存算一体为核心的创新技术路线,从存储与计算的融合入手,结合 RISC-V 开源生态优势,构建全栈自主可控的技术体系。
在存算一体技术路线选择上,微纳核芯坚定采用数字域路线。相较于模拟域存算,数字域存算具备计算精度高、可靠性强的优势,支持高精度浮点计算与软件量化方式,更符合未来产业规模化应用需求。通过在微观层面将存储单元与计算单元融合,存算一体技术可实现张量计算的原位高效处理。
在 AI 应用中,无论是云端 AI 应用、边缘端应用,还是轻量级 AI 应用,张量计算占比均高达 99% 以上,行业急需针对张量计算的加速解决方案 —— 能高效处理张量计算的存算一体,成为破局路径之一。存储单元与计算单元的微观融合,不仅大幅缩短数据路径距离、缓解带宽瓶颈,更能显著提升算力密度与计算能效。
叶乐教授表示,存算一体的理想技术路线需考量四大因素:
·大存储容量:可存储大模型所有参数,并满足模型规模增长的需求;
·高密度存储:能在有限的面积资源下,存储所有大模型参数;
·高可擦写次数:大模型计算需频繁更新 KV Cache,存储器须具备高次数更新能力;
·快读写速度:高吞吐率的大模型推理对存储器的读写速度提出较高要求。
综合考量各项技术的优劣势后,微纳核芯选择基于 SRAM 实现数字域存算一体。据流片实测结果显示,SRAM 存算一体在同工艺下的算力密度相比传统架构提升 4 倍;经多次流片验证,其在 22nm 工艺下可实现传统 NPU/GPU 路线在 7nm 工艺下相当的算力密度;与传统 NPU/GPU 路线相比,计算能效提升 5-10 倍。此外,微纳核芯的 SRAM 存算一体芯片基于全国产供应链,且相比 7nm 芯片成本降低 4 倍。目前,微纳核芯已完成 SRAM 存算一体全栈软件栈的初版设计,涵盖仿真器、指令集、算子库、编译器及软件栈。
叶乐教授指出,微纳核芯 SRAM 存算一体之所以能实现上述优势,离不开 3D-CIM 技术的支撑。为进一步突破带宽瓶颈,微纳核芯引入 3D 近存架构,构建 3D-CIM。该架构将存算一体计算芯片与 DRAM 存储芯片进行三维堆叠,如同为数据搬运搭建 “专属电梯”—— 大模型参数存储在上层 DRAM 中,调用时可直接快速传输至下层计算芯片,大幅提升数据带宽的同时降低传输功耗。这种创新架构实现了存算一体与近存计算的完美融合。
RISC-V 与 3D-CIM 的融合
那么,在这一创新体系中,RISC-V 架构的价值体现在何处?回归前文提及的国产算力芯片挑战,在软硬件生态瓶颈方面,国内面临的现实问题是:即便拥有先进芯片,编程与使用仍存在诸多困境,例如算子库需持续演化、应用迁移难度大等。而异构融合 AI 计算借助 RISC-V 生态体系,通过标准架构接口与编译链开展软件开发,可有效克服这一难题。
当然,RISC-V 架构的价值远不止于此。叶乐教授在演讲中提到:“我们也清醒地认识到,单一存算一体技术无法解决所有问题。存算一体虽能高效处理张量计算,但在标量计算与计算完备性上存在短板,且面临编译难题。而 RISC-V 作为开源、灵活的指令集架构,恰好能弥补这些不足。”
为此,微纳核芯创新提出 RISC-V 与存算一体的异构融合架构:用存算一体模块处理 99% 的张量计算,充分发挥其高算力密度与高能效优势;用 RISC-V CPU 处理 1% 的标量计算,保障计算完备性。在此基础上,微纳核芯还扩展了存算一体专用指令集,覆盖卷积、全连接、Attention 等主流张量算子,兼容 INT4、FP8、BF16 等多种数据格式,实现与 RISC-V 标准指令集的协同。通过统一的抽象算子库与扩展编译器,微纳核芯的 SRAM 存算一体芯片成功接入 RISC-V 开源生态,解决了存算一体的软件生态难题,为技术产业化扫清障碍。
在产品规划上,叶乐教授透露,微纳核芯计划于 2026 年第一季度完成芯片流片,第三季度向手机、PC 等领域的头部企业送样,率先布局 AI 手机、AIPC 等端侧大模型应用;中期将联合国产高性能 CPU,推出 3D-CIM 芯片解决方案,有望绕过甚至超越英伟达现有方案,进军云端大模型市场;远期则瞄准具身智能领域,为 AI 机器人提供核心算力支撑。
文章来自:电子发烧友
![]()
