2025年,人工智能正式迈入应用推理时代。大模型从实验室走向千行百业,推理需求呈指数级爆发。然而,高昂的推理成本与有限的算力供给之间的矛盾日益凸显,成为制约AI规模化落地的关键瓶颈。在此背景下,云天励飞推出其第五代芯片架构——GPNPU(General-Purpose Neural Processing Unit,通用神经网络处理单元),以一场底层架构的革命,试图重塑AI算力格局,推动大模型推理走向极致性价比时代。

GPNPU的核心定位是:做推理时代的优等生。它摒弃了传统芯片追求大而全的通用计算思路,转而聚焦大模型推理的核心场景,如Prefill准备阶段和Decode生成阶段,进行深度定制与优化。其目标极具挑战性:将当前约1美元/百万Token的推理成本,压缩至仅需1美分/百万Token,实现百倍效率提升。

GPNPU的黑科技源于三大底层创新。首先是算力积木设计思想。传统芯片往往一刀切,难以兼顾云、边、端多样化的部署需求。GPNPU采用模块化架构,如同乐高积木般可灵活堆叠,实现一次流片、多规格输出。其算力覆盖从8T到256T,既能支撑云端大模型推理,也能赋能边缘设备与终端智能体,如机器人、手机、AR眼镜,真正实现全场景覆盖。

其次,GPNPU采用3D堆叠存储技术,直面内存墙难题。大模型推理对带宽极为敏感,数据搬运速度常成为性能瓶颈。通过3D堆叠,GPNPU大幅提升存储密度与带宽利用率,让计算单元得以持续满血运行,显著提升能效比。

第三,GPNPU实现异构化与灵活调度。它深刻洞察到推理任务的动态特性:Prefill阶段重算力,Decode阶段重带宽。因此,通过软硬协同优化,GPNPU可动态调整算力、带宽与存储的配比,不再依赖单一芯片硬扛,而是以灵活架构适配任务变化,实现资源最优利用。

与传统架构相比,GPNPU展现出显著差异化优势。传统GPU虽生态成熟、通用性强,但推理成本高昂;传统NPU能效较高,但多聚焦终端推理,通用性受限。而GPNPU则兼具GPU的通用性与NPU的高能效,专为大模型推理优化,覆盖端、边、云全场景,并以算力积木实现前所未有的架构灵活性,真正实现极致性价比。

目前,基于GPNPU架构的芯片正加速落地。正在研发的Nova 500系列,作为第五代GPNPU芯片,重点提升带宽与能效,是实现“1元内搞定百万Token”目标的关键一步。展望未来,Nova 600系列将探索光电一体化互联,构建高性价比的算力网络,进一步将推理成本推向分级成本新低。

依托GPNPU,云天励飞已构建“深穹”(云端)、“深界”(边缘)、“深擎”(具身智能)三大芯片产品矩阵,全面服务于互联网大厂、智能终端厂商与机器人企业,推动AI应用的广泛落地。

在国产工艺受限、高端GPU供应不确定的现实下,云天励飞没有选择在制程工艺上硬拼,而是以架构创新另辟蹊径。GPNPU不仅是技术的突破,更是一种战略智慧的体现——通过“算力积木+3D堆叠”的创新路径,走出一条高能效、低成本、全场景的差异化发展之路。它预示着,AI算力将不再昂贵稀缺,而是如水电般普惠,真正赋能千行百业的智能化变革。

文章来自:电子发烧友

Loading

作者 yinhua

发表回复