近日有消息称,英伟达正在与三星、SK海力士等存储巨头合作,推动自家SOCAMM内存标准的商业化落地。SOCAMM即Space-Optimized CAMM空间优化内存模组技术,是由英伟达主导研发的面向AI计算、HPC、数据中心等领域的高密度内存解决方案,旨在通过紧凑的设计实现最大化存储容量,保持极佳的性能,并使用可拆卸的设计,便于用户可以对内存模块灵活进行升级和更换。

在CES2025上,英伟达推出的紧凑型超算Project DIGITS,就有望将使用SOCAMM内存实现小体积。

高密度内存是AI算力的关键

在AI大模型的训练和推理中,内存都起到十分关键的作用,在训练过程中,输入的数据需要在计算芯片与内存之间频繁传输;同时今天的AI大模型参数规模已经达到数百亿甚至万亿级别,大量的参数带来的是巨大的内存需求,比如DeepSeek R1(671B版本)的全量模型文件大小达到720GB,需要512GB以上的DDR4内存。

而在内存需求不断增加的当下,在设备有限的体积以及有限的成本内,如何容纳更高容量的内存也成为一个难题。

另外根据一些测试,影响大模型本地部署处理速度的主要是内存总带宽,高带宽内存可以减少数据搬运时间,加快处理速度。带宽决定了单位时间内内存与处理器之间的最大数据交换量。例如,训练千亿参数模型时,带宽不足会导致GPU利用率低于50%。

在AI场景中,通常需要 >1 TB/s的带宽,所以近几年HBM内存随着AI计算的需求而得到业界广泛关注,但HBM高昂的价格,也让其只应用在一些价格昂贵的高端算力卡上。

内存延迟过高也会导致处理器闲置,降低计算效率。例如,10ns的延迟差异可使推理吞吐量下降15%。一般来说,AI内存的随机访问延迟需控制在 50ns以内,而性能较强的HBM3可以实现30ns的延迟。

在能效方面,AI服务器系统中,内存的功耗往往占到整个系统总功耗的20%-40%,尤其是在GPU服务器中HBM的功耗可以高达300W。

前面也提到内存的需求不断增加,所以对于AI数据中心等应用来说,能够支持灵活的内存扩展也是一个重要的考量。于是面向未来的AI应用,新的内存需要支持可拆卸的设计,方便用户更换。英伟达在SOCAMM上自然也采用了可拆卸的设计。

SOCAMM:更低成本实现HBM性能

wKgZO2e1LtyAMXOCAAD_SjfobV4253.png

具体来说,SOCAMM首先是利用高I/O密度和先进封装来实现极高的带宽。根据现有信息,SOCAMM的 694个I/O端口,远超传统内存模块(如DDR5的64-128个),同时采用了3D封装技术实现高密度互连,提供接近于HBM3的带宽。SOCAMM显著缓解处理器与内存间的数据瓶颈问题,尤其适用于需要高吞吐量的AI计算场景。

SOCAMM接口目前基于LPDDR5X,理论带宽可以达到6TB/s,已经接近于HBM3的水平,但成本上要大大低于HBM3。同时基于LPDDR5本身具备的低功耗特性,集成高效的电压调节单元,可以根据工作负载实时调整供电策略,尽可能降低能耗,因此SOCAMM的能效水平相比HBM3甚至是GDDR6X更高。

高速信号传输方面,SOCAMM据称采用了高速差分对和优化的布线布局,能够在高密度环境下保持稳定的信号。

在英伟达的设计中,SOCAMM的重要特性就是紧凑体积,模块体积接近成人中指大小,可以推测其采用了chiplet设计和混合键合技术,将DRAM裸片与逻辑控制器集成在单一封装内。

如果能够将SOCAMM成功推广,那么除了AI服务器等应用外,SOCAMM小体积的特性,还将使其适用于AI PC、自动驾驶等场景上,未来应用的前景将非常广泛。

写在最后

AI计算对内存的要求可归纳为:高带宽、大容量、低延迟、高能效。传统DRAM技术已接近物理极限,而HBM、SOCAMM等新型内存通过3D集成和接口优化逐步成为AI硬件的核心。英伟达主导的SOCAMM脱离了当前内存接口主流的JEDEC规范,并希望借助AI的趋势以及英伟达GPU的强势地位,来推动自有内存接口协议的应用,打造独立的接口生态,未来SOCAMM的发展值得持续关注。

文章来自:电子发烧友

Loading

作者 yinhua

发表回复