e6b2c290-47c3-11ed-a3b6-dac502259ad0.png

1. 引言

戈登·摩尔(Gordon Moore)在他提出了“摩尔定律”[1]的开创性论文中预测了“清算日”的到来——“用分别封装并相互连接的多个小功能系统构建大型系统可能是更经济的。”今天,我们已经度过了那个拐点。多个裸芯的封装集成已广泛应用于半导体行业,包括主流的中央处理单元(CPU)和通用图形处理器单元(GP-GPU)[2]。

封装内小芯片的发展受多方面因素驱动。克服光刻机最大尺寸的限制的,保障性能/功能的前提下生产更大规模的裸芯,是各大公司发展出其特有方案的主要原因。

降低总体组合成本,同时拥有上市时间优势,这将是发展Chiplet的一个令人信服的驱动因素。例如,Figure 1[3]所示的计算核心可以在采用先进工艺实现,以提供领先的电源效率,而包含内存和输入/输出(I/O)控制器功能的结构可以复用已经成熟工艺中的设计。这样的分割方式也可以使裸芯更小,从而获得更高的良率。此外,这种方法有助于降低IP移植成本,对于先进工艺[3],IP移植成本显著增加。

e657ab58-47c3-11ed-a3b6-dac502259ad0.png

Chiplet的另一个价值是可以提供定制的解决方案。例如,人们可以根据特定产品领域的需求,选择不同数量的运算、内存和I/O以及加速器芯片。人们不再需要为不同的细分市场做不同的裸芯设计,降低了设计,验证和产品成本。

UCIe[4]是一种开放的行业标准互连,为异构芯片间提供了高带宽、低延迟、高电源效率和高性价比的封装内连接,以满足整个计算系统的需求。UCIe 1.0规范[4]包含了堆栈的所有层级(图2a),是我们所知的唯一具有明确规范机制的完整规范,该规范面向使用PCI-Express(PCIe)[5、6]和Compute Express Link (CXL)[7]协议和软件基础设施的组件的异构集成,以确保互操作性。这使得设计者能够使用广泛的封装技术对不同来源的芯片进行封装,包括不同的工厂。UCIe是先前工作的演进,它已经作为专有的多裸芯结构接口(MDFI),在Intel Sapphire Rapids CPU中实现[2]。本文所描述的关键指标、特性和仿真方法已在Sapphire Rapids silicon[2]中得到验证。

e6b2c290-47c3-11ed-a3b6-dac502259ad0.png

本文在第二节中深入研究了UCIe的要求和使用模式。在第三节中描述了我们提出的方法,该方法在UCIe规范[4]中得到了广泛采用。我们将在第四节介绍我们的成果,并在第五节得出结论。

2. UCIe1.0规范针对的使用模式、封装技术和性能指标

UCIe 1.0支持两种类型的封装,如图2b所示。标准封装(2D)被称为UCIe-S,用于实现高性价比。先进的封装(UCIe-A)用于提高电源效率。有多种商业上可用的选择,可以部署UCIe-S和UCIe-A,其中一些如图所示。UCIe 1.0规范包含了这些类别中的所有类型的打包选择。表1[3]总结了UCIe 1.0规范的业界领先性能指标。

e6d7f16e-47c3-11ed-a3b6-dac502259ad0.png

3. UCIe建议的方法

我们的方法是一个规范的分层标准,包括协议层、适配器和物理层(PHY)。我们将首先简要说明这些层,然后重点介绍独特的电路架构和封装通道设计特性,以实现目标性能、灵活性和互操作性。

A.分层

PHY负责电信号、时钟、链路训练、边带等、电路架构和封装互连通道。

Die-to-die适配器为Chiplet提供链路状态管理和参数协商。当启用时,它通过其循环冗余校验(CRC)和链路级重传机制保证数据的可靠传递。它的底层仲裁机制支持多种协议。256字节(或68字节)流量控制单元(FLIT)支持底层的可靠传输机制。

我们将PCIe和CXL协议映射到UCIe中,因为这些协议被广泛部署在所有计算机系统的板级上。这样做是为了利用现有的生态系统,确保无缝互操作性,使板级组件可以被打包到一个封装中。通过PCIe和CXL,当今平台上部署的片上系统(SoC)、链路管理和安全解决方案可以无缝迁移到UCIe。

我们为UCIe这样die-to-die互连的使用模式的解决方案是全面的:使用直接内存访问的数据传输,软件发现,错误处理等,通过PCIe/CXL.io解决;内存使用情况通过CXL.Mem处理;而加速器等应用程序的缓存需求是通过CXL.cache解决的。我们还定义了一个“流协议”,它可以用来映射任何其他协议,如专有的对称缓存一致性协议(例如,超路径互连)。我们的方法还使UCIe联盟能够创新出新的协议,以覆盖新的使用模式或改进现有的协议。

我们支持不同的数据速率、宽度、凸距和通道范围,以确保最广泛的互操作性,如表1所示。互连的构建单元是一个集群(cluster),其中包括N个单端、单向、全双工数据通道(标准封装的N = 16,先进封装的N = 64),一个用于valid的单端的通道,一个用于tracking通道,每个方向有一个差分转发时钟,每个方向有两个用于边带的单端通道(一个用于800Mhz时钟,一个用于数据)。边带接口用于状态交换,方便数据集群中链路的训练,即使在在链路未被训练的情况下,也有寄存器访问机制,用于诊断。先进封装支持使用备用通道来处理故障通道(包括时钟、valid、边带等),而标准封装支持宽度降级来处理故障。可以聚合多个集群来为每个链接提供更高的性能,如图3所示。

e7112632-47c3-11ed-a3b6-dac502259ad0.png

B.物理层架构

我们在构建UCIe PHY层时已经将集成设备制造商(IDM)和外包半导体组装和测试(OSAT)可移植性考虑在内。大多数电路组件可以用数字类型的电路构建,如推挽发射机(TX)、数字延迟锁定环(DLL)和相位插补器(PI)、基于变频器的前端接收器(RX)、用于采样的动态锁存比较器和基于变频器的时钟分布。一些组件可以与更高性能的标准模拟模块互换,如用于RX模拟前端(AFE)的连续时间放大器、片上终端、电感器、片上稳压器等,它们可移植到任何现代IDM节点。

我们为UCIe-A和UCIe-S提出了相同的时钟和信号方案。这些方案包括源时钟同步和匹配的时钟/数据延迟路径,以实现在噪声较大的供电环境中仍有稳定的性能,同时将不归零(NRZ)编码信号作为下一节将讨论的通道规格的最佳能耗/性能。TX输出摆幅被规定为400 mV-850 mV的宽工作范围,以允许实现复杂性与通道能耗/性能优化。RX必须满足输入在16GT/S时眼图大小(高*宽)40mV*47ps以及在32GT/s是眼图大小为40 mV*20ps的标准。在早期训练阶段的参数协商将把摆幅等级传达给接收的裸芯,此外RX触发点以及其他参数校准也可以在这个时候完成。

经过训练后,链路的时钟和数据路径间将有大约0.5单位间隔(UI)。这个0.5UI的目标使链路有效地成为一个“匹配的架构”,对最大限度地减少确定性抖动(DJ)对链路定时性能的影响至关重要。在降低供电电压,时钟和数据路径之间的0.5 UI延迟增量为电源下降的幅度乘以电路路径的α系数(即延迟变化相对于VCC变化的百分比)。通常在低压供电时,时钟和数据路径之间的延迟增量越大,两条路径之间的偏移就越大。这种额外的偏移会直接导致链接性能下降。建议的0.5 UI架构允许在16 GT/s的电压下提供40-50 mV的电源噪声。相比之下,1.5或2.5的UI目标将需要更严格的电源噪声规格或高带宽跟踪机制,这可能会带来大量的能耗。RX端的匹配架构要求通过数据和时钟路径的延迟到采样触发器之间的间隔不超过0.1个UI。将由两个具有控制端的CMOS缓冲器组成的纠偏缓冲器(De-Skew)添加到每个数据路径通道,用于通道间的纠偏校准。如果考虑到较高的电源噪声容限,整体功率和噪声影响可以忽略不计。图4展示了我们提议的PHY体系结构的概述。

e72980ce-47c3-11ed-a3b6-dac502259ad0.png

来自RDI接口的线路(图2a)经过跨时钟域FIFO,来重新计时协议锁相环和物理层锁相环时钟域之间的信号。FIFO被转换为串行输出,并通过一个阻抗补偿的TX驱动程序传输。时钟路径包括一个延迟锁相环(DLL),用于为精密的偏移调节器(PI)和占空比校正器(DCC)生成必要的参考值(正交或相同)。在接收机裸芯上,通过在数据RX AFE和采样触发器之间添加一些延迟(通常是2个反向器)来匹配发送到采样器触发器的数据和时钟路径,以匹配时钟RX AFE+相位生成/时钟分配带来的延迟。

时钟的两个相位被分为偶数时钟和奇数时钟。对于4 GT/s, 8 GT/s, 12 GT/s和16 GT/s,两个时钟以90°和270°的相位,以一半数据速率(例如,2 GHz为4 GT/s, 4 GHz为8 GT/s)发出。这是基于传输端以0°相位传输数据而言的,因此到采样器的时钟和数据路径之间所需的0.5 UI相位差。差分转发时钟的两个边缘都用来在RX处采样,称为2路交错。对于24 GT/s和32 GT/s的操作,支持额外的可选4路交错,配置为45/135度,以优化功率。图5总结了用于实现灵活性和功率优化的2路或4路时钟交错选项。在较高的数据速率下,实现4路交错通常比2路交错更节能。在考虑到入口/出口延迟和相应的高di/dt和更高的电源噪声时,建议使用全局时钟方案获取最佳的性能优化。这在较低的数据速率下尤其重要,这也将与未来的3D die-to-die标准十分相关。

e7742d54-47c3-11ed-a3b6-dac502259ad0.png

此外,PHY架构还有一些附加细节,包括一个Valid通道,用于在流量空闲时启用时钟门控(<1 ns)。我们估计,在这种空闲状态下,通过选通包括从锁相环输分布到每个PHY模块的主干在内的大部分时钟,可以节省≥85%的总功率。这种方法在利用率低于100%情况下运行的工作负载特别有效。我们还分配了一个Track通道,它可以在后台由于温度漂移而调整时钟到数据的偏移。

保持0.5 UI的时钟到数据偏移的源同步时钟,使得链路在电源噪声环境中保持稳定的性能。这使得可以采用较低的VCC,以实现最佳功率/延迟性能的最佳平衡,同时避免严格的电源调节,以简化SoC集成。表2总结了在表1所示数据速率下,达到<<1.0的及时故障(FIT)率所需的原线误码率(BER)。在较低的操作数据速率下,PHY原线误码率为1e-27。在较高的数据速率下,原线误码率为1e-15;使用16位CRC可以实现目标FIT。

e7c6e3aa-47c3-11ed-a3b6-dac502259ad0.png

C.标准封装通道设计

我们根据最先进的Flip-Chip封装技术定义UCIe标准模块,以实现表1中的性能目标。我们的建议方案提供了很大的灵活性,包含了封装行业中各种技术产品。我们建议采用一个固定大小的模块,以促进各芯片之间的互操作性。

图6所示的Flip-Chip封装,是当今主流的封装解决方案[8]。在过去的30年里,封装技术获得了极大的发展。目前,最大的层数大于20(例如,2个核心层,正反面均有9个堆砌层),最大的外形尺寸超过3000毫米²。为了与摩尔定律的扩展保持同步,受控塌陷连接(C4)凸点的最小间距减小到约100 μ m,布线的最小间距减小到约20 μ m。这些使得每个布线层在芯片边缘大约有20个IO/mm的密度。为了保持可负担性,这些间距和密度预计将会缓慢增大。因此,更高的IO带宽密度需要更多地依赖于更快的数据速率和更多的层数。

e7de7614-47c3-11ed-a3b6-dac502259ad0.png

基本的UCIe-S模块,无论是用于发射机(TX)还是接收机(RX),都由20个单向单端模式的信号组成。推荐的凸点排布如图7所示。靠近裸芯边缘的前10个信号在一个布线层中避开凸点区域,而后面的其他10个信号在下一个布线层中使用相同的布线设计策略回避凸点区域。模块宽度选择为571.5μm,因此沿裸芯边缘的间距Py为190.5μm。根据所选的技术选项,其他尺寸的选择是灵活的。表3列出了基于110 μ m和130 μ m最小凸距的两种设计案例。对角线方向的间距P,深度方向的间距Px都有相应的调整。其他尺寸需要满足以下两个条件:

P=D+L+2S   (1)

P_y=D+3L+4S   (2)

其中,D是通孔焊盘直径,L是导线宽度,S是导线周围的间距。在571.5μm的模块,引脚密度为17.5 IO/mm,两个布线层总密度为35IO/mm。

e7f883c4-47c3-11ed-a3b6-dac502259ad0.png

 

e81bf9f8-47c3-11ed-a3b6-dac502259ad0.png

我们提出的UCIe-S模块包括一个TX块和一个RX块。因此,全模组宽度为1143 μ m。引出走线的排序在TX和RX之间是对称的,因此一个PHY设计可以用来互连所有的Chiplet。标准模块还支持堆叠,通过4个布线层层进一步增加引出的IO密度至70 IO/mm。这些模块以棋盘格的形式排列(图8)。裸芯边缘的模块使用两个顶层的走线层连接,而靠后的模块使用两个较深的路由层连接。我们建议坚持相同的模块宽度。如果两个芯片之间的模块宽度显著不同(如图9所示),则需要为扇入和扇出走线提供空间。这增加了通道长度,并需要较大的裸芯间距离,此时,两个面对面的chiplet的PHY模块过一个微小的芯片间隙互联的方案是不可行的。

e8305cd6-47c3-11ed-a3b6-dac502259ad0.png

 

e8463920-47c3-11ed-a3b6-dac502259ad0.png

面积密度与凸点间距相关。如表3所示,较宽的间距会造成较大的凸点区域深度和较小的区域密度。封装技术的进步一直在推动凸距变小,以增加面积密度。减少接地凸起也增加了区域密度。图7中的凸点排布具有良好的接地隔离性,以确保通过深层封装层的通道能够满足32GT/s的要求。然而,如果目标数据速率较低,或如果不进行模块堆叠,且通空堆叠高度较低的话,则可以减少接地凸点以节省硅面积。这样就可以灵活地适应带宽密度、硅面积和包层数量之间的不同权衡。

D.先进装通道设计

在过去的十年中,出现了新的先进的封装架构,实现了封装特征尺寸[8]的大幅减小。为了充分利用这些先进技术的能力,我们定义了一个单独的UCIe-A模块来支持表1中的性能目标。与标准模块类似,先进模块支持多种封装技术。该模块的建议边缘宽度对于独立开发的芯片之间的互操作性至关重要。我们有内置的修复冗余,这对实现良好的封装良率至关重要。

工业上先进的封装技术使凸点间距小于55 μ m,并将布线间距改善到几微米。其中许多技术都利用了硅制造能力。小通孔尺寸和良好的通孔排列使通孔能被走线所包围。这为信号层间传递和交换布线顺序创造了高度灵活性。这与标准封装的解决方案有很大的不同。

图7中标准模块的凸点排布并不适用于先进封装技术。它强制采用16位集群设计,并需要堆叠至少10个模块,才能充分利用先进封装的布线密度。相应片上数据进出这些模块的路径非常复杂,阻碍了PHY的模块化设计。它也不包含先进封装所要求的用于修复的冗余位。此外,图8中的棋盘格模块排列导致部分通道明显变长,这将限制带宽和电源效率。

因此,先进模块被设计成不同的尺寸和外形。图10显示了一个基于45 μ m间距的凸点排布[4]。与标准模块类似,它由一个TX模块和一个RX模块组成。TX模块靠近裸芯边缘,而RX模块在后面。两者共74个信号,其中数据通道64个,overhead信号10个。其中一个特殊的overhead信号是用于修复的冗余信号。先进的封装解决方案通常涉及成千上万个小间距的微凸点互连。先进模块为每32个数据信号分配两个冗余凸点,以修复潜在的装配故障。这是保证制造良率的必要条件。

e8baa54e-47c3-11ed-a3b6-dac502259ad0.png

模组宽度固定在388.8 μ m。当使用先进封装时,两个芯片通常放在一起,以减少信道长度,这对电源效率和收发器设计的非常关键。然而,如果两个Chiplet之间的模块宽度相差较大,扇入和扇出的连接空间就很小。这与图9中标准封装模块的问题类似。由于先进封装信道具有很强的RC特性,对信道长度非常敏感,模块宽度不匹配会大大降低信道带宽和功率效率。因此,固定的模块宽度是芯片互操作的基础。

45μm间距凸点共10列,模块宽度388.8 μ m,如图10所示。沿裸芯边缘的凸距为77.76 μ m,在深度方向和对角线方向的凸距均约为45 μ m。这遵循六边形模式,最大化了凸点密度。对于更紧密的凸点密度,可以调整列和行的数量,以实现最大的凸点密度。例如,如果封装工艺支持25 μ m的最小凸距,则可以将列数增加到18个,沿裸芯边缘的凸距减小到43.2 μ m,使模块宽度保持在388.8 μ m。沿深度和对角线方向的间距约为25 μ m。这也遵循一个六边形的模式。

对于先进模块,裸芯边缘的引出IO密度约为400 IO/mm。面积密度随凸距的增大而增大。在45 μ m间距时,凸点深度约为1 mm,因此面积密度约为400 IO/mm²。面积密度与凸距的平方呈反比关系,可以随凸距减小而进一步增大。先进的封装装有通孔和导线的精细设计规则,因此凸点引出的限制比有机封装少得多。TX和RX模块可以沿裸芯边缘均匀排列,而不是棋盘格图案。如图11所示,所有的TX模块都可以放在模具边缘,而所有的RX模块都在它们的后面。这样做有两个优点:首先,它只需要单一的TX和RX块设计,因此简化了电路设计。第二,双向的导线长度相同。换句话说,它减少了最坏情况下的走线长度。这大大提高了这些有损耗通道的带宽。

e8fb61ce-47c3-11ed-a3b6-dac502259ad0.png

图示所示的高级模块的凸点排布不适用于凸间距为110 μ m的标准封装。标准封装模块至少2.5毫米深,而接地屏蔽远远不足以满足标准封装中的长通孔。它将需要至少8个布线层来分解所有的信号。

4. 封装通道性能结果

我们模拟了UCIe-S和UCIe-A模块的参考通道,以验证其电气性能。

A.标准封装通道性能

标准封装通道基于如图8所示的堆叠模块配置。各模块采用图7所示的凹凸图,凹凸间距为110 μ m。封装基板被假设为8-2-8,这表示在两个核心层的正面和背面都有8个堆砌层。堆叠UCIe-S模块的导线连接需要4层布线层,从封装表面开始依次为第2层、第4层、第6层、第8层。最坏的通道在第8金属层,因为它有最长的垂直通过堆叠高度和最高的串扰。

通道长度取决于两个芯片的位置。信道越长,损耗越大,信号裕度越差。图12绘制了一个25mm长的通道的特性。损耗和累积串扰是基于电压传递函数(VTF)[4,9]而不是s参数。它将TX、RX的终端和容性负载与通道结合起来进行综合评价。在16 GHz时,VTF损耗为-8.77 dB,累积VTF串扰为-31.3 dB。它们基于UCIe规范[4]中32gt /s标准封装通道的TX和RX要求:TX终端30Ω,RX终端50Ω,TX和RX的等效电容均为125fF。低裸芯电容通常需要低压静电放电(ESD)保护,片上电感线圈,TX和RX电路负载优化。由于TX和RX的电阻终端和容性负载被纳入图12中的VTF损耗和串扰中,因此在通道特性中存在很小的反射。这些在时域仿真中可以被完全看到。在2 dB的TX去加重的情况下,32GT/s时的RX眼图如图13所示。根据峰值失真分析,在40 mV眼高时,最坏情况下眼宽开度大于65% UI。TX去加重有~10%的UI贡献。除去时钟和控制信号的开销,整个芯片边缘的数据带宽密度达到了约224 GB/s/mm。

e9752572-47c3-11ed-a3b6-dac502259ad0.png

 

e9916a70-47c3-11ed-a3b6-dac502259ad0.png

封装内通道可分为三段:第一个裸芯上的凸点引出区域、第一个裸芯与第二个裸芯之间的导线以及第二个裸芯的凸点接入区域。芯片间的连线通常是一条50 Ω传输线,长度可为两毫米到十几毫米。凸点引出和接入的片段非常短。整个通道相对简单。图14显示了16 GT/s时的裕量与图12中参考通道的终端配置之间的关系。最佳的RX配置大约是50 Ω。这表明了50欧姆是减少RX反射的RX与通道阻抗匹配的首选。然而,TX端可以低于通道阻抗。较低的TX终端提高了进入通道的电压等级,增加了RX电压摆幅和信号裕度。然而,在TX端较大的不匹配将导致不必要的反射。因此,最佳的TX设置大约是30 Ω。对电阻终端的灵敏度不会受到TX去加重、电容负载或数据速率的明显影响。对于较低数据速率和较短路径的应用,可以对终端进行调整,换取更大的信号裕度和更好的能效。

e9cc79e4-47c3-11ed-a3b6-dac502259ad0.png

B.先进封装通道性能

一个参考先进封装通道被放在一起来验证UCIe-A模块的性能。凸点引出和布线是需要优化的物理通道的两个关键组件。凸点-通孔串扰对接地屏蔽的位置高度敏感。因此,屏蔽凸点的最佳位置需要在硅面积和串扰等级之间进行权衡。金属堆叠对线路性能影响很大。这是互连技术开发的一个关键领域,用于优化通道范围、路由密度和带宽。参考通道是基于图10中的45 μ m间距凸点排布。基于1µm的最小宽度和间距设计规则进行路径设计。相反方向的信号被分成两个路由层,中间以一个地面参考层隔开。通道长度假设为1.5 mm。图15中叠加了20个信号的VTF损耗和累积串扰。最坏情况下VTF损耗在8 GHz时为-2.73 dB。最坏情况下累积VTF串扰在8 GHz时为-24.3 dB。VTF指标是基于UCIe规范[4]中16GT/s先进封装通道的TX和RX要求: 25ΩTX上有250ff电容负载在以及在无端接的RX上有200 fF电容负载。由于难以在间距很小的凸点范围内安装片上电感器,因此先进封装的电容负载更高。在16GT /s时对应的RX眼图如图16所示。无端RX增加了电压波动。由于低损耗和低串扰达到奈奎斯特频率,眼睛是广泛打开的。根据峰值失真分析,在不使用任何均衡电路的情况下,在40mv眼高处,最坏情况下眼宽开度大于80% UI。这使得除开销信号外,以16GT/s速率跨越整个裸芯边缘的带宽密度约为658 GB/s/mm。这已经是32 GT/s标准模块的三倍。在相同的数据传输速率下,先进模块的带宽密度是标准模块的6倍。先进的封装技术正在迅速发展。设计特征尺寸不断缩小,层数不断增加。这些技术的进步将继续减少信道损耗和串扰,以支持更高的数据速率,如32 GT/s。

e9e55a04-47c3-11ed-a3b6-dac502259ad0.png

 

ea2cc8c6-47c3-11ed-a3b6-dac502259ad0.png

由于先进封装通道非常短,它对TX和RX终端的灵敏度与标准通道不同。图17显示了在16gt /s时的裕度与TX和RX终端配置之间的关系。它倾向于较强的TX,对RX终端未表现出显著的敏感性。因此,我们设置UCIe-A TX终端电阻为25Ω,RX不端接。这样可以最大化信道裕度,简化RX设计,降低功耗。

ea827708-47c3-11ed-a3b6-dac502259ad0.png

5. 结论

该行业需要一个开放的芯片生态系统,它将会为计算机领域带来革新。我们使用UCIe 1.0规范的方法提供了引人注目的电源效率和成本效益,并在前期解决了即插即用和规范性问题。我们预计下一代的创新将发生在Chiplet级别,允许提供不同功能的芯片组合供客户选择,以最佳地满足其应用程序需求。

未来,我们将对时钟结构和相应的功率噪声对信号裕度的影响进行更多的灵敏度研究。随着凸点间距的不断缩小和3D封装集成成为主流,我们期待有更多创新带来更节能、更经济的解决方案。从延迟、带宽和能效的角度来看,这些可能需要更宽的链路以更慢的速度运行,并更接近于片上连接。在未来的几十年里,封装和半导体制造技术的进步将彻底改变计算领域。UCIe做好了充分准备,在生态系统中的不断创新,以充分利用这些技术进步。

Loading

发表回复