在生成式AI和大模型带来的AI洪流下,不少大厂都不约而同地选择了自研AI芯片。即便这意味着组建新的团队,花费大量的资金,但从长远发展的角度来看,自研芯片似乎成了势在必行。然而掀起这股AI洪流,或者说将其推向浪尖的“始作俑者”,OpenAI,却也已经在计划着自研芯片。
有了英伟达供应的前提下为何要走向自研之路
稍有关注OpenAI动向的话,想必也对2023年底OpenAI闹出的离职风波有所耳闻。据外网报道,在OpenAI闹剧期间,Sam Altman已经在秘密筹划一项数十亿美元的芯片项目(据称项目名为Tigris)。甚至其去年的中东之行,就是为了给这一项目筹集资金。
在各大公司都选择批量扫货的前提下,去年用于AI服务器的英伟达GPU处于一个极度缺货的状态,比如Meta就在月初宣布计划再购买35万块英伟达的H100 GPU。就连为OpenAI提供服务器的微软,也面临着扩大AI服务器规模的困难。为此微软也在加快内部AI芯片的研发进程,但微软的这一芯片必然不是单纯为了OpenAI打造的,而是面向所有Azure的客户。
更别说OpenAI面临着超高的运维成本,网传OpenAI每天的服务器运维费用高达70万美元。
在如此高昂的服务器硬件与运维成本下,OpenAI也开展了相关的订阅收费模式ChatGPT Plus,费用为20美元每月。
但据统计,去年10月份ChatGPT Plus的订阅用户只有20多万,这样的用户规模根本没法覆盖运维支出。更何况因为硬件资源的限制,OpenAI一直在限制ChatGPT Plus的订阅用户规模,以免出现服务器负载过高的情况。
为此,OpenAI要想进一步降本增效,并保证下一代GPT模型能有足够的算力支撑,走上自研这条路倒也情有可原。由OpenAI自研的芯片,自然会专为GPT模型作针对性的优化,也有利于未来的模型与硬件迭代。
从资金、设计到制造,OpenAI寻求外援
然而自研造芯不仅需要组建一个设计团队,也需要半导体制造厂商的支持,更别说打造高性能AI芯片的资金了。据了解,阿布扎比的G42和日本的软银已经与Sam Altman展开合作交谈,这些投资者将为OpenAI提供足够的资金来打造一个AI芯片的制造网络。
据传这一投资也拉到了台积电的合作,后者将为其提供芯片的支持。要知道目前用于AI芯片的CoWoS先进封装产能可是炙手可热,即便台积电在积极扩产,但在源源不断的制造订单下,可能仍然难以满足云服务厂商和互联网厂商们的AI芯片需求。
再者就是HBM的产能,除了算力对逻辑芯片提出的高要求外,AI应用所需的高带宽也对存储芯片提出了不少的要求,甚至在近年推出的一大批AI芯片中,HBM内存已经成了标配。可HBM有限的制造厂商们却面临着产能紧缺的问题,比如SK海力士就透露其2024年的HBM3和HBM3E产能已经全部售罄,甚至已经在和客户商讨2025年的订单。
其实早在去年6月,Sam Altman就曾访问韩国,并与韩国总统尹锡悦会面,并提议韩国应该多多关注芯片产能问题。上周,Sam Altman再度访韩,据悉其参观了三星电子的半导体产线,并会见了三星的芯片业务负责人,这之后又与SK海力士的CEO进行了会谈。此行的目的已经很明显了,这两大HBM厂商都已经打入了英伟达的AI芯片HBM内存供应链中,尤其是SK海力士。
OpenAI要想自研AI芯片,势必用上最新的HBM内存,那么与存储厂商直接预订产能是最好的选择。这也是自研AI芯片面临的难处之一,英伟达这类已经有大量订单和多年设计经验的厂商,在晶圆代工厂往往有着更大的话语权,能够抢占到更大的产能。如果OpenAI能够抛出大批量的订单的话,或许可以说动台积电、三星和SK海力士等厂商为其腾出额外的产能。
自研的其他捷径
对于OpenAI来说,自研AI芯片固然存在着很多阻碍,但在这个设计路线已经与过去大不相同的时期,也有不少捷径可走,比如Chiplet技术。谷歌TPU项目的负责人之一Richard Ho从去年11月起,已被OpenAI聘请为硬件部门的负责人。但从其公开招募的职位来看,OpenAI还没有大规模组建硬件设计团队。
即便如此,OpenAI依然有着缩短芯片设计周期的手段,那就是通过Chiplet技术,降低设计芯片的工程量。其自研的部门只需要涵盖芯片的逻辑计算部分,其余的I/O等模块,均可以靠第三方IP打造的Chiplet进行实现。
如此一来不仅可以充分利用异构集成的高性价比,也可以通过重复利用IP来避免反复造轮子的情况,也更容易实现芯片的迭代,不需要组建一整个大型硬件设计团队,从而将更多精力放在计算核心的设计,以及与软硬件的联调上。更重要的是KGD的优势保证了Chiplet的良率,也就直接提高最终AI芯片成品的良率,对于新晋芯片设计厂商而言,这能有效地降低制造分享。
写在最后
从OpenAI或将自研芯片的动向或传言来看,AI的框架和应用走向成熟和爆红,仅仅只是实现成功的第一步。要想实现可持续的商业化落地,还是少不了硬件的支撑,尤其是与模型契合的AI芯片。所以只要是可以负担得起大投入和高风险的AI公司,都会考虑自研专用AI芯片。
同时,我们也可以看出OpenAI的野心确实不小,不少AI模型/应用开发商并没有这个魄力去选择自研的道路,因为绝大多数竞争对手的运营方式还是靠服务器托管,以订阅制或Token数来进行收费,其用户量也还没达到云服务厂商难以维系的程度。而OpenAI凭借ChatGPT成为落地AI应用的领头羊,甚至不少云服务厂商亲自下场也没能实现ChatGPT的热度。或许对于OpenAI而言,自研芯片固然风险极高,却依然是推动公司进入下一阶段的最优解。