电子发烧友网综合报道 美东时间1月26日,微软重磅发布第二代自研人工智能芯片Maia 200,这一举措成为微软减少对英伟达芯片依赖、高效驱动自身服务的关键一步,也标志着其在自研芯片领域取得重大进展。

Maia 200采用台积电先进的3纳米工艺制造,现已开始部署至爱荷华州的数据中心,后续还将进驻凤凰城地区。微软云与AI业务负责人Scott Guthrie在博客文章中宣称,Maia 200是“微软有史以来部署的最高效推理系统”,每美元性能相比微软当前最新一代硬件提升30%。

从性能指标来看,Maia 200表现卓越。在FP4精度下,其性能是第三代亚马逊Trainium芯片的三倍;FP8性能则超越谷歌第七代TPU。微软已向开发者、学术界和前沿AI实验室开放Maia 200软件开发工具包的预览版,并计划未来向更多客户开放该芯片的云服务租用。

Maia 200被设计为专门的推理加速器,重点优化AI生成内容(如回答用户提问)这类持续计算任务,旨在降低运行ChatGPT、Copilot等服务的调用成本。它可服务于包括OpenAI最新GPT – 5.2模型在内的多种AI模型,为Microsoft Foundry和Microsoft 365 Copilot带来成本优势。

在可持续性方面,微软执行副总裁斯科特·盖茨在宣传视频中强调,Maia 200采用更高效的水冷设计方案,可实现“零浪费”,有效减少数据中心对当地环境与水资源的压力。

回顾微软自研AI芯片之路,距离发布第一代人工智能芯片Maia 100已过去两年。2023年11月,微软在Ignite大会上发布Maia 100,采用台积电5纳米工艺,运用CoWoS – S封装技术,拥有1050亿个晶体管,略少于AMD MI300(1530亿)。它主要用途是AI训练与推理,侧重于大语言模型(LLM),内存配置为64GB HBM2E,带宽约1.6TB/s – 1.8TB/s,采用液冷散热方式,专为高密度数据中心设计。

Maia 100并非单纯追求极致算力,而是为优化微软Azure云服务的特定场景而生,用于运行Bing、GitHub Copilot以及OpenAI的模型。微软采用垂直集成思路,从芯片、服务器主板到机架冷却系统协同设计。其独特的“MX”数据类型是一大亮点,微软引入自定义的MX数据格式,支持亚8位(Sub – 8 – bit)计算,通过软硬件协同设计,在保持模型精度的同时,显著提升计算密度和能效,特别适合大语言模型的推理任务。

在设计上,Maia 100有取有舍。短板在于片外内存带宽(HBM)约为1.6TB/s,略低于英伟达H100和谷歌TPU v5,因其基于LLM热潮前设计;长板则是拥有强大的片上网络(NoC)和集群互联能力,每个芯片内置RDMA以太网接口,集群间互联带宽高达4.8 Tbps,可通过极快网络弥补单点显存不足,适合大规模分布式训练。为方便开发者使用,Maia 100支持OpenAI Triton和标准的PyTorch框架,开发者无需重写大量代码就能将模型迁移到Maia硬件上。

微软此次发布Maia 200,凸显了科技巨头争夺AI算力自主权的激烈竞争。在英伟达芯片供应紧张且成本高昂的背景下,微软、亚马逊和谷歌均加快自研芯片进程,力求为云客户提供成本更低、集成更顺畅的替代方案。微软已表示正在设计Maia 300后续产品,未来其在AI芯片领域的发展值得期待。

文章来自:电子发烧友

Loading

作者 yinhua

发表回复