中国科技巨头华为本周在上海举办的华为Connect 2025大会上宣布了其下一代昇腾(Ascend)芯片系列的计划。 华为董事会副主席徐直军在大会主题演讲中表示,2025年是一个“值得纪念的年份”,并指出1月份深度求索 - R1(DeepSeek - R1)的发布是公司的一个转折点。
他还承认,中国在半导体制造工艺节点方面可能会“在相当长的一段时间内”落后。 华为针对关税和贸易禁运采取的应对措施是推进基础设施设计与技术发展,同时决定对其大部分软件进行开源,其中包括盘古开源(openPangu)基础AI模型和Mind系列软件开发工具包(SDK)。 新的昇腾(Ascend)芯片 公司计划推出三个新的昇腾(Ascend)芯片系列,分别为950、960和970。
昇腾(Ascend)950PR和950TO将采用同一晶圆制造,并且会额外支持低精度数据格式,包括FP8——昇腾950将实现1千万亿次浮点运算每秒(PFLOP)的性能,MXFP8则可达2千万亿次浮点运算每秒(PFLOP)。1 PFLOP表示每秒进行一千万亿次浮点运算。 此外,还会具备更出色的矢量处理能力以及更精细的内存访问,内存访问粒度将从512字节降至128字节。 昇腾(Ascend)950芯片将提供2 TB/s的互连带宽,是当前昇腾910C的2.5倍。950PR将于2026年第一季度面市,昇腾950DT将于2026年第四季度推出。
一年后的2027年第四季度,昇腾(Ascend)960的计算能力、内存访问带宽、内存容量和互连端口数量都将是昇腾950的两倍。它将支持华为专有的HiF4数据格式,据公司称,该格式的精度高于其他FP4技术。 性能最为强劲的芯片将是昇腾(Ascend)970,计划于2028年第四季度发布。徐直军表示:“我们仍在对其部分规格进行研究,但总体目标是大幅提升其所有规格。”他称,昇腾970系列预计将提供4TB/s的互连带宽,能够实现8千万亿次浮点运算每秒(PFLOP)的FP4性能,并且会配备更大的内存容量。
神经网络处理器(NPU)的超级模组(SuperPods) 华为的策略是通过超级模组(SuperPoD)的形式为超大规模数据中心提供原始计算集群能力。首个超级模组将于2026年第四季度以阿特拉斯(Atlas)950超级模组的形式亮相,该模组将配备新的昇腾(Ascend)950DT芯片。 竞争对手英伟达(NVIDIA)的NVL144系统(类似于超级模组)将于2026年中后期推出。
华为宣称,其首个超级模组中的神经网络处理器(NPU)数量将是NVL144中图形处理器(GPU)数量的56.8倍,且处理能力近乎达到七倍。即便英伟达计划在2027年推出NVL576,阿特拉斯(Atlas)950超级模组的表现仍会更胜一筹。 通用计算芯片 在通用计算领域,华为计划于2026年第一季度推出两款鲲鹏(Kunpeng)950处理器,分别具备96核192线程以及192核384线程。
徐直军还提及了“世界上首个通用计算超级模组”——基于鲲鹏950的泰山(TaiShan)950超级模组,该模组将于2026年第一季度面市。 开源连接协议 神经网络处理器(NPU)和通用计算超级模组将采用统一总线(UnifiedBus)2.0,这是现有统一总线1.0的下一代版本。统一总线是阿特拉斯(Atlas)900 A3超级模组所使用的互连技术,该产品于今年3月投入使用,截至目前已安装300多台。
统一总线(UnifiedBus)2.0将是一项开源协议,其技术规格将立即向开发者社区发布。统一总线2.0将应用于新一代超级模组内部,并用于连接超级模组集群,以形成超级集群(SuperClusters)。 首个集群产品将是阿特拉斯(Atlas)950超级集群,其神经网络处理器(NPU)数量是xAI的巨像(Colossus)集群的2.5倍,计算能力是其1.3倍,而巨像集群目前是世界上最强大的计算集群。
2027年第四季度,华为计划推出阿特拉斯(Atlas)960超级集群,该集群将集成超过100万个神经网络处理器(NPU),并在FP4模式下实现4泽它浮点运算每秒(ZFLOPS,1 ZFLOP表示每秒10^21次浮点运算)的性能。徐直军表示:“由统一总线(UnifiedBus)驱动的超级模组和超级集群是我们应对当前及未来激增的计算需求的解决方案。”