昇腾384超节点技术如何突破AI算力互联瓶颈？

作者：发布时间：2026-06-03 12:40:20 浏览量：

5月23日，在鲲鹏昇腾开发者大会2025——昇腾AI开发者峰会上，华为重磅发布了昇腾超节点技术，实现了业界最大规模的384卡高速总线互联，为人工智能领域带来了全新的变革。这一技术通过高速互联总线取代传统以太网，将通信带宽提升至15倍，单跳通信时延降低至200纳秒，显著提升了集群的协同效率和整体算力性能。

据介绍，当前，大模型发展呈现参数与效率交替演进的态势。一方面，Scaling Law不断推动模型能力突破极限；另一方面，以DeepSeek为代表的创新架构与工程技术，正加速模型能力在千行万业的落地应用。在此背景下，MoE成为主流模型结构。

昇腾384超节点技术如何突破AI算力互联瓶颈？（图1）

然而，MoE架构的复杂性也带来了巨大的挑战。其混合并行策略（如TP、SP、EP）导致单次通信量高达GB级别，难以掩盖，且随着并行规模的扩大，传统服务器的跨机带宽成为训练的核心瓶颈，亟需计算架构的升级。实践表明，当TP、SP或EP等分布式策略的混合并行域超过8卡时，跨机通信带宽便成为性能瓶颈，导致系统性能大幅下降。

昇腾384超节点技术如何突破AI算力互联瓶颈？（图2）

为了应对这些挑战，研究者和企业正在探索多种技术解决方案。其中，华为昇腾超节点打破了以CPU为中心的冯诺依曼架构，创新提出了对等计算架构，凭借高速总线互联技术实现重大突破，把总线从服务器内部，扩展到整机柜、甚至跨机柜。在超节点范围内，用高速总线互联替代传统以太，通信带宽提升了15倍；单跳通信时延也从2微秒做到200纳秒，降低了10倍，使集群如同一台计算机般协同工作，有效突破系统性能限制。

据悉，昇腾384超节点由12个计算柜和4个总线柜构成，是目前业界规模最大的超节点，能够突破传统分布式集群的瓶颈。依托华为在ICT领域深厚的技术与工程经验，通过最佳负载均衡组网方案，该超节点可进一步扩展为包含数万卡的Atlas 900 SuperCluster超节点集群，为未来更大规模的模型演进提供有力支撑。

性能测试数据显示，在昇腾超节点集群上，LLaMA 3等千亿稠密模型性能相比传统集群提升2.5倍以上；在通信需求更高的Qwen、DeepSeek等多模态、MoE模型上，性能提升可达3倍以上，较业界其他集群高出1.2倍，在行业中处于领先地位。

华为昇腾384超节点技术的推出，标志着华为在AI算力领域的重大突破，不仅提升了算力效率，还为AI新纪元的开启奠定了基础。

昇腾384超节点技术如何突破AI算力互联瓶颈？（图3）

责编：Jimmy.zhang

昇腾384超节点技术如何突破AI算力互联瓶颈？（图4）

上一篇 : PSPI断供催生国产替代机遇

下一篇 : AI超级计算机落地台湾，供应链如何布局？