超节点算力革命(六)| 全球主流厂商超节点技术方案
2026-03-03
以下文章来源于微信公众号——全球计算联盟GCC
【前文回顾】超节点架构,以其超大带宽、超低时延、资源池化和高可靠性的核心特征,正成为驱动下一代人工智能、大数据和科学计算发展的关键引擎。它通过从根本上重塑数据中心的计算范式,有效解决了传统架构在面对极端计算负载时所遭遇的通信和I/O瓶颈。无论是在加速万亿参数模型的训练与推理,还是在赋能实时大数据分析和纳秒级金融交易等要求苛刻的场景中,超节点都展现出了无与伦比的潜力与价值。
超节点技术已成全球AI算力基础设施核心引擎,呈现代际迭代与多元技术路线。国际厂商以芯片和互联技术筑壁垒,国内企业凭系统集成与开放生态实现突破,形成超大规模、大规模、中型三类超节点布局。各厂商依托差异化架构、互联技术,打造全栈算力解决方案,推动AI算力向高密度、高能效、弹性扩展演进。
超节点规模分类
基于单超节点集成的AI加速芯片数量及扩展能力,当前主流超节点方案可划分为三个层级:①超大规模超节点,华为Atlas SuperPoD A5(8192卡)、谷歌TPU v7 Pod(9216卡)为代表,这类方案通常采用多机柜级联设计,面向万亿参数级大模型训练和国家级科学计算设施,技术门槛最高、系统复杂度最大。②大规模超节点,厂商众多,涵盖阿里云磐久、中科曙光ScaleX640、字节大禹等主要方案,这一层级的方案在单柜集成度与扩展灵活性之间取得平衡,既可作为独立计算单元部署于企业数据中心,也可通过Scale-Out网络扩展至千卡级集群。③中型超节点,包括英伟达的NVL72/144方案和AMD Helios 72/144,虽然规模不大,但凭借算力芯片优势,追求极致的算力性能,也包括超聚变FusionPod(64卡)、新华三UniPod S8000(64卡)、浪潮元脑SD200(64卡)等产品,通过创新的架构设计实现较高的算力密度和能效比,更适合企业级私有化部署和边缘智能场景。

主流超节点方案01:
华为Atlas SuperPoD系列
华为Atlas SuperPoD系列是国产超节点技术的代表,涵盖三代产品演进:Atlas SuperPoD A3(当前商用版本,384卡昇腾910C)、Atlas SuperPoD A5(2026年,8192卡昇腾950DT)、Atlas SuperPoD A6(2027年,15488卡昇腾960)。定位”全球最强超节点”,主要面向国家智算中心、头部云服务商及超大规模AI研发机构,构建从机柜级到数据中心级的全栈算力基础设施。期中Atlas SuperPoD A3(CloudMatrix 384)于2025年4月在中国电信粤港澳大湾区(韶关)算力集群正式上线。2026年3 月 2 日,华为在MWC 2026 巴塞罗那正式发布Atlas 950 SuperPoD 等超节点解决方案。

Atlas SuperPoD A5的8192卡规模由128个计算柜和32个互联柜组成,采用全光连接架构,内存容量达1152TB,互联带宽16.3PB/s。Atlas SuperPoD A6在此基础上算力再度翻番,支撑百万卡级SuperCluster部署。
关键技术
①互联协议/拓扑:UB-Mesh
UB-Mesh(Unified Bus Mesh)拓扑采用混合架构设计:Rack机柜内部采用1D/2D-FullMesh全连接拓扑,通过铜缆实现计算节点间的高带宽本地互联;Rack柜间采用一层交换的Clos拓扑,通过UB Switch实现无收敛或低收敛的带宽扩展;跨机柜大规模扩展则通过全光互联方案,采用OCS(光路交换)交换机实现高效率、低时延的动态拓扑重构。
②互联方案:全光交换与电交换协同
Atlas 950 SuperPoD的16.3PB/s互联带宽由多层级交换网络共同支撑。机柜内部采用电信号交换(UB Switch),单芯片交换容量达数Tbps级别;机柜之间采用OCS光路交换,延迟较电交换降低一个数量级,且功耗显著优化。
③内存架构:HBM2e+DDR4多级缓存与统一寻址
Atlas SuperPoD实现计算、内存、网络资源的动态池化与统一访问。通过UB总线的统一内存编址机制,任意NPU可透明访问其他NPU的HBM显存及CPU的DDR内存。内存容量扩展遵循”显存+HBM+DDR+SSD“四级层次,热数据驻留于HBM,温数据缓存于DDR,冷数据下沉至SSD,由系统软件自动管理数据放置策略。
④散热技术:液冷+风冷混合与智能温控
华为超节点采用”三明治”液冷架构创新,冷板直接接触昇腾芯片及高功耗元件,冷却液在微通道内湍流流动强化换热。配合iCooling智能温控系统,动态调整冷却策略,将GPU核心温度稳定控制在45℃以下,PUE优化至1.12。Atlas SuperPoD A5单柜功率密度超过120kW,对液冷系统的流量分配、压力平衡、漏液防护提出极高要求,华为通过冗余CDU(冷却分配单元)设计和全链路漏液监测保障可靠性。
⑤可靠性:多层级容错与故障隔离
万卡级集群的可靠性设计面临”木桶效应”挑战——单卡故障若导致全集群停摆,年均故障时间将不可接受。Atlas SuperPoD采用RAS(Reliability, Availability, Serviceability)设计:硬件层面支持ECC内存、链路冗余、热插拔维护;软件层面实现故障预测、快速隔离、任务迁移,将单点故障影响域约束在最小子集。系统级可靠性目标为99.99%可用性,支撑7×24小时连续运行。
⑥软件栈:完整的软件生态
CANN(Compute Architecture for Neural Networks),提供算子开发、图编译、运行时调度等底层能力;MindSpore(昇思)开源框架支持自动并行、动静态图统一、全场景协同;ModelArts一站式AI开发平台贯通数据准备、模型开发、训练部署全流程。
机柜方案
Atlas 950 SuperPoD 的物理部署采用“计算柜+互联柜”分离架构。128个计算柜每个集成64颗昇腾950DT NPU(8节点×8卡),32个互联柜部署UB Switch和OCS光交换设备。机柜尺寸遵循标准19英寸机架规范,但深度和承重能力针对高密度部署强化设计。
供电方案采用高压直流(HVDC)技术,减少AC-DC转换损耗,提升端到端供电效率。智能功耗管理系统根据负载动态调整芯片频率和电压,在算力需求低谷期进入低功耗状态。整机柜采用预制化交付,现场仅需连接外部冷却管路和电源母线,部署周期较传统方式缩短80%以上。
路线特点与差异化
华为Atlas SuperPod的核心差异化在于全栈垂直整合与自主可控:从昇腾AI芯片、UB互联协议、机柜硬件到CANN/MindSpore软件栈,全链路自主研发,不受外部技术管制制约。这一路线在当前的地缘政治环境下具有独特战略价值,但也意味着更高的研发投入和生态建设挑战。
技术路线选择上,华为坚持开放协议的策略:UB-Mesh在机柜内部提供极致性能,同时通过UBoE和OCS实现与标准网络的互联互通,避免封闭生态的扩展性瓶颈。
主流超节点方案02:
谷歌TPU SuperPod

谷歌将SuperPod定位为”云端AI基础设施的底座”,既支撑内部搜索、广告、YouTube等核心业务的AI模型训练,也向Google Cloud客户提供按需算力服务,其打破了”只有英伟达GPU才能训练顶级模型”的神话。
谷歌的超节点战略具有鲜明的”垂直整合+云原生”特征:自研TPU芯片、自研ICI(Inter-Chip Interconnect)互联协议、自研3D Torus拓扑、配合JAX/TensorFlow框架优化,形成全栈控制。这种封闭但高效的生态,使谷歌在大模型竞赛中保持了独特的技术自主性。
关键技术
①互联协议/拓扑:ICI与3D Torus环形网络
谷歌自研的ICI(Inter-Chip Interconnect)协议是TPU SuperPod的技术基石。与英伟达NVLink的点对点全互联不同,ICI采用2D/3D Torus环形拓扑——计算节点 arranged 在多维环面网格中,每个节点与相邻节点直接相连,数据包通过维度顺序路由(dimension-ordered routing)到达目的地
②互联方案:光路交换(OCS)动态重构
TPU v4 Pod引入光路交换(Optical Circuit Switching, OCS)技术,允许动态重构Torus网络的物理连接拓扑。OCS通过MEMS微镜控制光信号路径,可根据训练任务的通信模式切换最优拓扑——数据并行任务偏好高带宽低直径拓扑,模型并行任务则需要特定的维度映射。这种”软件定义互联”能力使同一物理基础设施适配多样化工作负载。
③内存架构:HBM与超大容量片上SRAM
TPU芯片的内存架构设计独具特色:每个TPU v4芯片集成32GB HBM高带宽内存,同时配备144MB超大容量片上SRAM。大容量SRAM可将热数据驻留于芯片内部,减少对HBM的访问次数,从而提升有效算力利用率。TPU v7 Ironwood的HBM容量和带宽均较v5p翻倍,支持万亿参数模型训练。
④散热技术:数据中心级液冷系统
谷歌作为超大规模数据中心运营商,将液冷技术应用于TPU Pod的整体设计。TPU v3是Google数据中心历史上第一款引入液冷技术的芯片。TPU v4 Pod部署于定制化的液冷数据中心,PUE优化至行业领先水平。谷歌的液冷方案与服务器设计深度协同——冷却液分配、流量控制、温度监测均纳入统一管理系统,支撑4096卡级别的热管理需求。
⑤可靠性:软硬件协同容错
超大规模集群的可靠性需要软硬件协同设计。硬件层面,TPU芯片支持ECC内存保护和链路冗余;软件层面,JAX框架内置检查点(checkpoint)和故障恢复机制,训练任务可自动从最近检查点重启,最小化单点故障的影响。谷歌的Borg集群管理系统负责任务调度和资源分配,具备丰富的超大规模运维经验。
⑥软件栈与调度能力:构建了TPU完整的软件生态
JAX作为高性能机器学习研究框架,支持自动微分、XLA编译优化、SPMD(单程序多数据)并行;TensorFlow作为生产级框架,与TPU深度优化集成;XLA(Accelerated Linear Algebra)编译器将高级计算图转换为TPU高效执行代码,实现接近理论峰值的算力利用率。
机柜方案
TPU Pod的物理部署采用定制化机柜设计,非标准商用服务器形态。TPU v4 Pod的4×4×4三维环面网络对应物理空间的三维布局,相邻节点的短距离连接通过铜缆实现,跨机柜的长距离连接则采用光纤。这种”几何拓扑与物理布局同构”的设计最小化了线缆长度和信号延迟。
供电方案充分利用谷歌数据中心的规模优势,采用48V直流配电架构,减少转换损耗。机柜级液体冷却与芯片级散热协同,冷却液直接流经TPU模块的冷板。整体基础设施与谷歌云的数据中心运营深度整合,客户通过API按需获取算力,无需关注底层硬件细节。
路线特点与差异化
谷歌TPU SuperPod的核心差异化在于垂直整合的深度与云原生的成熟度。从芯片架构、互联协议、拓扑设计到编译器优化、集群调度,全链路自主可控,形成了难以复制的技术壁垒。3D Torus+OCS的拓扑创新为超大规模互联提供了不同于英伟达全互联的替代路径,在特定规模区间具有成本优势。
局限性在于生态的封闭性——TPU仅通过谷歌云提供服务,不支持私有化部署,框架选择局限于JAX/TensorFlow,对PyTorch等主流框架的支持需通过转换层实现。这一策略使TPU难以进入企业级数据中心市场,主要服务于云原生AI研究者和谷歌生态用户。随着TPU v5p向Meta、Anthropic等外部客户开放,谷歌正在谨慎地扩展其生态边界,但是否会走向完全开放仍存疑问。
主流超节点方案03:
英伟达NVL系列

英伟达NVL(NVLink)系列是全球超节点市场的标杆产品,当前主力型号为NVL72,规划型号包括NVL144(下一代架构)等。NVL72于2025年正式上市,通过第五代NVSwitch实现72个B200 GPU的全互联,总算力达720 PFLOPS(AI训练)或1440 PFLOPS(AI推理),标志着单柜级超节点的商业化成熟。
NVL72的72卡配置采用18个计算节点×4 GPU/节点的部署模式,每个节点配备2个Grace CPU与4个B200 GPU,通过NVLink-C2C实现CPU-GPU统一内存。横向扩展为576卡互联,可部署为数十万卡集群。
关键技术
①互联协议/拓扑:NVLink 5.0/6.0与全互联架构
NVLink 5.0是英伟达第五代高速互联技术,单链路带宽达1.8 TB/s,双向带宽3.6 TB/s。NVL72采用全互联拓扑,任意两GPU间通过NVSwitch直达通信,无需经过CPU或网络交换,通信延迟降至极致。第五代NVSwitch芯片集成于计算节点,支持72端口全互联。
第六代NVLink(NVLink 6.0,用于Rubin架构)每GPU带宽提升至3.6 TB/s,是上一代的2倍,是PCIe Gen6的14倍以上。Vera Rubin NVL72机架级架构实现72个GPU的all-to-all拓扑连接,总带宽达260 TB/s。
②互联方案:NVSwitch芯片与统一内存池
NVL72的核心创新在于NVSwitch芯片的应用。每个NVSwitch支持多路NVLink聚合,通过多级交换实现任意GPU之间的直接通信。
③内存架构:HBM3e与统一内存池(NVLink-C2C)
NVL72采用NVLink-C2C(Chip-to-Chip)技术,实现GPU HBM与Grace CPU LPDDR的统一内存寻址。整机柜配置:HBM高带宽内存13.5TB总容量,提供极致内存带宽;LPDDR5X大容量内存17TB总容量,支持大模型状态存储;统一内存池使所有GPU可访问整个超节点的内存资源,消除数据拷贝开销。
④散热技术:液冷设计与CDU精准控温
NVL72采用全液冷设计,CDU(Coolant Distribution Unit)精准控温,确保GPU和CPU在 optimal 温度区间运行。机柜总功耗约120kW,需要专用供电基础设施支持。
⑤可靠性:ECC内存与错误检测纠正
NVL72采用企业级可靠性设计,包括HBM ECC纠错、GPU错误检测与纠正、冗余电源和风扇等。支持热插拔维护,单节点故障不影响整体集群。
⑥软件栈与调度能力:业界最完善的AI软件生态
CUDA并行计算平台,NCCL集合通信库,TensorRT推理优化器,DGX Cloud云服务
机柜方案
NVL72采用单机柜,配置:18个计算节点(每节点2 Grace CPU + 4 B200 GPU)、4个NVSwitch托盘(实现72 GPU全互联)、CDU液冷分配单元、电源与管理系统。机柜总功耗约120kW,采用高压直流供电。整机重量与尺寸针对数据中心运输与部署优化,支持快速现场安装。
路线特点与差异化
英伟达NVL系列的核心差异化在于生态垄断优势与软硬件全栈领先。从芯片架构、互联技术、软件栈到系统集成的全栈掌控,使英伟达能够针对AI工作负载进行极致优化。快速迭代节奏(每年一代)持续拉开与追赶者的差距。局限性在于封闭生态带来的成本压力与供应商锁定风险,这为UAlink、华为灵衢等开放路线创造了市场机会。
主流超节点方案04:
AMD Helios系列

AMD Helios机架级平台基于MI455X GPU,定位”开放、高性能、高性价比”的AI算力基础设施,直接对标英伟达NVL系列,旨在打破专有生态锁定,为企业提供更灵活、成本更优的替代选择。Helios于CES 2026首次完整展示,涵盖Helios 72(72卡MI400系列)及规划中的Helios 144(144卡)等型号。
Helios 72的单个计算托盘配置4个MI455X GPU和1个”Venice” EPYC CPU,配合6个Pensando 800Gb/s SmartNIC网卡,通过PCIe 6.0或UALink连接。整机架可扩展至最多4600个CPU核心和18000个GPU核心,配备31TB HBM4,达到43TB/s的扩展带宽,提供最高2.9 ExaFLOPS的AI计算能力。
关键技术
①互联协议/拓扑:UALink(Unified Accelerator Link )
- Infinity Fabric:AMD自研的高速互联技术,用于GPU内部和GPU之间的通信。当前支持8卡全连接网状拓扑,每张卡配备7个高速链路 。
- UALink:AMD联合博通等厂商发起的开放互联联盟,旨在建立替代NVLink的开放标准。UALink支持单级交换拓扑实现超节点内Scale-Up互联,充分发挥低延迟特点 。
②互联方案
- 单节点内部采用高速铜缆或PCB走线。
- 跨节点Scale-Out采用InfiniBand或以太网(如QDR/FDR InfiniBand)
- 大规模集群采用2-tier或3-tier拓扑(Spine-Leaf、Super Spine架构)
③内存架构:HBM4高容量配置
MI455X单卡配备高容量HBM4,整机架31TB HBM4总容量超越英伟达NVL72的13.5TB。高内存容量使Helios在大模型推理场景中具有显著优势,可支持更大 batch size 与更长序列长度。
④散热技术:全水冷散热设计
Helios 72采用全水冷散热设计,计算托盘与整机架均配备液冷系统,确保高功耗芯片的稳定运行。实测散热效率比英伟达NVL72提升25%。
⑤软件栈与调度能力:提供CUDA替代方案
ROCm开源平台提供CUDA替代方案,支持PyTorch、TensorFlow等主流框架。AMD持续投入开源生态建设,降低开发者迁移成本。ROCm 7.2新增对MI350系列、MI400系列的深度优化,支持vLLM-d、DeepEP、SGLang等开源项目。
机柜方案
Helios采用标准化机架设计,单个计算托盘集成4 GPU + 1 CPU + 6 SmartNIC,多个托盘垂直堆叠形成机架。供电与散热系统针对高密部署优化,支持模块化扩展与维护。机柜重量约3吨(7000磅),其中液冷系统占据显著比重。
路线特点与差异化
AMD的核心差异化策略是开放生态:
开放互联标准:UALink联盟提供替代NVLink的开放选择,降低用户锁定风险。
开放软件栈:ROCm开源生态降低迁移门槛,吸引更多开发者。
后发追赶态势:相比英伟达,AMD在互联技术成熟度、软件生态完善度方面仍有差距,但差距正在缩小。
主流超节点方案05:
阿里云磐久系列

阿里云于2025年云栖大会发布的磐久AI Infra AL128是互联网云服务商超节点方案的代表作,后续规划扩展至UPN512(512卡)。该产品定位”一云多芯”的开放智算基础设施,由阿里云自主研发设计,可高效支持多种AI芯片,单柜128卡的密度刷新业界纪录。
磐久系列的发布标志着阿里云从”算力提供者”向”算力架构创新者”的角色升级。强调开放兼容——磐久AL128支持X86、ARM等多芯片架构,企业无需担心芯片选型绑定风险,实现”一云多芯”的灵活部署。
磐久AL128的单柜128卡密度在同期产品中处于领先水平,阿里通过创新的非对称双宽柜设计,在标准机柜空间内实现了更高的芯片集成度。10万卡级稳定互联的灵骏集群扩展能力,使其能够承载超大规模模型训练任务。
关键技术
①互联协议/拓扑:支持UALink,正交架构
磐久128采用Alink Switch节点架构,实现芯片间高速互联。内部电信号采用铜传输,上下节点间采用光信号传输,形成”铜-光”分层互联结构 。
UPN512采用单层光互联/单层CLOS网络拓扑,这是其核心创新点。通过光电引擎实现光电转化,利用光纤互联支持512个xPU的全互联。采用LPO(线性驱动可插拔光模块)和NPO(近封装光模块)混合光互联方案,相比传统方案实现成本降低、时延减少、功耗降低、可靠性提升 。
Scale-Up互连带宽:每颗GPU芯片预留最大128组高速互连SerDes,最高可达14T-28Tb的互联带宽 。
②互联方案:CIPU 2.0与EIC/MOC高性能网卡
- 采用无背板正交架构,Alink Switch与CIPU 2.0深度集成 。
- 分层互联采用”铜-光”结构:铜连接用于内部通勤,光连接用于跨区调度 。
③内存架构:数据本地化与内存带宽优化
磐久AL128通过优化内存访问路径,减少数据搬运开销。采用HBM3高带宽内存与CXL扩展内存的混合配置,配合CIPU的智能数据预取和缓存管理,提升有效内存带宽利用率。
④散热技术:全液冷与极致能效
磐久AL128采用全液冷技术,功耗密度提升至30kW/柜。无风扇设计使机房噪音从85分贝降至45分贝,满足企业级机房的环保要求。
⑤软件栈与调度能力
磐久AL128与阿里云的软件生态深度整合:飞天AI平台提供资源管理、作业调度、模型训练、推理部署的全栈能力;PAI(Platform of Artificial Intelligence)作为一站式机器学习平台,支持交互式建模、分布式训练、模型优化;灵骏集群调度系统实现10万卡级资源的统一管理和弹性伸缩。
机柜方案
磐久AL128的机柜设计充分体现”非对称双宽”理念——机柜宽度较标准19英寸机架增加,为128卡的高密部署提供物理空间。计算节点与交换节点的正交布局使机柜内部线缆长度最小化,信号完整性得到保障。
供电方案支持30kW/柜的高功耗密度,采用高压直流(HVDC)或48V直流配电,减少转换损耗。液冷系统的CDU(冷却分配单元)集成于机柜底部,冷却液通过Manifold分配至各计算节点,形成闭环循环。整机柜预制化交付,现场仅需连接外部冷却管路和电源,部署效率较传统方式提升10倍。
路线特点与差异化
磐久AL128的核心差异化在于“开放兼容+云原生深度整合”。阿里云强调”一云多芯”的灵活性——同一基础设施支持多种AI芯片,用户可根据性能、成本、供应等因素自由选择。这种策略降低了用户的供应商锁定风险,但也对阿里云的软件兼容性测试和优化能力提出更高要求。规模演进方面,从128卡到512卡的全光互连扩展,体现了阿里对更大规模超节点的技术储备。
主流超节点方案06:
腾讯云ETH-X开放超节点

腾讯云ETH-X开放超节点是由中国信通院、腾讯在ODCC(开放数据中心委员会)牵头发起的开源项目,定位为”开放的RoCE-based超节点方案”。与英伟达NVLink等私有协议不同,ETH-X采用更为开放的RoCE(RDMA over Converged Ethernet)方案,旨在降低超节点技术的准入门槛,促进产业生态繁荣。
ETH-X的”开放”体现在多个层面:协议标准开放(基于IEEE 802.3以太网标准)、硬件设计开放(参考设计供产业界采用)、软件接口开放(兼容主流AI框架)。这一策略使ETH-X成为互联网厂商、服务器厂商、芯片厂商共同参与的技术共同体。
ETH-X 64的基准配置包含64个GPU,整机柜提供204.8Tbps的GPU互联带宽,8个Switch Tray支持409.6Tbps的交换容量(一半用于柜内互联,一半用于柜间扩展)。
关键技术
①互联协议/拓扑:RoCEv2以太网与双平面架构
ETH-X的核心技术选择是RoCEv2(RDMA over Converged Ethernet v2),在标准以太网基础设施上实现RDMA功能,兼具高性能与成本优势,是替代InfiniBand的主流开放选择。
ETH-X采用双平面架构——计算平面与存储平面分离,优化流量调度。
②互联方案:GPU与交换芯片100G SerDes直连
ETH-X 64采用GPU与Switch芯片通过高速SerDes链路直连,整机柜带宽达204.8Tbps。8个Switch Tray支持409.6Tbps的交换容量,一半用于超节点柜内连接GPU,另一半用于背靠背连接旁边机柜的超节点或通过L2层HB Switch做更大的HBD域Scale Up扩展。
③散热技术:风冷/液冷可选配置
ETH-X作为开放架构项目,不强制规定散热方案,支持风冷和液冷两种选项。64卡规模可采用风冷设计,512卡规模建议液冷配置。
机柜方案
ETH-X采用模块化机柜设计,基础单元为Compute Tray(计算托盘),每个托盘配置4 GPU + 1 x86 CPU,实现计算与控制的紧密协同。机柜支持灵活扩展,通过增加Compute Tray与Switch Tray实现规模增长。供电与散热方案根据配置动态调整,支持标准数据中心环境部署。
ETH-X机柜的核心组件包括:Cable Tray(高速铜缆互联,盲插设计,整体交付)、Busbar(ORV3规范,导体横截面积与长度可定制)、Manifold&快接头(UQDB型盲插快接头,自动校准设计)、Power Shelf(集中供电,支持高功率密度)。
路线特点与差异化
腾讯云ETH-X的核心差异化在于“开放标准、产业协同”的定位。作为ODCC主导的开源项目,ETH-X打破私有协议垄断,实现不同厂商硬件的互操作性,降低用户总体拥有成本。ETH-X预计2026年实现规模化商用。
主流超节点方案07:
字节跳动大禹超节点

字节跳动推出的大禹超节点是基于其自研的“大禹”开放架构的AI算力基座,旨在打造弹性可扩展的整机柜算力解决方案。该方案融合了高密度液冷整机柜与灵活的网络利用率提升技术,支撑字节跳动内部大模型研发的核心计算需求。
单机柜规模:
·基本配置:单机柜设计支持 64或128卡 的AI计算卡(如GPU或NPU)。
·扩展能力:具备弹性扩展能力,理论上支持向 256卡 甚至更大规模的扩展,以满足更高算力需求。
最大集群规模:
大禹架构强调“弹性扩展”,在系统级互联、供电和制冷的支持下,单节点规模计划向 256卡或512卡 迈进,以应对万亿参数模型训练的需求。
关键技术
①互联协议/拓扑:EthLink自研以太网互联
大禹超节点最核心的技术创新是EthLink——字节跳动自研的GPU Scale-up以太网互联技术。EthLink的设计目标是替代昂贵的InfiniBand方案,在标准以太网硬件上实现高性能GPU互联。
EthLink的关键技术包括:OEFH优化报文头(替代ETH+IP+UDP标准头,报文开销显著降低)、RS-272低延迟FEC(替代标准FEC方案,链路层延迟大幅降低)、LLR链路级重传(发送端缓存,丢包重传,降低FEC要求,支持LPO光互联)、CBFC信用流控(交换机内部丢包防护,端到端可靠传输)。
②互联方案:GPU Scale-up优化
EthLink针对GPU Scale-up场景进行了专项优化:短报文处理、低延迟FEC、链路级可靠传输。这些优化使得EthLink在AI训练的典型通信模式(小数据包、延迟敏感)下,性能接近InfiniBand,而成本大幅降低。字节披露,其内部大规模部署验证了EthLink的可行性,在推荐模型训练场景下性能与InfiniBand相当,成本降低30%以上。
③散热技术和可靠性
散热方案:采用液冷整机柜 设计。通用计算液冷整机柜利用24个U位做计算节点,每个U位放置两个逻辑节点,单机柜提供48个通用处理器节点。制冷技术:除了CPU和GPU,内存、SSD、NIC、光模块等均采用冷板式液冷,以确保在高密度部署下的散热效率。
机柜方案
·高密度设计:单机柜设计采用液冷整机柜架构,通过紧凑的U位布局和双节点并排配置,大幅提升算力密度。
·供电方案:为了支持高密度和高功率的需求,下一代超节点计划采用 HVDC(高压直流) 供电方式,并在板级部分引入垂直供电设计,以降低板级供电损耗并提升供电效率。
路线特点与差异化
大禹超节点的核心差异化在于“自研EthLink降低互联成本”和“超大规模推荐场景优化”。
·高密度液冷+高效网络:与传统风冷机柜相比,大禹方案通过液冷整机柜提升了算力密度,并通过优化互联技术将网络利用率提升至95%以上,这是其显著的竞争优势。
·弹性扩展能力:大禹不仅是一个单机柜的算力节点,更是一个可以向更大规模弹性扩展的算力基座,这种从64/128卡向256卡甚至更大规模的无缝升级路径,是其核心差异化特性。
主流超节点方案08:
中科曙光ScaleX640

中科曙光于2025年11月发布的ScaleX640是全球首个单机柜级640卡超节点,由20余家AI产业链伙伴共同发起,开放覆盖部件级、系统层、基础设施层、软件层和数据集五个层面的技术能力。
ScaleX640采用创新的”一拖二”高密架构设计,单个机柜内实现640卡超高速总线纵向互连,两个超节点可组成1280卡计算单元,最终保障10万卡级超大规模集群的扩展部署。
在HPC+AI融合计算场景,ScaleX640的高密架构与曙光传统超算优势结合,支撑气象预报、基因测序、材料模拟等科学智能应用。
关键技术
①互联协议/拓扑:超高速正交架构与”一拖二”扩展
ScaleX640采用超高速正交架构设计,计算节点与交换节点垂直交叉部署,消除传统背板带来的信号衰减和带宽瓶颈。”一拖二”架构允许两个机柜通过高速线缆紧密耦合,形成逻辑上的单一计算单元,在保持单机柜完整性的同时实现规模扩展。这种设计在空间利用率与扩展灵活性之间取得平衡——单机柜满足中等规模需求,双机柜组合应对大型任务,万卡级扩展则通过标准网络实现。
②互联方案:16:1配比高速网络与scaleFabric扩展
ScaleX640的互联网络采用16:1的收敛比设计,即每16个计算节点共享1个交换节点的高带宽上行链路,在保证局部全互联性能的同时控制交换芯片成本和功耗。纵向扩展采用专用高速总线,横向扩展则兼容标准以太网/RoCE协议,实现Scale-Up与Scale-Out网络的融合统一。2025年12月发布的scaleX万卡超集群采用自研scaleFabric网络,实现400Gb/s超高带宽、低于1微秒端侧通信延迟。
③散热技术:浸没相变液冷与CDM液体冷凝
ScaleX640最引人注目的技术突破在于其散热方案——采用浸没相变液冷技术,将整个计算节点浸泡在低沸点冷却液中,利用液体相变(沸腾汽化)的潜热吸收芯片产生的大量热量。配备CDM(Coolant Distribution Module)液体冷凝换热装置,提供1.72MW的极致散热能力,支撑640卡满载运行。
机柜方案
ScaleX640的机柜设计充分体现”空间极致利用”理念。640卡计算节点、交换节点、电源模块、冷却液分配单元高度集成于标准机柜轮廓内,功率密度达到业界罕见的1.72MW/柜量级。机柜采用强化结构设计,承重能力和刚度针对液冷系统的额外质量优化。
供电方案采用高压直流(HVDC)结合分布式电源架构,减少转换层级损耗。浸没式液冷的冷却液循环需要精密流量控制,曙光设计了冗余泵组和智能阀门系统,确保单点故障不影响整体冷却循环。机柜维护采用前维护设计,关键部件支持热插拔,尽量减少对浸没环境的干扰。
路线特点与差异化
ScaleX640的核心差异化在于单机柜极致密度和浸没式液冷工程化。
主流超节点方案09:
超聚变FusionPod for AI

超聚变FusionPod for AI整机柜液冷服务器于2024年发布,定位企业级AI训练与推理场景。实现全球首个多元智算即插即用超级集群系统,单柜128张AI加速卡配置(注:64卡为标准配置,128卡为高密扩展)。
FusionPod for AI每个机柜容纳8台8 GPU模组节点,共64个GPU,单柜供电功率可达105kW。
关键技术
①互联协议/拓扑:InfiniBand或以太网可选
FusionPod for AI支持InfiniBand和以太网两种互联方式灵活组网,用户可根据现有网络基础设施和性能需求选择。
②互联方案:高速互联,支持多元算力灵活配置
支持多元算力灵活配置,优化互联效率。
③散热技术:第五代100%原生液冷技术
FusionPod for AI采用第五代100%原生液冷技术,冷板式液冷结合液冷背门,实现100%全液冷,pPUE低至1.06,节能超20%。相比风冷模式,GPU温度降低20℃以上,获得业界首个南德能效认证证书,液冷系统满足10年以上使用寿命,获莱茵液冷可靠性认证。
机柜方案
FusionPod for AI机柜核心设计:8台8 GPU模组服务器;三总线盲插(数据、管理、液冷);105kW高效集中供电,BusBar配电;冷板+液冷背门,100%液冷覆盖。
路线特点与差异化
FusionPod的核心差异化在于液冷能效行业领先(PUE 1.06),在可靠性工程与液冷技术方面具备深厚底蕴。
结语
超节点技术作为AI 算力基础设施的关键技术,正在经历快速的发展和演进。通过对主流厂商超节点方案的全面分析,我们可以看到技术创新的多样性和复杂性。
英伟达和AMD 通过芯片架构和互联技术的极致优化,在高端市场建立了技术壁垒;中国厂商通过系统集成创新和开放生态策略,在中低端市场找到了突破口;华为和谷歌则通过超大规模扩展技术,引领了超节点技术的发展方向。各大厂商通过差异化技术路线和产品策略,在市场中占据不同位置,共同推动超节点技术的普及与应用。
