本服务器搭载 G593-SD1-AAX3 专用平台,专为高密度 GPU 集群设计,支持极致散热与冗余供电,为长时间高负载运行提供稳定支撑。
CPU 部分采用双路 Intel Xeon Platinum 8558 处理器,单颗处理器具备 48 核 96 线程规格,基础频率 2.1GHz,最大睿频可达 4GHz,TDP 330W,配备 260MB 超大缓存。双路配置下,总计 96 核 192 线程的算力输出,能够高效调度多 GPU 任务,在大模型训练的数据预处理、并行计算与调度环节,提供充足的 CPU 算力支持,避免成为 AI 任务的性能瓶颈。
GPU 核心采用
NVIDIA HGX H200 8-GPU SXM 模组,单模组集成 8 张 H200 GPU,每张 GPU 配备 141GB HBM3e 高带宽显存,显存带宽高达 4.8TB/s,采用 70W 低功耗优化设计,在保持高性能的同时降低整体功耗。该模组基于 Hopper 架构打造,支持 FP8/FP16/BF16 等多种精度的 Tensor Core 加速,INT8 算力可达 3958 TFLOPS,是当前大模型训练、生成式 AI 任务的顶级硬件选择,能够轻松支撑千亿级参数模型的训练与推理工作。
二、内存与存储:为 AI 任务提供极致数据支撑
内存配置为 32 条 64GB RDIMM DDR5 内存,单条频率 5600MT/s,双列位设计,总计 2048GB(2TB)容量。RDIMM 带寄存器设计,支持 ECC 纠错功能,可在长时间高负载运行中保障数据稳定性,5600MT/s 的高频率与超大容量,能够满足大模型训练过程中海量数据的临时存储与快速调用需求,显著减少数据交换延迟。
存储系统采用三级分层设计,兼顾系统运行、数据存储与高速读写需求:
-
系统盘为 2 块 2.5 英寸 NVMe PCIe4 960GB SSD,用于安装操作系统与集群管理软件,提供快速启动与系统运行速度;
-
数据盘为 2 块 3.84TB 数据中心级 NVMe U.2 Gen4 SSD,专为高并发、高负载场景优化,支持高强度连续读写,可存储训练数据集、模型 checkpoint 文件,保障数据读写效率,避免存储成为数据吞吐的瓶颈。
-
-
三、技嘉H200服务器网络与供电:构建稳定高效的算力底座
网络配置采用双网卡组合方案,兼顾高速互联与集群扩展:
-
1 张 Mellanox ConnectX-7 单端口 400G 网卡(MCX75310AAS-NEAT),支持 PCIe 5.0 接口,可提供 400Gbps 的高速以太网 / InfiniBand 连接,用于节点间的高速数据传输与集群通信,大幅提升多节点训练任务的效率;
-
-
8 张 NVIDIA MCX653106A-ECAT 200G 网卡,采用 PCIe IB/EN 双协议设计,支持 InfiniBand 与以太网双模式,搭配 QSF + 接口,可实现高密度集群的高效互联,满足大规模 AI 训练集群的节点间通信需求,保障数据传输的低延迟与高可靠性。
-
供电系统采用 4+2 冗余设计,配备 6 台 3000W 80 PLUS 钛金认证电源,其中 4 台主电源负责负载供电,2 台备用电源提供冗余保障。钛金认证电源具备超高转换效率,减少电力损耗与散热压力,冗余设计可避免单台电源故障导致的系统停机,为长时间不间断运行的 AI 训练任务提供可靠的电力支撑。