跳转至

硬件配置

计算资源

华中农业大学超算平台集群计算资源包含2类资源,一类为HPC算力(x86),一类为HPC算力(ARM),其中x86资源包含:2台登录节点、58台计算节点、3台大内存节点;ARM 资源包含:1台运维节点、2台登录节点、2台管理节点、43台计算节点、1台NPU节点、3台大内存节点。

各节点详细硬件配置如下:

节点类型算力类型节点名称节点数量CPU型号核心数内存
登录节点x86cli_X86_01 cli_X86_022Intel Xeon Sliver 4316, 2.3GHz, 20c20512G
计算节点x86agent_X86_01 ~ agent_X86_5858Intel Xeon Platinum 8358P, 2.6GHz, 32c64512G
大内存节点x86fat_agent_X86_01 ~ fat_agent_X86_033Intel Xeon Platinum 8358P, 2.6 GHz, 32c642048G
运维节点armeSightSever1鲲鹏 920, 2.6GHz, 32c6464G
管理节点armmaster_01 master_022鲲鹏 920, 2.6GHz, 64c128512GB
登录节点armcli_ARM_01 cli_ARM_022鲲鹏 920, 2.6GHz, 64c128512GB
计算节点armagent_ARM_01 ~ agent_ARM_4343鲲鹏920, 2.6GHz, 64c128512GB
NPU节点armAI-node1鲲鹏 920, 2.6GHz, 48c ;8 路昇腾 NPU AI,单AI规格为313TFlops@FP16,64GB HBM1281024G
大内存节点armfat_agent_ARM_01 ~ fat_agent_ARM_033鲲鹏920, 2.9GHz, 64c1282048G

存储资源

存储资源包含1框8节点华为全闪存储OceanStor Pacific 9950,4框8节点华为大容量存储OceanStor Pacific 9550,其中9550采用DPC+标准协议组网场景,2个25G端口上行连到业务面接入交换机,每节点2个100GE端口接入到计算存储接入交换机,1个GE端口连到带外管理接入交换机。9950采用DPC组网场景,每节点2个100GE端口接入到计算存储接入交换机,1个GE端口连到带外管理接入交换机。

全闪存储OceanStor Pacific 9950单节点数据盘10块7.68TB SSD,总体提供可用容量460TB。大容量存储OceanStor Pacific 9550 单节点数据盘60块16TB SATA,单节点缓存盘4块1.6TB NVME SSD,提供可用容量5.8PB。

网络资源

网络资源包含22台交换机、2台防火墙。集群网络分为四个网络平面,计算/存储网络、业务面网络、带外管理网络、外网接入区。

计算/存储网络采用RoCE网络技术,通过AI人工智能等RoCEv2分布式应用提供“无丢包、低时延、高吞吐”的网络环境,满足分布式应用的高性能需求;管理网络采用Spine-Leaf架构,用于管理节点上集群管理软件收集集群各个节点状态信息(如CPU状态、内存使用率、磁盘使用率、在线状态等),并实现管理功能(如时间同步、集群部署、用户管理、作业调度等);带外管理网络通过SNMP技术,带外管理网络和设备的各种状态,主要用于网络设备、计算节点、存储节点等带外监控。

集群整体架构

本文阅读量  次
本站总访问量  次