硬件配置
计算资源¶
华中农业大学超算平台集群计算资源包含2类资源,一类为HPC算力(x86),一类为HPC算力(ARM),其中x86资源包含:2台登录节点、58台计算节点、3台大内存节点;ARM 资源包含:1台运维节点、2台登录节点、2台管理节点、43台计算节点、1台NPU节点、3台大内存节点。
各节点详细硬件配置如下:
节点类型 | 算力类型 | 节点名称 | 节点数量 | CPU型号 | 核心数 | 内存 |
---|---|---|---|---|---|---|
登录节点 | x86 | cli_X86_01 cli_X86_02 | 2 | Intel Xeon Sliver 4316, 2.3GHz, 20c | 20 | 512G |
计算节点 | x86 | agent_X86_01 ~ agent_X86_58 | 58 | Intel Xeon Platinum 8358P, 2.6GHz, 32c | 64 | 512G |
大内存节点 | x86 | fat_agent_X86_01 ~ fat_agent_X86_03 | 3 | Intel Xeon Platinum 8358P, 2.6 GHz, 32c | 64 | 2048G |
运维节点 | arm | eSightSever | 1 | 鲲鹏 920, 2.6GHz, 32c | 64 | 64G |
管理节点 | arm | master_01 master_02 | 2 | 鲲鹏 920, 2.6GHz, 64c | 128 | 512GB |
登录节点 | arm | cli_ARM_01 cli_ARM_02 | 2 | 鲲鹏 920, 2.6GHz, 64c | 128 | 512GB |
计算节点 | arm | agent_ARM_01 ~ agent_ARM_43 | 43 | 鲲鹏920, 2.6GHz, 64c | 128 | 512GB |
NPU节点 | arm | AI-node | 1 | 鲲鹏 920, 2.6GHz, 48c ;8 路昇腾 NPU AI,单AI规格为313TFlops@FP16,64GB HBM | 128 | 1024G |
大内存节点 | arm | fat_agent_ARM_01 ~ fat_agent_ARM_03 | 3 | 鲲鹏920, 2.9GHz, 64c | 128 | 2048G |
存储资源¶
存储资源包含1框8节点华为全闪存储OceanStor Pacific 9950,4框8节点华为大容量存储OceanStor Pacific 9550,其中9550采用DPC+标准协议组网场景,2个25G端口上行连到业务面接入交换机,每节点2个100GE端口接入到计算存储接入交换机,1个GE端口连到带外管理接入交换机。9950采用DPC组网场景,每节点2个100GE端口接入到计算存储接入交换机,1个GE端口连到带外管理接入交换机。
全闪存储OceanStor Pacific 9950单节点数据盘10块7.68TB SSD,总体提供可用容量460TB。大容量存储OceanStor Pacific 9550 单节点数据盘60块16TB SATA,单节点缓存盘4块1.6TB NVME SSD,提供可用容量5.8PB。
网络资源¶
网络资源包含22台交换机、2台防火墙。集群网络分为四个网络平面,计算/存储网络、业务面网络、带外管理网络、外网接入区。
计算/存储网络采用RoCE网络技术,通过AI人工智能等RoCEv2分布式应用提供“无丢包、低时延、高吞吐”的网络环境,满足分布式应用的高性能需求;管理网络采用Spine-Leaf架构,用于管理节点上集群管理软件收集集群各个节点状态信息(如CPU状态、内存使用率、磁盘使用率、在线状态等),并实现管理功能(如时间同步、集群部署、用户管理、作业调度等);带外管理网络通过SNMP技术,带外管理网络和设备的各种状态,主要用于网络设备、计算节点、存储节点等带外监控。
集群整体架构¶
本文阅读量 次本站总访问量 次