上海大学机器学习平台是上海大学计算机学院设计建设的多加速器异构集群,也是上海大学第一台使用自主开发基于容器的PAI管理系统的异构平台。PAI系统自2018年6月以来,一直提供稳定的计算服务。该平台主要用于机器学习、深度学习的科研和教学。该平台的硬件包括:2个登录/管理节点、1套KNL计算节点、2个FPGA节点、10个双GPU节点、1台四GPU的DGX-station、4个I/O节点;一套200T光纤存储阵列;1套千兆管理网络,1套100G IB高速网络和1套100G OPA高速网络。
硬件环境:
平台主要节点硬件配置表
节点名称 |
台数 |
加速器型号 |
加速器数量(单台) |
CPU型号 |
内存(GB) |
磁盘(TB) |
SSD (TB) |
GPU_1 |
8 |
NVIDIA P100(16GB) |
2 |
Intel Xeon 6130 |
192 |
6 TB |
1.6 |
GPU_2 |
2 |
NVIDIA V100(32GB) |
2 |
Intel Xeon 6130 |
192 |
18TB |
2.0 |
DGX |
1 |
NVIDIA V100(16GB) |
4 |
Intel Xeon 2698 |
256 |
6 TB |
8.0 |
FPGA |
2 |
Intel FPGA |
2 |
Intel Xeon 6130 |
1024 |
6TB |
1.6 |
KNL |
1 |
Intel KNL |
4 |
Intel KNL 7210 |
384 |
0 |
1.2 |
软件环境:
该平台采用镜像容器技术进行管理和使用,用户可自主下载通用的镜像、构建新的镜像、或使用平台的镜像库中镜像。
基本软件环境如下:
• 操作系统:Centos7.5。
• 编译开发:CUDA 10.0 ,GNU编译器教育版等。
• 基本镜像库:python, torch, mxnet, tensorflow, opencv, caffe, keras等。
• 使用方法:web方式提交、管理和监控任务。
• 管理系统:基于k8s的高效集群管理系统一套,基于Zabbix的环境监控软件一套。