首页-中心资源

PAI上海大学机器学习平台


发布日期:  2020/09/15  周丽萍   浏览次数: 部门:    返回

上海大学机器学习平台是上海大学计算机学院设计建设的多加速器异构集群,也是上海大学第一台使用自主开发基于容器的PAI管理系统的异构平台。PAI系统自20186月以来,一直提供稳定的计算服务。该平台主要用于机器学习、深度学习的科研和教学。该平台的硬件包括:2个登录/管理节点、1KNL计算节点、2FPGA节点、10个双GPU节点、1台四GPUDGX-station4I/O节点;一套200T光纤存储阵列;1套千兆管理网络,1100G IB高速网络和1100G OPA高速网络。

硬件环境:

平台主要节点硬件配置表

节点名称

 台数

  加速器型号

加速器数量(单台)

    CPU型号

内存(GB

 磁盘(TB

SSD

TB

   GPU_1

     8

NVIDIA   P100(16GB)

      2

Intel Xeon   6130

      192

     6 TB

       1.6

   GPU_2

     2

NVIDIA   V100(32GB)

      2

Intel   Xeon 6130

      192

    18TB

      2.0

   DGX

     1

NVIDIA   V100(16GB)

     4

Intel   Xeon 2698

     256

     6 TB

      8.0

   FPGA

     2

Intel FPGA

     2

Intel   Xeon 6130

     1024

      6TB

      1.6

    KNL

     1

Intel KNL

     4

Intel KNL   7210

      384

        0

      1.2

软件环境:

该平台采用镜像容器技术进行管理和使用,用户可自主下载通用的镜像、构建新的镜像、或使用平台的镜像库中镜像。

基本软件环境如下:

• 操作系统:Centos7.5

• 编译开发:CUDA 10.0 GNU编译器教育版等。

• 基本镜像库:python, torch, mxnet, tensorflow, opencv, caffe, keras等。

• 使用方法:web方式提交、管理和监控任务。

管理系统:基于k8s的高效集群管理系统一套,基于Zabbix的环境监控软件一套。




下一条: “中国视云”上海大学大数据可视分析平台