Opis infrastruktury

Przegląd zasobów obliczeniowych i sieciowych ośrodka MiNI HPC

Węzły obliczeniowe

dgx-1 NVIDIA DGX A100
CPU 2× AMD Rome 7742128 rdzeni GPU 8× NVIDIA A100 40 GB RAM 2 TiB Storage 3,8 TiB + 15 TiB SSD Sieć IB 200Gb/sETH 100Gb/s
dgx-[2–4] NVIDIA DGX A100 ×3
CPU 2× AMD Rome 7742128 rdzeni GPU 8× NVIDIA A100 40 GiB RAM 1 TiB Storage 3,8 TiB + 15 TiB SSD Sieć IB 200Gb/sETH 100Gb/s
sr-[1–3] Lenovo ThinkSystem SR665 ×3
CPU 2× AMD EPYC 741348 rdzeni RAM 3 TiB Storage 56 TiB HDD Sieć ETH 100Gb/s
hopper Lenovo ThinkSystem SR675
CPU 2× AMD EPYC 953464 rdzenie GPU 8× NVIDIA H100 PCIe 80 GiB RAM 1 TiB Storage 14 TiB HDD Sieć ETH 100Gb/s
hopper-2 Dell PowerEdge XE9680
CPU 2× Intel Xeon Platinum 8570112 rdzeni GPU 8× NVIDIA H200 140 GiB RAM 2 TiB Sieć ETH 100Gb/s
pascal Dell PowerEdge C4130
CPU 2× Intel Xeon E5-2695 v436 rdzeni GPU 4× Tesla P100-PCIE 16 GB RAM 0,5 TiB Sieć ETH 100Gb/s
stud-[1–3] Dell PowerEdge R770 ×3
CPU Intel Xeon 6520P48 rdzenie GPU 2× RTX 6000 Blackwell SE 95 GiB RAM 0,74 TiB Sieć ETH 100Gb/s
🗄

Pozostała infrastruktura

storage Macierz dyskowa DDN SS9012 + DDN AI400X
Pojemność 1,6 PiB (DDN SS9012) Cache 256 TiB (DDN AI400X) Zapis 34 GB/s Odczyt 48 GB/s
virt-[1–2] Lenovo ThinkSystem SR645 ×2 — wirtualizacja
CPU 2× AMD EPYC 7413 24-core RAM 251 GiB OS Proxmox (KVM + LXC) Sieć ETH 100Gb/s
switch-ib Switch Mellanox QM8700
Porty 40 portów Prędkość IB 200Gb/s
switch-eth Switch Mellanox SN2700
Porty 32 porty Prędkość ETH 100Gb/s
📋

Tekst do wniosków grantowych

Gotowy fragment opisujący dostęp do infrastruktury obliczeniowej — do wklejenia w sekcji opisu zaplecza badawczego.

Klaster Eden

Heterogeniczny klaster obliczeniowy ogólnego przeznaczenia dedykowany do obliczeń naukowych oraz dydaktyki. Część obliczeniowa składa się z:
4 jednostki NVIDIA DGX A100
3 jednostki Lenovo ThinkSystem SR665
1 jednostka Lenovo ThinkSystem SR675
1 jednostka Dell PowerEdge XE9680
1 jednostka Dell PowerEdge C4130
3 jednostki Dell PowerEdge R770

Łączna liczba rdzeni fizycznych: 1076.
Łączna liczba kart graficznych: 48
Całkowita ilość pamięci RAM: 13,5 TiB

Dostępne karty GPU:
4x RTX 6000 Blackwell SE (95 GiB)
8x H200 (140 GiB)
8x H100 (80 GiB)
32x A100 (40 GiB)
4x P100 (16 GiB)

Ponadto do dyspozycji użytkowników jest dostępna macierz dyskowa DDN AI400X o całkowitej pojemności 1,5 PiB z systemem plików Lustre oraz 215 TiB pamięci lokalnej zarówno na dyskach SAS jak i NVMe.

Komunikacja z macierzą i międzywęzłowa odbywa się za pośrednictwem sieci InfiniBand oraz 100GBit Ethernet. Na wszystkich węzłach zainstalowany jest system GNU/Linux (dystrybucja Ubuntu lub DGX OS - będąca pochodną Ubuntu). Alokacja zasobów odbywa się za pośrednictwem systemu kolejkowego Slurm gwarantującego użytkownikom wyłączność rezerwowanych dla siebie zasobów oraz optymalny przydział.

Klaster jest przeznaczony przede wszystkim do prowadzenia prac badawczych z zakresu bioinformatyki, uczenia maszynowego, sztucznej inteligencji, analityki medycznej, ale jest również wykorzystywany przez studentów do dydaktyki, oraz realizacji prac inżynierskich i magisterskich.