Specifiche Tecniche di TeraStat2
TeraStat2 (TS2) è un cluster di calcolo ad alte prestazioni progettato per supportare attività di ricerca e sperimentazione avanzata.
Di seguito sono riportate le principali caratteristiche hardware e software del sistema.
Architettura hardware
- 24 nodi di calcolo (12 di nuova generazione + 12 di generazione precedente)
- 1 server dedicato allo storage e alla virtualizzazione di macchine di supporto
- Infrastruttura di rete Ethernet a 1 Gb/s per funzioni di controllo
- Infrastruttura di rete InfiniBand a 40 Gb/s (10 Gb/s sui nodi della generazione precedente)
- Firewall per il controllo degli accessi e delle comunicazioni esterne
Software di sistema
- Linux CentOS 7 (Kernel 3.10) come sistema operativo di base
- Lustre 2.12 come file system distribuito per lo storage di rete
- Slurm 20.11 come sistema di gestione e schedulazione dei job
Nodi di calcolo
Il cluster mette a disposizione due tipologie di nodi:
- 12 nodi di nuova generazione: ciascuno con 2 processori
AMD EPYC 7452,
32 core fisici (64 thread) e 256 GB di RAM. - 12 nodi di generazione precedente: ciascuno con 2 processori
Intel Xeon E5-2630 v3,
8 core fisici (16 thread) e 64 GB di RAM.
Uno di questi nodi è dotato di 512 GB di RAM.
Questi nodi utilizzano una versione precedente della rete InfiniBand (10 Gb/s).
Sui nodi più potenti, gli utenti possono utilizzare fino a 128 core e 240 GB di RAM per singolo job.
Job con requisiti superiori devono essere suddivisi su più nodi tramite esecuzione distribuita.
Server di storage
Il server di storage fornisce:
- 76 TB di spazio totale, gestito tramite filesystem Lustre
- Una home directory per ciascun utente, con quota predefinita di 100 GB
È possibile richiedere un aumento della quota scrivendo a
supercalcolo.dss@uniroma1.it.
La richiesta deve essere motivata e specificare la durata prevista della necessità.
Infrastruttura di rete
TeraStat2 dispone di una doppia rete di interconnessione:
- InfiniBand QDR – 40 Gb/s (Network: 172.19.10.0/24, dominio: terastat.ib):
rete in fibra ottica a bassa latenza e larga banda, utilizzata per l’esecuzione dei job multi-nodo e per l’accesso allo storage. - Ethernet – 1 Gb/s (Network: 172.19.1.0/24, dominio: terastat.prod):
rete in rame utilizzata per la gestione e il controllo del cluster.
Nota: negli esperimenti multi-nodo basati su MPI, la comunicazione avviene di default sulla rete InfiniBand.
Nel caso si utilizzi un’altra tecnologia di parallelizzazione, è fondamentale forzare l’uso di questa stessa rete per evitare degradi prestazionali significativi.