Specifiche Tecniche di TeraStat2

TeraStat2 (TS2) è un cluster di calcolo ad alte prestazioni progettato per supportare attività di ricerca e sperimentazione avanzata.
Di seguito sono riportate le principali caratteristiche hardware e software del sistema.

Architettura hardware

  • 24 nodi di calcolo (12 di nuova generazione + 12 di generazione precedente)
  • 1 server dedicato allo storage e alla virtualizzazione di macchine di supporto
  • Infrastruttura di rete Ethernet a 1 Gb/s per funzioni di controllo
  • Infrastruttura di rete InfiniBand a 40 Gb/s (10 Gb/s sui nodi della generazione precedente)
  • Firewall per il controllo degli accessi e delle comunicazioni esterne

Software di sistema

  • Linux CentOS 7 (Kernel 3.10) come sistema operativo di base
  • Lustre 2.12 come file system distribuito per lo storage di rete
  • Slurm 20.11 come sistema di gestione e schedulazione dei job

Nodi di calcolo

Il cluster mette a disposizione due tipologie di nodi:

  • 12 nodi di nuova generazione: ciascuno con 2 processori
    AMD EPYC 7452,
    32 core fisici (64 thread) e 256 GB di RAM.
  • 12 nodi di generazione precedente: ciascuno con 2 processori
    Intel Xeon E5-2630 v3,
    8 core fisici (16 thread) e 64 GB di RAM.
    Uno di questi nodi è dotato di 512 GB di RAM.
    Questi nodi utilizzano una versione precedente della rete InfiniBand (10 Gb/s).

Sui nodi più potenti, gli utenti possono utilizzare fino a 128 core e 240 GB di RAM per singolo job.
Job con requisiti superiori devono essere suddivisi su più nodi tramite esecuzione distribuita.

Server di storage

Il server di storage fornisce:

  • 76 TB di spazio totale, gestito tramite filesystem Lustre
  • Una home directory per ciascun utente, con quota predefinita di 100 GB

È possibile richiedere un aumento della quota scrivendo a
supercalcolo.dss@uniroma1.it.
La richiesta deve essere motivata e specificare la durata prevista della necessità.

Infrastruttura di rete

TeraStat2 dispone di una doppia rete di interconnessione:

  • InfiniBand QDR – 40 Gb/s (Network: 172.19.10.0/24, dominio: terastat.ib):
    rete in fibra ottica a bassa latenza e larga banda, utilizzata per l’esecuzione dei job multi-nodo e per l’accesso allo storage.
  • Ethernet – 1 Gb/s (Network: 172.19.1.0/24, dominio: terastat.prod):
    rete in rame utilizzata per la gestione e il controllo del cluster.

Nota: negli esperimenti multi-nodo basati su MPI, la comunicazione avviene di default sulla rete InfiniBand.
Nel caso si utilizzi un’altra tecnologia di parallelizzazione, è fondamentale forzare l’uso di questa stessa rete per evitare degradi prestazionali significativi.