Giornata Supercalcolo con TeraStat2 | Dipartimento di Scienze Statistiche

1° Workshop su Supercalcolo @ Dipartimento di Scienze Statistiche

Mercoledì 30 novembre, a partire dalle 9:00, si terrà il 1° Workshop su Supercalcolo, organizzato dal Dipartimento di Scienze Statistiche.

L’evento, cui sarà possibile partecipare in presenza o da remoto, avrà come scopo quello di illustrare le potenzialità e le opportunità offerte dall’uso di strumenti di supercalcolo in ambito scientifico. Prevederà inoltre la presenza di sessioni tecniche durante le quali si procederà alla risoluzione, mediante l’uso di TeraStat 2, il supercalcolatore del Dipartimento di Scienze Statistiche appartenente alla Infrastruttura di Ricerca di Ateneo, di brevi casi di studio in un ampio spettro di domini di ricerca. I materiali utilizzati per le presentazioni saranno resi preventivamente disponibili ai partecipanti, dando così la possibilità di replicare in prima persona gli esperimenti presentati.

Evento patrocinato da:

Dottorato in Biologia Ambientale ed Evoluzionistica
Dottorato in Genetica e Biologia Molecolare
Dottorato di Ricerca in "Scuola di Scienze Statistiche"

Per registrarsi:

https://cutt.ly/WSTS2

Programma degli interventi

Saluti istituzionali

Maria Sabrina Sarto (Prorettrice alla Ricerca)
Marco Oliverio (Prorettore alla Qualità e valorizzazione delle attività di ricerca)
Alberto Marchetti Spaccamela (Prorettore alle Tecnologie digitali)
Giovanna Jona Lasinio (Direttrice del Dipartimento di Scienze Statistiche)
Simona Giunta (Direttrice Giunta Lab, Dipartimento di Biologia e Biotecnologie "Charles Darwin")

Sessione Introduttiva

09:40 La Corsa Europea verso il Calcolo Exascale (Mauro Olivieri, responsabile Sapienza del Laboratorio HPC del Consorzio CINI) (collegamento alla registrazione video)

10:10 Il progetto TeraStat 2 (Umberto Ferraro Petrillo, responsabile scientifico TeraStat 2)

10:30 Scaling Intensive Calculations in MATLAB (Mathworks)

I Sessione Tecnica

11:00 Nozioni di base e prima connessione a TeraStat 2 (Edoardo Bompiani, Dipartimento di Scienze Statistiche)

Abstract: We will provide the basic instructions needed to configure a first connection with TeraStat 2, setup a basic experiment, execute it, check the status of its execution and, finally, retrieve its results.

11:40 A short introduction to supercomputing with R (Marco Mingione, Università Roma Tre) (collegamento alla registrazione video)

Abstract: In many real-world data applications, there is a need to process and analyze input data that is originally distributed across multiple (possibly huge) files. The natural solution would be to read these files sequentially and merge them in a single data object for later analysis. However, such an approach is unefficient as it requires an execution time that is linear in the size of the input. We exploit the distributed nature of TeraStat2 by developing a procedure in R for reading in parallel the content of several data files by using multiple processors.

12.20 Parallelizzazione di algoritmi econometrici con Gretl (Riccardo Lucchetti, Università Politecnica delle Marche)

II Sessione Tecnica

14:00 Applicazioni di dinamica molecolare per la chimica e la biochimica con GROMACS (Leonardo Guidoni, Università dell’Aquila)

Abstract: Gromacs is one of the most efficient and versatile applications to perform molecular dynamics, useful to simulate the dynamics of liquids, proteins, lipids, nucleic acids and so on. In this talk, we will briefly show how to use an HPC system like TeraStat2 to simulate the dynamic properties of a protein in a solution, by taking advantage of the many-core architecture provided by TeraStat 2.

14:40 Parallel human genomic data analysis (Luca Corda, Giunta Lab, Dipartimento di Biologia e Biotecnologie)

Abstract: Biological samples are often acquired in batch, generating big data that need to be processed and analyzed simultaneously. To study multiple data by processing them for multi-parameters acquisition, the most time-efficient and reproducible way is to run the same script on each file in parallel. In the Giunta Lab at Sapienza, we routinely generate large amount of genomic data through sequencing experiments that require computation post-processing of samples through custom-made pipelines, as shown in the example below. Here, I am presenting as proof-of-principle, a basic pipeline to evaluate CENP-A enriched regions of the human genome starting from publicly available ChIP-Seq data and the latest human reference genome assembly.

15:20 Parallel Monte Carlo Markov Chain with JAGS and R (Gianmarco Caruso, Dipartimento di Scienze Statistiche)

Abstract: We consider a simple context in which we want to estimate the parameters (intercept, slope, and variance of errors) of a simple linear regression model. The parameters are estimated in a Bayesian framework exploiting Monte Carlo Markov Chains (MCMCs) via the well-known Bayesian program JAGS (which can be used in R). To evaluate the ability of the method to recover the true value of the model parameter, we consider a simulation study where K datasets are simulated using the same model specification and the true model is fitted to each of the K replicas. We show how parallelization, while fitting the K-replicas, provides a significant efficiency gain over the classical sequential solution. Moreover, parallelization is also possible within each single model fitting, e.g., by running parallel chains.

16:00 Scaling Intensive Calculations in MATLAB: Applications (Mathworks)
Abstract: Will explore the solutions of three problems using parallel computing within MATLAB: Monte Carlo simulation to solve the birthday paradox, Solutions of the Van Der Pol Oscillator and Training a Classification Model for X-Ray Chest Images.

TeraStat 2

TeraStat 2 (TS2) è il supercalcolatore general-purpose del Dipartimento di Scienze Statistiche per la risoluzione di modelli matematici e statistici su Big Data. Complessivamente il sistema dispone di 12 nodi di calcolo “fat” per un totale di 1.920 core. L'accesso a TS2 viene reso disponibile gratuitamente a tutto il personale di Sapienza che ne ha bisogno per lo sviluppo di progetti che richiedono l’uso di supercalcolo. Per un uso particolarmente intensivo delle risorse di calcolo, è prevista la sottoscrizione di una quota di valore non commerciale, che contribuirà alla copertura dei costi di manutenzione ed aggiornamento di TS2. Ulteriori informazioni su TeraStat 2 sono disponibili all’indirizzo: https://www.dss.uniroma1.it/it/HPCTerastat2