Perché scegliere questo corso?
Sviluppo di Pipeline Web Scraping
Impara a estrarre in modo scalabile contenuti dal Web, trasformandoli in dati strutturati, anche in presenza di contenuti dinamici.
Analisi automatica del testo con ML & LLM
Embeddings, BERT e GPT-like open-source: dalla pulizia dei dati alla classificazione.
4 CFU
Attestato Sapienza valido per piani di studio / carriera dottorale, rilasciato dal Dipartimento di Scienze Statistiche, con consolidata esperienza nella formazione su data analysis.
Materiale incluso
Slide complete, dataset di esempio, notebook Jupyter pronti all’uso e
accesso alle registrazioni video per 6 mesi dopo il termine del corso.
Certificazione / CFU
A conclusione verrà rilasciato un attestato di frequenza firmato dal Dipartimento di Scienze Statistiche.
I 4 CFU possono essere riconosciuti nel tuo piano di studi come attività a scelta o di approfondimento, in base al regolamento del tuo Corso di Laurea.
Programma didattico
- Sintassi di base, variabili e tipi di dato
- Strutture di controllo e funzioni
- Liste, tuple, dizionari, set
- Esercitazioni: notebook Jupyter
- Architettura del Web, protocollo HTTP/HTTPS, REST
- Struttura di una pagina HTML, CSS basilare
- Uso di strumenti di developer console
- Hands‑on: parsing HTML con BeautifulSoup
- Richieste HTTP con Requests
- Scraping di pagine dinamiche con Selenium
- Gestione autenticazioni, sessioni e cookie
- Strategie anti‑ban: IP rotation & proxy
- Project: raccolta dataset testuale
- Panoramica supervised vs unsupervised
- Pipeline Scikit‑learn, feature engineering
- Valutazione modello & cross‑validation
- Case study: classificazione news
- Word embeddings (Word2Vec, GloVe)
- Reti neurali feed‑forward & LSTM
- Transfer learning su testi
- Lab: sentiment analysis con Keras
- Architettura Transformer, attention
- BERT & varianti, GPT open‑source
- Fine‑tuning con HuggingFace
- Project finale: pipeline end‑to‑end
Quote di iscrizione
Ordinaria
€ 900
In presenza + registrazioni 6 mesi
Agevolata
€ 720
Studenti, dottorandi, assegnisti
7 posti disponibili
Gruppi 3-4
€ 810
Per ciascun partecipante stesso ente o azienda
Gruppi 5+
€ 720
Sconto 20%
Docenti

Prof. Agostino Di Ciaccio
Professore ordinario di Statistica presso Sapienza. Coautore di oltre 150 pubblicazioni scientifiche sul tema del data mining e del machine learning. Tiene i corsi di Data Mining, Big Data Analytics e Machine Learning.

Prof. Umberto Ferraro Petrillo
Professore ordinario di Informatica alla Sapienza. I suoi interessi riguardano algoritmi distribuiti, Big Data e sicurezza; è responsabile scientifico del supercomputer TeraStat 2 ed è coautore di numerosi articoli scientifico sull’uso di sistemi distribuito per l’analisi di Big Data.
Date, Orari & Requisiti
Date lezioni: 23, 24, 25, 30 giugno & 1–2 luglio 2025
Orario: 9:00 – 13:00 | 14:00 – 17:00
Scadenza iscrizioni: 11 giugno 2025
Requisiti: diploma secondario, basi di Statistica e programmazione
Il corso si attiva con almeno 13 iscritti. Rimborso totale se non viene raggiunta la soglia.