Machine Learning, NLP & Web Scraping
per l’Analisi Automatica dei Testi

II Edizione · 42 ore · 4 CFU · posti limitati (13 – 23)

Perché scegliere questo corso?

Sviluppo di Pipeline Web Scraping

Impara a estrarre in modo scalabile contenuti dal Web, trasformandoli in dati strutturati, anche in presenza di contenuti dinamici.

Analisi automatica del testo con ML & LLM

Embeddings, BERT e GPT-like open-source: dalla pulizia dei dati alla classificazione.

4 CFU

Attestato Sapienza valido per piani di studio / carriera dottorale, rilasciato dal Dipartimento di Scienze Statistiche, con consolidata esperienza nella formazione su data analysis.

Materiale incluso

Slide complete, dataset di esempio, notebook Jupyter pronti all’uso e

accesso alle registrazioni video per 6 mesi dopo il termine del corso.

Certificazione / CFU

A conclusione verrà rilasciato un attestato di frequenza firmato dal Dipartimento di Scienze Statistiche.

I 4 CFU possono essere riconosciuti nel tuo piano di studi come attività a scelta o di approfondimento, in base al regolamento del tuo Corso di Laurea.

Programma didattico

23 giugno – Python Essentials

Sintassi di base, variabili e tipi di dato
Strutture di controllo e funzioni
Liste, tuple, dizionari, set
Esercitazioni: notebook Jupyter

24 giugno – Fondamenti del Web & HTML

Architettura del Web, protocollo HTTP/HTTPS, REST
Struttura di una pagina HTML, CSS basilare
Uso di strumenti di developer console
Hands‑on: parsing HTML con BeautifulSoup

25 giugno – Web Scraping avanzato

Richieste HTTP con Requests
Scraping di pagine dinamiche con Selenium
Gestione autenticazioni, sessioni e cookie
Strategie anti‑ban: IP rotation & proxy
Project: raccolta dataset testuale

30 giugno – Machine Learning fundamentals

Panoramica supervised vs unsupervised
Pipeline Scikit‑learn, feature engineering
Valutazione modello & cross‑validation
Case study: classificazione news

1 luglio – Deep Learning per l'analisi del testo

Word embeddings (Word2Vec, GloVe)
Reti neurali feed‑forward & LSTM
Transfer learning su testi
Lab: sentiment analysis con Keras

2 luglio – Transformers & LLM

Architettura Transformer, attention
BERT & varianti, GPT open‑source
Fine‑tuning con HuggingFace
Project finale: pipeline end‑to‑end

Quote di iscrizione

Ordinaria

€ 900

In presenza + registrazioni 6 mesi

Agevolata

€ 720

Studenti, dottorandi, assegnisti
7 posti disponibili

Gruppi 3-4

€ 810

Per ciascun partecipante stesso ente o azienda

Gruppi 5+

€ 720

Sconto 20%

Docenti

Professore ordinario di Statistica presso Sapienza. Coautore di oltre 150 pubblicazioni scientifiche sul tema del data mining e del machine learning. Tiene i corsi di Data Mining, Big Data Analytics e Machine Learning.

Prof. Umberto Ferraro Petrillo

Professore ordinario di Informatica alla Sapienza. I suoi interessi riguardano algoritmi distribuiti, Big Data e sicurezza; è responsabile scientifico del supercomputer TeraStat 2 ed è coautore di numerosi articoli scientifico sull’uso di sistemi distribuito per l’analisi di Big Data.

Date, Orari & Requisiti

Date lezioni: 23, 24, 25, 30 giugno & 1–2 luglio 2025
Orario: 9:00 – 13:00 | 14:00 – 17:00
Scadenza iscrizioni: 11 giugno 2025
Requisiti: diploma secondario, basi di Statistica e programmazione

Iscriviti ora

Il corso si attiva con almeno 13 iscritti. Rimborso totale se non viene raggiunta la soglia.

Machine Learning, NLP & Web Scraping per l’Analisi Automatica dei Testi