Machine Learning, NLP & Web Scraping
per l’Analisi Automatica dei Testi

II Edizione · 42 ore · 4 CFU · posti limitati (13 – 23)

Prenota il tuo posto

 

 

 

Perché scegliere questo corso?

Sviluppo di Pipeline Web Scraping

Impara a estrarre in modo scalabile contenuti dal Web, trasformandoli in dati strutturati, anche in presenza di contenuti dinamici.

Analisi automatica del testo con ML & LLM

Embeddings, BERT e GPT-like open-source: dalla pulizia dei dati alla classificazione.

4 CFU

Attestato Sapienza valido per piani di studio / carriera dottorale, rilasciato dal Dipartimento di Scienze Statistiche, con consolidata esperienza nella formazione su data analysis.

Materiale incluso

Slide complete, dataset di esempio, notebook Jupyter pronti all’uso e

accesso alle registrazioni video per 6 mesi dopo il termine del corso.

Certificazione / CFU

A conclusione verrà rilasciato un attestato di frequenza firmato dal Dipartimento di Scienze Statistiche.

I 4 CFU possono essere riconosciuti nel tuo piano di studi come attività a scelta o di approfondimento, in base al regolamento del tuo Corso di Laurea.

Programma didattico

  • Sintassi di base, variabili e tipi di dato
  • Strutture di controllo e funzioni
  • Liste, tuple, dizionari, set
  • Esercitazioni: notebook Jupyter
  • Architettura del Web, protocollo HTTP/HTTPS, REST
  • Struttura di una pagina HTML, CSS basilare
  • Uso di strumenti di developer console
  • Hands‑on: parsing HTML con BeautifulSoup
  • Richieste HTTP con Requests
  • Scraping di pagine dinamiche con Selenium
  • Gestione autenticazioni, sessioni e cookie
  • Strategie anti‑ban: IP rotation & proxy
  • Project: raccolta dataset testuale
  • Panoramica supervised vs unsupervised
  • Pipeline Scikit‑learn, feature engineering
  • Valutazione modello & cross‑validation
  • Case study: classificazione news
  • Word embeddings (Word2Vec, GloVe)
  • Reti neurali feed‑forward & LSTM
  • Transfer learning su testi
  • Lab: sentiment analysis con Keras
  • Architettura Transformer, attention
  • BERT & varianti, GPT open‑source
  • Fine‑tuning con HuggingFace
  • Project finale: pipeline end‑to‑end

Quote di iscrizione

Ordinaria

€ 900

In presenza + registrazioni 6 mesi

Agevolata

€ 720

Studenti, dottorandi, assegnisti
7 posti disponibili

Gruppi 3-4

€ 810

Per ciascun partecipante stesso ente o azienda

Gruppi 5+

€ 720

Sconto 20%

Docenti

Prof. Agostino Di Ciaccio
Prof. Agostino Di Ciaccio

Professore ordinario di Statistica presso Sapienza. Coautore di oltre 150 pubblicazioni scientifiche sul tema del data mining e del machine learning. Tiene i corsi di Data Mining, Big Data Analytics e Machine Learning.

Prof. Umberto Ferraro Petrillo
Prof. Umberto Ferraro Petrillo

Professore ordinario di Informatica alla Sapienza. I suoi interessi riguardano algoritmi distribuiti, Big Data e sicurezza; è responsabile scientifico del supercomputer TeraStat 2 ed è coautore di numerosi articoli scientifico sull’uso di sistemi distribuito per l’analisi di Big Data.

Date, Orari & Requisiti

Date lezioni: 23, 24, 25, 30 giugno & 1–2 luglio 2025
Orario: 9:00 – 13:00 | 14:00 – 17:00
Scadenza iscrizioni: 11 giugno 2025
Requisiti: diploma secondario, basi di Statistica e programmazione

Iscriviti ora

Il corso si attiva con almeno 13 iscritti. Rimborso totale se non viene raggiunta la soglia.