Machine Learning, NLP & Web Scraping
per l’Analisi Automatica dei Testi

II Edizione · 42 ore · 4 CFU · 23 posti

Prenota il tuo posto

 

 

 

 

 

 

 

 

 

 

 

 

Perché scegliere questo corso?

Sviluppo di Pipeline Web Scraping

Impara a estrarre in modo scalabile contenuti dal Web, trasformandoli in dati strutturati, anche in presenza di contenuti dinamici.

Analisi automatica del testo con ML & LLM

Embeddings, BERT e GPT-like open-source: dalla pulizia dei dati alla classificazione.

4 CFU

Attestato Sapienza valido per piani di studio / carriera dottorale, rilasciato dal Dipartimento di Scienze Statistiche, con consolidata esperienza nella formazione su data analysis.

A Chi Si Rivolge Questo Corso?

  • Studenti universitari e neolaureati in discipline STEM, economiche o umanistiche con interesse per i dati.
  • Professionisti del marketing, analisti di mercato e ricercatori che vogliono automatizzare l'analisi di testi.
  • Sviluppatori e data scientist che desiderano approfondire le tecniche di NLP e Web Scraping.
  • Dottorandi e assegnisti di ricerca che necessitano di competenze avanzate per l'analisi di grandi moli di dati testuali.
  • Chiunque voglia acquisire competenze pratiche e immediatamente spendibili nel campo dell'analisi automatica dei testi.

Prerequisito fondamentale: una solida motivazione e la volontà di apprendere concetti complessi in modo pratico!

Materiale incluso

Slide complete, dataset di esempio, notebook Jupyter pronti all’uso e accesso alle registrazioni video per 6 mesi dopo il termine del corso.

Certificazione / CFU

A conclusione verrà rilasciato un attestato di frequenza firmato dal Dipartimento di Scienze Statistiche.

I 4 CFU possono essere riconosciuti nel tuo piano di studi come attività a scelta o di approfondimento, in base al regolamento del tuo Corso di Laurea.

Programma didattico

  • Sintassi di base, variabili e tipi di dato
  • Strutture di controllo e funzioni
  • Liste, tuple, dizionari, set
  • Esercitazioni: notebook Jupyter
  • Architettura del Web, protocollo HTTP/HTTPS, REST
  • Struttura di una pagina HTML, CSS basilare
  • Uso di strumenti di developer console
  • Hands‑on: parsing HTML con BeautifulSoup
  • Richieste HTTP con Requests
  • Scraping di pagine dinamiche con Selenium
  • Gestione autenticazioni, sessioni e cookie
  • Strategie anti‑ban: IP rotation & proxy
  • Project: raccolta dataset testuale
  • Panoramica supervised vs unsupervised
  • Pipeline Scikit‑learn, feature engineering
  • Valutazione modello & cross‑validation
  • Case study: classificazione news
  • Word embeddings (Word2Vec, GloVe)
  • Reti neurali feed‑forward & LSTM
  • Transfer learning su testi
  • Lab: sentiment analysis con Keras
  • Architettura Transformer, attention
  • BERT & varianti, GPT open‑source
  • Fine‑tuning con HuggingFace
  • Project finale: pipeline end‑to‑end

Quote di iscrizione

Ordinaria

€ 900

In presenza + registrazioni 6 mesi

Agevolata

€ 720

Studenti, dottorandi, assegnisti
7 posti disponibili

Gruppi 3-4

€ 810

Per ciascun partecipante stesso ente o azienda

Gruppi 5+

€ 720

Sconto 20%

Docenti

Prof. Agostino Di Ciaccio
Prof. Agostino Di Ciaccio

Professore ordinario di Statistica presso Sapienza. Coautore di oltre 150 pubblicazioni scientifiche sul tema del data mining e del machine learning. Tiene i corsi di Data Mining, Big Data Analytics e Machine Learning.

Prof. Umberto Ferraro Petrillo
Prof. Umberto Ferraro Petrillo

Professore ordinario di Informatica alla Sapienza. I suoi interessi riguardano algoritmi distribuiti, Big Data e sicurezza; è responsabile scientifico del supercomputer TeraStat 2 ed è coautore di numerosi articoli scientifico sull’uso di sistemi distribuito per l’analisi di Big Data.

 

Testimonianze

Dario Aversa

Dario Aversa

Ricercatore ed economista – Università di Foggia

Questo corso mi ha fornito un solido approfondimento su Machine Learning,
Deep Learning e Large Language Models…

… rivelandosi particolarmente utile per le mie ricerche su climate change e sostenibilità
in ambito economico-finanziario. Durante le lezioni abbiamo trattato il tema della gestione
dei crescenti unstructured data (audio, immagini, testi), con un focus su
metodologie di text mining in Python. Sono stati inoltre affrontati strumenti avanzati come
web scraping e web crawling, oggi cruciali per raccogliere dati eterogenei, utili a
ricercatori, imprese e istituzioni pubbliche, comprese le banche centrali. Infine, ho avuto
l’opportunità di confrontarmi con due docenti di alto profilo, Umberto Ferraro Petrillo e
Agostino Di Ciaccio, che mi hanno fornito preziosi spunti sull’uso dei LLM e del Quantum
Computing come superamento dei metodi tradizionali di forecasting.

 

 

Date, Orari & Requisiti

Date lezioni: 23, 24, 25, 30 giugno & 1–2 luglio 2025
Orario: 9:00 – 13:00 | 14:00 – 17:00
Scadenza iscrizioni: 11 giugno 2025
Requisiti: diploma di scuola secondaria, basi di Statistica e programmazione

Iscriviti ora

Il corso si attiva con almeno 13 iscritti. Rimborso totale se non viene raggiunta la soglia.