Machine Learning, NLP e Web Scraping per l'Analisi Automatica dei Testi
(II edizione)

Descrizione del Corso

Il Corso è rivolto a tutti coloro che sono interessati ad apprendere le tecniche di Natural Language Processing e le loro applicazioni nell'analisi dei dati testuali acquisiti dal Web mediante tecniche di Web Scraping. Durante il corso, si avrà l'opportunità di familiarizzare con queste tecniche e sperimentarle utilizzando software open source. Sarà fornita anche una breve introduzione al linguaggio di programmazione Python.

Organizzazione del Corso

Il corso è suddiviso in 2 moduli da 21 ore ciascuno, per un totale di 42 ore di attività didattica in presenza, comprensive di esercitazioni e casi di studio. Ogni modulo formativo prevede 3 incontri di 7 ore ciascuno. Durante le lezioni, avrai accesso a lezioni ex-cathedra e a esercitazioni pratiche.

Contenuti del Corso

  • Introduzione al linguaggio Python
  • Regole sintattiche
  • Tipi di dato
  • I costrutti del linguaggio
  • Funzioni: definizione ed utilizzo
  • Le strutture dati di base: liste, tuple, dizionari, sets
  • Architettura del Web
  • Il linguaggio HTML
  • Il protocollo HTTP
  • Il protocollo REST
  • Cenni di Javascript ed HTML dinamico
  • Scraping di dati dal Web via Python
  • Download di pagine HTML dal Web
  • Parsing ed estrazione dati da pagine HTML
  • Estrazione dati da pagine HTML dinamiche
  • Interazione via form
  • Gestione di meccanismi di autenticazione
  • Acquisizione di contenuti su larga scala
  • Tecniche di IP rotation per evitare politiche di blocco
  • Introduzione al Machine learning e al deep learning
  • Introduzione al Machine Learning
  • Tecniche di valutazione e tuning di un modello con i Big Data
  • Introduzione alle reti neurali
  • Le librerie Scikit-learn, Tensorflow e Keras
  • Stima di una rete neurale feedforward
  • Autoencoders
  • Recurrent NN, LSTM
  • Transfer Learning
  • Attention mechanism
  • Machine learning per l’analisi dei dati testuali
  • Preprocessing dei dati testuali
  • Rappresentazione dei dati testuali: bag-of-words, TF-IDF
  • Classificazione dei testi: Naive Bayes, Support Vector Machines, Random Forests
  • Analisi del sentimento
  • Topic modeling
  • Embedding di parole, frasi, documenti
  • I Transformers e il Large Language Models (LLM)
  • UlmFit, Bert e le sue varianti
  • Sentiment analysis, applicazioni
  • Word embeddings: Word2Vec, GloVe
  • Modelli di linguaggio
  • Evoluzione dei LLM (GPT-3, ChatGPT, …)
  • Applicazione dei LLM

 

 

I docenti

 
Prof. Agostino Di Ciaccio

Prof. Agostino Di Ciaccio

Professore ordinario in Statistica. Ha una lunga carriera dedicata alla ricerca e all'insegnamento nell'ambito della statistica applicata

Prof. Umberto Ferraro Petrillo

Prof. Umberto Ferraro Petrillo

Professore associato in Informatica presso l'Università di Roma "La Sapienza". Autore di numerose pubblicazioni scientifiche su problemi di calcolo distribuito applicato all'analisi di Big Data. E' attualmente coordinatore del progetto AIGreet, per l'analisi automatica di testi acquisiti dal web mediante tecniche di NLP e machine learning

Quote di iscrizione

  • Quota di iscrizione ordinaria € 900,00 (novecento euro) - tale modalità include la possibilità di seguire le lezioni in presenza, oltre che l'accesso alle registrazione di tutte le lezioni e a tutto il materiale didattico reso disponibile durante lo sviluppo del corso, per un periodo di 6 mesi a partire dalla data in cui sono state rese disponibili.
     
  • Quota agevolata 720,00 (settecentoventi euro) -  sono disponibili n.7 quote agevolateper coloro che possono certificare di trovarsi nella condizione di dottorandi di ricerca, assegnisti di ricerca o studenti universitari non iscritti ai corsi di laurea della Facoltà di Ingegneria dell'Informazione, Informatica e Statistica.
     
  • Quota agevolata 810,00 (ottocentodieci euro) nel caso di 3 o 4 iscrizioni provenienti tutte da uno stesso Ente/Società
     
  • Quota agevolata 720,00 (settecentoventi euro)nel caso di 5 o più iscrizioni provenienti tutte da uno stesso Ente/Società

 

Requisiti

Diploma di scuola superiore. Per accedere al Corso si richiede il possesso di nozioni di base di Statistica ed una discreta conoscenza di un linguaggio di programmazione.
 
CFU assegnati 4
 

Le date

Il Corso si svolgerà presso il laboratorio LID del Dipartimento di Scienze Statistiche (Città Universitaria) nelle seguenti date:

  • 6 febbraio
  • 7 febbraio
  • 8 febbraio
  • 13 febbraio
  • 14 febbraio
  • 15 febbraio
     

Gli orari

Le lezioni di ogni giornata prevista si terranno con il seguente orario:

- Mattina dalle ore 9.00 alle ore 13.00

- Pomeriggio dalle 14.00 alle 17.00

 

Data ultima di iscrizione

Il termine ultimo per la presentazione della domanda di iscrizione è il 25 gennaio

Modalità di iscrizione

Per informazioni circa la modalità di iscrizione e di erogazione del corso, si rimanda al bando dello stesso, disponibile al seguente link.

Accedi al bando

 

Invitiamo coloro i quali volessero usufruire delle quote scontate, a contattarci preventivamente scrivendoci all'indirizzo: corsonlp.dss@uniroma1.it

 

Nota: Il corso non sarà attivato qualora non venisse raggiunto il numero minimo di 13 iscrizioni con quota ordinaria o agevolata. La quota di iscrizione, una volta versata, potrà essere rimborsata solo ed esclusivamente nel caso in cui il corso non venga attivato.

 

 

Per ulteriori informazioni, contattare la segreteria del corso all'indirizzo corsonlp.dss@uniroma1.it