FIRB Research project "Mixture and latent variable model for causal inference and analysis of socio-economic data"

Obiettivi del progetto
Il progetto è incentrato su sviluppi metodologici e applicativi relativi a delle importanti classi di modelli statistici che sono formulati mediante misture di distribuzioni o variabili/fattori latenti. Come noto, questi approcci sono fortemente collegati e sono di particolare rilievo in numerosi settori applicativi, in cui la caratteristica di interesse non è direttamente osservabile (es. qualità di vita, abilità in una certa materia) o le differenze tra i comportamenti delle unità statistiche dipendono da una forma di eterogeneità non spiegabile tramite covariate osservabili (eterogeneità non osservata).

Unità di Ricerca di Roma: Paolo Giordani (Responsabile Scientifico dell'Unità), Marco Alfò, Valeria Sambucini, Maria Brigida Ferraro (Ricercatore a Tempo Determinato finanziato dal Progetto)
I filoni di ricerca che l'unità di ricerca di Roma prevede di seguire sono:

1. analisi esplorativa di traiettorie multivariate. L'unità di ricerca si occuperà dello sviluppo di metodologie legate al trattamento di dati osservati, per uno stesso campione di individui, in pi˘ occasioni temporali. Idealmente, gli sviluppi prenderanno le mosse dai recenti sviluppi nel contesto metodologico dei modelli multilineari come il Tucker2 ed, in particolare, il Tucker3 e il Parafac che possono essere visti come una sorta di modelli a variabili latenti di tipo esplorativo e dei modelli di clustering del tipo INDCLUS o FkM, strettamente connessi ai modelli mistura, sebbene in ambito esplorativo.
1a. Modelli multilineari
Questa classe di modelli consente di studiare un insieme di unità su cui sono osservate diverse variabili nel corso del tempo mediante l'estrazione di fattori non direttamente osservabili. Tali fattori possono essere visti come delle variabili latenti che sottendono le variabili osservate. Una fondamentale differenza tra i modelli Parafac e Tucker è che nel primo si estraggono dei fattori comuni a tutti i modi (unità, variabili, occasioni temporali) mentre nel secondo si ricercano differenti fattori per ciascun modo il cui legame è analizzato mediante un tensore di dimensione ridotta detto core. A differenza dai modelli appartenenti alla famiglia Tucker, una importante proprietà del modello Parafac, che lo rende spesso preferibile al Tucker, è l'unicità delle soluzioni. Purtroppo l'applicazione del Parafac è talvolta complicata dal rischio di ottenere soluzioni degeneri, cioè fattori altamente correlati e non interpretabili. Questo problema è legato ai concetti di rango tensoriale e border rank. Una possibile soluzione consiste nell'inserire vincoli di ortogonalità tra fattori. Tuttavia, l'ipotesi di ortogonalità non è sempre appropriata ed è quindi utile sviluppare strategie alternative per risolvere il problema della degeneracy, come rilasciare il vincolo di ortogonalità inserendo un livello massimo ammesso di correlazione tra fattori. I modelli multilineari sono prevalentemente applicati a dati di tipo array (stesse unità x stesse variabili x occasioni), in cui i dati sono osservati in un insieme di occasioni temporali comuni. Nella letteratura specializzata è presente un numero molto limitato di tentativi per dati registrati in differenti occasioni temporali. Si tratta di un campo di ricerca piuttosto inesplorato che si presta ad essere studiato secondo diversi punti di vista, ad esempio proponendo una generalizzazione del Tucker3.
1b. Modelli di clustering
In maniera simile ai modelli a mistura finita per dati longitudinali, entro questa classe di modelli rientrano delle tecniche il cui obiettivo è raggruppare le unità statistiche in un numero limitato di gruppi omogenei al loro interno secondo una metrica basata sull'informazione longitudinale associata a ciascuna unità. A tale proposito si può ricorrere ad un approccio di tipo fuzzy in cui l'appartenenza delle unità ai gruppi avviene mediante il cosiddetto grado di appartenenza compreso in [0,1]; pi˘ il grado si avvicina ad uno, pi˘ forte è l'appartenenza dell'unità al cluster. Secondo l'approccio fuzzy, il metodo di clustering pi˘ noto è il Fuzzy K-Means (FKM). Diverse estensioni del FKM per dati longitudinali sono state proposte in letteratura. Caratteristica comune di tutte queste proposte è l'ipotesi che ci sia una unica classificazione delle unità in un numero prefissato di cluster durante tutte le occasioni temporali. A differenza dei modelli a mistura finita, le proposte basate sul FKM non richiedono ipotesi probabilistiche sui dati osservati poiché non assumono l'esistenza di un processo di generazione del dato. Si può estendere questa classe di tecniche ammettendo la possibilità che il numero di gruppi in ciascuna occasione e, soprattutto, l'appartenenza delle unità ai gruppi possano variare nel corso del tempo . Un altro punto che merita attenzione è relativo alla tipologia di dati disponibili, nel senso che i metodi di tipo FKM presuppongono l'osservazione nel corso del tempo di una serie di variabili quantitative. E' interessante sviluppare delle estensioni per dati di natura mista, quantitativa e qualitativa, e per matrici di prossimità. Nel primo caso, l'informazione qualitativa può essere affrontata mediante l'utilizzo di dati fuzzy o la determinazione dei prototipi dei gruppi basata sulla classe modale. Nel secondo caso, non vengono osservate variabili e la struttura di similarità tra unità è nota rispetto ad una certa misura di dissimilarità per ciascun istante temporale.

2. Modelli di regressione ad effetti misti per risposte longitudinali/ multivariate
Tali specificazioni sono definite condizionatamente alla presenza di variabili non osservate individuo-specifiche e vengono utilizzate per spiegare l'eventuale mancanza di adattamento del modello ai dati osservati che può essere associata ad un comportamento "persistente" dell'unità statistica, e per descrivere la struttura di associazione tra misure ripetute relative alla stessa unità.
2a. Tecniche di stima
La funzione di verosimiglianza è definita come integrale della verosimiglianza condizionata rispetto alla distribuzione degli effetti latenti e, di solito, non ha forma analitica chiusa. Il processo di stima necessita di adeguati strumenti di approssimazione, soprattutto nei casi empirici in cui la dimensione del vettore degli effetti latenti è elevata. Se si suppone che il vettore degli effetti latenti sia la realizzazione (non osservata) di una variabile casuale Gaussiana, le tecniche di solito utilizzate consistono nell'approssimazione numerica tramite quadratura di Gauss-Hermite. Tali tecniche, però, diventano molto onerose dal punto di vista computazionale, è, quindi, necessario utilizzare tecniche di pseudo-quadratura che permettono la costruzione di algoritmi ibridi EM-Newton sostanzialmente pi˘ veloci di quelli standard. In questo senso è opportuno estendere le librerie esistenti, quasi totalmente rivolte all'analisi di dati continui e condizionatamente Gaussiani, all'analisi di dati di tipo discreto e/o categorico. Nel caso in cui si utilizzino effetti latenti discreti, l'onere computazionale può essere molto minore. In questo contesto, è possibile definire un approccio di stima gerarchico di tipo Bayesiano.
2b. Dati Mancanti
Spesso gli studi longitudinali, in ambito sanitario, sociale, economico, presentano valori mancanti; il processo che genera i dati mancanti può essere dipendente dai valori del fenomeno oggetto di analisi che si sarebbero dovuti osservare. In questo ambito è necessario procedere su diversi percorsi. Da un lato è opportuno definire modelli generali e flessibili che permettano di definire la struttura di associazione potenziale tra dati osservati (e non) generati dal processo longitudinale ed il processo che descrive (in tempo continuo o in tempo discreto) la sopravvivenza, ossia la partecipazione dell'unità allo studio. In questo senso, l'approccio latent Markov deve essere esteso al caso in cui si abbiano pi˘ ragioni possibili per abbandonare lo studio. Dall'altro, visto che le ipotesi sottostanti alla struttura di associazione tra processo longitudinale e processo di sopravvivenza non possono essere sottoposte a verifica, è necessario sviluppare indici che descrivano la sensibilità delle stime dei parametri per scostamenti dalle ipotesi alla base del modello utilizzato. In questo contesto, l'unità procederà allo sviluppo ulteriore dell'Index of Sensitivity to Local Nonignorability.
2c. Dati misti
Si può avere un tempo di sopravvivenza continuo (dato dalla registrazione di un certo evento) ed una risposta longitudinale discreta oppure ordinale, cosÏ come è anche possibile il contrario, ad esempio quando si descrive la partecipazione allo studio di una unità statistica attraverso la sua presenza ad una serie di visite a cadenza prefissata. Nell'ambito dei modelli ad effetti latenti parametrici, ci si pone l'obiettivo di estendere il modello congiunto al caso di risposte longitudinali di tipo discreto con densità appartenente alla famiglia esponenziale. Per i modelli semiparametrici, è sempre pi˘ chiaro che l'unidimensionalità insita nei modelli a mistura finita può rappresentare una limitazione. Visto che la verosimiglianza è, nel caso di dati misti, una misura non vincolata del fit del modello, è possibile che il numero di componenti non rappresenti tutti i profili univariati ma sia influenzata dal o dai profili che presentano una maggiore variabilità within. Si propone di estendere l'approccio gerarchico, sviluppato per variabili manifeste nominali, alla distribuzione congiunta degli effetti casuali (discreti) relativi ai singoli profili. Tale rappresentazione è espressa da un modello di decomposizione tensoriale della distribuzione congiunta che lega questa tematica di ricerca alla tematica del punto 1. Per tutti i precedenti punti è oggetto di lavoro l'implementazione di funzioni ed algoritmi per i software Matlab e R al fine di agevolare la diffusione e l'applicabilità delle tecniche di cui sopra da parte di utenti esperti e non.

Pubblicazioni
Alfò, M., Rocchetti, I. (2013), A flexible approach to finite mixture regression models for multivariate mixed responses, Statistics and Probability Letters, 84, 1754-1758
Blanco-Fern·ndez, A., Casals, R.M., Colubi, A., Coppi, R., Corral, N., de la Rosa de S·a, S., DíUrso, P., Ferraro, M.B., GarcÌa-B·rzana, M., Gil, M.A., Giordani, P., Gonz·lez-RodrÌguez, G., LÛpez, M.T., Lubiano, M.A., Montenegro, M., Nakama, T., Ramos-Guajardo, A.B., Sinova, B., Trutschnig, W. (2013). Arithmetic and distance-based approach to the statistical analysis of imprecisely valued data, in: Borgelt, C., Gil, M.A., Sousa, J.M.C., Verleysen, M., (Eds.) Towards Advanced Data Analysis by Combining Soft Computing and Statistics. Studies in Fuzziness and Soft Computing, Springer Verlag, Berlin Heidelberg, Vol. 2è, pp. 1-18, ISBN: 978-3-642-30277-0, doi: 10.1007/978-3-642-30278-7_1
Cellamare, M., Sambucini, V., Siena, F. (2014). Randomized phase II trials: a Bayesian two-stage design. In ìThe Contribution of Young Researchers to Bayesian Statistics - Proceedings of BAYSM 2013î, Springer International Publishing, 63, 139-142, ISBN: 978-3-319-02083-9
Colasante, E., Gori, M., Bastiani, L., Siciliano, V., Giordani, P., Grassi, M., Molinaro, S. (2013) An assessment of the psychometric properties of Italian version of CPGI, Journal of Gambling Studies, 29, 765-774
Coppi, R., Ferraro, M.B, Giordani, P. (2013) A class of linear regression models for imprecise random elements, in Torelli, N., Pesarin, F., Bar-Hen, A., (Eds.): Advances in Theoretical and Applied Statistics, Springer-Verlag Berlin Heidelberg, pp. 211-220, ISBN 978-3-642-35587-5, doi: 10.1007/978-3-642-35588-2 20
Ferraro, M.B., Giordani, P. (2013), On possibilistic clustering with repulsion constraints for imprecise data, Information Sciences, 245, 63-75
Ferraro, M.B., Savarese, M., Di Fruscio, G., Nigro, V., Guarracino, M.R. (2014). Prediction of rare single-nucleotide causative mutations for muscular diseases in pooled NGS experiments. Journal of Computational Biology, 21, 665-675
Ferraro, M.B., Coppi, R., Gonzalez-Rodriguez, G. (2013). Bootstrap Confidence Intervals for the Parameters of a Linear Regression Model with Fuzzy Random Variables. In: Borgelt, C.; Gil, M.A.; Sousa, J.M.C.; Verleysen, M. (Eds.) Towards Advanced Data Analysis by Combining Soft Computing and Statistics. Studies in Fuzziness and Soft Computing, 2è, 33-42
Ferraro, M.B., Giordani, P. (2013) A proposal of robust regression for random fuzzy sets, in Kruse, R., Berthold, M.R., Moewes, C., Gil, M.A., Grzegorzewski, P., Hryniewicz, O., (Eds.): Synergies of Soft Computing and Statistics for Intelligent Data Analysis, Springer Verlag, Berlin, pp. 115-123, ISBN: 978-3-642-33042-1, doi: 10.1007/978-3-642-33042-1
Ferraro, M.B., Guarracino, M.R. (2014). From separating to proximal plane classifiers: a review. In: Pardalos, P.M.,Du, D-.Z. (Eds.) Springer Optimization and Its Applications, Clusters, orders, trees: methods and applications, Springer-Verlag Berlin Heidelberg
Ferraro, M.B., Irpino, A., Verde, R., Guarracino, M.R. (2013). A novel feature selection method for classification using a fuzzy criterion. In: G. Nicosia, P. Pardalos (Eds.), LION 7- Lecture Notes in Computer Sciences, 7997, 1-13, Springer-Verlag Berlin Heidelberg
Giordani, P. (2014) Principal Component Analysis, in: Alhajj, R., Rokne, J., (Eds.): Encyclopedia of Social Network Analysis and Mining, Springer, Berlin, ISBN 978-1-4614-6169-2
Giordani, P. (2014), Linear regression analysis for interval-valued data based on the Lasso technique, Advances in Data Analysis and Classification, in press
Giordani, P., Kiers, H.A.L., Del Ferraro, M.A. (2014), Three-way component analysis using the R package ThreeWay, Journal of Statistical Software, 57 (7), 1-23, URL http://www.jstatsoft.org/v57/i07/
Giordani, P., Rocci, R. (2013) Candecomp/Parafac with ridge regularization, Chemometrics and Intelligent Laboratory Systems, 129, 3-9
Giordani, P., Rocci, R. (2013) Constrained Candecomp/Parafac via the Lasso, Psychometrika, 78, 669-684
Pizzulli, A., Perna, S., Florack, J., Pizzulli, A., Giordani, P., Tripodi, S.; Pelosi, S., Matricardi, P. (2014) The impact of tele-monitoring on adherence to nasal corticosteroid treatment in children with seasonal allergic rhinoconjunctivitis, 44, 1246-1254
Rocchetti, I., Alfò, M., Boehning, D. (2014) A regression estimator for mixed binomial capture-recapture data. Journal of Statistical Planning and Inference, 145, 165-178
Sambucini, V. (2014). Comparison of single-arm versus randomized phase II trials: a Bayesian approach. Journal of Biopharmaceutical Statistics, in press
Sambucini, V. (2013). On the Nature of the Stationary Point of a Quadratic Response Surface: A Bayesian Simulation-Based Approach, The American Statistician, 67(1), 33-41
Vicari, D., Alfò, M. (2014) Model based clustering of customer choice data, Computational Statistics and Data Analysis, 71, 3-13
Viviani, S., AlfÛ, M., Rizopoulos, D. (2014) Generalized linear mixed joint model for longitudinal and survival outcomes. Statistics and Computing, 24, 417-427

Software
fclust (Giordani, P., Ferraro, M.B.), http://cran.r-project.org/web/packages/fclust/index.html
ThreeWay, (Del Ferraro, M.A., Kiers, H.A.L., Giordani, P.), http://cran.r-project.org/web/packages/ThreeWay/index.html