Distribuzione Normale Multivariata. Modello di regressione multivariata. Graphical models con estensione per high dimensional data (stimatori lasso e ridge). Metodi di Data Mining a fini esplorativi: Analisi in componenti principali e Analisi fattoriale. Metodi di Data Mining a fini discriminatori: Analisi discriminante lineare e quadratica. Metodi di supervised learning per la classificazione: CART, boosting, random forest, super learner, BART.
Appunti e slides forniti dal docente, disponibili su Moodle.
Friedman, J., Hastie, T., & Tibshirani, R. (2008). The elements of statistical learning. Second edition. Springer, Berlin: Springer series in statistics.
Giudici, P. (2005). Applied data mining: statistical methods for business and industry. John Wiley & Sons.
Il corso introduce lo studente all’applicazione ed alla teoria di metodi di analisi e modelli statistici per lo studio di dati multivariati e di grande dimensione. In particolare saranno trattati approfondimenti su analisi multivariata classica ed alcune metodologie di data mining e learning statistico. Per favorire la comprensione, l’interpretazione e l’uso delle metodologie, il corso prevede esercitazioni con il linguaggio R.
Prerequisiti
Inferenza statistica Modelli statistici (modello classico di regressione lineare) Algebra delle matrici.
Per gli studenti di SDS: Esami propedeutici: Inferenza statistica; Probabilità e matematica per la statistica
Metodi Didattici
Lezioni frontali, esercitazioni, flipped classes e competizioni.
Altre Informazioni
Gli studenti che seguono il corso (mutuato) da 6 CFU, dovranno concordare con il docente argomenti pari a 2/3 del programma.
Modalità di verifica apprendimento
L'esame consta di due progetti:
1) un progetto in gruppo, con presentazione seminariale del progetto con slides in un contest tra gruppi (30% del voto finale)
2) progetto personale, con tesina scritta (30% del voto finale) e presentazione seminariale individuale con slides (40% del voto finale).
Slides, tesine e codici devono essere consegnate al docente prima di ciascuna presentazione.
Programma del corso
1. La distribuzione Normale Multivariata: Distribuzione Normale bivariata e multivariata; distrib marginali e condizionate Coeff. di correlazione ed indipendenza marginale e condizionata; Inferenza sui parametri della distribuzione Normale Multivariata
2. Introduzione ai modelli grafici Introduzione ai grafi e proprietà dell’indipendenza condizionata Grafi non direzionati (networks / Markov random fields) Proprietà di Markov e fattorizzazione Modelli grafici gaussiani Modelli grafici log-lineari Grafi direzionati (Bayesian networks / DAGs) Proprietà di Markov e fattorizzazione Algoritmi di learning Cenni su Grafi a catena(primo e quarto tipo) Proprietà di Markov e fattorizzazione
3. Analisi in componenti principali Definizione di componenti: terminologia e notazione Metodi di estrazione delle componenti principali Uso ed interpretazione delle componenti principali Principali ambiti di applicazione
4. Introduzione allo statistical learning Definizione di statistical learning e differenziazione da Machine learning Supervised e Unsupervised Learning Regression e Classification Misure di accuratezza Trade-off variabilità e bias Metodi di resampling e cross-validation
5. Linear Model Selection e stimatori di regolarizzazione Subset Selection Shrinkage Ridge Lasso e Elastic net
6. Tree-Based Methods Basics of Decision Trees Regression Trees Classification Trees Bagging e Boosting Random Forests BART
7. Super learner per problemi di classificazione e regressione
8. Analisi fattoriale Introduzione all’analisi fattoriale esplorativa Rotazione degli assi Interpretazione degli assi fattoriali
9. Analisi discriminante Introduzione all’analisi discriminante Regola di allocazione di massima verosimiglianza Analisi discriminante lineare e non lineare Matrice di confusione
10. Analisi dei gruppi Introduzione al problema della classificazione Distanze e metriche Metodi gerarchici e non gerarchici (k-means) Metodi probabilistici e fuzzy.
11. Cenni al Deep learning