Distribuzione Normale Multivariata. Introduzione ai modelli grafici, networks e Bayesian Networks. Versione per high dimensional data (stimatori lasso, ridge, elastic net). Metodi di Statistical Learning a fini esplorativi: Analisi in componenti principali e Analisi fattoriale e loro confronto. Metodi di supervised learning per la classificazione: CART, boosting, random forest, BART.
Metodi di unsupervised learning di clustering: clustering gerarchico, non gerarchico e basato su modello.
Appunti e slides forniti dal docente, disponibili su Moodle.
James, G., Witten, D., Hastie, T., & Tibshirani, R. (2021). An introduction to statistical learning (Second edition). New York: Springer.
Friedman, J., Hastie, T., & Tibshirani, R. (2013). The elements of statistical learning. Second edition. Springer, Berlin: Springer series in statistics.
Giudici, P. (2005). Applied data mining: statistical methods for business and industry. John Wiley & Sons.
Obiettivi Formativi
Il corso introduce lo studente all’applicazione ed alla teoria modelli statistici per lo studio di dati multivariati e di grande dimensione e di metodi di statistical learning. In particolare saranno trattati approfondimenti su analisi multivariata classica ed alcune metodologie di data mining e learning statistico supervisionato e non supervisionato. Per favorire la comprensione, l’interpretazione e l’uso delle metodologie, il corso prevede esercitazioni con il linguaggio R.
Prerequisiti
Inferenza statistica Modelli statistici (modello classico di regressione lineare) Algebra delle matrici.
Per gli studenti di SDS: Esami propedeutici: Inferenza statistica; Probabilità e matematica per la statistica
Metodi Didattici
Lezioni frontali, esercitazioni, flipped classes e competizioni.
Altre Informazioni
Gli studenti che seguono il corso (mutuato) da 6 CFU, dovranno concordare con il docente argomenti pari a 2/3 del programma.
Modalità di verifica apprendimento
L'esame consta di due parti:
(1) Homework, da caricare su Moodle. Per gli studenti che non svolgono il 75% dei compiti a casa, al punto (2) sarà inserita una breve prova orale (25% del punteggio finale).
(2) Presentazione seminariale di due progetti volti a dimostrare la padronanza personale degli argomenti del corso.
Per gli studenti frequentanti, il primo progetto può essere preparato in gruppo e presentato in un contest tra gruppi (30% del voto finale).
Prima della presentazione, le slides e i codici devono essere caricati sulla piattaforma Moodle.
Saranno valutate la capacità di comprensione della research question, l’utilizzo degli strumenti teorici e computazionali coerenti, il rigore nell’applicazione dei metodi scelti, la capacità di argomentare e difendere i risultati raggiunti.
Programma del corso
1. La distribuzione Normale Multivariata: Distribuzione Normale bivariata e multivariata; distrib marginali e condizionate Coeff. di correlazione ed indipendenza marginale e condizionata; Inferenza sui parametri della distribuzione Normale Multivariata
2. Introduzione ai modelli grafici Introduzione ai grafi e proprietà dell’indipendenza condizionata Grafi non direzionati (networks / Markov random fields) Proprietà di Markov e fattorizzazione Modelli grafici gaussiani Modelli grafici log-lineari Grafi direzionati (Bayesian networks / DAGs) Proprietà di Markov e fattorizzazione Algoritmi di learning Cenni su Grafi a catena(primo e quarto tipo) Proprietà di Markov e fattorizzazione
3. Analisi in componenti principali Definizione di componenti: terminologia e notazione Metodi di estrazione delle componenti principali Uso ed interpretazione delle componenti principali Principali ambiti di applicazione
4. Introduzione allo statistical learning Definizione di statistical learning e differenziazione da Machine learning Supervised e Unsupervised Learning Regression e Classification Misure di accuratezza Trade-off variabilità e bias Metodi di resampling e cross-validation
5. Linear Model Selection e stimatori di regolarizzazione Subset Selection Shrinkage Ridge Lasso e Elastic net
6. Tree-Based Methods Basics of Decision Trees Regression Trees Classification Trees Bagging e Boosting Random Forests BART
7. Super learner per problemi di classificazione e regressione
8. Analisi fattoriale Introduzione all’analisi fattoriale esplorativa Rotazione degli assi Interpretazione degli assi fattoriali
9. Analisi dei gruppi Introduzione al problema della classificazione Distanze e metriche Metodi gerarchici e non gerarchici (k-means) Metodi probabilistici e fuzzy.