B025406 - MULTIVARIATE ANALYSIS AND STATISTICAL LEARNING

English Version

Principali informazioni

Lingua Insegnamento

Contenuto del corso

Libri di testo consigliati

Obiettivi Formativi

Prerequisiti

Metodi Didattici

Altre Informazioni

Modalità di verifica apprendimento

Programma del corso

Obiettivi Agenda 2030 per lo sviluppo sostenibile

Il corso utilizza in parte materiali e risorse online

Anno Accademico 2022-23

Coorte 2021 - Laurea Magistrale in STATISTICA E DATA SCIENCE

Anno di corso

Secondo Anno - Primo Semestre

Dipartimento di Afferenza

Statistica, Informatica, Applicazioni "G. Parenti" (DiSIA)

Tipo insegnamento

Attività formativa monodisciplinare

Settore Scientifico disciplinare

SECS-S/01 - STATISTICA

Crediti Formativi

Ore Didattica

Periodo didattico

13/09/2022 ⇒ 07/12/2022

Frequenza Obbligatoria

Tipo Valutazione

Voto Finale

Contenuto del corso

mostra

Programma del corso

mostra

Docenza

GOTTARD ANNA

Lingua Insegnamento

Inglese

Contenuto del corso

Distribuzione Normale Multivariata. Introduzione ai modelli grafici, networks e Bayesian Networks. Versione per high dimensional data (stimatori lasso, ridge, elastic net). Metodi di Statistical Learning a fini esplorativi: Analisi in componenti principali e Analisi fattoriale e loro confronto. Metodi di supervised learning per la classificazione: CART, boosting, random forest, BART.
Metodi di unsupervised learning di clustering: clustering gerarchico, non gerarchico e basato su modello.

Libri di testo consigliati (Cerca nel catalogo della biblioteca)

Appunti e slides forniti dal docente, disponibili su Moodle.

James, G., Witten, D., Hastie, T., & Tibshirani, R. (2021). An introduction to statistical learning (Second edition). New York: Springer.

Friedman, J., Hastie, T., & Tibshirani, R. (2013). The elements of statistical learning. Second edition. Springer, Berlin: Springer series in statistics.

Giudici, P. (2005). Applied data mining: statistical methods for business and industry. John Wiley & Sons.

Obiettivi Formativi

Il corso introduce lo studente all’applicazione ed alla teoria modelli statistici per lo studio di dati multivariati e di grande dimensione e di metodi di statistical learning. In particolare saranno trattati approfondimenti su analisi multivariata classica ed alcune metodologie di data mining e learning statistico supervisionato e non supervisionato. Per favorire la comprensione, l’interpretazione e l’uso delle metodologie, il corso prevede esercitazioni con il linguaggio R.

Prerequisiti

Inferenza statistica Modelli statistici (modello classico di regressione lineare) Algebra delle matrici.

Per gli studenti di SDS: Esami propedeutici: Inferenza statistica; Probabilità e matematica per la statistica

Metodi Didattici

Lezioni frontali, esercitazioni, flipped classes e competizioni.

Altre Informazioni

Gli studenti che seguono il corso (mutuato) da 6 CFU, dovranno concordare con il docente argomenti pari a 2/3 del programma.

Modalità di verifica apprendimento

L'esame consta di due parti:

(1) Homework, da caricare su Moodle. Per gli studenti che non svolgono il 75% dei compiti a casa, al punto (2) sarà inserita una breve prova orale (25% del punteggio finale).

(2) Presentazione seminariale di due progetti volti a dimostrare la padronanza personale degli argomenti del corso.
Per gli studenti frequentanti, il primo progetto può essere preparato in gruppo e presentato in un contest tra gruppi (30% del voto finale).
Prima della presentazione, le slides e i codici devono essere caricati sulla piattaforma Moodle.

Saranno valutate la capacità di comprensione della research question, l’utilizzo degli strumenti teorici e computazionali coerenti, il rigore nell’applicazione dei metodi scelti, la capacità di argomentare e difendere i risultati raggiunti.

Programma del corso

1. La distribuzione Normale Multivariata: Distribuzione Normale bivariata e multivariata; distrib marginali e condizionate Coeff. di correlazione ed indipendenza marginale e condizionata; Inferenza sui parametri della distribuzione Normale Multivariata
2. Introduzione ai modelli grafici Introduzione ai grafi e proprietà dell’indipendenza condizionata Grafi non direzionati (networks / Markov random fields) Proprietà di Markov e fattorizzazione Modelli grafici gaussiani Modelli grafici log-lineari Grafi direzionati (Bayesian networks / DAGs) Proprietà di Markov e fattorizzazione Algoritmi di learning Cenni su Grafi a catena(primo e quarto tipo) Proprietà di Markov e fattorizzazione
3. Analisi in componenti principali Definizione di componenti: terminologia e notazione Metodi di estrazione delle componenti principali Uso ed interpretazione delle componenti principali Principali ambiti di applicazione
4. Introduzione allo statistical learning Definizione di statistical learning e differenziazione da Machine learning Supervised e Unsupervised Learning Regression e Classification Misure di accuratezza Trade-off variabilità e bias Metodi di resampling e cross-validation
5. Linear Model Selection e stimatori di regolarizzazione Subset Selection Shrinkage Ridge Lasso e Elastic net
6. Tree-Based Methods Basics of Decision Trees Regression Trees Classification Trees Bagging e Boosting Random Forests BART
7. Super learner per problemi di classificazione e regressione
8. Analisi fattoriale Introduzione all’analisi fattoriale esplorativa Rotazione degli assi Interpretazione degli assi fattoriali
9. Analisi dei gruppi Introduzione al problema della classificazione Distanze e metriche Metodi gerarchici e non gerarchici (k-means) Metodi probabilistici e fuzzy.