Offerta formativa | Università degli Studi di Firenze

Anno di corso

Secondo Anno - Primo Semestre

Dipartimento di Afferenza

Statistica, Informatica, Applicazioni "G. Parenti" (DiSIA)

Tipo insegnamento

Attività formativa monodisciplinare

Settore Scientifico disciplinare

SECS-S/01 - STATISTICA

Crediti Formativi

9

Ore Didattica

72

Periodo didattico

14/09/2020 ⇒ 09/12/2020

Frequenza Obbligatoria

No

Tipo Valutazione

Voto Finale

Contenuto del corso

mostra

Programma del corso

mostra

Docenza

GOTTARD ANNA

Lingua Insegnamento

Inglese

Contenuto del corso

Distribuzione Normale Multivariata. Modello di regressione multivariata. Graphical models con estensione per high dimensional data (stimatori lasso e ridge). Metodi di Data Mining a fini esplorativi: Analisi in componenti principali e Analisi fattoriale. Metodi di Data Mining a fini discriminatori: Analisi discriminante lineare e quadratica. Metodi di supervised learning per la classificazione: CART, boosting, random forest, super learner, BART.

Libri di testo consigliati (Cerca nel catalogo della biblioteca)

Appunti e slides forniti dal docente, disponibili su Moodle.

Friedman, J., Hastie, T., & Tibshirani, R. (2008). The elements of statistical learning. Second edition. Springer, Berlin: Springer series in statistics.

Giudici, P. (2005). Applied data mining: statistical methods for business and industry. John Wiley & Sons.

Timm, N.H. (2002) Applied Multivariate Analysis, Springer

Obiettivi Formativi

Il corso introduce lo studente all’applicazione ed alla teoria di metodi di analisi e modelli statistici per lo studio di dati multivariati e di grande dimensione. In particolare saranno trattati approfondimenti su analisi multivariata classica ed alcune metodologie di data mining e learning statistico. Per favorire la comprensione, l’interpretazione e l’uso delle metodologie, il corso prevede esercitazioni con il linguaggio R.

Prerequisiti

Inferenza statistica Modelli statistici (modello classico di regressione lineare) Algebra delle matrici.

Per gli studenti di SDS: Esami propedeutici: Inferenza statistica; Probabilità e matematica per la statistica

Metodi Didattici

Lezioni frontali, esercitazioni, flipped classes e competizioni.

Altre Informazioni

Gli studenti che seguono il corso (mutuato) da 6 CFU, dovranno concordare con il docente argomenti pari a 2/3 del programma.

Modalità di verifica apprendimento

L'esame consta di due progetti:
1) un progetto in gruppo, con presentazione seminariale del progetto con slides in un contest tra gruppi (30% del voto finale)
2) progetto personale, con tesina scritta (30% del voto finale) e presentazione seminariale individuale con slides (40% del voto finale).

Slides, tesine e codici devono essere consegnate al docente prima di ciascuna presentazione.

Programma del corso

1. La distribuzione Normale Multivariata: Distribuzione Normale bivariata e multivariata; distrib marginali e condizionate Coeff. di correlazione ed indipendenza marginale e condizionata; Inferenza sui parametri della distribuzione Normale Multivariata
2. Introduzione ai modelli grafici Introduzione ai grafi e proprietà dell’indipendenza condizionata Grafi non direzionati (networks / Markov random fields) Proprietà di Markov e fattorizzazione Modelli grafici gaussiani Modelli grafici log-lineari Grafi direzionati (Bayesian networks / DAGs) Proprietà di Markov e fattorizzazione Algoritmi di learning Cenni su Grafi a catena(primo e quarto tipo) Proprietà di Markov e fattorizzazione
3. Analisi in componenti principali Definizione di componenti: terminologia e notazione Metodi di estrazione delle componenti principali Uso ed interpretazione delle componenti principali Principali ambiti di applicazione
4. Introduzione allo statistical learning Definizione di statistical learning e differenziazione da Machine learning Supervised e Unsupervised Learning Regression e Classification Misure di accuratezza Trade-off variabilità e bias Metodi di resampling e cross-validation
5. Linear Model Selection e stimatori di regolarizzazione Subset Selection Shrinkage Ridge Lasso e Elastic net
6. Tree-Based Methods Basics of Decision Trees Regression Trees Classification Trees Bagging e Boosting Random Forests BART
7. Super learner per problemi di classificazione e regressione
8. Analisi fattoriale Introduzione all’analisi fattoriale esplorativa Rotazione degli assi Interpretazione degli assi fattoriali
9. Analisi discriminante Introduzione all’analisi discriminante Regola di allocazione di massima verosimiglianza Analisi discriminante lineare e non lineare Matrice di confusione
10. Analisi dei gruppi Introduzione al problema della classificazione Distanze e metriche Metodi gerarchici e non gerarchici (k-means) Metodi probabilistici e fuzzy.
11. Cenni al Deep learning

B025406 - MULTIVARIATE ANALYSIS AND STATISTICAL LEARNING

Anno Accademico 2020-21

Lingua Insegnamento

Contenuto del corso

Libri di testo consigliati (Cerca nel catalogo della biblioteca)

Obiettivi Formativi

Prerequisiti

Metodi Didattici

Altre Informazioni

Modalità di verifica apprendimento

Programma del corso