Statistica II (750AA)

Avvisi

Descrizione del corso

Il corso si occupa dell’insegnamento delle principali applicazioni della statistica ai problemi di classificazione, regressione e previsione di serie storiche.

Programma dell’insegnamento

Registro delle lezioni

Team del corso A.A. 2025-2026

Modalità d’esame

L’esame consiste di una prova teorica e una pratica:

  • La prova teorica consiste di un test scritto con domande sugli argomenti del corso (vero/falso o scelta multipla da argomentare brevemente).

  • La prova pratica consiste di progetti autonomi di analisi statistica di dati reali, su almeno due dei tre argomenti principali (classificazione, regressione, serie storiche). Foglio di indicazioni generali sulle relazioni.

Il voto finale tiene conto sia della prova scritta che della prova orale.

È obbligatoria l’iscrizione per sostenere la prova teorica presso il portale esami.

Ricevimento

L’orario del ricevimento settimanale (in presenza oppure su MS Teams) è da concordare.

Per ragioni organizzative è fortemente consigliato avvisare prima (di persona a lezione, via mail o messaggio Teams) se si intende partecipare al ricevimento.

Materiale didattico

  • Testo consigliato per richiami sulle nozioni elementari di probabilità e statistica: S. Ross, Probabilità e Statistica per l’Ingegneria e le Scienze (Apogeo).

  • Note del corso tenuto negli anni precedenti da M. Romito.

  • Slides delle lezioni:

    1. Introduzione al corso. Richiami di statistica descrittiva, media, moda, mediana, quantili, varianza e deviazione standard. Minimizzazione del rischio empirico: esempi di funzione di costo (quadratica, assoluto, 0-1, esponenziale). Statistica multivariata: organizzazione dei dati osservati in data frame, cenni alle distanze multidimensionali (Euclidea, Manhattan, del massimo). Slides e versione annotata

    2. Media e medoide, definizione e significato. Introduzione al clustering: obiettivi, metodi non gerarchici (k-means, algoritmo di Lloyd; PAM), metodi gerarchici (agnes, diana). Indicatori di qualità del clustering: metodo elbow (pro e contro), indice di Dunn, silhouette, definizione e interpretazione. Slides e versione annotata

    3. Riduzione della dimensionalità. Esempi di curse of dimensionality, definizione di varianza, matrice delle covarianze, correlazione, coefficiente di Pearson, componenti principali scores/punteggi, proprietà di covarianza (matrice dei loadings). Slides e versione annotata

    4. Classificazione, descrizione del problema, metodo knn, accuratezza, modello statistico della classificazione (dati i.i.d.), richiami di probabilità, definizione di rischio atteso. Deomposizione train/validation e test sets. Tecniche di cross validation: leave-p-out, k-fold CV. Trade-off tra bias/varianza e come si evidenzia nelle curve di errore. Slides e versione annotata

    5. Formula di Bayes, stimatori MAP e MLE. Modello Naive Bayes: descrizione generale, esempio Bernoulli, esempio Gaussiano. Funzioni di score, curva ROC, AUC come indicatore di performance. LDA e QDA come modello generativo con Gaussiane generali (stima dei parametri tramite MLE). Regressione logistica come modello discriminativo (caso binario). Slides e versione annotata

    6. Regressione: descrizione generale del problema, indicatori di performance (MSE, RMSE, MAE, R^2 - coefficiente di determinazione). Errore di test, train, cross-validation, errore di generalizzazione. K-NN per la regressione: descrizione e grafici delle curve di errore (test/cv). Decomposizione generale dell’errore in bias^2+varianza+rumore. Conseguenze pratiche del dilemma bias/varianza. Introduzone ai modelli parametrici per la regressione. Metodo dei minimi quadrati (OLS) e intepretazione come stima MLE per rumore additivo gaussiano. Slides e versione annotata

    7. Regressione lineare generale (multipla): formula per la stima OLS dei parametri. Quantificazione dell’incertezza: metodo bootstrap, intervalli di fiducia e intervalli di previsione; confronto (generale) metodi parametrici frequentisti/bayesiani. Caso di regressione a una costante: stima bayesiana (Student-t). Slides e versione annotata

  • Notebook R:

    1. Introduzione .html e .Rmd
    2. Clustering .html e .Rmd, con il dataset ISTAT sui senza tetto.
    3. PCA .html e .Rmd, con il dataset CIQUAL sui nutrienti (descrizione).
    4. Classificazione I (knn e indicatori di performance) .html e .Rmd.
    5. Classificazione II (naive Bayes, LDA, regressione logistica, curva ROC) .html e .Rmd con il dataset INAIL sugli infortuni in Toscana
    6. Regressione I (knn per regressione, indicatori di performance, regressione lineare semplice e polinomiale) .html e .Rmd con il dataset OpenToscana sui ricoveri dell’ospedale Careggi.
    7. Regressione II (regressione multipla, intervalli di confidenza e di predizione, bootstrap) .html e .Rmd.
  • Demo interattive (ShinyApps):

    1. WERMS
    2. Medoids
    3. Final Clustering
    4. Ms PCA-Man
    5. Hello Neighbor (KNN)
    6. Angry Bayes
    7. Quiz sul programma (Jeopardy): Parte I.

Bing image generator: A drawing of statistics linear regression, classification all on paper sheets, black ink M.C. Escher style

Bing image generator: A drawing of statistics linear regression, classification, all on paper sheets, black ink, M.C. Escher style