Datasets

Lavoreremo con un dataset creato appositamente, uno invece già caricato in R (ad esempio ChickWeights) e uno di dati reali (censimento di persone senza tetto per regioni italiane dall’ISTAT).

Dataset pseudo-casuale

Per generare il dataset, usiamo il comando rnorm().

# Possiamo impostare un seed per la riproducibilità, altrimenti ognuno avrà un dataset leggermente diverso
# set.seed(42)

# Generazione di dati fittizi con 200 osservazoni, 
n <- 100
x1 <- rnorm(n, mean = 5, sd = 1)
y1 <- rnorm(n, mean = 5, sd = 1)
x2 <- rnorm(n, mean = 3, sd = 1)
y2 <- rnorm(n, mean = 3, sd = 1)


# Creiamo un dataframe, includiamo anche il gruppo (non useremo per il clustering)
data_random <- data.frame(
  x = c(x1, x2),
  y = c(y1, y2),
  group = factor(c(rep(1, n), rep(2,n)))
)

Visualizziamo i dati generati con il comando plot() di base oppure usando ggplot2.

# plot di base
plot(data_random$x, data_random$y, col=data_random$group)


# usando ggplot

library("ggplot2")

ggplot(data_random, aes(x, y, color = group)) +
  geom_point() +
  labs(title = "Dataset generato", x = "X", y = "Y")

Dataset ChickWeight

Questo dataset ChickWeight (cercare sull’help) contiene informazioni relative alla crescita di polli con diverse diete. Il clustering permette di esplorare i dati ad esempio individuando due (o più) categorie di diete in base all’effetto sulla crescita.

head(ChickWeight)

Notiamo però che è presente una colonna Time in cui è registrato il tempo dalla crescita dell’individuo colonna Chick. Per applicare il clustering voremmo invece avere solo una riga per individuo contenente i pesi nei vari giorni (0, 2, 4, 6, ecc.). Questo accade spesso con dati reali: non sono strutturati come vorremmo (perché raccolti da altri, ad esempio con altri scopi). Per ripulire i dati, possiamo usare il pacchetto tidyr della suite tidyverse (https://www.tidyverse.org/). Questo foglio descrive brevemente alcuni comandi principali: https://leadousset.github.io/intro-to-R/cheatsheet_tidy.pdf

# dare il comando install.packages("tidyverse") se non è già installato
library("tidyr")

Nel nostro caso vogliamo allargare il data frame in modo che abbia più colonne (una per ciascuna età). Usiamo quindi il comando pivot_wider().

chick_tidy <- pivot_wider(data=ChickWeight, names_from = Time, values_from = weight)

Visualizziamo la tabella ripulita.

chick_tidy

Notiamo che ci sono dei valori mancanti NA. Questo accade spesso con dati reali e bisogna tenerne conto. L’approccio più semplice è di rimuovere completamente le righe per cui almeno una osservazione è mancante. In tidyr esiste il comando drop_na() che fa appunto questo.

chick_tidy <- drop_na(chick_tidy)

chick_tidy

NA

Le righe con almeno un dato mancante sono state rimosse. Attenzione però al rischio di cadere in errori logici come il Survivorship bias oppure il cherry picking: rimuovendo una porzione di dati rilevanti al problema, si potrebbero trarre conclusioni del tutto errate. Ad esempio, i polli che crescono di più grazie ad una particolare dieta vengono uccisi una settimana prima e quindi non si registra il peso dell’ultima settimana. Se fosse così, rimuovendo i valori NA si rimuove proprio il segnale che si sta cercando!

Dataset senzatetto

Carichiamo infine un dataset reale, proveniente dall’Istituto nazionale di statistica (ISTAT), relativo al numero di persone senza tetto e senza fissa dimora per regione, anno 2021. I dati sono scaricati dalla pagina https://esploradati.istat.it/databrowser/#/it/censpop/categories/DCSS_SENZA_TETTO_TV/IT1,DF_DCSS_SENZA_TETTO_TV_1,1.0 ma si trovano anche sul team o il sito del corso.

I dati possono essere salvati in vari formati, il più comune e standard è il formato .csv(comma-separated values) in cui (eccetto al più qualche riga di commento iniziare), i dati sono scritti in testo semplice, ciascuna riga relativa ad una riga del data frame e le colonne separate dalla virgola (comma in inglese). Il comando di base per leggere i file in questo formato è read.csv(), mettendo come argomento una stringa con il nome del file (eventualmente nelle sottocartelle del progetto).

# dopo aver scaricato il file senza_tetto_italia.csv e averlo copiato in una sottocartella del progetto chiamata datasets, carichiamo il file

senza_tetto_caricato <- read.csv("datasets/senza_tetto_italia.csv")

head(senza_tetto_caricato)

NA

Anche in questo caso vediamo che i dati vanno ripuliti, selezionando solo le colonne di interesse ed eventualmente allargando le righe per le classi di età.

Digressione su input/output di dati

Notiamo intanto che l’uso della virgola potrebbe essere un problema con i decimali: in inglese si usa invece il punto \(\pi= 3.1415..\), mentre in italiano e altre lingue potrebbe creare letture sbagliate. Per questo ci sono anche formati alternativi, come il .tsv (tab-separated values) in cui si usa una spaziatura tab per separare i valori. Il comando diventa allora read.tsv()

Altra cosa invece sono i formati di Excel che sono proprietari contengono molte più informazioni, anche circa la storia delle operazioni che sono state effettuate sui dati (ad esempio, un caso di dati manomessi è stato appunto sollevato proprio studiando le operazioni effettuate sull’Excel fornito da un gruppo di autori https://datacolada.org/109). Il pacchetto standard dedicato all’input di dati da Excel in R è `readxl. Se preferite usare l’interfaccia grafica di RStudio, nel tab Environment trovate il bottone Import Dataset che permette di importare da csv, Excel e anche fare delle prime operazioni sul data frame che verrà assegnato.

Per gestire in modo più semplice l’input di dati da vari formati, personalmente consiglio il pacchetto rio che ha qualche funzionalità automatizzata per l’input (comando import()) e l’output (comando export).

# per installare rio usare il comando install.packages("rio")
library("rio")

# esportiamo il dataset dei polli ripulito in formato excel semplicemente dando l'estensione .xlsx al nome del file

export(chick_tidy, "datasets/polli_puliti.xlsx")

# se navigate nella sottocartella datasets troviamo il file salvato. Possiamo salvare anche in altri formati, digitando l'estensione corretta.

export(chick_tidy, "datasets/polli_puliti.csv")

# con il comando import carichiamo invece da molteplici formati, incluso Excel.

polli_excel <- import("datasets/polli_puliti.xlsx")

head(polli_excel)

Pulizia dataset senza tetto

Torniamo al dateset senza tetto che abbiamo caricato.

head(senza_tetto_caricato)

Selezioniamo solo le colonne corrispondenti alla regione Territorio al codice di età e alla frequenza rilevata Osservazione.


senza_tetto_selezione <- data.frame( "regione" = senza_tetto_caricato$Territorio, "age" = senza_tetto_caricato$AGE_CLASS, "frequenza" = senza_tetto_caricato$Osservazione)

head(senza_tetto_selezione)

A questo punto usiamo di nuovo pivot_wider per creare delle colonne relative alle varie età.

senza_tetto_tidy <- pivot_wider(senza_tetto_selezione, names_from = age, values_from = frequenza)

head(senza_tetto_tidy)

Possiamo anche salvare il dataset ripulito nel caso ci servisse più avanti (o dovessimo caricarlo, ad esempio per il progetto della proma di esame).

write.table(senza_tetto_tidy, "datasets/senza_tetto_tidy.csv")

Metodi non gerarchici

Discutiamo prima i metodi di clustering non gerarchici, in particolare K-means kmeans() e Partitioning Around Medoids (pam() dall pacchetto cluster).

K-means clustering

Applichiamo K-means al dataset generato. Togliamo la terza colonna (quella che contiene già il gruppo, per come l’abbiamo generato).

head(data_random)

kmeans_data_random <- kmeans(data_random[1:2], centers = 2)

# Il risultato è una lista contenente varie informazioni

kmeans_data_random

K-means clustering with 2 clusters of sizes 101, 99

Cluster means:
         x        y
1 5.078868 4.939970
2 2.915236 3.073316

Clustering vector:
  [1] 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 [26] 1 1 1 1 1 1 1 2 1 1 1 2 1 1 1 2 1 1 1 1 1 1 1 1 1
 [51] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 2 1 1 1 1
 [76] 1 1 1 1 1 1 1 1 1 2 2 1 1 1 1 1 1 1 1 1 1 1 1 2 1
[101] 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 1 2 1 2 2
[126] 1 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
[151] 2 2 2 2 2 2 2 2 2 2 2 1 2 2 2 2 1 2 2 2 2 2 2 2 2
[176] 2 2 2 2 2 2 2 2 2 1 2 2 1 2 2 1 2 2 2 2 2 2 2 2 2

Within cluster sum of squares by cluster:
[1] 180.4770 177.6434
 (between_SS / total_SS =  53.3 %)

Available components:

[1] "cluster"      "centers"      "totss"       
[4] "withinss"     "tot.withinss" "betweenss"   
[7] "size"         "iter"         "ifault"

Ricordiamo che erano 100 punti per gruppo e le medie (che ci aspettiamo essere i centri) erano rispettivamente \((5,5)\), \((3,3)\). Aggiungiamo la colonna del cluster al data frame originale.


data_random$kmeans <- factor(kmeans_data_random$cluster )

Possiamo confrontare quindi con una tabella di contingenza table() i due cluster (originale e quello di kmeans).

table( "originale" = data_random$group, "kmeans"=data_random$kmeans)

         kmeans
originale  1  2
        1  9 91
        2 90 10

Ovviamente non è detto che il cluster etichettato con \(1\) da k-means corrisponda con la classe \(1\) originale!

Possiamo fare un plot usando come colore il cluster trovato con k-means.


plot(data_random$x, data_random$y, col=data_random$kmeans)

Con ggplot possiamo assegnare la forma del gruppo originale e il colore del cluster trovato con k-means. Riuscite a vedere i punti non classificati correttamente?

ggplot(data = data_random, aes(x=x, y=y, colour = kmeans, shape = group)) + geom_point()

Come determinare \(k\)? l’output di k-means fornisce il WCSS per cluster e il WCSS totale.


kmeans_data_random$withinss

[1] 180.4770 177.6434

kmeans_data_random$tot.withinss

[1] 358.1203

Plottiamo il WCSS per vari valori di \(k\) (cercando di applicare il cosiddetto metodo elbow).


WCSS <- c()

for(k in 2:10){
  WCSS <- c(WCSS, kmeans(data_random[1:2], centers=k)$tot.withinss)
}

plot(2:10,  WCSS, type='l', xlab="numero di clusters", ylab="WCSS")

Provate a riapplicare il blocco di codice sopra. Cosa notate? L’algoritmo di k-means (e pure pam) è in realtà molto sensibile ai centri iniziali. Per questo è meglio applicare il metodo diverse istanze, indicare il valore medio e un intervallo di confidenza (in questo caso bilatero al livello \(95\%\)).


WCSS <- data.frame("k"=numeric(), "mean"=numeric(), "sd" =numeric() )

numero_runs <- 3

for(k in 2:10){
  wcss_runs <- c()
  for (i in 1:numero_runs){
    wcss_runs <- c(wcss_runs,  kmeans(data_random[1:2], centers=k)$tot.withinss)
  }
  WCSS <- rbind( WCSS, data.frame(k, mean(wcss_runs), sd(wcss_runs)))
}

plot(2:10,  WCSS$mean, type='l', xlab="numero di clusters", ylab="WCSS", col="red")
lines(2:10, WCSS$mean+qt(0.975, df=numero_runs-1) * WCSS$sd/sqrt(numero_runs), col="grey")

lines(2:10, WCSS$mean-qt(0.975, df=numero_runs-1) * WCSS$sd/sqrt(numero_runs), col="grey")

Per esercizio, creare un dataset in cui il numero di clusters sia diverso da 2 e verificare l’andamento del WCSS riconoscendo se possibile il punto di gomito.

Partitioning Around Medoids (PAM)

Applichiamo ora PAM e confrontiamo il risultato con k-means al dataset chick_tidy. Il comando è pam() dal pacchetto cluster. Come kmeans, bisogna specificare \(k\). Togliamo le prime due colonne (numero identificativo individuo e tipo di dieta).


pam_chick <- pam(chick_tidy[-(1:2)], k = 2)

pam_chick

Medoids:
     ID  0  2  4  6   8  10  12  14  16  18  20  21
[1,] 18 41 55 64 77  90  95 108 111 131 148 164 167
[2,] 21 40 49 62 78 102 124 146 164 197 231 259 265
Clustering vector:
 [1] 1 1 1 1 2 1 2 1 1 1 1 1 2 1 1 1 2 1 1 1 2 2 1 2 2 1
[27] 2 2 1 2 2 2 1 2 2 2 2 2 2 1 2 2 2 2 2
Objective function:
   build     swap 
82.28238 74.21691 

Available components:
 [1] "medoids"    "id.med"     "clustering" "objective" 
 [5] "isolation"  "clusinfo"   "silinfo"    "diss"      
 [9] "call"       "data"

Possiamo anche in questo case aggiungere il vettore di clustering trovato al data frame.


chick_tidy$pam_cluster <- pam_chick$clustering

In questo caso non abbiamo delle classi con cui naturalmente confrontare il risultato, quindi possiamo ad esempio confrontare con \(k\)-means.


# rimuoviamo anche l'ultima colonna (che contiene il clustering di pam)

kmeans_chick <- kmeans(chick_tidy[-c(1, 2, 15)],  2)

kmeans_chick

K-means clustering with 2 clusters of sizes 23, 22

Cluster means:
         0        2        4        6         8
1 41.43478 49.17391 58.78261 70.82609  83.95652
2 40.68182 50.00000 61.59091 79.09091 101.27273
         10       12       14       16       18
1  97.04348 112.7391 120.6957 134.8696 148.4348
2 123.72727 153.7273 172.9545 205.7727 238.4091
        20       21
1 160.3478 162.5217
2 265.1818 277.4091

Clustering vector:
 [1] 1 1 1 1 2 1 2 1 1 1 1 1 2 1 1 1 2 1 1 1 2 2 1 2 2 1
[27] 2 2 1 2 2 2 1 2 2 2 1 2 2 1 2 1 2 2 2

Within cluster sum of squares by cluster:
[1] 164560.6 160635.7
 (between_SS / total_SS =  59.7 %)

Available components:

[1] "cluster"      "centers"      "totss"       
[4] "withinss"     "tot.withinss" "betweenss"   
[7] "size"         "iter"         "ifault"

Aggiungiamo anche questi risultati al data frame e confrontiamo con una tabella di contingenza.


chick_tidy$kmeans_cluster <- kmeans_chick$cluster

table("pam"=chick_tidy$pam_cluster, "kmeans"=chick_tidy$kmeans_cluster)

   kmeans
pam  1  2
  1 21  0
  2  2 22

Vediamo che le classi trovate sono molto simili. La scelta dei medoid può influenzare i risultati, ma PAM è generalmente più stabile in presenza di rumore.

Un vantaggio notevole di pam rispetto a k-means è la possibilità di usare metriche diverse. È possibile dare come input invece del data frame una matrice di dissimilarità, oppure specificare metric = "manhattan" per usare la distanza \(\ell_1\) (taxicab).


pam_chick <- pam(chick_tidy[-c(1,2, 15, 16)], k = 2, metric="manhattan")

chick_tidy$pam_manhattan_cluster <- pam_chick$cluster

Confrontiamo i risultati di pam con le due metriche.

table("pam"=chick_tidy$pam_cluster, "pam_manhattan"=chick_tidy$pam_manhattan_cluster)

   pam_manhattan
pam  1  2
  1 20  1
  2  0 24

Possiamo infine usare la silhouette per valutare i cluster trovati (anche per lo stesso \(k\)). Il comando è silhouette() dal pacchetto cluster, a cui bisogna dare come input il vettore del cluster e una matrice di dissimilarità (ad esempio calcolata con la funzione dist())

sil_pam <- silhouette(chick_tidy$pam_cluster, dist(chick_tidy[-c(1,2,15, 16, 17)]))

sil_pam_manhattan <- silhouette(chick_tidy$pam_manhattan_cluster, dist(chick_tidy[-c(1,2,15, 16, 17)]))
                                
sil_kmeans <- silhouette(chick_tidy$kmeans_cluster, dist(chick_tidy[-c(1,2,15, 16, 17)]))

Possiamo plottare la silhouette per ciascun metodo o per ciascun cluster, oppure limitarci alla silhouette media.


plot(sil_pam)


boxplot(sil_pam[, 3])


# con la funzione summary otteniamo un riassunto delle varie silhouette in cui possiamo visualizzare la silhouette media

summary(sil_pam)

Silhouette of 45 units in 2 clusters from silhouette.default(x = chick_tidy$pam_cluster, dist = dist(chick_tidy[-c(1, 2, 15, 16, 17)])) :
 Cluster sizes and average silhouette widths:
       21        24 
0.4800079 0.4547099 
Individual silhouette widths:
    Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
-0.02622  0.37946  0.53847  0.46652  0.61631  0.64761

Confrontiamo le tre silhouette medie.


print(paste("silhouette media per PAM:", round(mean(sil_pam[, 3]), 4)))

[1] "silhouette media per PAM: 0.4665"

print(paste("silhouette media per PAM Manhattan:", round( mean(sil_pam_manhattan[,3]), 4)))

[1] "silhouette media per PAM Manhattan: 0.4664"

print(paste("silhouette media per k-means:", round(mean(sil_kmeans[,3]), 4)))

[1] "silhouette media per k-means: 0.471"

Per esercizio: completate aggiungendo la deviazione standard delle silhouette calcolate.

Metodi gerarchici

Agnes (agglomerativo)

Il comando hclust() permette di utilizzare diversi metodi. In alternativa, possiamo essere più specifici e usare agnes() del pacchetto cluster.

Consideriamo il dataset relativo alle persone senza tetto e usiamo agnes(), che di base usa il metodo di average linkage con distanza Euclidea (togliamo la prima colonna che contiene i nomi).


agnes_senza_tetto <- agnes(senza_tetto_tidy[-1])

Possiamo visualizzare il risultato con il dendrogramma.

plot(agnes_senza_tetto)

Per visualizzare il plot possiamo usare prima colonna come nome delle righe del data frame e usare ggdendro(estensione di ggplot2).

senza_tetto_labels <- as.data.frame(senza_tetto_tidy[-1])
rownames(senza_tetto_labels) <- senza_tetto_tidy$regione

#ggdendro permette di visualizzare meglio i dendrogrammi usando la grammatica di ggplot2

library("ggdendro")

dg <- dendro_data(agnes(senza_tetto_labels))

ggdendrogram(dg)

Una osservazione importante sui dati: stiamo confrontando le frequenze assolute dei senza tetto, quindi è naturale che le regioni più popolose avranno più persone senza fissa dimora (stiamo quindi implicitamente facendo clustering in base alla popolazione totale nella regione).

Esercizio: recuperare dal sito ISTAT il numero di abitanti per regione ed eseguire un clustering usando la frequenza relativa dei senza tetto sulla popolazione totale. Confrontare i dendrogrammi ottenuti.

Per ovviare a questo problema, effuttiamo clustering soltanto sulla frequenza relativa della popolazione nelle varie classi di età.

senza_tetto_relative <- data.frame( senza_tetto_labels[1:4]/senza_tetto_labels[,5])

agnes_senza_tetto_relative <- agnes(senza_tetto_relative)

ggdendrogram(dendro_data(agnes_senza_tetto_relative))

Tornando al problema, il comando cutree() permette di ricavare il vero e proprio clustering tagliando il dendrogramma: si può specificare l’altezza o il numero di cluster desiderati. Consideriamo ad esempio \(k=5\) clusters.


senza_tetto_relative$agnes_k_5 <- cutree(agnes_senza_tetto_relative, k=5)

Studiamo la silhouette: notiamo un valore medio non molto alto.

sil_agnes_senza_tetto <- silhouette(senza_tetto_relative$agnes_k_5, dist(senza_tetto_relative[1:4]))

summary(sil_agnes_senza_tetto)

Silhouette of 22 units in 5 clusters from silhouette.default(x = senza_tetto_relative$agnes_k_5, dist = dist(senza_tetto_relative[1:4])) :
 Cluster sizes and average silhouette widths:
        8         9         3         1         1 
0.4142725 0.5059859 0.3994374 0.0000000 0.0000000 
Individual silhouette widths:
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.0000  0.4163  0.4618  0.4121  0.5146  0.6255

Diana (divisivo)

Con il comando diana() applichiamo il metodo divisivo. Vediamo che non ci sono grandi differenze.


diana_senza_tetto_relative <- diana(senza_tetto_relative)

ggdendrogram(dendro_data(diana_senza_tetto_relative))

Calcoliamo al solito la silhouette, per \(k=5\).


senza_tetto_relative$diana_k_5 = cutree(diana_senza_tetto_relative, k=5)

sil_diana_senza_tetto <- silhouette(senza_tetto_relative$diana_k_5, dist(senza_tetto_relative[1:4]))

summary(sil_diana_senza_tetto)

Silhouette of 22 units in 5 clusters from silhouette.default(x = senza_tetto_relative$diana_k_5, dist = dist(senza_tetto_relative[1:4])) :
 Cluster sizes and average silhouette widths:
        8         9         3         1         1 
0.4142725 0.5059859 0.3994374 0.0000000 0.0000000 
Individual silhouette widths:
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.0000  0.4163  0.4618  0.4121  0.5146  0.6255

Confrontiamo con un metodo non gerarchico, \(k\)-means.

senza_tetto_relative$kmeans <- kmeans(senza_tetto_relative, 5)$cluster

summary(silhouette(senza_tetto_relative$kmeans,dist(senza_tetto_relative[1:4]) ))

Silhouette of 22 units in 5 clusters from silhouette.default(x = senza_tetto_relative$kmeans, dist = dist(senza_tetto_relative[1:4])) :
 Cluster sizes and average silhouette widths:
        1         8         9         3         1 
0.0000000 0.4142725 0.5059859 0.3994374 0.0000000 
Individual silhouette widths:
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.0000  0.4163  0.4618  0.4121  0.5146  0.6255

Confrontiamo i plot trovati con una tabella di contingenza.

table(data.frame("kmeans"= factor(senza_tetto_relative$kmeans), "agnes"=factor(senza_tetto_relative$agnes_k_5)))

      agnes
kmeans 1 2 3 4 5
     1 0 0 0 0 1
     2 8 0 0 0 0
     3 0 9 0 0 0
     4 0 0 3 0 0
     5 0 0 0 1 0

Esercizi

Generare una tabella di 3 colonne e 120 righe, in modo tale che la terza colonna indichi l’appartenenza ad un cluster, e sia pari a 1 per le prime 50 righe e pari a 2 per le ultime 70 righe. Implementare il calcolo diretto della silhouette dell’individuo corrispondente alla prima riga, usando come distanza tra individui la distanza euclidea tra i punti le cui coordinate sono i fattori degli individui.
Generare una tabella in modo che la silhouette ottenuta come risultato di una analisi di clustering mostri la pessima attribuzione di un individuo.
Generare una tabella in modo che la silhouette ottenuta come risultato di una analisi di clustering mostri il pessimo punteggio di un cluster.
Generare un campione i cui individui siano caratterizzati da 6 diverse caratteristiche, e tali che in una analisi di clustering tipo pam la scelta di un numero di cluster inferiore a 4 non risulti buona. Implementare anche l’analisi della bontà del metodo.
Svolgere una analisi di clustering sul dataset USArrests utilizzando il metodo partition around medoids con distanza manhattan.
Analizzare il problema del clustering sul dataset USArrests utilizzando metodi gerarchici.
Analizzare il problema del clustering sul dataset iris utilizzando metodi gerarchici, valutando i differenti casi ottenuti al variare delle possibili distanze tra punti e tra cluster.
Analizzare il problema del clustering sul dataset votes.repub utilizzando metodi gerarchici, valutando i differenti casi ottenuti al variare delle possibili distanze tra punti e tra cluster.
Analizzare il problema del clustering per il dataset agriculture (presente nel pacchetto cluster), relativo a dati su PIL e percentuale di impiegati nell’agricoltura nei paesi UE nel 1993.
Analizzare il problema del clustering per il dataset flower (presente nel pacchetto cluster), relativo a otto caratteristiche di alcuni fiori.
Analizzare il problema del clustering per il dataset UScereals.

LS0tCnRpdGxlOiAiQ2x1c3RlcmluZyAobm90ZWJvb2sgMikiCmF1dGhvcjogIkRhcmlvIFRyZXZpc2FuIgpkYXRlOiAiMDEvMTAvMjAyNSIKb3V0cHV0OgogIGh0bWxfbm90ZWJvb2s6CiAgICB0b2M6IHRydWUKICAgIHRvY19kZXB0aDogMwogICAgdG9jX2Zsb2F0OiB0cnVlCiAgICB0aGVtZTogcmVhZGFibGUKICAgIGRmX3ByaW50OiBwYWdlZAogICAgZG93bmxvYWRfaGFuZGxlcjogdHJ1ZQogIGh0bWxfZG9jdW1lbnQ6CiAgICB0b2M6IHRydWUKICAgIHRvY19kZXB0aDogJzMnCiAgICBkZl9wcmludDogcGFnZWQKc3VidGl0bGU6ICJTdGF0aXN0aWNhIElJIC0gNzUwQUEiCi0tLQoKIyBEYXRhc2V0cwoKTGF2b3JlcmVtbyBjb24gdW4gZGF0YXNldCBjcmVhdG8gYXBwb3NpdGFtZW50ZSwgdW5vIGludmVjZSBnacOgIGNhcmljYXRvIGluIFIgKGFkIGVzZW1waW8gYGBDaGlja1dlaWdodHNgYCkgZSB1bm8gZGkgZGF0aSByZWFsaSAoY2Vuc2ltZW50byBkaSBwZXJzb25lIHNlbnphIHRldHRvIHBlciByZWdpb25pIGl0YWxpYW5lIGRhbGwnSVNUQVQpLgoKIyMjIERhdGFzZXQgcHNldWRvLWNhc3VhbGUKClBlciBnZW5lcmFyZSBpbCBkYXRhc2V0LCB1c2lhbW8gaWwgY29tYW5kbyBgYHJub3JtKClgYC4KCmBgYHtyfQojIFBvc3NpYW1vIGltcG9zdGFyZSB1biBzZWVkIHBlciBsYSByaXByb2R1Y2liaWxpdMOgLCBhbHRyaW1lbnRpIG9nbnVubyBhdnLDoCB1biBkYXRhc2V0IGxlZ2dlcm1lbnRlIGRpdmVyc28KIyBzZXQuc2VlZCg0MikKCiMgR2VuZXJhemlvbmUgZGkgZGF0aSBmaXR0aXppIGNvbiAyMDAgb3NzZXJ2YXpvbmksIApuIDwtIDEwMAp4MSA8LSBybm9ybShuLCBtZWFuID0gNSwgc2QgPSAxKQp5MSA8LSBybm9ybShuLCBtZWFuID0gNSwgc2QgPSAxKQp4MiA8LSBybm9ybShuLCBtZWFuID0gMywgc2QgPSAxKQp5MiA8LSBybm9ybShuLCBtZWFuID0gMywgc2QgPSAxKQoKCiMgQ3JlaWFtbyB1biBkYXRhZnJhbWUsIGluY2x1ZGlhbW8gYW5jaGUgaWwgZ3J1cHBvIChub24gdXNlcmVtbyBwZXIgaWwgY2x1c3RlcmluZykKZGF0YV9yYW5kb20gPC0gZGF0YS5mcmFtZSgKICB4ID0gYyh4MSwgeDIpLAogIHkgPSBjKHkxLCB5MiksCiAgZ3JvdXAgPSBmYWN0b3IoYyhyZXAoMSwgbiksIHJlcCgyLG4pKSkKKQpgYGAKClZpc3VhbGl6emlhbW8gaSBkYXRpIGdlbmVyYXRpIGNvbiBpbCBjb21hbmRvIGBgcGxvdCgpYGAgZGkgYmFzZSBvcHB1cmUgdXNhbmRvIGdncGxvdDIuCgpgYGB7cn0KIyBwbG90IGRpIGJhc2UKcGxvdChkYXRhX3JhbmRvbSR4LCBkYXRhX3JhbmRvbSR5LCBjb2w9ZGF0YV9yYW5kb20kZ3JvdXApCgojIHVzYW5kbyBnZ3Bsb3QKCmxpYnJhcnkoImdncGxvdDIiKQoKZ2dwbG90KGRhdGFfcmFuZG9tLCBhZXMoeCwgeSwgY29sb3IgPSBncm91cCkpICsKICBnZW9tX3BvaW50KCkgKwogIGxhYnModGl0bGUgPSAiRGF0YXNldCBnZW5lcmF0byIsIHggPSAiWCIsIHkgPSAiWSIpCmBgYAoKIyMjIERhdGFzZXQgQ2hpY2tXZWlnaHQKClF1ZXN0byBkYXRhc2V0IGBgQ2hpY2tXZWlnaHRgYCAoY2VyY2FyZSBzdWxsJ2hlbHApIGNvbnRpZW5lIGluZm9ybWF6aW9uaSByZWxhdGl2ZSBhbGxhIGNyZXNjaXRhIGRpIHBvbGxpIGNvbiBkaXZlcnNlIGRpZXRlLiBJbCBjbHVzdGVyaW5nIHBlcm1ldHRlIGRpIGVzcGxvcmFyZSBpIGRhdGkgYWQgZXNlbXBpbyBpbmRpdmlkdWFuZG8gZHVlIChvIHBpw7kpIGNhdGVnb3JpZSBkaSBkaWV0ZSBpbiBiYXNlIGFsbCdlZmZldHRvIHN1bGxhIGNyZXNjaXRhLgoKCmBgYHtyfQpoZWFkKENoaWNrV2VpZ2h0KQpgYGAKTm90aWFtbyBwZXLDsiBjaGUgw6ggcHJlc2VudGUgdW5hIGNvbG9ubmEgX1RpbWVfIGluIGN1aSDDqCByZWdpc3RyYXRvIGlsIHRlbXBvIGRhbGxhIGNyZXNjaXRhIGRlbGwnaW5kaXZpZHVvIGNvbG9ubmEgX0NoaWNrXy4gUGVyIGFwcGxpY2FyZSBpbCBjbHVzdGVyaW5nICB2b3JlbW1vIGludmVjZSBhdmVyZSBzb2xvIHVuYSByaWdhIHBlciBpbmRpdmlkdW8gY29udGVuZW50ZSBpIHBlc2kgbmVpIHZhcmkgZ2lvcm5pICgwLCAyLCA0LCA2LCBlY2MuKS4gUXVlc3RvIGFjY2FkZSBzcGVzc28gY29uIGRhdGkgcmVhbGk6IG5vbiBzb25vIHN0cnV0dHVyYXRpIGNvbWUgdm9ycmVtbW8gKHBlcmNow6kgcmFjY29sdGkgZGEgYWx0cmksIGFkIGVzZW1waW8gY29uIGFsdHJpIHNjb3BpKS4gUGVyIF9yaXB1bGlyZV8gaSBkYXRpLCBwb3NzaWFtbyB1c2FyZSBpbCBwYWNjaGV0dG8gYGB0aWR5cmBgIGRlbGxhIHN1aXRlIGBgdGlkeXZlcnNlYGAgKDxodHRwczovL3d3dy50aWR5dmVyc2Uub3JnLz4pLiBRdWVzdG8gZm9nbGlvIGRlc2NyaXZlIGJyZXZlbWVudGUgYWxjdW5pIGNvbWFuZGkgcHJpbmNpcGFsaTogPGh0dHBzOi8vbGVhZG91c3NldC5naXRodWIuaW8vaW50cm8tdG8tUi9jaGVhdHNoZWV0X3RpZHkucGRmPgoKCmBgYHtyfQojIGRhcmUgaWwgY29tYW5kbyBpbnN0YWxsLnBhY2thZ2VzKCJ0aWR5dmVyc2UiKSBzZSBub24gw6ggZ2nDoCBpbnN0YWxsYXRvCmxpYnJhcnkoInRpZHlyIikKYGBgCgpOZWwgbm9zdHJvIGNhc28gdm9nbGlhbW8gX2FsbGFyZ2FyZV8gaWwgZGF0YSBmcmFtZSBpbiBtb2RvIGNoZSBhYmJpYSBwacO5IGNvbG9ubmUgKHVuYSBwZXIgY2lhc2N1bmEgZXTDoCkuIFVzaWFtbyBxdWluZGkgaWwgY29tYW5kbyBgYHBpdm90X3dpZGVyKClgYC4KCgpgYGB7cn0KY2hpY2tfdGlkeSA8LSBwaXZvdF93aWRlcihkYXRhPUNoaWNrV2VpZ2h0LCBuYW1lc19mcm9tID0gVGltZSwgdmFsdWVzX2Zyb20gPSB3ZWlnaHQpCmBgYAoKVmlzdWFsaXp6aWFtbyBsYSB0YWJlbGxhIF9yaXB1bGl0YV8uCgpgYGB7cn0KY2hpY2tfdGlkeQpgYGAKCk5vdGlhbW8gY2hlIGNpIHNvbm8gZGVpIHZhbG9yaSBtYW5jYW50aSBgYE5BYGAuIFF1ZXN0byBhY2NhZGUgc3Blc3NvIGNvbiBkYXRpIHJlYWxpIGUgYmlzb2duYSB0ZW5lcm5lIGNvbnRvLiBMJ2FwcHJvY2NpbyBwacO5IHNlbXBsaWNlIMOoIGRpIHJpbXVvdmVyZSBjb21wbGV0YW1lbnRlIGxlIHJpZ2hlIHBlciBjdWkgYWxtZW5vIHVuYSBvc3NlcnZhemlvbmUgw6ggbWFuY2FudGUuIEluIGBgdGlkeXJgYCBlc2lzdGUgaWwgY29tYW5kbyBgYGRyb3BfbmEoKWBgIGNoZSBmYSBhcHB1bnRvIHF1ZXN0by4KCmBgYHtyfQpjaGlja190aWR5IDwtIGRyb3BfbmEoY2hpY2tfdGlkeSkKCmNoaWNrX3RpZHkKCmBgYApMZSByaWdoZSBjb24gYWxtZW5vIHVuIGRhdG8gbWFuY2FudGUgc29ubyBzdGF0ZSByaW1vc3NlLiBBdHRlbnppb25lIHBlcsOyIGFsIHJpc2NoaW8gZGkgY2FkZXJlIGluIGVycm9yaSBsb2dpY2kgY29tZSBpbCBbU3Vydml2b3JzaGlwIGJpYXNdKGh0dHBzOi8vZW4ud2lraXBlZGlhLm9yZy93aWtpL1N1cnZpdm9yc2hpcF9iaWFzKSBvcHB1cmUgaWwgW2NoZXJyeSBwaWNraW5nXShodHRwczovL2VuLndpa2lwZWRpYS5vcmcvd2lraS9DaGVycnlfcGlja2luZyk6IHJpbXVvdmVuZG8gdW5hIHBvcnppb25lIGRpIGRhdGkgcmlsZXZhbnRpIGFsIHByb2JsZW1hLCBzaSBwb3RyZWJiZXJvIHRyYXJyZSBjb25jbHVzaW9uaSBkZWwgdHV0dG8gZXJyYXRlLiBBZCBlc2VtcGlvLCBpIHBvbGxpIGNoZSBjcmVzY29ubyBkaSBwacO5IGdyYXppZSBhZCB1bmEgcGFydGljb2xhcmUgZGlldGEgICB2ZW5nb25vIHVjY2lzaSB1bmEgc2V0dGltYW5hIHByaW1hIGUgcXVpbmRpIG5vbiBzaSByZWdpc3RyYSBpbCBwZXNvIGRlbGwndWx0aW1hIHNldHRpbWFuYS4gU2UgZm9zc2UgY29zw6wsIHJpbXVvdmVuZG8gaSB2YWxvcmkgYGBOQWBgIHNpIHJpbXVvdmUgcHJvcHJpbyBpbCBzZWduYWxlIGNoZSBzaSBzdGEgY2VyY2FuZG8hIAogCiMjIyBEYXRhc2V0IHNlbnphdGV0dG8KCkNhcmljaGlhbW8gaW5maW5lIHVuIGRhdGFzZXQgcmVhbGUsIHByb3ZlbmllbnRlIGRhbGwnSXN0aXR1dG8gbmF6aW9uYWxlIGRpIHN0YXRpc3RpY2EgKElTVEFUKSwgcmVsYXRpdm8gYWwgbnVtZXJvIGRpIHBlcnNvbmUgc2VuemEgdGV0dG8gZSBzZW56YSBmaXNzYSBkaW1vcmEgcGVyIHJlZ2lvbmUsIGFubm8gMjAyMS4gSSBkYXRpIHNvbm8gc2NhcmljYXRpIGRhbGxhIHBhZ2luYSA8aHR0cHM6Ly9lc3Bsb3JhZGF0aS5pc3RhdC5pdC9kYXRhYnJvd3Nlci8jL2l0L2NlbnNwb3AvY2F0ZWdvcmllcy9EQ1NTX1NFTlpBX1RFVFRPX1RWL0lUMSxERl9EQ1NTX1NFTlpBX1RFVFRPX1RWXzEsMS4wPiBtYSBzaSB0cm92YW5vIGFuY2hlIHN1bCB0ZWFtIG8gaWwgc2l0byBkZWwgY29yc28uIAoKSSBkYXRpIHBvc3Nvbm8gZXNzZXJlIHNhbHZhdGkgaW4gdmFyaSBmb3JtYXRpLCBpbCBwacO5IGNvbXVuZSBlIHN0YW5kYXJkIMOoIGlsIGZvcm1hdG8gYGAuY3N2YGAoKmNvbW1hLXNlcGFyYXRlZCB2YWx1ZXMqKSBpbiBjdWkgKGVjY2V0dG8gYWwgcGnDuSBxdWFsY2hlIHJpZ2EgZGkgY29tbWVudG8gaW5pemlhcmUpLCBpIGRhdGkgc29ubyBzY3JpdHRpIGluIHRlc3RvIHNlbXBsaWNlLCBjaWFzY3VuYSByaWdhIHJlbGF0aXZhIGFkIHVuYSByaWdhIGRlbCBkYXRhIGZyYW1lIGUgbGUgY29sb25uZSBzZXBhcmF0ZSBkYWxsYSB2aXJnb2xhICgqY29tbWEqIGluIGluZ2xlc2UpLiAgSWwgY29tYW5kbyBkaSBiYXNlIHBlciBsZWdnZXJlIGkgZmlsZSBpbiBxdWVzdG8gZm9ybWF0byDDqCBgYHJlYWQuY3N2KClgYCwgbWV0dGVuZG8gY29tZSBhcmdvbWVudG8gdW5hIHN0cmluZ2EgY29uIGlsIG5vbWUgZGVsIGZpbGUgKGV2ZW50dWFsbWVudGUgbmVsbGUgc290dG9jYXJ0ZWxsZSBkZWwgcHJvZ2V0dG8pLgoKYGBge3J9CiMgZG9wbyBhdmVyIHNjYXJpY2F0byBpbCBmaWxlIHNlbnphX3RldHRvX2l0YWxpYS5jc3YgZSBhdmVybG8gY29waWF0byBpbiB1bmEgc290dG9jYXJ0ZWxsYSBkZWwgcHJvZ2V0dG8gY2hpYW1hdGEgZGF0YXNldHMsIGNhcmljaGlhbW8gaWwgZmlsZQoKc2VuemFfdGV0dG9fY2FyaWNhdG8gPC0gcmVhZC5jc3YoImRhdGFzZXRzL3NlbnphX3RldHRvX2l0YWxpYS5jc3YiKQoKaGVhZChzZW56YV90ZXR0b19jYXJpY2F0bykKCmBgYAoKQW5jaGUgaW4gcXVlc3RvIGNhc28gdmVkaWFtbyBjaGUgaSBkYXRpIHZhbm5vIF9yaXB1bGl0aV8sIHNlbGV6aW9uYW5kbyBzb2xvIGxlIGNvbG9ubmUgZGkgaW50ZXJlc3NlIGVkIGV2ZW50dWFsbWVudGUgYWxsYXJnYW5kbyBsZSByaWdoZSBwZXIgbGUgY2xhc3NpIGRpIGV0w6AuIAoKCiMjIyMgRGlncmVzc2lvbmUgc3UgaW5wdXQvb3V0cHV0IGRpIGRhdGkKCgpOb3RpYW1vIGludGFudG8gY2hlIGwndXNvIGRlbGxhIHZpcmdvbGEgcG90cmViYmUgZXNzZXJlIHVuIHByb2JsZW1hIGNvbiBpIGRlY2ltYWxpOiBpbiBpbmdsZXNlIHNpIHVzYSBpbnZlY2UgaWwgcHVudG8gJFxwaT0gMy4xNDE1Li4kLCBtZW50cmUgaW4gaXRhbGlhbm8gZSBbYWx0cmUgbGluZ3VlXShodHRwczovL2VuLndpa2lwZWRpYS5vcmcvd2lraS9EZWNpbWFsX3NlcGFyYXRvciMvbWVkaWEvRmlsZTpEZWNpbWFsU2VwYXJhdG9yLnN2ZykgcG90cmViYmUgY3JlYXJlIGxldHR1cmUgc2JhZ2xpYXRlLiBQZXIgcXVlc3RvIGNpIHNvbm8gYW5jaGUgZm9ybWF0aSBhbHRlcm5hdGl2aSwgY29tZSBpbCBgYC50c3ZgYCAoKnRhYi1zZXBhcmF0ZWQgdmFsdWVzKikgaW4gY3VpIHNpIHVzYSB1bmEgc3BhemlhdHVyYSBgYHRhYmBgIHBlciBzZXBhcmFyZSBpIHZhbG9yaS4gSWwgY29tYW5kbyBkaXZlbnRhIGFsbG9yYSBgYHJlYWQudHN2KClgYAoKQWx0cmEgY29zYSBpbnZlY2Ugc29ubyBpIGZvcm1hdGkgZGkgRXhjZWwgY2hlIHNvbm8gcHJvcHJpZXRhcmkgY29udGVuZ29ubyBtb2x0ZSBwacO5IGluZm9ybWF6aW9uaSwgYW5jaGUgY2lyY2EgbGEgc3RvcmlhIGRlbGxlIG9wZXJhemlvbmkgY2hlIHNvbm8gc3RhdGUgZWZmZXR0dWF0ZSBzdWkgZGF0aSAoYWQgZXNlbXBpbywgdW4gY2FzbyBkaSBkYXRpIF9tYW5vbWVzc2lfIMOoIHN0YXRvIGFwcHVudG8gc29sbGV2YXRvIHByb3ByaW8gc3R1ZGlhbmRvIGxlIG9wZXJhemlvbmkgZWZmZXR0dWF0ZSBzdWxsJ0V4Y2VsIGZvcm5pdG8gZGEgdW4gZ3J1cHBvIGRpIGF1dG9yaSA8aHR0cHM6Ly9kYXRhY29sYWRhLm9yZy8xMDk+KS4gSWwgcGFjY2hldHRvIHN0YW5kYXJkIGRlZGljYXRvIGFsbCdpbnB1dCBkaSBkYXRpIGRhIEV4Y2VsIGluIFIgw6ggYGByZWFkeGxgLiBTZSBwcmVmZXJpdGUgdXNhcmUgbCdpbnRlcmZhY2NpYSBncmFmaWNhIGRpIFJTdHVkaW8sIG5lbCB0YWIgX0Vudmlyb25tZW50XyB0cm92YXRlIGlsIGJvdHRvbmUgX0ltcG9ydCBEYXRhc2V0XyBjaGUgcGVybWV0dGUgZGkgaW1wb3J0YXJlIGRhIGNzdiwgRXhjZWwgZSBhbmNoZSBmYXJlIGRlbGxlIHByaW1lIG9wZXJhemlvbmkgc3VsIGRhdGEgZnJhbWUgY2hlIHZlcnLDoCBhc3NlZ25hdG8uCgpQZXIgZ2VzdGlyZSBpbiBtb2RvIHBpw7kgc2VtcGxpY2UgbCdpbnB1dCBkaSBkYXRpIGRhIHZhcmkgZm9ybWF0aSwgcGVyc29uYWxtZW50ZSBjb25zaWdsaW8gaWwgcGFjY2hldHRvIGBgcmlvYGAgY2hlIGhhIHF1YWxjaGUgZnVuemlvbmFsaXTDoCBhdXRvbWF0aXp6YXRhIHBlciBsJ2lucHV0IChjb21hbmRvIGBgaW1wb3J0KClgYCkgZSBsJ291dHB1dCAoY29tYW5kbyBgYGV4cG9ydGBgKS4KCmBgYHtyfQojIHBlciBpbnN0YWxsYXJlIHJpbyB1c2FyZSBpbCBjb21hbmRvIGluc3RhbGwucGFja2FnZXMoInJpbyIpCmxpYnJhcnkoInJpbyIpCgojIGVzcG9ydGlhbW8gaWwgZGF0YXNldCBkZWkgcG9sbGkgcmlwdWxpdG8gaW4gZm9ybWF0byBleGNlbCBzZW1wbGljZW1lbnRlIGRhbmRvIGwnZXN0ZW5zaW9uZSAueGxzeCBhbCBub21lIGRlbCBmaWxlCgpleHBvcnQoY2hpY2tfdGlkeSwgImRhdGFzZXRzL3BvbGxpX3B1bGl0aS54bHN4IikKCiMgc2UgbmF2aWdhdGUgbmVsbGEgc290dG9jYXJ0ZWxsYSBkYXRhc2V0cyB0cm92aWFtbyBpbCBmaWxlIHNhbHZhdG8uIFBvc3NpYW1vIHNhbHZhcmUgYW5jaGUgaW4gYWx0cmkgZm9ybWF0aSwgZGlnaXRhbmRvIGwnZXN0ZW5zaW9uZSBjb3JyZXR0YS4KCmV4cG9ydChjaGlja190aWR5LCAiZGF0YXNldHMvcG9sbGlfcHVsaXRpLmNzdiIpCgojIGNvbiBpbCBjb21hbmRvIGltcG9ydCBjYXJpY2hpYW1vIGludmVjZSBkYSBtb2x0ZXBsaWNpIGZvcm1hdGksIGluY2x1c28gRXhjZWwuCgpwb2xsaV9leGNlbCA8LSBpbXBvcnQoImRhdGFzZXRzL3BvbGxpX3B1bGl0aS54bHN4IikKCmhlYWQocG9sbGlfZXhjZWwpCmBgYAojIyMjIFB1bGl6aWEgZGF0YXNldCBzZW56YSB0ZXR0bwoKVG9ybmlhbW8gYWwgZGF0ZXNldCBzZW56YSB0ZXR0byBjaGUgYWJiaWFtbyBjYXJpY2F0by4KCmBgYHtyfQpoZWFkKHNlbnphX3RldHRvX2NhcmljYXRvKQpgYGAKClNlbGV6aW9uaWFtbyBzb2xvIGxlIGNvbG9ubmUgY29ycmlzcG9uZGVudGkgYWxsYSByZWdpb25lIF9UZXJyaXRvcmlvXyBhbCBjb2RpY2UgZGkgZXTDoCBlIGFsbGEgZnJlcXVlbnphIHJpbGV2YXRhIF9Pc3NlcnZhemlvbmVfLgoKYGBge3J9CgpzZW56YV90ZXR0b19zZWxlemlvbmUgPC0gZGF0YS5mcmFtZSggInJlZ2lvbmUiID0gc2VuemFfdGV0dG9fY2FyaWNhdG8kVGVycml0b3JpbywgImFnZSIgPSBzZW56YV90ZXR0b19jYXJpY2F0byRBR0VfQ0xBU1MsICJmcmVxdWVuemEiID0gc2VuemFfdGV0dG9fY2FyaWNhdG8kT3NzZXJ2YXppb25lKQoKaGVhZChzZW56YV90ZXR0b19zZWxlemlvbmUpCmBgYApBIHF1ZXN0byBwdW50byB1c2lhbW8gZGkgbnVvdm8gYGBwaXZvdF93aWRlcmBgIHBlciBjcmVhcmUgZGVsbGUgY29sb25uZSByZWxhdGl2ZSBhbGxlIHZhcmllIGV0w6AuCgpgYGB7cn0Kc2VuemFfdGV0dG9fdGlkeSA8LSBwaXZvdF93aWRlcihzZW56YV90ZXR0b19zZWxlemlvbmUsIG5hbWVzX2Zyb20gPSBhZ2UsIHZhbHVlc19mcm9tID0gZnJlcXVlbnphKQoKaGVhZChzZW56YV90ZXR0b190aWR5KQpgYGAKClBvc3NpYW1vIGFuY2hlIHNhbHZhcmUgaWwgZGF0YXNldCBfcmlwdWxpdG9fIG5lbCBjYXNvIGNpIHNlcnZpc3NlIHBpw7kgYXZhbnRpIChvIGRvdmVzc2ltbyBjYXJpY2FybG8sIGFkIGVzZW1waW8gcGVyIGlsIHByb2dldHRvIGRlbGxhIHByb21hIGRpIGVzYW1lKS4KCmBgYHtyfQp3cml0ZS50YWJsZShzZW56YV90ZXR0b190aWR5LCAiZGF0YXNldHMvc2VuemFfdGV0dG9fdGlkeS5jc3YiKQpgYGAKCgoKIyBNZXRvZGkgbm9uIGdlcmFyY2hpY2kgCgpEaXNjdXRpYW1vIHByaW1hIGkgbWV0b2RpIGRpIGNsdXN0ZXJpbmcgbm9uIGdlcmFyY2hpY2ksIGluIHBhcnRpY29sYXJlIEstbWVhbnMgYGBrbWVhbnMoKWBgIGUgUGFydGl0aW9uaW5nIEFyb3VuZCBNZWRvaWRzIChgYHBhbSgpYGAgZGFsbCBwYWNjaGV0dG8gYGBjbHVzdGVyYGApLiAKCmBgYHtyIHNldHVwLCBpbmNsdWRlPUZBTFNFfQojIENhcmljaGlhbW8gbGEgbGlicmVyaWEgY2x1c3RlcgpsaWJyYXJ5KGNsdXN0ZXIpCgojIG1vc3RyZXJlbW8gc2lhIGkgcGxvdCBkaSBiYXNlIGNoZSBpIHBsb3Qgb3R0ZW51dGkgY29uIGdncGxvdDIKbGlicmFyeShnZ3Bsb3QyKQpgYGAKCgojIyBLLW1lYW5zIGNsdXN0ZXJpbmcKCgoKQXBwbGljaGlhbW8gSy1tZWFucyBhbCBkYXRhc2V0IGdlbmVyYXRvLiBUb2dsaWFtbyBsYSB0ZXJ6YSBjb2xvbm5hIChxdWVsbGEgY2hlIGNvbnRpZW5lIGdpw6AgaWwgZ3J1cHBvLCBwZXIgY29tZSBsJ2FiYmlhbW8gZ2VuZXJhdG8pLgoKYGBge3J9CmhlYWQoZGF0YV9yYW5kb20pCmBgYAoKYGBge3J9CmttZWFuc19kYXRhX3JhbmRvbSA8LSBrbWVhbnMoZGF0YV9yYW5kb21bMToyXSwgY2VudGVycyA9IDIpCgojIElsIHJpc3VsdGF0byDDqCB1bmEgbGlzdGEgY29udGVuZW50ZSB2YXJpZSBpbmZvcm1hemlvbmkKCmttZWFuc19kYXRhX3JhbmRvbQpgYGAKClJpY29yZGlhbW8gY2hlIGVyYW5vIDEwMCBwdW50aSBwZXIgZ3J1cHBvIGUgbGUgbWVkaWUgKGNoZSBjaSBhc3BldHRpYW1vIGVzc2VyZSBpIGNlbnRyaSkgZXJhbm8gcmlzcGV0dGl2YW1lbnRlICQoNSw1KSQsICQoMywzKSQuICBBZ2dpdW5naWFtbyBsYSBjb2xvbm5hIGRlbCBjbHVzdGVyIGFsIGRhdGEgZnJhbWUgb3JpZ2luYWxlLgoKYGBge3J9CgpkYXRhX3JhbmRvbSRrbWVhbnMgPC0gZmFjdG9yKGttZWFuc19kYXRhX3JhbmRvbSRjbHVzdGVyICkKYGBgCgpQb3NzaWFtbyBjb25mcm9udGFyZSBxdWluZGkgY29uIHVuYSB0YWJlbGxhIGRpIGNvbnRpbmdlbnphIGBgdGFibGUoKWBgIGkgZHVlIGNsdXN0ZXIgKG9yaWdpbmFsZSBlIHF1ZWxsbyBkaSBrbWVhbnMpLgoKYGBge3J9CnRhYmxlKCAib3JpZ2luYWxlIiA9IGRhdGFfcmFuZG9tJGdyb3VwLCAia21lYW5zIj1kYXRhX3JhbmRvbSRrbWVhbnMpCmBgYApPdnZpYW1lbnRlIG5vbiDDqCBkZXR0byBjaGUgaWwgY2x1c3RlciBldGljaGV0dGF0byBjb24gJDEkIGRhIGstbWVhbnMgY29ycmlzcG9uZGEgY29uIGxhIGNsYXNzZSAkMSQgb3JpZ2luYWxlIQoKUG9zc2lhbW8gZmFyZSB1biBwbG90IHVzYW5kbyBjb21lIGNvbG9yZSBpbCBjbHVzdGVyIHRyb3ZhdG8gY29uIGstbWVhbnMuCgpgYGB7cn0KCnBsb3QoZGF0YV9yYW5kb20keCwgZGF0YV9yYW5kb20keSwgY29sPWRhdGFfcmFuZG9tJGttZWFucykKYGBgCgpDb24gYGBnZ3Bsb3RgYCBwb3NzaWFtbyBhc3NlZ25hcmUgbGEgZm9ybWEgZGVsIGdydXBwbyBvcmlnaW5hbGUgZSBpbCBjb2xvcmUgZGVsIGNsdXN0ZXIgdHJvdmF0byBjb24gay1tZWFucy4gUml1c2NpdGUgYSB2ZWRlcmUgaSBwdW50aSBub24gX2NsYXNzaWZpY2F0aSBjb3JyZXR0YW1lbnRlXz8KCmBgYHtyfQpnZ3Bsb3QoZGF0YSA9IGRhdGFfcmFuZG9tLCBhZXMoeD14LCB5PXksIGNvbG91ciA9IGttZWFucywgc2hhcGUgPSBncm91cCkpICsgZ2VvbV9wb2ludCgpCmBgYAoKQ29tZSBkZXRlcm1pbmFyZSAkayQ/IGwnb3V0cHV0IGRpIGstbWVhbnMgZm9ybmlzY2UgaWwgV0NTUyBwZXIgY2x1c3RlciBlIGlsIFdDU1MgdG90YWxlLgoKYGBge3J9CgprbWVhbnNfZGF0YV9yYW5kb20kd2l0aGluc3MKCmttZWFuc19kYXRhX3JhbmRvbSR0b3Qud2l0aGluc3MKCmBgYAoKUGxvdHRpYW1vIGlsIFdDU1MgcGVyIHZhcmkgdmFsb3JpIGRpICRrJCAoY2VyY2FuZG8gZGkgYXBwbGljYXJlIGlsIGNvc2lkZGV0dG8gX21ldG9kbyBlbGJvd18pLgoKYGBge3J9CgpXQ1NTIDwtIGMoKQoKZm9yKGsgaW4gMjoxMCl7CiAgV0NTUyA8LSBjKFdDU1MsIGttZWFucyhkYXRhX3JhbmRvbVsxOjJdLCBjZW50ZXJzPWspJHRvdC53aXRoaW5zcykKfQoKcGxvdCgyOjEwLCAgV0NTUywgdHlwZT0nbCcsIHhsYWI9Im51bWVybyBkaSBjbHVzdGVycyIsIHlsYWI9IldDU1MiKQoKYGBgCgpQcm92YXRlIGEgcmlhcHBsaWNhcmUgaWwgYmxvY2NvIGRpIGNvZGljZSBzb3ByYS4gQ29zYSBub3RhdGU/IEwnYWxnb3JpdG1vIGRpIGstbWVhbnMgKGUgcHVyZSBwYW0pIMOoIGluIHJlYWx0w6AgbW9sdG8gc2Vuc2liaWxlIGFpIGNlbnRyaSBpbml6aWFsaS4gUGVyIHF1ZXN0byDDqCBtZWdsaW8gYXBwbGljYXJlIGlsIG1ldG9kbyBkaXZlcnNlIGlzdGFuemUsIGluZGljYXJlIGlsIHZhbG9yZSBtZWRpbyBlIHVuIGludGVydmFsbG8gZGkgY29uZmlkZW56YSAoaW4gcXVlc3RvIGNhc28gYmlsYXRlcm8gYWwgbGl2ZWxsbyAkOTVcJSQpLgoKYGBge3J9CgpXQ1NTIDwtIGRhdGEuZnJhbWUoImsiPW51bWVyaWMoKSwgIm1lYW4iPW51bWVyaWMoKSwgInNkIiA9bnVtZXJpYygpICkKCm51bWVyb19ydW5zIDwtIDMKCmZvcihrIGluIDI6MTApewogIHdjc3NfcnVucyA8LSBjKCkKICBmb3IgKGkgaW4gMTpudW1lcm9fcnVucyl7CiAgICB3Y3NzX3J1bnMgPC0gYyh3Y3NzX3J1bnMsICBrbWVhbnMoZGF0YV9yYW5kb21bMToyXSwgY2VudGVycz1rKSR0b3Qud2l0aGluc3MpCiAgfQogIFdDU1MgPC0gcmJpbmQoIFdDU1MsIGRhdGEuZnJhbWUoaywgbWVhbih3Y3NzX3J1bnMpLCBzZCh3Y3NzX3J1bnMpKSkKfQoKcGxvdCgyOjEwLCAgV0NTUyRtZWFuLCB0eXBlPSdsJywgeGxhYj0ibnVtZXJvIGRpIGNsdXN0ZXJzIiwgeWxhYj0iV0NTUyIsIGNvbD0icmVkIikKbGluZXMoMjoxMCwgV0NTUyRtZWFuK3F0KDAuOTc1LCBkZj1udW1lcm9fcnVucy0xKSAqIFdDU1Mkc2Qvc3FydChudW1lcm9fcnVucyksIGNvbD0iZ3JleSIpCmxpbmVzKDI6MTAsIFdDU1MkbWVhbi1xdCgwLjk3NSwgZGY9bnVtZXJvX3J1bnMtMSkgKiBXQ1NTJHNkL3NxcnQobnVtZXJvX3J1bnMpLCBjb2w9ImdyZXkiKQpgYGAKClBlciAqKmVzZXJjaXppbyoqLCBjcmVhcmUgdW4gZGF0YXNldCBpbiBjdWkgaWwgbnVtZXJvIGRpICpjbHVzdGVycyogc2lhIGRpdmVyc28gZGEgMiBlIHZlcmlmaWNhcmUgbCdhbmRhbWVudG8gZGVsIFdDU1Mgcmljb25vc2NlbmRvIHNlIHBvc3NpYmlsZSBpbCBwdW50byBkaSAqZ29taXRvKi4KCgojIyBQYXJ0aXRpb25pbmcgQXJvdW5kIE1lZG9pZHMgKFBBTSkKCkFwcGxpY2hpYW1vIG9yYSBQQU0gZSBjb25mcm9udGlhbW8gaWwgcmlzdWx0YXRvIGNvbiBrLW1lYW5zIGFsIGRhdGFzZXQgYGBjaGlja190aWR5YGAuIElsIGNvbWFuZG8gw6ggYGBwYW0oKWBgIGRhbCBwYWNjaGV0dG8gYGBjbHVzdGVyYGAuIENvbWUga21lYW5zLCBiaXNvZ25hIHNwZWNpZmljYXJlICRrJC4gVG9nbGlhbW8gbGUgcHJpbWUgZHVlIGNvbG9ubmUgKG51bWVybyBpZGVudGlmaWNhdGl2byBpbmRpdmlkdW8gZSB0aXBvIGRpIGRpZXRhKS4KCmBgYHtyfQoKcGFtX2NoaWNrIDwtIHBhbShjaGlja190aWR5Wy0oMToyKV0sIGsgPSAyKQoKcGFtX2NoaWNrCmBgYAoKUG9zc2lhbW8gYW5jaGUgaW4gcXVlc3RvIGNhc2UgYWdnaXVuZ2VyZSBpbCB2ZXR0b3JlIGRpIGNsdXN0ZXJpbmcgdHJvdmF0byBhbCBkYXRhIGZyYW1lLgoKYGBge3J9CgpjaGlja190aWR5JHBhbV9jbHVzdGVyIDwtIHBhbV9jaGljayRjbHVzdGVyaW5nCgpgYGAKCkluIHF1ZXN0byBjYXNvIG5vbiBhYmJpYW1vIGRlbGxlIGNsYXNzaSBjb24gY3VpIG5hdHVyYWxtZW50ZSBjb25mcm9udGFyZSBpbCByaXN1bHRhdG8sIHF1aW5kaSBwb3NzaWFtbyBhZCBlc2VtcGlvIGNvbmZyb250YXJlIGNvbiAkayQtbWVhbnMuCgpgYGB7cn0KCiMgcmltdW92aWFtbyBhbmNoZSBsJ3VsdGltYSBjb2xvbm5hIChjaGUgY29udGllbmUgaWwgY2x1c3RlcmluZyBkaSBwYW0pCgprbWVhbnNfY2hpY2sgPC0ga21lYW5zKGNoaWNrX3RpZHlbLWMoMSwgMiwgMTUpXSwgIDIpCgprbWVhbnNfY2hpY2sKYGBgCgpBZ2dpdW5naWFtbyBhbmNoZSBxdWVzdGkgcmlzdWx0YXRpIGFsIGRhdGEgZnJhbWUgZSBjb25mcm9udGlhbW8gY29uIHVuYSB0YWJlbGxhIGRpIGNvbnRpbmdlbnphLgoKYGBge3J9CgpjaGlja190aWR5JGttZWFuc19jbHVzdGVyIDwtIGttZWFuc19jaGljayRjbHVzdGVyCgp0YWJsZSgicGFtIj1jaGlja190aWR5JHBhbV9jbHVzdGVyLCAia21lYW5zIj1jaGlja190aWR5JGttZWFuc19jbHVzdGVyKQpgYGAKClZlZGlhbW8gY2hlIGxlIGNsYXNzaSB0cm92YXRlIHNvbm8gbW9sdG8gc2ltaWxpLiBMYSBzY2VsdGEgZGVpIG1lZG9pZCBwdcOyIGluZmx1ZW56YXJlIGkgcmlzdWx0YXRpLCBtYSBQQU0gw6ggZ2VuZXJhbG1lbnRlIHBpw7kgc3RhYmlsZSBpbiBwcmVzZW56YSBkaSBydW1vcmUuCgoKVW4gdmFudGFnZ2lvIG5vdGV2b2xlIGRpIGBgcGFtYGAgcmlzcGV0dG8gYSBrLW1lYW5zIMOoIGxhIHBvc3NpYmlsaXTDoCBkaSB1c2FyZSBtZXRyaWNoZSBkaXZlcnNlLiDDiCBwb3NzaWJpbGUgZGFyZSBjb21lIGlucHV0IGludmVjZSBkZWwgZGF0YSBmcmFtZSB1bmEgbWF0cmljZSBkaSBkaXNzaW1pbGFyaXTDoCwgb3BwdXJlIHNwZWNpZmljYXJlIGBgbWV0cmljID0gIm1hbmhhdHRhbiJgYCBwZXIgdXNhcmUgbGEgZGlzdGFuemEgJFxlbGxfMSQgKHRheGljYWIpLiAKCmBgYHtyfQoKcGFtX2NoaWNrIDwtIHBhbShjaGlja190aWR5Wy1jKDEsMiwgMTUsIDE2KV0sIGsgPSAyLCBtZXRyaWM9Im1hbmhhdHRhbiIpCgpjaGlja190aWR5JHBhbV9tYW5oYXR0YW5fY2x1c3RlciA8LSBwYW1fY2hpY2skY2x1c3RlcgoKYGBgCgpDb25mcm9udGlhbW8gaSByaXN1bHRhdGkgZGkgcGFtIGNvbiBsZSBkdWUgbWV0cmljaGUuCgpgYGB7cn0KdGFibGUoInBhbSI9Y2hpY2tfdGlkeSRwYW1fY2x1c3RlciwgInBhbV9tYW5oYXR0YW4iPWNoaWNrX3RpZHkkcGFtX21hbmhhdHRhbl9jbHVzdGVyKQoKYGBgCgpQb3NzaWFtbyBpbmZpbmUgdXNhcmUgbGEgc2lsaG91ZXR0ZSBwZXIgdmFsdXRhcmUgaSBjbHVzdGVyIHRyb3ZhdGkgKGFuY2hlIHBlciBsbyBzdGVzc28gJGskKS4gSWwgY29tYW5kbyDDqCBgYHNpbGhvdWV0dGUoKWBgIGRhbCBwYWNjaGV0dG8gYGBjbHVzdGVyYGAsIGEgY3VpIGJpc29nbmEgZGFyZSBjb21lIGlucHV0IGlsIHZldHRvcmUgZGVsIGNsdXN0ZXIgZSB1bmEgbWF0cmljZSBkaSBkaXNzaW1pbGFyaXTDoCAoYWQgZXNlbXBpbyBjYWxjb2xhdGEgY29uIGxhIGZ1bnppb25lIGBgZGlzdCgpYGApCgpgYGB7cn0Kc2lsX3BhbSA8LSBzaWxob3VldHRlKGNoaWNrX3RpZHkkcGFtX2NsdXN0ZXIsIGRpc3QoY2hpY2tfdGlkeVstYygxLDIsMTUsIDE2LCAxNyldKSkKCnNpbF9wYW1fbWFuaGF0dGFuIDwtIHNpbGhvdWV0dGUoY2hpY2tfdGlkeSRwYW1fbWFuaGF0dGFuX2NsdXN0ZXIsIGRpc3QoY2hpY2tfdGlkeVstYygxLDIsMTUsIDE2LCAxNyldKSkKICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAKc2lsX2ttZWFucyA8LSBzaWxob3VldHRlKGNoaWNrX3RpZHkka21lYW5zX2NsdXN0ZXIsIGRpc3QoY2hpY2tfdGlkeVstYygxLDIsMTUsIDE2LCAxNyldKSkKYGBgCgpQb3NzaWFtbyBwbG90dGFyZSBsYSBzaWxob3VldHRlIHBlciBjaWFzY3VuIG1ldG9kbyBvIHBlciBjaWFzY3VuIGNsdXN0ZXIsIG9wcHVyZSBsaW1pdGFyY2kgYWxsYSBzaWxob3VldHRlIG1lZGlhLgoKYGBge3J9CgpwbG90KHNpbF9wYW0pCgpib3hwbG90KHNpbF9wYW1bLCAzXSkKCiMgY29uIGxhIGZ1bnppb25lIHN1bW1hcnkgb3R0ZW5pYW1vIHVuIHJpYXNzdW50byBkZWxsZSB2YXJpZSBzaWxob3VldHRlIGluIGN1aSBwb3NzaWFtbyB2aXN1YWxpenphcmUgbGEgc2lsaG91ZXR0ZSBtZWRpYQoKc3VtbWFyeShzaWxfcGFtKQoKYGBgCgpDb25mcm9udGlhbW8gbGUgdHJlIHNpbGhvdWV0dGUgbWVkaWUuCgpgYGB7cn0KCnByaW50KHBhc3RlKCJzaWxob3VldHRlIG1lZGlhIHBlciBQQU06Iiwgcm91bmQobWVhbihzaWxfcGFtWywgM10pLCA0KSkpCgpwcmludChwYXN0ZSgic2lsaG91ZXR0ZSBtZWRpYSBwZXIgUEFNIE1hbmhhdHRhbjoiLCByb3VuZCggbWVhbihzaWxfcGFtX21hbmhhdHRhblssM10pLCA0KSkpCgpwcmludChwYXN0ZSgic2lsaG91ZXR0ZSBtZWRpYSBwZXIgay1tZWFuczoiLCByb3VuZChtZWFuKHNpbF9rbWVhbnNbLDNdKSwgNCkpKQoKCmBgYApQZXIgKiplc2VyY2l6aW8qKjogY29tcGxldGF0ZSBhZ2dpdW5nZW5kbyBsYSBkZXZpYXppb25lIHN0YW5kYXJkIGRlbGxlIHNpbGhvdWV0dGUgY2FsY29sYXRlLgoKCgojIE1ldG9kaSBnZXJhcmNoaWNpCgoKIyMgQWduZXMgKGFnZ2xvbWVyYXRpdm8pCgpJbCBjb21hbmRvIGBgaGNsdXN0KClgYCBwZXJtZXR0ZSBkaSB1dGlsaXp6YXJlIGRpdmVyc2kgbWV0b2RpLiBJbiBhbHRlcm5hdGl2YSwgcG9zc2lhbW8gZXNzZXJlIHBpw7kgc3BlY2lmaWNpIGUgdXNhcmUgYGBhZ25lcygpYGAgZGVsIHBhY2NoZXR0byBgYGNsdXN0ZXJgYC4KCgpDb25zaWRlcmlhbW8gaWwgZGF0YXNldCByZWxhdGl2byBhbGxlIHBlcnNvbmUgc2VuemEgdGV0dG8gZSB1c2lhbW8gIGBgYWduZXMoKWBgLCBjaGUgZGkgYmFzZSB1c2EgaWwgbWV0b2RvIGRpIF9hdmVyYWdlIGxpbmthZ2VfIGNvbiBkaXN0YW56YSBFdWNsaWRlYSAodG9nbGlhbW8gbGEgcHJpbWEgY29sb25uYSBjaGUgY29udGllbmUgaSBub21pKS4KCmBgYHtyfQoKYWduZXNfc2VuemFfdGV0dG8gPC0gYWduZXMoc2VuemFfdGV0dG9fdGlkeVstMV0pCmBgYAoKUG9zc2lhbW8gdmlzdWFsaXp6YXJlIGlsIHJpc3VsdGF0byBjb24gaWwgZGVuZHJvZ3JhbW1hLgoKYGBge3J9CnBsb3QoYWduZXNfc2VuemFfdGV0dG8pCmBgYApQZXIgdmlzdWFsaXp6YXJlIGlsIHBsb3QgcG9zc2lhbW8gdXNhcmUgcHJpbWEgY29sb25uYSBjb21lIG5vbWUgZGVsbGUgcmlnaGUgZGVsIGRhdGEgZnJhbWUgZSB1c2FyZSBgYGdnZGVuZHJvYGAoZXN0ZW5zaW9uZSBkaSBgYGdncGxvdDJgYCkuCgpgYGB7cn0Kc2VuemFfdGV0dG9fbGFiZWxzIDwtIGFzLmRhdGEuZnJhbWUoc2VuemFfdGV0dG9fdGlkeVstMV0pCnJvd25hbWVzKHNlbnphX3RldHRvX2xhYmVscykgPC0gc2VuemFfdGV0dG9fdGlkeSRyZWdpb25lCgojZ2dkZW5kcm8gcGVybWV0dGUgZGkgdmlzdWFsaXp6YXJlIG1lZ2xpbyBpIGRlbmRyb2dyYW1taSB1c2FuZG8gbGEgZ3JhbW1hdGljYSBkaSBnZ3Bsb3QyCgpsaWJyYXJ5KCJnZ2RlbmRybyIpCgpkZyA8LSBkZW5kcm9fZGF0YShhZ25lcyhzZW56YV90ZXR0b19sYWJlbHMpKQoKZ2dkZW5kcm9ncmFtKGRnKQoKYGBgCgpVbmEgb3NzZXJ2YXppb25lIF9pbXBvcnRhbnRlXyBzdWkgZGF0aTogc3RpYW1vIGNvbmZyb250YW5kbyBsZSBmcmVxdWVuemUgYXNzb2x1dGUgZGVpIHNlbnphIHRldHRvLCBxdWluZGkgw6ggbmF0dXJhbGUgY2hlIGxlIHJlZ2lvbmkgcGnDuSBwb3BvbG9zZSBhdnJhbm5vIHBpw7kgcGVyc29uZSBzZW56YSBmaXNzYSBkaW1vcmEgKHN0aWFtbyBxdWluZGkgaW1wbGljaXRhbWVudGUgZmFjZW5kbyBjbHVzdGVyaW5nIGluIGJhc2UgYWxsYSBwb3BvbGF6aW9uZSB0b3RhbGUgbmVsbGEgcmVnaW9uZSkuIAoKKipFc2VyY2l6aW8qKjogcmVjdXBlcmFyZSBkYWwgc2l0byBJU1RBVCBpbCBudW1lcm8gZGkgYWJpdGFudGkgcGVyIHJlZ2lvbmUgZWQgZXNlZ3VpcmUgdW4gY2x1c3RlcmluZyB1c2FuZG8gbGEgZnJlcXVlbnphIHJlbGF0aXZhIGRlaSBzZW56YSB0ZXR0byBzdWxsYSBwb3BvbGF6aW9uZSB0b3RhbGUuIENvbmZyb250YXJlIGkgZGVuZHJvZ3JhbW1pIG90dGVudXRpLgoKUGVyIG92dmlhcmUgYSBxdWVzdG8gcHJvYmxlbWEsIGVmZnV0dGlhbW8gY2x1c3RlcmluZyBzb2x0YW50byBzdWxsYSBmcmVxdWVuemEgX3JlbGF0aXZhXyBkZWxsYSBwb3BvbGF6aW9uZSBuZWxsZSB2YXJpZSBjbGFzc2kgZGkgZXTDoC4KCmBgYHtyfQpzZW56YV90ZXR0b19yZWxhdGl2ZSA8LSBkYXRhLmZyYW1lKCBzZW56YV90ZXR0b19sYWJlbHNbMTo0XS9zZW56YV90ZXR0b19sYWJlbHNbLDVdKQoKYWduZXNfc2VuemFfdGV0dG9fcmVsYXRpdmUgPC0gYWduZXMoc2VuemFfdGV0dG9fcmVsYXRpdmUpCgpnZ2RlbmRyb2dyYW0oZGVuZHJvX2RhdGEoYWduZXNfc2VuemFfdGV0dG9fcmVsYXRpdmUpKQoKYGBgCgoKVG9ybmFuZG8gYWwgcHJvYmxlbWEsIGlsIGNvbWFuZG8gYGBjdXRyZWUoKWBgIHBlcm1ldHRlIGRpIHJpY2F2YXJlIGlsIHZlcm8gZSBwcm9wcmlvIGNsdXN0ZXJpbmcgX3RhZ2xpYW5kb18gaWwgZGVuZHJvZ3JhbW1hOiBzaSBwdcOyIHNwZWNpZmljYXJlIGwnYWx0ZXp6YSBvIGlsIG51bWVybyBkaSBjbHVzdGVyIGRlc2lkZXJhdGkuIENvbnNpZGVyaWFtbyBhZCBlc2VtcGlvICRrPTUkIGNsdXN0ZXJzLgoKYGBge3J9CgpzZW56YV90ZXR0b19yZWxhdGl2ZSRhZ25lc19rXzUgPC0gY3V0cmVlKGFnbmVzX3NlbnphX3RldHRvX3JlbGF0aXZlLCBrPTUpCgpgYGAKClN0dWRpYW1vIGxhIHNpbGhvdWV0dGU6IG5vdGlhbW8gdW4gdmFsb3JlIG1lZGlvIG5vbiBtb2x0byBhbHRvLgoKYGBge3J9CnNpbF9hZ25lc19zZW56YV90ZXR0byA8LSBzaWxob3VldHRlKHNlbnphX3RldHRvX3JlbGF0aXZlJGFnbmVzX2tfNSwgZGlzdChzZW56YV90ZXR0b19yZWxhdGl2ZVsxOjRdKSkKCnN1bW1hcnkoc2lsX2FnbmVzX3NlbnphX3RldHRvKQpgYGAKCiMjIERpYW5hIChkaXZpc2l2bykgCgpDb24gaWwgY29tYW5kbyBgYGRpYW5hKClgYCBhcHBsaWNoaWFtbyBpbCBtZXRvZG8gZGl2aXNpdm8uIFZlZGlhbW8gY2hlIG5vbiBjaSBzb25vIGdyYW5kaSBkaWZmZXJlbnplLgoKYGBge3J9CgpkaWFuYV9zZW56YV90ZXR0b19yZWxhdGl2ZSA8LSBkaWFuYShzZW56YV90ZXR0b19yZWxhdGl2ZSkKCmdnZGVuZHJvZ3JhbShkZW5kcm9fZGF0YShkaWFuYV9zZW56YV90ZXR0b19yZWxhdGl2ZSkpCgpgYGAKCkNhbGNvbGlhbW8gYWwgc29saXRvIGxhIHNpbGhvdWV0dGUsIHBlciAkaz01JC4KCmBgYHtyfQoKc2VuemFfdGV0dG9fcmVsYXRpdmUkZGlhbmFfa181ID0gY3V0cmVlKGRpYW5hX3NlbnphX3RldHRvX3JlbGF0aXZlLCBrPTUpCgpzaWxfZGlhbmFfc2VuemFfdGV0dG8gPC0gc2lsaG91ZXR0ZShzZW56YV90ZXR0b19yZWxhdGl2ZSRkaWFuYV9rXzUsIGRpc3Qoc2VuemFfdGV0dG9fcmVsYXRpdmVbMTo0XSkpCgpzdW1tYXJ5KHNpbF9kaWFuYV9zZW56YV90ZXR0bykKCmBgYAoKQ29uZnJvbnRpYW1vIGNvbiB1biBtZXRvZG8gbm9uIGdlcmFyY2hpY28sICRrJC1tZWFucy4KCgpgYGB7cn0Kc2VuemFfdGV0dG9fcmVsYXRpdmUka21lYW5zIDwtIGttZWFucyhzZW56YV90ZXR0b19yZWxhdGl2ZSwgNSkkY2x1c3RlcgoKc3VtbWFyeShzaWxob3VldHRlKHNlbnphX3RldHRvX3JlbGF0aXZlJGttZWFucyxkaXN0KHNlbnphX3RldHRvX3JlbGF0aXZlWzE6NF0pICkpCgpgYGAKCkNvbmZyb250aWFtbyBpIHBsb3QgdHJvdmF0aSBjb24gdW5hIHRhYmVsbGEgZGkgY29udGluZ2VuemEuCgpgYGB7cn0KdGFibGUoZGF0YS5mcmFtZSgia21lYW5zIj0gZmFjdG9yKHNlbnphX3RldHRvX3JlbGF0aXZlJGttZWFucyksICJhZ25lcyI9ZmFjdG9yKHNlbnphX3RldHRvX3JlbGF0aXZlJGFnbmVzX2tfNSkpKQoKYGBgCgojIEVzZXJjaXppCgoxLiBHZW5lcmFyZSB1bmEgdGFiZWxsYSBkaSAzIGNvbG9ubmUgZSAxMjAgcmlnaGUsIGluIG1vZG8gdGFsZSBjaGUgbGEgdGVyemEgY29sb25uYSBpbmRpY2hpIGzigJlhcHBhcnRlbmVuemEgYWQgdW4gY2x1c3RlciwgZSBzaWEgcGFyaSBhIDEgcGVyIGxlIHByaW1lIDUwIHJpZ2hlIGUgcGFyaSBhIDIgcGVyIGxlIHVsdGltZSA3MCByaWdoZS4gSW1wbGVtZW50YXJlIGlsIGNhbGNvbG8gZGlyZXR0byBkZWxsYSBzaWxob3VldHRlIGRlbGzigJlpbmRpdmlkdW8gY29ycmlzcG9uZGVudGUgYWxsYSBwcmltYSByaWdhLCB1c2FuZG8gY29tZSBkaXN0YW56YSB0cmEgaW5kaXZpZHVpIGxhIGRpc3RhbnphIGV1Y2xpZGVhIHRyYSBpIHB1bnRpIGxlIGN1aSBjb29yZGluYXRlIHNvbm8gaSBmYXR0b3JpIGRlZ2xpIGluZGl2aWR1aS4KCjIuIEdlbmVyYXJlIHVuYSB0YWJlbGxhIGluIG1vZG8gY2hlIGxhIHNpbGhvdWV0dGUgb3R0ZW51dGEgY29tZSByaXN1bHRhdG8gZGkgdW5hIGFuYWxpc2kgZGkgY2x1c3RlcmluZyBtb3N0cmkgbGEgcGVzc2ltYSBhdHRyaWJ1emlvbmUgZGkgdW4gaW5kaXZpZHVvLgoKMy4gR2VuZXJhcmUgdW5hIHRhYmVsbGEgaW4gbW9kbyBjaGUgbGEgc2lsaG91ZXR0ZSBvdHRlbnV0YSBjb21lIHJpc3VsdGF0byBkaSB1bmEgYW5hbGlzaSBkaSBjbHVzdGVyaW5nIG1vc3RyaSBpbCBwZXNzaW1vIHB1bnRlZ2dpbyBkaSB1biBjbHVzdGVyLgoKNC4gR2VuZXJhcmUgdW4gY2FtcGlvbmUgaSBjdWkgaW5kaXZpZHVpIHNpYW5vIGNhcmF0dGVyaXp6YXRpIGRhIDYKZGl2ZXJzZSBjYXJhdHRlcmlzdGljaGUsIGUgdGFsaSBjaGUgaW4gdW5hIGFuYWxpc2kgZGkgY2x1c3RlcmluZyB0aXBvIHBhbSBsYSBzY2VsdGEgZGkgdW4gbnVtZXJvIGRpIGNsdXN0ZXIgaW5mZXJpb3JlIGEgNCBub24gcmlzdWx0aSBidW9uYS4gSW1wbGVtZW50YXJlIGFuY2hlIGzigJlhbmFsaXNpIGRlbGxhIGJvbnTDoCBkZWwgbWV0b2RvLgoKNS4gU3ZvbGdlcmUgdW5hIGFuYWxpc2kgZGkgY2x1c3RlcmluZyBzdWwgZGF0YXNldCBgYFVTQXJyZXN0c2BgIHV0aWxpenphbmRvIGlsIG1ldG9kbyBwYXJ0aXRpb24gYXJvdW5kIG1lZG9pZHMgY29uIGRpc3RhbnphIG1hbmhhdHRhbi4KCjYuIEFuYWxpenphcmUgaWwgcHJvYmxlbWEgZGVsIGNsdXN0ZXJpbmcgc3VsIGRhdGFzZXQgYGBVU0FycmVzdHNgYCB1dGlsaXp6YW5kbyBtZXRvZGkgZ2VyYXJjaGljaS4KCjcuIEFuYWxpenphcmUgaWwgcHJvYmxlbWEgZGVsIGNsdXN0ZXJpbmcgc3VsIGRhdGFzZXQgYGBpcmlzYGAgdXRpbGl6emFuZG8gbWV0b2RpIGdlcmFyY2hpY2ksIHZhbHV0YW5kbyBpIGRpZmZlcmVudGkgY2FzaSBvdHRlbnV0aSBhbCB2YXJpYXJlIGRlbGxlIHBvc3NpYmlsaSBkaXN0YW56ZSB0cmEgcHVudGkgZSB0cmEgY2x1c3Rlci4KCjguIEFuYWxpenphcmUgaWwgcHJvYmxlbWEgZGVsIGNsdXN0ZXJpbmcgc3VsIGRhdGFzZXQgYGB2b3Rlcy5yZXB1YmBgIHV0aWxpenphbmRvIG1ldG9kaSBnZXJhcmNoaWNpLCB2YWx1dGFuZG8gaSBkaWZmZXJlbnRpIGNhc2kgb3R0ZW51dGkgYWwgdmFyaWFyZSBkZWxsZSBwb3NzaWJpbGkgZGlzdGFuemUgdHJhIHB1bnRpIGUgdHJhIGNsdXN0ZXIuCgo5LiBBbmFsaXp6YXJlIGlsIHByb2JsZW1hIGRlbCBjbHVzdGVyaW5nIHBlciBpbCBkYXRhc2V0IGBgYWdyaWN1bHR1cmVgYCAocHJlc2VudGUgbmVsIHBhY2NoZXR0byBjbHVzdGVyKSwgcmVsYXRpdm8gYSBkYXRpIHN1IFBJTCBlIHBlcmNlbnR1YWxlIGRpIGltcGllZ2F0aSBuZWxs4oCZYWdyaWNvbHR1cmEgbmVpIHBhZXNpIFVFIG5lbCAxOTkzLgoKMTAuIEFuYWxpenphcmUgaWwgcHJvYmxlbWEgZGVsIGNsdXN0ZXJpbmcgcGVyIGlsIGRhdGFzZXQgYGBmbG93ZXJgYCAocHJlc2VudGUgbmVsIHBhY2NoZXR0byBjbHVzdGVyKSwgcmVsYXRpdm8gYSBvdHRvIGNhcmF0dGVyaXN0aWNoZSBkaSBhbGN1bmkgZmlvcmkuCgoxMS4gQW5hbGl6emFyZSBpbCBwcm9ibGVtYSBkZWwgY2x1c3RlcmluZyBwZXIgaWwgZGF0YXNldCBgYFVTY2VyZWFsc2BgLgo=

Clustering (notebook 2)

Statistica II - 750AA

Dario Trevisan

01/10/2025