Installare R ed Rstudio
Seguite le istruzioni partendo dal sito di posit: https://posit.co/download/rstudio-desktop/. La
pagina web ufficiale del progetto R è invece https://www.r-project.org/ e in particolare CRAN https://cran.r-project.org/.
Al primo avvio, create un progetto in una cartella dedicata ad
esempio 750AA (è sempre buona pratica creare progetti per organizzare il
proprio flusso di lavoro) e caricate il file .Rmd
che
potete scaricare da questa pagina cliccando in alto a destra.
Su Rstudio potete eseguire righe di codice cliccando
Ctrl-Enter
o interi blocchi di codice con
Ctrl-Shift-Enter
.
Presentiamo ora i comandi e le caratteristiche di base di R – per
brevità la presentazione segue quella di https://learnxinyminutes.com/r. Un’ottima referenza
caldamente suggerita per usare R per l’analisi dei dati con maggiore
consapevolezza è R for Data Science (2e) disponibile alla
pagina https://r4ds.hadley.nz/. Una guida per le funzioni più
avanzate di R è Advanced R, https://adv-r.hadley.nz/index.html.
R è a tutti gli effetti un linguaggio di programmazione, ma si può
usare tranquillamente come una calcolatrice con molte funzioni per la
statistica: è facile potenziare R installando pacchetti aggiuntivi con
il comando install.packages()
.
# I commenti si indicano con il simbolo hash #
# installiamo il pacchetto cluster che contiene funzioni per il clustering di dati (lo useremo più avanti nel corso)
install.packages("cluster")
Una volta installato il pacchetto, questo può essere caricato con il
comando library()
.
library("cluster")
Se avete dubbi su un qualsiasi comando, potete cercare nella
documentazione ufficiale (tab Help in basso a destra su Rstudio) oppure
digitando ?(nome comando)
nella console (basso a
sinistra).
?hist
# il comando genera istogrammi a partire da un vettore di osservazioni
R contiene già molti dataset (termine tecnico in R è data
frame) standard pre-caricati, già a disposizione, che useremo negli
esempi (digitare il comando data()
per avere un elenco).
Anche le informazioni sui data frame principali sono accessibili tramite
l’help.
?mtcars
Con il comando head()
visualizziamo solo le prime righe
di un data frame.
head(mtcars)
Attenzione! per i progetti di esame è richiesto di lavorare su dati
nuovi (più avanti vediamo come caricarli). Ma iniziamo dai tipi di dati
più semplici.
Con il comando summary()
otteniamo informazioni circa la
distribuzione delle singole colonne del data frame.
summary(mtcars)
Con il comando plot()
otteniamo uno scatterplot tra
coppie di colonne (più avanti vediamo meglio).
plot(mtcars$mpg, mtcars$cyl)
Con il comando hist()
otteniamo invece un
istogramma.
hist(mtcars$mpg)
Un grafico a barre (utile se la variabile osservata è discreta o
qualitativa) è invece ottenibile con il comando
barplot()
.
barplot(table(factor(mtcars$cyl)))
Con il comando boxplot()
otteniamo un diagramma a
scatola e baffi (box and whiskers).
boxplot(mtcars$hp)
Classi di oggetti
In questa sezione presentiamo i tipi di oggetti importanti di R:
interi, numeri, caratteri, logici e fattori. Ce ne sono altri, ma questi
sono i minimi indispensabili per iniziare. R è abbastanza flessibile
sulle classi, ma se avete dubbi potete usare la funzione
class()
per avere informazioni precise.
?class
Integer
Gli interi (non decimali) sono specificati con L
.
5L
class(5L)
In R, ogni singolo valore, come 5L
, è considerato un
vettore di lunghezza 1.
length(5L)
Per avere vettori di lunghezza maggiore si può usare la funzione
c()
(concatena).
c(4L, 5L, 8L, 3L)
length(c(4L, 5L, 8L, 3L))
class(c(4L, 5L, 8L, 3L))
Numeric
Un numeric è un numero decimale (a precisione doppia)
5
class(5)
Di nuovo, tutto in R è un vettore, quindi possiamo creare un vettore
numerico con più di un elemento
c(3, 3, 3, 2, 2, 1)
Possiamo usare anche la notazione scientifica (AeB
significa \(A \cdot 10^B\))
5e4
6.02e23 # numero di Avogadro
1.6e-35 # lunghezza di Planck
Possiamo avere anche numeri infinitamente grandi con
Inf
.
class(Inf) # "numeric"
class(-Inf) # "numeric"
Un esempio: per ottenere la CDF dalla densità gaussiana (nel punto
\(-1\)): \(\Phi(-1) = \int_{-\infty}^{-1}\exp(-x^2/2)
dx\)
integrate(dnorm, -Inf, -1)
Confronta comunque con il comando pnorm()
:
pnorm(-1)
Fare operazioni su un mix di interi e numeric restituisce un
altro numeric:
10L + 66L
53.2 - 4
2.0 * 2L
3L / 4
3 %% 2
Operazioni non valide restituiscono NaN
, ossia
Not-A-Number.
0 / 0 # NaN
class(NaN) # "numeric"
Da non confondere con NA
, ossia Not-Available
per i dati mancanti.
NA
class(NA)
Possiamo fare operazioni su due vettori con lunghezza maggiore di 1,
# purché la lunghezza del vettore più grande sia un multiplo intero di
quello più piccolo
c(1, 2, 3) + c(1, 2, 3) # 2 4 6
Poiché un singolo numero è un vettore di lunghezza uno, gli scalari
sono applicati elemento per elemento ai vettori.
(4 * c(1, 2, 3) - 2) / 2 # 1 3 5
Ad eccezione degli scalari, attenzione quando eseguite operazioni su
vettori con lunghezze diverse. Anche se si può fare, allineare le
lunghezze è una pratica migliore e più facile da leggere nella maggior
parte dei casi.
c(1, 2, 3, 1, 2, 3) * c(1, 2) # 1 4 3 2 2 6
c(1, 2, 3, 1, 2, 3) * rep(c(1, 2), 3) # 1 4 3 2 2 6
Tante funzioni sono già implementate in R di base:
exp(1) # esponenziale a base naturale
log(3) # logaritmo base naturale
log(3, base=10) # logaritmo in base 10
sin(3) # seno (in radianti)
atan(1.3) # arcotangente
sqrt(2) # radice quadrata
2**(1/2) ## esponenziale
Character
Non c’è differenza tra caratteri e stringhe (sequenze di più
caratteri) in R:
"Statistica"
class("Statistica") # "character"
class("S") # "character"
Questi sono tutti vettori di caratteri di lunghezza 1. Al solito uno
più lungo si può ottenere concatenando.
c("Alice", "Bob", "Carlo", "Davide", "Elisabetta")
length(c("Alice","Bob","Carlo")) # 3
R ha diversi vettori di caratteri incorporati:
letters
LETTERS
month.name
Logic
In R, un oggetto logico è un booleano:
class(TRUE) # "logical"
class(FALSE) # "logical"
class(NA)
Espressioni possono essere confrontate con le operazioni booleane
==
(uguale), !=
, (diverso).
TRUE == TRUE # TRUE
5 == 3
FALSE != FALSE # FALSE
5!= 3
Si usano |
, &
, !
per le
operazioni logiche di disgiunzione (o) congiunzione (e) e negazione.
TRUE | FALSE # TRUE
TRUE & FALSE # FALSE
! (5==3)
Al solito le operazioni si applicano a vettori elemento per
elemento:
c(1,2,3,4)==c(1,5,3,2)
c(TRUE, FALSE) & TRUE
Factor
La classe factor (fattore) è per i dati categorici (variabili
statistiche discrete). I fattori possono essere ordinati, come ad
esempio i giudizi scolastici (ottimo, buono, ecc.) o non ordinati, ad
esempio come i colori. La funzione factor
trasforma un
vettore in un corrispondente vettore di tipo factor. Ad esempio
factor(c("blue", "blue", "green", NA, "blue", "red", "yellow"))
I livelli sono i valori che i dati categoriali
possono assumere. Notiamo che i dati mancanti non entrano nei livelli.
Per accedere ai livelli usiamo la funzione levels()
. La
funzione table()
permette di ottenere invece una
tabella di contingenza contenente le frequenze dei vari
livelli.
levels(factor(c("blue", "blue", "green", NA, "blue", "red", "yellow")))
table(factor(c("blue", "blue", "green", NA, "blue", "red", "yellow")))
NULL
L`oggetto NULL
è un caso strano, si può usare per
svuotare un vettore.
class(NULL) # NULL
pappagallo <- c("becco", "piume", "ali", "occhi")
pappagallo
pappagallo <- NULL
pappagallo
Variabili, cicli e funzioni
Una variabile è come una scatola in cui tenere un oggetto (valore)
per uso successivo. Questa operazione è detta di assegnazione del valore
alla variabile. Una volta che abbiamo variabili, possiamo scrivere cicli
(for, while, ecc.) e funzioni.
Variabili
Ci sono molti modi per assegnare un valore a una variabile.
x = 5 # questo è un modo accettato
y <- "1" # questo è il modo standard suggerito
TRUE -> z # questo pure funziona
Non ci sono convenzioni ufficiali per i nomi delle variabili.
Attenzione! i nomi sono case sensitive (maiuscola/minuscola fa
differenza) È vietato fare iniziare il nome con un numero, ed usare nomi
di oggetti fondamentali (TRUE
, FALSE
,
NULL
, ecc.). Per il resto, è buona pratica usare nomi che
siano esplicativi, ma anche non troppo lunghi. Quando introducete una
variabile possibilmente aggiungete un commento circa il suo ruolo.
DurataLezione <- 3 #Pascal case
durataLezione <- 3 #lower camelCase
durata_lezione <- 3 #lower_case_with_underscores, aka snake_case
Cicli (loops)
Ci sono i cicli for
.
for (i in 1:4) {
print(i)
}
Il comando A:B
definisce il vettore di interi da
A
a B
, estremi inclusi.
(-3):5
10:1
È possibile fare un ciclo su un qualsiasi vettore.
for( animale in c("cane", "gatto", "topo")){ print(animale)}
Ci sono i cicli while
, ossia che si ripetono finché la
condizione tra parentesi è realizzata (TRUE
)
a <- 10
while (a > 4) {
print(a)
a <- a - 1
}
In realtà usare i cicli for
e while
in R è
abbastanza lento, e quando le funzioni vengono applicate su interi
vettori conviene sfruttare il fatto che R lo fa in automatico.
numeri <- 1:10
# una sola riga per calcolare i quadrati dei numeri da 1 a 10
quadratiVeloci <- numeri**2
# usiamo un ciclo for
quadratiLenti <- NULL
for (i in numeri){
quadratiLenti <-c( quadratiLenti, i**2)
}
# il risultato è lo stesso
quadratiLenti == quadratiVeloci
If/else
Si può introdurre operazioni condizionali (if
,
else
)
x <- 4
y <- 5
if (x > y) {
print("x è maggiore di y")
} else if(x==y) {
print("x è uguale ad y")
} else {
print("x è minore di y")
}
Funzioni
È possibile definire nuove funzioni di variabili in questo modo:
sommaNuova <- function(x,y) {
z = x + y
return(z)
}
A questo punto è possibile utilizzarla come qualsiasi altra funzione
di R.
sommaNuova(3, 4)
È possibile definire funzioni con alcuni argomenti opzionali
(dopo quelli obbligatori).
sommaNuova <- function(x, y=0){
return(x+y)
}
sommaNuova(3)
Strutture di dati
Abbiamo già visto che R non distingue tra scalari e vettori (purché
siano dati dello stesso tipo). Vediamo ora ulteriori strutture come
matrici, data frames e liste.
Vettori
Abbiamo già visto i vettori e la funzioni di base
c()
.
vettore <- c(8, 9, 10, 11)
vettore
Ricordate anche il comando :
per sequenze di interi. Per
generare sequenze più complicate, anche non di interi, si può usare il
comando seq()
.
8:11
seq(8, 11, by=1)
seq(8, 11, by=0.5)
Il comando length()
ritorna la dimensione del
vettore.
length(vettore)
È spesso utile anche il comando rep
per replicare un
vettore.
rep(c(1,3), 2)
# crea un vettore di zeri lungo 4
rep(0, 4)
# crea un vettore di TRUE lungo 5
rep(TRUE, 5)
Possiamo chiamare uno o più elementi di un vettore nella posizione
\(k\) indicandoli tra parentesi
quadrate (usando un altro vettore contenente le posizioni da chiamare).
Attenzione! R comincia a contare da \(1\) (altri linguaggi da \(0\)).
vettore[1]
vettore[2]
vettore[c(1,4)]
vettore[1:3]
# ma invece
vettore[5]
vettore[0]
Usando indici negativi invece escludiamo quelle componenti:
vettore[-1]
vettore[-(1:3)]
Inserendo un vettore di valori booleani possiamo
filtrare solo le componenti corrispondenti ai valori
TRUE
.
maschera <- as.logical(vettore %% 2)
maschera
vettore[maschera]
Viceversa, data una condizione che può essere soddisfatta o meno,
possiamo estrarre gli indici per cui vale con il comando
which
.
which(vettore <9 | vettore > 10)
In questo caso mostra gli indici del vettore che corrispondono a
valori minori di \(9\) o maggiori di
\(10\). Può essere utile il comando
which.max()
che trova la posizione del valore massimo e
simimente which.min()
per il minimo.
vettore2 =c(1:10, 15:0)
# il comando max() trova il valore massimo
max(vettore2)
# il comando which.max() trova l'indice corrispondente (argmax, o punto di massimo)
which.max(vettore2)
I comandi `head()
e tail()
permettono di
ottenere le prime o le ultime componenti di un vettore.
head(1:1000)
tail(1:1000, n=10)
Indicatori statistici
Tante funzioni di statistica, in particolare descrittiva, sono già
implementate di base.
mean(vettore2)
var(vettore2)
sd(vettore2)
median(vettore2)
summary(vettore2)
quantile(vettore2, 1/4)
quantile(vettore2, 3/4)
quantile(vettore2, .95)
Per trovare la moda ad esempio di un vettore di fattori (variabile
statistica discreta) basta usare il comando which.max()
in
combinazione con table()
.
colori <- factor(c("black", "red", "blue", "blue", "green", NA, "blue", "red", "yellow"))
table(colori)
moda <- which.max(table(colori))
moda
Notate che il \(2\) non è la
frequenza (che sarebbe \(3\)) bensì la
posizione della moda nel vettore dei livelli.
Matrici
Possiamo creare una matrice con entrate tutte dello stesso tipo
(spesso numeric) cambiando la forma di un vettore, con il
comando matrix()
.
mat <- matrix(c(1, 2, 3, 4, 5, 6), nrow = 3, ncol = 2,)
mat
Diversamente da un vettore, la classe di una matrice è sempre
matrix
(anche se non contiene numeri).
class(mat)
Per accedere alla componente di riga \(i\) e colonna \(j\) (ricordare che si conta da \(1\)) si scrive mat[i,j]
. Per
chiedere l’intero vettore della riga \(i\) invece mat[i,]
, mentre per
la colonna \(j\) si scrive
mat[,j]
.
# prima riga
mat[1, ]
# tutte le colonne tranne la prima
mat[, -1]
# prima e terza riga, seconda colonna
mat[c(1,3), 2]
Operazioni di base su matrici sono già disponibili senza pacchetti
aggiuntivi.
# matrice trasposta
t(mat)
# prodotto di matrici (righe per colonne)
mat %*% t(mat)
# attenzione a non confondere usando solo * (prodotto componente per componente)
mat * mat
I comandi cbind()
e rbind()
uniscono
vettori (o matrici) tra loro, per colonne o per righe rispettivamente.
Attenzione! le matrici devono comunque avere entrate delle stesse classi
(se non lo sono vengono convertite).
matEstesa <- cbind(mat, c(1,3,10))
matEstesa
matEstesaZeri <- rbind(c(0,0,0), matEstesa)
matEstesaZeri
Data frame
Quando una tabella ha colonne di classi diverse, si usa un data
frame. Questa struttura è estremamente utile per rappresentare dati
(una osservazione per ciascuna riga) di cui si osservano caratteristiche
multiple (una caratteristica per ciascuna colonna). La funzione per
definire un data frame partendo da vettori (tutti con la stessa
lunghezza) è data.frame
.
altezza <- c(148, 170, NA, 179, 190, 168, 181, 158, 166)
# creiamo un data frame con i dati di altezza e colore
osservazioni <- data.frame(altezza, colori)
class(osservazioni)
Con il comando head()
possiamo visualizzare le prime
righe. Altri comandi permettono di ottenerne le dimensioni
head(osservazioni)
nrow(osservazioni)
ncol(osservazioni)
dim(osservazioni)
I nomi delle colonne possono essere visualizzati e pure cambiati con
la funzione colnames()
colnames(osservazioni)
colnames(osservazioni) <- c("height", "colors")
head(osservazioni)
Si può accedere alle singole colonne con la sintassi
nomeDataFrame$nomeColonna
. Ad esempio:
osservazioni$height
# la colonna selezionata è ora un vettore
class(osservazioni$height)
Se si vuole selezionare alcune colonne mantenendo la struttura di
data frame, si può indicarne ad esempio il numero.
head(osservazioni[1])
class(osservazioni[1])
Ci sono diverse estensioni della struttura dei data
frames. Una sono le data tables, per gestire grandi quantità di
dati (installare pacchetto data.table
). Un’altra sono le
tibble, per funzioni più intuitive e codice più pulito e
interpretabile (installare la suite tidyverse
https://www.tidyverse.org/).
install.packages("tidyverse")
Liste
Infine, R ha liste di vettori (anche di lunghezze e classi
diverse).
lista <- list(tempo = 1:40)
lista$prezzo = rnorm(10, 1,3)
class(lista)
lista$tempo[1:4]
lista$prezzo[1:4]
Le liste non sono efficienti per lavorare con grandi quantità di
osservazioni (usare data frames o data tables), ma è bene sapere che
alcune funzioni restituiscono una lista.
Plot
Il comando di base per le funzioni grafiche è plot()
.
Questo produce un diagramma a nuvola di punti
(scatterplot).
head(iris)
plot(iris$Sepal.Length, iris$Sepal.Width)
Il comando hist()
produce un istogramma.
hist(iris$Sepal.Length)
Il comando boxplot()
produce un diagramma a scatola.
boxplot(iris$Sepal.Length)
Questi plot tuttavia sono piuttosto di base, il
pacchetto ggplot2
(suite tidyverse
) permette
funzionalità più avanzate e comandi facilmente intepretabili.
Carichiamo il pacchetto (se non è installato usare
install.packages()
)
library("ggplot2")
Visualizziamo i plot di prima aggiungendo colori in base alle specie
(ultima colonna). Scatterplot:
ggplot(data=iris, aes(x=Sepal.Length, y=Sepal.Width, colour=Species)) +
geom_point() +
xlab("Lunghezza sepali") +
ylab("Lunghezza petali") +
ggtitle("Dataset Iris")
Istogramma:
ggplot(data=iris, aes(x=Sepal.Length, fill=Species)) +
geom_histogram(bins=10)+
xlab("Lunghezza sepali") +
ylab("frequenza assoluta") +
ggtitle("Dataset Iris")
Possiamo rappresentare anche con una densità
continua:
ggplot(data=iris, aes(x=Sepal.Length, fill=Species)) +
geom_density(position="stack")+
xlab("Lunghezza sepali") +
ylab("frequenza assoluta") +
ggtitle("Dataset Iris")
Possiamo anche rappresentare tre istogrammi (uno per specie) uno
accanto all’altro.
ggplot(data=iris, aes(x=Sepal.Length, fill=Species)) +
geom_histogram(bins=10, position=position_dodge())+
xlab("Lunghezza sepali") +
ylab("frequenza assoluta") +
ggtitle("Dataset Iris")
E pure le tre densità:
ggplot(data=iris, aes(x=Sepal.Length, fill=Species)) +
geom_density(alpha=0.4)+
xlab("Lunghezza sepali") +
ylab("frequenza assoluta") +
ggtitle("Dataset Iris")
Boxplot:
ggplot(iris, aes(x=Sepal.Length, fill=Species))+
geom_boxplot() +
xlab("Lunghezza sepali") +
ylab("") +
ggtitle("Dataset Iris")
---
title: "Introduzione ad R (notebook 1)"
author: "Dario Trevisan"
date: "24/09/2025"
output:
  html_notebook:
    toc: true
    toc_depth: 3
    toc_float: true
    theme: readable
    df_print: paged
    download_handler: true
subtitle: "Statistica II - 750AA"
---

# Installare R ed Rstudio

Seguite le istruzioni partendo dal sito di posit: <https://posit.co/download/rstudio-desktop/>. La *pagina web ufficiale* del progetto R è invece <https://www.r-project.org/> e in particolare CRAN <https://cran.r-project.org/>.

Al primo avvio, create un progetto in una cartella dedicata ad esempio 750AA (è sempre buona pratica creare progetti per organizzare il proprio flusso di lavoro) e caricate il file `.Rmd` che potete scaricare da questa pagina cliccando in alto a destra.

Su Rstudio potete eseguire righe di codice cliccando `Ctrl-Enter` o interi blocchi di codice con `Ctrl-Shift-Enter`.

Presentiamo ora i comandi e le caratteristiche di base di R -- per brevità la presentazione segue quella di <https://learnxinyminutes.com/r>. Un'ottima referenza caldamente suggerita per usare R per l'analisi dei dati con maggiore consapevolezza è *R for Data Science (2e)* disponibile alla pagina <https://r4ds.hadley.nz/>. Una guida per le funzioni più avanzate di R è *Advanced R*, <https://adv-r.hadley.nz/index.html>.

R è a tutti gli effetti un linguaggio di programmazione, ma si può usare tranquillamente come una calcolatrice con molte funzioni per la statistica: è facile potenziare R installando pacchetti aggiuntivi con il comando `install.packages()`.

```{r eval=FALSE, echo=TRUE}
# I commenti si indicano con il simbolo hash #
# installiamo il pacchetto cluster che contiene funzioni per il clustering di dati (lo useremo più avanti nel corso)

install.packages("cluster")
```

Una volta installato il pacchetto, questo può essere caricato con il comando `library()`.

```{r eval=FALSE, echo=TRUE}
library("cluster")
```

Se avete dubbi su un qualsiasi comando, potete cercare nella documentazione ufficiale (tab Help in basso a destra su Rstudio) oppure digitando `?(nome comando)` nella console (basso a sinistra).

```{r}
?hist
# il comando genera istogrammi a partire da un vettore di osservazioni
```

R contiene già molti dataset (termine tecnico in R è *data frame*) standard pre-caricati, già a disposizione, che useremo negli esempi (digitare il comando `data()` per avere un elenco). Anche le informazioni sui data frame principali sono accessibili tramite l'help.

```{r}
?mtcars
```

Con il comando `head()` visualizziamo solo le prime righe di un data frame.

```{r}
head(mtcars)
```

Attenzione! per i progetti di esame è richiesto di lavorare su dati nuovi (più avanti vediamo come caricarli). Ma iniziamo dai tipi di dati più semplici.

Con il comando `summary()` otteniamo informazioni circa la distribuzione delle singole colonne del data frame.

```{r}
summary(mtcars)
```

Con il comando `plot()` otteniamo uno scatterplot tra coppie di colonne (più avanti vediamo meglio).

```{r}
plot(mtcars$mpg, mtcars$cyl)
```

Con il comando `hist()` otteniamo invece un istogramma.

```{r}
hist(mtcars$mpg)
```

Un grafico a barre (utile se la variabile osservata è discreta o qualitativa) è invece ottenibile con il comando `barplot()`.

```{r}
barplot(table(factor(mtcars$cyl)))
```

Con il comando `boxplot()` otteniamo un diagramma a *scatola e baffi* (box and whiskers).

```{r}
boxplot(mtcars$hp)
```

# Classi di oggetti

In questa sezione presentiamo i tipi di oggetti importanti di R: interi, numeri, caratteri, logici e fattori. Ce ne sono altri, ma questi sono i minimi indispensabili per iniziare. R è abbastanza flessibile sulle classi, ma se avete dubbi potete usare la funzione `class()` per avere informazioni precise.

```{r}
?class
```

## Integer

Gli interi (non decimali) sono specificati con `L`.

```{r}
5L         
class(5L)
```

In R, ogni singolo valore, come `5L`, è considerato un vettore di lunghezza 1.

```{r}
length(5L)
```

Per avere vettori di lunghezza maggiore si può usare la funzione `c()` (concatena).

```{r}
c(4L, 5L, 8L, 3L)          
length(c(4L, 5L, 8L, 3L))  
class(c(4L, 5L, 8L, 3L))
```

## Numeric

Un *numeric* è un numero decimale (a precisione doppia)

```{r}
5           
class(5)    
```

Di nuovo, tutto in R è un vettore, quindi possiamo creare un vettore numerico con più di un elemento

```{r}
c(3, 3, 3, 2, 2, 1)
```

Possiamo usare anche la notazione scientifica (`AeB` significa $A \cdot 10^B$)

```{r}
5e4         
6.02e23     # numero di Avogadro
1.6e-35     # lunghezza di Planck
```

Possiamo avere anche numeri infinitamente grandi con `Inf`.

```{r}
class(Inf)  # "numeric"
class(-Inf) # "numeric"
```

Un esempio: per ottenere la CDF dalla densità gaussiana (nel punto $-1$): $\Phi(-1) = \int_{-\infty}^{-1}\exp(-x^2/2) dx$

```{r}
integrate(dnorm, -Inf, -1)
```

Confronta comunque con il comando `pnorm()`:

```{r}
pnorm(-1)
```

Fare operazioni su un mix di interi e *numeric* restituisce un altro *numeric*:

```{r}
10L + 66L   
53.2 - 4   
2.0 * 2L   
3L / 4     
3 %% 2
```

Operazioni non valide restituiscono `NaN`, ossia *Not-A-Number*.

```{r}
0 / 0       # NaN
class(NaN)  # "numeric"
```

Da non confondere con `NA`, ossia *Not-Available* per i dati mancanti.

```{r}
NA
class(NA)
```

Possiamo fare operazioni su due vettori con lunghezza maggiore di 1, \# purché la lunghezza del vettore più grande sia un multiplo intero di quello più piccolo

```{r}
c(1, 2, 3) + c(1, 2, 3)     # 2 4 6
```

Poiché un singolo numero è un vettore di lunghezza uno, gli scalari sono applicati elemento per elemento ai vettori.

```{r}
(4 * c(1, 2, 3) - 2) / 2    # 1 3 5
```

Ad eccezione degli scalari, attenzione quando eseguite operazioni su vettori con lunghezze diverse. Anche se si può fare, allineare le lunghezze è una pratica migliore e più facile da leggere nella maggior parte dei casi.

```{r}
c(1, 2, 3, 1, 2, 3) * c(1, 2)               # 1 4 3 2 2 6
c(1, 2, 3, 1, 2, 3) * rep(c(1, 2), 3)   # 1 4 3 2 2 6
```

Tante funzioni sono già implementate in R di base:

```{r}

exp(1) # esponenziale a base naturale
log(3) # logaritmo base naturale
log(3, base=10) # logaritmo in base 10
sin(3) # seno (in radianti)
atan(1.3) # arcotangente
sqrt(2) # radice quadrata
2**(1/2) ## esponenziale
```

## Character

Non c'è differenza tra caratteri e stringhe (sequenze di più caratteri) in R:

```{r}
"Statistica"          
class("Statistica")    # "character"
class("S")          # "character"
```

Questi sono tutti vettori di caratteri di lunghezza 1. Al solito uno più lungo si può ottenere concatenando.

```{r}
c("Alice", "Bob", "Carlo", "Davide", "Elisabetta")
```

```{r}
length(c("Alice","Bob","Carlo")) # 3
```

R ha diversi vettori di caratteri incorporati:

```{r}
letters
LETTERS
month.name
```

## Logic

In R, un oggetto **logico** è un booleano:

```{r}
class(TRUE)     # "logical"
class(FALSE)    # "logical"
class(NA)
```

Espressioni possono essere confrontate con le operazioni booleane `==` (uguale), `!=`, (diverso).

```{r}
TRUE == TRUE    # TRUE
5 == 3
FALSE != FALSE  # FALSE
5!= 3
```

Si usano `|`, `&`, `!` per le operazioni logiche di disgiunzione (o) congiunzione (e) e negazione.

```{r}
TRUE | FALSE    # TRUE
TRUE & FALSE    # FALSE
! (5==3)
```

Al solito le operazioni si applicano a vettori elemento per elemento:

```{r}
c(1,2,3,4)==c(1,5,3,2)

c(TRUE, FALSE) & TRUE

```

## Factor

La classe factor (fattore) è per i dati categorici (variabili statistiche discrete). I fattori possono essere ordinati, come ad esempio i giudizi scolastici (ottimo, buono, ecc.) o non ordinati, ad esempio come i colori. La funzione `factor` trasforma un vettore in un corrispondente vettore di tipo factor. Ad esempio

```{r}
factor(c("blue", "blue", "green", NA, "blue", "red", "yellow"))
```

I **livelli** sono i valori che i dati categoriali possono assumere. Notiamo che i dati mancanti non entrano nei livelli. Per accedere ai livelli usiamo la funzione `levels()`. La funzione `table()` permette di ottenere invece una *tabella di contingenza* contenente le frequenze dei vari livelli.

```{r}
levels(factor(c("blue", "blue", "green", NA, "blue", "red", "yellow")))
table(factor(c("blue", "blue", "green", NA, "blue", "red", "yellow")))
```

## NULL

L\`oggetto `NULL` è un caso strano, si può usare per *svuotare* un vettore.

```{r}
class(NULL) # NULL
pappagallo <- c("becco", "piume", "ali", "occhi")
pappagallo

pappagallo <- NULL

pappagallo
```

# Variabili, cicli e funzioni

Una variabile è come una scatola in cui tenere un oggetto (valore) per uso successivo. Questa operazione è detta di assegnazione del valore alla variabile. Una volta che abbiamo variabili, possiamo scrivere cicli (for, while, ecc.) e funzioni.

## Variabili

Ci sono molti modi per assegnare un valore a una variabile.

```{r}
x = 5       # questo è un modo accettato
y <- "1"    # questo è il modo standard suggerito
TRUE -> z   # questo pure funziona
```

Non ci sono convenzioni ufficiali per i nomi delle variabili. Attenzione! i nomi sono *case sensitive* (maiuscola/minuscola fa differenza) È vietato fare iniziare il nome con un numero, ed usare nomi di oggetti fondamentali (`TRUE`, `FALSE`, `NULL`, ecc.). Per il resto, è buona pratica usare nomi che siano esplicativi, ma anche non troppo lunghi. Quando introducete una variabile possibilmente aggiungete un commento circa il suo ruolo.

```{r}
DurataLezione <- 3 #Pascal case
durataLezione <- 3 #lower camelCase
durata_lezione <- 3 #lower_case_with_underscores, aka snake_case
```

## Cicli (loops)

Ci sono i cicli `for`.

```{r}
for (i in 1:4) {
	print(i)
}
```

Il comando `A:B` definisce il vettore di interi da `A` a `B`, estremi inclusi.

```{r}
(-3):5

10:1
```

È possibile fare un ciclo su un qualsiasi vettore.

```{r}

for( animale in c("cane", "gatto", "topo")){ print(animale)}

```

Ci sono i cicli `while`, ossia che si ripetono finché la condizione tra parentesi è realizzata (`TRUE`)

```{r}
a <- 10
while (a > 4) {
	print(a)
	a <- a - 1
}
```

In realtà usare i cicli `for` e `while` in R è abbastanza lento, e quando le funzioni vengono applicate su interi vettori conviene sfruttare il fatto che R lo fa in automatico.

```{r}

numeri <- 1:10

# una sola riga per calcolare i quadrati dei numeri da 1 a 10
quadratiVeloci <- numeri**2

# usiamo un ciclo for
quadratiLenti <- NULL
for (i in numeri){
  quadratiLenti <-c( quadratiLenti, i**2)
}

# il risultato è lo stesso
quadratiLenti == quadratiVeloci

```

## If/else

Si può introdurre operazioni condizionali (`if`, `else`)

```{r}
x <- 4
y <- 5

if (x > y) {
	print("x è maggiore di y")
} else if(x==y) {
	print("x è uguale ad y")
} else {
  print("x è minore di y")
}
```

## Funzioni

È possibile definire nuove funzioni di variabili in questo modo:

```{r}
sommaNuova <- function(x,y) {
	z = x  + y 
	return(z)
}
```

A questo punto è possibile utilizzarla come qualsiasi altra funzione di R.

```{r}
sommaNuova(3, 4)
```

È possibile definire funzioni con alcuni argomenti *opzionali* (dopo quelli obbligatori).

```{r}

sommaNuova <- function(x, y=0){
  return(x+y)
}

sommaNuova(3)
```

# Strutture di dati

Abbiamo già visto che R non distingue tra scalari e vettori (purché siano dati dello stesso tipo). Vediamo ora ulteriori strutture come matrici, *data frames* e liste.

## Vettori

Abbiamo già visto i vettori e la funzioni di base `c()`.

```{r}
vettore <- c(8, 9, 10, 11)
vettore
```

Ricordate anche il comando `:` per sequenze di interi. Per generare sequenze più complicate, anche non di interi, si può usare il comando `seq()`.

```{r}
8:11
seq(8, 11, by=1)
seq(8, 11, by=0.5)
```

Il comando `length()` ritorna la dimensione del vettore.

```{r}
length(vettore)
```

È spesso utile anche il comando `rep` per replicare un vettore.

```{r}

rep(c(1,3), 2)

# crea un vettore di zeri lungo 4

rep(0, 4)

# crea un vettore di TRUE lungo 5

rep(TRUE, 5)

```

Possiamo chiamare uno o più elementi di un vettore nella posizione $k$ indicandoli tra parentesi quadrate (usando un altro vettore contenente le posizioni da chiamare). Attenzione! R comincia a contare da $1$ (altri linguaggi da $0$).

```{r}
vettore[1]
vettore[2]
vettore[c(1,4)]
vettore[1:3]

# ma invece
vettore[5]
vettore[0]
```

Usando indici negativi invece escludiamo quelle componenti:

```{r}
vettore[-1]
vettore[-(1:3)]
```

Inserendo un vettore di valori booleani possiamo **filtrare** solo le componenti corrispondenti ai valori `TRUE`.

```{r}


maschera <- as.logical(vettore %% 2)

maschera

vettore[maschera]

```

Viceversa, data una condizione che può essere soddisfatta o meno, possiamo estrarre gli indici per cui vale con il comando `which`.

```{r}
which(vettore <9 | vettore > 10)
```

In questo caso mostra gli indici del vettore che corrispondono a valori minori di $9$ o maggiori di $10$. Può essere utile il comando `which.max()` che trova la posizione del valore massimo e simimente `which.min()` per il minimo.

```{r}

vettore2 =c(1:10, 15:0)

# il comando max() trova il valore massimo

max(vettore2)

# il comando which.max() trova l'indice corrispondente (argmax, o punto di massimo)
which.max(vettore2)

```

I comandi \``head()` e `tail()` permettono di ottenere le prime o le ultime componenti di un vettore.

```{r}
head(1:1000)
tail(1:1000, n=10)
```

## Indicatori statistici

Tante funzioni di statistica, in particolare descrittiva, sono già implementate di base.

```{r}
mean(vettore2)
var(vettore2)
sd(vettore2)
median(vettore2)
summary(vettore2)
quantile(vettore2, 1/4)
quantile(vettore2, 3/4)
quantile(vettore2, .95)
```

Per trovare la moda ad esempio di un vettore di fattori (variabile statistica discreta) basta usare il comando `which.max()` in combinazione con `table()`.

```{r}

colori <- factor(c("black", "red", "blue", "blue", "green", NA, "blue", "red", "yellow"))
table(colori)

moda <- which.max(table(colori))
moda
```

Notate che il $2$ non è la frequenza (che sarebbe $3$) bensì la posizione della moda nel vettore dei livelli.

## Matrici

Possiamo creare una matrice con entrate tutte dello stesso tipo (spesso *numeric*) cambiando la forma di un vettore, con il comando `matrix()`.

```{r}
mat <- matrix(c(1, 2, 3, 4, 5, 6), nrow = 3, ncol = 2,)
mat
```

Diversamente da un vettore, la classe di una matrice è sempre `matrix` (anche se non contiene numeri).

```{r}
class(mat)
```

Per accedere alla componente di riga $i$ e colonna $j$ (ricordare che si conta da $1$) si scrive `mat[i,j]`. Per chiedere l'intero vettore della riga $i$ invece `mat[i,]`, mentre per la colonna $j$ si scrive `mat[,j]`.

```{r}
# prima riga
mat[1, ]       
# tutte le colonne tranne la prima
 mat[, -1]  
#  prima e terza riga, seconda colonna
mat[c(1,3), 2]      
```

Operazioni di base su matrici sono già disponibili senza pacchetti aggiuntivi.

```{r}
 
# matrice trasposta
t(mat)

# prodotto di matrici (righe per colonne)

mat %*% t(mat)

# attenzione a non confondere usando solo * (prodotto componente per componente)

mat * mat

```

I comandi `cbind()` e `rbind()` uniscono vettori (o matrici) tra loro, per colonne o per righe rispettivamente. Attenzione! le matrici devono comunque avere entrate delle stesse classi (se non lo sono vengono convertite).

```{r}

matEstesa <- cbind(mat, c(1,3,10))

matEstesa

matEstesaZeri <- rbind(c(0,0,0), matEstesa)

matEstesaZeri

```

## Data frame

Quando una tabella ha colonne di classi diverse, si usa un *data frame*. Questa struttura è estremamente utile per rappresentare dati (una osservazione per ciascuna riga) di cui si osservano caratteristiche multiple (una caratteristica per ciascuna colonna). La funzione per definire un data frame partendo da vettori (tutti con la stessa lunghezza) è `data.frame`.

```{r}


altezza <- c(148, 170, NA, 179, 190, 168, 181, 158, 166)

# creiamo un data frame con i dati di altezza e colore 

osservazioni <- data.frame(altezza, colori)

class(osservazioni)
```

Con il comando `head()` possiamo visualizzare le prime righe. Altri comandi permettono di ottenerne le dimensioni

```{r}

head(osservazioni)
nrow(osservazioni)
ncol(osservazioni)  
dim(osservazioni)   

```

I nomi delle colonne possono essere visualizzati e pure cambiati con la funzione `colnames()`

```{r}
colnames(osservazioni)
colnames(osservazioni) <- c("height", "colors")
head(osservazioni)
```

Si può accedere alle singole colonne con la sintassi `nomeDataFrame$nomeColonna`. Ad esempio:

```{r}
osservazioni$height

# la colonna selezionata è ora un vettore

class(osservazioni$height)


```

Se si vuole selezionare alcune colonne mantenendo la struttura di data frame, si può indicarne ad esempio il numero.

```{r}
head(osservazioni[1])

class(osservazioni[1])

```

Ci sono diverse **estensioni** della struttura dei data frames. Una sono le *data tables*, per gestire grandi quantità di dati (installare pacchetto `data.table`). Un'altra sono le *tibble*, per funzioni più intuitive e codice più pulito e interpretabile (installare la suite `tidyverse` <https://www.tidyverse.org/>).

```{r eval=FALSE, echo=TRUE}

install.packages("tidyverse")

```

## Liste

Infine, R ha liste di vettori (anche di lunghezze e classi diverse).

```{r}
lista <- list(tempo = 1:40)
lista$prezzo = rnorm(10, 1,3)

class(lista)

lista$tempo[1:4]
lista$prezzo[1:4]
```

Le liste non sono efficienti per lavorare con grandi quantità di osservazioni (usare data frames o data tables), ma è bene sapere che alcune funzioni restituiscono una lista.

# Caricare e salvare dati (comandi di base)

Le funzioni di input/output possono essere complicate dal fatto che ci sono molti formati per salvare i dati. Se si usano formati standard come *.csv* (comma separated values) o *.tsv* (tab separated values) si può usare la funzione di base `read.csv()` con la sintassi `nomeDataFrame <- read.csv("nomeFile.csv")`. L'importante è che il file si trovi nella cartella di lavoro corrente (working directory).

```{r}
# per sapere la cartella di lavoro (di default quella del progetto R su cui state lavorando)

getwd()

# per modificare la cartella di lavoro usare setwd()

?setwd

# se il file non è separato da virgola ma da altri simboli, consultare l'help

?read.csv
```

Per salvare un data frame come file *.csv* basta usare il comando `write.csv(nomeDataFrame, "nomeFile.csv")`. Vedremo esempi più avanti (anche su come caricare altri formati ad esempio Excel **.xlsx**)

# Plot

Il comando di base per le funzioni grafiche è `plot()`. Questo produce un diagramma a **nuvola di punti** (scatterplot).

```{r}

head(iris)

plot(iris$Sepal.Length, iris$Sepal.Width)

```

Il comando `hist()` produce un istogramma.

```{r}
hist(iris$Sepal.Length)
```

Il comando `boxplot()` produce un diagramma a scatola.

```{r}
boxplot(iris$Sepal.Length)
```

Questi plot tuttavia sono piuttosto **di base**, il pacchetto `ggplot2` (suite `tidyverse`) permette funzionalità più avanzate e comandi facilmente intepretabili.

Carichiamo il pacchetto (se non è installato usare `install.packages()`)

```{r}
library("ggplot2")
```

Visualizziamo i plot di prima aggiungendo colori in base alle specie (ultima colonna). Scatterplot:

```{r}
ggplot(data=iris, aes(x=Sepal.Length, y=Sepal.Width, colour=Species)) +
  geom_point() +
  xlab("Lunghezza sepali") +
  ylab("Lunghezza petali") +
  ggtitle("Dataset Iris") 

```

Istogramma:

```{r}
ggplot(data=iris, aes(x=Sepal.Length, fill=Species)) +
  geom_histogram(bins=10)+
  xlab("Lunghezza sepali") +
  ylab("frequenza assoluta") +
  ggtitle("Dataset Iris") 

```

Possiamo rappresentare anche con una **densità** continua:

```{r}
ggplot(data=iris, aes(x=Sepal.Length, fill=Species)) +
  geom_density(position="stack")+
  xlab("Lunghezza sepali") +
  ylab("frequenza assoluta") +
  ggtitle("Dataset Iris") 

```

Possiamo anche rappresentare tre istogrammi (uno per specie) uno accanto all'altro.

```{r}
ggplot(data=iris, aes(x=Sepal.Length, fill=Species)) +
  geom_histogram(bins=10, position=position_dodge())+
  xlab("Lunghezza sepali") +
  ylab("frequenza assoluta") +
  ggtitle("Dataset Iris") 

```

E pure le tre densità:

```{r}
ggplot(data=iris, aes(x=Sepal.Length, fill=Species)) +
  geom_density(alpha=0.4)+
  xlab("Lunghezza sepali") +
  ylab("frequenza assoluta") +
  ggtitle("Dataset Iris") 

```

Boxplot:

```{r}

ggplot(iris, aes(x=Sepal.Length, fill=Species))+
  geom_boxplot() +
  xlab("Lunghezza sepali") +
  ylab("") +
  ggtitle("Dataset Iris") 

```
