Il 0% ha trovato utile questo documento (0 voti)

342 visualizzazioni87 pagine

Statistic A

Caricato da

venetigre

Per noi i diritti sui contenuti sono una cosa seria. Se sospetti che questo contenuto sia tuo, rivendicalo qui.

Formati disponibili

Scarica in formato PDF, TXT o leggi online su Scribd

Il 0% ha trovato utile questo documento (0 voti)

342 visualizzazioni87 pagine

Statistic A

Caricato da

venetigre

Per noi i diritti sui contenuti sono una cosa seria. Se sospetti che questo contenuto sia tuo, rivendicalo qui.

Formati disponibili

Scarica in formato PDF, TXT o leggi online su Scribd

Metodi Matematici - Appunti di Statistica

Laura Poggiolini

B047 – a.a. 2017–18

Ultimo aggiornamento 30 maggio 2018

Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

ii
Indice

I Statistica descrittiva v

1 Popolazioni, individui e caratteri. Indicatori sintetici di campioni monova-

riati 1
1.1 Campione statistico, modalità e classi modali . . . . . . . . . . . . . . . . . . 2
1.2 Frequenza assoluta e frequenza relativa . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Moda e valori modali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.5 Media e varianza campionaria. Scarto quadratico medio (o deviazione standard) 3

2 Campioni bivariati: covarianza, coefficiente di correlazione e retta di regres-

sione 11
2.1 Covarianza e coefficiente di correlazione . . . . . . . . . . . . . . . . . . . . . 11
2.2 Retta di regressione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

II Statistica inferenziale 15

3 Campioni statistici 17
3.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.2 Media campionaria e varianza campionaria . . . . . . . . . . . . . . . . . . . 18
3.2.1 La disuguaglianza di Chebychev e la legge (debole) dei grandi numeri 19
3.2.2 La distribuzione gaussiana N µ, σ 2 e il teorema del limite centrale . 20
3.3 Alcune distribuzioni legate alla distribuzione gaussiana . . . . . . . . . . . . . 23
3.3.1 Distribuzione di Pearson (o χ2 ) con n gradi di libertà, χ2n . . . . . . . 23
3.3.2 Distribuzione t di Student con n gradi di libertà, t(n) . . . . . . . . . 30

4 Stimatori di massima versosimiglianza 33

4.1 Distribuzione di Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.2 Distribuzione di Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.3 Distribuzione gaussiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.4 Distribuzione uniforme su un intervallo . . . . . . . . . . . . . . . . . . . . . . 35

5 Intervalli di confidenza 37
5.1 Stima per intervalli del valore atteso di campioni gaussiani . . . . . . . . . . . 38
5.1.1 Campione gaussiano di cui è nota la varianza . . . . . . . . . . . . . . 38
5.1.2 Campione gaussiano di cui non è nota la varianza . . . . . . . . . . . . 39

iii
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

5.2 Stima per intervalli della varianza di campioni gaussiani . . . . . . . . . . . . 41

6 Test d’ipotesi 45
6.1 Principi generali di un test statistico . . . . . . . . . . . . . . . . . . . . . . . 49
6.2 Test parametrici per campioni gaussiani . . . . . . . . . . . . . . . . . . . . . 50
6.2.1 Test d’ipotesi per il valore atteso di campioni gaussiani di cui è nota la
varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
6.2.2 Campione gaussiano di cui non è nota la varianza . . . . . . . . . . . . 55
6.3 Test d’ipotesi per la varianza di campioni gaussiani . . . . . . . . . . . . . . . 58

7 Test di ipotesi per il confronto di campioni gaussiani 63

7.1 Test d’ipotesi per la differenza dei valori attesi di campioni gaussiani . . . . . 63
7.1.1 Le varianze σX 2 e σ 2 sono note . . . . . . . . . . . . . . . . . . . . . . 63
Y
7.1.2 Le varianze σX 2 e σ 2 sono ignote ma si possono ritenere uguali . . . . 64
Y
7.2 Test d’ipotesi per l’uguaglianza delle varianze di campioni gaussiani . . . . . 65
7.2.1 Distribuzione di Fisher-Snedecor a k e n gradi di libertà . . . . . . . . 65
7.3 Test d’ipotesi per l’uguaglianza delle varianze di campioni gaussiani . . . . . 67

8 Test del χ2 e test di Smirnov-Kolmogorov 69

8.1 Stimatori di massima verosimiglianza per distribuzioni con densità finita . . . 69
8.2 Test del χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
8.3 Test di Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

9 Regressione lineare 75
9.1 Inferenza sul risultato di un successivo esperimento . . . . . . . . . . . . . . . 78

iv
Parte I

Statistica descrittiva

v
1. Popolazioni, individui e caratteri. Indicatori sintetici di
campioni monovariati

La statistica descrittiva si occupa dell’analisi di dati raccolti da una popolazione, ovvero da

un insieme di individui. In sintesi, dato un insieme molto grande di dati, cosı̀ grande che non
è utile guardarlo dato per dato, si cerca di estrarne delle informazioni sintetiche e tuttavia
significative.
Gli oggetti con cui abbiamo a che fare sono dunque

• gli individui oggetto dell’indagine: ciascun individuo è un oggetto singolo dell’indagine.

• la popolazione, ovvero l’insieme degli individui oggetto dell’indagine.

• il carattere osservato o variabile, che è la quantità misurata o la qualità rilevata su

ciascun individuo della popolazione.

Esempio 1.0.1. Rilevo l’altezza di ciascun abitante del Comune di Firenze. Ogni residente
del Comune di Firenze è un individuo; la popolazione è l’insieme di tutti i residenti nel Comune
di Firenze; il carattere in esame è l’altezza misurata, per esempio, in centimetri.

Esempio 1.0.2. Rilevo il reddito annuo di ciascun nucleo familiare del Comune di Firenze.
Ogni nucleo familiare è un individuo; la popolazione è l’insieme dei nuclei familiari registrati
all’Anagrafe del Comune di Firenze; il carattere osservato è il reddito annuo familiare misurato
in Euro.

Esempio 1.0.3. Rilevo il numero dei componenti di ciascun nucleo familiare del Comune di
Firenze. Come nell’esempio precedente ogni nucleo familiare è un individuo; la popolazione
è l’insieme dei nuclei familiari registrati all’Anagrafe del Comune di Firenze. Il carattere
osservato è il numero dei componenti di ciascun nucleo familiare, cioè un numero intero
maggiore-uguale di 1.

Esempio 1.0.4. Per ogni studente presente in aula rilevo il colore degli occhi. Ogni studen-
te presente in aula è un individuo. La popolazione è l’insieme degli studenti presenti ed il
carattere osservato è il colore degli occhi.

In questi esempi abbiamo incontrato i due tipi fondamentali di carattere:

• caratteri numerici o quantitativi come l’altezza, il reddito familiare, il numero dei

componenti del nucleo familiare;

• caratteri qualitativi come il colore degli occhi.

I caratteri numerici a loro volta si possono suddividere in

1
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

• caratteri numerici discreti che possono assumere solo un insieme discreto di valori,
come il numero dei componenti dei nuclei familiari;
• caratteri numerici continui che variano con continuità ovvero con una estrema accu-
ratezza, eccessiva rispetto ai fini dell’indagine, come l’altezza delle persone o il reddito
annuo familiare.

1.1 Campione statistico, modalità e classi modali

Supponiamo di aver osservato un certo carattere su una popolazione di n individui. Abbiamo

un vettore delle osservazioni
x = (x1 , . . . , xn )
che chiamiamo campione statistico di cardinalità n.
Se il campione è relativo ad un carattere qualitativo o numerico discreto, chiamo modalità
i valori che esso assume su un campione.
Se il campione è relativo ad un carattere numerico continuo si procede nel seguente modo:
la popolazione in esame è comunque un insieme finito, quindi il carattere, per quanto continuo,
nel campione assume solo un numero finito di valori. Sia [a, b) un intervallo che contiene tutti
i valori xi , i = 1, . . . , n assunti dal carattere sugli individui della popolazione. Suddividiamo
l’intervallo [a, b) in N parti uguali (N sarà suggerito dall’esperienza). Otteniamo N intervalli

b−a b−a
Ij := a + (j − 1) ,a + j , j = 1, . . . , N.
N N
Chiamo ciascuno di questi intervalli classe di modalità, se esso contiene almeno una osser-
vazione.

1.2 Frequenza assoluta e frequenza relativa

Consideriamo un campione x = (x1 , . . . , xn ) relativo ad un carattere qualitativo o numerico

discreto. Nel campione, cioè nella popolazione in esame, il carattere osservato assume un certo
numero di valori distinti
z1 , . . . , zk , 1 ≤ k ≤ n.
Per ogni j = 1, . . . , k chiamo effettivo o frequenza assoluta della modalità zj il numero
nj := # {i ∈ {1, . . . , n} : xi = zj }
mentre chiamo frequenza relativa della modalità zj il numero
nj
pj := .
n
Se il carattere osservato è numerico continuo, si considera ciascuna classe di modalità indivi-
duata
b−a b−a
Ij := a + (j − 1) ,a + j , j = 1, . . . , N
N N
e si chiama frequenza assoluta o effettivo della classe di modalità Ij il numero
nj := # {i ∈ {1, . . . , n} : xi ∈ Ij } .
nj
Come prima definiamo frequenza relativa della classe Ij il numero pj := .
n

2
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

1.3 Moda e valori modali

Sia x = (x1 , . . . , xn ) un campione statistico e siano z1 , z2 , . . . , zk le modalità assunte (o

I1 , . . . , Ik le classi di modalità assunte) e siano p1 , . . . , pk le relative frequenze relative.
Se esiste uno ed un solo indice j ∈ {1, 2, . . . , k} tale che la modalità zj (o la classe Ij ) ha
frequenza massima, ovvero se esiste un unico j ∈ {1, 2, . . . , k} tale che pj ≥ pj ∀j = 1, . . . , k,
allora la modalità zj (o la classe Ij ) si dice moda del campione x.
Se esistono due o più indici j1 , j2 , . . . , j s tali che le modalità zj1 , zj2 , . . . , zj s (o le classi
Ij1 , Ij2 , . . . , Ij s ) hanno frequenza massima, allora queste modalità (o classi) si dicono valori
(o classi) modali.
Possiamo visualizzare con degli istogrammi, vedi Figura 1.3

1.4 Mediana

D’ora innanzi consideriamo solo caratteri numerici.

Sia dunque x = (x1 , . . . , xn ) un campione relativo ad un carattere numerico. Ordiniamo i
dati del campione in ordine crescente:

x(1) ≤ x(2) ≤ . . . ≤ x(n−1) ≤ x(n)

e distinguiamo due casi:

• n dispari: n = 2m + 1

x(1) ≤ x(2) ≤ . . . ≤ x(m) ≤ x(m+1) ≤ x(m+2) ≤ . . . ≤ x(2m) ≤ x(2m+1)

Il dato x(m+1) è maggiore-uguale di m dati e minore-uguale di altrettanti dati. Diciamo

che il dato x(m+1) è la mediana del campione.

• n pari: n = 2m

x(1) ≤ x(2) ≤ . . . ≤ x(m−1) ≤ x(m) ≤ x(m+1) ≤ x(m+2) ≤ . . . ≤ x(2m)

Il dato x(m) è maggiore-uguale di m − 1 dati e minore-uguale di m dati. Il dato x(m+1)

è maggiore-uguale di m dati e minore-uguale di m − 1 dati.
x(m) + x(m+1)
Chiamiamo mediana del campione il numero .
2

1.5 Media e varianza campionaria. Scarto quadratico medio (o deviazione stan-

dard)

Consideriamo un campione relativo ad un carattere numerico

x = (x1 , . . . , xn ) .

Chiamo media aritmetica o, più semplicemente, media il numero

n
1X
x := xi .
n
i=1

3
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Figura 1.1: Alcuni istogrammi dall’Esempio 1.5.1

Supponiamo che nel campione siano presenti k modalità z1 , z2 , . . . , zk con rispettive frequenze
assolute N1 , N2 , . . . Nk e frequenze relative p1 , p2 , . . . pk . Allora
1 1
x = (x1 + x2 + . . . xn ) = (N1 z1 + N2 z2 + . . . Nk zk ) =
n n
k
X
= p1 z1 + p2 z2 + . . . pk zk = pj zj .
4
j=1
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Chiamo varianza campionaria di x il numero non-negativo

n
1 X
sx = Var [x] := (xi − x)2 .
n−1
i=1

Osserviamo che la media è un valore centrale attorno al quale si dispongono i dati x1 , . . . , xn

mentre la varianza è un indice di dispersione: la varianza è nulla se e solo se tutti i dati del
campioni sono uguali (e dunque coincidono con la media). Una varianza bassa indica che
comunque i dati sono vicini al valore medio x mentre una varianza alta indica una maggiore
dispersione dei dati.

La radice quadrata della varianza campionaria

v
u n
1 X
(xi − x)2
u
sx = Std [x] := t
n−1
i=1

si chiama scarto quadratico medio o deviazione standard del campione x.

Anche per la varianza campionaria possiamo scrivere una formula che coinvolga solo le
modalità e le rispettive frequenze.

1
s2x = (x1 − x)2 + (x2 − x)2 + . . . (xn − x)2 =

n−1
1
N1 (z1 − x)2 + N2 (z2 − x)2 + . . . Nk (zk − x)2 =

=
n−1
n
p1 (z1 − x)2 + p2 (z2 − x)2 + . . . pk (zk − x)2 =

=
n−1
k
n X
= pj (zj − x)2 .
n−1
j=1

Esempio 1.5.1. Nella tabella che segue, tratta da [2], riportiamo alcuni dati relativi a cam-
pioni di laterizio e che useremo per fare alcuni esempi relativi alle nozioni introdotte mediante
il software R http://cran.r-project.org/. Per una introduzione si rimanda ai manuali [3]
e [1].

5
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Sample Porosità Raggio Volume dei Densità Resistenza CO2 /SBW Temperatura
Code totale medio pori su dimen- (g/cm3 ) alla tra- di cottura
(%) del poro sione dei pori zione (DTA)
(µm) 0.3–0.8 µm (MPa)

AS1 41.460 0.528 80.0 1.550 0.403 0.38 740

AS2 47.210 0.467 81.2 1.650 0.645 0.70 740
AS3 43.670 0.697 78.5 1.710 0.527 0.46 740
AS4 52.390 0.422 77.3 1.520 0.143 0.48 740
AS5 44.700 0.411 87.4 1.500 0.593 0.29 740
AS6 51.330 0.422 88.6 1.480 0.463 0.33 740
AS7 31.460 0.718 80.6 1.900 0.955 0.23 740
AS8 40.900 0.458 80.4 1.680 0.195 0.41 740
AS9 45.540 0.492 80.8 1.620 1.328 0.50 750
AS10 45.620 0.734 86.2 1.620 1.405 0.34 750
AS11 44.140 0.730 85.7 1.590 0.256 0.42 750
AS12 40.710 0.543 87.8 1.750 0.309 0.20 750
AS13 35.700 0.686 84.3 1.520 0.472 0.05 740
C1 40.290 0.306 43.5 1.760 0.520 0.43 740
C2 36.570 0.625 42.3 1.750 0.738 0.36 740
C3 42.130 0.249 63.2 1.630 0.410 0.25 740
C4 37.830 0.731 47.9 2.020 0.601 0.28 740
C5 42.180 0.407 59.4 1.580 0.376 0.34 740
C6 41.600 0.446 42.8 1.850 0.473 0.26 740
C7 32.660 0.664 64.3 1.850 0.695 0.25 740
C8 36.070 0.673 58.2 1.780 0.624 0.29 740
C9 36.040 1.397 55.6 1.730 0.582 0.38 740
C10 36.640 0.861 45.2 1.750 0.650 0.47 740
R1 42.890 0.785 10.2 1.540 0.453 1.04 850
R2 26.850 0.315 14.7 2.010 1.124 1.86 960
R3 28.550 0.158 18.6 1.920 0.937 1.96 850
R4 29.860 0.158 15.3 1.890 1.020 1.48 850
R5 45.700 0.984 12.8 1.500 0.328 – 800
R6 54.640 1.525 12.5 1.340 0.267 0.67 750
R7 27.550 2.657 14.6 1.920 0.892 0.40 730
R8 40.820 0.622 15.3 1.570 0.502 1.94 860
Inseriamo la tabella in R

> library(readr)
> table2 <- read_delim("~/Documents/didattica/2017-18_analisi_reale/alcuni_appunti/table2.
+ "\t", escape_double = FALSE, trim_ws = TRUE)
Parsed with column specification:
cols(
Code = col_character(),
Totpor = col_double(),
PRA = col_double(),
PV = col_double(),
Densi = col_double(),
TenStr = col_double(),
CO2SBW = col_character(),
FirTemp = col_integer()

6
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

)
> View(table2)

Code Totpor PRA PV Densi TenStr CO2SBW FirTemp

1 AS1 41.46 0.528 80.0 1.55 0.403 0.38 740
2 AS2 47.21 0.467 81.2 1.65 0.645 0.70 740
3 AS3 43.67 0.697 78.5 1.71 0.527 0.46 740
4 AS4 52.39 0.422 77.3 1.52 0.143 0.48 740
5 AS5 44.70 0.411 87.4 1.50 0.593 0.29 740
6 AS6 51.33 0.422 88.6 1.48 0.463 0.33 740
7 AS7 31.46 0.718 80.6 1.90 0.955 0.23 740
8 AS8 40.90 0.458 80.4 1.68 0.195 0.41 740
9 AS9 45.54 0.492 80.8 1.62 1.328 0.50 750
10 AS10 45.62 0.734 86.2 1.62 1.405 0.34 750
11 AS11 44.14 0.730 85.7 1.59 0.256 0.42 750
12 AS12 40.71 0.543 87.8 1.75 0.309 0.20 750
13 AS13 35.70 0.686 84.3 1.52 0.472 0.05 740
14 C1 40.29 0.306 43.5 1.76 0.520 0.43 740
15 C2 36.57 0.625 42.3 1.75 0.738 0.36 740
16 C3 42.13 0.249 63.2 1.63 0.410 0.25 740
17 C4 37.83 0.731 47.9 2.02 0.601 0.28 740
18 C5 42.18 0.407 59.4 1.58 0.376 0.34 740
19 C6 41.60 0.446 42.8 1.85 0.473 0.26 740
20 C7 32.66 0.664 64.3 1.85 0.695 0.25 740
21 C8 36.07 0.673 58.2 1.78 0.624 0.29 740
22 C9 36.04 1.397 55.6 1.73 0.582 0.38 740
23 C10 36.64 0.861 45.2 1.75 0.650 0.47 740
24 R1 42.89 0.785 10.2 1.54 0.453 1.04 850
25 R2 26.85 0.315 14.7 2.01 1.124 1.86 960
26 R3 28.55 0.158 18.6 1.92 0.937 1.96 850
27 R4 29.86 0.158 15.3 1.89 1.020 1.48 850
28 R5 45.70 0.984 12.8 1.50 0.328 -- 800
29 R6 54.64 1.525 12.5 1.34 0.267 0.67 750
30 R7 27.55 2.657 14.6 1.92 0.892 0.40 730
31 R8 40.82 0.622 15.3 1.57 0.502 1.94 860

Per ciascun carattere definiamo una variabile che contenga la mediana, una per la media,
una per la Varianza e una per la deviazione standard e poi stampiamo i valori (tratteremo il
carattere di nome CO2SBW con attenzione perché su un individuo non è stato rilevato)
Il commando summary indica l numero di dati mancanti, ci dà gli indicatori di centralità
ma non quelli di dispersione
> summary(table2)
Code Totpor PRA PV Densi TenStr CO2SBW FirTemp
Length:31 Min. :26.85 Min. :0.1580 Min. :10.20 Min. :1.340 Min. :0.1430 Min. :0.0500 Min. :730.0
Class :character 1st Qu.:36.05 1st Qu.:0.4220 1st Qu.:30.45 1st Qu.:1.560 1st Qu.:0.4065 1st Qu.:0.2900 1st Qu.:740.0
Mode :character Median :40.90 Median :0.6220 Median :59.40 Median :1.680 Median :0.5270 Median :0.3900 Median :740.0
Mean :40.12 Mean :0.6733 Mean :55.33 Mean :1.693 Mean :0.6092 Mean :0.5817 Mean :764.8
3rd Qu.:44.42 3rd Qu.:0.7305 3rd Qu.:80.70 3rd Qu.:1.815 3rd Qu.:0.7165 3rd Qu.:0.4950 3rd Qu.:750.0
Max. :54.64 Max. :2.6570 Max. :88.60 Max. :2.020 Max. :1.4050 Max. :1.9600 Max. :960.0
NA’s :1

7
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Richiediamo anche varianza campionaria e deviazione standard.

> medianaTotPor <- median(table2$Totpor);

> meanTotPor <- mean(table2$Totpor);
> VarTotPor <- var(table2$Totpor);
> StdTotPor <- sd(table2$Totpor)
> medianaTotPor; meanTotPor; VarTotPor; StdTotPor
[1] 40.9
[1] 40.11935
[1] 49.52185
[1] 7.037176
> medianaPRA <- median(table2$PRA);
> meanPRA <- mean(table2$PRA);
VarPRA <- var(table2$PRA);
> StdPRA <- sd(table2$PRA)
> medianaPRA; meanPRA; VarPRA; StdPRA
[1] 0.622
[1] 0.6732581
[1] 0.226613
[1] 0.4760389
> medianaPV <- median(table2$PV);
> meanPV <- mean(table2$PV);
> VarPV <- var(table2$PV);
> StdPV <- sd(table2$PV)
> medianaPV; meanPV; VarPV; StdPV
[1] 59.4
[1] 55.32903
[1] 815.0935
[1] 28.54984
> medianaDensi <- median(table2$Densi);
> meanDensi <- mean(table2$Densi);
> VarDensi <- var(table2$Densi);
> StdDensi <- sd(table2$Densi)
> medianaDensi; meanDensi; VarDensi; StdDensi
[1] 1.68
[1] 1.692903
[1] 0.02894129
[1] 0.1701214
> medianaTenStr <- median(table2$TenStr);
> meanTenStr <- mean(table2$TenStr);
> VarTenStr <- var(table2$TenStr);
> StdTenStr <- sd(table2$TenStr)
> medianaTenStr; meanTenStr; VarTenStr; StdTenStr
[1] 0.527
[1] 0.6092258
[1] 0.09882738
[1] 0.3143682

8
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

> medianaCO2SBW <- median(na.omit(table2$CO2SBW));

> meanCO2SBW <- mean(na.omit(table2$CO2SBW));
> VarCO2SBW <- var(na.omit(table2$CO2SBW));
> StdCO2SBW <- sd(na.omit(table2$CO2SBW))
> medianaCO2SBW; meanCO2SBW; VarCO2SBW; StdCO2SBW
[1] 0.39
[1] 0.5816667
[1] 0.2765868
[1] 0.5259152
> medianaFirTemp <- median(table2$FirTemp);
> meanFirTemp <- mean(table2$FirTemp);
> VarFirTemp <- var(table2$FirTemp);
> StdFirTemp <- sd(table2$FirTemp)
> medianaFirTemp; meanFirTemp; VarFirTemp; StdFirTemp
[1] 740
[1] 764.8387
[1] 2805.806
[1] 52.96986

9
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

10
2. Campioni bivariati: covarianza, coefficiente di correlazione
e retta di regressione

2.1 Covarianza e coefficiente di correlazione

Supponiamo di avere un campione bivariato cioè di rilevare due caratteri sugli individui di
una medesima popolazione.
Abbiamo dunque due vettori di dati

x = (x1 , . . . , xn ) , y = (y1 , . . . , yn ) .

xi e yi sono le rilevazioni dei due caratteri sul medesimo individuo, l’individuo cioè che
abbiamo etichettato come individuo i.
Chiamiamo covarianza di x e y il numero
n
1 X
Cov (x, y) := (xi − x)(yi − y)
n−1
i=1

dove x e y sono le medie dei campioni x e y, rispettivamente.

Nel caso in cui né x né y siano campioni costanti (ipotesi lavorativa che sarà sempre
sottintesa), definiamo coefficiente di correlazione di x e y il numero
n
X
(xi − x)(yi − y)
Cov (x, y) i=1
ρ [x, y] := =v !.
sx sy u n
u X
! n
X
t (xi − x)2 (yi − y)2
i=1 i=1

Osservazione 2.1.1. Cov (x, x) = s2x ; ρ [x, x] = 1.

Osservando che ρ [x, y] non è altro che il rapporto tra hx − (x, . . . , x), y − (y, . . . , y)i (pro-
dotto scalare) e kx−(x, . . . , x)kky−(y, . . . , y)k (prodotto delle norme) si dimostrano facilmente
le seguenti proprietà:
1. −1 ≤ ρ [x, y] ≤ 1;

2. ρ [x, y] = 1 se e solo se esiste a > 0, b ∈ R tale che yi = axi + b ∀i = 1, . . . , n. In tal

caso i campioni x e y si dicono positivamente correlati;

3. ρ [x, y] = −1 se e solo se esiste a < 0, b ∈ R tale che yi = axi + b ∀i = 1, . . . , n. In tal

caso i campioni x e y si dicono negativamente correlati.
Se ρ [x, y] = 0 i campioni x e y si dicono scorrelati.

11
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Figura 2.1: Campione bivariato pressoché lineare

2.2 Retta di regressione

Supponiamo di avere un campione bivariato

x = (x1 , . . . , xn ) , y = (y1 , . . . , yn )

dove xi e yi sono i dati relativi all’i–esimo individuo. Rappresentiamo i punti (xi , yi ) sul
piano cartesiano Oxy. Capita, molto spesso, di trovarsi a disposizioni pressoché allineate
come illustrato nella figura 2.1 Si cerca allora una retta che in qualche senso approssimi i
punti (xi , yi ).
Supponiamo che y = ax + b sia l’equazione della retta cercata. Per x = xi si ottiene il
punto sulla retta (xi , axi + b). Cerchiamo la retta (ovvero i parametri a e b) che minimizza la
somma degli errori quadratici nella direzione y
n
X
S(a, b) := (yi − (axi + b))2 .
i=1

Si ha
n
X
S(a, b) = (yi − y + y − (axi − ax + ax + b))2 =
i=1
n
X
= ((yi − y) − a (xi − x) + (y − ax − b))2 =
i=1
n
X n
X
2
= ((yi − y) + a 2
(xi − x)2 +
i=1 i=1
n
X
+ n (y − ax − b)2 − 2a (xi − x) (yi − y) =
i=1
=(n − 1) s2y + a2 s2x − 2aCov (x, y) + n (y − ax − b)2 .

L’incognita b compare solo nell’ultimo addendo, che è un quadrato. Quindi per ottenere il
minimo basterà scegliere a che minimizza la funzione f (a) := s2y + a2 s2x − 2aCov (x, y) e poi
scegliere b = y − ax. Si ha
Cov (x, y)
f 0 (a) = 2as2x − 2Cov (x, y) = 0 se e solo se a =
s2x
f 00 (a) = 2s2x > 0

12
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Il minimo dello somma degli errori quadratici S(a, b) si ottiene allora per
Cov (x, y) Cov (x, y)
a= ; b=y− x;
s2x s2x
il minimo dell’errore S vale
(Cov (x, y))2

2 2 2
(n − 1) sy − = (n − 1)sy 1 − (ρ [x, y])
s2x
e la retta ha equazione
Cov (x, y)
y=y+ (x − x) .
s2x
Osservazione 2.2.1. La retta cosı̀ determinata si chiama retta di regressione del cam-
pione y sul campione x. Osserviamo infine che il punto (x, y) appartiene alla retta.
Esempio 2.2.1. Riconsideriamo l’esempio 1.5.1. Carichiamo in R la tabella dei dati.
> library(readr)
> table2 <- read_delim("~/Documents/didattica/2017-18_analisi_reale/alcuni_appunti/table2.csv",
+ "\t", escape_double = FALSE, trim_ws = TRUE)
Parsed with column specification:
cols(
Code = col_character(),
Totpor = col_double(),
PRA = col_double(),
PV = col_double(),
Densi = col_double(),
TenStr = col_double(),
CO2SBW = col_character(),
FirTemp = col_integer()
)

Tracciamo sul piano cartesiano i dati relativi ai caratteri porosità totale (in ascissa) e
densità (in ordinata) e salviamo la figura in un file.
> library(car)
> scatterplot(Densi~Totpor, lm=TRUE, smooth=FALSE, spread=FALSE, boxplots=TRUE, span=0.5, data= table2)

Figura 2.2: Porosità totale versus Densità

Sembrano ragionevolmente allineati. Calcoliamo il loro coefficiente di correlazione

> CorTotporDensi<- cor(table2$Totpor, table2$Densi)
> CorTotporDensi
[1] -0.8187597

13
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Calcoliamo la retta di regressione del carattere Densità sul carattere Porosità Totale

> RegModel.Densi.Totpor <- lm(Densi~Totpor, data=table2)

> summary(RegModel.Densi.Totpor)

Call:
lm(formula = Densi ~ Totpor, data = table2)

Residuals:
Min 1Q Median 3Q Max
-0.260377 -0.054570 -0.001898 0.045213 0.281783

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.486995 0.104930 23.70 < 2e-16 ***
Totpor -0.019793 0.002577 -7.68 1.81e-08 ***
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Residual standard error: 0.09934 on 29 degrees of freedom

Multiple R-squared: 0.6704,Adjusted R-squared: 0.659
F-statistic: 58.98 on 1 and 29 DF, p-value: 1.814e-08

Intercept dice che l’ordinata all’origine (il coefficiente b) della retta di regressione è 2.486995
mentre il coefficiente angolare (cioè a) è −0.019793. Ridisegniamo i punti sul piano cartesiano,
aggiungendo la retta di regressione (e salviamo l’immagine in un file).

> abline(lm(Densi ~ Totpor, data=table2), col="red")

Figura 2.3: Retta di regressione lineare

14
Parte II

Statistica inferenziale

15
3. Campioni statistici

3.1 Introduzione

Scopo della statistica inferenziale è lo stabilire metodi rigorosi per ottenere – con un calcolabile
grado di certezza proprietà generali di una popolazione a partire da una raccolta di dati sulla
popolazione stessa.
Possiamo sintetizzare il modello matematico che applichiamo come segue

• Se rileviamo un carattere su una popolazione di n individui, consideriamo ciascun dato

rilevato come il valore assunto da X1 , X2 , . . . , Xn variabili aleatorie aventi tutte la
stessa distribuzione µ e che (molto spesso) si possono supporre indipendenti.

• La distribuzione µ è (parzialmente) incognita; si cercano informazioni su µ a partire dai

dati rilevati. Le informazioni ricavate sulla distribuzione µ sono di natura probabilistica.
Per esempio, non riusciremo ad ottenere informazioni del tipo il valore atteso della
distribuzione µ è 50 ma informazioni del tipo il valore atteso della distribuzione µ è
compresa tra 49.8 e 50.2 con probabilità del 90%.

Comunemente si suppone di conoscere il tipo della distribuzione µ, ovvero si suppone di

sapere se è gaussiana, esponenziale o binomiale o altro, ma di non conoscere i parametri che
la caratterizzano.

Definizione 3.1.1 (Campione statistico). Una famiglia di variabili aleatorie

X1 , . . . , Xn

si dice un campione statistico di numerosità n se le v.a. X1 , . . . , Xn sono indipendenti ed

identicamente distribuite.
Se f è la comune densità delle v.a. X1 , . . . , Xn , allora la v.a. vettoriale
X := (X1 , . . . , Xn ) ha densità congiunta

gX1 , ..., Xn (x1 , . . . , xn ) = f (x1 )f (x2 ) . . . f (xn ).

La comune distribuzione delle Xi si dice distribuzione campionaria di X1 , . . . , Xn .

Osservazione 3.1.1. Poiché le v.a. X1 , . . . , Xn seguono la stessa distribuzione, esse hanno

anche lo stesso valore atteso e la stessa varianza (se queste quantità esistono).

Definizione 3.1.2 (Statistica). Sia X1 , . . . , Xn un campione statistico. Sia f : Rn → R una

funzione misurabile secondo Borel. Allora la v.a. Y := f (X1 , . . . , Xn ) si dice una statistica
del campione X1 , . . . , Xn .

17
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

3.2 Media campionaria e varianza campionaria

Definizione 3.2.1. Sia X1 , . . . , Xn un campione statistico. Chiamiamo media campiona-

ria di X1 , . . . , Xn la statistica
n
1X
X := Xi ,
n
i=1
chiamiamo varianza campionaria di X1 , . . . , Xn la statistica
n
2 1 X 2
S := Xi − X .
n−1
i=1

Proposizione 3.2.1. Sia X1 , . . . , Xn un campione statistico di numerosità n con valore

atteso µ e varianza σ 2 finiti. Siano X e S 2 la media campionaria e la varianza campionaria.
Allora
σ2
E S 2 = σ2.

E X = µ, Var X = ,
n
Dimostrazione.
" n # n
1X 1X 1
E X =E Xi = E [Xi ] = nµ = µ
n n n
i=1 i=1
" n # " n # n
1 X 1 X 1 X 1 σ2
Var [Xi ] = 2 nσ 2 =

Var X = Var Xi = 2 Var Xi = 2 .
n n n n n
i=1 i=1 i=1

Per calcolare il valore atteso di S 2 osserviamo preliminarmente che

n n n
!
2 1 X
2
X X 2
S = Xi − 2X Xi + X
n−1
i=1 i=1 i=1
n n
! !
1 X 2 1 X 2
= Xi2 − 2XnX + nX = Xi2 − nX .
n−1 n−1
i=1 i=1

Dunque
" n # " n #
X 2 X 2
(Xi − µ + µ)2 − n X − µ + µ
2
Xi2 − nX = E

(n − 1)E S = E
i=1 i=1
n h i h
X 2 i
= E (Xi − µ + µ)2 − nE X −µ+µ
i=1
Xn h i
= E (Xi − µ)2 + µ2 + 2µ(Xi − µ)
i=1
h 2 i
+ µ2 − 2µE X − µ

−n E X −µ
n 2
X
2 2 σ
+ µ = (n − 1) σ 2
2

= σ +µ −n
n
i=1

e quindi E S 2 = σ 2 .

18
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

3.2.1 La disuguaglianza di Chebychev e la legge (debole) dei grandi numeri

Enunciamo alcuni importanti risultati asintotici che giustificano l’uso della media campionaria
X come stima del valore atteso µ del campione.

Teorema 3.2.1 (Disuguaglianza di Chebychev). Se X è una variabile aleatoria con valore

atteso µ e varianza non superiore a σ 2 , allora

σ2
P (|X − µ| ≥ t) ≤ ∀t > 0.
t2
Osservazione 3.2.1. La disuguaglianza di Chebychev può anche essere formulata nel se-
guente modo: Se X è una variabile aleatoria con valore atteso µ e varianza σ 2 finite, allora

1
P (|X − µ| > η σ) ≤ ∀η > 0.
η2

Ovvero: la probabilità che X disti dal suo valore atteso µ più di una frazione η della deviazione
standard σ è inferiore a η12 .

Esempio 3.2.1. Sia X1 , . . . , Xn un campione statistico di numerosità n. Supponiamo di

conoscere la varianza σ 2 = 4 del campione e che il valore atteso µ sia ignoto. Quanto deve
essere grande n per poter affermare che
1
P X − µ > 1 ≤ ?
10
Sappiamo che
σ2 4
P X − µ > 1 ≤ 2
= .
n1 n
4 1
è allora sufficiente richiedere ≤ cioè n ≥ 40.
n 10
Dalla disuguaglianza di Chebychev segue facilmente il seguente

Teorema 3.2.2 (Legge debole dei grandi numeri). Sia {Xi }∞ i=1 una successione di v.a. indi-
pendenti, identicamente distribuite, con valore atteso µ e varianza σ 2 finiti.
n
1X
Per ogni n ∈ N sia X n := Xi . Allora
n
i=1

lim P X n − µ > t = 0 ∀t > 0.
n→∞

La legge debole dei grandi numeri ci autorizza a usare il valore di X n come sostituto del
valore atteso µ della distribuzione e la disuguaglianza di Chebychev ci dice con precisione
quanto è probabilisticamente accettabile questa sostituzione.

Esempio 3.2.2. Ho una monetina che potrebbe essere truccata. Voglio scoprire, con un’ap-
prossimazione di ±0.05 e con un grado di certezza del 90% quanto vale la probabilità di
ottenere testa in un singolo lancio. Posso formalizzare ogni singolo lancio della monetina con
una variabile aleatoria di Bernoulli di parametro p dove p è la probabilità (incognita) di

19
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

ottenere testa in un singolo lancio. Se lancio la monetina n volte ho allora un campione sta-
tistico X1 , . . . , Xn che segue la distribuzione B(p). Sia X n la media campionaria di questo
campione. Allora
p(1 − p)
E X n = p, Var X n = .
n
Per la disuguaglianza di Chebychev
p(1 − p) 400 100
P X n − p ≥ 0.05 ≤ 2
≤ =
n(0.05) 4n n
Voglio
90
P X n − p ≤ 0.05 ≥
100
cioè
90 1
P X n − p ≥ 0.05 ≤ 1 − =
100 10
100 1
Basta allora avere ≤ cioè n ≥ 1000. Dunque: tiro la monetina 1000 volte registrando
n 10
il risultato ad ogni i-esimo lancio (xi = 1) o croce (xi = 0) vedendo questo numero come il
valore assunto da una v.a. bernoulliana Xi di parametro p.
1000
1 X
Calcolo x = xi e lo vedo come il valore assunto dalla v.a. X. La probabilità che
1000
i=1
il valore x differisca da p per meno di 0.05 è maggiore-uguale del 90%.
Più in generale
Esempio 3.2.3. Sia X1 , . . . , Xn un campione statistico di numerosità n, bernoulliano di
parametro (incognito) p ∈ [0, 1]. Dunque

E [Xi ] = p Var [Xi ] = p(1 − p)

p(1 − p)
E X =p Var X =
n
Allora, per la disuguaglianza di Chebychev
p(1 − p) 1
P X − p > t ≤ 2
≤ ∀t > 0.
nt 4n t2
1
poiché p(1 − p) ≤ ∀p ∈ [0, 1].
4

La distribuzione gaussiana N µ, σ 2 e il teorema del limite centrale

3.2.2
Ricordiamo che la distribuzione gaussiana di parametri µ ∈ R e σ 2 > 0, N µ, σ 2 , è la

distribuzione assolutamente continua associata alla densità

−(x − µ)2

1
f (x) = √ exp , x ∈ R.
σ 2π 2σ 2

Se una v.a. X segue la distribuzione N µ, σ 2 , allora

E [X] = µ, Var [X] = σ 2 .

20
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

0.4

0.3

0.2

0.1

x
-7 -5 -3 -1 1 3 5 7

Figura 3.1: Densità associate alle distribuzioni N (0, 1) (in rosso) e N (0, 4) (in blu)

Figura 3.2: N (0, 1) e N (0, 4), densità e funzione di ripartizione

Inoltre f (x) > 0 per ogni x ∈ R, quindi la funzione di ripartizione FX (x) := P (X ≤ x) è

strettamente monotona crescente. Dunque, per ogni α ∈ (0, 1) esiste uno ed un solo x = xα ∈

21
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

R tale FX (xα ) = α. xα si dice quantile di X di livello α. Inoltre, se µ = 0, la densità è una

funzione pari, e dunque FX (t) + FX (−t) = 1 per ogni t ∈ R; in particolare x1−α = −xα .
Nel caso in cui µ = 0, σ 2 = 1, la distribuzione N (0, 1) si dice distribuzione gaussiana
standard, la funzione di ripartizione associata si indica con la lettera Φ,
Z x 2
1 −t
Φ(x) := √ exp dt, x ∈ R.
−∞ 2π 2

e per ogni α ∈ (0, 1) il quantile di livello α si indica zα . Dunque

Φ(x) + Φ(−x) = 1 ∀x ∈ R, z1−α = −zα ∀α ∈ (0, 1).

Ricordiamo alcune proprietà che abbiamo già visto:

Proprietà 3.2.1. 1. Se X è una v.a. gaussiana di valore atteso µ e varianza σ 2 : PX =

2

N µ, σ e α, β sono due numeri reali, α 6= 0, allora la v.a. αX + β è gaussiana di valore
X −µ
atteso αµ + β e varianza α2 σ 2 : PαX+β = N αµ + β, α2 σ 2 . In particolare Y :=

σ
è una v.a. gaussiana standard: PY = N (0, 1).

2. Siano X1 , . . . , X 2
2
n v.a. indipendenti con Xi gaussiana di valore atteso µi e varianza σi :
PXi = N µi , σi ∀i = 1, . . . , n. Allora la v.a. Sn := X1 + X2 + . . . + Xn è gaussiana di
valore atteso pari alla somma dei valori attesi e varianza pari alla somma delle varianze:
n n
!
X X
PSn = N µi , σi2
i=1 i=1

Teorema 3.2.3 (Teorema del limite centrale). Sia {Xi }∞ i=1 una successione di v.a. indipen-
denti, identicamente distribuite, con valore atteso µ e varianza σ 2 finiti. Sia Φ(t) la legge
associata alla distribuzione gaussiana standard N (0, 1).
Per ogni n ∈ N sia X n la media campionaria di X1 , . . . , Xn e sia Z n la sua standardiz-
zazione:

Xn − µ
Z n := .
√σ
n

Allora
lim P Z n ≤ t = Φ(t) ∀t ∈ R
n→∞

ed il limite è uniforme in t ∈ R.

Osservazione 3.2.2. Una formulazione equivalente della tesi del teorema del limite centrale
è Pn
i=1 Xi − nµ
lim P √ ≤ t = Φ(t) ∀t ∈ R.
n→∞ σ n
Esempio 3.2.4. Supponiamo di avere un campione statistico di numerosità 25 e deviazione
standard 8. Qual è la probabilità che la media campionaria differisca dal valore atteso del
campione per più di 4?
Devo calcolare
P X − µ > 4

22
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

dove µ = E [Xi ] ∀i = 1, . . . , n e dunque è anche µ = E X . Applicando la disuguaglianza
di Chebychev otteniamo

Var X 64 4
P X −µ >4 ≤

2
= = = 0.16
4 25 · 16 25
Proviamo ad applicare il teorema del limite centrale. Indico con Z la standardizzazione
della media campionaria. Si ha
! !
X − µ 4 4
P X − µ > 4 = P σ > σ = P Z > 8 =
√ √ √
n n 25

5 5 −5
=P Z > =P Z> +P Z <
2 2 2
' 1 − Φ (2.5) + Φ (−2.5) = 2 (1 − Φ (2.5))
= 2 (1 − Φ (2.5)) ' 2 (1 − 0.9938) = 0.0124

Perché questa stima sembra tanto migliore di quella ottenuta con la disuguaglianza di Che-
bychev? Perché non abbiamo un’indicazione sul significato del primo dei '. In altre parole,
il teorema del limite centrale è appunto un teorema di passaggio al limite e non fornisce
una stima dell’errore che si compie sostituendo P (Zn ≤ t) con Φ(t). A tal proposito vale il
seguente
Teorema 3.2.4 (Teorema di Berry–Esseen). Sia {Xi }∞ i=1 una successione di v.a. indipen-
denti, identicamente
h i distribuite, con valore atteso µ = 0, varianza σ 2 e momento terzo
γ := E |Xi |3 finiti. Sia Φ(t) la funzione di ripartizione associata alla distribuzione gaussiana
standard N (0, 1).
0.8γ
Sia C := 3 . Allora
σ
!
Xn C
P ≤ t − Φ(t) ≤ √ ∀t ∈ R.

σ
√
n
n

Dal Teorema di Berry–Esseen, teorema 3.2.4, otteniamo dunque

C
P Z n ≤ t − Φ(t) ≤ √ ∀t ∈ R.
n

3.3 Alcune distribuzioni legate alla distribuzione gaussiana

3.3.1 Distribuzione di Pearson (o χ2 ) con n gradi di libertà, χ2n

Si tratta della distribuzione Γ(α, λ) dove α = n2 , λ = 12 . È dunque la distribuzione associata

alla densità  n
 1 1 2 x n2 −1 exp −x x > 0,

f (x) := Γ n2 2 2

0 x ≤ 0,
Z +∞
dove Γ(a) := xa−1 e−x dx, a > 0.
0

23
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

3.3.1. Abbiamo visto che ∀a > 0 si ha Γ(a + 1) = aΓ(a) e che Γ(1) = 1.

Osservazione
1 √
Inoltre Γ = π. Infatti (con la sostituzione x = y 2 )
2
Z +∞ Z +∞
√
Z
1 −1/2 −x/2 −y 2 2
Γ = x e dx = 2 e dy = e−y dy = π.
2 0 0 R

Quindi

1√ 3 · 1√ 3!! √

3 1 1 5 3 3
Γ = Γ = π, Γ = Γ = π = 2 π,
2 2 2 2 2 2 2 2·2 2
(2k − 1)!! √

2k + 1
... Γ = π per ogni intero non-negativo k.
2 2k

Proprietà 3.3.1. Se X è una v.a. con distribuzione χ2 a n gradi di libertà, PX = χ2n , allora

E [X] = n, Var [X] = 2n.

Dimostrazione. Poiché una v.a. con distribuzione Γ(α, λ) ha valore atteso α/λ e varianza
α/λ2 , in particolare per una v.a. con distribuzione di Pearson abbiamo
n n
2 2
E [X] = 1 = n, Var [X] = = 2n.
1 2

2 2

Lemma 3.3.1. Se X e Y sono due variabili aleatorie indipendenti, con distribuzioni PX =

Γ(α, λ), PY = Γ(β, λ), allora la v.a. X + Y ha distribuzione Γ(α + β, λ).

Dimostrazione. Sappiamo che la distribuzione di X + Y è a.c. con densità h(x) data dal
prodotto di convoluzione delle densità associate alle distribuzioni Γ(α, λ) e Γ(β, λ). Dunque
h(x) = 0 per x ≤ 0. Per x > 0 abbiamo invece
x
λα α−1 −λy λβ
Z
h(x) = y e (x − y)β−1 e−λ(x−y) dy
0 Γ(α) Γ(β)
Z x
λα+β
= e−λx y α−1 (x − y)β−1 dy = (sostituisco y = xt)
Γ(α)Γ(β) 0
α+β xα+β−1 Z 1
−λx λ
=e tα−1 (1 − t)β−1 dt = Cxα+β−1 e−λx
Γ(α)Γ(β) 0
Z 1
λα+β
dove C = tα−1 (1 − t)β−1 dt. Poiché h deve essere una densità di probabilità può
Γ(α)Γ(β) 0
λα+β
solo essere C = .
Γ(α + β)

Teorema 3.3.2. Se X e Y sono due variabili di Pearson indipendenti, PX = χ2n , PY = χ2k ,

allora la v.a. X + Y segue la distribuzione di Pearson a n + k gradi di libertà:

PX+Y = χ2n+k .

24
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Dimostrazione. Scegliendo α = n2 , β = k2 , λ = 1
2 nel Lemma 3.3.1, si ottiene la tesi.

Il seguente teorema dà un legame tra la distribuzione gaussiana e le distribuzioni χ2 :

Teorema 3.3.3. Se X è una v.a. gaussiana standard, PX = N (0, 1), allora X 2 segue la
distribuzione di Pearson ad un grado di libertà, PX 2 = χ21 .
1 2
Dimostrazione. Sappiamo che PX = N (0, 1) = f (x)dx con f (x) = √ e−x /2 . Dunque
2π
PX 2 = g(x)dx con
(
0 x ≤ 0,
g(x) =
√1 x−1/2 e−x/2 x > 0,
2π

cioè PX 2 = χ21 .

Teorema 3.3.4. Se X1 , . . . , Xn sono v.a. indipendenti e gaussiane, con Xi di valore atteso

n
Xi − µi 2
X
µi e varianza σi2 , ∀i = 1, . . . , n, allora la v.a. segue la distribuzione di Pearson
σi
i=1
a n gradi di libertà, χ2n .
Xi − µi
Dimostrazione. Poiché la v.a. ha distribuzione gaussiana standard, applicando i teo-
σi
remi 3.3.3 e 3.3.2 ed il principio di induzione si ottiene la tesi.

Corollario 3.3.5. Se X1 , . . . , Xn è un campione statistico gaussiano, con valore atteso µ e

n
Xi − µ 2
X
2
varianza σ , allora la v.a. segue una distribuzione χ2 con n gradi di libertà.
σ
i=1

Esempio 3.3.1. Si vuole localizzare un oggetto puntiforme, misurandone le tre coordinate

cartesiane rispetto ad un prefissato sistema di riferimento. L’errore sperimentale, misurato in
millimetri per ciascuna delle tre coordinate è una v.a. gaussiana di valore atteso 0 e deviazione
standard 2.
Supponendo che i tre errori siano v.a. indipendenti, calcolare la probabilità che la distanza
tra la posizione misurata e la posizione reale sia inferiore a 1.2 mm.
Soluzione. Indico con X1 , X2 , X3 , gli errori commessi nella misurazione delle tre coordi-
nate. Per il Teorema di Pitagora la distanza tra le due posizioni è
q
D = X12 + X22 + X32

Vogliamo calcolare P (D < 1.2) = P D2 < 1.44 = P X12 + X22 + X32 < 1.44 .

Xi Xi
Pongo Zi := = , i = 1, 2, 3, da cui Xi2 = 4Zi2 e dunque
σ 2

P (D < 1.2) = P X12 + X22 + X32 < 1.44 = P 4 Z12 + Z22 + Z32 < 1.44

= P Z12 + Z22 + Z32 < .36 .

Basterà dunque controllare (vedi ultima riga del listato a seguire) il valore della funzione di
ripartizione delle v.a. di distribuzione χ23 nel punto 0.36 che è (circa) 0.052.

25
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

> setwd("/home/laura/Documents/didattica/2017-18_analisi_reale/alcuni_appunti")
> .x <- seq(0.015, 18.015, length.out=100)
> plot(.x, dchisq(.x, df=3), xlab="x", ylab="Density",
+ main=paste("ChiSquared Distribution: Degrees of freedom=3"), type="l")
> plot(.x, pchisq(.x, df=3), xlab="x", ylab="Density",
+ main=paste("ChiSquared Distribution: Degrees of freedom=3"), type="l")
> abline(h=0.36, col="red")
> pchisq(c(0.36), df=3, lower.tail=TRUE)
[1] 0.05162424
Il seguente teorema raccoglie alcune importanti proprietà dei campioni statistici gaussiani
e delle loro media e varianza campionarie.
Teorema 3.3.6. Sia X1 , . . . , Xn un campione statistico gaussiano di numerosità n, valore
atteso µ e varianza σ 2 .
Allora, la media campionaria X e la varianza campionaria S 2 sono v.a. indipendenti.
Sia Z1 , Z2 , . . . Zn la standardizzazione del campione statistico X1 , . . . , Xn i.e.
Xi − µ
Zi := ∀i = 1, . . . , n
σ
e sia Z la media campionaria del campione normalizzato Z1 , . . . , Zn .
n
X −µ X 2
Allora Z = e la v.a. Zi − Z sono indipendenti e quest’ultima segue una distri-
σ
i=1
buzione χ2 con n − 1 gradi di libertà.
Dimostrazione. 1. n = 2. Sappiamo che PX1 +X2 = N 2µ, 2σ 2 e PX = N µ, σ 2 /2 . Inoltre

1
S 2 = (X1 − X)2 + (X2 − X)2 = (X1 − X2 )2 .
2
Dunque X e S 2 sono indipendenti se e solo se X1 + X2 e X1 − X2 sono indipendenti. Poiché
P−X2 = N −µ, σ 2 abbiamo che PX1 −X2 = N 0, 2σ 2 .
Per provare che U := X1 + X2 e V := X1 − X2 sono indipendenti ne calcoliamo la
densità congiunta e mostriamo che è uguale al prodotto delle densità
marginali. Abbiamo già
visto che PX1 +X2 = N 2µ, 2σ 2 . Inoltre, poiché P−X2 = N −µ, σ 2 abbiamo che PX1 −X2 =
N 0, 2σ 2 . Posto
ϕ : (x, y) ∈ R2 7→ (x + y, x − y) ∈ R2
abbiamo
(U, V ) = ϕ ◦ (X1 , X2 )
dunque, per ogni funzione boreliana non-negativa ψ : R2 → R abbiamo
Z Z
ψ(u, v)PU,V (dudv) = ψ(x + y, x − y)PX1 ,X2 (dxdy)
R2 R2
−(x − µ)2 −(y − µ)2
Z
1
= ψ(x + y, x − y) exp exp dxdy
R2 2πσ 2 2σ 2 2σ 2
con il cambiamento di variabile u = x + y, v = x − y
−(u − 2µ)2 −v 2
Z
1
= ψ(u, v) √ exp √ exp √ dudv
R2 2π( 2σ)2 2( 2σ)2 2( 2σ)2

26
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Figura 3.3: χ23 , χ210 e χ2100 , densità e funzione di ripartizione

27
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

ovvero la densità congiunta è il prodotto delle densità marginali

−(u − 2µ)2 −v 2

1 1
fX1 +X2 (u) = q √ exp √ , fX1 −X2 (v) = q √ exp √ .
2π( 2σ)2 2( 2σ)2 2π( 2σ)2 2( 2σ)2

Inoltre, se Z1 e Z2 sono gaussiane standard indipendenti abbiamo:

Z1 − Z2 2

2 2 1 2
(Z1 − Z) + (Z2 − Z) = (Z1 − Z2 ) = √ .
2 2
Z1 − Z2
La v.a. Z1 − Z2 ha distribuzione N (0, 2), dunque √ ha distribuzione N (0, 1). Appli-
2
cando il Teorema 3.3.3 otteniamo la tesi.
2
2. n ≥ 3. Procediamo per induzione, supponendo che X n−1 e Sn−1 siano indipendenti.
Osserviamo che
n
1X 1 n−1 1
Xn = Xi = (n − 1)X n−1 + Xn = X n−1 + Xn (3.1)
n n n n
i=1

e dunque
1
X n − X n−1 = Xn − X n−1 .
n
Abbiamo dunque
n n
1 X 2 1 X 2
Sn2 = Xi − X n = Xi − X n−1 + X n−1 − X n
n−1 n−1
i=1 i=1
n n n
!
1 X 2 X X 2
= Xi − X n−1 + 2 X n−1 − X n Xi − X n−1 + X n−1 − X n
n−1
i=1 i=1 i=1
1 2
2 2
= (n − 2)Sn−1 + Xn − X n−1 + 2 X n−1 − X n n X n − X n−1 + n X n−1 − X n
n−1
1 2
2 2 1 2
= (n − 2)Sn−1 + Xn − X n−1 − Xn − X n−1 Xn − X n−1 + Xn − X n−1
n−1 n n

1 2 n−1 2
= (n − 2)Sn−1 + Xn − X n−1 (3.2)
n−1 n
2 . Avremo dunque che S 2 e X
Per la (3.1) e l’ipotesi di induzione X n è indipendente da Sn−1 n n
sono indipendenti se e solo se X n e Xn − X n−1 sono indipendenti.
σ2

Sappiamo che PXn = N µ, , dunque
n

σ2 σ2

2 n
PX n = N µ, , PX n−1 = N µ, , PXn −X n−1 = N 0, σ ,
n n−1 n−1
n−1 1
Devo provare che U := X n−1 + Xn e V = Xn − X n−1 sono indipendenti. Osserviamo
n n
che
n−1 1
(U, V ) = ϕ ◦ X n−1 , Xn , ϕ(x, y) = x + y, y − x .
n n

28
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Sia dunque ψ : R2 → R una funzione di Borel non negativa. Abbiamo

n−1
Z Z
1
ψ(u, v)PU,V (dudv) = ψ x + y, y − x PX n−1 ,Xn dxdy
R2 R2 n n
√
−(n − 1)(x − µ)2 − (y − µ)2

n−1 n−1
Z
1
= ψ x + y, y − x exp dxdy
R2 n n 2πσ 2 2σ 2
n−1 1
con il cambiamento di variabile u = x + y, v = y − x
n n
 r !2 
n−1
√ √ 2 !  −v 2 
Z
n−1 −(u − µ)2 ( n)  n 
= ψ(u, v) exp exp   dudv
 
2 2πσ 2 2σ 2 2σ 2
R  
 

 
 
 
 −(u − µ)2  −v 2
Z
1 1  
= ψ(u, v) q exp  2  q exp  !2  dudv
 
2 n
2πσ 2 n−1
r
R2 2π σn 2 √σn n−1 

2 σ
 
n

ovvero la densità congiunta è il prodotto delle densità marginali. Questo prova l’indipendenza
di U e V e dunque la prima parte della tesi.
Per dimostrare la seconda parte della tesi, osserviamo che essa è sicuramente vera per
n − 1, grazie al Teorema 3.3.3. Procediamo per induzione e riconsideriamo ora la formula
(3.2) e supponiamo che essa non sia relativa al campione X1 , . . . , Xn ma alla sua versione
standardizzata Z1 , . . . , Zn :
n r !2
X 2 n − 1
Zi − Z n = (n − 1)Sn2 = (n − 2)Sn−1 2

+ Zn − Z n−1 .
n
i=1

n
Poiché il campione Z1 , . . . , Zn è gaussiano standard, PZn −Z n−1 = N 0, dunque la
r n−1
n−1
v.a. Zn − Z n−1 è gaussiana standard e quindi il suo quadrato segue una distribu-
n 2
zione di Pearson con un grado di libertà. D’altra parte, per induzione, n−1
P
i=1 Zi − Z n−1 =
2 (Z) segue una distribuzione di Pearson a n − 2 gradi di libertà. Per il Teorema
(n − 2)Sn−1
3.3.2 otteniamo la tesi.

Corollario 3.3.7. Sia X1 , . . . , Xn un campione statistico gaussiano di numerosità n, valore

S2
atteso µ e varianza σ 2 e sia S 2 la sua varianza campionaria. Allora la v.a. V := (n − 1) 2
σ
segue una distribuzione χ2 con n − 1 gradi di libertà.
Dimostrazione. Si ha infatti
n n n
S2 1 X 2 1 X 2 X 2
V = (n − 1) 2
= 2
Xi − X = 2
(µ + σZi ) − (µ + σZ) = Zi − Z
σ σ σ
i=1 i=1 i=1

29
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

3.3.2 Distribuzione t di Student con n gradi di libertà, t(n)

Si chiama cosı̀ la distribuzione associata alla densità

n+1
Γ −(n+1)
x2

2 2
τn (x) = n √ 1+ x ∈ R.
Γ nπ n
2
Proprietà 3.3.2. Se X è una v.a. con distribuzione t di Student a n gradi di libertà, allora
 n

se n ≥ 3,
E [X] = 0, Var [X] = n − 2
+∞ se n = 1, 2.

Osservazione 3.3.2. Il quantile di livello α ∈ (0, 1) associato alla distribuzione t(n) si indica
tn,α . Poiché la densità τn è una funzione pari, se PX = t(n), allora FX (x) + FX (−x) = 1.
Dunque per i quantili della distribuzione t(n) si ha tn,α = −tn,1−α per ogni α ∈ (0, 1).

Teorema 3.3.8. Se Z è una v.a. gaussiana standard, PZ = N (0, 1), se Y segue la distribuzio- √
Z n
ne χ2 con n gradi di libertà, PY = χ2n e se Z e Y sono indipendenti, allora la v.a. T := √
Y
segue la distribuzione t di Student a n gradi di libertà: PT = t(n).
 √
z n y > 0
Dimostrazione. Possiamo scrivere T = ϕ ◦ (Y, Z) dove ϕ : (y, z) ∈ R 7→ 2 y ∈ R.
0 y≤0

Sia dunque ψ : R → R una funzione di Borel non negativa.
Z Z √
z n
ψ(t)PT (dt) = ψ √ PY,Z (dydz)
R y>0,z∈R y
√ n 2
−y −z
Z
z n 1 1 1 2 n −1
= ψ √ √ n y 2 exp exp dydz
y>0,z∈R y 2π Γ 2 2 2
2
√ √ √
z n t y y
con il cambio di variabile t = √ , z = √ , dz = √ dt,
y n n
n Z +∞
−yt2

−y
Z
1 1 1 2 1 n
−1
= ψ(t) √ y 2 y 2 exp exp dt
2nπ Γ n

R 2 0 2 2n
2
−1 −1
t2 t2 t2

y
con il cambio di variabile u = 1+ , y = 2u 1 + , dy = 2 1 + du,
2 n n n
 
Z n Z +∞ 2
−(n+1)
1 1 1 2 n+1 t 2
= ψ(t) √ n  (2u) 2 −1 exp(−u) 1 + du dt
R 2nπ Γ 2 0 n
2
n −(n+1)
t2
Z
1 1 1 2 2 n+1
= ψ(t) √ 1+ Γ dt
2nπ Γ n

R 2 n 2
2
da cui la tesi.

30
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Figura 3.4: t(3), t(10), t(100), densità e funzione di ripartizione

Corollario 3.3.9. Se X1 , . . . , Xn è un campione statistico gaussiano di numerosità n, valore

atteso µ e varianza σ 2 , allora
√
X −µ n
T :=
S

31
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

segue la distribuzione t di Student con n − 1 gradi di libertà: PT = t(n − 1).

X −µ S2
Dimostrazione. Basta applicare il teorema 3.3.8 con Z = e Y = V = (n − 1) .
√σ σ2
n

32
4. Stimatori di massima versosimiglianza

Sia X1 , . . . , Xn un campione statistico e sia Y = ϕ (X1 , . . . , Xn ) una sua statistica. Se Y

ha lo scopo di stimare un parametro θ della distribuzione del campione, diciamo che Y è uno
stimatore del parametro θ.
Supponiamo di conoscere la distribuzione del campione a meno di un parametro θ e
supponiamo che tale distribuzione sia discreta o assolutamente continua e dunque dotata di
densità (discreta o meno). Tale densità dipenderà dal parametro θ e la indico col simbolo
g(x|θ).La distribuzione congiunta si indica col simbolo f (x1 , . . . , xn |θ) e sappiamo che

n
Y
f (x1 , . . . , xn |θ) = g(x1 |θ) · . . . · g(xn |θ) = g(xi |θ).
i=1

Interpreto f (x1 , . . . , xn |θ) come la plausibilità che la n-upla x1 , . . . , xn si realizzi nel cam-
pione empirico quando il parametro incognito prende il valore θ. Sappiamo infatti che, se f è
continua nel punto (x1 , . . . , xn , θ), allora

δ δ
P kX1 − x1 k < , . . . , kXn − xn k <
2 2
n !
Y δ δ
= P (X1 , . . . , Xn ) ∈ xi − , xi + ' f (x1 , . . . , xn |θ) δ n
2 2
i=1

Dunque: dato il campione empirico x1 , . . . , xn , cerco θb = θ(x b 1 , . . . , xn ) che massimizza

la funzione f (x1 , . . . , xn |θ). La statistica θ = θ(X1 , . . . , Xn ) si dirà stimatore di massima
b b
verosimiglianza del parametro θ.

Osservazione 4.0.1. Poiché la funzione lnQ: (0, +∞) → R è strettamente monotona cre-
scente, massimizzare f (x,P n1 , . . . , x, n| θ) = ni=1 g(xi |θ) equivale a massimizzare la funzione
ln f (x, n1 , . . . , x, n| θ) = ni=1 ln g(xi |θ) e si ha

4.1 Distribuzione di Bernoulli

Sappiamo che la distribuzione di Bernoulli dipende dal solo parametro p = PX = 1. Sia

dunque X1 , . . . , Xn un campione statistico di Bernoulli di parametro incognito p ∈ [0, 1].

33
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Realizzo n prove di Bernoulli e ottengo il campione empirico x1 , . . . , xn , xi ∈ {0, 1}.

f (x1 , . . . , xn |p) = P (X1 = x1 , . . . , Xn = xn ) = pk (1 − p)n−k ,

n
X
k = k(x1 , . . . , xn ) := xi .
i=1

Abbiamo
∂f
= kpk−1 (1 − p)n−k − (n − k)pk (1 − p)n−k−1
∂p
k
= pk−1 (1 − p)n−k−1 (k − np) R 0 ⇐⇒ k − np R 0 ⇐⇒ p Q .
n
Pn
Xi
Poiché k = ni=1 xi , lo stimatore di massima verosimiglianza per il parametro p è
P i=1
n
cioè la media campionaria X.

4.2 Distribuzione di Poisson

La distribuzione di Poisson è concentrata sugli interi nonnegativi e dipende da un solo

parametro:
λx
g(x|λ) = e−λ , x = 0, 1, . . .
x!
e dunque
n xi

−λ λ
Y
f (x1 , . . . , xn |λ) = e
xi !
i=1

n xi

−λ λ
X
ln f (x1 , . . . , xn |λ) = ln e
xi !
i=1
n
X n
X
= (−λ + xi ln(λ) − ln(xi !)) = −nλ + nx ln(λ) − ln(xi !)
i=1 i=1

Da cui
∂ x
ln f (x1 , . . . , xn |λ) = n −λ + R 0 ⇐⇒ λ Q x.
∂λ λ
Quindi anche in questo caso o stimatore di massima verosimiglianza per il parametro λ è la
media campionaria X.

4.3 Distribuzione gaussiana

In questo caso la densità dipende da due parametri, µ ∈ R e σ > 0:

n
−(xi − µ)2

Y 1
f (x1 , . . . , xn |µ, σ) = √ exp
2πσ 2 2σ 2
i=1
Pn
− i=1 (xi − µ)2

−n
−n
= (2π) 2 (σ) exp
2σ 2

34
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

cosicché
n
n 1 X
ln f (x1 , . . . , xn |µ, σ) = − ln(2πσ 2 ) − 2 (xi − µ)2
2 2σ
i=1
n
n 1 X
= − ln(2π) − n ln(σ) − 2 (xi − µ)2 .
2 2σ
i=1

Si ha quindi
n
∂ 1 X
ln f (x1 , . . . , xn |µ, σ) = 2 (xi − µ) = n (x − µ) ,
∂µ σ
i=1
n n
!
∂ −n 1 X 1 X
ln f (x1 , . . . , xn |µ, σ) = + 3 (xi − µ)2 = 3 −nσ + 2
(xi − µ)2 .
∂σ σ σ σ
i=1 i=1

Dunque le due derivate parziali si annullano contemporaneamente se e solo se

n n
2 1X n−1 1 X
µ = x, σ = (xi − x)2 = (xi − x)2 .
n n n−1
i=1 i=1

Dunque la media campionaria X è uno stimatore di massima verosimiglianza per il valore

n−1 2
atteso µ mentre S è uno stimatore di massima verosimiglianza per la varianza σ 2 .
n

4.4 Distribuzione uniforme su un intervallo

Se (a, b) è l’intervallo, allora la densità del campione è

(
1
x ∈ [a, b],
g(x|a, b) = b−a
0 altrimenti

da cui (
1
(b−a)n xi ∈ [a, b] ∀i = 1, . . . , n,
f (x1 , . . . , xn |a, b) =
0 altrimenti.
1
Devo massimizzare (b−a) n con il vincolo a ≤ xi ≤ b per ogni i = 1, . . . , n. Devo dunque
minimizzare la lunghezza dell’intervallo b − a con il vincolo a ≤ xi ≤ b per ogni i = 1, . . . , n.
È dunque
a = min {x1 , . . . , xn } , b = min {x1 , . . . , xn } .
Dunque
min {X1 , . . . , Xn } , max {X1 , . . . , Xn }
sono stimatori di massima verosimiglianza rispettivamente per l’estremo inferiore e per l’e-
stremo superiore dell’intervallo.

35
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

36
5. Intervalli di confidenza

La media campionaria e la varianza campionaria ci offrono una stima dei parametri valore
atteso e varianza del campione statistico in esame. Abbiamo però bisogno di sapere quanto ci
si possa fidare di questa stima ovvero quale sia la probabilità che il vero valore del parametro
incognito non sia troppo distante dalla stima trovata.
Diamo perciò la seguente definizione:
Definizione 5.0.1 (Intervallo di confidenza). Sia X1 , . . . , Xn un campione statistico e sia
θ un parametro (ignoto) che caratterizza la distribuzione del campione.
Siano Li = li (X1 , . . . , Xn ) e Ls = ls (X1 , . . . , Xn ) due statistiche del campione e sia
α ∈ (0, 1). Dico che l’intervallo (Li , Ls ) è un intervallo di confidenza (o di fiducia) di livello
1−α se P (θ ∈ (Li , Ls )) ≥ 1−α, ovvero che (Li , Ls ) è un intervallo di confidenza (o di fiducia)
di errore α se P (θ ∈
/ (Li , Ls )) ≤ α.
Dico che la semiretta (Li , +∞) è un intervallo di confidenza unilaterale superiore di livello
1 − α se P (θ > Li ) ≥ 1 − α
Dico che la semiretta (−∞, Ls ) è un intervallo di confidenza unilaterale inferiore di livello
1 − α se P (θ < Ls ) ≥ 1 − α
Osservazione 5.0.1. 1. La scelta dei nomi delle due statistiche non è casuale: Li sta per
limitazione inferiore mentre Ls sta per limitazione superiore.
2. Di solito si è interessati a piccoli valori di α, più precisamente a α ∈ (10−2 , 10−1 ).
3. La disuguaglianza di Chebychev ci ha fornito un intervallo di confidenza per il valore
atteso µ del campione nel caso in cui la varianza σ 2 sia nota
σ2
P X − µ ≥ t ≤ 2 ∀t > 0
t
ovvero
σ2
P X − µ < t ≥ 1 − 2 ∀t > 0
t
cioè
σ2
P X −t<µ<X +t ≥1− 2 ∀t > 0.
t
σ
Fissato α ∈ (0, 1) scelgo t = √ . La disuguaglianza di Chebychev si legge allora
α

σ σ
P X−√ <µ<X+√ ≥1−α ∀α ∈ (0, 1).
α α

σ σ
Dunque l’intervallo X − √ , X + √ è un intervallo di confidenza di livello 1 − α
α α
per il valore atteso µ del campione.

37
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

5.1 Stima per intervalli del valore atteso di campioni gaussiani

5.1.1 Campione gaussiano di cui è nota la varianza

Intervallo bilaterale
Sia X1 , . . . , Xn un campione gaussiano di valore atteso µ incognita 2
e varianza σ nota.
Sia Z una v.a. gaussiana standard e sia α ∈ (0, 1). Calcolo P |Z| ≤ z1− α2 :

P |Z| ≤ z1− α2 = P −z1− α2 ≤ Z ≤ z1− α2

= P Z ≤ z1− 2 − P Z ≤ −z1− 2 = P Z ≤ z1− 2 − P Z ≤ z 2
α α α α (5.1)
α α
= Φ z1− α2 − Φ z α2 = 1 − − = 1 − α.
2 2
σ2

X −µ
Sappiamo che PX = N µ, e che dunque ha distribuzione N (0, 1). Applichiamo
n √σ
n
X −µ
quindi la disuguaglianza (5.1) a . Si ha:
√σ
n
! !
X − µ µ−X
1−α=P ≤ z1− α2 =P −z1− α2 ≤ ≤ z1− α2
√σ √σ
n n
− σ z1− α2 σ z1− α2

=P √ ≤µ−X ≤ √
n n
σ z1− α2 σ z1− α2

=P X− √ ≤µ≤X+ √
n n
L’intervallo
σ z1− α2 σ z1− α2

X− √ ,X + √
n n
è dunque un intervallo di confidenza di livello 1 − α per il valore atteso µ del campione.
Osservazione 5.1.1 (Dimensionamento del campione). Fissato il livello di confidenza 1 − α,
supponiamo di voler controllare l’ampiezza dell’intervallo di confidenza Ls − Li . Nel caso in
2 σ z1− α
esame l’ampiezza dell’intervallo di confidenza è √ 2 . Se fissiamo una limitazione superiore
n
2 δ per l’ampiezza di tale intervallo, deve dunque essere
2 σ z1− α2
√ ≤ 2δ
n
ovvero 2
σ z1− α2

n≥ .
δ

Intervallo unilaterale superiore

Sia Z una v.a. tale che PZ = N (0, 1). Sappiamo che

P (Z ≤ t) = 1 − α se e solo se t = z1−α .

38
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Abbiamo dunque
!
X −µ σ z1−α σ z1−α
1−α=P ≤ z1−α =P X −µ≤ √ =P µ≥X− √ .
√σ n n
n

Quindi la semiretta
σ z1−α
X − √ , +∞
n
è un intervallo di confidenza unilaterale superiore di livello 1 − α.

Intervallo unilaterale inferiore

Sia Z una v.a. tale che PZ = N (0, 1). Sappiamo che

P (Z ≥ t) = 1 − α se e solo se P (Z ≤ t) = α se e solo se t = zα .

Abbiamo dunque
!
X −µ σ zα σ zα
1−α=P ≥ zα =P X −µ≥ √ =P µ≤X− √ .
√σ n n
n

Quindi la semiretta
σ zα σ z1−α
−∞, X − √ = −∞, X + √
n n
è un intervallo di confidenza unilaterale inferiore di livello 1 − α.

5.1.2 Campione gaussiano di cui non è nota la varianza

Intervallo bilaterale
Sia X1 , . . . , Xn un campione gaussiano 2
√ di valore atteso µ varianza σ , entrambe incognite.
(X − µ) n
Sappiamo che la v.a. T := segue la distribuzione t di Student con n − 1 gradi
S
di libertà:
PT = t(n − 1).
Sia tn−1,1− α2 il relativo quantile di livello 1 − α2 :
α
P T ≤ tn−1,1− α2 = 1 − .
2

Calcolo P |T | ≤ tn−1,1− α2 :

P |T | ≤ tn−1,1− α2 = P −tn−1,1− α2 ≤ T ≤ tn−1,1− α2

= P T ≤ tn−1,1− α2 − P T ≤ −tn−1,1− α2
α α
= P T ≤ tn−1,1− α2 − P T ≤ tn−1, α2 = 1 − − = 1 − α.
2 2

39
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Abbiamo dunque
X − µ √n
!

1 − α = P |T | ≤ tn−1,1− α2 =P ≤ tn−1,1− α2
S

S
= P X − µ ≤ √ tn−1,1− α2
n

−S S
= P √ tn−1,1− α2 ≤ µ − X ≤ √ tn−1,1− α2
n n

S S
= P X − √ tn−1,1− α2 ≤ µ ≤ X + √ tn−1,1− α2
n n
L’intervallo
S tn−1,1− α2 S tn−1,1− α2

X− √ ,X + √
n n
è dunque un intervallo di confidenza di livello 1 − α per il valore atteso µ del campione.

Intervallo unilaterale superiore

Sappiamo che
P (T ≤ t) = 1 − α se e solo se t = tn−1,1−α .
Abbiamo dunque
√
(X − µ) n S tn−1,1−α
1−α=P ≤ tn−1,1−α = P X − µ ≤ √
S n

S tn−1,1−α
=P µ≥X− √ .
n
Quindi la semiretta
S tn−1,1−α
X− √ , +∞
n
è un intervallo di confidenza unilaterale superiore di livello 1 − α.

Intervallo unilaterale inferiore

Sappiamo che

P (T ≥ t) = 1 − α se e solo se P (T ≤ t) = α se e solo se t = tn−1,α .

Abbiamo dunque
√
(X − µ) n S tn−1,α S tn−1,α
1−α=P ≥ tn−1,α = P X − µ ≥ √ =P µ≤X− √ .
S n n
Quindi la semiretta

S tn−1,α S tn−1,1−α
−∞, X − √ = −∞, X + √
n n
è un intervallo di confidenza unilaterale inferiore di livello 1 − α.

40
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

5.2 Stima per intervalli della varianza di campioni gaussiani

Intervallo bilaterale
Sia X1 , . . . , Xn un campione gaussiano di valore atteso µ (incognita o nota )e varianza σ 2
incognita.
S2
Sappiamo che la v.a. V := (n − 1) 2 segue la distribuzione χ2 a n − 1 gradi di libertà.
σ
Per ogni α ∈ (0, 1) indico con χ2n−1,α il quantile di livello α della v.a. V :

FV χ2n−1,α = α

∀α ∈ (0, 1).

Osservazione 5.2.1. χ2n−1,α > 0 per ogni α ∈ (0, 1).

Calcolo P χ2n−1, α < V < χ2n−1,1− α :
2 2

P χ2n−1, α < V < χ2n−1,1− α = P V < χ2n−1,1− α −
2 2 2
α α
− P V < χ2n−1, α = 1 − − = 1 − α.
2 2 2
Dunque

S2

2 2
1 − α = P χn−1, α < (n − 1) 2 < χn−1,1− α
2 σ 2
! !
1 σ2 1 (n − 1)S 2 2 (n − 1)S 2
=P 2 < < 2 =P < σ <
χn−1,1− α (n − 1)S 2 χn−1, α χ2n−1,1− α χ2n−1, α
2 2 2 2

Quindi l’intervallo !
(n − 1)S 2 (n − 1)S 2
, 2
χ2n−1,1− α χn−1, α
2 2

è un intervallo di confidenza di livello 1 − α per la varianza σ 2 del campione.

Intervallo unilaterale superiore

Sappiamo che
P (V ≤ t) = 1 − α se e solo se t = χ2n−1,1−α .
Dunque !
S2 S2

1 − α = P (n − 1) 2 < χ2n−1,1−α = P 2
σ > (n − 1) .
σ χ2n−1,1−α

Quindi la semiretta !
(n − 1)S 2
, +∞
χ2n−1,1−α

è un intervallo di confidenza di livello 1 − α per la varianza σ 2 del campione.

41
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Intervallo unilaterale inferiore

Sappiamo che

P (V ≥ t) = 1 − α se e solo se P (V ≤ t) = α se e solo se t = χ2n−1,α .

Dunque !
S2 S2

1 − α = P (n − 1) 2 > χ2n−1,α =P 2
σ ≤ (n − 1) .
σ χ2n−1,α
Quindi l’intervallo !
(n − 1)S 2
0,
χ2n−1,α

è un intervallo di confidenza di livello 1 − α per la varianza σ 2 del campione.

Esempio 5.2.1. Calcoliamo gli intervalli di confidenza per il carattere Totpor dei dati tratti
da [2], nell’ipotesi che si tratti della realizzazione di v.a. normali.

> setwd("~/Documents/didattica/2017-18_analisi_reale/alcuni_appunti/esempio_statistica")
>
> library(readr)
>
> table2 <- read_delim("~/Documents/didattica/2017-18_analisi_reale/alcuni_appunti/
table2.csv", "\t", escape_double = FALSE, trim_ws = TRUE)
Parsed with column specification:
cols(
Code = col_character(),
Totpor = col_double(),
PRA = col_double(),
PV = col_double(),
Densi = col_double(),
TenStr = col_double(),
CO2SBW = col_double(),
FirTemp = col_integer()
)
>
> ## definisco la funzione che calcola l’intervallo bilaterale con varianza nota
>
> bilat.norm = function(x,sigma,conf) { n = length(x); xbar=mean(x);
+ alpha = 1 - conf;
+ zstar = qnorm(1-alpha/2);
+ SE = sigma/sqrt(n);
+ xbar + c(-zstar*SE,zstar*SE)}
>
> # definisco la funzione che calcola l’intervallo bilaterale con varianza ignota
>
> bilat.stud = function(x,conf) { n = length(x);
+ m = n-1;
+ xbar=mean(x);
+ alpha = 1 - conf;
+ zstar = qt(1-alpha/2, m, lower.tail=TRUE);

42
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

+ SE = sd(x)/sqrt(n);
+ xbar + c(-zstar*SE,zstar*SE)
+ }
>
> # definisco la funzione che calcola l’intervallo bilaterale per la varianza
>
> bilat.chi = function(x,conf) {
+ n = length(x);
+ m = n-1;
+ alpha = 1 - conf;
+ zsup = qchisq(alpha/2, m, lower.tail=TRUE);
+ zinf = qchisq(1 - alpha/2, m, lower.tail=TRUE);
+ SE = sd(x)*sd(x)*m;
+ c(SE/zinf,SE/zsup)
+ }
>
>
> numSummary(table2[,c("Totpor", "PRA", "PV", "Densi", "TenStr", "CO2SBW", "FirTemp")],
+ statistics=c("mean", "sd", "quantiles"), quantiles=c(0,.25,.5,.75,1))
mean sd 0% 25% 50% 75% 100% n NA
Totpor 40.1193548 7.0371760 26.850 36.0550 40.900 44.4200 54.640 31 0
PRA 0.6732581 0.4760389 0.158 0.4220 0.622 0.7305 2.657 31 0
PV 55.3290323 28.5498417 10.200 30.4500 59.400 80.7000 88.600 31 0
Densi 1.6929032 0.1701214 1.340 1.5600 1.680 1.8150 2.020 31 0
TenStr 0.6092258 0.3143682 0.143 0.4065 0.527 0.7165 1.405 31 0
CO2SBW 0.5816667 0.5259152 0.050 0.2900 0.390 0.4950 1.960 30 1
FirTemp 764.8387097 52.9698636 730.000 740.0000 740.000 750.0000 960.000 31 0
>
> bilat.norm(table2$Totpor, 7.04, .9)
[1] 38.03957 42.19914
> bilat.norm(table2$Totpor, 7.04, .95)
[1] 37.64113 42.59758
>
> bilat.stud(table2$Totpor, .9)
[1] 37.97416 42.26455
> bilat.stud(table2$Totpor, .95)
[1] 37.53810 42.70061
>
> bilat.chi(table2$Totpor, .9)
[1] 33.94002 80.33757
> bilat.chi(table2$Totpor, .95)
[1] 31.62366 88.48047
>

43
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

44
6. Test d’ipotesi

Un tipico problema che ci si può trovare ad affrontare è il seguente:

Faccio una certa ipotesi (che indico con H0 e che chiamo ipotesi nulla). In base ai dati
che ho a disposizione devo decidere se accettare o rifiutare la verità di questa ipotesi.
Si potranno verificare quattro situazioni alternative:

1. L’ipotesi è vera e l’accetto → bene

2. L’ipotesi è vera ma in base ai dati la rifiuto → in questo caso si dice che si commette
errore di prima specie

3. L’ipotesi è falsa ma in base ai dati la accetto → in questo caso si dice che si commette
errore di seconda specie

4. L’ipotesi è falsa e la rifiuto → bene

Per chiarirsi le idee vediamo prima un esempio.

Esempio 6.0.1.( Ho una moneta. Voglio verificare se è bilanciata o meno. La lancio n volte.
1 se all’i-esimo lancio esce testa,
Pongo Xi = , i = 1, . . . , n.
0 se all’i-esimo lancio esce croce.
Ho un campione statistico bernoulliano di numerosità n e parametro p ∈ [0, 1] incognito,
dove p è la probabilità che esca testa in un singolo lancio.
L’ipotesi nulla che dobbiamo testare è

H0 ) p = 0.5.

Facciamo dunque n lanci. Otteniamo k teste ed n − k croci:

(
1 se all’i-esimo lancio esce testa,
x1 , . . . , xn dove xi =
0 se all’i-esimo lancio esce croce.

n
1X k
e dunque x = xi = .
n n
i=1
Stabilisco una distanza massima ε tra x e 0.5 entro la quale accettare l’ipotesi p = 0.5 e
nla quale rifiutarla. Ovvero: accetto H0 se |x − 0.5| < ε e la rifiuto se |x − 0.5| ≥ ε. cioè
oltre
X n
se xi − ≥ nε. Quanto vale la probabilità di commettere errore di prima specie, ovvero

2
i=1
di rifiutarla quando esse invece è vera?

45
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Commetto errore di prima specie con probabilità

n
!
X n
α := P Xi − ≥ nε .

2
i=1

n
X
Poiché le v.a. Xi sono i.i.d con PXi = B(p), la v.a. Y := Xi è una v.a. binomiale di
i=1
parametri n e p. Se l’ipotesi H0 è vera, allora p = 0.5 cosicché PY = B(n, 0.5) e
n n n
α := P Y − ≥ nε = P Y ≥ + nε + P Y ≤ − nε

2 2 2
Vediamo alcuni casi

> ## definisco la funzione che calcola

> ## la probabilit~
A di errore di prima specie
> alpha.binom = function(n,p,tolle) {
+ infe = n*(p - tolle);
+ supe = n*(p + tolle);
+ supep = supe;
+ if(supe == floor(supe)) supep = supe-1;
+ infe = round(infe, digits = 0);
+ c(floor(infe), floor(supe),
+ pbinom(infe, size=n, prob=p, lower.tail=TRUE) +
+ pbinom(supep, size=n, prob=p, lower.tail=FALSE))
+ }
> alpha.binom(50, .5, .1)
[1] 20.0000000 30.0000000 0.2026388
> alpha.binom(100, .5, .1)
[1] 40.00000000 60.00000000 0.05688793
> alpha.binom(200, .5, .1)
[1] 8.000000e+01 1.200000e+02 5.685156e-03
> alpha.binom(300, .5, .1)
[1] 1.2000e+02 1.8000e+02 6.3422e-04
> alpha.binom(400, .5, .1)
[1] 1.600000e+02 2.400000e+02 7.426568e-05
> alpha.binom(500, .5, .1)
[1] 2.000000e+02 3.000000e+02 8.940067e-06
> alpha.binom(50, .5, .05)
[1] 22.0000000 27.0000000 0.4798877
> alpha.binom(100, .5, .05)
[1] 45.0000000 55.0000000 0.3197273
> alpha.binom(200, .5, .05)
[1] 90.0000000 110.0000000 0.1581653
> alpha.binom(300, .5, .05)
[1] 135.0000000 165.0000000 0.0939037
> alpha.binom(400, .5, .05)
[1] 180.00000000 220.00000000 0.04563548

46
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

> alpha.binom(500, .5, .05)

[1] 225.00000000 275.00000000 0.02832616

Solitamente si vuole controllare (nel senso di tenere bassa, inferiore a 0.1 o a 0.05) la proba-
bilità α di commettere errore di prima specie. Tale probabilità viene detta livello di signifi-
catività del test. Fissato il livello di significatività α, la numerosità n e la soglia di tolleranza
ε andranno scelti di conseguenza come visto negli esempi precedenti.
Inoltre, fissato α, ci chiediamo quanto valga la probabilità di commettere errore di seconda
specie, ovvero di accettare H0 quand’essa invece è falsa.
Se H0 è falsa, allora la probabilità di ottenere testa non è 0.5 ma assume un valore p 6= 0.5
(ignoto) e dunque PY = B(n, p) e io accetto H0 con probabilità
n n n
β(p) := Pp Y − < nε = Pp Y < + nε − Pp Y ≤ − nε

2 2 2
Si calcola β(p) per vari valori di p. La funzione β(p) è detta curva operativa caratteristica
(OC) mentre 1 − β(p) cioè la probabilità di rifiutare H0 quand’essa in effetti è falsa e il
parametro incognito vale p, è detta potenza del test.

Esempio 6.0.2. Consideriamo la solita moneta e stavolta vogliamo vedere se è più probabile
ottenere testa che ottenere croce. Vogliamo cioè testare l’ipotesi nulla

H0 ) p ≤ 0.5

Un test di questo tipo è detto test unilaterale.

Stabilisco una tolleranza massima ε entro la quale accettare l’ipotesi p ≤ 0.5 e oltre la quale
n
X n
rifiutarla. Ovvero: accetto H0 se x < 0.5 + ε e la rifiuto se x ≥ 0.5 + ε cioè se xi ≥ + nε.
2
i=1
Quanto vale la probabilità di commettere errore di prima specie, ovvero di rifiutarla quando
essa invece è vera?
Commetto errore di prima specie con probabilità
n
α := P Y ≥ + nε .
2
Se H0 è vera, allora PY = B(n, p) per qualche p ≤ 0.5. Indico FYp la sua funzione di ripartizione
Vediamo alcuni casi

> ## definisco la funzione che calcola il primo valore

> ## che rifiuto e
> ## la probabilit~
A di errore di prima specie
> alpha.binom.uni = function(n,p,tolle) {
+ supe = n*(p + tolle);
+ supep = supe;
+ if(supe == floor(supe)) supep = supe-1;
+ c(floor(supe), pbinom(supep, size=n, prob=p, lower.tail=FALSE))
+ }
> alpha.binom.uni(50, .5, .1)
[1] 30.0000000 0.1013194

47
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

> ppp =numeric(0)

> fff =numeric(0)
> beta.p <- matrix(0, nrow = 1000, ncol = 2, byrow = FALSE)
> for (i in 1:1000) {
+ ppp[i] <- i*0.5/1000
+ fff[i] <- pbinom(c(274), size=500, prob=ppp[i], lower.tail=TRUE)
+ - pbinom(c(225), size=500, prob=ppp[i], lower.tail=TRUE)
+ beta.p[i,1] <- round(ppp[i],6)
+ beta.p[i,2] <- round(fff[i],6)
+ }
> write.csv(beta.p, "betadip.csv", row.names = FALSE)

Figura 6.1: β(p)

48
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

> alpha.binom.uni(100, .5, .1)

[1] 60.00000000 0.02844397
> alpha.binom.uni(200, .5, .1)
[1] 1.200000e+02 2.842578e-03
> alpha.binom.uni(300, .5, .1)
[1] 1.8000e+02 3.1711e-04
> alpha.binom.uni(400, .5, .1)
[1] 2.400000e+02 3.713284e-05
> alpha.binom.uni(500, .5, .1)
[1] 3.000000e+02 4.470033e-06
> alpha.binom.uni(50, .5, .05)
[1] 27.0000000 0.2399438
> alpha.binom.uni(100, .5, .05)
[1] 55.0000000 0.1356265
> alpha.binom.uni(200, .5, .05)
[1] 110.00000000 0.06868333
> alpha.binom.uni(300, .5, .05)
[1] 165.00000000 0.04695185
> alpha.binom.uni(400, .5, .05)
[1] 220.00000000 0.02011537
> alpha.binom.uni(500, .5, .05)
[1] 275.00000000 0.01416308

6.1 Principi generali di un test statistico

In generale dunque un test d’ipotesi ha la seguente struttura:

1. Si definisce l’insieme delle distribuzioni compatibili con il campione X1 , . . . , Xn .

2. Si definisce l’ipotesi da testare, detta ipotesi nulla (si indica col simbolo H0 ). Le ipotesi
si possono suddividere in due grandi famiglie:

• ipotesi parametriche: la distribuzione del campione è nota a meno di un pa-

rametro θ, scalare o vettoriale. La formula generale di un’ipotesi parametrica è
dunque
H0 : θ ∈ Θ0 ⊂ Θ
ovvero: il parametro θ appartiene ad uno specificato sottoinsieme Θ0 del dominio
ammissibile per il parametro Θ.
• ipotesi non parametriche: sono ipotesi sul tipo di distribuzione del campione
oppure ipotesi che riguardano popolazioni differenti. La formulazione generale di
una ipotesi non parametrica è del tipo

H0 : F (x) ∈ F0 ⊂ F

ovvero: la legge F del campione appartiene ad uno specificato sottoinsieme della

famiglia delle leggi ammissibili.

49
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

In entrambi i casi l’ipotesi si dice semplice se Θ0 o F0 è costituito da un solo elemento.

Si dice composta altrimenti.

3. Si definisce l’ipotesi alternativa HA che è da considerarsi valida quando si rifiuta H0 .

HA : θ ∈ Θ1 , Θ1 := Θ \ Θ0 nel caso parametrico,

HA : F (x) ∈ F1 F1 := F \ F0 nel caso non parametrico.

4. Si definisce una statistica ϕ(X1 , . . . , Xn ) con distribuzione nta quando H0 è vera.

5. Si suddivide lo spazio G delle possibili osservazioni in due insiemi disgiunti:

• A detta regione di accettazione di H0 ;

• C := G \ A detta regione di rifiuto di H0 o regione critica.

6. Si formula la regola di decisione:

• accetto H0 se ϕ(x1 , . . . , xn ) ∈ A;
• rifiuto H0 se ϕ(x1 , . . . , xn ) ∈
/ A, ovvero se ϕ(x1 , . . . , xn ) ∈ C.

Diciamo che commettiamo errore di prima specie se rigettiamo H0 quando essa in realtà è
vera e chiamiamo livello di significatività del test la probabilità che ciò accada:

α := P (ϕ(X1 , . . . , Xn ) ∈ C|H0 ) .

Il valore 1 − α è detto livello di fiducia del test.

Diciamo invece che commettiamo errore di seconda specie se accettiamo H0 quando esssa
è falsa. Indichiamo con β la probabilità che cio accada:

β := P (ϕ(X1 , . . . , Xn ) ∈ A|HA ) .

Il valore 1 − β è detto potenza del test. (Vedremo negli esempi successivi relativi a test
parametrici che se HA è un’ipotesi composta, allora β è una funzione β(θ), θ ∈ Θ1 .
Come già detto, è prioritario limitare la probabilità di commettere errore di prima specie,
cioè di limitare la probabilità di rifiutare l’ipotesi nulla quando essa è vera.

6.2 Test parametrici per campioni gaussiani

6.2.1 Test d’ipotesi per il valore atteso di campioni gaussiani di cui è nota la
varianza
Test bilaterale
Sia X1 , . . . , Xn un campione gaussiano di valore atteso µ incognito e varianza σ 2 nota.
Vogliamo testare
H0 : µ = µ0 , HA : µ 6= µ0 .
Sappiamo che PXi = N µ0 , σ 2 se e solo se E X = µ0 . Dunque accetto l’ipotesi nulla H0 se

la media campionaria si discosta da µ0 per meno di un valore soglia ε ovvero se |x − µ0 | < ε

e la rifiuto altrimenti.

50
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Il livello di significatività (cioè la probabilità di commettere un errore di prima specie) è

allora
α = P X − µ0 ≥ ε|µ = µ0 .
σ2

X − µ0
Ma se H0 è vera, PX = N µ0 , e Z := ha distribuzione gaussiana standard
n √σ
n
N (0, 1). Dunque

X − µ0
! √
ε ε n
α = P X − µ0 ≥ ε|µ = µ0 = P σ ≥ σ |µ = µ0 = P |Z| ≥
√
n
√
n
σ
√ √ √ √
ε n −ε n ε n −ε n
=P Z≥ +P Z ≤ =1−Φ +Φ
σ σ σ σ
√
ε n
=2 1−Φ
σ
√ √
ε n α ε n
Se voglio fissare a priori α, deve essere allora Φ = 1 − cioè deve essere = z1− α2
σ 2 σ
e dunque devo scegliere
σ
ε = √ z1− α2 .
n
n
1X
Presi i dati x1 , . . . , xn , sia x = xi la loro media:
n
i=1

σ
accetto H0 se |x − µ0 | < √ z1− α2 e la rifiuto altrimenti.
n
Calcoliamo la curva operativa caratteristica. Se H0 è falsa, µ 6= µ0 , commetto errore di seconda
specie con probabilità

σ
β(µ) = P X − µ0 < √ z1− α2 |E [Xi ] = µ

n

σ σ
= P µ0 − √ z1− α2 < X < µ0 + √ z1− α2 |E [Xi ] = µ
n n
(6.1)
!
µ0 − µ X −µ µ0 − µ
=P σ − z 1− α <
σ < σ + z 1− α |E [Xi ] = µ
√ 2 √ 2 √
n n n
! !
µ0 − µ µ0 − µ
=Φ + z1− α2 −Φ + z α2 .
√σ √σ
n n

Distinguiamo due casi

1. µ > µ0
µ0 − µ µ0 − µ
In questo caso < 0 dunque + z α2 < z α2 e quindi
√σ √σ
n n
!
µ0 − µ α
0<Φ + z α2 <
√σ 2
n

51
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

e la possiamo considerare una quantità trascurabile. Abbiamo dunque

!
µ0 − µ
β(µ) ∼ Φ σ + z1− α2 .
√
n

In particolare α
sup β(µ) ∼ Φ z1− α2 = 1 − .
µ>µ0 2

Supponiamo di voler fissare (oltre ad α) anche β(µ) = β,

b per un qualche µ fissato. Con la
!
µ 0 − µ
semplificazione fatta dalla (6.1) otteniamo βb ≥ Φ σ + z1− α2 . L’unica quantità
√
n
che possiamo trattare è la numerosità n. Risolvendo l’equazione rispetto a n otteniamo
µ0 − µ
zβb ≥ + z1− α2
√σ
n

e dunque
µ0 − µ
≤ zβb + z α2 ,
√σ
n

cioè 2
σ 2
n≥ zβb + z α2
µ0 − µ

2. µ < µ0
µ − µ0
In questo caso < 0 e scriviamo la (6.1) nella forma
√σ
n
! !
µ − µ0 µ − µ0
β(µ) = Φ − z α2 −Φ − z1− α2
√σ √σ
n n
! !
µ − µ0 µ − µ0
=Φ + z1− α2 −Φ + z α2 .
√σ √σ
n n

µ − µ0
Si ha + z α2 < z α2 e dunque
√σ
n
!
µ − µ0 α
0<Φ + z α2 <
√σ 2
n

e la possiamo considerare una quantità trascurabile. Abbiamo dunque Abbiamo dunque

!
µ − µ0
β(µ) ∼ Φ σ + z1− α2 .
√
n

In particolare α
sup β(µ) ∼ Φ z1− α2 = 1 − .
µ<µ0 2

52
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Supponiamo di voler fissare (oltre ad α) anche β(µ) = β. b Con la semplificazione fatta

!
µ − µ 0
possiamo considerare l’equazione βb ≥ Φ σ + z1− α2 e ritroviamo la disuguaglian-
√
n
za trovata nel caso precedente:
2
σ 2
n≥ zβb + z α2
µ0 − µ

Test unilaterale inferiore con H0 semplice

Sia X1 , . . . , Xn un campione gaussiano di valore atteso µ incognita e varianza σ 2 nota.

Vogliamo testare
H0 : µ = µ0 HA : µ > µ0 .

Accetto l’ipotesi nulla H0 se la media campionaria è inferiore a µ0 + ε cioè se x < µ0 + ε.

La probabilità di commettere un errore di prima specie è allora

P X ≥ µ0 + ε|µ = µ0 .

σ2

X − µ0
Poiché, se H − 0 è vera si ha PX = N µ0 , e Z := ha distribuzione N (0, 1), si
n √σ
n
ha
!
X − µ0 ε
P X ≥ µ0 + ε|µ = µ0 = P ≥ |µ = µ0
√σ √σ
n n
√ √ √
ε n ε n ε n
=P Z≥ =1−P Z ≤ =1−Φ .
σ σ σ

n
σ 1X
Dunque scelgo ε = √ z1−α . Presi i dati x1 , . . . , xn , sia dunque x = xi la loro media.
n n
i=1

σ
Accetto H0 se x < µ0 + √ z1−α e la rifiuto altrimenti.
n

Test unilaterale inferiore con H0 composta

Sia X1 , . . . , Xn un campione gaussiano di valore atteso µ incognita e varianza σ 2 nota.

Vogliamo testare
H0 : µ ≤ µ0 HA : µ > µ0 .

Accetto l’ipotesi nulla H0 se la media campionaria è inferiore a µ0 + ε cioè se x < µ0 + ε.

La probabilità di commettere un errore di prima specie è allora

P X ≥ µ0 + ε|µ ≤ µ0 .

53
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

σ2

X −µ
Poiché PX = N µ, e Z := ha distribuzione N (0, 1), si ha
n √σ
n
!
X −µ µ0 − µ + ε
P X ≥ µ0 + ε|E X = µ = P ≥ |E X = µ
√σ √σ
n n
√ √
(µ0 − µ + ε) n (µ0 − µ + ε) n
=P Z≥ =1−P Z ≤
σ σ
√ √
(µ0 − µ + ε) n ε n
=1−Φ ≤1−Φ .
σ σ

Se voglio limitare superiormente P X > µ0 + ε|µ ≤ µ0 , cioè se voglio

P X > µ0 + ε|E X = µ ≤ α ∀µ ≤ µ0
√ √
ε n ε n
scelgo ε in modo da avere 1 − Φ = α cioè = z1−α e dunque scelgo
σ σ
σ
ε = √ z1−α .
n
n
1X
Presi i dati x1 , . . . , xn , sia dunque x = xi la loro media.
n
i=1
σ
Accetto H0 se x < µ0 + √ z1−α e la rifiuto altrimenti.
n

Test unilaterale superiore con H0 semplice

Sia X1 , . . . , Xn un campione gaussiano di media µ incognita e varianza σ 2 nota. Vogliamo
testare
H0 : µ = µ0 Ha : µ < µ0
Accetto l’ipotesi nulla H0 se la media campionaria è superiore a µ0 − ε cioè se x > µ0 − ε. La
probabilità di commettere un errore di prima specie è allora

P X ≤ µ0 − ε|µ = µ0 .

σ2

X − µ0
Poiché, se H0 è vera, PX = N µ0 , , e Z := ha distribuzione N (0, 1), si ha
n √σ
n
! √
X − µ0 −ε −ε n
P X ≤ µ0 − ε|µ = µ0 = P ≤ |µ = µ0 =P Z≤
√σ √σ σ
n n
√ √
−ε n ε n
=Φ =1−Φ .
σ σ
√ √
ε n ε n
Dunque scelgo ε in modo da avere Φ = 1 − α cioè = z1−α cioè scelgo
σ σ
σ
ε = √ z1−α .
n

54
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

n
1X
Presi i dati x1 , . . . , xn , sia dunque x = xi la loro media.
n
i=1

σ
Accetto H0 se x > µ0 − √ z1−α e la rifiuto altrimenti.
n

Test unilaterale superiore con H0 composta

Sia X1 , . . . , Xn un campione gaussiano di media µ incognita e varianza σ 2 nota. Vogliamo
testare
H0 : µ ≥ µ0 HA : µ < µ0 .
Accetto l’ipotesi nulla H0 se la media campionaria è superiore a µ0 − ε cioè se x > µ0 − ε. La
probabilità di commettere un errore di prima specie è allora

P X ≤ µ0 − ε|E X ≤ µ0 .

σ2

X −µ
µ, σ 2

Poiché, se PXi = N si ha PX = N µ, , e Z := ha distribuzione N (0, 1),
n √σ
n
abbiamo anche
!
X −µ µ0 − µ − ε
P X ≤ µ0 − ε|E X = µ ≥ µ0 = P ≤ |E X = µ ≥ µ0 =
√σ √σ
n n
√ √ √ √
(µ0 − µ − ε) n (µ0 − µ − ε) n −ε n ε n
=P Z≤ =Φ ≤Φ =1−Φ .
σ σ σ σ

Se voglio limitare superiormente P X ≤ µ0 − ε|µ ≥ µ0 cioè se voglio

P X ≤ µ0 − ε|E X = µ ≥ µ0 ≤ α ∀µ ≥ µ0
√ √
ε n ε n
scelgo ε in modo da avere Φ = 1 − α cioè = z1−α e dunque scelgo
σ σ
σ
ε = √ z1−α .
n
n
1X
Presi i dati x1 , . . . , xn , sia dunque x = xi la loro media.
n
i=1

σ
Accetto H0 se x > µ0 − √ z1−α e la rifiuto altrimenti.
n

6.2.2 Campione gaussiano di cui non è nota la varianza

Test bilaterale
Sia X1 , . . . , Xn un campione gaussiano di media µ e varianza σ 2 entrambe ignote. Vogliamo
testare
H0 : µ = µ0 HA : µ 6= µ0 /

55
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

H0 è vera se e solo se E X = µ0 ovvero, per l’indipendenza di X e S 2 , se e solo se

√ √
√

(X − µ0 ) n 1 (x − µ0 ) n
E = E X − µ0 n E √ = 0. Dunque considero t := e
S S2 s
accetto l’ipotesi nulla H0 se |t| ≤ ε.
√
(X − µ0 ) n
Sappiamo che, se µ = µ0 , allora T := ha distribuzione t(n − 1). Il livello di
S
di significatività è allora α = P (|T | ≥ ε) e si ha

α = P (|T | ≥ ε) = P (T ≥ ε) + P (T ≤ −ε)
= 1 − FT (ε) + FT (−ε) = 2 (1 − FT (ε))
α
Se voglio fissare a priori α, deve essere allora FT (ε) = 1 − dunque devo scegliere
2
ε = tn−1,1− α2 .

Presi i dati x1 , . . . , xn , dunque accetto H0 se |t| ≤ tn−1,1− α2 e la rifiuto altrimenti, ovvero

tn−1,1− α2 s tn−1,1− α2 s
accetto H0 se µ0 − √ ≤ x ≤ µ0 + √ e la rifiuto altrimenti.
n n

Test unilaterale superiore con ipotesi nulla semplice

Sia X1 , . . . , Xn un campione gaussiano di media µ e varianza σ 2 entrambe incognite.
Vogliamo testare
H0 : µ = µ0 , H0 : µ > µ0
√
(x − µ0 ) n
Diamo la seguente regola di accettazione: accettiamo H0 se ≤ ε.
s
La probabilità di commettere un errore di prima specie è allora
√
(X − µ0 ) n
α=P > ε|µ = µ0 = P (T > ε) = 1 − FT (ε).
S

dove PT = t(n − 1). Se vogliamo stabilire il livello di significatività α dovremmo scegliere ε

in modo che
1 − FT (ε) = α
cioè ε = tn−1,1−α . √
(x − µ0 ) n
Presi i dati x1 , . . . , xn , sia dunque t0 = . Accetto H0 se t0 ≤ tn−1,1−α ovvero
s
tn−1,1−α s
accetto H0 se x ≤ µ0 + √ e la rifiuto altrimenti.
n

Test unilaterale superiore con ipotesi nulla composta

Sia X1 , . . . , Xn un campione gaussiano di media µ e varianza σ 2 entrambe incognite.
Vogliamo testare
H0 : µ ≤ µ0 , H0 : µ > µ0
√
(X − µ0 ) n
Diamo la seguente regola di accettazione: accettiamo H0 se ≤ ε.
S

56
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

La probabilità di commettere un errore di prima specie è allora

√
(X − µ0 ) n
P > ε|E X = µ ≤ µ0 .
S

Se H0 è vera, allora E X = µ ≤ µ0 e dunque
√ √
(X − µ0 ) n (X − µ) n
≤ =: T, PT = t(n − 1).
S S
Di conseguenza √ √
(X − µ0 ) n (X − µ) n
>ε ⊂ >ε
S S
Dunque, per ogni µ ≤ µ0 si ha
√
(X − µ0 ) n
P > ε|E X = µ ≤
S
√
(X − µ) n
≤P > ε|E X = µ = P (T > ε) = 1 − FT (ε).
S
Se vogliamo controllare il livello di significatività α dovremmo scegliere ε in modo che
1 − FT (ε) = α
cioè ε = tn−1,1−α . √
(x − µ0 ) n
Presi i dati x1 , . . . , xn , sia dunque t0 = . Accetto H0 se t0 ≤ tn−1,1−α ovvero
s
tn−1,1−α s
accetto H0 se x ≤ µ0 + √ e la rifiuto altrimenti.
n

Test unilaterale inferiore con ipotesi nulla semplice

Sia X1 , . . . , Xn un campione gaussiano di media µ e varianza σ 2 entrambe incognite.
Vogliamo testare
H0 : µ = µ0 , HA : µ < µ0 .
√
(x − µ0 ) n
Diamo la seguente regola di accettazione: accettiamo H0 se ≥ −ε.
s
La probabilità di commettere un errore di prima specie è allora
√
(X − µ0 ) n
α=P < −ε|µ = µ0 = P (T < −ε) = FT (−ε)
S
dove PT = t(n − 1). Se vogliamo stabilire il livello di significatività α dovremmo scegliere ε
in modo che
FT (−ε) = α
cioè ε = −tn−1,α = tn−1,1−α . √
(x − µ0 ) n
Presi i dati x1 , . . . , xn , sia dunque t0 = . Accetto H0 se t0 ≥ −tn−1,1−α e la
s
rifiuto altrimenti, ovvero accetto H0 se
tn−1,1−α s
x ≥ µ0 − √
n
e la rifiuto altrimenti.

57
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Test unilaterale inferiore con ipotesi nulla composta

Sia X1 , . . . , Xn un campione gaussiano di media µ e varianza σ 2 entrambe incognite.
Vogliamo testare l’ipotesi
H0 : µ ≥ µ0 , HA : µ < µ0 .
√
(x − µ0 ) n
Diamo la seguente regola di accettazione: accettiamo H0 se ≥ −ε.
s
La probabilità di commettere un errore di prima specie è allora
√
(X − µ0 ) n
P < −ε|E X = µ ≥ µ0 .
S

Se H0 è vera, allora E X = µ ≥ µ0 e dunque
√ √
(X − µ0 ) n (X − µ) n
≥ =: T, PT = t(n − 1).
S S
Di conseguenza √ √
(X − µ0 ) n (X − µ) n
< −ε ⊂ < −ε
S S
Dunque per ogni µ ≥ µ0 si ha
√ √
(X − µ0 ) n (X − µ) n
P < −ε|E X = µ ≤ P < −ε|E X = µ
S S
= P (T < −ε) = FT (−ε) = 1 − FT (ε).
Se vogliamo controllare il livello di significatività α dovremmo scegliere ε in modo che
1 − FT (ε) = α
cioè ε = tn−1,1−α . √
(x − µ0 ) n
Presi i dati x1 , . . . , xn , sia dunque t0 = . Accetto H0 se t0 ≥ −tn−1,1−α e la
s
rifiuto altrimenti, ovvero
tn−1,1−α s
accetto H0 se x ≥ µ0 − √ e la rifiuto altrimenti.
n

6.3 Test d’ipotesi per la varianza di campioni gaussiani

Test bilaterale
Sia X1 , . . . , Xn un campione gaussiano di media µ (nota o incognita) e varianza σ 2 incognita.
Vogliamo testare
H0 : σ 2 = σ02 HA : σ 2 6= σ02
2
S
H0 è vera se e solo se E S 2 = σ02 ovvero se e solo se E 2 = 1. Dunque accetto H0 se

σ0
s 2
1 − ε1 < 2 < 1 + ε2 , ε1 , ε2 positivi, cioè se e solo se
σ0
(n − 1)s2
(n − 1)(1 − ε1 ) < < (n − 1)(1 + ε2 ).
σ2

58
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Devo scegliere ε1 e e2 in modo da ottenere il livello di significatività α desiderato. Sappiamo

(n − 1)S 2
che se H0 è vera, allora la v.a. V := ha distribuzione χ2n−1 .
σ2

S2
2
2 2 S 2 2
α=P > 1 + ε2 |σ = σ0 + P < 1 − ε1 |σ = σ0
σ02 σ02
(n − 1)S 2 (n − 1)S 2

2 2 2 2
=P > (n − 1)(1 + ε2 )|σ = σ0 + P < (n − 1)(1 − ε1 )|σ = σ0
σ02 σ02
= P (V > (n − 1)(1 + ε2 )) + P (V < (n − 1)(1 − ε1 )) .

Una possibile scelta è allora

α
P (V > (n − 1)(1 + ε2 )) = cioè (n − 1)(1 + ε2 ) = χ2n−1,1− α
2 2
α
P (V < (n − 1)(1 − ε1 )) = cioè (n − 1)(1 − ε1 ) = χ2n−1, α .
2 2

(n − 1)s2
Dunque accetto H0 se χ2n−1, α < < χ2n−1,1− α ovvero
2 σ02 2

σ02 2 σ02 2
accetto H0 se χn−1, α < s2 < χ α e la rifiuto altrimenti.
n−1 2 n − 1 n−1,1− 2

Test unilaterale inferiore con ipotesi semplice

Sia X1 , . . . , Xn un campione gaussiano di media µ (nota o incognita) e varianza σ 2 incognita.
Vogliamo testare
H0 : σ 2 = σ02 HA : σ 2 > σ02 .
s2
Accetto l’ipotesi nulla se ≤ 1 + ε.
σ02
(n − 1)S 2
Se la varianza è σ02 , allora V := ha distribuzione χ2n−1 e la probabilità di
σ02
commettere errore di prima specie è
2
(n − 1)S 2

S 2 2 2 2
P > 1 + ε|σ = σ0 = P > (n − 1)(1 + ε)|σ = σ0 = 1−FV ((n − 1)(1 + ε)) .
σ02 σ02
Posso allora limitare superiormente con α la probabilità di commettere errore di prima specie
imponendo
1 − FV ((n − 1)(1 + ε)) = α
cioè scegliendo ε in modo che

(n − 1)(1 + ε) = χ2n−1,1−α .

(n − 1)s2
Dunque accetto l’ipotesi nulla H0 se < χ2n−1,1−α ovvero
σ02

σ02 2
acccetto H0 se s2 < χ e la rifiuto altrimenti.
n − 1 n−1,1−α

59
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Test unilaterale inferiore con ipotesi composta

Sia X1 , . . . , Xn un campione gaussiano di media µ (nota o incognita) e varianza σ 2 incognita.
Vogliamo testare
H0 : σ 2 ≤ σ02 HA : σ 2 > σ02 .
s2
Accetto l’ipotesi nulla se ≤ 1 + ε.
σ02
(n − 1)S 2
Se la varianza è σ 2 ≤ σ02 , allora V := ha distribuzione χ2n−1 e la probabilità di
σ2
commettere errore di prima specie è
2
(n − 1)S 2 σ02

S 2 2
P > 1 + ε|Var [X i ] = σ ≤ σ 0 = P > (n − 1)(1 + ε)|Var [Xi ] = σ ≤ σ 0
σ02 σ2 σ2
σ2 σ02

= P V > 02 (n − 1)(1 + ε) = 1 − FV (n − 1)(1 + ε)
σ σ2
≤ 1 − FV ((n − 1)(1 + ε))

σ2
dove abbiamo usato la monotonia di FV e il fatto che σ 2 ≤ σ02 implica ≤ 1.
σ02
Posso allora limitare superiormente con α la probabilità di commettere errore di prima
specie imponendo
1 − FV ((n − 1)(1 + ε)) = α
cioè scegliendo ε in modo che

(n − 1)(1 + ε) = χ2n−1,1−α .

(n − 1)s2
Dunque accetto l’ipotesi nulla H0 se < χ2n−1,1−α ovvero
σ02

σ02 2
accetto H0 se s2 < χ e la rifiuto altrimenti.
n − 1 n−1,1−α

Test unilaterale superiore con ipotesi semplice

Sia X1 , . . . , Xn un campione gaussiano di media µ (nota o incognita) e varianza σ 2 incognita.
Vogliamo testare
H0 : σ 2 = σ02 H0 : σ 2 < σ02 .
s2
Accetto l’ipotesi nulla se ≥ 1 − ε.
σ02
(n − 1)S 2
Se H0 è vera, allora V := ha distribuzione χ2n−1 e la probabilità di commettere
σ02
errore di prima specie è
2
S 2 2
α=P < 1 − ε|σ = σ 0 = FV ((n − 1)(1 − ε)) .
σ02

60
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Deve quindi essere

(n − 1)(1 − ε) = χ2n−1,α .
(n − 1)s2
Dunque accetto l’ipotesi nulla H0 se > χ2n−1,α ovvero
σ02

σ02 2
accetto H0 se s2 > χ e la rifiuto altrimenti.
n − 1 n−1,α

Test unilaterale superiore con ipotesi composta

Sia X1 , . . . , Xn un campione gaussiano di media µ (nota o incognita) e varianza σ 2 incognita.
Vogliamo testare
H0 : σ 2 ≥ σ02 HA : σ 2 < σ02 .
s2
Accetto l’ipotesi nulla se ≥ 1 − ε.
σ02
(n − 1)S 2
Se la varianza è σ 2 ≥ σ02 , allora V := ha distribuzione χ2n−1 e la probabilità di
σ2
commettere errore di prima specie è

S2

2 2
P < 1 − ε|Var [Xi ] = σ ≥ σ0
σ02
(n − 1)S 2 σ02

2 2
=P < 2 (n − 1)(1 − ε)|Var [Xi ] = σ ≥ σ0
σ2 σ
2
σ0
= FV (n − 1)(1 − ε) ≤ FV ((n − 1)(1 − ε)) .
σ2

Posso allora limitare superiormente con α la probabilità di commettere errore di prima specie
imponendo
FV ((n − 1)(1 − ε)) = α
cioè scegliendo ε in modo che
(n − 1)(1 − ε) = χ2n−1,α .
(n − 1)s2
Dunque accetto l’ipotesi nulla H0 se > χ2n−1,α ovvero
σ02

σ02 2
accetto H0 se s2 > χ e la rifiuto altrimenti.
n − 1 n−1,α

61
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

62
7. Test di ipotesi per il confronto di campioni gaussiani

7.1 Test d’ipotesi per la differenza dei valori attesi di campioni gaussiani

Supponiamo di avere due campioni, entrambi gaussiani e tra di loro indipendenti

2

X : X1 , . . . , Xn PXi = N µX , σX ,
2

Y : Y1 , . . . , Yk PYj = N µY , σY .
Vogliamo testare
H0 : µX − µY = d HA : µX − µY 6= d.

Osserviamo che µX − µY = d se e solo se E X − Y = d.
Distinguiamo tre diversi casi

7.1.1 2 e σ 2 sono note

Le varianze σX Y
σ2 σ2

Sappiamo che PX = N µx , nX , PY = N µY , kY . Considero la v.a. W := X − Y . Poiché
i due campioni sono indipendenti, anche X e Y sono indipendenti, abbiamo che

σX2 σY2

PW = N µX − µY , + .
n k

σX2 σY2

Dunque H0 è vera se e solo se PW = N d, + . Stabilisco quindi il seguente criterio
n k
di accettazione:
Accetto H0 se e solo se |w − d| = |x − y − d| < ε.
La probabilità di commettere errore di prima specie vale allora
 
 |W − d| ε 
α = P (|W − d| ≥ ε|µX − µY = d) = P  r ≥ r |µ X − µ Y = d

σX2 σY2 σX2 σY2

+ +
n k n k
W −d
D’altra parte, se H0 è vera, allora Z := r ha distribuzione gaussiana standard
2
σX σY2
+
n k
ε
N (0, 1), e dunque dovremo scegliere r = z1− α2 ovvero
σX2 σ2
+ Y
n k
r
σX2 σ2
ε = z1− α2 + Y.
n k

63
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Dunque
r
2
σX σ2
accetto l’ipotesi H0 se |x − y − d| < z1− α2 + Y e la rifiuto altrimenti.
n k
r
2 2 2 2
Osservazione 7.1.1. Se σX = σY = σ0 e k = n, allora ε = z1− α2 σ0 .
n

7.1.2 2 e σ 2 sono ignote ma si possono ritenere uguali

Le varianze σX Y

Consideriamo le due varianze campionarie

n k
2 1 X 1 X
SX = (Xi − X)2 , SY2 = (Yj − Y )2 .
n−1 k−1
i=1 j=1

2
(n − 1)SX
Indico con σ 2 il comune valore di σX
2 e σ 2 . Sappiamo che V :=
Y X segue la distribu-
σ2
(k − 1)SY2
zione χ2n−1 , e che VY := segue la distribuzione χ2k−1 . Inoltre, poiché i due campioni
σ2
sono indipendenti, anche VX e VY sono idipendenti. Dunque, per il Teorema 3.3.2, VX + VY
segue la distribuzione χ2n−1+k−1 = χ2n+k−2
D’altra parte
2 + (k − 1)S 2
(n − 1)SX 2 + (k − 1)S 2
Y n + k − 2 (n − 1)SX Y
VX + VY = = .
σ2 σ2 n+k−2
Se definiamo la statistica:
2 + (k − 1)S 2
(n − 1)SX
2 Y
S := .
n+k−2
abbiamo
2
(n + k − 2)S
VX + VY = .
σ2

2 1 1
Inoltre sappiamo che X − Y ha distribuzione N µX − µY , σ + , quindi
n k
X − Y − (µX − µY )
Z := r
1 1
σ +
n k
ha distribuzione gaussiana standard N (0, 1). Considero
√ √
X −Y −d n+k−2 X −Y −d n+k−2
T := r √ = r q .
1 1 VX + VY 1 1 (n − 1)S 2 + (k − 1)S 2
σ + + X Y
n k n k
2 , Y e S 2 sono indipendenti,
Poiché i due campioni sono gaussiani e indipendenti le v.a. X, SX Y
quindi X − Y e VX + VY sono indipendenti, e dunque µX − µY = d se e solo se e E [T ] = 0.
Infatti, per l’indipendenza, si ha
E X −Y −d √

1
E [T ] = r n + k − 2E √ .
1 1 VX + VY
σ +
n k

64
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Come criterio di accettazione per l’ipotesi nulla H0 scelgo pertanto |t| < ε.
Inoltre, se H0 è vera, allora per il Teorema 3.3.8 la v.a. T segue la distribuzione t(n+k−2).
La probabilità di commettere errore di prima specie è quindi α = P (|T | ≥ ε). Fissato il livello
di significatività α, devo dunque scegliere ε = tn+k−2,1− α2 .
Siano x : x1 , . . . , xn e y : y1 , . . . , yk i dati, x e y le rispettive medie, s2x e s2y le rispettive
varianze:
√
|x − y − d| n+k−2
accetto H0 se r q < tn+k−2,1− α2 , e la rifiuto altrimenti.
1 1 (n − 1)s 2 + (k − 1)s2
+ X Y
n k

7.2 Test d’ipotesi per l’uguaglianza delle varianze di campioni gaussiani

Introduciamo prima una nuova distribuzione.

7.2.1 Distribuzione di Fisher-Snedecor a k e n gradi di libertà

Si può dimostrare che la funzione

k+n
 Γ
 k k

 k

 2 2 x 2 −1
x > 0,

k+n
f (x) = Γ k Γ n n
kx 2
 2 2 1+
n




0 x ≤ 0.


è una densità di probabilità. La distribuzione assolutamente continua ad essa associata si dice

distribuzione di Fisher-Snedecor a k ed n gradi di libertà, o semplicemente distribuzione di
Fisher a k ed n gradi di libertà.
Si può dimostrare che se F è una variabile aleatoria con questa distribuzione, allora
 2n2 (k+n−2)
 k(n−2)2 (n−4) n > 4,
(
n 
n−2 n > 2,
E [F ] = Var [F ] = +∞ n = 3, 4,
+∞ n = 1, 2, 

non esiste n = 1, 2.
Teorema 7.2.1. Siano U e V variabili aleatorie indipendenti con distribuzioni PU = χ2k ,
U/k
PV = χ2n . Allora la v.a. F := segue la distribuzione di Fisher-Snedecor con k ed n gradi
V /n
di libertà.
Dimostrazione. Sappiamo che PU = f (u)du, PV = g(v)dv dove
 k
1 1 2 k −1
u 2 exp −u

u > 0,



k 2 2
f (u) = Γ


 2
0 u ≤ 0,

 n
1 1 2 n −1
v 2 exp −v


n
 2 v > 0,
g(v) = Γ 2

 2
0 v ≤ 0.


65
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Possiamo scrivere F = ϕ ◦ (U, V ) dove

( un
2
v 6= 0,
ϕ : (u, v) ∈ R 7→ kv
0 v = 0.

Sia ψ : R → R una funzione di Borel non negativa. Abbiamo

Z Z
ψ(t)dt = ψ(ϕ(u, v))PU,V (dudv)
R R2
k+n
−(u + v)
Z nu 1 1 2 k −1 n −1
= ψ u 2 v 2 exp dudv
(0,+∞)2 kv k n 2 2
Γ Γ
2 2

nu kv kv
sostituiamo t = ,u= t, du = dt
kv n n

+∞ k+n k Z +∞
−v
Z
1 1 2 k 2 k −1 k+n
−1 kt
= ψ(t) t2 y 2 exp 1+ dv dt
0 k n 2 n 0 2 n
Γ Γ
2 2

v kt v n + kt 2nx 2n
sostituiamo x = 1+ = ,v= , dv = dx
2 n 2 n n + kt n + kt
Z +∞ k+n k Z +∞ k+n !
1 1 2 k 2 k −1 2n 2 k+n
−1 −x
= ψ(t) t2 x 2 e dx dt
0 k n 2 n 0 n + kt
Γ Γ
2 2

k+n
Z +∞ Γ k+n k
2 n 2 k 2 k −1
= ψ(t) t 2 dt
0 k n n + kt n
Γ Γ
2 2

da cui la tesi.

Osservazione 7.2.1. Indichiamo con fk,n,α il quantile di livello α associato alla distribuzione
di Fisher di parametri k ed n. Siano U e V sono come nel Teorema 7.2.1: U e V variabili
aleatorie indipendenti con distribuzioni PU = χ2k , PV = χ2n e sia α ∈ (0, 1). Si ha

−1 !
U/k U/k 1
α=P ≤ fk,n,α =P ≥
V /n V /n fk,n,α

V /n 1 V /n 1
=P ≥ =1−P ≤
U/k fk,n,α U/k fk,n,α

V /n 1 1
ovvero P ≤ = 1 − α cioè = fn,k,1−α .
U/k fk,n,α fk,n,α

66
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

7.3 Test d’ipotesi per l’uguaglianza delle varianze di campioni gaussiani

Supponiamo di avere due campioni, entrambi gaussiani e tra di loro indipendenti

2

X : X1 , . . . , Xk PXi = N µX , σX ,
2

Y : Y1 , . . . , Yn PYj = N µY , σY .

Vogliamo testare
2
H0 : σX = σY2 HA : σ2X 6= σY2 .
2 e S 2 sono stimatori non distorti di σ 2 e σ 2 , rispettivamente. Dunque:
Sappiamo che SX Y X Y

s2X
accettiamo H0 se 1 − ε1 < < 1 + ε2 , rifiutiamo altrimenti.
s2Y
Per scegliere ε1 ed ε2 in base al livello di significatività desiderato, consideriamo le v.a.
2
(k − 1)SX (n − 1)SY2
VX = 2 , VY = .
σX σY2

SX 2 /σ 2
X
Sappiamo che PVX = χ2k−1 , PVY = χ2n−1 . Dunque, la v.a. segue la distribuzione di
SY2 /σY2
S2
Fisher con k − 1 ed n − 1 gradi di libertà. In particolare H0 è vera se e solo se F := X segue
SY2
la distribuzione di Fisher con k − 1 ed n − 1 gradi di libertà.
Abbiamo dunque
2 2
SX 2 2 SX 2 2
α=P ≤ 1 − ε |σ
1 X = σ Y + P ≥ 1 + ε |σ
2 X = σ Y .
SY2 SY2

Scegliamo di distribuire equamente l’errore imponendo

2
α SX 2 2
=P ≤ 1 − ε1 |σX = σY = P (F ≤ 1 − ε1 )
2 SY2
2
α SX 2 2
=P ≥ 1 + ε2 |σX = σY = P (F ≥ 1 + ε2 ) = 1 − P (F ≤ 1 + ε2 ) .
2 SY2

Dovrà dunque essere 1 − ε1 = fk−1,n−1, α2 , 1 + ε2 = fk−1,n−1,1− α2 . In definitiva:

s2X
accetto H0 se fk−1,n−1, α2 < < fk−1,n−1,1− α2 . Rifiuto altrimenti.
s2Y

67
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

68
8. Test del χ2 e test di Smirnov-Kolmogorov

8.1 Stimatori di massima verosimiglianza per distribuzioni con densità finita

Supponiamo di avere un campione statistico X1 , . . . , Xn e di sapere che esso è relativo ad

una distribuzione su un insieme finito t1 , . . . , tk . Dunque conosco la distribuzione se conosco
pj := P (Xi = tj ) per ogni j = 1, . . . , k.
Dato il campione sperimentale x1 , . . . , xn , cerchiamo gli stimatori di massima verosimi-
glianza per i parametri p1 , . . . , pk . Tra i dati rilevati x1 , . . . , xn ce ne sono:
n1 che valgono t1 ,
n2 che valgono t2 ,
...,
nk che valgono tk ,
con la condizione n1 + n2 + . . . + nk = n.
La densità congiunta di (X1 , . . . , Xn ) in x1 , . . . , xn è dunque

k
Y
f (x1 , . . . , xn |p1 , . . . , pk ) = p1 n1 p2 n2 . . . pk nk = pj nj
j=1

e perciò

k
X
g(x1 , . . . , xn |p1 , . . . , pk ) := log f (x1 , . . . , xn |p1 , . . . , pk ) = nj log pj .
j=1

Usiamo i moltiplicatori di Lagrange per massimizzare g rispetto ai p1 , . . . , pk ammissibili:

 
k
X Xk
G(p1 , . . . , pk , λ) = nj log pj − λ  pj − 1 .
j=1 j=1

 
k
∂G X ∂G ni
= − pj − 1 , = −λ ∀j = 1, . . . , k.
∂λ ∂pj pj
j=1

Da cui otteniamo
nj
pj = ∀j = 1, . . . , k,
n
ovvero lo stimatore di massima verosimiglianza per la densità in tj è la frequenza relativa del
carattere tj nel campione x1 , . . . , xn .

69
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

8.2 Test del χ2

Sia Y1 , . . . , Yn un campione statistico. Supponiamo che le v.a. del campione siano discrete a
valori t1 , . . . , tk . Consideriamo le densità di probabilità

pj := P (Yi = tj ) , j = 1, . . . , k.
Pk
Siano p01 , . . . , p0k dei numeri assegnati, tali che p0j ≥ 0 ∀j = 1, . . . k e 0
j=1 pj = 1.
Vogliamo testare

H0 : pj = p0j ∀j = 1, . . . , k HA : ∃j ∈ {1, . . . , k} : pj 6= p0j .

Per ogni j = 1, . . . , k considero

Xj = # {i ∈ {1, . . . , n} : Yi = tj } j = 1, . . . , k.

Sicuramente PXj = B(n, pj ), quindi E [Xj ] = npj , Var [Xj ] = npj (1 − pj ). Inoltre (Xj − npj )2
mi dice quanto sia verosimile che P (Yi = tj ) = pj . Posso stabilire un criterio di accetta-
Xk
zione considerando una opportuna combinazione lineare aj (Xj − npj )2 con coefficienti
j=1
a1 , . . . , ak positivi. Si può dimostrare che vale il seguente
k
X (Xj − npj )2
Teorema 8.2.1 (di Pearson). Se PXj = Bin(n, pj ), allora la legge della v.a.
npj
j=1
converge, per n → ∞, alla legge associata alla distribuzione χ2k−1 .

Osservazione 8.2.1. L’approssimazione è considerata accettabile se npj ≥ 5 ∀j = 1, . . . , k.

Formuliamo allora il seguente criterio di accettazione. Siano n1 , . . . , nk le frequenze

assolute dei caratteri t1 , . . . , tk nel campione empirico x1 , . . . , xn

Pk (nj − np0j )2
accetto H0 se tn := j=1 < ε. Rifiuto altrimenti
np0j

La probabilità di commettere errore di prima specie è allora

 
k
X (Xj − np0j )2
α := P  0 ≥ ε|pj = p0j ∀j = 1, . . . , k  ' 1 − Fχ2 (ε).
j=1
npj
k−1

Scelgo dunque ε tale che Fχ2 (ε) = 1 − α, cioè ε = χ2k−1,1−α .

k−1

Osservazione 8.2.2. Non dimostriamo il Teorema 8.2.1 ma ne vediamo la sua plausibilità

nel caso k = 2.
PnConsidero Zi := 1{Y i=t1 } . Allora Z1 , . . . , Zn sono i.i.d. con P (Z1 ) = Ber(p1 ) e X1 =
i=1 Zi . Si ha inoltre

(X1 − np1 )2 (X2 − np2 )2

T = + , p1 + p2 = 1, X1 + X2 = n,
np1 np2

70
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

da cui
Pn !2
(X1 − np1 )2 (X1 − np1 )2 (X1 − np1 )2 i=1 Z i − nE [Z 1 ]
T = + = = p .
np1 n(1 − p1 ) np1 (1 − p1 ) nVar [Z1 ]
Pn
i=1 Zi − nE [Z1 ]
Per il teorema del limite centrale p converge in legge a una v.a. gaus-
nVar [Z1 ]
siana standard e sappiamo che il quadrato di una v.a. con distribuzione N (0, 1) segue la
distribuzione χ2 ad un grado di libertà.

8.3 Test di Kolmogorov-Smirnov

Sia {Xi }∞
i=1 una successione di v.a. i.i.d. con legge F0 . Pongo
(
1 Xi (ω) ≤ t,
Yi (ω, t) = 1(−∞,t] (Xi (ω)) =
1 Xi (ω) > t.

Si ha E [Yi (·, t)] = P (Xi ≤ t) = F0 (t), Var [Yi (·, t)] = F0 (t)(1 − F0 (t)) ≤ 1.
n
1X
Per ogni n ∈ N sia gn : (x1 , . . . , xn , t) ∈ Rn × R 7→ 1(−∞,t] (xi ) ∈ R.
n
i=1
Considero la v.a.
n n
1X 1X
Gn (ω, t) = gn ◦ (X1 (ω), . . . , Xn (ω), t) = 1(−∞,t] (Xi (ω)) = Yi (ω, t).
n n
i=1 i=1

Per la disuguaglianza di Chebychev, Teorema 3.2.1,

1
P (|Gn (·, t) − F0 (t)| > ε) ≤ ∀ε > 0, ∀t ∈ R.
nε2
Dunque
lim sup P (|Gn (·, t) − F0 (t)| > ε) = 0.
n→∞ t∈R

1
Osserviamo che Gn (ω, t) = # {i ∈ {1, . . . , n} : Xi (ω) ≤ t} dunque Gn (ω, ·) è una funzione
n
1 n−1
costante a tratti, monotona crescente che prende valori in 0, , . . . , , 1 (li prende tutti
n n
se e solo se i valori X1 (ω), . . . , Xn (ω) sono tutti distinti).
Consideriamo allora il seguente test d’ipotesi per un campione statistico X1 , . . . , Xn di
cui rilevo i dati x1 , . . . , xn . Sia F0 : R → [0, 1] una funzione monotona crescente, tale che
lim F0 (t) = 0, lim F0 (t) = 1. Supponiamo inoltre che F0 sia continua. Voglio testare
t→−∞ t→+∞

H0 : F0 è la legge del campione, HA : ∃t ∈ R : F0 (t) 6= P (Xi ≤ t) .

Sia dn := supt∈R |gn (x1 , . . . , xn , t)|. Accetto H0 se dn < ε, rifiuto altrimenti. Vediamo se
possiamo scegliere ε in base al livello di significatività desiderato.

Lemma 8.3.1. Se X è una v.a. con legge F , allora F (X) è uniformemente distribuita
sull’intervallo [0, 1].

71
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Dimostrazione. Dimostriamo il lemma limitatamente al caso assolutamente continuo. Sia f

la densità della distribuzione di X: PX = f (x)dx e sia ψ : R → R una funzione di Borel non
negativa. Si ha
Z Z Z Z 1
ψ(t)PF (X) dt = ψ(F (x))PX (dx) = ψ(F (x))f (x)dx = ψ(t)dt
R R R 0

dove abbiamo effettuato il cambio di variabile t = F (x).

Teorema 8.3.2. Sia X1 , . . . , Xn campione statistico con legge continua F . Sia Gn come
n
1X
prima: Gn (ω, t) = 1(−∞,t] (Xi (ω)) e sia
n
i=1

Dn (ω) := sup |Gn (ω, t) − F (t)| .

t∈R

Allora la legge di Dn non dipende da F .

Dimostrazione. Sia d ≥ 0

1
P (Dn ≥ d) = P sup #{i : Xi ≤ t} − F (t) ≥ d =

t∈R n

1
= P sup #{i : F (Xi ) ≤ F (t)} − F (t) ≥ d .
t∈R n

Infatti, se F è strettamente crescente, allora Xi ≤ t se e solo se F (xi ) ≤ F (t). Se invece F è

crescente, ma non strettamente, l’uguaglianza rimane vera a livello di probabilità perché la
probabilità che Xi cada in un intervallo in cui F è costante è comunque nulla.
D’altra parte le v.a. Ui := F (Xi ) sono i.i.d con distribuzione uniforme sull’intervallo [0, 1],
dunque

1
P (Dn ≥ d) = P sup #{i : Ui ≤ F (t)} − F (t) ≥ d =

t∈R n
!
1
=P sup #{i : Ui ≤ y} − y ≥ d
y∈(0,1) n

dato che, essendo continua, F assume tutti i valori compresi tra il suo estremo inferiore ed il
suo estremo superiore.

Si può dimostrare che vale il seguente limite


X∞
(−1)j−1 exp −2j 2 t2

√ 1−2 t > 0,



lim P Dn n ≤ t = j=1
n→∞ 
0 t ≤ 0.


Riconsideriamo dunque la probabilità di commettere errore di prima specie.

∞
√ √ X
(−1)j−1 exp −2j 2 ε2 n ≥ 2 exp −2ε2 n .

α = P (Dn ≥ ε) = P Dn n ≥ ε n ∼ 2
j=1
r
1 2
−2ε2 n

Scegliamo dunque ε > 0 tale che α = 2 exp cioè ε = log . Quindi
2n α

72
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

r
1 1 2
accetto H0 se supt∈R # {i : xi ≤ t} − F (t) < log . Rifiuto altrimenti.
n 2n α
Osservazione 8.3.1. Supponiamo di aver ordinato i dati x1 , . . . , xn in ordine crescente (per
semplicità supponiamo che siano tutti distinti). Abbiamo

1 n 1
sup # {i : xi ≤ t} − F (t) = max sup # {i : xi ≤ t} − F (t) ,
t∈R n t<x1 n

1 1
sup # {i : xi ≤ t} − F (t) , . . . ,
sup # {i : xi ≤ t} − F (t) ,
t∈[x1 ,x2 ) n t∈[xn−1 ,xn ) n

o
1
sup # {i : xi ≤ t} − F (t)
t≥xn n

n 1 n − 1 o
= max sup |F (t)| , sup − F (t) , . . . , sup − F (t) , sup |1 − F (t)|
t∈[x1 ,x2 ) n
t<x1
n t≥x
t∈[xn−1 ,xn ) n

n 1 1
= max F (x1 ), − F (x1 ) , − F (x2 ) . . . ,
n n

n − 1 n − 1 o

n − F (x n−1 ) ,
n − F (x n ) , |1 − F (xn )| .

73
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

74
9. Regressione lineare

Supponiamo di fare un esperimento in cui si può controllare direttamente una variabile di

input x. La risposta dell’esperimento dipende da x ma in generale risulta affetta da errore e
comunque non deterministica. Se ci sembra che ci sia una relazione di un qualche tipo, per
esempio lineare, tra il dato di unput e la risposta dell’esperimento, anche questa relazione
sarà affetta da errore: in generale non riusciamo ad osservare y = ax + b ma y = ax + b + ε,
dove ε è l’errore.
Per ogni dato di input xi in x1 , . . . , xn vediamo dunque la risposta dell’esperimento
come una v.a. Yi con E [Yi ] = axi + b e i parametri della retta che rappresenta la risposta
dell’esperimento in funzione di x come una retta i cui parametri sono v.a.: y = Ax + B.
La quantità (Yi − (Axi + B))2 è il quadrato della differenza tra l’osservazione ed il valore
predetto. La retta, ovvero i parametri A e B che la definiscono, si scelgono minimizzando la
somma dei quadrati degli errori, cioè

n
X
S(A, B) = (Yi − (Axi + B))2 → min
i=1

Abbiamo già affrontato questo problema nel caso descrittivo, Sezione 2.2. Si ha dunque

Pn n
i=1 (xi − x)(Yi − Y ) X
A= , B = Y − Ax, dove Sxx := (xi − x)2 .
Sxx
i=1
La retta Y = Ax + B è detta stima della regressione. Possiamo scrivere A e B in un’altra
forma, più utile a comprenderne la natura.

Pn Pn n
i=1 (xi − x)(Yi − Y ) i=1 xi Yi
1 X − nxY
A= = (xi − x)Yi ,=
Sxx Sxx Sxx
i=1
n n n (9.1)
1X x X X 1 x(xi − x)
B = Y − Ax = Yi − (xi − x)Yi = − Yi ,
n Sxx n Sxx
i=1 i=1 i=1

Poiché E [Yi ] = axi + b, supporrò che le v.a. Yi siano v.a. indipendenti, gaussiane, ed aventi
tutte la stessa varianza σ 2 :

PYi = N axi + b, σ 2 ,

Y1 , . . . , Yn indipendenti.

Grazie alle equazioni (9.1) abbiamo allora che anche A e B sono gaussiane, in quanto combi-

75
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

nazioni lineari di v.a. gaussiane indipendenti. Andiamo a calcolarne valore atteso e varianza.
n n n
" #
1 X 1 X 1 X
E [A] = E (xi − x)Yi = (xi − x)E [Yi ] = (xi − x)(axi + b)
Sxx Sxx Sxx
i=1 i=1 i=1
n n
1 X 1 X
= (xi − x)(a(xi − x) + ax + b) = a(xi − x)2 = a,
Sxx Sxx
i=1 i=1
n n
" #
1 X 1 X
Var [A] = Var (xi − x)Yi = 2 (xi − x)2 Var [Yi ]
Sxx Sxx
i=1 i=1
n
1 X 1 σ2
= 2 (xi − x)2 σ 2 = 2 Sxx σ 2 = ,
Sxx Sxx Sxx
i=1
n
1X
E [B] = E Y − Ax = E Y − xE [A] = (axi + b) − ax = b,
n
i=1
" n # n
X 1 x(xi − x) 1 x(xi − x) 2
X
Var [B] = Var − Yi = − Var [Yi ]
n Sxx n Sxx
i=1 i=1
n 2 n
x2 (xi − x)2

X 1 x(xi − x) X 1 2 x(xi − x)
= σ2 − = σ2 + −
n Sxx n2 2
Sxx n Sxx
i=1 i=1
x2 σ 2 ni=1 x2i
P
1
= σ2 + = .
n Sxx nSxx
Considero la differenza tra la risposta Yi e la predizione Axi + B: Ri := |Yi − (Axi + B)|
è detta residuo, dunque la quantità che abbiamo ottenuto minimizzando S è la somma dei
quadrati dei residui:
X n n
X
SR − = Ri2 = (Yi − (Axi + B))2 .
i=1 i=1
SR
Si può dimostrare che la v.a. 2 ha distribuzione χ2n−2 e che A, B e SR sono indipendenti.
2 σ
σ2 σ2

SR σ SR SR
Inoltre E = E = E = (n − 2) = σ 2 . Riassumendo
n−2 n − 2 σ2 n−2 σ2 n−2
abbiamo:
Teorema 9.0.1. Se le v.a. Y1 , . . . , Yn sono gaussiane indipendendenti con
PYi = N axi + b, σ 2

∀i = 1, . . . , n.
Allora le v.a. A, B, SR sono indipendenti. Hanno distribuzione
σ2 σ 2 ni=1 x2i
P
PA = N a, , PB = N b, , P SR = χ2n−2 .
Sxx nSxx σ2

SR
Inoltre A, B e sono rispettivamente stimatori non distorti di a, b e σ 2 .
n−2
Introduciamo una notazione più sintetica:
n n n n
X 2 X 2 X X
Yi2

SY Y = Yi − Y = − nY , SxY = (xi − x) Yi − Y = xi Yi − nxY .
i=1 i=1 i=1 i=1

76
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

SxY
Abbiamo allora A = , B = Y − Ax,
Sxx
n n
2 X 2
X SxY SxY SxY
SR = Yi − xi − Y + x = (Yi − Y ) − (xi − x)
Sxx Sxx Sxx
i=1 i=1
n n 2 n
X
2
X SxY 2 SxY X
= (Yi − Y ) + 2
(xi − x) − 2 (xi − x)(Yi − Y )
Sxx Sxx
i=1 i=1 i=1
S2 2
Sxx SY Y − SxY
= SY Y − xY = .
Sxx Sxx
Possiamo fare inferenza statistica sui parametri a e b della retta di regressione? Cerchiamo
un intervallo di confidenza di livello 1 − α per il parametro a. Per il Teorema 9.0.1 la v.a.
A−a SR
Z := σ ha distribuzione gaussiana standard, mentre VR := 2 ha distribuzione χ2n−2
Sxx σ
√ √
Z n−2 (A − a)Sxx n − 2
ed è indipendente da Z Dunque T := = √ ha distribuzione t di
VR SR
Student con n − 2 gradi di libertà: PT = t(n − 2). Abbiamo dunque
√
|A − a|Sxx n − 2
1−α=P √ < tn−2,1− α2
SR
√ √
SR SR
=P A− √ tn−2,1− 2 < a < A +
α √ tn−2,1− 2
α
Sxx n − 2 Sxx n − 2
Possiamo anche impostare un test d’ipotesi per il parametro a. Vogliamo testare

H0 : a = a, HA : a 6= a.
√
(A − a)Sxx n − 2
Poiché √ ha valore atteso nullo se e solo se a = a, accetto H0 se
SR √
|a(x1 , . . . , xn , y1 , . . . , yn ) − a|Sxx n − 2
p < ε, la rifiuto altrimenti. La probabilità di com-
sR (x1 , . . . , xn , y1 , . . . , yn )
mettere errore di prima specie è
√
|A − a|Sxx n − 2
PP √ ≥ ε|a = a = P (|Tn−2 | ≥ ε) .
SR
Per ottenere livello di significatività pari ad α, dobbiamo dunque prendere ε = tn−2,1− α2 .
Infine:
√
|a(x1 , . . . , xn , y1 , . . . , yn ) − a|Sxx n − 2
accetto H0 se p < tn−2,1− α2 , la rifiuto altrimenti.
sR (x1 , . . . , xn , y1 , . . . , yn )
B−b
Risultati analoghi si ottengono per il parametro b. La variabile aleatoria ZB := q Pn
σ2 i=1 x2i
nSxx
SR
ha distribuzione gaussiana standard, la v.a. 2 ha distribuzione χ2n−2 ed è indipendente da
√ pσ
ZB n − 2 (B − b) n(n − 2)Sxx
ZB , dunque TB := SR
= q P ha distribuzione t(n − 2). Dunque
n 2
σ 2 S R x
i=1 i

77
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

abbiamo l’intervallo di confidenza di livello 1 − α

 s s 
Pn 2
Pn 2
B − tn−2,1− α SR i=1 xi , B + tn−2,1− α SR i=1 xi  .
2 n(n − 2)Sxx 2 n(n − 2)Sxx

Abbiamo anche un test d’ipotesi. Vogliamo testare

H0 : b = b, HA : b 6= b.
p
(B − b) n(n − 2)Sxx
Poiché q P ha valore atteso nullo se e solo se b = b, accettiamo H0 se
SR ni=1 x2i
p
|b(x1 , . . . , xn , y1 , . . . , yn ) − b| n(n − 2)Sxx
q Pn < ε, rifiutiamo altrimenti. Come per il para-
sR (x1 , . . . , xn , y1 , . . . , yn ) i=1 xi 2

metro a, anche qui otteniamo un test di ipotesi con livello di significatività α, scegliendo
ε = tn−2,1− α2 .
p
|b(x1 , . . . , xn , y1 , . . . , yn ) − b| n(n − 2)Sxx
Accetto H0 se q < tn−2,1− α2 , rifiuto altrimenti.
sR (x1 , . . . , xn , y1 , . . . , yn ) ni=1 x2i
P

9.1 Inferenza sul risultato di un successivo esperimento

Sulla base dei dati x1 , . . . , xn , y1 , . . . , yn supponiamo di aver ottenuto la retta di regressione

y = ax + b. Se impostiamo il dato di input x = x0 , cosa dobbiamo aspettarci come risposta
dell’esperimento? Il valore atteso si calcola facilmente:
E [Ax0 + B] = x0 E [A] + E [B] = ax0 + b.
Posso calcolare un intervallo di confidenza o impostare un test d’ipotesi su questa aspettativa?
Possiamo scrivere
n n
X xi − x 1X
Ax0 + B = Ax0 + Y − Ax = A(x0 − x) + Y = (x0 − x) Yi + Yi
Sxx n
i=1 i=1
n
X (x0 − x)(xi − x) 1
= + Yi .
Sxx n
i=1
Dunque anche Ax0 + B è combinazione lineare delle v.a. gaussiane e indipendenti e perció è
anch’essa una v.a. gaussiana. Ne abbiamo già calcolato il valore atteso. Per caratterizzarne
completamente la distribuzione è dunque sufficiente calcolarne la varianza.
" n #
X (x0 − x)(xi − x) 1
Var [Ax0 + B] = Var + Yi
Sxx n
i=1
n n
(x0 − x)(xi − x) 1 2 (x0 − x)(xi − x) 1 2
X X
2
= + Var [Yi ] = σ +
Sxx n Sxx n
i=1 i=1
n
X (x0 − x)2 (xi − x)2

1 (x0 − x)(xi − x)
= σ2 2
+ 2 +2
Sxx n nSxx
i=1
(x0 − x)2

1
= σ2 + .
Sxx n

78
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Abbiamo dunque che Ax0 + B è indipendente da SR e

2

2 (x0 − x) 1
PAx0 +B = N ax0 + b, σ + .
Sxx n

Ax0 + B − ax0 − b
Dunque la v.a. Z0 := s ha distribuzione gaussiana standard ed è indipen-
(x0 − x)2 1
σ +
Sxx n
SR
dente da che ha distribuzione χ2n−2 . Di conseguenza la v.a.
σ2
√ √
Z0 n − 2 Ax0 + B − ax0 − b n − 2
T0 := q = s √
SR
(x − x)2 1 SR
σ 2 0
+
Sxx n

ha distribuzione t(n − 2). Abbiamo dunque l’intervallo di confidenza di livello 1 − α per il

parametro ax0 + b
 v v 
(x0 − x)2 (x0 − x)2

1 1
u u
u u
 u SR + u SR + 

Ax0 + B − tn−2,1− α
t Sxx n t Sxx n 
, Ax0 + B + tn−2,1− 2
α .


2 n−2 n−2 


Esercizio 9.1.1. Ricavare il test d’ipotesi.

79
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

80
Bibliografia

[1] Fabio Frascati. Formulario di Statistica con R. http://cran.r-

project.org/doc/contrib/Frascati-FormularioStatisticaR.pdf, 2008.

[2] Antonia Morpoulou and Kyriaki Polikreti. Principal component analysis in monument
conservation: Three application examples. Journal of Cultural Heritage, 10:73–81, 2009.

[3] John Verzani. simpleR. http://cran.r-project.org/doc/contrib/Verzani-SimpleR.pdf,

2001.

Potrebbero piacerti anche

Appunti v3
Nessuna valutazione finora
Appunti v3
191 pagine
Statistica22 23
Nessuna valutazione finora
Statistica22 23
113 pagine
Dispense Prof. Ricci - Probabilità e Statistica
Nessuna valutazione finora
Dispense Prof. Ricci - Probabilità e Statistica
81 pagine
Elementi Di Probabilità E Statistica
Nessuna valutazione finora
Elementi Di Probabilità E Statistica
166 pagine
Statistic Am Ate Ma Tic A
Nessuna valutazione finora
Statistic Am Ate Ma Tic A
185 pagine
Cps PDF
Nessuna valutazione finora
Cps PDF
167 pagine
Quaderno Statistica
Nessuna valutazione finora
Quaderno Statistica
326 pagine
Formulario Probabilità e Statistica
Nessuna valutazione finora
Formulario Probabilità e Statistica
7 pagine
Schemino Statistica
100% (5)
Schemino Statistica
2 pagine
Italian Dispense Flandoli 2011 VElementi Di Probabilità, Statistica e Processi Stocasticiersione1
Nessuna valutazione finora
Italian Dispense Flandoli 2011 VElementi Di Probabilità, Statistica e Processi Stocasticiersione1
365 pagine
Formulario Statistica Uni Di Roma
Nessuna valutazione finora
Formulario Statistica Uni Di Roma
4 pagine
03 - Elementi Di Statistica-SB
Nessuna valutazione finora
03 - Elementi Di Statistica-SB
25 pagine
Fondamenti Di Statistica Applicata
Nessuna valutazione finora
Fondamenti Di Statistica Applicata
1.395 pagine
Statistica I
Nessuna valutazione finora
Statistica I
22 pagine
Statistica Inferenziale
Nessuna valutazione finora
Statistica Inferenziale
12 pagine
A - Garetto - Statistic A - Lezioni Ed Esercizi Decriptato
Nessuna valutazione finora
A - Garetto - Statistic A - Lezioni Ed Esercizi Decriptato
316 pagine
Elementi Di Probabilità, Statistica e Processi Stocastici (Dispense Flandoli)
Nessuna valutazione finora
Elementi Di Probabilità, Statistica e Processi Stocastici (Dispense Flandoli)
385 pagine
Statistica II Parte
Nessuna valutazione finora
Statistica II Parte
12 pagine
Statistica
Nessuna valutazione finora
Statistica
54 pagine
Esercizi Di Statistica Con Soluzioni
Nessuna valutazione finora
Esercizi Di Statistica Con Soluzioni
127 pagine
Analisi Statistica
Nessuna valutazione finora
Analisi Statistica
100 pagine
Definizioni Statistica
Nessuna valutazione finora
Definizioni Statistica
4 pagine
Formule Statistica
Nessuna valutazione finora
Formule Statistica
7 pagine
Appunti Statistica Matematica
Nessuna valutazione finora
Appunti Statistica Matematica
83 pagine
Lezione 1 Statistica Descrittiva 1
Nessuna valutazione finora
Lezione 1 Statistica Descrittiva 1
24 pagine
Statistica
Nessuna valutazione finora
Statistica
220 pagine
Formulario Statistica
100% (1)
Formulario Statistica
15 pagine
Appunti Di Statistica
Nessuna valutazione finora
Appunti Di Statistica
15 pagine
Statistica Univariata
Nessuna valutazione finora
Statistica Univariata
33 pagine
Statistica Inferenziale PDF
Nessuna valutazione finora
Statistica Inferenziale PDF
23 pagine
Statistica Descrittiva
Nessuna valutazione finora
Statistica Descrittiva
13 pagine
DispenseSST Corrette
Nessuna valutazione finora
DispenseSST Corrette
161 pagine
Formulario Statistica
100% (1)
Formulario Statistica
10 pagine
Newbold
Nessuna valutazione finora
Newbold
45 pagine
Econometria Applicata
Nessuna valutazione finora
Econometria Applicata
5 pagine
Cap89 Stima
Nessuna valutazione finora
Cap89 Stima
53 pagine
Inferenza Statistica
Nessuna valutazione finora
Inferenza Statistica
5 pagine
Dispensa
Nessuna valutazione finora
Dispensa
172 pagine
Appunti Di Probabilit e Statistica
Nessuna valutazione finora
Appunti Di Probabilit e Statistica
294 pagine
Lezione 1
Nessuna valutazione finora
Lezione 1
18 pagine
Appunti Di Matematica Applicata 2.0 (Pierfrancesco INGEGNERIA - S Conflicted Copy 2012-12-07)
Nessuna valutazione finora
Appunti Di Matematica Applicata 2.0 (Pierfrancesco INGEGNERIA - S Conflicted Copy 2012-12-07)
61 pagine
Intervalli Confidenza
Nessuna valutazione finora
Intervalli Confidenza
16 pagine
Statistica Appunti
Nessuna valutazione finora
Statistica Appunti
10 pagine
Concetti Base Probabilita Statistica
Nessuna valutazione finora
Concetti Base Probabilita Statistica
26 pagine
Statistica Inferenziale
Nessuna valutazione finora
Statistica Inferenziale
4 pagine