Il 0% ha trovato utile questo documento (0 voti)
342 visualizzazioni87 pagine

Statistic A

Caricato da

venetigre
Copyright
© © All Rights Reserved
Per noi i diritti sui contenuti sono una cosa seria. Se sospetti che questo contenuto sia tuo, rivendicalo qui.
Formati disponibili
Scarica in formato PDF, TXT o leggi online su Scribd
Il 0% ha trovato utile questo documento (0 voti)
342 visualizzazioni87 pagine

Statistic A

Caricato da

venetigre
Copyright
© © All Rights Reserved
Per noi i diritti sui contenuti sono una cosa seria. Se sospetti che questo contenuto sia tuo, rivendicalo qui.
Formati disponibili
Scarica in formato PDF, TXT o leggi online su Scribd

Metodi Matematici - Appunti di Statistica

Laura Poggiolini

B047 – a.a. 2017–18

Ultimo aggiornamento 30 maggio 2018


Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

ii
Indice

I Statistica descrittiva v

1 Popolazioni, individui e caratteri. Indicatori sintetici di campioni monova-


riati 1
1.1 Campione statistico, modalità e classi modali . . . . . . . . . . . . . . . . . . 2
1.2 Frequenza assoluta e frequenza relativa . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Moda e valori modali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.5 Media e varianza campionaria. Scarto quadratico medio (o deviazione standard) 3

2 Campioni bivariati: covarianza, coefficiente di correlazione e retta di regres-


sione 11
2.1 Covarianza e coefficiente di correlazione . . . . . . . . . . . . . . . . . . . . . 11
2.2 Retta di regressione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

II Statistica inferenziale 15

3 Campioni statistici 17
3.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.2 Media campionaria e varianza campionaria . . . . . . . . . . . . . . . . . . . 18
3.2.1 La disuguaglianza di Chebychev e la legge (debole) dei grandi numeri 19
3.2.2 La distribuzione gaussiana N µ, σ 2 e il teorema del limite centrale . 20
3.3 Alcune distribuzioni legate alla distribuzione gaussiana . . . . . . . . . . . . . 23
3.3.1 Distribuzione di Pearson (o χ2 ) con n gradi di libertà, χ2n . . . . . . . 23
3.3.2 Distribuzione t di Student con n gradi di libertà, t(n) . . . . . . . . . 30

4 Stimatori di massima versosimiglianza 33


4.1 Distribuzione di Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.2 Distribuzione di Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.3 Distribuzione gaussiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.4 Distribuzione uniforme su un intervallo . . . . . . . . . . . . . . . . . . . . . . 35

5 Intervalli di confidenza 37
5.1 Stima per intervalli del valore atteso di campioni gaussiani . . . . . . . . . . . 38
5.1.1 Campione gaussiano di cui è nota la varianza . . . . . . . . . . . . . . 38
5.1.2 Campione gaussiano di cui non è nota la varianza . . . . . . . . . . . . 39

iii
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

5.2 Stima per intervalli della varianza di campioni gaussiani . . . . . . . . . . . . 41

6 Test d’ipotesi 45
6.1 Principi generali di un test statistico . . . . . . . . . . . . . . . . . . . . . . . 49
6.2 Test parametrici per campioni gaussiani . . . . . . . . . . . . . . . . . . . . . 50
6.2.1 Test d’ipotesi per il valore atteso di campioni gaussiani di cui è nota la
varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
6.2.2 Campione gaussiano di cui non è nota la varianza . . . . . . . . . . . . 55
6.3 Test d’ipotesi per la varianza di campioni gaussiani . . . . . . . . . . . . . . . 58

7 Test di ipotesi per il confronto di campioni gaussiani 63


7.1 Test d’ipotesi per la differenza dei valori attesi di campioni gaussiani . . . . . 63
7.1.1 Le varianze σX 2 e σ 2 sono note . . . . . . . . . . . . . . . . . . . . . . 63
Y
7.1.2 Le varianze σX 2 e σ 2 sono ignote ma si possono ritenere uguali . . . . 64
Y
7.2 Test d’ipotesi per l’uguaglianza delle varianze di campioni gaussiani . . . . . 65
7.2.1 Distribuzione di Fisher-Snedecor a k e n gradi di libertà . . . . . . . . 65
7.3 Test d’ipotesi per l’uguaglianza delle varianze di campioni gaussiani . . . . . 67

8 Test del χ2 e test di Smirnov-Kolmogorov 69


8.1 Stimatori di massima verosimiglianza per distribuzioni con densità finita . . . 69
8.2 Test del χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
8.3 Test di Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

9 Regressione lineare 75
9.1 Inferenza sul risultato di un successivo esperimento . . . . . . . . . . . . . . . 78

iv
Parte I

Statistica descrittiva

v
1. Popolazioni, individui e caratteri. Indicatori sintetici di
campioni monovariati

La statistica descrittiva si occupa dell’analisi di dati raccolti da una popolazione, ovvero da


un insieme di individui. In sintesi, dato un insieme molto grande di dati, cosı̀ grande che non
è utile guardarlo dato per dato, si cerca di estrarne delle informazioni sintetiche e tuttavia
significative.
Gli oggetti con cui abbiamo a che fare sono dunque

• gli individui oggetto dell’indagine: ciascun individuo è un oggetto singolo dell’indagine.

• la popolazione, ovvero l’insieme degli individui oggetto dell’indagine.

• il carattere osservato o variabile, che è la quantità misurata o la qualità rilevata su


ciascun individuo della popolazione.

Esempio 1.0.1. Rilevo l’altezza di ciascun abitante del Comune di Firenze. Ogni residente
del Comune di Firenze è un individuo; la popolazione è l’insieme di tutti i residenti nel Comune
di Firenze; il carattere in esame è l’altezza misurata, per esempio, in centimetri.

Esempio 1.0.2. Rilevo il reddito annuo di ciascun nucleo familiare del Comune di Firenze.
Ogni nucleo familiare è un individuo; la popolazione è l’insieme dei nuclei familiari registrati
all’Anagrafe del Comune di Firenze; il carattere osservato è il reddito annuo familiare misurato
in Euro.

Esempio 1.0.3. Rilevo il numero dei componenti di ciascun nucleo familiare del Comune di
Firenze. Come nell’esempio precedente ogni nucleo familiare è un individuo; la popolazione
è l’insieme dei nuclei familiari registrati all’Anagrafe del Comune di Firenze. Il carattere
osservato è il numero dei componenti di ciascun nucleo familiare, cioè un numero intero
maggiore-uguale di 1.

Esempio 1.0.4. Per ogni studente presente in aula rilevo il colore degli occhi. Ogni studen-
te presente in aula è un individuo. La popolazione è l’insieme degli studenti presenti ed il
carattere osservato è il colore degli occhi.

In questi esempi abbiamo incontrato i due tipi fondamentali di carattere:

• caratteri numerici o quantitativi come l’altezza, il reddito familiare, il numero dei


componenti del nucleo familiare;

• caratteri qualitativi come il colore degli occhi.

I caratteri numerici a loro volta si possono suddividere in

1
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

• caratteri numerici discreti che possono assumere solo un insieme discreto di valori,
come il numero dei componenti dei nuclei familiari;
• caratteri numerici continui che variano con continuità ovvero con una estrema accu-
ratezza, eccessiva rispetto ai fini dell’indagine, come l’altezza delle persone o il reddito
annuo familiare.

1.1 Campione statistico, modalità e classi modali

Supponiamo di aver osservato un certo carattere su una popolazione di n individui. Abbiamo


un vettore delle osservazioni
x = (x1 , . . . , xn )
che chiamiamo campione statistico di cardinalità n.
Se il campione è relativo ad un carattere qualitativo o numerico discreto, chiamo modalità
i valori che esso assume su un campione.
Se il campione è relativo ad un carattere numerico continuo si procede nel seguente modo:
la popolazione in esame è comunque un insieme finito, quindi il carattere, per quanto continuo,
nel campione assume solo un numero finito di valori. Sia [a, b) un intervallo che contiene tutti
i valori xi , i = 1, . . . , n assunti dal carattere sugli individui della popolazione. Suddividiamo
l’intervallo [a, b) in N parti uguali (N sarà suggerito dall’esperienza). Otteniamo N intervalli
 
b−a b−a
Ij := a + (j − 1) ,a + j , j = 1, . . . , N.
N N
Chiamo ciascuno di questi intervalli classe di modalità, se esso contiene almeno una osser-
vazione.

1.2 Frequenza assoluta e frequenza relativa

Consideriamo un campione x = (x1 , . . . , xn ) relativo ad un carattere qualitativo o numerico


discreto. Nel campione, cioè nella popolazione in esame, il carattere osservato assume un certo
numero di valori distinti
z1 , . . . , zk , 1 ≤ k ≤ n.
Per ogni j = 1, . . . , k chiamo effettivo o frequenza assoluta della modalità zj il numero
nj := # {i ∈ {1, . . . , n} : xi = zj }
mentre chiamo frequenza relativa della modalità zj il numero
nj
pj := .
n
Se il carattere osservato è numerico continuo, si considera ciascuna classe di modalità indivi-
duata  
b−a b−a
Ij := a + (j − 1) ,a + j , j = 1, . . . , N
N N
e si chiama frequenza assoluta o effettivo della classe di modalità Ij il numero
nj := # {i ∈ {1, . . . , n} : xi ∈ Ij } .
nj
Come prima definiamo frequenza relativa della classe Ij il numero pj := .
n

2
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

1.3 Moda e valori modali

Sia x = (x1 , . . . , xn ) un campione statistico e siano z1 , z2 , . . . , zk le modalità assunte (o


I1 , . . . , Ik le classi di modalità assunte) e siano p1 , . . . , pk le relative frequenze relative.
Se esiste uno ed un solo indice j ∈ {1, 2, . . . , k} tale che la modalità zj (o la classe Ij ) ha
frequenza massima, ovvero se esiste un unico j ∈ {1, 2, . . . , k} tale che pj ≥ pj ∀j = 1, . . . , k,
allora la modalità zj (o la classe Ij ) si dice moda del campione x.
Se esistono due o più indici j1 , j2 , . . . , j s tali che le modalità zj1 , zj2 , . . . , zj s (o le classi
Ij1 , Ij2 , . . . , Ij s ) hanno frequenza massima, allora queste modalità (o classi) si dicono valori
(o classi) modali.
Possiamo visualizzare con degli istogrammi, vedi Figura 1.3

1.4 Mediana

D’ora innanzi consideriamo solo caratteri numerici.


Sia dunque x = (x1 , . . . , xn ) un campione relativo ad un carattere numerico. Ordiniamo i
dati del campione in ordine crescente:

x(1) ≤ x(2) ≤ . . . ≤ x(n−1) ≤ x(n)

e distinguiamo due casi:

• n dispari: n = 2m + 1

x(1) ≤ x(2) ≤ . . . ≤ x(m) ≤ x(m+1) ≤ x(m+2) ≤ . . . ≤ x(2m) ≤ x(2m+1)

Il dato x(m+1) è maggiore-uguale di m dati e minore-uguale di altrettanti dati. Diciamo


che il dato x(m+1) è la mediana del campione.

• n pari: n = 2m

x(1) ≤ x(2) ≤ . . . ≤ x(m−1) ≤ x(m) ≤ x(m+1) ≤ x(m+2) ≤ . . . ≤ x(2m)

Il dato x(m) è maggiore-uguale di m − 1 dati e minore-uguale di m dati. Il dato x(m+1)


è maggiore-uguale di m dati e minore-uguale di m − 1 dati.
x(m) + x(m+1)
Chiamiamo mediana del campione il numero .
2

1.5 Media e varianza campionaria. Scarto quadratico medio (o deviazione stan-


dard)

Consideriamo un campione relativo ad un carattere numerico

x = (x1 , . . . , xn ) .

Chiamo media aritmetica o, più semplicemente, media il numero


n
1X
x := xi .
n
i=1

3
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Figura 1.1: Alcuni istogrammi dall’Esempio 1.5.1

Supponiamo che nel campione siano presenti k modalità z1 , z2 , . . . , zk con rispettive frequenze
assolute N1 , N2 , . . . Nk e frequenze relative p1 , p2 , . . . pk . Allora
1 1
x = (x1 + x2 + . . . xn ) = (N1 z1 + N2 z2 + . . . Nk zk ) =
n n
k
X
= p1 z1 + p2 z2 + . . . pk zk = pj zj .
4
j=1
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Chiamo varianza campionaria di x il numero non-negativo

n
1 X
sx = Var [x] := (xi − x)2 .
n−1
i=1

Osserviamo che la media è un valore centrale attorno al quale si dispongono i dati x1 , . . . , xn


mentre la varianza è un indice di dispersione: la varianza è nulla se e solo se tutti i dati del
campioni sono uguali (e dunque coincidono con la media). Una varianza bassa indica che
comunque i dati sono vicini al valore medio x mentre una varianza alta indica una maggiore
dispersione dei dati.

La radice quadrata della varianza campionaria

v
u n
1 X
(xi − x)2
u
sx = Std [x] := t
n−1
i=1

si chiama scarto quadratico medio o deviazione standard del campione x.

Anche per la varianza campionaria possiamo scrivere una formula che coinvolga solo le
modalità e le rispettive frequenze.

1
s2x = (x1 − x)2 + (x2 − x)2 + . . . (xn − x)2 =

n−1
1
N1 (z1 − x)2 + N2 (z2 − x)2 + . . . Nk (zk − x)2 =

=
n−1
n
p1 (z1 − x)2 + p2 (z2 − x)2 + . . . pk (zk − x)2 =

=
n−1
k
n X
= pj (zj − x)2 .
n−1
j=1

Esempio 1.5.1. Nella tabella che segue, tratta da [2], riportiamo alcuni dati relativi a cam-
pioni di laterizio e che useremo per fare alcuni esempi relativi alle nozioni introdotte mediante
il software R http://cran.r-project.org/. Per una introduzione si rimanda ai manuali [3]
e [1].

5
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Sample Porosità Raggio Volume dei Densità Resistenza CO2 /SBW Temperatura
Code totale medio pori su dimen- (g/cm3 ) alla tra- di cottura
(%) del poro sione dei pori zione (DTA)
(µm) 0.3–0.8 µm (MPa)

AS1 41.460 0.528 80.0 1.550 0.403 0.38 740


AS2 47.210 0.467 81.2 1.650 0.645 0.70 740
AS3 43.670 0.697 78.5 1.710 0.527 0.46 740
AS4 52.390 0.422 77.3 1.520 0.143 0.48 740
AS5 44.700 0.411 87.4 1.500 0.593 0.29 740
AS6 51.330 0.422 88.6 1.480 0.463 0.33 740
AS7 31.460 0.718 80.6 1.900 0.955 0.23 740
AS8 40.900 0.458 80.4 1.680 0.195 0.41 740
AS9 45.540 0.492 80.8 1.620 1.328 0.50 750
AS10 45.620 0.734 86.2 1.620 1.405 0.34 750
AS11 44.140 0.730 85.7 1.590 0.256 0.42 750
AS12 40.710 0.543 87.8 1.750 0.309 0.20 750
AS13 35.700 0.686 84.3 1.520 0.472 0.05 740
C1 40.290 0.306 43.5 1.760 0.520 0.43 740
C2 36.570 0.625 42.3 1.750 0.738 0.36 740
C3 42.130 0.249 63.2 1.630 0.410 0.25 740
C4 37.830 0.731 47.9 2.020 0.601 0.28 740
C5 42.180 0.407 59.4 1.580 0.376 0.34 740
C6 41.600 0.446 42.8 1.850 0.473 0.26 740
C7 32.660 0.664 64.3 1.850 0.695 0.25 740
C8 36.070 0.673 58.2 1.780 0.624 0.29 740
C9 36.040 1.397 55.6 1.730 0.582 0.38 740
C10 36.640 0.861 45.2 1.750 0.650 0.47 740
R1 42.890 0.785 10.2 1.540 0.453 1.04 850
R2 26.850 0.315 14.7 2.010 1.124 1.86 960
R3 28.550 0.158 18.6 1.920 0.937 1.96 850
R4 29.860 0.158 15.3 1.890 1.020 1.48 850
R5 45.700 0.984 12.8 1.500 0.328 – 800
R6 54.640 1.525 12.5 1.340 0.267 0.67 750
R7 27.550 2.657 14.6 1.920 0.892 0.40 730
R8 40.820 0.622 15.3 1.570 0.502 1.94 860
Inseriamo la tabella in R

> library(readr)
> table2 <- read_delim("~/Documents/didattica/2017-18_analisi_reale/alcuni_appunti/table2.
+ "\t", escape_double = FALSE, trim_ws = TRUE)
Parsed with column specification:
cols(
Code = col_character(),
Totpor = col_double(),
PRA = col_double(),
PV = col_double(),
Densi = col_double(),
TenStr = col_double(),
CO2SBW = col_character(),
FirTemp = col_integer()

6
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

)
> View(table2)

Code Totpor PRA PV Densi TenStr CO2SBW FirTemp


1 AS1 41.46 0.528 80.0 1.55 0.403 0.38 740
2 AS2 47.21 0.467 81.2 1.65 0.645 0.70 740
3 AS3 43.67 0.697 78.5 1.71 0.527 0.46 740
4 AS4 52.39 0.422 77.3 1.52 0.143 0.48 740
5 AS5 44.70 0.411 87.4 1.50 0.593 0.29 740
6 AS6 51.33 0.422 88.6 1.48 0.463 0.33 740
7 AS7 31.46 0.718 80.6 1.90 0.955 0.23 740
8 AS8 40.90 0.458 80.4 1.68 0.195 0.41 740
9 AS9 45.54 0.492 80.8 1.62 1.328 0.50 750
10 AS10 45.62 0.734 86.2 1.62 1.405 0.34 750
11 AS11 44.14 0.730 85.7 1.59 0.256 0.42 750
12 AS12 40.71 0.543 87.8 1.75 0.309 0.20 750
13 AS13 35.70 0.686 84.3 1.52 0.472 0.05 740
14 C1 40.29 0.306 43.5 1.76 0.520 0.43 740
15 C2 36.57 0.625 42.3 1.75 0.738 0.36 740
16 C3 42.13 0.249 63.2 1.63 0.410 0.25 740
17 C4 37.83 0.731 47.9 2.02 0.601 0.28 740
18 C5 42.18 0.407 59.4 1.58 0.376 0.34 740
19 C6 41.60 0.446 42.8 1.85 0.473 0.26 740
20 C7 32.66 0.664 64.3 1.85 0.695 0.25 740
21 C8 36.07 0.673 58.2 1.78 0.624 0.29 740
22 C9 36.04 1.397 55.6 1.73 0.582 0.38 740
23 C10 36.64 0.861 45.2 1.75 0.650 0.47 740
24 R1 42.89 0.785 10.2 1.54 0.453 1.04 850
25 R2 26.85 0.315 14.7 2.01 1.124 1.86 960
26 R3 28.55 0.158 18.6 1.92 0.937 1.96 850
27 R4 29.86 0.158 15.3 1.89 1.020 1.48 850
28 R5 45.70 0.984 12.8 1.50 0.328 -- 800
29 R6 54.64 1.525 12.5 1.34 0.267 0.67 750
30 R7 27.55 2.657 14.6 1.92 0.892 0.40 730
31 R8 40.82 0.622 15.3 1.57 0.502 1.94 860

Per ciascun carattere definiamo una variabile che contenga la mediana, una per la media,
una per la Varianza e una per la deviazione standard e poi stampiamo i valori (tratteremo il
carattere di nome CO2SBW con attenzione perché su un individuo non è stato rilevato)
Il commando summary indica l numero di dati mancanti, ci dà gli indicatori di centralità
ma non quelli di dispersione
> summary(table2)
Code Totpor PRA PV Densi TenStr CO2SBW FirTemp
Length:31 Min. :26.85 Min. :0.1580 Min. :10.20 Min. :1.340 Min. :0.1430 Min. :0.0500 Min. :730.0
Class :character 1st Qu.:36.05 1st Qu.:0.4220 1st Qu.:30.45 1st Qu.:1.560 1st Qu.:0.4065 1st Qu.:0.2900 1st Qu.:740.0
Mode :character Median :40.90 Median :0.6220 Median :59.40 Median :1.680 Median :0.5270 Median :0.3900 Median :740.0
Mean :40.12 Mean :0.6733 Mean :55.33 Mean :1.693 Mean :0.6092 Mean :0.5817 Mean :764.8
3rd Qu.:44.42 3rd Qu.:0.7305 3rd Qu.:80.70 3rd Qu.:1.815 3rd Qu.:0.7165 3rd Qu.:0.4950 3rd Qu.:750.0
Max. :54.64 Max. :2.6570 Max. :88.60 Max. :2.020 Max. :1.4050 Max. :1.9600 Max. :960.0
NA’s :1

7
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Richiediamo anche varianza campionaria e deviazione standard.

> medianaTotPor <- median(table2$Totpor);


> meanTotPor <- mean(table2$Totpor);
> VarTotPor <- var(table2$Totpor);
> StdTotPor <- sd(table2$Totpor)
> medianaTotPor; meanTotPor; VarTotPor; StdTotPor
[1] 40.9
[1] 40.11935
[1] 49.52185
[1] 7.037176
> medianaPRA <- median(table2$PRA);
> meanPRA <- mean(table2$PRA);
VarPRA <- var(table2$PRA);
> StdPRA <- sd(table2$PRA)
> medianaPRA; meanPRA; VarPRA; StdPRA
[1] 0.622
[1] 0.6732581
[1] 0.226613
[1] 0.4760389
> medianaPV <- median(table2$PV);
> meanPV <- mean(table2$PV);
> VarPV <- var(table2$PV);
> StdPV <- sd(table2$PV)
> medianaPV; meanPV; VarPV; StdPV
[1] 59.4
[1] 55.32903
[1] 815.0935
[1] 28.54984
> medianaDensi <- median(table2$Densi);
> meanDensi <- mean(table2$Densi);
> VarDensi <- var(table2$Densi);
> StdDensi <- sd(table2$Densi)
> medianaDensi; meanDensi; VarDensi; StdDensi
[1] 1.68
[1] 1.692903
[1] 0.02894129
[1] 0.1701214
> medianaTenStr <- median(table2$TenStr);
> meanTenStr <- mean(table2$TenStr);
> VarTenStr <- var(table2$TenStr);
> StdTenStr <- sd(table2$TenStr)
> medianaTenStr; meanTenStr; VarTenStr; StdTenStr
[1] 0.527
[1] 0.6092258
[1] 0.09882738
[1] 0.3143682

8
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

> medianaCO2SBW <- median(na.omit(table2$CO2SBW));


> meanCO2SBW <- mean(na.omit(table2$CO2SBW));
> VarCO2SBW <- var(na.omit(table2$CO2SBW));
> StdCO2SBW <- sd(na.omit(table2$CO2SBW))
> medianaCO2SBW; meanCO2SBW; VarCO2SBW; StdCO2SBW
[1] 0.39
[1] 0.5816667
[1] 0.2765868
[1] 0.5259152
> medianaFirTemp <- median(table2$FirTemp);
> meanFirTemp <- mean(table2$FirTemp);
> VarFirTemp <- var(table2$FirTemp);
> StdFirTemp <- sd(table2$FirTemp)
> medianaFirTemp; meanFirTemp; VarFirTemp; StdFirTemp
[1] 740
[1] 764.8387
[1] 2805.806
[1] 52.96986

9
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

10
2. Campioni bivariati: covarianza, coefficiente di correlazione
e retta di regressione

2.1 Covarianza e coefficiente di correlazione

Supponiamo di avere un campione bivariato cioè di rilevare due caratteri sugli individui di
una medesima popolazione.
Abbiamo dunque due vettori di dati

x = (x1 , . . . , xn ) , y = (y1 , . . . , yn ) .

xi e yi sono le rilevazioni dei due caratteri sul medesimo individuo, l’individuo cioè che
abbiamo etichettato come individuo i.
Chiamiamo covarianza di x e y il numero
n
1 X
Cov (x, y) := (xi − x)(yi − y)
n−1
i=1

dove x e y sono le medie dei campioni x e y, rispettivamente.


Nel caso in cui né x né y siano campioni costanti (ipotesi lavorativa che sarà sempre
sottintesa), definiamo coefficiente di correlazione di x e y il numero
n
X
(xi − x)(yi − y)
Cov (x, y) i=1
ρ [x, y] := =v !.
sx sy u n
u X
! n
X
t (xi − x)2 (yi − y)2
i=1 i=1

Osservazione 2.1.1. Cov (x, x) = s2x ; ρ [x, x] = 1.


Osservando che ρ [x, y] non è altro che il rapporto tra hx − (x, . . . , x), y − (y, . . . , y)i (pro-
dotto scalare) e kx−(x, . . . , x)kky−(y, . . . , y)k (prodotto delle norme) si dimostrano facilmente
le seguenti proprietà:
1. −1 ≤ ρ [x, y] ≤ 1;

2. ρ [x, y] = 1 se e solo se esiste a > 0, b ∈ R tale che yi = axi + b ∀i = 1, . . . , n. In tal


caso i campioni x e y si dicono positivamente correlati;

3. ρ [x, y] = −1 se e solo se esiste a < 0, b ∈ R tale che yi = axi + b ∀i = 1, . . . , n. In tal


caso i campioni x e y si dicono negativamente correlati.
Se ρ [x, y] = 0 i campioni x e y si dicono scorrelati.

11
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Figura 2.1: Campione bivariato pressoché lineare

2.2 Retta di regressione

Supponiamo di avere un campione bivariato

x = (x1 , . . . , xn ) , y = (y1 , . . . , yn )

dove xi e yi sono i dati relativi all’i–esimo individuo. Rappresentiamo i punti (xi , yi ) sul
piano cartesiano Oxy. Capita, molto spesso, di trovarsi a disposizioni pressoché allineate
come illustrato nella figura 2.1 Si cerca allora una retta che in qualche senso approssimi i
punti (xi , yi ).
Supponiamo che y = ax + b sia l’equazione della retta cercata. Per x = xi si ottiene il
punto sulla retta (xi , axi + b). Cerchiamo la retta (ovvero i parametri a e b) che minimizza la
somma degli errori quadratici nella direzione y
n
X
S(a, b) := (yi − (axi + b))2 .
i=1

Si ha
n
X
S(a, b) = (yi − y + y − (axi − ax + ax + b))2 =
i=1
n
X
= ((yi − y) − a (xi − x) + (y − ax − b))2 =
i=1
n
X n
X
2
= ((yi − y) + a 2
(xi − x)2 +
i=1 i=1
n
X
+ n (y − ax − b)2 − 2a (xi − x) (yi − y) =
i=1
=(n − 1) s2y + a2 s2x − 2aCov (x, y) + n (y − ax − b)2 .


L’incognita b compare solo nell’ultimo addendo, che è un quadrato. Quindi per ottenere il
minimo basterà scegliere a che minimizza la funzione f (a) := s2y + a2 s2x − 2aCov (x, y) e poi
scegliere b = y − ax. Si ha
Cov (x, y)
f 0 (a) = 2as2x − 2Cov (x, y) = 0 se e solo se a =
s2x
f 00 (a) = 2s2x > 0

12
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Il minimo dello somma degli errori quadratici S(a, b) si ottiene allora per
Cov (x, y) Cov (x, y)
a= ; b=y− x;
s2x s2x
il minimo dell’errore S vale
(Cov (x, y))2
   
2 2 2
(n − 1) sy − = (n − 1)sy 1 − (ρ [x, y])
s2x
e la retta ha equazione
Cov (x, y)
y=y+ (x − x) .
s2x
Osservazione 2.2.1. La retta cosı̀ determinata si chiama retta di regressione del cam-
pione y sul campione x. Osserviamo infine che il punto (x, y) appartiene alla retta.
Esempio 2.2.1. Riconsideriamo l’esempio 1.5.1. Carichiamo in R la tabella dei dati.
> library(readr)
> table2 <- read_delim("~/Documents/didattica/2017-18_analisi_reale/alcuni_appunti/table2.csv",
+ "\t", escape_double = FALSE, trim_ws = TRUE)
Parsed with column specification:
cols(
Code = col_character(),
Totpor = col_double(),
PRA = col_double(),
PV = col_double(),
Densi = col_double(),
TenStr = col_double(),
CO2SBW = col_character(),
FirTemp = col_integer()
)

Tracciamo sul piano cartesiano i dati relativi ai caratteri porosità totale (in ascissa) e
densità (in ordinata) e salviamo la figura in un file.
> library(car)
> scatterplot(Densi~Totpor, lm=TRUE, smooth=FALSE, spread=FALSE, boxplots=TRUE, span=0.5, data= table2)

Figura 2.2: Porosità totale versus Densità

Sembrano ragionevolmente allineati. Calcoliamo il loro coefficiente di correlazione


> CorTotporDensi<- cor(table2$Totpor, table2$Densi)
> CorTotporDensi
[1] -0.8187597

13
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Calcoliamo la retta di regressione del carattere Densità sul carattere Porosità Totale

> RegModel.Densi.Totpor <- lm(Densi~Totpor, data=table2)


> summary(RegModel.Densi.Totpor)

Call:
lm(formula = Densi ~ Totpor, data = table2)

Residuals:
Min 1Q Median 3Q Max
-0.260377 -0.054570 -0.001898 0.045213 0.281783

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.486995 0.104930 23.70 < 2e-16 ***
Totpor -0.019793 0.002577 -7.68 1.81e-08 ***
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Residual standard error: 0.09934 on 29 degrees of freedom


Multiple R-squared: 0.6704,Adjusted R-squared: 0.659
F-statistic: 58.98 on 1 and 29 DF, p-value: 1.814e-08

Intercept dice che l’ordinata all’origine (il coefficiente b) della retta di regressione è 2.486995
mentre il coefficiente angolare (cioè a) è −0.019793. Ridisegniamo i punti sul piano cartesiano,
aggiungendo la retta di regressione (e salviamo l’immagine in un file).

> abline(lm(Densi ~ Totpor, data=table2), col="red")

Figura 2.3: Retta di regressione lineare

14
Parte II

Statistica inferenziale

15
3. Campioni statistici

3.1 Introduzione

Scopo della statistica inferenziale è lo stabilire metodi rigorosi per ottenere – con un calcolabile
grado di certezza proprietà generali di una popolazione a partire da una raccolta di dati sulla
popolazione stessa.
Possiamo sintetizzare il modello matematico che applichiamo come segue

• Se rileviamo un carattere su una popolazione di n individui, consideriamo ciascun dato


rilevato come il valore assunto da X1 , X2 , . . . , Xn variabili aleatorie aventi tutte la
stessa distribuzione µ e che (molto spesso) si possono supporre indipendenti.

• La distribuzione µ è (parzialmente) incognita; si cercano informazioni su µ a partire dai


dati rilevati. Le informazioni ricavate sulla distribuzione µ sono di natura probabilistica.
Per esempio, non riusciremo ad ottenere informazioni del tipo il valore atteso della
distribuzione µ è 50 ma informazioni del tipo il valore atteso della distribuzione µ è
compresa tra 49.8 e 50.2 con probabilità del 90%.

Comunemente si suppone di conoscere il tipo della distribuzione µ, ovvero si suppone di


sapere se è gaussiana, esponenziale o binomiale o altro, ma di non conoscere i parametri che
la caratterizzano.

Definizione 3.1.1 (Campione statistico). Una famiglia di variabili aleatorie

X1 , . . . , Xn

si dice un campione statistico di numerosità n se le v.a. X1 , . . . , Xn sono indipendenti ed


identicamente distribuite.
Se f è la comune densità delle v.a. X1 , . . . , Xn , allora la v.a. vettoriale
X := (X1 , . . . , Xn ) ha densità congiunta

gX1 , ..., Xn (x1 , . . . , xn ) = f (x1 )f (x2 ) . . . f (xn ).

La comune distribuzione delle Xi si dice distribuzione campionaria di X1 , . . . , Xn .

Osservazione 3.1.1. Poiché le v.a. X1 , . . . , Xn seguono la stessa distribuzione, esse hanno


anche lo stesso valore atteso e la stessa varianza (se queste quantità esistono).

Definizione 3.1.2 (Statistica). Sia X1 , . . . , Xn un campione statistico. Sia f : Rn → R una


funzione misurabile secondo Borel. Allora la v.a. Y := f (X1 , . . . , Xn ) si dice una statistica
del campione X1 , . . . , Xn .

17
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

3.2 Media campionaria e varianza campionaria

Definizione 3.2.1. Sia X1 , . . . , Xn un campione statistico. Chiamiamo media campiona-


ria di X1 , . . . , Xn la statistica
n
1X
X := Xi ,
n
i=1
chiamiamo varianza campionaria di X1 , . . . , Xn la statistica
n
2 1 X 2
S := Xi − X .
n−1
i=1

Proposizione 3.2.1. Sia X1 , . . . , Xn un campione statistico di numerosità n con valore


atteso µ e varianza σ 2 finiti. Siano X e S 2 la media campionaria e la varianza campionaria.
Allora
  σ2
E S 2 = σ2.
   
E X = µ, Var X = ,
n
Dimostrazione.
" n # n
  1X 1X 1
E X =E Xi = E [Xi ] = nµ = µ
n n n
i=1 i=1
" n # " n # n
1 X 1 X 1 X 1 σ2
Var [Xi ] = 2 nσ 2 =
 
Var X = Var Xi = 2 Var Xi = 2 .
n n n n n
i=1 i=1 i=1

Per calcolare il valore atteso di S 2 osserviamo preliminarmente che


n n n
!
2 1 X
2
X X 2
S = Xi − 2X Xi + X
n−1
i=1 i=1 i=1
n n
! !
1 X 2 1 X 2
= Xi2 − 2XnX + nX = Xi2 − nX .
n−1 n−1
i=1 i=1

Dunque
" n # " n #
X 2 X 2
(Xi − µ + µ)2 − n X − µ + µ
 2
Xi2 − nX = E

(n − 1)E S = E
i=1 i=1
n h i h
X 2 i
= E (Xi − µ + µ)2 − nE X −µ+µ
i=1
Xn h i
= E (Xi − µ)2 + µ2 + 2µ(Xi − µ)
i=1
 h 2 i 
+ µ2 − 2µE X − µ

−n E X −µ
n  2 
X
2 2 σ
+ µ = (n − 1) σ 2
2

= σ +µ −n
n
i=1

e quindi E S 2 = σ 2 .
 

18
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

3.2.1 La disuguaglianza di Chebychev e la legge (debole) dei grandi numeri


Enunciamo alcuni importanti risultati asintotici che giustificano l’uso della media campionaria
X come stima del valore atteso µ del campione.

Teorema 3.2.1 (Disuguaglianza di Chebychev). Se X è una variabile aleatoria con valore


atteso µ e varianza non superiore a σ 2 , allora

σ2
P (|X − µ| ≥ t) ≤ ∀t > 0.
t2
Osservazione 3.2.1. La disuguaglianza di Chebychev può anche essere formulata nel se-
guente modo: Se X è una variabile aleatoria con valore atteso µ e varianza σ 2 finite, allora

1
P (|X − µ| > η σ) ≤ ∀η > 0.
η2

Ovvero: la probabilità che X disti dal suo valore atteso µ più di una frazione η della deviazione
standard σ è inferiore a η12 .

Esempio 3.2.1. Sia X1 , . . . , Xn un campione statistico di numerosità n. Supponiamo di


conoscere la varianza σ 2 = 4 del campione e che il valore atteso µ sia ignoto. Quanto deve
essere grande n per poter affermare che
 1
P X − µ > 1 ≤ ?
10
Sappiamo che
 σ2 4
P X − µ > 1 ≤ 2
= .
n1 n
4 1
è allora sufficiente richiedere ≤ cioè n ≥ 40.
n 10
Dalla disuguaglianza di Chebychev segue facilmente il seguente

Teorema 3.2.2 (Legge debole dei grandi numeri). Sia {Xi }∞ i=1 una successione di v.a. indi-
pendenti, identicamente distribuite, con valore atteso µ e varianza σ 2 finiti.
n
1X
Per ogni n ∈ N sia X n := Xi . Allora
n
i=1

lim P X n − µ > t = 0 ∀t > 0.
n→∞

La legge debole dei grandi numeri ci autorizza a usare il valore di X n come sostituto del
valore atteso µ della distribuzione e la disuguaglianza di Chebychev ci dice con precisione
quanto è probabilisticamente accettabile questa sostituzione.

Esempio 3.2.2. Ho una monetina che potrebbe essere truccata. Voglio scoprire, con un’ap-
prossimazione di ±0.05 e con un grado di certezza del 90% quanto vale la probabilità di
ottenere testa in un singolo lancio. Posso formalizzare ogni singolo lancio della monetina con
una variabile aleatoria di Bernoulli di parametro p dove p è la probabilità (incognita) di

19
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

ottenere testa in un singolo lancio. Se lancio la monetina n volte ho allora un campione sta-
tistico X1 , . . . , Xn che segue la distribuzione B(p). Sia X n la media campionaria di questo
campione. Allora
    p(1 − p)
E X n = p, Var X n = .
n
Per la disuguaglianza di Chebychev
 p(1 − p) 400 100
P X n − p ≥ 0.05 ≤ 2
≤ =
n(0.05) 4n n
Voglio
 90
P X n − p ≤ 0.05 ≥
100
cioè
 90 1
P X n − p ≥ 0.05 ≤ 1 − =
100 10
100 1
Basta allora avere ≤ cioè n ≥ 1000. Dunque: tiro la monetina 1000 volte registrando
n 10
il risultato ad ogni i-esimo lancio (xi = 1) o croce (xi = 0) vedendo questo numero come il
valore assunto da una v.a. bernoulliana Xi di parametro p.
1000
1 X
Calcolo x = xi e lo vedo come il valore assunto dalla v.a. X. La probabilità che
1000
i=1
il valore x differisca da p per meno di 0.05 è maggiore-uguale del 90%.
Più in generale
Esempio 3.2.3. Sia X1 , . . . , Xn un campione statistico di numerosità n, bernoulliano di
parametro (incognito) p ∈ [0, 1]. Dunque

E [Xi ] = p Var [Xi ] = p(1 − p)


    p(1 − p)
E X =p Var X =
n
Allora, per la disuguaglianza di Chebychev
 p(1 − p) 1
P X − p > t ≤ 2
≤ ∀t > 0.
nt 4n t2
1
poiché p(1 − p) ≤ ∀p ∈ [0, 1].
4

La distribuzione gaussiana N µ, σ 2 e il teorema del limite centrale



3.2.2
Ricordiamo che la distribuzione gaussiana di parametri µ ∈ R e σ 2 > 0, N µ, σ 2 , è la


distribuzione assolutamente continua associata alla densità


−(x − µ)2
 
1
f (x) = √ exp , x ∈ R.
σ 2π 2σ 2

Se una v.a. X segue la distribuzione N µ, σ 2 , allora




E [X] = µ, Var [X] = σ 2 .

20
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

0.4

0.3

0.2

0.1

x
-7 -5 -3 -1 1 3 5 7

Figura 3.1: Densità associate alle distribuzioni N (0, 1) (in rosso) e N (0, 4) (in blu)

Figura 3.2: N (0, 1) e N (0, 4), densità e funzione di ripartizione

Inoltre f (x) > 0 per ogni x ∈ R, quindi la funzione di ripartizione FX (x) := P (X ≤ x) è


strettamente monotona crescente. Dunque, per ogni α ∈ (0, 1) esiste uno ed un solo x = xα ∈

21
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

R tale FX (xα ) = α. xα si dice quantile di X di livello α. Inoltre, se µ = 0, la densità è una


funzione pari, e dunque FX (t) + FX (−t) = 1 per ogni t ∈ R; in particolare x1−α = −xα .
Nel caso in cui µ = 0, σ 2 = 1, la distribuzione N (0, 1) si dice distribuzione gaussiana
standard, la funzione di ripartizione associata si indica con la lettera Φ,
Z x  2
1 −t
Φ(x) := √ exp dt, x ∈ R.
−∞ 2π 2

e per ogni α ∈ (0, 1) il quantile di livello α si indica zα . Dunque

Φ(x) + Φ(−x) = 1 ∀x ∈ R, z1−α = −zα ∀α ∈ (0, 1).

Ricordiamo alcune proprietà che abbiamo già visto:

Proprietà 3.2.1. 1. Se X è una v.a. gaussiana di valore atteso µ e varianza σ 2 : PX =


2

N µ, σ e α, β sono due numeri reali, α 6= 0, allora la v.a. αX + β è gaussiana di valore
X −µ
atteso αµ + β e varianza α2 σ 2 : PαX+β = N αµ + β, α2 σ 2 . In particolare Y :=

σ
è una v.a. gaussiana standard: PY = N (0, 1).

2. Siano X1 , . . . , X 2
2
 n v.a. indipendenti con Xi gaussiana di valore atteso µi e varianza σi :
PXi = N µi , σi ∀i = 1, . . . , n. Allora la v.a. Sn := X1 + X2 + . . . + Xn è gaussiana di
valore atteso pari alla somma dei valori attesi e varianza pari alla somma delle varianze:
n n
!
X X
PSn = N µi , σi2
i=1 i=1

Teorema 3.2.3 (Teorema del limite centrale). Sia {Xi }∞ i=1 una successione di v.a. indipen-
denti, identicamente distribuite, con valore atteso µ e varianza σ 2 finiti. Sia Φ(t) la legge
associata alla distribuzione gaussiana standard N (0, 1).
Per ogni n ∈ N sia X n la media campionaria di X1 , . . . , Xn e sia Z n la sua standardiz-
zazione:

Xn − µ
Z n := .
√σ
n

Allora 
lim P Z n ≤ t = Φ(t) ∀t ∈ R
n→∞

ed il limite è uniforme in t ∈ R.

Osservazione 3.2.2. Una formulazione equivalente della tesi del teorema del limite centrale
è  Pn 
i=1 Xi − nµ
lim P √ ≤ t = Φ(t) ∀t ∈ R.
n→∞ σ n
Esempio 3.2.4. Supponiamo di avere un campione statistico di numerosità 25 e deviazione
standard 8. Qual è la probabilità che la media campionaria differisca dal valore atteso del
campione per più di 4?
Devo calcolare 
P X − µ > 4

22
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

 
dove µ = E [Xi ] ∀i = 1, . . . , n e dunque è anche µ = E X . Applicando la disuguaglianza
di Chebychev otteniamo
 
 Var X 64 4
P X −µ >4 ≤

2
= = = 0.16
4 25 · 16 25
Proviamo ad applicare il teorema del limite centrale. Indico con Z la standardizzazione
della media campionaria. Si ha
! !
 X − µ 4 4
P X − µ > 4 = P σ > σ = P Z > 8 =
√ √ √
n n 25
     
5 5 −5
=P Z > =P Z> +P Z <
2 2 2
' 1 − Φ (2.5) + Φ (−2.5) = 2 (1 − Φ (2.5))
= 2 (1 − Φ (2.5)) ' 2 (1 − 0.9938) = 0.0124

Perché questa stima sembra tanto migliore di quella ottenuta con la disuguaglianza di Che-
bychev? Perché non abbiamo un’indicazione sul significato del primo dei '. In altre parole,
il teorema del limite centrale è appunto un teorema di passaggio al limite e non fornisce
una stima dell’errore che si compie sostituendo P (Zn ≤ t) con Φ(t). A tal proposito vale il
seguente
Teorema 3.2.4 (Teorema di Berry–Esseen). Sia {Xi }∞ i=1 una successione di v.a. indipen-
denti, identicamente
h i distribuite, con valore atteso µ = 0, varianza σ 2 e momento terzo
γ := E |Xi |3 finiti. Sia Φ(t) la funzione di ripartizione associata alla distribuzione gaussiana
standard N (0, 1).
0.8γ
Sia C := 3 . Allora
σ
!
Xn C
P ≤ t − Φ(t) ≤ √ ∀t ∈ R.

σ

n
n

Dal Teorema di Berry–Esseen, teorema 3.2.4, otteniamo dunque


 C
P Z n ≤ t − Φ(t) ≤ √ ∀t ∈ R.
n

3.3 Alcune distribuzioni legate alla distribuzione gaussiana

3.3.1 Distribuzione di Pearson (o χ2 ) con n gradi di libertà, χ2n

Si tratta della distribuzione Γ(α, λ) dove α = n2 , λ = 12 . È dunque la distribuzione associata


alla densità   n
 1  1 2 x n2 −1 exp −x  x > 0,

f (x) := Γ n2 2 2

0 x ≤ 0,
Z +∞
dove Γ(a) := xa−1 e−x dx, a > 0.
0

23
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

  3.3.1. Abbiamo visto che ∀a > 0 si ha Γ(a + 1) = aΓ(a) e che Γ(1) = 1.


Osservazione
1 √
Inoltre Γ = π. Infatti (con la sostituzione x = y 2 )
2
  Z +∞ Z +∞

Z
1 −1/2 −x/2 −y 2 2
Γ = x e dx = 2 e dy = e−y dy = π.
2 0 0 R

Quindi

1√ 3 · 1√ 3!! √
       
3 1 1 5 3 3
Γ = Γ = π, Γ = Γ = π = 2 π,
2 2 2 2 2 2 2 2·2 2
(2k − 1)!! √
 
2k + 1
... Γ = π per ogni intero non-negativo k.
2 2k

Proprietà 3.3.1. Se X è una v.a. con distribuzione χ2 a n gradi di libertà, PX = χ2n , allora

E [X] = n, Var [X] = 2n.

Dimostrazione. Poiché una v.a. con distribuzione Γ(α, λ) ha valore atteso α/λ e varianza
α/λ2 , in particolare per una v.a. con distribuzione di Pearson abbiamo
n n
2 2
E [X] = 1 = n, Var [X] = = 2n.
1 2

2 2

Lemma 3.3.1. Se X e Y sono due variabili aleatorie indipendenti, con distribuzioni PX =


Γ(α, λ), PY = Γ(β, λ), allora la v.a. X + Y ha distribuzione Γ(α + β, λ).

Dimostrazione. Sappiamo che la distribuzione di X + Y è a.c. con densità h(x) data dal
prodotto di convoluzione delle densità associate alle distribuzioni Γ(α, λ) e Γ(β, λ). Dunque
h(x) = 0 per x ≤ 0. Per x > 0 abbiamo invece
x
λα α−1 −λy λβ
Z
h(x) = y e (x − y)β−1 e−λ(x−y) dy
0 Γ(α) Γ(β)
Z x
λα+β
= e−λx y α−1 (x − y)β−1 dy = (sostituisco y = xt)
Γ(α)Γ(β) 0
α+β xα+β−1 Z 1
−λx λ
=e tα−1 (1 − t)β−1 dt = Cxα+β−1 e−λx
Γ(α)Γ(β) 0
Z 1
λα+β
dove C = tα−1 (1 − t)β−1 dt. Poiché h deve essere una densità di probabilità può
Γ(α)Γ(β) 0
λα+β
solo essere C = .
Γ(α + β)

Teorema 3.3.2. Se X e Y sono due variabili di Pearson indipendenti, PX = χ2n , PY = χ2k ,


allora la v.a. X + Y segue la distribuzione di Pearson a n + k gradi di libertà:

PX+Y = χ2n+k .

24
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Dimostrazione. Scegliendo α = n2 , β = k2 , λ = 1
2 nel Lemma 3.3.1, si ottiene la tesi.

Il seguente teorema dà un legame tra la distribuzione gaussiana e le distribuzioni χ2 :

Teorema 3.3.3. Se X è una v.a. gaussiana standard, PX = N (0, 1), allora X 2 segue la
distribuzione di Pearson ad un grado di libertà, PX 2 = χ21 .
1 2
Dimostrazione. Sappiamo che PX = N (0, 1) = f (x)dx con f (x) = √ e−x /2 . Dunque

PX 2 = g(x)dx con
(
0 x ≤ 0,
g(x) =
√1 x−1/2 e−x/2 x > 0,

cioè PX 2 = χ21 .

Teorema 3.3.4. Se X1 , . . . , Xn sono v.a. indipendenti e gaussiane, con Xi di valore atteso


n 
Xi − µi 2
X 
µi e varianza σi2 , ∀i = 1, . . . , n, allora la v.a. segue la distribuzione di Pearson
σi
i=1
a n gradi di libertà, χ2n .
Xi − µi
Dimostrazione. Poiché la v.a. ha distribuzione gaussiana standard, applicando i teo-
σi
remi 3.3.3 e 3.3.2 ed il principio di induzione si ottiene la tesi.

Corollario 3.3.5. Se X1 , . . . , Xn è un campione statistico gaussiano, con valore atteso µ e


n 
Xi − µ 2
X 
2
varianza σ , allora la v.a. segue una distribuzione χ2 con n gradi di libertà.
σ
i=1

Esempio 3.3.1. Si vuole localizzare un oggetto puntiforme, misurandone le tre coordinate


cartesiane rispetto ad un prefissato sistema di riferimento. L’errore sperimentale, misurato in
millimetri per ciascuna delle tre coordinate è una v.a. gaussiana di valore atteso 0 e deviazione
standard 2.
Supponendo che i tre errori siano v.a. indipendenti, calcolare la probabilità che la distanza
tra la posizione misurata e la posizione reale sia inferiore a 1.2 mm.
Soluzione. Indico con X1 , X2 , X3 , gli errori commessi nella misurazione delle tre coordi-
nate. Per il Teorema di Pitagora la distanza tra le due posizioni è
q
D = X12 + X22 + X32

Vogliamo calcolare P (D < 1.2) = P D2 < 1.44 = P X12 + X22 + X32 < 1.44 .
 
Xi Xi
Pongo Zi := = , i = 1, 2, 3, da cui Xi2 = 4Zi2 e dunque
σ 2

P (D < 1.2) = P X12 + X22 + X32 < 1.44 = P 4 Z12 + Z22 + Z32 < 1.44
  

= P Z12 + Z22 + Z32 < .36 .




Basterà dunque controllare (vedi ultima riga del listato a seguire) il valore della funzione di
ripartizione delle v.a. di distribuzione χ23 nel punto 0.36 che è (circa) 0.052.

25
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

> setwd("/home/laura/Documents/didattica/2017-18_analisi_reale/alcuni_appunti")
> .x <- seq(0.015, 18.015, length.out=100)
> plot(.x, dchisq(.x, df=3), xlab="x", ylab="Density",
+ main=paste("ChiSquared Distribution: Degrees of freedom=3"), type="l")
> plot(.x, pchisq(.x, df=3), xlab="x", ylab="Density",
+ main=paste("ChiSquared Distribution: Degrees of freedom=3"), type="l")
> abline(h=0.36, col="red")
> pchisq(c(0.36), df=3, lower.tail=TRUE)
[1] 0.05162424
Il seguente teorema raccoglie alcune importanti proprietà dei campioni statistici gaussiani
e delle loro media e varianza campionarie.
Teorema 3.3.6. Sia X1 , . . . , Xn un campione statistico gaussiano di numerosità n, valore
atteso µ e varianza σ 2 .
Allora, la media campionaria X e la varianza campionaria S 2 sono v.a. indipendenti.
Sia Z1 , Z2 , . . . Zn la standardizzazione del campione statistico X1 , . . . , Xn i.e.
Xi − µ
Zi := ∀i = 1, . . . , n
σ
e sia Z la media campionaria del campione normalizzato Z1 , . . . , Zn .
n
X −µ X 2
Allora Z = e la v.a. Zi − Z sono indipendenti e quest’ultima segue una distri-
σ
i=1
buzione χ2 con n − 1 gradi di libertà.
Dimostrazione. 1. n = 2. Sappiamo che PX1 +X2 = N 2µ, 2σ 2 e PX = N µ, σ 2 /2 . Inoltre
 

1
S 2 = (X1 − X)2 + (X2 − X)2 = (X1 − X2 )2 .
2
Dunque X e S 2 sono indipendenti se e solo se X1 + X2 e X1 − X2 sono indipendenti. Poiché
P−X2 = N −µ, σ 2 abbiamo che PX1 −X2 = N 0, 2σ 2 .
Per provare che U := X1 + X2 e V := X1 − X2 sono indipendenti ne calcoliamo la
densità congiunta e mostriamo che è uguale al prodotto delle densità
 marginali. Abbiamo già
visto che PX1 +X2 = N 2µ, 2σ 2 . Inoltre, poiché P−X2 = N −µ, σ 2 abbiamo che PX1 −X2 =
N 0, 2σ 2 . Posto
ϕ : (x, y) ∈ R2 7→ (x + y, x − y) ∈ R2
abbiamo
(U, V ) = ϕ ◦ (X1 , X2 )
dunque, per ogni funzione boreliana non-negativa ψ : R2 → R abbiamo
Z Z
ψ(u, v)PU,V (dudv) = ψ(x + y, x − y)PX1 ,X2 (dxdy)
R2 R2
−(x − µ)2 −(y − µ)2
Z    
1
= ψ(x + y, x − y) exp exp dxdy
R2 2πσ 2 2σ 2 2σ 2
con il cambiamento di variabile u = x + y, v = x − y
−(u − 2µ)2 −v 2
Z    
1
= ψ(u, v) √ exp √ exp √ dudv
R2 2π( 2σ)2 2( 2σ)2 2( 2σ)2

26
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Figura 3.3: χ23 , χ210 e χ2100 , densità e funzione di ripartizione

27
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

ovvero la densità congiunta è il prodotto delle densità marginali

−(u − 2µ)2 −v 2
   
1 1
fX1 +X2 (u) = q √ exp √ , fX1 −X2 (v) = q √ exp √ .
2π( 2σ)2 2( 2σ)2 2π( 2σ)2 2( 2σ)2

Inoltre, se Z1 e Z2 sono gaussiane standard indipendenti abbiamo:

Z1 − Z2 2
 
2 2 1 2
(Z1 − Z) + (Z2 − Z) = (Z1 − Z2 ) = √ .
2 2
Z1 − Z2
La v.a. Z1 − Z2 ha distribuzione N (0, 2), dunque √ ha distribuzione N (0, 1). Appli-
2
cando il Teorema 3.3.3 otteniamo la tesi.
2
2. n ≥ 3. Procediamo per induzione, supponendo che X n−1 e Sn−1 siano indipendenti.
Osserviamo che
n
1X 1  n−1 1
Xn = Xi = (n − 1)X n−1 + Xn = X n−1 + Xn (3.1)
n n n n
i=1

e dunque
1 
X n − X n−1 = Xn − X n−1 .
n
Abbiamo dunque
n n
1 X 2 1 X 2
Sn2 = Xi − X n = Xi − X n−1 + X n−1 − X n
n−1 n−1
i=1 i=1
n n n
!
1 X 2 X   X 2
= Xi − X n−1 + 2 X n−1 − X n Xi − X n−1 + X n−1 − X n
n−1
i=1 i=1 i=1
1  2
2   2 
= (n − 2)Sn−1 + Xn − X n−1 + 2 X n−1 − X n n X n − X n−1 + n X n−1 − X n
n−1 
1 2
2 2   1 2
= (n − 2)Sn−1 + Xn − X n−1 − Xn − X n−1 Xn − X n−1 + Xn − X n−1
n−1 n n
 
1 2 n−1 2
= (n − 2)Sn−1 + Xn − X n−1 (3.2)
n−1 n
2 . Avremo dunque che S 2 e X
Per la (3.1) e l’ipotesi di induzione X n è indipendente da Sn−1 n n
sono indipendenti se e solo se X n e Xn − X n−1 sono indipendenti.
σ2
 
Sappiamo che PXn = N µ, , dunque
n

σ2 σ2
     
2 n
PX n = N µ, , PX n−1 = N µ, , PXn −X n−1 = N 0, σ ,
n n−1 n−1
n−1 1
Devo provare che U := X n−1 + Xn e V = Xn − X n−1 sono indipendenti. Osserviamo
n n
che  
 n−1 1
(U, V ) = ϕ ◦ X n−1 , Xn , ϕ(x, y) = x + y, y − x .
n n

28
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Sia dunque ψ : R2 → R una funzione di Borel non negativa. Abbiamo


 
n−1
Z Z
1
ψ(u, v)PU,V (dudv) = ψ x + y, y − x PX n−1 ,Xn dxdy
R2 R2 n n

−(n − 1)(x − µ)2 − (y − µ)2
   
n−1 n−1
Z
1
= ψ x + y, y − x exp dxdy
R2 n n 2πσ 2 2σ 2
n−1 1
con il cambiamento di variabile u = x + y, v = y − x
n n
 r !2 
n−1
√ √ 2 !  −v 2 
Z
n−1 −(u − µ)2 ( n)  n 
= ψ(u, v) exp exp   dudv
 
2 2πσ 2 2σ 2 2σ 2
R  
 

 
 
 
 −(u − µ)2  −v 2
Z
1 1  
= ψ(u, v) q exp   2  q exp  !2  dudv
 
2 n
2πσ 2 n−1
r
R2 2π σn 2 √σn n−1 

2 σ
 
n

ovvero la densità congiunta è il prodotto delle densità marginali. Questo prova l’indipendenza
di U e V e dunque la prima parte della tesi.
Per dimostrare la seconda parte della tesi, osserviamo che essa è sicuramente vera per
n − 1, grazie al Teorema 3.3.3. Procediamo per induzione e riconsideriamo ora la formula
(3.2) e supponiamo che essa non sia relativa al campione X1 , . . . , Xn ma alla sua versione
standardizzata Z1 , . . . , Zn :
n r !2
X 2 n − 1
Zi − Z n = (n − 1)Sn2 = (n − 2)Sn−1 2

+ Zn − Z n−1 .
n
i=1
 
n
Poiché il campione Z1 , . . . , Zn è gaussiano standard, PZn −Z n−1 = N 0, dunque la
r n−1
n−1 
v.a. Zn − Z n−1 è gaussiana standard e quindi il suo quadrato segue una distribu-
n 2
zione di Pearson con un grado di libertà. D’altra parte, per induzione, n−1
P
i=1 Zi − Z n−1 =
2 (Z) segue una distribuzione di Pearson a n − 2 gradi di libertà. Per il Teorema
(n − 2)Sn−1
3.3.2 otteniamo la tesi.

Corollario 3.3.7. Sia X1 , . . . , Xn un campione statistico gaussiano di numerosità n, valore


S2
atteso µ e varianza σ 2 e sia S 2 la sua varianza campionaria. Allora la v.a. V := (n − 1) 2
σ
segue una distribuzione χ2 con n − 1 gradi di libertà.
Dimostrazione. Si ha infatti
n n n
S2 1 X 2 1 X 2 X 2
V = (n − 1) 2
= 2
Xi − X = 2
(µ + σZi ) − (µ + σZ) = Zi − Z
σ σ σ
i=1 i=1 i=1

29
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

3.3.2 Distribuzione t di Student con n gradi di libertà, t(n)


Si chiama cosı̀ la distribuzione associata alla densità
 
n+1
Γ  −(n+1)
x2

2 2
τn (x) =  n  √ 1+ x ∈ R.
Γ nπ n
2
Proprietà 3.3.2. Se X è una v.a. con distribuzione t di Student a n gradi di libertà, allora
 n

se n ≥ 3,
E [X] = 0, Var [X] = n − 2
+∞ se n = 1, 2.

Osservazione 3.3.2. Il quantile di livello α ∈ (0, 1) associato alla distribuzione t(n) si indica
tn,α . Poiché la densità τn è una funzione pari, se PX = t(n), allora FX (x) + FX (−x) = 1.
Dunque per i quantili della distribuzione t(n) si ha tn,α = −tn,1−α per ogni α ∈ (0, 1).

Teorema 3.3.8. Se Z è una v.a. gaussiana standard, PZ = N (0, 1), se Y segue la distribuzio- √
Z n
ne χ2 con n gradi di libertà, PY = χ2n e se Z e Y sono indipendenti, allora la v.a. T := √
Y
segue la distribuzione t di Student a n gradi di libertà: PT = t(n).
 √
z n y > 0
Dimostrazione. Possiamo scrivere T = ϕ ◦ (Y, Z) dove ϕ : (y, z) ∈ R 7→ 2 y ∈ R.
0 y≤0

Sia dunque ψ : R → R una funzione di Borel non negativa.
Z Z  √ 
z n
ψ(t)PT (dt) = ψ √ PY,Z (dydz)
R y>0,z∈R y
 √   n    2
−y −z
Z
z n 1 1 1 2 n −1
= ψ √ √  n  y 2 exp exp dydz
y>0,z∈R y 2π Γ 2 2 2
2
√ √ √
z n t y y
con il cambio di variabile t = √ , z = √ , dz = √ dt,
y n n
  n Z +∞
−yt2
   
−y
Z
1 1 1 2 1 n
−1
= ψ(t) √ y 2 y 2 exp exp dt
2nπ Γ n
 
R 2 0 2 2n
2
−1 −1
t2 t2 t2
   
y
con il cambio di variabile u = 1+ , y = 2u 1 + , dy = 2 1 + du,
2 n n n
 
Z   n Z +∞  2
 −(n+1)
1 1 1 2 n+1 t 2
= ψ(t) √ n  (2u) 2 −1 exp(−u) 1 + du dt
R 2nπ Γ 2 0 n
2
 n   −(n+1)
t2
Z  
1 1 1 2 2 n+1
= ψ(t) √ 1+ Γ dt
2nπ Γ n
 
R 2 n 2
2
da cui la tesi.

30
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Figura 3.4: t(3), t(10), t(100), densità e funzione di ripartizione

Corollario 3.3.9. Se X1 , . . . , Xn è un campione statistico gaussiano di numerosità n, valore


atteso µ e varianza σ 2 , allora
√
X −µ n
T :=
S

31
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

segue la distribuzione t di Student con n − 1 gradi di libertà: PT = t(n − 1).

X −µ S2
Dimostrazione. Basta applicare il teorema 3.3.8 con Z = e Y = V = (n − 1) .
√σ σ2
n

32
4. Stimatori di massima versosimiglianza

Sia X1 , . . . , Xn un campione statistico e sia Y = ϕ (X1 , . . . , Xn ) una sua statistica. Se Y


ha lo scopo di stimare un parametro θ della distribuzione del campione, diciamo che Y è uno
stimatore del parametro θ.
Supponiamo di conoscere la distribuzione del campione a meno di un parametro θ e
supponiamo che tale distribuzione sia discreta o assolutamente continua e dunque dotata di
densità (discreta o meno). Tale densità dipenderà dal parametro θ e la indico col simbolo
g(x|θ).La distribuzione congiunta si indica col simbolo f (x1 , . . . , xn |θ) e sappiamo che

n
Y
f (x1 , . . . , xn |θ) = g(x1 |θ) · . . . · g(xn |θ) = g(xi |θ).
i=1

Interpreto f (x1 , . . . , xn |θ) come la plausibilità che la n-upla x1 , . . . , xn si realizzi nel cam-
pione empirico quando il parametro incognito prende il valore θ. Sappiamo infatti che, se f è
continua nel punto (x1 , . . . , xn , θ), allora
 
δ δ
P kX1 − x1 k < , . . . , kXn − xn k <
2 2
n  !
Y δ δ
= P (X1 , . . . , Xn ) ∈ xi − , xi + ' f (x1 , . . . , xn |θ) δ n
2 2
i=1

Dunque: dato il campione empirico x1 , . . . , xn , cerco θb = θ(x b 1 , . . . , xn ) che massimizza


la funzione f (x1 , . . . , xn |θ). La statistica θ = θ(X1 , . . . , Xn ) si dirà stimatore di massima
b b
verosimiglianza del parametro θ.

Osservazione 4.0.1. Poiché la funzione lnQ: (0, +∞) → R è strettamente monotona cre-
scente, massimizzare f (x,P n1 , . . . , x, n| θ) = ni=1 g(xi |θ) equivale a massimizzare la funzione
ln f (x, n1 , . . . , x, n| θ) = ni=1 ln g(xi |θ) e si ha

n n n
∂ ∂ X X ∂ X 1 ∂g(xi |θ)
ln f (x, n1 , . . . , x, n| θ) = ln g(xi |θ) = ln g(xi |θ) =
∂θ ∂θ ∂θ g(xi |θ) ∂θ
i=1 i=1 i=1

4.1 Distribuzione di Bernoulli

Sappiamo che la distribuzione di Bernoulli dipende dal solo parametro p = PX = 1. Sia


dunque X1 , . . . , Xn un campione statistico di Bernoulli di parametro incognito p ∈ [0, 1].

33
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Realizzo n prove di Bernoulli e ottengo il campione empirico x1 , . . . , xn , xi ∈ {0, 1}.

f (x1 , . . . , xn |p) = P (X1 = x1 , . . . , Xn = xn ) = pk (1 − p)n−k ,


n
X
k = k(x1 , . . . , xn ) := xi .
i=1

Abbiamo
∂f
= kpk−1 (1 − p)n−k − (n − k)pk (1 − p)n−k−1
∂p
k
= pk−1 (1 − p)n−k−1 (k − np) R 0 ⇐⇒ k − np R 0 ⇐⇒ p Q .
n
Pn
Xi
Poiché k = ni=1 xi , lo stimatore di massima verosimiglianza per il parametro p è
P i=1
n
cioè la media campionaria X.

4.2 Distribuzione di Poisson

La distribuzione di Poisson è concentrata sugli interi nonnegativi e dipende da un solo


parametro:
λx
g(x|λ) = e−λ , x = 0, 1, . . .
x!
e dunque
n  xi

−λ λ
Y
f (x1 , . . . , xn |λ) = e
xi !
i=1

n  xi

−λ λ
X
ln f (x1 , . . . , xn |λ) = ln e
xi !
i=1
n
X n
X
= (−λ + xi ln(λ) − ln(xi !)) = −nλ + nx ln(λ) − ln(xi !)
i=1 i=1

Da cui  
∂ x
ln f (x1 , . . . , xn |λ) = n −λ + R 0 ⇐⇒ λ Q x.
∂λ λ
Quindi anche in questo caso o stimatore di massima verosimiglianza per il parametro λ è la
media campionaria X.

4.3 Distribuzione gaussiana

In questo caso la densità dipende da due parametri, µ ∈ R e σ > 0:


n
−(xi − µ)2
 
Y 1
f (x1 , . . . , xn |µ, σ) = √ exp
2πσ 2 2σ 2
i=1
 Pn
− i=1 (xi − µ)2

−n
−n
= (2π) 2 (σ) exp
2σ 2

34
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

cosicché
n
n 1 X
ln f (x1 , . . . , xn |µ, σ) = − ln(2πσ 2 ) − 2 (xi − µ)2
2 2σ
i=1
n
n 1 X
= − ln(2π) − n ln(σ) − 2 (xi − µ)2 .
2 2σ
i=1

Si ha quindi
n
∂ 1 X
ln f (x1 , . . . , xn |µ, σ) = 2 (xi − µ) = n (x − µ) ,
∂µ σ
i=1
n n
!
∂ −n 1 X 1 X
ln f (x1 , . . . , xn |µ, σ) = + 3 (xi − µ)2 = 3 −nσ + 2
(xi − µ)2 .
∂σ σ σ σ
i=1 i=1

Dunque le due derivate parziali si annullano contemporaneamente se e solo se


n n
2 1X n−1 1 X
µ = x, σ = (xi − x)2 = (xi − x)2 .
n n n−1
i=1 i=1

Dunque la media campionaria X è uno stimatore di massima verosimiglianza per il valore


n−1 2
atteso µ mentre S è uno stimatore di massima verosimiglianza per la varianza σ 2 .
n

4.4 Distribuzione uniforme su un intervallo

Se (a, b) è l’intervallo, allora la densità del campione è


(
1
x ∈ [a, b],
g(x|a, b) = b−a
0 altrimenti

da cui (
1
(b−a)n xi ∈ [a, b] ∀i = 1, . . . , n,
f (x1 , . . . , xn |a, b) =
0 altrimenti.
1
Devo massimizzare (b−a) n con il vincolo a ≤ xi ≤ b per ogni i = 1, . . . , n. Devo dunque
minimizzare la lunghezza dell’intervallo b − a con il vincolo a ≤ xi ≤ b per ogni i = 1, . . . , n.
È dunque
a = min {x1 , . . . , xn } , b = min {x1 , . . . , xn } .
Dunque
min {X1 , . . . , Xn } , max {X1 , . . . , Xn }
sono stimatori di massima verosimiglianza rispettivamente per l’estremo inferiore e per l’e-
stremo superiore dell’intervallo.

35
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

36
5. Intervalli di confidenza

La media campionaria e la varianza campionaria ci offrono una stima dei parametri valore
atteso e varianza del campione statistico in esame. Abbiamo però bisogno di sapere quanto ci
si possa fidare di questa stima ovvero quale sia la probabilità che il vero valore del parametro
incognito non sia troppo distante dalla stima trovata.
Diamo perciò la seguente definizione:
Definizione 5.0.1 (Intervallo di confidenza). Sia X1 , . . . , Xn un campione statistico e sia
θ un parametro (ignoto) che caratterizza la distribuzione del campione.
Siano Li = li (X1 , . . . , Xn ) e Ls = ls (X1 , . . . , Xn ) due statistiche del campione e sia
α ∈ (0, 1). Dico che l’intervallo (Li , Ls ) è un intervallo di confidenza (o di fiducia) di livello
1−α se P (θ ∈ (Li , Ls )) ≥ 1−α, ovvero che (Li , Ls ) è un intervallo di confidenza (o di fiducia)
di errore α se P (θ ∈
/ (Li , Ls )) ≤ α.
Dico che la semiretta (Li , +∞) è un intervallo di confidenza unilaterale superiore di livello
1 − α se P (θ > Li ) ≥ 1 − α
Dico che la semiretta (−∞, Ls ) è un intervallo di confidenza unilaterale inferiore di livello
1 − α se P (θ < Ls ) ≥ 1 − α
Osservazione 5.0.1. 1. La scelta dei nomi delle due statistiche non è casuale: Li sta per
limitazione inferiore mentre Ls sta per limitazione superiore.
2. Di solito si è interessati a piccoli valori di α, più precisamente a α ∈ (10−2 , 10−1 ).
3. La disuguaglianza di Chebychev ci ha fornito un intervallo di confidenza per il valore
atteso µ del campione nel caso in cui la varianza σ 2 sia nota
 σ2
P X − µ ≥ t ≤ 2 ∀t > 0
t
ovvero
 σ2
P X − µ < t ≥ 1 − 2 ∀t > 0
t
cioè
 σ2
P X −t<µ<X +t ≥1− 2 ∀t > 0.
t
σ
Fissato α ∈ (0, 1) scelgo t = √ . La disuguaglianza di Chebychev si legge allora
α
 
σ σ
P X−√ <µ<X+√ ≥1−α ∀α ∈ (0, 1).
α α
 
σ σ
Dunque l’intervallo X − √ , X + √ è un intervallo di confidenza di livello 1 − α
α α
per il valore atteso µ del campione.

37
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

5.1 Stima per intervalli del valore atteso di campioni gaussiani

5.1.1 Campione gaussiano di cui è nota la varianza


Intervallo bilaterale
Sia X1 , . . . , Xn un campione gaussiano di valore atteso µ incognita 2
 e varianza σ nota.
Sia Z una v.a. gaussiana standard e sia α ∈ (0, 1). Calcolo P |Z| ≤ z1− α2 :
   
P |Z| ≤ z1− α2 = P −z1− α2 ≤ Z ≤ z1− α2
       
= P Z ≤ z1− 2 − P Z ≤ −z1− 2 = P Z ≤ z1− 2 − P Z ≤ z 2
α α α α (5.1)
    α α
= Φ z1− α2 − Φ z α2 = 1 − − = 1 − α.
2 2
σ2
 
X −µ
Sappiamo che PX = N µ, e che dunque ha distribuzione N (0, 1). Applichiamo
n √σ
n
X −µ
quindi la disuguaglianza (5.1) a . Si ha:
√σ
n
! !
X − µ µ−X
1−α=P ≤ z1− α2 =P −z1− α2 ≤ ≤ z1− α2
√σ √σ
n n
− σ z1− α2 σ z1− α2
 
=P √ ≤µ−X ≤ √
n n
σ z1− α2 σ z1− α2
 
=P X− √ ≤µ≤X+ √
n n
L’intervallo
σ z1− α2 σ z1− α2
 
X− √ ,X + √
n n
è dunque un intervallo di confidenza di livello 1 − α per il valore atteso µ del campione.
Osservazione 5.1.1 (Dimensionamento del campione). Fissato il livello di confidenza 1 − α,
supponiamo di voler controllare l’ampiezza dell’intervallo di confidenza Ls − Li . Nel caso in
2 σ z1− α
esame l’ampiezza dell’intervallo di confidenza è √ 2 . Se fissiamo una limitazione superiore
n
2 δ per l’ampiezza di tale intervallo, deve dunque essere
2 σ z1− α2
√ ≤ 2δ
n
ovvero 2
σ z1− α2

n≥ .
δ

Intervallo unilaterale superiore


Sia Z una v.a. tale che PZ = N (0, 1). Sappiamo che

P (Z ≤ t) = 1 − α se e solo se t = z1−α .

38
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Abbiamo dunque
!    
X −µ σ z1−α σ z1−α
1−α=P ≤ z1−α =P X −µ≤ √ =P µ≥X− √ .
√σ n n
n

Quindi la semiretta  
σ z1−α
X − √ , +∞
n
è un intervallo di confidenza unilaterale superiore di livello 1 − α.

Intervallo unilaterale inferiore


Sia Z una v.a. tale che PZ = N (0, 1). Sappiamo che

P (Z ≥ t) = 1 − α se e solo se P (Z ≤ t) = α se e solo se t = zα .

Abbiamo dunque
!    
X −µ σ zα σ zα
1−α=P ≥ zα =P X −µ≥ √ =P µ≤X− √ .
√σ n n
n

Quindi la semiretta    
σ zα σ z1−α
−∞, X − √ = −∞, X + √
n n
è un intervallo di confidenza unilaterale inferiore di livello 1 − α.

5.1.2 Campione gaussiano di cui non è nota la varianza


Intervallo bilaterale
Sia X1 , . . . , Xn un campione gaussiano 2
√ di valore atteso µ varianza σ , entrambe incognite.
(X − µ) n
Sappiamo che la v.a. T := segue la distribuzione t di Student con n − 1 gradi
S
di libertà:
PT = t(n − 1).
Sia tn−1,1− α2 il relativo quantile di livello 1 − α2 :
  α
P T ≤ tn−1,1− α2 = 1 − .
2
 
Calcolo P |T | ≤ tn−1,1− α2 :
   
P |T | ≤ tn−1,1− α2 = P −tn−1,1− α2 ≤ T ≤ tn−1,1− α2
   
= P T ≤ tn−1,1− α2 − P T ≤ −tn−1,1− α2
    α α
= P T ≤ tn−1,1− α2 − P T ≤ tn−1, α2 = 1 − − = 1 − α.
2 2

39
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Abbiamo dunque
X − µ √n
!
 
1 − α = P |T | ≤ tn−1,1− α2 =P ≤ tn−1,1− α2
S
 
S
= P X − µ ≤ √ tn−1,1− α2
n
 
−S S
= P √ tn−1,1− α2 ≤ µ − X ≤ √ tn−1,1− α2
n n
 
S S
= P X − √ tn−1,1− α2 ≤ µ ≤ X + √ tn−1,1− α2
n n
L’intervallo
S tn−1,1− α2 S tn−1,1− α2
 
X− √ ,X + √
n n
è dunque un intervallo di confidenza di livello 1 − α per il valore atteso µ del campione.

Intervallo unilaterale superiore


Sappiamo che
P (T ≤ t) = 1 − α se e solo se t = tn−1,1−α .
Abbiamo dunque
 √   
(X − µ) n S tn−1,1−α
1−α=P ≤ tn−1,1−α = P X − µ ≤ √
S n
 
S tn−1,1−α
=P µ≥X− √ .
n
Quindi la semiretta  
S tn−1,1−α
X− √ , +∞
n
è un intervallo di confidenza unilaterale superiore di livello 1 − α.

Intervallo unilaterale inferiore


Sappiamo che

P (T ≥ t) = 1 − α se e solo se P (T ≤ t) = α se e solo se t = tn−1,α .

Abbiamo dunque
 √     
(X − µ) n S tn−1,α S tn−1,α
1−α=P ≥ tn−1,α = P X − µ ≥ √ =P µ≤X− √ .
S n n
Quindi la semiretta
   
S tn−1,α S tn−1,1−α
−∞, X − √ = −∞, X + √
n n
è un intervallo di confidenza unilaterale inferiore di livello 1 − α.

40
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

5.2 Stima per intervalli della varianza di campioni gaussiani

Intervallo bilaterale
Sia X1 , . . . , Xn un campione gaussiano di valore atteso µ (incognita o nota )e varianza σ 2
incognita.
S2
Sappiamo che la v.a. V := (n − 1) 2 segue la distribuzione χ2 a n − 1 gradi di libertà.
σ
Per ogni α ∈ (0, 1) indico con χ2n−1,α il quantile di livello α della v.a. V :

FV χ2n−1,α = α

∀α ∈ (0, 1).

Osservazione 5.2.1. χ2n−1,α > 0 per ogni α ∈ (0, 1).


 
Calcolo P χ2n−1, α < V < χ2n−1,1− α :
2 2

   
P χ2n−1, α < V < χ2n−1,1− α = P V < χ2n−1,1− α −
2 2 2
  α α
− P V < χ2n−1, α = 1 − − = 1 − α.
2 2 2
Dunque

S2
 
2 2
1 − α = P χn−1, α < (n − 1) 2 < χn−1,1− α
2 σ 2
! !
1 σ2 1 (n − 1)S 2 2 (n − 1)S 2
=P 2 < < 2 =P < σ <
χn−1,1− α (n − 1)S 2 χn−1, α χ2n−1,1− α χ2n−1, α
2 2 2 2

Quindi l’intervallo !
(n − 1)S 2 (n − 1)S 2
, 2
χ2n−1,1− α χn−1, α
2 2

è un intervallo di confidenza di livello 1 − α per la varianza σ 2 del campione.

Intervallo unilaterale superiore


Sappiamo che
P (V ≤ t) = 1 − α se e solo se t = χ2n−1,1−α .
Dunque !
S2 S2
 
1 − α = P (n − 1) 2 < χ2n−1,1−α = P 2
σ > (n − 1) .
σ χ2n−1,1−α

Quindi la semiretta !
(n − 1)S 2
, +∞
χ2n−1,1−α

è un intervallo di confidenza di livello 1 − α per la varianza σ 2 del campione.

41
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Intervallo unilaterale inferiore


Sappiamo che

P (V ≥ t) = 1 − α se e solo se P (V ≤ t) = α se e solo se t = χ2n−1,α .

Dunque !
S2 S2
 
1 − α = P (n − 1) 2 > χ2n−1,α =P 2
σ ≤ (n − 1) .
σ χ2n−1,α
Quindi l’intervallo !
(n − 1)S 2
0,
χ2n−1,α

è un intervallo di confidenza di livello 1 − α per la varianza σ 2 del campione.


Esempio 5.2.1. Calcoliamo gli intervalli di confidenza per il carattere Totpor dei dati tratti
da [2], nell’ipotesi che si tratti della realizzazione di v.a. normali.

> setwd("~/Documents/didattica/2017-18_analisi_reale/alcuni_appunti/esempio_statistica")
>
> library(readr)
>
> table2 <- read_delim("~/Documents/didattica/2017-18_analisi_reale/alcuni_appunti/
table2.csv", "\t", escape_double = FALSE, trim_ws = TRUE)
Parsed with column specification:
cols(
Code = col_character(),
Totpor = col_double(),
PRA = col_double(),
PV = col_double(),
Densi = col_double(),
TenStr = col_double(),
CO2SBW = col_double(),
FirTemp = col_integer()
)
>
> ## definisco la funzione che calcola l’intervallo bilaterale con varianza nota
>
> bilat.norm = function(x,sigma,conf) { n = length(x); xbar=mean(x);
+ alpha = 1 - conf;
+ zstar = qnorm(1-alpha/2);
+ SE = sigma/sqrt(n);
+ xbar + c(-zstar*SE,zstar*SE)}
>
> # definisco la funzione che calcola l’intervallo bilaterale con varianza ignota
>
> bilat.stud = function(x,conf) { n = length(x);
+ m = n-1;
+ xbar=mean(x);
+ alpha = 1 - conf;
+ zstar = qt(1-alpha/2, m, lower.tail=TRUE);

42
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

+ SE = sd(x)/sqrt(n);
+ xbar + c(-zstar*SE,zstar*SE)
+ }
>
> # definisco la funzione che calcola l’intervallo bilaterale per la varianza
>
> bilat.chi = function(x,conf) {
+ n = length(x);
+ m = n-1;
+ alpha = 1 - conf;
+ zsup = qchisq(alpha/2, m, lower.tail=TRUE);
+ zinf = qchisq(1 - alpha/2, m, lower.tail=TRUE);
+ SE = sd(x)*sd(x)*m;
+ c(SE/zinf,SE/zsup)
+ }
>
>
> numSummary(table2[,c("Totpor", "PRA", "PV", "Densi", "TenStr", "CO2SBW", "FirTemp")],
+ statistics=c("mean", "sd", "quantiles"), quantiles=c(0,.25,.5,.75,1))
mean sd 0% 25% 50% 75% 100% n NA
Totpor 40.1193548 7.0371760 26.850 36.0550 40.900 44.4200 54.640 31 0
PRA 0.6732581 0.4760389 0.158 0.4220 0.622 0.7305 2.657 31 0
PV 55.3290323 28.5498417 10.200 30.4500 59.400 80.7000 88.600 31 0
Densi 1.6929032 0.1701214 1.340 1.5600 1.680 1.8150 2.020 31 0
TenStr 0.6092258 0.3143682 0.143 0.4065 0.527 0.7165 1.405 31 0
CO2SBW 0.5816667 0.5259152 0.050 0.2900 0.390 0.4950 1.960 30 1
FirTemp 764.8387097 52.9698636 730.000 740.0000 740.000 750.0000 960.000 31 0
>
> bilat.norm(table2$Totpor, 7.04, .9)
[1] 38.03957 42.19914
> bilat.norm(table2$Totpor, 7.04, .95)
[1] 37.64113 42.59758
>
> bilat.stud(table2$Totpor, .9)
[1] 37.97416 42.26455
> bilat.stud(table2$Totpor, .95)
[1] 37.53810 42.70061
>
> bilat.chi(table2$Totpor, .9)
[1] 33.94002 80.33757
> bilat.chi(table2$Totpor, .95)
[1] 31.62366 88.48047
>

43
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

44
6. Test d’ipotesi

Un tipico problema che ci si può trovare ad affrontare è il seguente:


Faccio una certa ipotesi (che indico con H0 e che chiamo ipotesi nulla). In base ai dati
che ho a disposizione devo decidere se accettare o rifiutare la verità di questa ipotesi.
Si potranno verificare quattro situazioni alternative:

1. L’ipotesi è vera e l’accetto → bene

2. L’ipotesi è vera ma in base ai dati la rifiuto → in questo caso si dice che si commette
errore di prima specie

3. L’ipotesi è falsa ma in base ai dati la accetto → in questo caso si dice che si commette
errore di seconda specie

4. L’ipotesi è falsa e la rifiuto → bene

Per chiarirsi le idee vediamo prima un esempio.

Esempio 6.0.1.( Ho una moneta. Voglio verificare se è bilanciata o meno. La lancio n volte.
1 se all’i-esimo lancio esce testa,
Pongo Xi = , i = 1, . . . , n.
0 se all’i-esimo lancio esce croce.
Ho un campione statistico bernoulliano di numerosità n e parametro p ∈ [0, 1] incognito,
dove p è la probabilità che esca testa in un singolo lancio.
L’ipotesi nulla che dobbiamo testare è

H0 ) p = 0.5.

Facciamo dunque n lanci. Otteniamo k teste ed n − k croci:


(
1 se all’i-esimo lancio esce testa,
x1 , . . . , xn dove xi =
0 se all’i-esimo lancio esce croce.

n
1X k
e dunque x = xi = .
n n
i=1
Stabilisco una distanza massima ε tra x e 0.5 entro la quale accettare l’ipotesi p = 0.5 e
nla quale rifiutarla. Ovvero: accetto H0 se |x − 0.5| < ε e la rifiuto se |x − 0.5| ≥ ε. cioè
oltre
X n
se xi − ≥ nε. Quanto vale la probabilità di commettere errore di prima specie, ovvero

2
i=1
di rifiutarla quando esse invece è vera?

45
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Commetto errore di prima specie con probabilità



n
!
X n
α := P Xi − ≥ nε .

2
i=1

n
X
Poiché le v.a. Xi sono i.i.d con PXi = B(p), la v.a. Y := Xi è una v.a. binomiale di
i=1
parametri n e p. Se l’ipotesi H0 è vera, allora p = 0.5 cosicché PY = B(n, 0.5) e
 n   n   n 
α := P Y − ≥ nε = P Y ≥ + nε + P Y ≤ − nε

2 2 2
Vediamo alcuni casi

> ## definisco la funzione che calcola


> ## la probabilit~
A di errore di prima specie
> alpha.binom = function(n,p,tolle) {
+ infe = n*(p - tolle);
+ supe = n*(p + tolle);
+ supep = supe;
+ if(supe == floor(supe)) supep = supe-1;
+ infe = round(infe, digits = 0);
+ c(floor(infe), floor(supe),
+ pbinom(infe, size=n, prob=p, lower.tail=TRUE) +
+ pbinom(supep, size=n, prob=p, lower.tail=FALSE))
+ }
> alpha.binom(50, .5, .1)
[1] 20.0000000 30.0000000 0.2026388
> alpha.binom(100, .5, .1)
[1] 40.00000000 60.00000000 0.05688793
> alpha.binom(200, .5, .1)
[1] 8.000000e+01 1.200000e+02 5.685156e-03
> alpha.binom(300, .5, .1)
[1] 1.2000e+02 1.8000e+02 6.3422e-04
> alpha.binom(400, .5, .1)
[1] 1.600000e+02 2.400000e+02 7.426568e-05
> alpha.binom(500, .5, .1)
[1] 2.000000e+02 3.000000e+02 8.940067e-06
> alpha.binom(50, .5, .05)
[1] 22.0000000 27.0000000 0.4798877
> alpha.binom(100, .5, .05)
[1] 45.0000000 55.0000000 0.3197273
> alpha.binom(200, .5, .05)
[1] 90.0000000 110.0000000 0.1581653
> alpha.binom(300, .5, .05)
[1] 135.0000000 165.0000000 0.0939037
> alpha.binom(400, .5, .05)
[1] 180.00000000 220.00000000 0.04563548

46
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

> alpha.binom(500, .5, .05)


[1] 225.00000000 275.00000000 0.02832616

Solitamente si vuole controllare (nel senso di tenere bassa, inferiore a 0.1 o a 0.05) la proba-
bilità α di commettere errore di prima specie. Tale probabilità viene detta livello di signifi-
catività del test. Fissato il livello di significatività α, la numerosità n e la soglia di tolleranza
ε andranno scelti di conseguenza come visto negli esempi precedenti.
Inoltre, fissato α, ci chiediamo quanto valga la probabilità di commettere errore di seconda
specie, ovvero di accettare H0 quand’essa invece è falsa.
Se H0 è falsa, allora la probabilità di ottenere testa non è 0.5 ma assume un valore p 6= 0.5
(ignoto) e dunque PY = B(n, p) e io accetto H0 con probabilità
 n   n   n 
β(p) := Pp Y − < nε = Pp Y < + nε − Pp Y ≤ − nε

2 2 2
Si calcola β(p) per vari valori di p. La funzione β(p) è detta curva operativa caratteristica
(OC) mentre 1 − β(p) cioè la probabilità di rifiutare H0 quand’essa in effetti è falsa e il
parametro incognito vale p, è detta potenza del test.

Esempio 6.0.2. Consideriamo la solita moneta e stavolta vogliamo vedere se è più probabile
ottenere testa che ottenere croce. Vogliamo cioè testare l’ipotesi nulla

H0 ) p ≤ 0.5

Un test di questo tipo è detto test unilaterale.


Stabilisco una tolleranza massima ε entro la quale accettare l’ipotesi p ≤ 0.5 e oltre la quale
n
X n
rifiutarla. Ovvero: accetto H0 se x < 0.5 + ε e la rifiuto se x ≥ 0.5 + ε cioè se xi ≥ + nε.
2
i=1
Quanto vale la probabilità di commettere errore di prima specie, ovvero di rifiutarla quando
essa invece è vera?
Commetto errore di prima specie con probabilità
 n 
α := P Y ≥ + nε .
2
Se H0 è vera, allora PY = B(n, p) per qualche p ≤ 0.5. Indico FYp la sua funzione di ripartizione
Vediamo alcuni casi

> ## definisco la funzione che calcola il primo valore


> ## che rifiuto e
> ## la probabilit~
A di errore di prima specie
> alpha.binom.uni = function(n,p,tolle) {
+ supe = n*(p + tolle);
+ supep = supe;
+ if(supe == floor(supe)) supep = supe-1;
+ c(floor(supe), pbinom(supep, size=n, prob=p, lower.tail=FALSE))
+ }
> alpha.binom.uni(50, .5, .1)
[1] 30.0000000 0.1013194

47
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

> ppp =numeric(0)


> fff =numeric(0)
> beta.p <- matrix(0, nrow = 1000, ncol = 2, byrow = FALSE)
> for (i in 1:1000) {
+ ppp[i] <- i*0.5/1000
+ fff[i] <- pbinom(c(274), size=500, prob=ppp[i], lower.tail=TRUE)
+ - pbinom(c(225), size=500, prob=ppp[i], lower.tail=TRUE)
+ beta.p[i,1] <- round(ppp[i],6)
+ beta.p[i,2] <- round(fff[i],6)
+ }
> write.csv(beta.p, "betadip.csv", row.names = FALSE)

Figura 6.1: β(p)

48
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

> alpha.binom.uni(100, .5, .1)


[1] 60.00000000 0.02844397
> alpha.binom.uni(200, .5, .1)
[1] 1.200000e+02 2.842578e-03
> alpha.binom.uni(300, .5, .1)
[1] 1.8000e+02 3.1711e-04
> alpha.binom.uni(400, .5, .1)
[1] 2.400000e+02 3.713284e-05
> alpha.binom.uni(500, .5, .1)
[1] 3.000000e+02 4.470033e-06
> alpha.binom.uni(50, .5, .05)
[1] 27.0000000 0.2399438
> alpha.binom.uni(100, .5, .05)
[1] 55.0000000 0.1356265
> alpha.binom.uni(200, .5, .05)
[1] 110.00000000 0.06868333
> alpha.binom.uni(300, .5, .05)
[1] 165.00000000 0.04695185
> alpha.binom.uni(400, .5, .05)
[1] 220.00000000 0.02011537
> alpha.binom.uni(500, .5, .05)
[1] 275.00000000 0.01416308

6.1 Principi generali di un test statistico

In generale dunque un test d’ipotesi ha la seguente struttura:

1. Si definisce l’insieme delle distribuzioni compatibili con il campione X1 , . . . , Xn .

2. Si definisce l’ipotesi da testare, detta ipotesi nulla (si indica col simbolo H0 ). Le ipotesi
si possono suddividere in due grandi famiglie:

• ipotesi parametriche: la distribuzione del campione è nota a meno di un pa-


rametro θ, scalare o vettoriale. La formula generale di un’ipotesi parametrica è
dunque
H0 : θ ∈ Θ0 ⊂ Θ
ovvero: il parametro θ appartiene ad uno specificato sottoinsieme Θ0 del dominio
ammissibile per il parametro Θ.
• ipotesi non parametriche: sono ipotesi sul tipo di distribuzione del campione
oppure ipotesi che riguardano popolazioni differenti. La formulazione generale di
una ipotesi non parametrica è del tipo

H0 : F (x) ∈ F0 ⊂ F

ovvero: la legge F del campione appartiene ad uno specificato sottoinsieme della


famiglia delle leggi ammissibili.

49
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

In entrambi i casi l’ipotesi si dice semplice se Θ0 o F0 è costituito da un solo elemento.


Si dice composta altrimenti.

3. Si definisce l’ipotesi alternativa HA che è da considerarsi valida quando si rifiuta H0 .

HA : θ ∈ Θ1 , Θ1 := Θ \ Θ0 nel caso parametrico,


HA : F (x) ∈ F1 F1 := F \ F0 nel caso non parametrico.

4. Si definisce una statistica ϕ(X1 , . . . , Xn ) con distribuzione nta quando H0 è vera.

5. Si suddivide lo spazio G delle possibili osservazioni in due insiemi disgiunti:

• A detta regione di accettazione di H0 ;


• C := G \ A detta regione di rifiuto di H0 o regione critica.

6. Si formula la regola di decisione:

• accetto H0 se ϕ(x1 , . . . , xn ) ∈ A;
• rifiuto H0 se ϕ(x1 , . . . , xn ) ∈
/ A, ovvero se ϕ(x1 , . . . , xn ) ∈ C.

Diciamo che commettiamo errore di prima specie se rigettiamo H0 quando essa in realtà è
vera e chiamiamo livello di significatività del test la probabilità che ciò accada:

α := P (ϕ(X1 , . . . , Xn ) ∈ C|H0 ) .

Il valore 1 − α è detto livello di fiducia del test.


Diciamo invece che commettiamo errore di seconda specie se accettiamo H0 quando esssa
è falsa. Indichiamo con β la probabilità che cio accada:

β := P (ϕ(X1 , . . . , Xn ) ∈ A|HA ) .

Il valore 1 − β è detto potenza del test. (Vedremo negli esempi successivi relativi a test
parametrici che se HA è un’ipotesi composta, allora β è una funzione β(θ), θ ∈ Θ1 .
Come già detto, è prioritario limitare la probabilità di commettere errore di prima specie,
cioè di limitare la probabilità di rifiutare l’ipotesi nulla quando essa è vera.

6.2 Test parametrici per campioni gaussiani

6.2.1 Test d’ipotesi per il valore atteso di campioni gaussiani di cui è nota la
varianza
Test bilaterale
Sia X1 , . . . , Xn un campione gaussiano di valore atteso µ incognito e varianza σ 2 nota.
Vogliamo testare
H0 : µ = µ0 , HA : µ 6= µ0 .
Sappiamo che PXi = N µ0 , σ 2 se e solo se E X = µ0 . Dunque accetto l’ipotesi nulla H0 se
  

la media campionaria si discosta da µ0 per meno di un valore soglia ε ovvero se |x − µ0 | < ε


e la rifiuto altrimenti.

50
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Il livello di significatività (cioè la probabilità di commettere un errore di prima specie) è


allora 
α = P X − µ0 ≥ ε|µ = µ0 .
σ2
 
X − µ0
Ma se H0 è vera, PX = N µ0 , e Z := ha distribuzione gaussiana standard
n √σ
n
N (0, 1). Dunque

X − µ0
!  √ 
 ε ε n
α = P X − µ0 ≥ ε|µ = µ0 = P σ ≥ σ |µ = µ0 = P |Z| ≥

n

n
σ
 √   √   √   √ 
ε n −ε n ε n −ε n
=P Z≥ +P Z ≤ =1−Φ +Φ
σ σ σ σ
  √ 
ε n
=2 1−Φ
σ
 √  √
ε n α ε n
Se voglio fissare a priori α, deve essere allora Φ = 1 − cioè deve essere = z1− α2
σ 2 σ
e dunque devo scegliere
σ
ε = √ z1− α2 .
n
n
1X
Presi i dati x1 , . . . , xn , sia x = xi la loro media:
n
i=1

σ
accetto H0 se |x − µ0 | < √ z1− α2 e la rifiuto altrimenti.
n
Calcoliamo la curva operativa caratteristica. Se H0 è falsa, µ 6= µ0 , commetto errore di seconda
specie con probabilità
 
σ
β(µ) = P X − µ0 < √ z1− α2 |E [Xi ] = µ

n
 
σ σ
= P µ0 − √ z1− α2 < X < µ0 + √ z1− α2 |E [Xi ] = µ
n n
(6.1)
!
µ0 − µ X −µ µ0 − µ
=P σ − z 1− α <
σ < σ + z 1− α |E [Xi ] = µ
√ 2 √ 2 √
n n n
! !
µ0 − µ µ0 − µ
=Φ + z1− α2 −Φ + z α2 .
√σ √σ
n n

Distinguiamo due casi

1. µ > µ0
µ0 − µ µ0 − µ
In questo caso < 0 dunque + z α2 < z α2 e quindi
√σ √σ
n n
!
µ0 − µ α
0<Φ + z α2 <
√σ 2
n

51
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

e la possiamo considerare una quantità trascurabile. Abbiamo dunque


!
µ0 − µ
β(µ) ∼ Φ σ + z1− α2 .

n

In particolare   α
sup β(µ) ∼ Φ z1− α2 = 1 − .
µ>µ0 2

Supponiamo di voler fissare (oltre ad α) anche β(µ) = β,


b per un qualche µ fissato. Con la
!
µ 0 − µ
semplificazione fatta dalla (6.1) otteniamo βb ≥ Φ σ + z1− α2 . L’unica quantità

n
che possiamo trattare è la numerosità n. Risolvendo l’equazione rispetto a n otteniamo
µ0 − µ
zβb ≥ + z1− α2
√σ
n

e dunque
µ0 − µ
≤ zβb + z α2 ,
√σ
n

cioè  2 
σ 2
n≥ zβb + z α2
µ0 − µ

2. µ < µ0
µ − µ0
In questo caso < 0 e scriviamo la (6.1) nella forma
√σ
n
! !
µ − µ0 µ − µ0
β(µ) = Φ − z α2 −Φ − z1− α2
√σ √σ
n n
! !
µ − µ0 µ − µ0
=Φ + z1− α2 −Φ + z α2 .
√σ √σ
n n

µ − µ0
Si ha + z α2 < z α2 e dunque
√σ
n
!
µ − µ0 α
0<Φ + z α2 <
√σ 2
n

e la possiamo considerare una quantità trascurabile. Abbiamo dunque Abbiamo dunque


!
µ − µ0
β(µ) ∼ Φ σ + z1− α2 .

n

In particolare   α
sup β(µ) ∼ Φ z1− α2 = 1 − .
µ<µ0 2

52
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Supponiamo di voler fissare (oltre ad α) anche β(µ) = β. b Con la semplificazione fatta


!
µ − µ 0
possiamo considerare l’equazione βb ≥ Φ σ + z1− α2 e ritroviamo la disuguaglian-

n
za trovata nel caso precedente:
 2 
σ 2
n≥ zβb + z α2
µ0 − µ

Test unilaterale inferiore con H0 semplice

Sia X1 , . . . , Xn un campione gaussiano di valore atteso µ incognita e varianza σ 2 nota.


Vogliamo testare
H0 : µ = µ0 HA : µ > µ0 .

Accetto l’ipotesi nulla H0 se la media campionaria è inferiore a µ0 + ε cioè se x < µ0 + ε.


La probabilità di commettere un errore di prima specie è allora

P X ≥ µ0 + ε|µ = µ0 .

σ2
 
X − µ0
Poiché, se H − 0 è vera si ha PX = N µ0 , e Z := ha distribuzione N (0, 1), si
n √σ
n
ha
!
 X − µ0 ε
P X ≥ µ0 + ε|µ = µ0 = P ≥ |µ = µ0
√σ √σ
n n
 √   √   √ 
ε n ε n ε n
=P Z≥ =1−P Z ≤ =1−Φ .
σ σ σ

n
σ 1X
Dunque scelgo ε = √ z1−α . Presi i dati x1 , . . . , xn , sia dunque x = xi la loro media.
n n
i=1

σ
Accetto H0 se x < µ0 + √ z1−α e la rifiuto altrimenti.
n

Test unilaterale inferiore con H0 composta

Sia X1 , . . . , Xn un campione gaussiano di valore atteso µ incognita e varianza σ 2 nota.


Vogliamo testare
H0 : µ ≤ µ0 HA : µ > µ0 .

Accetto l’ipotesi nulla H0 se la media campionaria è inferiore a µ0 + ε cioè se x < µ0 + ε.


La probabilità di commettere un errore di prima specie è allora

P X ≥ µ0 + ε|µ ≤ µ0 .

53
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

σ2
 
X −µ
Poiché PX = N µ, e Z := ha distribuzione N (0, 1), si ha
n √σ
n
!
   X −µ µ0 − µ + ε  
P X ≥ µ0 + ε|E X = µ = P ≥ |E X = µ
√σ √σ
n n
 √   √ 
(µ0 − µ + ε) n (µ0 − µ + ε) n
=P Z≥ =1−P Z ≤
σ σ
 √   √ 
(µ0 − µ + ε) n ε n
=1−Φ ≤1−Φ .
σ σ

Se voglio limitare superiormente P X > µ0 + ε|µ ≤ µ0 , cioè se voglio
  
P X > µ0 + ε|E X = µ ≤ α ∀µ ≤ µ0
 √  √
ε n ε n
scelgo ε in modo da avere 1 − Φ = α cioè = z1−α e dunque scelgo
σ σ
σ
ε = √ z1−α .
n
n
1X
Presi i dati x1 , . . . , xn , sia dunque x = xi la loro media.
n
i=1
σ
Accetto H0 se x < µ0 + √ z1−α e la rifiuto altrimenti.
n

Test unilaterale superiore con H0 semplice


Sia X1 , . . . , Xn un campione gaussiano di media µ incognita e varianza σ 2 nota. Vogliamo
testare
H0 : µ = µ0 Ha : µ < µ0
Accetto l’ipotesi nulla H0 se la media campionaria è superiore a µ0 − ε cioè se x > µ0 − ε. La
probabilità di commettere un errore di prima specie è allora

P X ≤ µ0 − ε|µ = µ0 .

σ2
 
X − µ0
Poiché, se H0 è vera, PX = N µ0 , , e Z := ha distribuzione N (0, 1), si ha
n √σ
n
!  √ 
 X − µ0 −ε −ε n
P X ≤ µ0 − ε|µ = µ0 = P ≤ |µ = µ0 =P Z≤
√σ √σ σ
n n
 √   √ 
−ε n ε n
=Φ =1−Φ .
σ σ
 √  √
ε n ε n
Dunque scelgo ε in modo da avere Φ = 1 − α cioè = z1−α cioè scelgo
σ σ
σ
ε = √ z1−α .
n

54
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

n
1X
Presi i dati x1 , . . . , xn , sia dunque x = xi la loro media.
n
i=1

σ
Accetto H0 se x > µ0 − √ z1−α e la rifiuto altrimenti.
n

Test unilaterale superiore con H0 composta


Sia X1 , . . . , Xn un campione gaussiano di media µ incognita e varianza σ 2 nota. Vogliamo
testare
H0 : µ ≥ µ0 HA : µ < µ0 .
Accetto l’ipotesi nulla H0 se la media campionaria è superiore a µ0 − ε cioè se x > µ0 − ε. La
probabilità di commettere un errore di prima specie è allora
  
P X ≤ µ0 − ε|E X ≤ µ0 .

σ2
 
X −µ
µ, σ 2

Poiché, se PXi = N si ha PX = N µ, , e Z := ha distribuzione N (0, 1),
n √σ
n
abbiamo anche
!
   X −µ µ0 − µ − ε  
P X ≤ µ0 − ε|E X = µ ≥ µ0 = P ≤ |E X = µ ≥ µ0 =
√σ √σ
n n
 √   √   √   √ 
(µ0 − µ − ε) n (µ0 − µ − ε) n −ε n ε n
=P Z≤ =Φ ≤Φ =1−Φ .
σ σ σ σ

Se voglio limitare superiormente P X ≤ µ0 − ε|µ ≥ µ0 cioè se voglio
  
P X ≤ µ0 − ε|E X = µ ≥ µ0 ≤ α ∀µ ≥ µ0
 √  √
ε n ε n
scelgo ε in modo da avere Φ = 1 − α cioè = z1−α e dunque scelgo
σ σ
σ
ε = √ z1−α .
n
n
1X
Presi i dati x1 , . . . , xn , sia dunque x = xi la loro media.
n
i=1

σ
Accetto H0 se x > µ0 − √ z1−α e la rifiuto altrimenti.
n

6.2.2 Campione gaussiano di cui non è nota la varianza


Test bilaterale
Sia X1 , . . . , Xn un campione gaussiano di media µ e varianza σ 2 entrambe ignote. Vogliamo
testare
H0 : µ = µ0 HA : µ 6= µ0 /

55
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

H0 è vera se e solo se E X = µ0 ovvero, per l’indipendenza di X e S 2 , se e solo se


 
√  √
√
  
(X − µ0 ) n  1 (x − µ0 ) n
E = E X − µ0 n E √ = 0. Dunque considero t := e
S S2 s
accetto l’ipotesi nulla H0 se |t| ≤ ε.

(X − µ0 ) n
Sappiamo che, se µ = µ0 , allora T := ha distribuzione t(n − 1). Il livello di
S
di significatività è allora α = P (|T | ≥ ε) e si ha

α = P (|T | ≥ ε) = P (T ≥ ε) + P (T ≤ −ε)
= 1 − FT (ε) + FT (−ε) = 2 (1 − FT (ε))
α
Se voglio fissare a priori α, deve essere allora FT (ε) = 1 − dunque devo scegliere
2
ε = tn−1,1− α2 .

Presi i dati x1 , . . . , xn , dunque accetto H0 se |t| ≤ tn−1,1− α2 e la rifiuto altrimenti, ovvero


tn−1,1− α2 s tn−1,1− α2 s
accetto H0 se µ0 − √ ≤ x ≤ µ0 + √ e la rifiuto altrimenti.
n n

Test unilaterale superiore con ipotesi nulla semplice


Sia X1 , . . . , Xn un campione gaussiano di media µ e varianza σ 2 entrambe incognite.
Vogliamo testare
H0 : µ = µ0 , H0 : µ > µ0

(x − µ0 ) n
Diamo la seguente regola di accettazione: accettiamo H0 se ≤ ε.
s
La probabilità di commettere un errore di prima specie è allora
 √ 
(X − µ0 ) n
α=P > ε|µ = µ0 = P (T > ε) = 1 − FT (ε).
S

dove PT = t(n − 1). Se vogliamo stabilire il livello di significatività α dovremmo scegliere ε


in modo che
1 − FT (ε) = α
cioè ε = tn−1,1−α . √
(x − µ0 ) n
Presi i dati x1 , . . . , xn , sia dunque t0 = . Accetto H0 se t0 ≤ tn−1,1−α ovvero
s
tn−1,1−α s
accetto H0 se x ≤ µ0 + √ e la rifiuto altrimenti.
n

Test unilaterale superiore con ipotesi nulla composta


Sia X1 , . . . , Xn un campione gaussiano di media µ e varianza σ 2 entrambe incognite.
Vogliamo testare
H0 : µ ≤ µ0 , H0 : µ > µ0

(X − µ0 ) n
Diamo la seguente regola di accettazione: accettiamo H0 se ≤ ε.
S

56
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

La probabilità di commettere un errore di prima specie è allora


 √ 
(X − µ0 ) n  
P > ε|E X = µ ≤ µ0 .
S
 
Se H0 è vera, allora E X = µ ≤ µ0 e dunque
√ √
(X − µ0 ) n (X − µ) n
≤ =: T, PT = t(n − 1).
S S
Di conseguenza  √   √ 
(X − µ0 ) n (X − µ) n
>ε ⊂ >ε
S S
Dunque, per ogni µ ≤ µ0 si ha
 √ 
(X − µ0 ) n  
P > ε|E X = µ ≤
S
 √ 
(X − µ) n  
≤P > ε|E X = µ = P (T > ε) = 1 − FT (ε).
S
Se vogliamo controllare il livello di significatività α dovremmo scegliere ε in modo che
1 − FT (ε) = α
cioè ε = tn−1,1−α . √
(x − µ0 ) n
Presi i dati x1 , . . . , xn , sia dunque t0 = . Accetto H0 se t0 ≤ tn−1,1−α ovvero
s
tn−1,1−α s
accetto H0 se x ≤ µ0 + √ e la rifiuto altrimenti.
n

Test unilaterale inferiore con ipotesi nulla semplice


Sia X1 , . . . , Xn un campione gaussiano di media µ e varianza σ 2 entrambe incognite.
Vogliamo testare
H0 : µ = µ0 , HA : µ < µ0 .

(x − µ0 ) n
Diamo la seguente regola di accettazione: accettiamo H0 se ≥ −ε.
s
La probabilità di commettere un errore di prima specie è allora
 √ 
(X − µ0 ) n
α=P < −ε|µ = µ0 = P (T < −ε) = FT (−ε)
S
dove PT = t(n − 1). Se vogliamo stabilire il livello di significatività α dovremmo scegliere ε
in modo che
FT (−ε) = α
cioè ε = −tn−1,α = tn−1,1−α . √
(x − µ0 ) n
Presi i dati x1 , . . . , xn , sia dunque t0 = . Accetto H0 se t0 ≥ −tn−1,1−α e la
s
rifiuto altrimenti, ovvero accetto H0 se
tn−1,1−α s
x ≥ µ0 − √
n
e la rifiuto altrimenti.

57
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Test unilaterale inferiore con ipotesi nulla composta


Sia X1 , . . . , Xn un campione gaussiano di media µ e varianza σ 2 entrambe incognite.
Vogliamo testare l’ipotesi
H0 : µ ≥ µ0 , HA : µ < µ0 .

(x − µ0 ) n
Diamo la seguente regola di accettazione: accettiamo H0 se ≥ −ε.
s
La probabilità di commettere un errore di prima specie è allora
 √ 
(X − µ0 ) n  
P < −ε|E X = µ ≥ µ0 .
S
 
Se H0 è vera, allora E X = µ ≥ µ0 e dunque
√ √
(X − µ0 ) n (X − µ) n
≥ =: T, PT = t(n − 1).
S S
Di conseguenza  √   √ 
(X − µ0 ) n (X − µ) n
< −ε ⊂ < −ε
S S
Dunque per ogni µ ≥ µ0 si ha
 √   √ 
(X − µ0 ) n   (X − µ) n  
P < −ε|E X = µ ≤ P < −ε|E X = µ
S S
= P (T < −ε) = FT (−ε) = 1 − FT (ε).
Se vogliamo controllare il livello di significatività α dovremmo scegliere ε in modo che
1 − FT (ε) = α
cioè ε = tn−1,1−α . √
(x − µ0 ) n
Presi i dati x1 , . . . , xn , sia dunque t0 = . Accetto H0 se t0 ≥ −tn−1,1−α e la
s
rifiuto altrimenti, ovvero
tn−1,1−α s
accetto H0 se x ≥ µ0 − √ e la rifiuto altrimenti.
n

6.3 Test d’ipotesi per la varianza di campioni gaussiani

Test bilaterale
Sia X1 , . . . , Xn un campione gaussiano di media µ (nota o incognita) e varianza σ 2 incognita.
Vogliamo testare
H0 : σ 2 = σ02 HA : σ 2 6= σ02
 2
S
H0 è vera se e solo se E S 2 = σ02 ovvero se e solo se E 2 = 1. Dunque accetto H0 se
 
σ0
s 2
1 − ε1 < 2 < 1 + ε2 , ε1 , ε2 positivi, cioè se e solo se
σ0
(n − 1)s2
(n − 1)(1 − ε1 ) < < (n − 1)(1 + ε2 ).
σ2

58
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Devo scegliere ε1 e e2 in modo da ottenere il livello di significatività α desiderato. Sappiamo


(n − 1)S 2
che se H0 è vera, allora la v.a. V := ha distribuzione χ2n−1 .
σ2

S2
   2 
2 2 S 2 2
α=P > 1 + ε2 |σ = σ0 + P < 1 − ε1 |σ = σ0
σ02 σ02
(n − 1)S 2 (n − 1)S 2
   
2 2 2 2
=P > (n − 1)(1 + ε2 )|σ = σ0 + P < (n − 1)(1 − ε1 )|σ = σ0
σ02 σ02
= P (V > (n − 1)(1 + ε2 )) + P (V < (n − 1)(1 − ε1 )) .

Una possibile scelta è allora


α
P (V > (n − 1)(1 + ε2 )) = cioè (n − 1)(1 + ε2 ) = χ2n−1,1− α
2 2
α
P (V < (n − 1)(1 − ε1 )) = cioè (n − 1)(1 − ε1 ) = χ2n−1, α .
2 2

(n − 1)s2
Dunque accetto H0 se χ2n−1, α < < χ2n−1,1− α ovvero
2 σ02 2

σ02 2 σ02 2
accetto H0 se χn−1, α < s2 < χ α e la rifiuto altrimenti.
n−1 2 n − 1 n−1,1− 2

Test unilaterale inferiore con ipotesi semplice


Sia X1 , . . . , Xn un campione gaussiano di media µ (nota o incognita) e varianza σ 2 incognita.
Vogliamo testare
H0 : σ 2 = σ02 HA : σ 2 > σ02 .
s2
Accetto l’ipotesi nulla se ≤ 1 + ε.
σ02
(n − 1)S 2
Se la varianza è σ02 , allora V := ha distribuzione χ2n−1 e la probabilità di
σ02
commettere errore di prima specie è
 2
(n − 1)S 2
  
S 2 2 2 2
P > 1 + ε|σ = σ0 = P > (n − 1)(1 + ε)|σ = σ0 = 1−FV ((n − 1)(1 + ε)) .
σ02 σ02
Posso allora limitare superiormente con α la probabilità di commettere errore di prima specie
imponendo
1 − FV ((n − 1)(1 + ε)) = α
cioè scegliendo ε in modo che

(n − 1)(1 + ε) = χ2n−1,1−α .

(n − 1)s2
Dunque accetto l’ipotesi nulla H0 se < χ2n−1,1−α ovvero
σ02

σ02 2
acccetto H0 se s2 < χ e la rifiuto altrimenti.
n − 1 n−1,1−α

59
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Test unilaterale inferiore con ipotesi composta


Sia X1 , . . . , Xn un campione gaussiano di media µ (nota o incognita) e varianza σ 2 incognita.
Vogliamo testare
H0 : σ 2 ≤ σ02 HA : σ 2 > σ02 .
s2
Accetto l’ipotesi nulla se ≤ 1 + ε.
σ02
(n − 1)S 2
Se la varianza è σ 2 ≤ σ02 , allora V := ha distribuzione χ2n−1 e la probabilità di
σ2
commettere errore di prima specie è
 2
(n − 1)S 2 σ02
  
S 2 2
P > 1 + ε|Var [X i ] = σ ≤ σ 0 = P > (n − 1)(1 + ε)|Var [Xi ] = σ ≤ σ 0
σ02 σ2 σ2
σ2 σ02
   
= P V > 02 (n − 1)(1 + ε) = 1 − FV (n − 1)(1 + ε)
σ σ2
≤ 1 − FV ((n − 1)(1 + ε))

σ2
dove abbiamo usato la monotonia di FV e il fatto che σ 2 ≤ σ02 implica ≤ 1.
σ02
Posso allora limitare superiormente con α la probabilità di commettere errore di prima
specie imponendo
1 − FV ((n − 1)(1 + ε)) = α
cioè scegliendo ε in modo che

(n − 1)(1 + ε) = χ2n−1,1−α .

(n − 1)s2
Dunque accetto l’ipotesi nulla H0 se < χ2n−1,1−α ovvero
σ02

σ02 2
accetto H0 se s2 < χ e la rifiuto altrimenti.
n − 1 n−1,1−α

Test unilaterale superiore con ipotesi semplice


Sia X1 , . . . , Xn un campione gaussiano di media µ (nota o incognita) e varianza σ 2 incognita.
Vogliamo testare
H0 : σ 2 = σ02 H0 : σ 2 < σ02 .
s2
Accetto l’ipotesi nulla se ≥ 1 − ε.
σ02
(n − 1)S 2
Se H0 è vera, allora V := ha distribuzione χ2n−1 e la probabilità di commettere
σ02
errore di prima specie è
 2 
S 2 2
α=P < 1 − ε|σ = σ 0 = FV ((n − 1)(1 − ε)) .
σ02

60
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Deve quindi essere


(n − 1)(1 − ε) = χ2n−1,α .
(n − 1)s2
Dunque accetto l’ipotesi nulla H0 se > χ2n−1,α ovvero
σ02

σ02 2
accetto H0 se s2 > χ e la rifiuto altrimenti.
n − 1 n−1,α

Test unilaterale superiore con ipotesi composta


Sia X1 , . . . , Xn un campione gaussiano di media µ (nota o incognita) e varianza σ 2 incognita.
Vogliamo testare
H0 : σ 2 ≥ σ02 HA : σ 2 < σ02 .
s2
Accetto l’ipotesi nulla se ≥ 1 − ε.
σ02
(n − 1)S 2
Se la varianza è σ 2 ≥ σ02 , allora V := ha distribuzione χ2n−1 e la probabilità di
σ2
commettere errore di prima specie è

S2
 
2 2
P < 1 − ε|Var [Xi ] = σ ≥ σ0
σ02
(n − 1)S 2 σ02
 
2 2
=P < 2 (n − 1)(1 − ε)|Var [Xi ] = σ ≥ σ0
σ2 σ
 2 
σ0
= FV (n − 1)(1 − ε) ≤ FV ((n − 1)(1 − ε)) .
σ2

Posso allora limitare superiormente con α la probabilità di commettere errore di prima specie
imponendo
FV ((n − 1)(1 − ε)) = α
cioè scegliendo ε in modo che
(n − 1)(1 − ε) = χ2n−1,α .
(n − 1)s2
Dunque accetto l’ipotesi nulla H0 se > χ2n−1,α ovvero
σ02

σ02 2
accetto H0 se s2 > χ e la rifiuto altrimenti.
n − 1 n−1,α

61
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

62
7. Test di ipotesi per il confronto di campioni gaussiani

7.1 Test d’ipotesi per la differenza dei valori attesi di campioni gaussiani

Supponiamo di avere due campioni, entrambi gaussiani e tra di loro indipendenti


2

X : X1 , . . . , Xn PXi = N µX , σX ,
2

Y : Y1 , . . . , Yk PYj = N µY , σY .
Vogliamo testare
H0 : µX − µY = d HA : µX − µY 6= d.
 
Osserviamo che µX − µY = d se e solo se E X − Y = d.
Distinguiamo tre diversi casi

7.1.1 2 e σ 2 sono note


Le varianze σX Y
σ2 σ2
   
Sappiamo che PX = N µx , nX , PY = N µY , kY . Considero la v.a. W := X − Y . Poiché
i due campioni sono indipendenti, anche X e Y sono indipendenti, abbiamo che

σX2 σY2

PW = N µX − µY , + .
n k

σX2 σY2

Dunque H0 è vera se e solo se PW = N d, + . Stabilisco quindi il seguente criterio
n k
di accettazione:
Accetto H0 se e solo se |w − d| = |x − y − d| < ε.
La probabilità di commettere errore di prima specie vale allora
 
 |W − d| ε 
α = P (|W − d| ≥ ε|µX − µY = d) = P  r ≥ r |µ X − µ Y = d

σX2 σY2 σX2 σY2

+ +
n k n k
W −d
D’altra parte, se H0 è vera, allora Z := r ha distribuzione gaussiana standard
2
σX σY2
+
n k
ε
N (0, 1), e dunque dovremo scegliere r = z1− α2 ovvero
σX2 σ2
+ Y
n k
r
σX2 σ2
ε = z1− α2 + Y.
n k

63
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Dunque
r
2
σX σ2
accetto l’ipotesi H0 se |x − y − d| < z1− α2 + Y e la rifiuto altrimenti.
n k
r
2 2 2 2
Osservazione 7.1.1. Se σX = σY = σ0 e k = n, allora ε = z1− α2 σ0 .
n

7.1.2 2 e σ 2 sono ignote ma si possono ritenere uguali


Le varianze σX Y

Consideriamo le due varianze campionarie


n k
2 1 X 1 X
SX = (Xi − X)2 , SY2 = (Yj − Y )2 .
n−1 k−1
i=1 j=1

2
(n − 1)SX
Indico con σ 2 il comune valore di σX
2 e σ 2 . Sappiamo che V :=
Y X segue la distribu-
σ2
(k − 1)SY2
zione χ2n−1 , e che VY := segue la distribuzione χ2k−1 . Inoltre, poiché i due campioni
σ2
sono indipendenti, anche VX e VY sono idipendenti. Dunque, per il Teorema 3.3.2, VX + VY
segue la distribuzione χ2n−1+k−1 = χ2n+k−2
D’altra parte
2 + (k − 1)S 2
(n − 1)SX 2 + (k − 1)S 2
Y n + k − 2 (n − 1)SX Y
VX + VY = = .
σ2 σ2 n+k−2
Se definiamo la statistica:
2 + (k − 1)S 2
(n − 1)SX
2 Y
S := .
n+k−2
abbiamo
2
(n + k − 2)S
VX + VY = .
σ2
  
2 1 1
Inoltre sappiamo che X − Y ha distribuzione N µX − µY , σ + , quindi
n k
X − Y − (µX − µY )
Z := r
1 1
σ +
n k
ha distribuzione gaussiana standard N (0, 1). Considero
√ √
X −Y −d n+k−2 X −Y −d n+k−2
T := r √ = r q .
1 1 VX + VY 1 1 (n − 1)S 2 + (k − 1)S 2
σ + + X Y
n k n k
2 , Y e S 2 sono indipendenti,
Poiché i due campioni sono gaussiani e indipendenti le v.a. X, SX Y
quindi X − Y e VX + VY sono indipendenti, e dunque µX − µY = d se e solo se e E [T ] = 0.
Infatti, per l’indipendenza, si ha
E X −Y −d √
   
1
E [T ] = r n + k − 2E √ .
1 1 VX + VY
σ +
n k

64
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Come criterio di accettazione per l’ipotesi nulla H0 scelgo pertanto |t| < ε.
Inoltre, se H0 è vera, allora per il Teorema 3.3.8 la v.a. T segue la distribuzione t(n+k−2).
La probabilità di commettere errore di prima specie è quindi α = P (|T | ≥ ε). Fissato il livello
di significatività α, devo dunque scegliere ε = tn+k−2,1− α2 .
Siano x : x1 , . . . , xn e y : y1 , . . . , yk i dati, x e y le rispettive medie, s2x e s2y le rispettive
varianze:

|x − y − d| n+k−2
accetto H0 se r q < tn+k−2,1− α2 , e la rifiuto altrimenti.
1 1 (n − 1)s 2 + (k − 1)s2
+ X Y
n k

7.2 Test d’ipotesi per l’uguaglianza delle varianze di campioni gaussiani

Introduciamo prima una nuova distribuzione.

7.2.1 Distribuzione di Fisher-Snedecor a k e n gradi di libertà


Si può dimostrare che la funzione
  
k+n
 Γ
  k k

     k

 2 2 x 2 −1
x > 0,

 k+n
f (x) = Γ k Γ n n 
kx 2
 2 2 1+
n




0 x ≤ 0.

è una densità di probabilità. La distribuzione assolutamente continua ad essa associata si dice


distribuzione di Fisher-Snedecor a k ed n gradi di libertà, o semplicemente distribuzione di
Fisher a k ed n gradi di libertà.
Si può dimostrare che se F è una variabile aleatoria con questa distribuzione, allora
 2n2 (k+n−2)
 k(n−2)2 (n−4) n > 4,
(
n 
n−2 n > 2,
E [F ] = Var [F ] = +∞ n = 3, 4,
+∞ n = 1, 2, 

non esiste n = 1, 2.
Teorema 7.2.1. Siano U e V variabili aleatorie indipendenti con distribuzioni PU = χ2k ,
U/k
PV = χ2n . Allora la v.a. F := segue la distribuzione di Fisher-Snedecor con k ed n gradi
V /n
di libertà.
Dimostrazione. Sappiamo che PU = f (u)du, PV = g(v)dv dove
  k
1 1 2 k −1
u 2 exp −u
 
u > 0,


  
k 2 2
f (u) = Γ


 2
0 u ≤ 0,

  n
1 1 2 n −1
v 2 exp −v
 

n
   2 v > 0,
g(v) = Γ 2

 2
0 v ≤ 0.

65
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Possiamo scrivere F = ϕ ◦ (U, V ) dove


( un
2
v 6= 0,
ϕ : (u, v) ∈ R 7→ kv
0 v = 0.

Sia ψ : R → R una funzione di Borel non negativa. Abbiamo


Z Z
ψ(t)dt = ψ(ϕ(u, v))PU,V (dudv)
R R2
  k+n  
−(u + v)
Z  nu  1 1 2 k −1 n −1
= ψ     u 2 v 2 exp dudv
(0,+∞)2 kv k n 2 2
Γ Γ
2 2

nu kv kv
sostituiamo t = ,u= t, du = dt
kv n n

+∞   k+n   k Z +∞    
−v
Z
1 1 2 k 2 k −1 k+n
−1 kt
= ψ(t)     t2 y 2 exp 1+ dv dt
0 k n 2 n 0 2 n
Γ Γ
2 2

 
v kt v n + kt 2nx 2n
sostituiamo x = 1+ = ,v= , dv = dx
2 n 2 n n + kt n + kt
Z +∞   k+n   k Z +∞   k+n !
1 1 2 k 2 k −1 2n 2 k+n
−1 −x
= ψ(t)     t2 x 2 e dx dt
0 k n 2 n 0 n + kt
Γ Γ
2 2
 
k+n
Z +∞ Γ   k+n   k
2 n 2 k 2 k −1
= ψ(t)     t 2 dt
0 k n n + kt n
Γ Γ
2 2

da cui la tesi.

Osservazione 7.2.1. Indichiamo con fk,n,α il quantile di livello α associato alla distribuzione
di Fisher di parametri k ed n. Siano U e V sono come nel Teorema 7.2.1: U e V variabili
aleatorie indipendenti con distribuzioni PU = χ2k , PV = χ2n e sia α ∈ (0, 1). Si ha

   −1 !
U/k U/k 1
α=P ≤ fk,n,α =P ≥
V /n V /n fk,n,α
   
V /n 1 V /n 1
=P ≥ =1−P ≤
U/k fk,n,α U/k fk,n,α
 
V /n 1 1
ovvero P ≤ = 1 − α cioè = fn,k,1−α .
U/k fk,n,α fk,n,α

66
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

7.3 Test d’ipotesi per l’uguaglianza delle varianze di campioni gaussiani

Supponiamo di avere due campioni, entrambi gaussiani e tra di loro indipendenti


2

X : X1 , . . . , Xk PXi = N µX , σX ,
2

Y : Y1 , . . . , Yn PYj = N µY , σY .

Vogliamo testare
2
H0 : σX = σY2 HA : σ2X 6= σY2 .
2 e S 2 sono stimatori non distorti di σ 2 e σ 2 , rispettivamente. Dunque:
Sappiamo che SX Y X Y

s2X
accettiamo H0 se 1 − ε1 < < 1 + ε2 , rifiutiamo altrimenti.
s2Y
Per scegliere ε1 ed ε2 in base al livello di significatività desiderato, consideriamo le v.a.
2
(k − 1)SX (n − 1)SY2
VX = 2 , VY = .
σX σY2

SX 2 /σ 2
X
Sappiamo che PVX = χ2k−1 , PVY = χ2n−1 . Dunque, la v.a. segue la distribuzione di
SY2 /σY2
S2
Fisher con k − 1 ed n − 1 gradi di libertà. In particolare H0 è vera se e solo se F := X segue
SY2
la distribuzione di Fisher con k − 1 ed n − 1 gradi di libertà.
Abbiamo dunque
 2   2 
SX 2 2 SX 2 2
α=P ≤ 1 − ε |σ
1 X = σ Y + P ≥ 1 + ε |σ
2 X = σ Y .
SY2 SY2

Scegliamo di distribuire equamente l’errore imponendo


 2 
α SX 2 2
=P ≤ 1 − ε1 |σX = σY = P (F ≤ 1 − ε1 )
2 SY2
 2 
α SX 2 2
=P ≥ 1 + ε2 |σX = σY = P (F ≥ 1 + ε2 ) = 1 − P (F ≤ 1 + ε2 ) .
2 SY2

Dovrà dunque essere 1 − ε1 = fk−1,n−1, α2 , 1 + ε2 = fk−1,n−1,1− α2 . In definitiva:

s2X
accetto H0 se fk−1,n−1, α2 < < fk−1,n−1,1− α2 . Rifiuto altrimenti.
s2Y

67
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

68
8. Test del χ2 e test di Smirnov-Kolmogorov

8.1 Stimatori di massima verosimiglianza per distribuzioni con densità finita

Supponiamo di avere un campione statistico X1 , . . . , Xn e di sapere che esso è relativo ad


una distribuzione su un insieme finito t1 , . . . , tk . Dunque conosco la distribuzione se conosco
pj := P (Xi = tj ) per ogni j = 1, . . . , k.
Dato il campione sperimentale x1 , . . . , xn , cerchiamo gli stimatori di massima verosimi-
glianza per i parametri p1 , . . . , pk . Tra i dati rilevati x1 , . . . , xn ce ne sono:
n1 che valgono t1 ,
n2 che valgono t2 ,
...,
nk che valgono tk ,
con la condizione n1 + n2 + . . . + nk = n.
La densità congiunta di (X1 , . . . , Xn ) in x1 , . . . , xn è dunque

k
Y
f (x1 , . . . , xn |p1 , . . . , pk ) = p1 n1 p2 n2 . . . pk nk = pj nj
j=1

e perciò

k
X
g(x1 , . . . , xn |p1 , . . . , pk ) := log f (x1 , . . . , xn |p1 , . . . , pk ) = nj log pj .
j=1

Usiamo i moltiplicatori di Lagrange per massimizzare g rispetto ai p1 , . . . , pk ammissibili:


 
k
X Xk
G(p1 , . . . , pk , λ) = nj log pj − λ  pj − 1 .
j=1 j=1

 
k
∂G X ∂G ni
= − pj − 1 , = −λ ∀j = 1, . . . , k.
∂λ ∂pj pj
j=1

Da cui otteniamo
nj
pj = ∀j = 1, . . . , k,
n
ovvero lo stimatore di massima verosimiglianza per la densità in tj è la frequenza relativa del
carattere tj nel campione x1 , . . . , xn .

69
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

8.2 Test del χ2

Sia Y1 , . . . , Yn un campione statistico. Supponiamo che le v.a. del campione siano discrete a
valori t1 , . . . , tk . Consideriamo le densità di probabilità

pj := P (Yi = tj ) , j = 1, . . . , k.
Pk
Siano p01 , . . . , p0k dei numeri assegnati, tali che p0j ≥ 0 ∀j = 1, . . . k e 0
j=1 pj = 1.
Vogliamo testare

H0 : pj = p0j ∀j = 1, . . . , k HA : ∃j ∈ {1, . . . , k} : pj 6= p0j .

Per ogni j = 1, . . . , k considero

Xj = # {i ∈ {1, . . . , n} : Yi = tj } j = 1, . . . , k.

Sicuramente PXj = B(n, pj ), quindi E [Xj ] = npj , Var [Xj ] = npj (1 − pj ). Inoltre (Xj − npj )2
mi dice quanto sia verosimile che P (Yi = tj ) = pj . Posso stabilire un criterio di accetta-
Xk
zione considerando una opportuna combinazione lineare aj (Xj − npj )2 con coefficienti
j=1
a1 , . . . , ak positivi. Si può dimostrare che vale il seguente
k
X (Xj − npj )2
Teorema 8.2.1 (di Pearson). Se PXj = Bin(n, pj ), allora la legge della v.a.
npj
j=1
converge, per n → ∞, alla legge associata alla distribuzione χ2k−1 .

Osservazione 8.2.1. L’approssimazione è considerata accettabile se npj ≥ 5 ∀j = 1, . . . , k.

Formuliamo allora il seguente criterio di accettazione. Siano n1 , . . . , nk le frequenze


assolute dei caratteri t1 , . . . , tk nel campione empirico x1 , . . . , xn

Pk (nj − np0j )2
accetto H0 se tn := j=1 < ε. Rifiuto altrimenti
np0j

La probabilità di commettere errore di prima specie è allora


 
k
X (Xj − np0j )2
α := P  0 ≥ ε|pj = p0j ∀j = 1, . . . , k  ' 1 − Fχ2 (ε).
j=1
npj
k−1

Scelgo dunque ε tale che Fχ2 (ε) = 1 − α, cioè ε = χ2k−1,1−α .


k−1

Osservazione 8.2.2. Non dimostriamo il Teorema 8.2.1 ma ne vediamo la sua plausibilità


nel caso k = 2.
PnConsidero Zi := 1{Y i=t1 } . Allora Z1 , . . . , Zn sono i.i.d. con P (Z1 ) = Ber(p1 ) e X1 =
i=1 Zi . Si ha inoltre

(X1 − np1 )2 (X2 − np2 )2


T = + , p1 + p2 = 1, X1 + X2 = n,
np1 np2

70
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

da cui
Pn !2
(X1 − np1 )2 (X1 − np1 )2 (X1 − np1 )2 i=1 Z i − nE [Z 1 ]
T = + = = p .
np1 n(1 − p1 ) np1 (1 − p1 ) nVar [Z1 ]
Pn
i=1 Zi − nE [Z1 ]
Per il teorema del limite centrale p converge in legge a una v.a. gaus-
nVar [Z1 ]
siana standard e sappiamo che il quadrato di una v.a. con distribuzione N (0, 1) segue la
distribuzione χ2 ad un grado di libertà.

8.3 Test di Kolmogorov-Smirnov

Sia {Xi }∞
i=1 una successione di v.a. i.i.d. con legge F0 . Pongo
(
1 Xi (ω) ≤ t,
Yi (ω, t) = 1(−∞,t] (Xi (ω)) =
1 Xi (ω) > t.

Si ha E [Yi (·, t)] = P (Xi ≤ t) = F0 (t), Var [Yi (·, t)] = F0 (t)(1 − F0 (t)) ≤ 1.
n
1X
Per ogni n ∈ N sia gn : (x1 , . . . , xn , t) ∈ Rn × R 7→ 1(−∞,t] (xi ) ∈ R.
n
i=1
Considero la v.a.
n n
1X 1X
Gn (ω, t) = gn ◦ (X1 (ω), . . . , Xn (ω), t) = 1(−∞,t] (Xi (ω)) = Yi (ω, t).
n n
i=1 i=1

Per la disuguaglianza di Chebychev, Teorema 3.2.1,


1
P (|Gn (·, t) − F0 (t)| > ε) ≤ ∀ε > 0, ∀t ∈ R.
nε2
Dunque
lim sup P (|Gn (·, t) − F0 (t)| > ε) = 0.
n→∞ t∈R

1
Osserviamo che Gn (ω, t) = # {i ∈ {1, . . . , n} : Xi (ω) ≤ t} dunque Gn (ω, ·) è una funzione
n
1 n−1
costante a tratti, monotona crescente che prende valori in 0, , . . . , , 1 (li prende tutti
n n
se e solo se i valori X1 (ω), . . . , Xn (ω) sono tutti distinti).
Consideriamo allora il seguente test d’ipotesi per un campione statistico X1 , . . . , Xn di
cui rilevo i dati x1 , . . . , xn . Sia F0 : R → [0, 1] una funzione monotona crescente, tale che
lim F0 (t) = 0, lim F0 (t) = 1. Supponiamo inoltre che F0 sia continua. Voglio testare
t→−∞ t→+∞

H0 : F0 è la legge del campione, HA : ∃t ∈ R : F0 (t) 6= P (Xi ≤ t) .

Sia dn := supt∈R |gn (x1 , . . . , xn , t)|. Accetto H0 se dn < ε, rifiuto altrimenti. Vediamo se
possiamo scegliere ε in base al livello di significatività desiderato.

Lemma 8.3.1. Se X è una v.a. con legge F , allora F (X) è uniformemente distribuita
sull’intervallo [0, 1].

71
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Dimostrazione. Dimostriamo il lemma limitatamente al caso assolutamente continuo. Sia f


la densità della distribuzione di X: PX = f (x)dx e sia ψ : R → R una funzione di Borel non
negativa. Si ha
Z Z Z Z 1
ψ(t)PF (X) dt = ψ(F (x))PX (dx) = ψ(F (x))f (x)dx = ψ(t)dt
R R R 0

dove abbiamo effettuato il cambio di variabile t = F (x).

Teorema 8.3.2. Sia X1 , . . . , Xn campione statistico con legge continua F . Sia Gn come
n
1X
prima: Gn (ω, t) = 1(−∞,t] (Xi (ω)) e sia
n
i=1

Dn (ω) := sup |Gn (ω, t) − F (t)| .


t∈R

Allora la legge di Dn non dipende da F .


Dimostrazione. Sia d ≥ 0
 
1
P (Dn ≥ d) = P sup #{i : Xi ≤ t} − F (t) ≥ d =

t∈R n
 
1
= P sup #{i : F (Xi ) ≤ F (t)} − F (t) ≥ d .
t∈R n

Infatti, se F è strettamente crescente, allora Xi ≤ t se e solo se F (xi ) ≤ F (t). Se invece F è


crescente, ma non strettamente, l’uguaglianza rimane vera a livello di probabilità perché la
probabilità che Xi cada in un intervallo in cui F è costante è comunque nulla.
D’altra parte le v.a. Ui := F (Xi ) sono i.i.d con distribuzione uniforme sull’intervallo [0, 1],
dunque
 
1
P (Dn ≥ d) = P sup #{i : Ui ≤ F (t)} − F (t) ≥ d =

t∈R n
!
1
=P sup #{i : Ui ≤ y} − y ≥ d
y∈(0,1) n

dato che, essendo continua, F assume tutti i valori compresi tra il suo estremo inferiore ed il
suo estremo superiore.

Si può dimostrare che vale il seguente limite



X∞
(−1)j−1 exp −2j 2 t2

√ 1−2 t > 0,



lim P Dn n ≤ t = j=1
n→∞ 
0 t ≤ 0.

Riconsideriamo dunque la probabilità di commettere errore di prima specie.



√ √  X
(−1)j−1 exp −2j 2 ε2 n ≥ 2 exp −2ε2 n .
 
α = P (Dn ≥ ε) = P Dn n ≥ ε n ∼ 2
j=1
r
1 2
−2ε2 n

Scegliamo dunque ε > 0 tale che α = 2 exp cioè ε = log . Quindi
2n α

72
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

r
1 1 2
accetto H0 se supt∈R # {i : xi ≤ t} − F (t) < log . Rifiuto altrimenti.
n 2n α
Osservazione 8.3.1. Supponiamo di aver ordinato i dati x1 , . . . , xn in ordine crescente (per
semplicità supponiamo che siano tutti distinti). Abbiamo

1 n 1
sup # {i : xi ≤ t} − F (t) = max sup # {i : xi ≤ t} − F (t) ,
t∈R n t<x1 n

1 1
sup # {i : xi ≤ t} − F (t) , . . . ,
sup # {i : xi ≤ t} − F (t) ,
t∈[x1 ,x2 ) n t∈[xn−1 ,xn ) n

o
1
sup # {i : xi ≤ t} − F (t)
t≥xn n

n 1 n − 1 o
= max sup |F (t)| , sup − F (t) , . . . , sup − F (t) , sup |1 − F (t)|
t∈[x1 ,x2 ) n
t<x1
n t≥x
t∈[xn−1 ,xn ) n

n 1 1
= max F (x1 ), − F (x1 ) , − F (x2 ) . . . ,
n n

n − 1 n − 1 o

n − F (x n−1 ) ,
n − F (x n ) , |1 − F (xn )| .

73
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

74
9. Regressione lineare

Supponiamo di fare un esperimento in cui si può controllare direttamente una variabile di


input x. La risposta dell’esperimento dipende da x ma in generale risulta affetta da errore e
comunque non deterministica. Se ci sembra che ci sia una relazione di un qualche tipo, per
esempio lineare, tra il dato di unput e la risposta dell’esperimento, anche questa relazione
sarà affetta da errore: in generale non riusciamo ad osservare y = ax + b ma y = ax + b + ε,
dove ε è l’errore.
Per ogni dato di input xi in x1 , . . . , xn vediamo dunque la risposta dell’esperimento
come una v.a. Yi con E [Yi ] = axi + b e i parametri della retta che rappresenta la risposta
dell’esperimento in funzione di x come una retta i cui parametri sono v.a.: y = Ax + B.
La quantità (Yi − (Axi + B))2 è il quadrato della differenza tra l’osservazione ed il valore
predetto. La retta, ovvero i parametri A e B che la definiscono, si scelgono minimizzando la
somma dei quadrati degli errori, cioè

n
X
S(A, B) = (Yi − (Axi + B))2 → min
i=1

Abbiamo già affrontato questo problema nel caso descrittivo, Sezione 2.2. Si ha dunque

Pn n
i=1 (xi − x)(Yi − Y ) X
A= , B = Y − Ax, dove Sxx := (xi − x)2 .
Sxx
i=1
La retta Y = Ax + B è detta stima della regressione. Possiamo scrivere A e B in un’altra
forma, più utile a comprenderne la natura.

Pn Pn n
i=1 (xi − x)(Yi − Y ) i=1 xi Yi
1 X − nxY
A= = (xi − x)Yi ,=
Sxx Sxx Sxx
i=1
n n n   (9.1)
1X x X X 1 x(xi − x)
B = Y − Ax = Yi − (xi − x)Yi = − Yi ,
n Sxx n Sxx
i=1 i=1 i=1

Poiché E [Yi ] = axi + b, supporrò che le v.a. Yi siano v.a. indipendenti, gaussiane, ed aventi
tutte la stessa varianza σ 2 :

PYi = N axi + b, σ 2 ,

Y1 , . . . , Yn indipendenti.

Grazie alle equazioni (9.1) abbiamo allora che anche A e B sono gaussiane, in quanto combi-

75
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

nazioni lineari di v.a. gaussiane indipendenti. Andiamo a calcolarne valore atteso e varianza.
n n n
" #
1 X 1 X 1 X
E [A] = E (xi − x)Yi = (xi − x)E [Yi ] = (xi − x)(axi + b)
Sxx Sxx Sxx
i=1 i=1 i=1
n n
1 X 1 X
= (xi − x)(a(xi − x) + ax + b) = a(xi − x)2 = a,
Sxx Sxx
i=1 i=1
n n
" #
1 X 1 X
Var [A] = Var (xi − x)Yi = 2 (xi − x)2 Var [Yi ]
Sxx Sxx
i=1 i=1
n
1 X 1 σ2
= 2 (xi − x)2 σ 2 = 2 Sxx σ 2 = ,
Sxx Sxx Sxx
i=1
n
    1X
E [B] = E Y − Ax = E Y − xE [A] = (axi + b) − ax = b,
n
i=1
" n  # n 
X 1 x(xi − x)  1 x(xi − x) 2
X 
Var [B] = Var − Yi = − Var [Yi ]
n Sxx n Sxx
i=1 i=1
n  2 n 
x2 (xi − x)2

X 1 x(xi − x) X 1 2 x(xi − x)
= σ2 − = σ2 + −
n Sxx n2 2
Sxx n Sxx
i=1 i=1
x2 σ 2 ni=1 x2i
  P
1
= σ2 + = .
n Sxx nSxx
Considero la differenza tra la risposta Yi e la predizione Axi + B: Ri := |Yi − (Axi + B)|
è detta residuo, dunque la quantità che abbiamo ottenuto minimizzando S è la somma dei
quadrati dei residui:
X n n
X
SR − = Ri2 = (Yi − (Axi + B))2 .
i=1 i=1
SR
Si può dimostrare che la v.a. 2 ha distribuzione χ2n−2 e che A, B e SR sono indipendenti.
 2 σ 
σ2 σ2
   
SR σ SR SR
Inoltre E = E = E = (n − 2) = σ 2 . Riassumendo
n−2 n − 2 σ2 n−2 σ2 n−2
abbiamo:
Teorema 9.0.1. Se le v.a. Y1 , . . . , Yn sono gaussiane indipendendenti con
PYi = N axi + b, σ 2

∀i = 1, . . . , n.
Allora le v.a. A, B, SR sono indipendenti. Hanno distribuzione
σ2 σ 2 ni=1 x2i
   P 
PA = N a, , PB = N b, , P SR = χ2n−2 .
Sxx nSxx σ2

SR
Inoltre A, B e sono rispettivamente stimatori non distorti di a, b e σ 2 .
n−2
Introduciamo una notazione più sintetica:
n n n n
X 2 X 2 X X
Yi2

SY Y = Yi − Y = − nY , SxY = (xi − x) Yi − Y = xi Yi − nxY .
i=1 i=1 i=1 i=1

76
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

SxY
Abbiamo allora A = , B = Y − Ax,
Sxx
n  n 
2 X 2
X SxY SxY SxY
SR = Yi − xi − Y + x = (Yi − Y ) − (xi − x)
Sxx Sxx Sxx
i=1 i=1
n n 2 n
X
2
X SxY 2 SxY X
= (Yi − Y ) + 2
(xi − x) − 2 (xi − x)(Yi − Y )
Sxx Sxx
i=1 i=1 i=1
S2 2
Sxx SY Y − SxY
= SY Y − xY = .
Sxx Sxx
Possiamo fare inferenza statistica sui parametri a e b della retta di regressione? Cerchiamo
un intervallo di confidenza di livello 1 − α per il parametro a. Per il Teorema 9.0.1 la v.a.
A−a SR
Z := σ ha distribuzione gaussiana standard, mentre VR := 2 ha distribuzione χ2n−2
Sxx σ
√ √
Z n−2 (A − a)Sxx n − 2
ed è indipendente da Z Dunque T := = √ ha distribuzione t di
VR SR
Student con n − 2 gradi di libertà: PT = t(n − 2). Abbiamo dunque
 √ 
|A − a|Sxx n − 2
1−α=P √ < tn−2,1− α2
SR
 √ √ 
SR SR
=P A− √ tn−2,1− 2 < a < A +
α √ tn−2,1− 2
α
Sxx n − 2 Sxx n − 2
Possiamo anche impostare un test d’ipotesi per il parametro a. Vogliamo testare

H0 : a = a, HA : a 6= a.

(A − a)Sxx n − 2
Poiché √ ha valore atteso nullo se e solo se a = a, accetto H0 se
SR √
|a(x1 , . . . , xn , y1 , . . . , yn ) − a|Sxx n − 2
p < ε, la rifiuto altrimenti. La probabilità di com-
sR (x1 , . . . , xn , y1 , . . . , yn )
mettere errore di prima specie è

|A − a|Sxx n − 2
PP √ ≥ ε|a = a = P (|Tn−2 | ≥ ε) .
SR
Per ottenere livello di significatività pari ad α, dobbiamo dunque prendere ε = tn−2,1− α2 .
Infine:

|a(x1 , . . . , xn , y1 , . . . , yn ) − a|Sxx n − 2
accetto H0 se p < tn−2,1− α2 , la rifiuto altrimenti.
sR (x1 , . . . , xn , y1 , . . . , yn )
B−b
Risultati analoghi si ottengono per il parametro b. La variabile aleatoria ZB := q Pn
σ2 i=1 x2i
nSxx
SR
ha distribuzione gaussiana standard, la v.a. 2 ha distribuzione χ2n−2 ed è indipendente da
√ pσ
ZB n − 2 (B − b) n(n − 2)Sxx
ZB , dunque TB := SR
= q P ha distribuzione t(n − 2). Dunque
n 2
σ 2 S R x
i=1 i

77
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

abbiamo l’intervallo di confidenza di livello 1 − α


 s s 
Pn 2
Pn 2
B − tn−2,1− α SR i=1 xi , B + tn−2,1− α SR i=1 xi  .
2 n(n − 2)Sxx 2 n(n − 2)Sxx

Abbiamo anche un test d’ipotesi. Vogliamo testare


H0 : b = b, HA : b 6= b.
p
(B − b) n(n − 2)Sxx
Poiché q P ha valore atteso nullo se e solo se b = b, accettiamo H0 se
SR ni=1 x2i
p
|b(x1 , . . . , xn , y1 , . . . , yn ) − b| n(n − 2)Sxx
q Pn < ε, rifiutiamo altrimenti. Come per il para-
sR (x1 , . . . , xn , y1 , . . . , yn ) i=1 xi 2

metro a, anche qui otteniamo un test di ipotesi con livello di significatività α, scegliendo
ε = tn−2,1− α2 .
p
|b(x1 , . . . , xn , y1 , . . . , yn ) − b| n(n − 2)Sxx
Accetto H0 se q < tn−2,1− α2 , rifiuto altrimenti.
sR (x1 , . . . , xn , y1 , . . . , yn ) ni=1 x2i
P

9.1 Inferenza sul risultato di un successivo esperimento

Sulla base dei dati x1 , . . . , xn , y1 , . . . , yn supponiamo di aver ottenuto la retta di regressione


y = ax + b. Se impostiamo il dato di input x = x0 , cosa dobbiamo aspettarci come risposta
dell’esperimento? Il valore atteso si calcola facilmente:
E [Ax0 + B] = x0 E [A] + E [B] = ax0 + b.
Posso calcolare un intervallo di confidenza o impostare un test d’ipotesi su questa aspettativa?
Possiamo scrivere
n n
X xi − x 1X
Ax0 + B = Ax0 + Y − Ax = A(x0 − x) + Y = (x0 − x) Yi + Yi
Sxx n
i=1 i=1
n  
X (x0 − x)(xi − x) 1
= + Yi .
Sxx n
i=1
Dunque anche Ax0 + B è combinazione lineare delle v.a. gaussiane e indipendenti e perció è
anch’essa una v.a. gaussiana. Ne abbiamo già calcolato il valore atteso. Per caratterizzarne
completamente la distribuzione è dunque sufficiente calcolarne la varianza.
" n  #
X (x0 − x)(xi − x) 1 
Var [Ax0 + B] = Var + Yi
Sxx n
i=1
n  n 
(x0 − x)(xi − x) 1 2 (x0 − x)(xi − x) 1 2
X  X 
2
= + Var [Yi ] = σ +
Sxx n Sxx n
i=1 i=1
n
X (x0 − x)2 (xi − x)2
 
1 (x0 − x)(xi − x)
= σ2 2
+ 2 +2
Sxx n nSxx
i=1
(x0 − x)2
 
1
= σ2 + .
Sxx n

78
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

Abbiamo dunque che Ax0 + B è indipendente da SR e


2
  
2 (x0 − x) 1
PAx0 +B = N ax0 + b, σ + .
Sxx n

Ax0 + B − ax0 − b
Dunque la v.a. Z0 := s ha distribuzione gaussiana standard ed è indipen-
(x0 − x)2 1
σ +
Sxx n
SR
dente da che ha distribuzione χ2n−2 . Di conseguenza la v.a.
σ2
√ √
Z0 n − 2 Ax0 + B − ax0 − b n − 2
T0 := q = s √
SR
(x − x)2 1 SR
σ 2 0
+
Sxx n

ha distribuzione t(n − 2). Abbiamo dunque l’intervallo di confidenza di livello 1 − α per il


parametro ax0 + b
 v v 
(x0 − x)2 (x0 − x)2
  
1 1
u u
u u
 u SR + u SR + 

Ax0 + B − tn−2,1− α
t Sxx n t Sxx n 
, Ax0 + B + tn−2,1− 2
α .


2 n−2 n−2 

Esercizio 9.1.1. Ricavare il test d’ipotesi.

79
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018

80
Bibliografia

[1] Fabio Frascati. Formulario di Statistica con R. http://cran.r-


project.org/doc/contrib/Frascati-FormularioStatisticaR.pdf, 2008.

[2] Antonia Morpoulou and Kyriaki Polikreti. Principal component analysis in monument
conservation: Three application examples. Journal of Cultural Heritage, 10:73–81, 2009.

[3] John Verzani. simpleR. http://cran.r-project.org/doc/contrib/Verzani-SimpleR.pdf,


2001.

81

Potrebbero piacerti anche