Statistic A
Statistic A
Laura Poggiolini
ii
Indice
I Statistica descrittiva v
II Statistica inferenziale 15
3 Campioni statistici 17
3.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.2 Media campionaria e varianza campionaria . . . . . . . . . . . . . . . . . . . 18
3.2.1 La disuguaglianza di Chebychev e la legge (debole) dei grandi numeri 19
3.2.2 La distribuzione gaussiana N µ, σ 2 e il teorema del limite centrale . 20
3.3 Alcune distribuzioni legate alla distribuzione gaussiana . . . . . . . . . . . . . 23
3.3.1 Distribuzione di Pearson (o χ2 ) con n gradi di libertà, χ2n . . . . . . . 23
3.3.2 Distribuzione t di Student con n gradi di libertà, t(n) . . . . . . . . . 30
5 Intervalli di confidenza 37
5.1 Stima per intervalli del valore atteso di campioni gaussiani . . . . . . . . . . . 38
5.1.1 Campione gaussiano di cui è nota la varianza . . . . . . . . . . . . . . 38
5.1.2 Campione gaussiano di cui non è nota la varianza . . . . . . . . . . . . 39
iii
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
6 Test d’ipotesi 45
6.1 Principi generali di un test statistico . . . . . . . . . . . . . . . . . . . . . . . 49
6.2 Test parametrici per campioni gaussiani . . . . . . . . . . . . . . . . . . . . . 50
6.2.1 Test d’ipotesi per il valore atteso di campioni gaussiani di cui è nota la
varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
6.2.2 Campione gaussiano di cui non è nota la varianza . . . . . . . . . . . . 55
6.3 Test d’ipotesi per la varianza di campioni gaussiani . . . . . . . . . . . . . . . 58
9 Regressione lineare 75
9.1 Inferenza sul risultato di un successivo esperimento . . . . . . . . . . . . . . . 78
iv
Parte I
Statistica descrittiva
v
1. Popolazioni, individui e caratteri. Indicatori sintetici di
campioni monovariati
Esempio 1.0.1. Rilevo l’altezza di ciascun abitante del Comune di Firenze. Ogni residente
del Comune di Firenze è un individuo; la popolazione è l’insieme di tutti i residenti nel Comune
di Firenze; il carattere in esame è l’altezza misurata, per esempio, in centimetri.
Esempio 1.0.2. Rilevo il reddito annuo di ciascun nucleo familiare del Comune di Firenze.
Ogni nucleo familiare è un individuo; la popolazione è l’insieme dei nuclei familiari registrati
all’Anagrafe del Comune di Firenze; il carattere osservato è il reddito annuo familiare misurato
in Euro.
Esempio 1.0.3. Rilevo il numero dei componenti di ciascun nucleo familiare del Comune di
Firenze. Come nell’esempio precedente ogni nucleo familiare è un individuo; la popolazione
è l’insieme dei nuclei familiari registrati all’Anagrafe del Comune di Firenze. Il carattere
osservato è il numero dei componenti di ciascun nucleo familiare, cioè un numero intero
maggiore-uguale di 1.
Esempio 1.0.4. Per ogni studente presente in aula rilevo il colore degli occhi. Ogni studen-
te presente in aula è un individuo. La popolazione è l’insieme degli studenti presenti ed il
carattere osservato è il colore degli occhi.
1
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
• caratteri numerici discreti che possono assumere solo un insieme discreto di valori,
come il numero dei componenti dei nuclei familiari;
• caratteri numerici continui che variano con continuità ovvero con una estrema accu-
ratezza, eccessiva rispetto ai fini dell’indagine, come l’altezza delle persone o il reddito
annuo familiare.
2
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
1.4 Mediana
• n dispari: n = 2m + 1
• n pari: n = 2m
x = (x1 , . . . , xn ) .
3
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
Supponiamo che nel campione siano presenti k modalità z1 , z2 , . . . , zk con rispettive frequenze
assolute N1 , N2 , . . . Nk e frequenze relative p1 , p2 , . . . pk . Allora
1 1
x = (x1 + x2 + . . . xn ) = (N1 z1 + N2 z2 + . . . Nk zk ) =
n n
k
X
= p1 z1 + p2 z2 + . . . pk zk = pj zj .
4
j=1
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
n
1 X
sx = Var [x] := (xi − x)2 .
n−1
i=1
v
u n
1 X
(xi − x)2
u
sx = Std [x] := t
n−1
i=1
Anche per la varianza campionaria possiamo scrivere una formula che coinvolga solo le
modalità e le rispettive frequenze.
1
s2x = (x1 − x)2 + (x2 − x)2 + . . . (xn − x)2 =
n−1
1
N1 (z1 − x)2 + N2 (z2 − x)2 + . . . Nk (zk − x)2 =
=
n−1
n
p1 (z1 − x)2 + p2 (z2 − x)2 + . . . pk (zk − x)2 =
=
n−1
k
n X
= pj (zj − x)2 .
n−1
j=1
Esempio 1.5.1. Nella tabella che segue, tratta da [2], riportiamo alcuni dati relativi a cam-
pioni di laterizio e che useremo per fare alcuni esempi relativi alle nozioni introdotte mediante
il software R http://cran.r-project.org/. Per una introduzione si rimanda ai manuali [3]
e [1].
5
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
Sample Porosità Raggio Volume dei Densità Resistenza CO2 /SBW Temperatura
Code totale medio pori su dimen- (g/cm3 ) alla tra- di cottura
(%) del poro sione dei pori zione (DTA)
(µm) 0.3–0.8 µm (MPa)
> library(readr)
> table2 <- read_delim("~/Documents/didattica/2017-18_analisi_reale/alcuni_appunti/table2.
+ "\t", escape_double = FALSE, trim_ws = TRUE)
Parsed with column specification:
cols(
Code = col_character(),
Totpor = col_double(),
PRA = col_double(),
PV = col_double(),
Densi = col_double(),
TenStr = col_double(),
CO2SBW = col_character(),
FirTemp = col_integer()
6
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
)
> View(table2)
Per ciascun carattere definiamo una variabile che contenga la mediana, una per la media,
una per la Varianza e una per la deviazione standard e poi stampiamo i valori (tratteremo il
carattere di nome CO2SBW con attenzione perché su un individuo non è stato rilevato)
Il commando summary indica l numero di dati mancanti, ci dà gli indicatori di centralità
ma non quelli di dispersione
> summary(table2)
Code Totpor PRA PV Densi TenStr CO2SBW FirTemp
Length:31 Min. :26.85 Min. :0.1580 Min. :10.20 Min. :1.340 Min. :0.1430 Min. :0.0500 Min. :730.0
Class :character 1st Qu.:36.05 1st Qu.:0.4220 1st Qu.:30.45 1st Qu.:1.560 1st Qu.:0.4065 1st Qu.:0.2900 1st Qu.:740.0
Mode :character Median :40.90 Median :0.6220 Median :59.40 Median :1.680 Median :0.5270 Median :0.3900 Median :740.0
Mean :40.12 Mean :0.6733 Mean :55.33 Mean :1.693 Mean :0.6092 Mean :0.5817 Mean :764.8
3rd Qu.:44.42 3rd Qu.:0.7305 3rd Qu.:80.70 3rd Qu.:1.815 3rd Qu.:0.7165 3rd Qu.:0.4950 3rd Qu.:750.0
Max. :54.64 Max. :2.6570 Max. :88.60 Max. :2.020 Max. :1.4050 Max. :1.9600 Max. :960.0
NA’s :1
7
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
8
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
9
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
10
2. Campioni bivariati: covarianza, coefficiente di correlazione
e retta di regressione
Supponiamo di avere un campione bivariato cioè di rilevare due caratteri sugli individui di
una medesima popolazione.
Abbiamo dunque due vettori di dati
x = (x1 , . . . , xn ) , y = (y1 , . . . , yn ) .
xi e yi sono le rilevazioni dei due caratteri sul medesimo individuo, l’individuo cioè che
abbiamo etichettato come individuo i.
Chiamiamo covarianza di x e y il numero
n
1 X
Cov (x, y) := (xi − x)(yi − y)
n−1
i=1
11
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
x = (x1 , . . . , xn ) , y = (y1 , . . . , yn )
dove xi e yi sono i dati relativi all’i–esimo individuo. Rappresentiamo i punti (xi , yi ) sul
piano cartesiano Oxy. Capita, molto spesso, di trovarsi a disposizioni pressoché allineate
come illustrato nella figura 2.1 Si cerca allora una retta che in qualche senso approssimi i
punti (xi , yi ).
Supponiamo che y = ax + b sia l’equazione della retta cercata. Per x = xi si ottiene il
punto sulla retta (xi , axi + b). Cerchiamo la retta (ovvero i parametri a e b) che minimizza la
somma degli errori quadratici nella direzione y
n
X
S(a, b) := (yi − (axi + b))2 .
i=1
Si ha
n
X
S(a, b) = (yi − y + y − (axi − ax + ax + b))2 =
i=1
n
X
= ((yi − y) − a (xi − x) + (y − ax − b))2 =
i=1
n
X n
X
2
= ((yi − y) + a 2
(xi − x)2 +
i=1 i=1
n
X
+ n (y − ax − b)2 − 2a (xi − x) (yi − y) =
i=1
=(n − 1) s2y + a2 s2x − 2aCov (x, y) + n (y − ax − b)2 .
L’incognita b compare solo nell’ultimo addendo, che è un quadrato. Quindi per ottenere il
minimo basterà scegliere a che minimizza la funzione f (a) := s2y + a2 s2x − 2aCov (x, y) e poi
scegliere b = y − ax. Si ha
Cov (x, y)
f 0 (a) = 2as2x − 2Cov (x, y) = 0 se e solo se a =
s2x
f 00 (a) = 2s2x > 0
12
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
Il minimo dello somma degli errori quadratici S(a, b) si ottiene allora per
Cov (x, y) Cov (x, y)
a= ; b=y− x;
s2x s2x
il minimo dell’errore S vale
(Cov (x, y))2
2 2 2
(n − 1) sy − = (n − 1)sy 1 − (ρ [x, y])
s2x
e la retta ha equazione
Cov (x, y)
y=y+ (x − x) .
s2x
Osservazione 2.2.1. La retta cosı̀ determinata si chiama retta di regressione del cam-
pione y sul campione x. Osserviamo infine che il punto (x, y) appartiene alla retta.
Esempio 2.2.1. Riconsideriamo l’esempio 1.5.1. Carichiamo in R la tabella dei dati.
> library(readr)
> table2 <- read_delim("~/Documents/didattica/2017-18_analisi_reale/alcuni_appunti/table2.csv",
+ "\t", escape_double = FALSE, trim_ws = TRUE)
Parsed with column specification:
cols(
Code = col_character(),
Totpor = col_double(),
PRA = col_double(),
PV = col_double(),
Densi = col_double(),
TenStr = col_double(),
CO2SBW = col_character(),
FirTemp = col_integer()
)
Tracciamo sul piano cartesiano i dati relativi ai caratteri porosità totale (in ascissa) e
densità (in ordinata) e salviamo la figura in un file.
> library(car)
> scatterplot(Densi~Totpor, lm=TRUE, smooth=FALSE, spread=FALSE, boxplots=TRUE, span=0.5, data= table2)
13
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
Calcoliamo la retta di regressione del carattere Densità sul carattere Porosità Totale
Call:
lm(formula = Densi ~ Totpor, data = table2)
Residuals:
Min 1Q Median 3Q Max
-0.260377 -0.054570 -0.001898 0.045213 0.281783
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.486995 0.104930 23.70 < 2e-16 ***
Totpor -0.019793 0.002577 -7.68 1.81e-08 ***
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Intercept dice che l’ordinata all’origine (il coefficiente b) della retta di regressione è 2.486995
mentre il coefficiente angolare (cioè a) è −0.019793. Ridisegniamo i punti sul piano cartesiano,
aggiungendo la retta di regressione (e salviamo l’immagine in un file).
14
Parte II
Statistica inferenziale
15
3. Campioni statistici
3.1 Introduzione
Scopo della statistica inferenziale è lo stabilire metodi rigorosi per ottenere – con un calcolabile
grado di certezza proprietà generali di una popolazione a partire da una raccolta di dati sulla
popolazione stessa.
Possiamo sintetizzare il modello matematico che applichiamo come segue
X1 , . . . , Xn
17
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
Dunque
" n # " n #
X 2 X 2
(Xi − µ + µ)2 − n X − µ + µ
2
Xi2 − nX = E
(n − 1)E S = E
i=1 i=1
n h i h
X 2 i
= E (Xi − µ + µ)2 − nE X −µ+µ
i=1
Xn h i
= E (Xi − µ)2 + µ2 + 2µ(Xi − µ)
i=1
h 2 i
+ µ2 − 2µE X − µ
−n E X −µ
n 2
X
2 2 σ
+ µ = (n − 1) σ 2
2
= σ +µ −n
n
i=1
e quindi E S 2 = σ 2 .
18
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
σ2
P (|X − µ| ≥ t) ≤ ∀t > 0.
t2
Osservazione 3.2.1. La disuguaglianza di Chebychev può anche essere formulata nel se-
guente modo: Se X è una variabile aleatoria con valore atteso µ e varianza σ 2 finite, allora
1
P (|X − µ| > η σ) ≤ ∀η > 0.
η2
Ovvero: la probabilità che X disti dal suo valore atteso µ più di una frazione η della deviazione
standard σ è inferiore a η12 .
Teorema 3.2.2 (Legge debole dei grandi numeri). Sia {Xi }∞ i=1 una successione di v.a. indi-
pendenti, identicamente distribuite, con valore atteso µ e varianza σ 2 finiti.
n
1X
Per ogni n ∈ N sia X n := Xi . Allora
n
i=1
lim P X n − µ > t = 0 ∀t > 0.
n→∞
La legge debole dei grandi numeri ci autorizza a usare il valore di X n come sostituto del
valore atteso µ della distribuzione e la disuguaglianza di Chebychev ci dice con precisione
quanto è probabilisticamente accettabile questa sostituzione.
Esempio 3.2.2. Ho una monetina che potrebbe essere truccata. Voglio scoprire, con un’ap-
prossimazione di ±0.05 e con un grado di certezza del 90% quanto vale la probabilità di
ottenere testa in un singolo lancio. Posso formalizzare ogni singolo lancio della monetina con
una variabile aleatoria di Bernoulli di parametro p dove p è la probabilità (incognita) di
19
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
ottenere testa in un singolo lancio. Se lancio la monetina n volte ho allora un campione sta-
tistico X1 , . . . , Xn che segue la distribuzione B(p). Sia X n la media campionaria di questo
campione. Allora
p(1 − p)
E X n = p, Var X n = .
n
Per la disuguaglianza di Chebychev
p(1 − p) 400 100
P X n − p ≥ 0.05 ≤ 2
≤ =
n(0.05) 4n n
Voglio
90
P X n − p ≤ 0.05 ≥
100
cioè
90 1
P X n − p ≥ 0.05 ≤ 1 − =
100 10
100 1
Basta allora avere ≤ cioè n ≥ 1000. Dunque: tiro la monetina 1000 volte registrando
n 10
il risultato ad ogni i-esimo lancio (xi = 1) o croce (xi = 0) vedendo questo numero come il
valore assunto da una v.a. bernoulliana Xi di parametro p.
1000
1 X
Calcolo x = xi e lo vedo come il valore assunto dalla v.a. X. La probabilità che
1000
i=1
il valore x differisca da p per meno di 0.05 è maggiore-uguale del 90%.
Più in generale
Esempio 3.2.3. Sia X1 , . . . , Xn un campione statistico di numerosità n, bernoulliano di
parametro (incognito) p ∈ [0, 1]. Dunque
20
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
0.4
0.3
0.2
0.1
x
-7 -5 -3 -1 1 3 5 7
Figura 3.1: Densità associate alle distribuzioni N (0, 1) (in rosso) e N (0, 4) (in blu)
21
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
2. Siano X1 , . . . , X 2
2
n v.a. indipendenti con Xi gaussiana di valore atteso µi e varianza σi :
PXi = N µi , σi ∀i = 1, . . . , n. Allora la v.a. Sn := X1 + X2 + . . . + Xn è gaussiana di
valore atteso pari alla somma dei valori attesi e varianza pari alla somma delle varianze:
n n
!
X X
PSn = N µi , σi2
i=1 i=1
Teorema 3.2.3 (Teorema del limite centrale). Sia {Xi }∞ i=1 una successione di v.a. indipen-
denti, identicamente distribuite, con valore atteso µ e varianza σ 2 finiti. Sia Φ(t) la legge
associata alla distribuzione gaussiana standard N (0, 1).
Per ogni n ∈ N sia X n la media campionaria di X1 , . . . , Xn e sia Z n la sua standardiz-
zazione:
Xn − µ
Z n := .
√σ
n
Allora
lim P Z n ≤ t = Φ(t) ∀t ∈ R
n→∞
ed il limite è uniforme in t ∈ R.
Osservazione 3.2.2. Una formulazione equivalente della tesi del teorema del limite centrale
è Pn
i=1 Xi − nµ
lim P √ ≤ t = Φ(t) ∀t ∈ R.
n→∞ σ n
Esempio 3.2.4. Supponiamo di avere un campione statistico di numerosità 25 e deviazione
standard 8. Qual è la probabilità che la media campionaria differisca dal valore atteso del
campione per più di 4?
Devo calcolare
P X − µ > 4
22
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
dove µ = E [Xi ] ∀i = 1, . . . , n e dunque è anche µ = E X . Applicando la disuguaglianza
di Chebychev otteniamo
Var X 64 4
P X −µ >4 ≤
2
= = = 0.16
4 25 · 16 25
Proviamo ad applicare il teorema del limite centrale. Indico con Z la standardizzazione
della media campionaria. Si ha
! !
X − µ 4 4
P X − µ > 4 = P σ > σ = P Z > 8 =
√ √ √
n n 25
5 5 −5
=P Z > =P Z> +P Z <
2 2 2
' 1 − Φ (2.5) + Φ (−2.5) = 2 (1 − Φ (2.5))
= 2 (1 − Φ (2.5)) ' 2 (1 − 0.9938) = 0.0124
Perché questa stima sembra tanto migliore di quella ottenuta con la disuguaglianza di Che-
bychev? Perché non abbiamo un’indicazione sul significato del primo dei '. In altre parole,
il teorema del limite centrale è appunto un teorema di passaggio al limite e non fornisce
una stima dell’errore che si compie sostituendo P (Zn ≤ t) con Φ(t). A tal proposito vale il
seguente
Teorema 3.2.4 (Teorema di Berry–Esseen). Sia {Xi }∞ i=1 una successione di v.a. indipen-
denti, identicamente
h i distribuite, con valore atteso µ = 0, varianza σ 2 e momento terzo
γ := E |Xi |3 finiti. Sia Φ(t) la funzione di ripartizione associata alla distribuzione gaussiana
standard N (0, 1).
0.8γ
Sia C := 3 . Allora
σ
!
Xn C
P ≤ t − Φ(t) ≤ √ ∀t ∈ R.
σ
√
n
n
23
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
Quindi
1√ 3 · 1√ 3!! √
3 1 1 5 3 3
Γ = Γ = π, Γ = Γ = π = 2 π,
2 2 2 2 2 2 2 2·2 2
(2k − 1)!! √
2k + 1
... Γ = π per ogni intero non-negativo k.
2 2k
Proprietà 3.3.1. Se X è una v.a. con distribuzione χ2 a n gradi di libertà, PX = χ2n , allora
Dimostrazione. Poiché una v.a. con distribuzione Γ(α, λ) ha valore atteso α/λ e varianza
α/λ2 , in particolare per una v.a. con distribuzione di Pearson abbiamo
n n
2 2
E [X] = 1 = n, Var [X] = = 2n.
1 2
2 2
Dimostrazione. Sappiamo che la distribuzione di X + Y è a.c. con densità h(x) data dal
prodotto di convoluzione delle densità associate alle distribuzioni Γ(α, λ) e Γ(β, λ). Dunque
h(x) = 0 per x ≤ 0. Per x > 0 abbiamo invece
x
λα α−1 −λy λβ
Z
h(x) = y e (x − y)β−1 e−λ(x−y) dy
0 Γ(α) Γ(β)
Z x
λα+β
= e−λx y α−1 (x − y)β−1 dy = (sostituisco y = xt)
Γ(α)Γ(β) 0
α+β xα+β−1 Z 1
−λx λ
=e tα−1 (1 − t)β−1 dt = Cxα+β−1 e−λx
Γ(α)Γ(β) 0
Z 1
λα+β
dove C = tα−1 (1 − t)β−1 dt. Poiché h deve essere una densità di probabilità può
Γ(α)Γ(β) 0
λα+β
solo essere C = .
Γ(α + β)
PX+Y = χ2n+k .
24
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
Dimostrazione. Scegliendo α = n2 , β = k2 , λ = 1
2 nel Lemma 3.3.1, si ottiene la tesi.
Teorema 3.3.3. Se X è una v.a. gaussiana standard, PX = N (0, 1), allora X 2 segue la
distribuzione di Pearson ad un grado di libertà, PX 2 = χ21 .
1 2
Dimostrazione. Sappiamo che PX = N (0, 1) = f (x)dx con f (x) = √ e−x /2 . Dunque
2π
PX 2 = g(x)dx con
(
0 x ≤ 0,
g(x) =
√1 x−1/2 e−x/2 x > 0,
2π
cioè PX 2 = χ21 .
Vogliamo calcolare P (D < 1.2) = P D2 < 1.44 = P X12 + X22 + X32 < 1.44 .
Xi Xi
Pongo Zi := = , i = 1, 2, 3, da cui Xi2 = 4Zi2 e dunque
σ 2
P (D < 1.2) = P X12 + X22 + X32 < 1.44 = P 4 Z12 + Z22 + Z32 < 1.44
Basterà dunque controllare (vedi ultima riga del listato a seguire) il valore della funzione di
ripartizione delle v.a. di distribuzione χ23 nel punto 0.36 che è (circa) 0.052.
25
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
> setwd("/home/laura/Documents/didattica/2017-18_analisi_reale/alcuni_appunti")
> .x <- seq(0.015, 18.015, length.out=100)
> plot(.x, dchisq(.x, df=3), xlab="x", ylab="Density",
+ main=paste("ChiSquared Distribution: Degrees of freedom=3"), type="l")
> plot(.x, pchisq(.x, df=3), xlab="x", ylab="Density",
+ main=paste("ChiSquared Distribution: Degrees of freedom=3"), type="l")
> abline(h=0.36, col="red")
> pchisq(c(0.36), df=3, lower.tail=TRUE)
[1] 0.05162424
Il seguente teorema raccoglie alcune importanti proprietà dei campioni statistici gaussiani
e delle loro media e varianza campionarie.
Teorema 3.3.6. Sia X1 , . . . , Xn un campione statistico gaussiano di numerosità n, valore
atteso µ e varianza σ 2 .
Allora, la media campionaria X e la varianza campionaria S 2 sono v.a. indipendenti.
Sia Z1 , Z2 , . . . Zn la standardizzazione del campione statistico X1 , . . . , Xn i.e.
Xi − µ
Zi := ∀i = 1, . . . , n
σ
e sia Z la media campionaria del campione normalizzato Z1 , . . . , Zn .
n
X −µ X 2
Allora Z = e la v.a. Zi − Z sono indipendenti e quest’ultima segue una distri-
σ
i=1
buzione χ2 con n − 1 gradi di libertà.
Dimostrazione. 1. n = 2. Sappiamo che PX1 +X2 = N 2µ, 2σ 2 e PX = N µ, σ 2 /2 . Inoltre
1
S 2 = (X1 − X)2 + (X2 − X)2 = (X1 − X2 )2 .
2
Dunque X e S 2 sono indipendenti se e solo se X1 + X2 e X1 − X2 sono indipendenti. Poiché
P−X2 = N −µ, σ 2 abbiamo che PX1 −X2 = N 0, 2σ 2 .
Per provare che U := X1 + X2 e V := X1 − X2 sono indipendenti ne calcoliamo la
densità congiunta e mostriamo che è uguale al prodotto delle densità
marginali. Abbiamo già
visto che PX1 +X2 = N 2µ, 2σ 2 . Inoltre, poiché P−X2 = N −µ, σ 2 abbiamo che PX1 −X2 =
N 0, 2σ 2 . Posto
ϕ : (x, y) ∈ R2 7→ (x + y, x − y) ∈ R2
abbiamo
(U, V ) = ϕ ◦ (X1 , X2 )
dunque, per ogni funzione boreliana non-negativa ψ : R2 → R abbiamo
Z Z
ψ(u, v)PU,V (dudv) = ψ(x + y, x − y)PX1 ,X2 (dxdy)
R2 R2
−(x − µ)2 −(y − µ)2
Z
1
= ψ(x + y, x − y) exp exp dxdy
R2 2πσ 2 2σ 2 2σ 2
con il cambiamento di variabile u = x + y, v = x − y
−(u − 2µ)2 −v 2
Z
1
= ψ(u, v) √ exp √ exp √ dudv
R2 2π( 2σ)2 2( 2σ)2 2( 2σ)2
26
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
27
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
−(u − 2µ)2 −v 2
1 1
fX1 +X2 (u) = q √ exp √ , fX1 −X2 (v) = q √ exp √ .
2π( 2σ)2 2( 2σ)2 2π( 2σ)2 2( 2σ)2
Z1 − Z2 2
2 2 1 2
(Z1 − Z) + (Z2 − Z) = (Z1 − Z2 ) = √ .
2 2
Z1 − Z2
La v.a. Z1 − Z2 ha distribuzione N (0, 2), dunque √ ha distribuzione N (0, 1). Appli-
2
cando il Teorema 3.3.3 otteniamo la tesi.
2
2. n ≥ 3. Procediamo per induzione, supponendo che X n−1 e Sn−1 siano indipendenti.
Osserviamo che
n
1X 1 n−1 1
Xn = Xi = (n − 1)X n−1 + Xn = X n−1 + Xn (3.1)
n n n n
i=1
e dunque
1
X n − X n−1 = Xn − X n−1 .
n
Abbiamo dunque
n n
1 X 2 1 X 2
Sn2 = Xi − X n = Xi − X n−1 + X n−1 − X n
n−1 n−1
i=1 i=1
n n n
!
1 X 2 X X 2
= Xi − X n−1 + 2 X n−1 − X n Xi − X n−1 + X n−1 − X n
n−1
i=1 i=1 i=1
1 2
2 2
= (n − 2)Sn−1 + Xn − X n−1 + 2 X n−1 − X n n X n − X n−1 + n X n−1 − X n
n−1
1 2
2 2 1 2
= (n − 2)Sn−1 + Xn − X n−1 − Xn − X n−1 Xn − X n−1 + Xn − X n−1
n−1 n n
1 2 n−1 2
= (n − 2)Sn−1 + Xn − X n−1 (3.2)
n−1 n
2 . Avremo dunque che S 2 e X
Per la (3.1) e l’ipotesi di induzione X n è indipendente da Sn−1 n n
sono indipendenti se e solo se X n e Xn − X n−1 sono indipendenti.
σ2
Sappiamo che PXn = N µ, , dunque
n
σ2 σ2
2 n
PX n = N µ, , PX n−1 = N µ, , PXn −X n−1 = N 0, σ ,
n n−1 n−1
n−1 1
Devo provare che U := X n−1 + Xn e V = Xn − X n−1 sono indipendenti. Osserviamo
n n
che
n−1 1
(U, V ) = ϕ ◦ X n−1 , Xn , ϕ(x, y) = x + y, y − x .
n n
28
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
−(u − µ)2 −v 2
Z
1 1
= ψ(u, v) q exp 2 q exp !2 dudv
2 n
2πσ 2 n−1
r
R2 2π σn 2 √σn n−1
2 σ
n
ovvero la densità congiunta è il prodotto delle densità marginali. Questo prova l’indipendenza
di U e V e dunque la prima parte della tesi.
Per dimostrare la seconda parte della tesi, osserviamo che essa è sicuramente vera per
n − 1, grazie al Teorema 3.3.3. Procediamo per induzione e riconsideriamo ora la formula
(3.2) e supponiamo che essa non sia relativa al campione X1 , . . . , Xn ma alla sua versione
standardizzata Z1 , . . . , Zn :
n r !2
X 2 n − 1
Zi − Z n = (n − 1)Sn2 = (n − 2)Sn−1 2
+ Zn − Z n−1 .
n
i=1
n
Poiché il campione Z1 , . . . , Zn è gaussiano standard, PZn −Z n−1 = N 0, dunque la
r n−1
n−1
v.a. Zn − Z n−1 è gaussiana standard e quindi il suo quadrato segue una distribu-
n 2
zione di Pearson con un grado di libertà. D’altra parte, per induzione, n−1
P
i=1 Zi − Z n−1 =
2 (Z) segue una distribuzione di Pearson a n − 2 gradi di libertà. Per il Teorema
(n − 2)Sn−1
3.3.2 otteniamo la tesi.
29
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
Osservazione 3.3.2. Il quantile di livello α ∈ (0, 1) associato alla distribuzione t(n) si indica
tn,α . Poiché la densità τn è una funzione pari, se PX = t(n), allora FX (x) + FX (−x) = 1.
Dunque per i quantili della distribuzione t(n) si ha tn,α = −tn,1−α per ogni α ∈ (0, 1).
Teorema 3.3.8. Se Z è una v.a. gaussiana standard, PZ = N (0, 1), se Y segue la distribuzio- √
Z n
ne χ2 con n gradi di libertà, PY = χ2n e se Z e Y sono indipendenti, allora la v.a. T := √
Y
segue la distribuzione t di Student a n gradi di libertà: PT = t(n).
√
z n y > 0
Dimostrazione. Possiamo scrivere T = ϕ ◦ (Y, Z) dove ϕ : (y, z) ∈ R 7→ 2 y ∈ R.
0 y≤0
Sia dunque ψ : R → R una funzione di Borel non negativa.
Z Z √
z n
ψ(t)PT (dt) = ψ √ PY,Z (dydz)
R y>0,z∈R y
√ n 2
−y −z
Z
z n 1 1 1 2 n −1
= ψ √ √ n y 2 exp exp dydz
y>0,z∈R y 2π Γ 2 2 2
2
√ √ √
z n t y y
con il cambio di variabile t = √ , z = √ , dz = √ dt,
y n n
n Z +∞
−yt2
−y
Z
1 1 1 2 1 n
−1
= ψ(t) √ y 2 y 2 exp exp dt
2nπ Γ n
R 2 0 2 2n
2
−1 −1
t2 t2 t2
y
con il cambio di variabile u = 1+ , y = 2u 1 + , dy = 2 1 + du,
2 n n n
Z n Z +∞ 2
−(n+1)
1 1 1 2 n+1 t 2
= ψ(t) √ n (2u) 2 −1 exp(−u) 1 + du dt
R 2nπ Γ 2 0 n
2
n −(n+1)
t2
Z
1 1 1 2 2 n+1
= ψ(t) √ 1+ Γ dt
2nπ Γ n
R 2 n 2
2
da cui la tesi.
30
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
31
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
X −µ S2
Dimostrazione. Basta applicare il teorema 3.3.8 con Z = e Y = V = (n − 1) .
√σ σ2
n
32
4. Stimatori di massima versosimiglianza
n
Y
f (x1 , . . . , xn |θ) = g(x1 |θ) · . . . · g(xn |θ) = g(xi |θ).
i=1
Interpreto f (x1 , . . . , xn |θ) come la plausibilità che la n-upla x1 , . . . , xn si realizzi nel cam-
pione empirico quando il parametro incognito prende il valore θ. Sappiamo infatti che, se f è
continua nel punto (x1 , . . . , xn , θ), allora
δ δ
P kX1 − x1 k < , . . . , kXn − xn k <
2 2
n !
Y δ δ
= P (X1 , . . . , Xn ) ∈ xi − , xi + ' f (x1 , . . . , xn |θ) δ n
2 2
i=1
Osservazione 4.0.1. Poiché la funzione lnQ: (0, +∞) → R è strettamente monotona cre-
scente, massimizzare f (x,P n1 , . . . , x, n| θ) = ni=1 g(xi |θ) equivale a massimizzare la funzione
ln f (x, n1 , . . . , x, n| θ) = ni=1 ln g(xi |θ) e si ha
n n n
∂ ∂ X X ∂ X 1 ∂g(xi |θ)
ln f (x, n1 , . . . , x, n| θ) = ln g(xi |θ) = ln g(xi |θ) =
∂θ ∂θ ∂θ g(xi |θ) ∂θ
i=1 i=1 i=1
33
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
Abbiamo
∂f
= kpk−1 (1 − p)n−k − (n − k)pk (1 − p)n−k−1
∂p
k
= pk−1 (1 − p)n−k−1 (k − np) R 0 ⇐⇒ k − np R 0 ⇐⇒ p Q .
n
Pn
Xi
Poiché k = ni=1 xi , lo stimatore di massima verosimiglianza per il parametro p è
P i=1
n
cioè la media campionaria X.
n xi
−λ λ
X
ln f (x1 , . . . , xn |λ) = ln e
xi !
i=1
n
X n
X
= (−λ + xi ln(λ) − ln(xi !)) = −nλ + nx ln(λ) − ln(xi !)
i=1 i=1
Da cui
∂ x
ln f (x1 , . . . , xn |λ) = n −λ + R 0 ⇐⇒ λ Q x.
∂λ λ
Quindi anche in questo caso o stimatore di massima verosimiglianza per il parametro λ è la
media campionaria X.
34
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
cosicché
n
n 1 X
ln f (x1 , . . . , xn |µ, σ) = − ln(2πσ 2 ) − 2 (xi − µ)2
2 2σ
i=1
n
n 1 X
= − ln(2π) − n ln(σ) − 2 (xi − µ)2 .
2 2σ
i=1
Si ha quindi
n
∂ 1 X
ln f (x1 , . . . , xn |µ, σ) = 2 (xi − µ) = n (x − µ) ,
∂µ σ
i=1
n n
!
∂ −n 1 X 1 X
ln f (x1 , . . . , xn |µ, σ) = + 3 (xi − µ)2 = 3 −nσ + 2
(xi − µ)2 .
∂σ σ σ σ
i=1 i=1
da cui (
1
(b−a)n xi ∈ [a, b] ∀i = 1, . . . , n,
f (x1 , . . . , xn |a, b) =
0 altrimenti.
1
Devo massimizzare (b−a) n con il vincolo a ≤ xi ≤ b per ogni i = 1, . . . , n. Devo dunque
minimizzare la lunghezza dell’intervallo b − a con il vincolo a ≤ xi ≤ b per ogni i = 1, . . . , n.
È dunque
a = min {x1 , . . . , xn } , b = min {x1 , . . . , xn } .
Dunque
min {X1 , . . . , Xn } , max {X1 , . . . , Xn }
sono stimatori di massima verosimiglianza rispettivamente per l’estremo inferiore e per l’e-
stremo superiore dell’intervallo.
35
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
36
5. Intervalli di confidenza
La media campionaria e la varianza campionaria ci offrono una stima dei parametri valore
atteso e varianza del campione statistico in esame. Abbiamo però bisogno di sapere quanto ci
si possa fidare di questa stima ovvero quale sia la probabilità che il vero valore del parametro
incognito non sia troppo distante dalla stima trovata.
Diamo perciò la seguente definizione:
Definizione 5.0.1 (Intervallo di confidenza). Sia X1 , . . . , Xn un campione statistico e sia
θ un parametro (ignoto) che caratterizza la distribuzione del campione.
Siano Li = li (X1 , . . . , Xn ) e Ls = ls (X1 , . . . , Xn ) due statistiche del campione e sia
α ∈ (0, 1). Dico che l’intervallo (Li , Ls ) è un intervallo di confidenza (o di fiducia) di livello
1−α se P (θ ∈ (Li , Ls )) ≥ 1−α, ovvero che (Li , Ls ) è un intervallo di confidenza (o di fiducia)
di errore α se P (θ ∈
/ (Li , Ls )) ≤ α.
Dico che la semiretta (Li , +∞) è un intervallo di confidenza unilaterale superiore di livello
1 − α se P (θ > Li ) ≥ 1 − α
Dico che la semiretta (−∞, Ls ) è un intervallo di confidenza unilaterale inferiore di livello
1 − α se P (θ < Ls ) ≥ 1 − α
Osservazione 5.0.1. 1. La scelta dei nomi delle due statistiche non è casuale: Li sta per
limitazione inferiore mentre Ls sta per limitazione superiore.
2. Di solito si è interessati a piccoli valori di α, più precisamente a α ∈ (10−2 , 10−1 ).
3. La disuguaglianza di Chebychev ci ha fornito un intervallo di confidenza per il valore
atteso µ del campione nel caso in cui la varianza σ 2 sia nota
σ2
P X − µ ≥ t ≤ 2 ∀t > 0
t
ovvero
σ2
P X − µ < t ≥ 1 − 2 ∀t > 0
t
cioè
σ2
P X −t<µ<X +t ≥1− 2 ∀t > 0.
t
σ
Fissato α ∈ (0, 1) scelgo t = √ . La disuguaglianza di Chebychev si legge allora
α
σ σ
P X−√ <µ<X+√ ≥1−α ∀α ∈ (0, 1).
α α
σ σ
Dunque l’intervallo X − √ , X + √ è un intervallo di confidenza di livello 1 − α
α α
per il valore atteso µ del campione.
37
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
P (Z ≤ t) = 1 − α se e solo se t = z1−α .
38
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
Abbiamo dunque
!
X −µ σ z1−α σ z1−α
1−α=P ≤ z1−α =P X −µ≤ √ =P µ≥X− √ .
√σ n n
n
Quindi la semiretta
σ z1−α
X − √ , +∞
n
è un intervallo di confidenza unilaterale superiore di livello 1 − α.
P (Z ≥ t) = 1 − α se e solo se P (Z ≤ t) = α se e solo se t = zα .
Abbiamo dunque
!
X −µ σ zα σ zα
1−α=P ≥ zα =P X −µ≥ √ =P µ≤X− √ .
√σ n n
n
Quindi la semiretta
σ zα σ z1−α
−∞, X − √ = −∞, X + √
n n
è un intervallo di confidenza unilaterale inferiore di livello 1 − α.
39
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
Abbiamo dunque
X − µ √n
!
1 − α = P |T | ≤ tn−1,1− α2 =P ≤ tn−1,1− α2
S
S
= P X − µ ≤ √ tn−1,1− α2
n
−S S
= P √ tn−1,1− α2 ≤ µ − X ≤ √ tn−1,1− α2
n n
S S
= P X − √ tn−1,1− α2 ≤ µ ≤ X + √ tn−1,1− α2
n n
L’intervallo
S tn−1,1− α2 S tn−1,1− α2
X− √ ,X + √
n n
è dunque un intervallo di confidenza di livello 1 − α per il valore atteso µ del campione.
Abbiamo dunque
√
(X − µ) n S tn−1,α S tn−1,α
1−α=P ≥ tn−1,α = P X − µ ≥ √ =P µ≤X− √ .
S n n
Quindi la semiretta
S tn−1,α S tn−1,1−α
−∞, X − √ = −∞, X + √
n n
è un intervallo di confidenza unilaterale inferiore di livello 1 − α.
40
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
Intervallo bilaterale
Sia X1 , . . . , Xn un campione gaussiano di valore atteso µ (incognita o nota )e varianza σ 2
incognita.
S2
Sappiamo che la v.a. V := (n − 1) 2 segue la distribuzione χ2 a n − 1 gradi di libertà.
σ
Per ogni α ∈ (0, 1) indico con χ2n−1,α il quantile di livello α della v.a. V :
FV χ2n−1,α = α
∀α ∈ (0, 1).
P χ2n−1, α < V < χ2n−1,1− α = P V < χ2n−1,1− α −
2 2 2
α α
− P V < χ2n−1, α = 1 − − = 1 − α.
2 2 2
Dunque
S2
2 2
1 − α = P χn−1, α < (n − 1) 2 < χn−1,1− α
2 σ 2
! !
1 σ2 1 (n − 1)S 2 2 (n − 1)S 2
=P 2 < < 2 =P < σ <
χn−1,1− α (n − 1)S 2 χn−1, α χ2n−1,1− α χ2n−1, α
2 2 2 2
Quindi l’intervallo !
(n − 1)S 2 (n − 1)S 2
, 2
χ2n−1,1− α χn−1, α
2 2
Quindi la semiretta !
(n − 1)S 2
, +∞
χ2n−1,1−α
41
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
Dunque !
S2 S2
1 − α = P (n − 1) 2 > χ2n−1,α =P 2
σ ≤ (n − 1) .
σ χ2n−1,α
Quindi l’intervallo !
(n − 1)S 2
0,
χ2n−1,α
> setwd("~/Documents/didattica/2017-18_analisi_reale/alcuni_appunti/esempio_statistica")
>
> library(readr)
>
> table2 <- read_delim("~/Documents/didattica/2017-18_analisi_reale/alcuni_appunti/
table2.csv", "\t", escape_double = FALSE, trim_ws = TRUE)
Parsed with column specification:
cols(
Code = col_character(),
Totpor = col_double(),
PRA = col_double(),
PV = col_double(),
Densi = col_double(),
TenStr = col_double(),
CO2SBW = col_double(),
FirTemp = col_integer()
)
>
> ## definisco la funzione che calcola l’intervallo bilaterale con varianza nota
>
> bilat.norm = function(x,sigma,conf) { n = length(x); xbar=mean(x);
+ alpha = 1 - conf;
+ zstar = qnorm(1-alpha/2);
+ SE = sigma/sqrt(n);
+ xbar + c(-zstar*SE,zstar*SE)}
>
> # definisco la funzione che calcola l’intervallo bilaterale con varianza ignota
>
> bilat.stud = function(x,conf) { n = length(x);
+ m = n-1;
+ xbar=mean(x);
+ alpha = 1 - conf;
+ zstar = qt(1-alpha/2, m, lower.tail=TRUE);
42
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
+ SE = sd(x)/sqrt(n);
+ xbar + c(-zstar*SE,zstar*SE)
+ }
>
> # definisco la funzione che calcola l’intervallo bilaterale per la varianza
>
> bilat.chi = function(x,conf) {
+ n = length(x);
+ m = n-1;
+ alpha = 1 - conf;
+ zsup = qchisq(alpha/2, m, lower.tail=TRUE);
+ zinf = qchisq(1 - alpha/2, m, lower.tail=TRUE);
+ SE = sd(x)*sd(x)*m;
+ c(SE/zinf,SE/zsup)
+ }
>
>
> numSummary(table2[,c("Totpor", "PRA", "PV", "Densi", "TenStr", "CO2SBW", "FirTemp")],
+ statistics=c("mean", "sd", "quantiles"), quantiles=c(0,.25,.5,.75,1))
mean sd 0% 25% 50% 75% 100% n NA
Totpor 40.1193548 7.0371760 26.850 36.0550 40.900 44.4200 54.640 31 0
PRA 0.6732581 0.4760389 0.158 0.4220 0.622 0.7305 2.657 31 0
PV 55.3290323 28.5498417 10.200 30.4500 59.400 80.7000 88.600 31 0
Densi 1.6929032 0.1701214 1.340 1.5600 1.680 1.8150 2.020 31 0
TenStr 0.6092258 0.3143682 0.143 0.4065 0.527 0.7165 1.405 31 0
CO2SBW 0.5816667 0.5259152 0.050 0.2900 0.390 0.4950 1.960 30 1
FirTemp 764.8387097 52.9698636 730.000 740.0000 740.000 750.0000 960.000 31 0
>
> bilat.norm(table2$Totpor, 7.04, .9)
[1] 38.03957 42.19914
> bilat.norm(table2$Totpor, 7.04, .95)
[1] 37.64113 42.59758
>
> bilat.stud(table2$Totpor, .9)
[1] 37.97416 42.26455
> bilat.stud(table2$Totpor, .95)
[1] 37.53810 42.70061
>
> bilat.chi(table2$Totpor, .9)
[1] 33.94002 80.33757
> bilat.chi(table2$Totpor, .95)
[1] 31.62366 88.48047
>
43
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
44
6. Test d’ipotesi
2. L’ipotesi è vera ma in base ai dati la rifiuto → in questo caso si dice che si commette
errore di prima specie
3. L’ipotesi è falsa ma in base ai dati la accetto → in questo caso si dice che si commette
errore di seconda specie
Esempio 6.0.1.( Ho una moneta. Voglio verificare se è bilanciata o meno. La lancio n volte.
1 se all’i-esimo lancio esce testa,
Pongo Xi = , i = 1, . . . , n.
0 se all’i-esimo lancio esce croce.
Ho un campione statistico bernoulliano di numerosità n e parametro p ∈ [0, 1] incognito,
dove p è la probabilità che esca testa in un singolo lancio.
L’ipotesi nulla che dobbiamo testare è
H0 ) p = 0.5.
n
1X k
e dunque x = xi = .
n n
i=1
Stabilisco una distanza massima ε tra x e 0.5 entro la quale accettare l’ipotesi p = 0.5 e
nla quale rifiutarla. Ovvero: accetto H0 se |x − 0.5| < ε e la rifiuto se |x − 0.5| ≥ ε. cioè
oltre
X n
se xi − ≥ nε. Quanto vale la probabilità di commettere errore di prima specie, ovvero
2
i=1
di rifiutarla quando esse invece è vera?
45
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
n
X
Poiché le v.a. Xi sono i.i.d con PXi = B(p), la v.a. Y := Xi è una v.a. binomiale di
i=1
parametri n e p. Se l’ipotesi H0 è vera, allora p = 0.5 cosicché PY = B(n, 0.5) e
n n n
α := P Y − ≥ nε = P Y ≥ + nε + P Y ≤ − nε
2 2 2
Vediamo alcuni casi
46
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
Solitamente si vuole controllare (nel senso di tenere bassa, inferiore a 0.1 o a 0.05) la proba-
bilità α di commettere errore di prima specie. Tale probabilità viene detta livello di signifi-
catività del test. Fissato il livello di significatività α, la numerosità n e la soglia di tolleranza
ε andranno scelti di conseguenza come visto negli esempi precedenti.
Inoltre, fissato α, ci chiediamo quanto valga la probabilità di commettere errore di seconda
specie, ovvero di accettare H0 quand’essa invece è falsa.
Se H0 è falsa, allora la probabilità di ottenere testa non è 0.5 ma assume un valore p 6= 0.5
(ignoto) e dunque PY = B(n, p) e io accetto H0 con probabilità
n n n
β(p) := Pp Y − < nε = Pp Y < + nε − Pp Y ≤ − nε
2 2 2
Si calcola β(p) per vari valori di p. La funzione β(p) è detta curva operativa caratteristica
(OC) mentre 1 − β(p) cioè la probabilità di rifiutare H0 quand’essa in effetti è falsa e il
parametro incognito vale p, è detta potenza del test.
Esempio 6.0.2. Consideriamo la solita moneta e stavolta vogliamo vedere se è più probabile
ottenere testa che ottenere croce. Vogliamo cioè testare l’ipotesi nulla
H0 ) p ≤ 0.5
47
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
48
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
2. Si definisce l’ipotesi da testare, detta ipotesi nulla (si indica col simbolo H0 ). Le ipotesi
si possono suddividere in due grandi famiglie:
H0 : F (x) ∈ F0 ⊂ F
49
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
• accetto H0 se ϕ(x1 , . . . , xn ) ∈ A;
• rifiuto H0 se ϕ(x1 , . . . , xn ) ∈
/ A, ovvero se ϕ(x1 , . . . , xn ) ∈ C.
Diciamo che commettiamo errore di prima specie se rigettiamo H0 quando essa in realtà è
vera e chiamiamo livello di significatività del test la probabilità che ciò accada:
α := P (ϕ(X1 , . . . , Xn ) ∈ C|H0 ) .
β := P (ϕ(X1 , . . . , Xn ) ∈ A|HA ) .
Il valore 1 − β è detto potenza del test. (Vedremo negli esempi successivi relativi a test
parametrici che se HA è un’ipotesi composta, allora β è una funzione β(θ), θ ∈ Θ1 .
Come già detto, è prioritario limitare la probabilità di commettere errore di prima specie,
cioè di limitare la probabilità di rifiutare l’ipotesi nulla quando essa è vera.
6.2.1 Test d’ipotesi per il valore atteso di campioni gaussiani di cui è nota la
varianza
Test bilaterale
Sia X1 , . . . , Xn un campione gaussiano di valore atteso µ incognito e varianza σ 2 nota.
Vogliamo testare
H0 : µ = µ0 , HA : µ 6= µ0 .
Sappiamo che PXi = N µ0 , σ 2 se e solo se E X = µ0 . Dunque accetto l’ipotesi nulla H0 se
50
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
σ
accetto H0 se |x − µ0 | < √ z1− α2 e la rifiuto altrimenti.
n
Calcoliamo la curva operativa caratteristica. Se H0 è falsa, µ 6= µ0 , commetto errore di seconda
specie con probabilità
σ
β(µ) = P X − µ0 < √ z1− α2 |E [Xi ] = µ
n
σ σ
= P µ0 − √ z1− α2 < X < µ0 + √ z1− α2 |E [Xi ] = µ
n n
(6.1)
!
µ0 − µ X −µ µ0 − µ
=P σ − z 1− α <
σ < σ + z 1− α |E [Xi ] = µ
√ 2 √ 2 √
n n n
! !
µ0 − µ µ0 − µ
=Φ + z1− α2 −Φ + z α2 .
√σ √σ
n n
1. µ > µ0
µ0 − µ µ0 − µ
In questo caso < 0 dunque + z α2 < z α2 e quindi
√σ √σ
n n
!
µ0 − µ α
0<Φ + z α2 <
√σ 2
n
51
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
In particolare α
sup β(µ) ∼ Φ z1− α2 = 1 − .
µ>µ0 2
e dunque
µ0 − µ
≤ zβb + z α2 ,
√σ
n
cioè 2
σ 2
n≥ zβb + z α2
µ0 − µ
2. µ < µ0
µ − µ0
In questo caso < 0 e scriviamo la (6.1) nella forma
√σ
n
! !
µ − µ0 µ − µ0
β(µ) = Φ − z α2 −Φ − z1− α2
√σ √σ
n n
! !
µ − µ0 µ − µ0
=Φ + z1− α2 −Φ + z α2 .
√σ √σ
n n
µ − µ0
Si ha + z α2 < z α2 e dunque
√σ
n
!
µ − µ0 α
0<Φ + z α2 <
√σ 2
n
In particolare α
sup β(µ) ∼ Φ z1− α2 = 1 − .
µ<µ0 2
52
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
σ2
X − µ0
Poiché, se H − 0 è vera si ha PX = N µ0 , e Z := ha distribuzione N (0, 1), si
n √σ
n
ha
!
X − µ0 ε
P X ≥ µ0 + ε|µ = µ0 = P ≥ |µ = µ0
√σ √σ
n n
√ √ √
ε n ε n ε n
=P Z≥ =1−P Z ≤ =1−Φ .
σ σ σ
n
σ 1X
Dunque scelgo ε = √ z1−α . Presi i dati x1 , . . . , xn , sia dunque x = xi la loro media.
n n
i=1
σ
Accetto H0 se x < µ0 + √ z1−α e la rifiuto altrimenti.
n
53
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
σ2
X −µ
Poiché PX = N µ, e Z := ha distribuzione N (0, 1), si ha
n √σ
n
!
X −µ µ0 − µ + ε
P X ≥ µ0 + ε|E X = µ = P ≥ |E X = µ
√σ √σ
n n
√ √
(µ0 − µ + ε) n (µ0 − µ + ε) n
=P Z≥ =1−P Z ≤
σ σ
√ √
(µ0 − µ + ε) n ε n
=1−Φ ≤1−Φ .
σ σ
Se voglio limitare superiormente P X > µ0 + ε|µ ≤ µ0 , cioè se voglio
P X > µ0 + ε|E X = µ ≤ α ∀µ ≤ µ0
√ √
ε n ε n
scelgo ε in modo da avere 1 − Φ = α cioè = z1−α e dunque scelgo
σ σ
σ
ε = √ z1−α .
n
n
1X
Presi i dati x1 , . . . , xn , sia dunque x = xi la loro media.
n
i=1
σ
Accetto H0 se x < µ0 + √ z1−α e la rifiuto altrimenti.
n
σ2
X − µ0
Poiché, se H0 è vera, PX = N µ0 , , e Z := ha distribuzione N (0, 1), si ha
n √σ
n
! √
X − µ0 −ε −ε n
P X ≤ µ0 − ε|µ = µ0 = P ≤ |µ = µ0 =P Z≤
√σ √σ σ
n n
√ √
−ε n ε n
=Φ =1−Φ .
σ σ
√ √
ε n ε n
Dunque scelgo ε in modo da avere Φ = 1 − α cioè = z1−α cioè scelgo
σ σ
σ
ε = √ z1−α .
n
54
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
n
1X
Presi i dati x1 , . . . , xn , sia dunque x = xi la loro media.
n
i=1
σ
Accetto H0 se x > µ0 − √ z1−α e la rifiuto altrimenti.
n
σ2
X −µ
µ, σ 2
Poiché, se PXi = N si ha PX = N µ, , e Z := ha distribuzione N (0, 1),
n √σ
n
abbiamo anche
!
X −µ µ0 − µ − ε
P X ≤ µ0 − ε|E X = µ ≥ µ0 = P ≤ |E X = µ ≥ µ0 =
√σ √σ
n n
√ √ √ √
(µ0 − µ − ε) n (µ0 − µ − ε) n −ε n ε n
=P Z≤ =Φ ≤Φ =1−Φ .
σ σ σ σ
Se voglio limitare superiormente P X ≤ µ0 − ε|µ ≥ µ0 cioè se voglio
P X ≤ µ0 − ε|E X = µ ≥ µ0 ≤ α ∀µ ≥ µ0
√ √
ε n ε n
scelgo ε in modo da avere Φ = 1 − α cioè = z1−α e dunque scelgo
σ σ
σ
ε = √ z1−α .
n
n
1X
Presi i dati x1 , . . . , xn , sia dunque x = xi la loro media.
n
i=1
σ
Accetto H0 se x > µ0 − √ z1−α e la rifiuto altrimenti.
n
55
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
α = P (|T | ≥ ε) = P (T ≥ ε) + P (T ≤ −ε)
= 1 − FT (ε) + FT (−ε) = 2 (1 − FT (ε))
α
Se voglio fissare a priori α, deve essere allora FT (ε) = 1 − dunque devo scegliere
2
ε = tn−1,1− α2 .
56
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
57
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
Test bilaterale
Sia X1 , . . . , Xn un campione gaussiano di media µ (nota o incognita) e varianza σ 2 incognita.
Vogliamo testare
H0 : σ 2 = σ02 HA : σ 2 6= σ02
2
S
H0 è vera se e solo se E S 2 = σ02 ovvero se e solo se E 2 = 1. Dunque accetto H0 se
σ0
s 2
1 − ε1 < 2 < 1 + ε2 , ε1 , ε2 positivi, cioè se e solo se
σ0
(n − 1)s2
(n − 1)(1 − ε1 ) < < (n − 1)(1 + ε2 ).
σ2
58
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
S2
2
2 2 S 2 2
α=P > 1 + ε2 |σ = σ0 + P < 1 − ε1 |σ = σ0
σ02 σ02
(n − 1)S 2 (n − 1)S 2
2 2 2 2
=P > (n − 1)(1 + ε2 )|σ = σ0 + P < (n − 1)(1 − ε1 )|σ = σ0
σ02 σ02
= P (V > (n − 1)(1 + ε2 )) + P (V < (n − 1)(1 − ε1 )) .
(n − 1)s2
Dunque accetto H0 se χ2n−1, α < < χ2n−1,1− α ovvero
2 σ02 2
σ02 2 σ02 2
accetto H0 se χn−1, α < s2 < χ α e la rifiuto altrimenti.
n−1 2 n − 1 n−1,1− 2
(n − 1)(1 + ε) = χ2n−1,1−α .
(n − 1)s2
Dunque accetto l’ipotesi nulla H0 se < χ2n−1,1−α ovvero
σ02
σ02 2
acccetto H0 se s2 < χ e la rifiuto altrimenti.
n − 1 n−1,1−α
59
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
σ2
dove abbiamo usato la monotonia di FV e il fatto che σ 2 ≤ σ02 implica ≤ 1.
σ02
Posso allora limitare superiormente con α la probabilità di commettere errore di prima
specie imponendo
1 − FV ((n − 1)(1 + ε)) = α
cioè scegliendo ε in modo che
(n − 1)(1 + ε) = χ2n−1,1−α .
(n − 1)s2
Dunque accetto l’ipotesi nulla H0 se < χ2n−1,1−α ovvero
σ02
σ02 2
accetto H0 se s2 < χ e la rifiuto altrimenti.
n − 1 n−1,1−α
60
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
σ02 2
accetto H0 se s2 > χ e la rifiuto altrimenti.
n − 1 n−1,α
S2
2 2
P < 1 − ε|Var [Xi ] = σ ≥ σ0
σ02
(n − 1)S 2 σ02
2 2
=P < 2 (n − 1)(1 − ε)|Var [Xi ] = σ ≥ σ0
σ2 σ
2
σ0
= FV (n − 1)(1 − ε) ≤ FV ((n − 1)(1 − ε)) .
σ2
Posso allora limitare superiormente con α la probabilità di commettere errore di prima specie
imponendo
FV ((n − 1)(1 − ε)) = α
cioè scegliendo ε in modo che
(n − 1)(1 − ε) = χ2n−1,α .
(n − 1)s2
Dunque accetto l’ipotesi nulla H0 se > χ2n−1,α ovvero
σ02
σ02 2
accetto H0 se s2 > χ e la rifiuto altrimenti.
n − 1 n−1,α
61
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
62
7. Test di ipotesi per il confronto di campioni gaussiani
7.1 Test d’ipotesi per la differenza dei valori attesi di campioni gaussiani
63
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
Dunque
r
2
σX σ2
accetto l’ipotesi H0 se |x − y − d| < z1− α2 + Y e la rifiuto altrimenti.
n k
r
2 2 2 2
Osservazione 7.1.1. Se σX = σY = σ0 e k = n, allora ε = z1− α2 σ0 .
n
2
(n − 1)SX
Indico con σ 2 il comune valore di σX
2 e σ 2 . Sappiamo che V :=
Y X segue la distribu-
σ2
(k − 1)SY2
zione χ2n−1 , e che VY := segue la distribuzione χ2k−1 . Inoltre, poiché i due campioni
σ2
sono indipendenti, anche VX e VY sono idipendenti. Dunque, per il Teorema 3.3.2, VX + VY
segue la distribuzione χ2n−1+k−1 = χ2n+k−2
D’altra parte
2 + (k − 1)S 2
(n − 1)SX 2 + (k − 1)S 2
Y n + k − 2 (n − 1)SX Y
VX + VY = = .
σ2 σ2 n+k−2
Se definiamo la statistica:
2 + (k − 1)S 2
(n − 1)SX
2 Y
S := .
n+k−2
abbiamo
2
(n + k − 2)S
VX + VY = .
σ2
2 1 1
Inoltre sappiamo che X − Y ha distribuzione N µX − µY , σ + , quindi
n k
X − Y − (µX − µY )
Z := r
1 1
σ +
n k
ha distribuzione gaussiana standard N (0, 1). Considero
√ √
X −Y −d n+k−2 X −Y −d n+k−2
T := r √ = r q .
1 1 VX + VY 1 1 (n − 1)S 2 + (k − 1)S 2
σ + + X Y
n k n k
2 , Y e S 2 sono indipendenti,
Poiché i due campioni sono gaussiani e indipendenti le v.a. X, SX Y
quindi X − Y e VX + VY sono indipendenti, e dunque µX − µY = d se e solo se e E [T ] = 0.
Infatti, per l’indipendenza, si ha
E X −Y −d √
1
E [T ] = r n + k − 2E √ .
1 1 VX + VY
σ +
n k
64
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
Come criterio di accettazione per l’ipotesi nulla H0 scelgo pertanto |t| < ε.
Inoltre, se H0 è vera, allora per il Teorema 3.3.8 la v.a. T segue la distribuzione t(n+k−2).
La probabilità di commettere errore di prima specie è quindi α = P (|T | ≥ ε). Fissato il livello
di significatività α, devo dunque scegliere ε = tn+k−2,1− α2 .
Siano x : x1 , . . . , xn e y : y1 , . . . , yk i dati, x e y le rispettive medie, s2x e s2y le rispettive
varianze:
√
|x − y − d| n+k−2
accetto H0 se r q < tn+k−2,1− α2 , e la rifiuto altrimenti.
1 1 (n − 1)s 2 + (k − 1)s2
+ X Y
n k
k
2 2 x 2 −1
x > 0,
k+n
f (x) = Γ k Γ n n
kx 2
2 2 1+
n
0 x ≤ 0.
65
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
nu kv kv
sostituiamo t = ,u= t, du = dt
kv n n
+∞ k+n k Z +∞
−v
Z
1 1 2 k 2 k −1 k+n
−1 kt
= ψ(t) t2 y 2 exp 1+ dv dt
0 k n 2 n 0 2 n
Γ Γ
2 2
v kt v n + kt 2nx 2n
sostituiamo x = 1+ = ,v= , dv = dx
2 n 2 n n + kt n + kt
Z +∞ k+n k Z +∞ k+n !
1 1 2 k 2 k −1 2n 2 k+n
−1 −x
= ψ(t) t2 x 2 e dx dt
0 k n 2 n 0 n + kt
Γ Γ
2 2
k+n
Z +∞ Γ k+n k
2 n 2 k 2 k −1
= ψ(t) t 2 dt
0 k n n + kt n
Γ Γ
2 2
da cui la tesi.
Osservazione 7.2.1. Indichiamo con fk,n,α il quantile di livello α associato alla distribuzione
di Fisher di parametri k ed n. Siano U e V sono come nel Teorema 7.2.1: U e V variabili
aleatorie indipendenti con distribuzioni PU = χ2k , PV = χ2n e sia α ∈ (0, 1). Si ha
−1 !
U/k U/k 1
α=P ≤ fk,n,α =P ≥
V /n V /n fk,n,α
V /n 1 V /n 1
=P ≥ =1−P ≤
U/k fk,n,α U/k fk,n,α
V /n 1 1
ovvero P ≤ = 1 − α cioè = fn,k,1−α .
U/k fk,n,α fk,n,α
66
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
Vogliamo testare
2
H0 : σX = σY2 HA : σ2X 6= σY2 .
2 e S 2 sono stimatori non distorti di σ 2 e σ 2 , rispettivamente. Dunque:
Sappiamo che SX Y X Y
s2X
accettiamo H0 se 1 − ε1 < < 1 + ε2 , rifiutiamo altrimenti.
s2Y
Per scegliere ε1 ed ε2 in base al livello di significatività desiderato, consideriamo le v.a.
2
(k − 1)SX (n − 1)SY2
VX = 2 , VY = .
σX σY2
SX 2 /σ 2
X
Sappiamo che PVX = χ2k−1 , PVY = χ2n−1 . Dunque, la v.a. segue la distribuzione di
SY2 /σY2
S2
Fisher con k − 1 ed n − 1 gradi di libertà. In particolare H0 è vera se e solo se F := X segue
SY2
la distribuzione di Fisher con k − 1 ed n − 1 gradi di libertà.
Abbiamo dunque
2 2
SX 2 2 SX 2 2
α=P ≤ 1 − ε |σ
1 X = σ Y + P ≥ 1 + ε |σ
2 X = σ Y .
SY2 SY2
s2X
accetto H0 se fk−1,n−1, α2 < < fk−1,n−1,1− α2 . Rifiuto altrimenti.
s2Y
67
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
68
8. Test del χ2 e test di Smirnov-Kolmogorov
k
Y
f (x1 , . . . , xn |p1 , . . . , pk ) = p1 n1 p2 n2 . . . pk nk = pj nj
j=1
e perciò
k
X
g(x1 , . . . , xn |p1 , . . . , pk ) := log f (x1 , . . . , xn |p1 , . . . , pk ) = nj log pj .
j=1
k
∂G X ∂G ni
= − pj − 1 , = −λ ∀j = 1, . . . , k.
∂λ ∂pj pj
j=1
Da cui otteniamo
nj
pj = ∀j = 1, . . . , k,
n
ovvero lo stimatore di massima verosimiglianza per la densità in tj è la frequenza relativa del
carattere tj nel campione x1 , . . . , xn .
69
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
Sia Y1 , . . . , Yn un campione statistico. Supponiamo che le v.a. del campione siano discrete a
valori t1 , . . . , tk . Consideriamo le densità di probabilità
pj := P (Yi = tj ) , j = 1, . . . , k.
Pk
Siano p01 , . . . , p0k dei numeri assegnati, tali che p0j ≥ 0 ∀j = 1, . . . k e 0
j=1 pj = 1.
Vogliamo testare
Xj = # {i ∈ {1, . . . , n} : Yi = tj } j = 1, . . . , k.
Sicuramente PXj = B(n, pj ), quindi E [Xj ] = npj , Var [Xj ] = npj (1 − pj ). Inoltre (Xj − npj )2
mi dice quanto sia verosimile che P (Yi = tj ) = pj . Posso stabilire un criterio di accetta-
Xk
zione considerando una opportuna combinazione lineare aj (Xj − npj )2 con coefficienti
j=1
a1 , . . . , ak positivi. Si può dimostrare che vale il seguente
k
X (Xj − npj )2
Teorema 8.2.1 (di Pearson). Se PXj = Bin(n, pj ), allora la legge della v.a.
npj
j=1
converge, per n → ∞, alla legge associata alla distribuzione χ2k−1 .
Pk (nj − np0j )2
accetto H0 se tn := j=1 < ε. Rifiuto altrimenti
np0j
70
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
da cui
Pn !2
(X1 − np1 )2 (X1 − np1 )2 (X1 − np1 )2 i=1 Z i − nE [Z 1 ]
T = + = = p .
np1 n(1 − p1 ) np1 (1 − p1 ) nVar [Z1 ]
Pn
i=1 Zi − nE [Z1 ]
Per il teorema del limite centrale p converge in legge a una v.a. gaus-
nVar [Z1 ]
siana standard e sappiamo che il quadrato di una v.a. con distribuzione N (0, 1) segue la
distribuzione χ2 ad un grado di libertà.
Sia {Xi }∞
i=1 una successione di v.a. i.i.d. con legge F0 . Pongo
(
1 Xi (ω) ≤ t,
Yi (ω, t) = 1(−∞,t] (Xi (ω)) =
1 Xi (ω) > t.
Si ha E [Yi (·, t)] = P (Xi ≤ t) = F0 (t), Var [Yi (·, t)] = F0 (t)(1 − F0 (t)) ≤ 1.
n
1X
Per ogni n ∈ N sia gn : (x1 , . . . , xn , t) ∈ Rn × R 7→ 1(−∞,t] (xi ) ∈ R.
n
i=1
Considero la v.a.
n n
1X 1X
Gn (ω, t) = gn ◦ (X1 (ω), . . . , Xn (ω), t) = 1(−∞,t] (Xi (ω)) = Yi (ω, t).
n n
i=1 i=1
1
Osserviamo che Gn (ω, t) = # {i ∈ {1, . . . , n} : Xi (ω) ≤ t} dunque Gn (ω, ·) è una funzione
n
1 n−1
costante a tratti, monotona crescente che prende valori in 0, , . . . , , 1 (li prende tutti
n n
se e solo se i valori X1 (ω), . . . , Xn (ω) sono tutti distinti).
Consideriamo allora il seguente test d’ipotesi per un campione statistico X1 , . . . , Xn di
cui rilevo i dati x1 , . . . , xn . Sia F0 : R → [0, 1] una funzione monotona crescente, tale che
lim F0 (t) = 0, lim F0 (t) = 1. Supponiamo inoltre che F0 sia continua. Voglio testare
t→−∞ t→+∞
Sia dn := supt∈R |gn (x1 , . . . , xn , t)|. Accetto H0 se dn < ε, rifiuto altrimenti. Vediamo se
possiamo scegliere ε in base al livello di significatività desiderato.
Lemma 8.3.1. Se X è una v.a. con legge F , allora F (X) è uniformemente distribuita
sull’intervallo [0, 1].
71
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
Teorema 8.3.2. Sia X1 , . . . , Xn campione statistico con legge continua F . Sia Gn come
n
1X
prima: Gn (ω, t) = 1(−∞,t] (Xi (ω)) e sia
n
i=1
dato che, essendo continua, F assume tutti i valori compresi tra il suo estremo inferiore ed il
suo estremo superiore.
72
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
r
1 1 2
accetto H0 se supt∈R # {i : xi ≤ t} − F (t) < log . Rifiuto altrimenti.
n 2n α
Osservazione 8.3.1. Supponiamo di aver ordinato i dati x1 , . . . , xn in ordine crescente (per
semplicità supponiamo che siano tutti distinti). Abbiamo
1 n 1
sup # {i : xi ≤ t} − F (t) = max sup # {i : xi ≤ t} − F (t) ,
t∈R n t<x1 n
1 1
sup # {i : xi ≤ t} − F (t) , . . . ,
sup # {i : xi ≤ t} − F (t) ,
t∈[x1 ,x2 ) n t∈[xn−1 ,xn ) n
o
1
sup # {i : xi ≤ t} − F (t)
t≥xn n
n 1 n − 1 o
= max sup |F (t)| , sup − F (t) , . . . , sup − F (t) , sup |1 − F (t)|
t∈[x1 ,x2 ) n
t<x1
n t≥x
t∈[xn−1 ,xn ) n
n 1 1
= max F (x1 ), − F (x1 ) , − F (x2 ) . . . ,
n n
n − 1 n − 1 o
n − F (x n−1 ) ,
n − F (x n ) , |1 − F (xn )| .
73
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
74
9. Regressione lineare
n
X
S(A, B) = (Yi − (Axi + B))2 → min
i=1
Abbiamo già affrontato questo problema nel caso descrittivo, Sezione 2.2. Si ha dunque
Pn n
i=1 (xi − x)(Yi − Y ) X
A= , B = Y − Ax, dove Sxx := (xi − x)2 .
Sxx
i=1
La retta Y = Ax + B è detta stima della regressione. Possiamo scrivere A e B in un’altra
forma, più utile a comprenderne la natura.
Pn Pn n
i=1 (xi − x)(Yi − Y ) i=1 xi Yi
1 X − nxY
A= = (xi − x)Yi ,=
Sxx Sxx Sxx
i=1
n n n (9.1)
1X x X X 1 x(xi − x)
B = Y − Ax = Yi − (xi − x)Yi = − Yi ,
n Sxx n Sxx
i=1 i=1 i=1
Poiché E [Yi ] = axi + b, supporrò che le v.a. Yi siano v.a. indipendenti, gaussiane, ed aventi
tutte la stessa varianza σ 2 :
PYi = N axi + b, σ 2 ,
Y1 , . . . , Yn indipendenti.
Grazie alle equazioni (9.1) abbiamo allora che anche A e B sono gaussiane, in quanto combi-
75
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
nazioni lineari di v.a. gaussiane indipendenti. Andiamo a calcolarne valore atteso e varianza.
n n n
" #
1 X 1 X 1 X
E [A] = E (xi − x)Yi = (xi − x)E [Yi ] = (xi − x)(axi + b)
Sxx Sxx Sxx
i=1 i=1 i=1
n n
1 X 1 X
= (xi − x)(a(xi − x) + ax + b) = a(xi − x)2 = a,
Sxx Sxx
i=1 i=1
n n
" #
1 X 1 X
Var [A] = Var (xi − x)Yi = 2 (xi − x)2 Var [Yi ]
Sxx Sxx
i=1 i=1
n
1 X 1 σ2
= 2 (xi − x)2 σ 2 = 2 Sxx σ 2 = ,
Sxx Sxx Sxx
i=1
n
1X
E [B] = E Y − Ax = E Y − xE [A] = (axi + b) − ax = b,
n
i=1
" n # n
X 1 x(xi − x) 1 x(xi − x) 2
X
Var [B] = Var − Yi = − Var [Yi ]
n Sxx n Sxx
i=1 i=1
n 2 n
x2 (xi − x)2
X 1 x(xi − x) X 1 2 x(xi − x)
= σ2 − = σ2 + −
n Sxx n2 2
Sxx n Sxx
i=1 i=1
x2 σ 2 ni=1 x2i
P
1
= σ2 + = .
n Sxx nSxx
Considero la differenza tra la risposta Yi e la predizione Axi + B: Ri := |Yi − (Axi + B)|
è detta residuo, dunque la quantità che abbiamo ottenuto minimizzando S è la somma dei
quadrati dei residui:
X n n
X
SR − = Ri2 = (Yi − (Axi + B))2 .
i=1 i=1
SR
Si può dimostrare che la v.a. 2 ha distribuzione χ2n−2 e che A, B e SR sono indipendenti.
2 σ
σ2 σ2
SR σ SR SR
Inoltre E = E = E = (n − 2) = σ 2 . Riassumendo
n−2 n − 2 σ2 n−2 σ2 n−2
abbiamo:
Teorema 9.0.1. Se le v.a. Y1 , . . . , Yn sono gaussiane indipendendenti con
PYi = N axi + b, σ 2
∀i = 1, . . . , n.
Allora le v.a. A, B, SR sono indipendenti. Hanno distribuzione
σ2 σ 2 ni=1 x2i
P
PA = N a, , PB = N b, , P SR = χ2n−2 .
Sxx nSxx σ2
SR
Inoltre A, B e sono rispettivamente stimatori non distorti di a, b e σ 2 .
n−2
Introduciamo una notazione più sintetica:
n n n n
X 2 X 2 X X
Yi2
SY Y = Yi − Y = − nY , SxY = (xi − x) Yi − Y = xi Yi − nxY .
i=1 i=1 i=1 i=1
76
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
SxY
Abbiamo allora A = , B = Y − Ax,
Sxx
n n
2 X 2
X SxY SxY SxY
SR = Yi − xi − Y + x = (Yi − Y ) − (xi − x)
Sxx Sxx Sxx
i=1 i=1
n n 2 n
X
2
X SxY 2 SxY X
= (Yi − Y ) + 2
(xi − x) − 2 (xi − x)(Yi − Y )
Sxx Sxx
i=1 i=1 i=1
S2 2
Sxx SY Y − SxY
= SY Y − xY = .
Sxx Sxx
Possiamo fare inferenza statistica sui parametri a e b della retta di regressione? Cerchiamo
un intervallo di confidenza di livello 1 − α per il parametro a. Per il Teorema 9.0.1 la v.a.
A−a SR
Z := σ ha distribuzione gaussiana standard, mentre VR := 2 ha distribuzione χ2n−2
Sxx σ
√ √
Z n−2 (A − a)Sxx n − 2
ed è indipendente da Z Dunque T := = √ ha distribuzione t di
VR SR
Student con n − 2 gradi di libertà: PT = t(n − 2). Abbiamo dunque
√
|A − a|Sxx n − 2
1−α=P √ < tn−2,1− α2
SR
√ √
SR SR
=P A− √ tn−2,1− 2 < a < A +
α √ tn−2,1− 2
α
Sxx n − 2 Sxx n − 2
Possiamo anche impostare un test d’ipotesi per il parametro a. Vogliamo testare
H0 : a = a, HA : a 6= a.
√
(A − a)Sxx n − 2
Poiché √ ha valore atteso nullo se e solo se a = a, accetto H0 se
SR √
|a(x1 , . . . , xn , y1 , . . . , yn ) − a|Sxx n − 2
p < ε, la rifiuto altrimenti. La probabilità di com-
sR (x1 , . . . , xn , y1 , . . . , yn )
mettere errore di prima specie è
√
|A − a|Sxx n − 2
PP √ ≥ ε|a = a = P (|Tn−2 | ≥ ε) .
SR
Per ottenere livello di significatività pari ad α, dobbiamo dunque prendere ε = tn−2,1− α2 .
Infine:
√
|a(x1 , . . . , xn , y1 , . . . , yn ) − a|Sxx n − 2
accetto H0 se p < tn−2,1− α2 , la rifiuto altrimenti.
sR (x1 , . . . , xn , y1 , . . . , yn )
B−b
Risultati analoghi si ottengono per il parametro b. La variabile aleatoria ZB := q Pn
σ2 i=1 x2i
nSxx
SR
ha distribuzione gaussiana standard, la v.a. 2 ha distribuzione χ2n−2 ed è indipendente da
√ pσ
ZB n − 2 (B − b) n(n − 2)Sxx
ZB , dunque TB := SR
= q P ha distribuzione t(n − 2). Dunque
n 2
σ 2 S R x
i=1 i
77
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
metro a, anche qui otteniamo un test di ipotesi con livello di significatività α, scegliendo
ε = tn−2,1− α2 .
p
|b(x1 , . . . , xn , y1 , . . . , yn ) − b| n(n − 2)Sxx
Accetto H0 se q < tn−2,1− α2 , rifiuto altrimenti.
sR (x1 , . . . , xn , y1 , . . . , yn ) ni=1 x2i
P
78
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
Ax0 + B − ax0 − b
Dunque la v.a. Z0 := s ha distribuzione gaussiana standard ed è indipen-
(x0 − x)2 1
σ +
Sxx n
SR
dente da che ha distribuzione χ2n−2 . Di conseguenza la v.a.
σ2
√ √
Z0 n − 2 Ax0 + B − ax0 − b n − 2
T0 := q = s √
SR
(x − x)2 1 SR
σ 2 0
+
Sxx n
79
Appunti di Statistica per Metodi matematici – B047 – a.a. 2017–18 30 maggio 2018
80
Bibliografia
[2] Antonia Morpoulou and Kyriaki Polikreti. Principal component analysis in monument
conservation: Three application examples. Journal of Cultural Heritage, 10:73–81, 2009.
81