Il 0% ha trovato utile questo documento (0 voti)

61 visualizzazioni54 pagine

Statistica

Esame statistica I anno Odontoiatria

Caricato da

fabiana.rispo

Per noi i diritti sui contenuti sono una cosa seria. Se sospetti che questo contenuto sia tuo, rivendicalo qui.

Formati disponibili

Scarica in formato PDF, TXT o leggi online su Scribd

Il 0% ha trovato utile questo documento (0 voti)

61 visualizzazioni54 pagine

Statistica

Esame statistica I anno Odontoiatria

Caricato da

fabiana.rispo

Per noi i diritti sui contenuti sono una cosa seria. Se sospetti che questo contenuto sia tuo, rivendicalo qui.

Formati disponibili

Scarica in formato PDF, TXT o leggi online su Scribd

NOZIONI GENERALI

La statistica è la scienza che ha come scopo la conoscenza quantitativa dei fenomeni collettivi (misurabili).
L’obiettivo è:
1. Rappresentare e descrivere fenomeni e riassumere le informazioni (statistica descrittiva=finalizzata a
rappresentare e riassumere le informazioni dei dati)
2. Ottenere informazioni su una popolazione di interesse osservata parzialmente (statistica inferenziale=insieme
di metodi che permettono di analizzare i dati estratti dallo studio di un campione per arrivare a conclusioni
applicabili a tutta la popolazione)
3. Efficacia di un vaccino
La statistica è una scienza dei dati a supporto di tutte le scienze empiriche per due aspetti:
• Variabilità e disomogeneità dei fenomeni
• Molteplicità dei dati

TERMINOLOGIA
Previsione: avvenimento che potrebbe verificarsi nuovamente fatto in base ad assunzioni che variano (non si può
prevedere un modello stabile in tempi lunghi).
Variabile=carattere: è una caratteristica misurata su ogni unità statistica.
Modalità: è un valore che la variabile può assumere.
Unità statistica=campione: singolo oggetto d’analisi, minima unità su cui si raccolgono i dati di un’indagine (non ha
una misura).
Popolazione: è l’insieme degli elementi o unità statistiche di interesse.
Indagine campionaria: indagine in cui solo una parte della popolazione viene osservata (campione).

METODI DI RILEVAZIONE
• Sondaggi di opinione (exit pool, sondaggi politici su chi è stato votato)
• Esperimenti di laboratorio (aziende chimiche)
• Controlli ispettivi (sulle materie prime per valutare la quantità in entrata o in uscita, o audit)
• Raccolta dei dati pubblicati su internet-da fonti pubbliche o private (istat, banca d’Italia, word bank o
associazioni di categoria)

TIPI DI VARIABILI
- Categoriche (qualitative)
Modalità di natura categorica
1. Ordinali: le modalità sono intrinsecamente ordinabili (inseribili in una scala-classifica)
2. Nominali: le modalità non sono intrinsecamente ordinabili
3. Binarie (dicotomiche): esistono due solo modalità, forniscono informazioni relative alla presenza o
assenza di una certa caratteristica nelle unità statistiche (si-no o due modalità)
- Numeriche (quantitative)
Modalità sono valori numerici
1. Discrete: quando le modalità derivano da un conteggio (espresse in numeri interi)
2. Continue: quando le modalità derivano da una misurazione (non c’è un’unità se non per convenzione,
come tempo-distanza-peso)
FREQUENZE
• Frequenze assolute: conta di soggetti classificati nella stessa categoria (ni)
• Frequenze relative: soggetti classificati in una categoria/totale soggetti studiati (fi)-->proporzioni (percentuali)
• Frequenze cumulate assolute: ammontare del carattere posseduto dalle prime i modalità, ordinate in senso
crescente (ni’)
• Frequenze cumulate relative: frazione del carattere posseduta dalle prime i modalità, ordinate in senso
crescente (fi’)

Tabelle:
- Semplici: unità statistiche classificate secondo UNA SOLA delle variabili rilevate
- Doppia entrata: unità statistiche classificate secondo DUE delle variabili rilevate

RAPPRESENTAZIONI GRAFICHE
INDICI STATISTICI
Misure di posizione: media, mediana, moda, quartili
Misure di dispersione: campo di variazione, differenza interquartile, varianza, deviazione standard, coefficiente di
variazione
Misure di forma: asimmetria, curtosi

Media: somma dei valori/numero soggetti di osservazione

Mediana: valore al centro di una successione di dati crescente:
- numero dispari=posizione centrale
- numero pari=media delle due posizioni centrali
Moda: 1 o 2 valori con frequenza maggiore, più valori modali o nessuno.
Quartili: sono 3 valori che dividono la sequenza ordinata dei dati in 4 gruppi di uguale numerosità
- Primo quartile (q1): valore che si colloca ad un quarto nella sequenza ordinata dei dati
- Secondo quartile (q2): valore che si colloca a metà nella sequenza ordinata dei dati (mediana)
- Terzo quartile (q3): valore che si colloca a tre quarti nella sequenza ordinata dei dati
- Quarto quartile (q4): valore che si colloca all’ultima posizione (ultimo dato)

VARIABILE INDICE
Qualitativa nominale Moda
Qualitativa ordinale Moda, mediana
Quantitativa in classi Moda, media, mediana
Quantitativa continua o discreta (Moda), mediana, media

Range (campo di variazione): Xmax-Xmin --> ampiezza dell’intervallo in cui cadono i dati
Range interquartile: q3- q1-->ampiezza dell’intervallo dove cade il 50% dei dati
1. Posizionare i dati in ordine crescente
2. Dividere la sequenza in 2
3. Mediana della prima e seconda metà
4. Mediana di q3- mediana di q1
Varianza: media dei quadrati degli scarti (scarto=differenza tra un singolo valore e la media)
Deviazione standard (scarto quadratico medio):
- popolazione-->σ=√ σ^2
- campione-->s=√ s^2

Coefficiente di variazione: misura la variabilità relativa, espressa in %

- popolazione-->CV= σ/ μ x 100

PROBABILITÀ
Approccio 1: approssimazione alla frequenza relativa-->P(A)=numero di volte in cui A si è verificato/numero di
ripetizioni dell’esperimento.
Approccio 2: probabilità classica (eventi equiprobabili) -->P(A)=numero di modi in cui A può verificarsi/numero di
eventi elementari.
Approccio 3: probabilità soggettiva-->P(A)=stimata sulla base delle conoscenze di tutte le circostanze significative.
NOZIONI DI BASE
Evento: raccolta di esiti di un esperimento
Evento elementare: evento che non può essere ulteriormente suddiviso in eventi più semplici
Spazio campionario: è composto da tutti gli eventi elementari
Eventi indipendenti: due eventi si dicono indipendenti se P(B|A)=P(B) ossia la probabilità che accade il primo non
cambia la probabilità che accade il secondo.
Evento complementare: dato un qualsiasi evento A, è possibile definire anche il suo contrario, detto evento
complementare o negazione di A. Se P(A) è la probabilità dell’evento A, la probabilità di A’ sarà uguale a: P(A’)=1-
P(A).
Un caso particolare è costituito dalla negazione dell’evento certo, cioè l’evento impossibile la cui probabilità è pari a
0.
Probabilità di due eventi: dati due eventi possiamo essere interessati al verificarsi di entrambi contemporaneamente,
verificarsi di uno qualsiasi tra i due, verificarsi di uno solo se l’altro si è già verificato (probabilità condizionata).
Probabilità dell’unione di due eventi mutuamente esclusi-regola della somma: quando due eventi non possono
mai verificarsi contemporaneamente parliamo di eventi mutamente esclusi o disgiunti o incompatibili.
P(A ∪ B)=P(A) + P(B) – P(A ∩ B)
La probabilità del verificarsi di uno o l’altro dei due eventi mutamente esclusivi (probabilità dell’unione) è data dalla
somma delle probabilità di ciascuno dei due eventi: P(A ∪ B)=P(A) + P(B)
Probabilità dell’unione di due eventi non mutuamente esclusi-regola della somma: la probabilità del verificarsi
di uno o l’altro tra i due eventi non mutuamente esclusivi è la somma della probabilità di ciascuno dei due eventi
sottratta la probabilità di entrambi (altrimenti sarebbe doppia).
P(A ∪ B)=P(A) + P(B) – P(A ∩ B)
Probabilità congiunta-regola del prodotto: il verificarsi di entrambi gli eventi è indicato come “intersezione” e la
probabilità è la probabilità dell’intersezione, data dal prodotto della probabilità del primo evento per la probabilità del
secondo, essendosi verificato il primo.
P(A ∩ B)=P(A)xP(B|A)
Nel caso di eventi indipendenti, la probabilità che si verifichino entrambi è data dal prodotto delle probabilità di
ciascuno dei due eventi.
P(A ∩ B)=P(A)xP(B)
Probabilità condizionata: è la probabilità che si verifichi l’evento B, sapendo che l’evento A si è verificato.
P(B|A) = P(A ∩ B)/P(A)
Variabili aleatorie e distribuzioni di probabilità: una variabile aleatoria o variabile casuale x è una rappresentazione
quantitativa del risultato di un esperimento, per cui ogni evento elementare (evento che non può essere ulteriormente
suddiviso in eventi più semplici) è rappresentato dal valore di una variabile cui è associato una variabilità.

TIPI DI DISTRIBUZIONE
Distribuzione binomiale è la distribuzione della variabile aleatoria X=“numero di successi in n prove” con
p=probabilità di successo in ciascuna osservazione

P(X)=probabilità di ottenere X successi dati i parametri n e p

n=ampiezza campionaria
p=probabilità di successo
(1-p)=probabilità di insuccesso
X=numeri di successi nel campione (X=0,1,2..n)
rappresenta la probabilità di ottenere una particolare sequenza di X successi su n osservazioni

rappresenta il numero di possibili sequenze di X successi su n osservazioni continue (eventi misurati su

scala continua
Da distribuzione binomiale a normale: la distribuzione binomiale permette di calcolare, per numeri n piccoli, le
probabilità di avere un certo numero k di successi nelle n prove. Per alti n si ricorre alla distribuzione normale
(gaussiana) o di Poisson, che valgono per n molto grande. La funzione di densità della distribuzione normale è:

μ=media

σ=deviazione standard-->
x=valore assunto dalla variabile
Le fondamentali proprietà teoriche della distribuzione normale sono:
1. la distribuzione normale ha una forma campanulare e simmetrica rispetto al valore centrale
2. le sue misure di posizione centrale (media, mediana, moda) coincidono
3. una variabile con distribuzione normale assume valori compresi tra +∞ e -∞
4. l’area sottesa dalla curva è uguale a 1 (probabilità certa)

5. è determinata da due quantità, la sua media μ e la sua deviazione standard σ

6. il cambiamento di μ sposta l’intera curva verso sinistra o destra. L’aumento di σ rende la curva più
piatta e più larga.

7. il suo range interquartile è pari a 1.33 volte lo scarto quadratico medio, cioè copre un intervallo compreso tra
μ-2/3σ e μ+2/3σ

Distribuzione normale standardizzata: la standardizzazione è una formula di trasformazione delle osservazioni che
consente di trasformare una generica variabile aleatoria normale X in una variabile aleatoria normale standardizzata
Z.

: formula della variabile aleatoria normale standardizzata. Una variabile normale standardizzata è una
variabile distribuita normalmente con μ=0 e σ=1.

: funzione della distribuzione normale standardizzata.

È sempre possibile trasformare qualsiasi insieme di valori distribuiti normalmente nel corrispondente insieme di valori
standardizzati e ricavare le probabilità desiderate dalle tavole della distribuzione normale standardizzata.

INFERENZA STATISTICA
Le metodologie dell’inferenza statistica mirano a:
- permettere di generalizzare le conclusioni relative al campione osservato all’intera popolazione da cui esso è
stato estratto;
- fornire una misura dell’affidabilità dei risultati ottenuti.
Sono necessari:
1. un modello probabilistico
2. un modello campionario

VARIABILI ALEATORIE E DISTRIBUZIONI DI PROBABILITÀ

• Il campionamento è costituito dall’insieme di tutti i possibili campioni di uguale numerosità estraibili dalla
popolazione-->spazio campionario;
• con il campionamento casuale possiamo associare una probabilità a ciascun campione.
PROBABILITÀ E INFERENZA STATISTICA
- modello: descrive la variabile di interesse nella popolazione
- modello campionario: ci permette di definire la distribuzione di probabilità di tutti i possibili campioni con
stessa numerosità rispetto a quello da analizzare
Scelto un certo indicatore statistico, ad ogni campione possiamo associare un certo valore dell’indicatore e la relativa
probabilità. Quindi abbiamo definito una variabile aleatoria che prende il nome di statistica campionaria e che descrive
possibili risultati ottenibili.
Ad esempio, si supponga di avere a disposizione un campione di persone per stabilire quale sia la proporzione di
individui affetti da una certa malattia nella popolazione da cui proviene il campione:
- la teoria della probabilità dice qual è la distribuzione della proporzione di persone affette dalla malattia in
campioni di numerosità uguale rispetto a quello che si ha a disposizione;
- l’inferenza statistica, invece, utilizza i risultati del campione per valutare la frazione incognita di persone
affette dalla malattia nella popolazione da cui proviene il campione analizzato.

DIFFERENZA TRA PARAMETRI E STATISTICHE

- i parametri (media, varianza, probabilità del verificarsi di un dato evento) sono valori caratteristici della
popolazione;
- le statistiche campionarie (media del campione, frequenza di un dato evento nel campione) sono delle funzioni
dei dati campionari.
Nel processo inferenziale i parametri rimangono incogniti, ma su di essi è possibile fare delle affermazioni di tipo
probabilistico.

LEGGE DEI GRANDI NUMERI

Essa ci garantisce che, a lungo termine, le statistiche campionarie saranno corrette-le statistiche campionarie
forniranno la risposta esatta se verrà raccolta una quantità infinita di dati.

LA DISTRIBUZIONE CAMPIONARIA
La distribuzione campionaria di una statistica basata su N osservazioni è la distribuzione di frequenza dei valori che
la statistica assume. Tale distribuzione è generata teoricamente prendendo infiniti campioni di dimensione n e
calcolando i valori della statistica per ogni campione. Questa può essere solo stimata.

ERRORI NELL’INFERENZA
1. Errore sistematico o non campionario
In ciascuna delle diverse fasi delle indagini possono essere generati errori che portano ad una distorsione nei
risultati. Le possibili cause sono:
- errata selezione delle unità da osservare
- errata misura delle variabili
- errata elaborazione dei dati
2. Errore campionario
È la differenza tra il risultato ottenuto nel campione e il valore (incognito) della caratteristica nella popolazione.
Deriva dal fatto che stiamo osservando soltanto una parte della popolazione ed è ineliminabile. Prima
dell'estrazione del campione possiamo fare su di esso delle affermazioni di tipo probabilistico se il
campionamento è di tipo casuale, in quanto conosciamo la sua distribuzione di probabilità. Una volta estratto
il campione l'errore è definito ma per noi ignoto.

3. Errore standard
L'errore che si commette è misurato dalla deviazione standard della distribuzione campionaria dello stimatore.
Questa si chiama errore standard dello stimatore. La media campionaria si usa per stimare la media di una
popolazione normale. La sua distribuzione di probabilità descrive come si comportano le stime nel
campionamento ripetuto. La deviazione standard indica quanto le stime sono variabili intorno al valore da
stimare. Si chiama errore standard della stima.
DEVIAZIONE STANDARD Vs ERRORE STANDARD

Il percorso dell’inferenza statistica si svolge secondo le seguenti fasi:

1. Estrazione di un campione dalla popolazione
2. Calcolo delle statistiche campionarie, cioè dei valori corrispondenti ai dati contenuti nel campione
3. Stima dei parametri nella popolazione in base ai risultati forniti dal campione

I metodi della Statistica Inferenziale riguardano essenzialmente due aree:

1. la stima dei parametri: è la stima della media, varianza, deviazione standard, per mezzo dei corrispondenti
parametri campionari o statistiche del campione. Può essere:
- puntuale è un procedimento attraverso il quale a partire dalle informazioni tratte da un campione si ottiene
come risultato un singolo valore numerico usato come stima del parametro dell’intera popolazione.
- per intervallo di un parametro della popolazione fornisce gli estremi di un intervallo fra i quali si può
supporre, con un certo grado di fiducia, che il parametro sia compreso + permette di ottenere informazioni sia
sul valore numerico del parametro incognito sia sulla attendibilità della stessa stima ⇒ intervallo di confidenza

.
Più l’intervallo di confidenza è piccolo, più precisa è l’informazione che si ottiene sul parametro incognito
della popolazione.
L’ampiezza dell’intervallo (= precisione della stima) è funzione inversa della numerosità campionaria, dal
momento che aumentando n, si riduce conseguentemente l’ES.

Intervallo di confidenza al 95%=intervallo di valori nel quale, ripetendo la misura su 100 campioni diversi
estratti dalla stessa popolazione, almeno 95 volte è contenuto il vero valore del parametro.

COSE DA RICORDARE SULL’INTERVALLO DI CONFIDENZA (IC):

- Gli IC sono metodi per la quantificazione dell’incertezza circa una stima.
- Un IC 95% ci dice che per il 95% dei campioni ripetuti l’intervallo di confidenza includerà il valore vero.
- Sfortunatamente non si può affermare se il nostro campione è uno del 95% o dell’altro 5%. Più
generalmente, l’IC è il range di “risposte” compatibili con i dati.
- L’intervallo di confidenza è direttamente proporzionale alla varianza e inversamente proporzionale alla
numerosità campionaria.
- Se si vuole una più alta probabilità che nei campioni ripetuti l’intervallo di confidenza includa il valore vero,
si può riportare l’intervallo di confidenza al 99%.
- Viceversa se si è disposti a tollerare una più bassa percentuale di campioni con un intervallo di confidenza
che includa il valore vero, si può riportare l’intervallo di confidenza al 90%.

2. I test dell’ipotesi
Verifica delle ipotesi: procedura statistica che utilizza i dati campionari per valutare ipotesi
relative ai parametri della popolazione o delle popolazioni. È necessario adottare sempre la
spiegazione più semplice tra quelle coerenti con i fatti noti. Solo quando sono presenti
incoerenze è giustificata l’introduzione di una spiegazione più elaborata e complessa.
Questo è il principio che sta alla base del concetto di verifica di ipotesi:
- Si definisce la spiegazione più semplice (Ipotesi nulla o H0).
- Si verifica che i dati campionari siano compatibili con essa, si calcola cioè quanto sarebbe
probabile ottenere quei dati nel caso in cui l’ipotesi nulla sia vera.
DIMOSTRAZIONE INVERSA
Si segue quindi un principio, che può sembrare controintuitivo, di “Dimostrazione Inversa”.
Se ad es. si intende proporre che due popolazioni sono diverse:
a) Si propone come Ipotesi nulla (in contradizione) la loro uguaglianza.
b) Se si dimostra che tale ipotesi cade in contraddizione (non è compatibile con i dati) è necessario
rifiutare l’ipotesi nulla e accettare l’Ipotesi Alternativa (H1) ad esempio che le due popolazioni
NON SONO UGUALI, cioè SONO DIVERSE.
Con la verifica di ipotesi non arriviamo ad una dimostrazione di un’ipotesi, ma otteniamo un’indicazione
sul fatto che l’ipotesi (nulla) sia supportata o meno dai dati disponibili.
La verifica di ipotesi può essere paragonata ad un processo penale, nel quale l’ipotesi nulla è l’innocenza
dell’imputato (fino a prova contraria).
La giuria ha a disposizione delle “prove” sulla base delle quali valutare se l’innocenza dell’imputato
possa essere compatibile con i dati a disposizione:
- In assenza di sufficienti prove contro l’imputato, questi è da considerarsi innocente.
- Se le prove sono non compatibili con l’ipotesi (nulla) di innocenza, si accetta l’ipotesi
alternativa (COLPEVOLE).
Si possono verificare due situazioni di errore nella verifica di ipotesi:
1) Rifiuto H0 quando è vera: Errore di I tipo
⇒ α: probabilità di commettere un errore di I tipo
• Rifiutiamo quando i dati campionari non sono compatibili/RIFIUTO QUANDO NON DOVREI

2) Non rifiuto H0 quando è falsa: Errore di II tipo

⇒ β: probabilità di commettere un errore di II tipo
• Manteniamo l’ipotesi conservativa di non differenza quando invece c’è/NON RIFIUTO QUANDO AVREI
DOVUTO

Livello di Confidenza (1-α): probabilità di accettare H0 quando è vera ⇒ indicatore del grado di fiducia
che vogliamo adottare per confutare o meno l’ipotesi nulla.
Potenza del test (1-β): probabilità di rigettare H0 quando è falsa ⇒ è auspicabile che sia più grande possibile
⇒ indicatore della bontà di un test statistico.

La potenza del test è la probabilità complementare dell’errore di II tipo (β), e come β dipende:
- Numerosità campionaria (aumenta con l’aumentare di n)
- Errore α
- Parametri della popolazione di riferimento
- Variazione nei parametri attesi nel campione

A parità di n (numerosità campionaria) se diminuisco la probabilità dell’errore I di specie (α) aumento la

probabilità dell’errore di II specie (β) ⇒ Diminuisce la potenza del test (1-β)
La verifica di un’ipotesi, che comporta la sua accettazione o il suo rifiuto, è effettuata utilizzando
un statistica-test o semplicemente test. Tale decisione viene fatta rispetto ad un prestabilito livello di
probabilità di accettazione o meno della H0.
SIGNIFICATIVITÀ STATISTICA: soglia arbitraria, stabilita a priori, di probabilità che i dati siano solo casualmente
compatibili con l’ipotesi nulla.
Se la probabilità che i dati derivino dall’ipotesi nulla è inferiore alla soglia possiamo rifiutare l’ipotesi nulla e accettare
l’ipotesi alternativa.
La soglia di significatività definisce il valore limite oltre.
La soglia di significatività definisce dunque il valore limite oltre il quale riteniamo accettabile la
probabilità di commettere un errore rifiutando l’ipotesi nulla.
- non necessariamente è sinonimo di significatività clinica

Tre diversi studi di comparazione di efficacia tra il farmaco A e i farmaci B1, B2, B3 e B4.

Aumentando la numerosità aumenta la significatività statistica, ma la significatività clinica? Per assurdo

conducendo uno studio su un miliardo di persone è molto facile dimostrare la superiorità di un farmaco
B vs. un farmaco A che è in grado di abbassare la pressione di 0.1 mmHg.

Il valore critico è quel valore che separa la regione critica dai valori che NON porterebbero al rifiuto
dell’ipotesi nulla.
L’insieme dei valori che una statistica test può assumere può cadere in due regioni:
- una regione di accettazione: insieme dei valori che non comportano il rifiuto dell’ipotesi nulla.
- una regione di rifiuto (o regione critica): insieme dei valori che conducono al rifiuto dell’ipotesi
nulla.
In alternativa al considerare le due regioni di accettazione e di rifiuto, è possibile prendere la decisione in
base al p-value.
Il p-value rappresenta la probabilità di osservare un valore della statistica test uguale o più estremo del
valore che si calcola a partire dal campione, quando l’ipotesi H0 è vera.
Il p-value è anche chiamato livello di significatività osservato, in quanto coincide con il più piccolo
livello di significatività in corrispondenza del quale H0 è rifiutata.
In base a questo approccio, la regola decisionale per rifiutare H0 è la seguente:
- Se il p-value è maggiore o uguale ad α, l’H0 non è rifiutata.
- Se il p-value è minore di α, l’H0 è rifiutata.

Se la probabilità di ottenere un particolare risultato associato ad un dato fattore è <0.05, non vuol dire che
è impossibile (infatti statisticamente, un risultato che si verifica ad una probabilità del 5%, capiterà uno
in 20 volte).
Ci possono essere vere associazioni tra 2 variabili anche quando l’associazione sembrerebbe dovuta al
caso (si rifiuta erroneamente l’ipotesi nulla) ⇒ errore I tipo.
- Specificare l’ipotesi nulla e l’ipotesi alternativa di interesse.
- Considerare l’appropriata statistica (meglio detta “statistica test”) in relazione alle ipotesi di cui
sopra.
- Fissare l’errore di I tipo a (detto anche “livello di significatività del test”) ad un valore
accettabile; questa operazione identifica nella distribuzione della statistica test due regioni: la
regione di accettazione e la regione di rifiuto.
- In base ai dati campionari calcolare il valore osservato della statistica test.
- Se tale valore appartiene alla regione critica si deve rifiutare l’ipotesi nulla, altrimenti apparterrà
alla regione di accettazione e non si può rifiutare l’ipotesi nulla.
TEST STATISTICI – QUALE SCEGLIERE?
❖ Variabili (qualitative o quantitative).
❖ Se qualitative quante modalità hanno?
❖ I dati sono appaiati o “matchati” tra loro?
❖ Se sono numeriche, hanno una distribuzione definita?

❖ Test parametrici o non parametrici

❖ Test per dati appaiati o non appaiati
❖ Test “matched” o non “matched”
È ragionevole assumere che la distribuzione originaria dei dati sia normale o possa comunque essere approssimata
alla normale o ad un’altra distribuzione nota?
Si: si realizza il confronto sui parametri che riassumono le caratteristiche delle popolazioni o dei campioni (medie e
varianze)-->test parametrici:
- Applicabile soltanto a variabile numeriche (continue o discrete)
- Comportano la verifica di parametri ipotizzati
No: il confronto tra i gruppi si realizza indipendentemente dai parametri della distribuzione-->test
non parametrici:
- Indipendenti dalla forma della distribuzione
- Non riguardano parametri della popolazione
Se il campione è grande (>100) è possibile considerare le variabili come distribuite normalmente.
Se il nostro campione è <100 e la variabile non è distribuita normalmente, si utilizzeranno i test non
parametrici.
Le statistiche non parametriche sono basate sul posizionamento di ciascun soggetto all'interno del
campione (RANGO). I soggetti sono posizionati in ordine crescente o decrescente basandosi sui valori di
una particolare variabile.

CONFRONTO TRA DUE CAMPIONI NON APPAIATI O INDIPENDENTI: campioni estratti casualmente e
indipendentemente da due popolazioni.
CONFRONTO TRA DUE CAMPIONI APPAIATI: si parla di campioni appaiati quando ad ogni
osservazione del primo gruppo corrisponde un’osservazione del secondo gruppo, ossia per confrontare tra
loro due rilevazioni diverse fatte sullo stesso soggetto (ad esempio un certo dato prima e dopo una terapia).

Appaiati o matched?
Ci sono situazioni in cui i due campioni sottoposti a confronto non sono indipendenti:
- Misure ripetute dello stesso soggetto (ad esempio prima e dopo la somministrazione di un
farmaco) (APPAIATI);
- Soggetti diversi ma appaiati perché simili per caratteristiche importanti (es. della stessa
età, sesso, luogo di nascita) (MATCHED).

L’attenzione in questi casi si sposta sulle differenze tra i valori di due campioni. Si costruisce il test sulle
differenze dei valori tra le coppie di misure appaiate.
Ci sono diversi metodi statistici per dimostrare un’associazione tra due variabili. Si sceglie la statistica
bivariata basandosi sul:
- Tipo di fattore di rischio e variabile di outcome che abbiamo;
- Se i dati sono o non sono appaiati (osservazioni ripetute o “matched”).
Per convenzione si mette il fattore di rischio (o variabile indipendente, esposizione, o gruppo di
assegnazione) come variabile di riga, e l’outcome (o variabile dipendente) come variabile di colonna.
2
TEST DEL CHI–QUADRATO (𝑋 )
La statistica Chi-quadrato testa l’associazione tra due variabili categoriche comparando il numero di
soggetti osservati (FREQUENZE OSSERVATE) in ogni cella della tabella mxn, con il numero dei
soggetti che ci aspetteremo in ciascuna cella (FREQUENZE ATTESE) assumendo che non ci sia
associazione tra le due variabili.
Verifica se esiste una relazione fra la variabile che distingue le righe e la variabile che distingue
le colonne.
Quando il numero di soggetti osservati in ogni cella è molto differente dal numero atteso (quando la
proporzione di soggetti che presentano l’esito differisce tra i due gruppi) c’è un’associazione tra le due
variabili.
Questo si riflette in un elevato valore della statistica Chi-quadrato e un piccolo p–value.

L’obiettivo è quello di stabilire se le differenze tra le frequenze osservate e quelle attese sono troppo grandi per essere
attribuite al caso.
➢ Per determinare il p–value del test del Chi-quadrato si devono conoscere i gradi di libertà. I
gradi di libertà sono il numero di unità indipendenti di informazione utilizzate per calcolare
una particolare statistica.
➢ Se il valore del p-value è sotto la soglia convenzionalmente utilizzata del p<0.05, si può
affermare che il risultato è statisticamente significativo, il che vuol dire che l’associazione
osservata è improbabile che si è verificata per effetto del caso.

ATTENZIONE: per poter applicare il test, la frequenza attesa di ogni cella deve essere almeno pari a 5 (e
comunque mai nulla!).

TEST ESATTO DI FISHER

Valuta l’associazione tra due variabili dicotomiche quando la frequenza attesa in almeno una cella è <5.
Non è mai sbagliato utilizzare i test esatti di Fisher al posto del Chi-quadrato.
Il motivo principale per cui si tende ad utilizzare il test del Chi-quadrato rispetto al test esatto di Fisher è
che il secondo è computazionalmente più oneroso.
Una limitazione sia del test del Chi-quadrato sia del test esatto di Fisher, è che non misurano la forza
dell’associazione tra il fattore di rischio e l’outcome.
COME TESTARE UN’ASSOCIAZIONE TRA DUE VARIABILI NUMERICHE?
Quando c’è un’associazione lineare, per quantificare questa relazione:
➢ Per le variabili parametriche possono essere utilizzati il:
● Coefficiente di correlazione di Pearson ®⇒ ⇒ consente la valutazione della forza
dell’associazione tra due variabili. Può assumere valori da -1 a 1:
- r = -1 indica un legame inverso, all’incremento (o decremento) di una variabile, l’altra variabile
diminuisce (o aumenta) proporzionalmente ⇒ correlazione negativa
- r = 0 indica che tra le due variabili non c’è un’associazione lineare
- r = +1 indica che all’incremento (o decremento) di una variabile, l’altra variabile
aumenta (o diminuisce) proporzionalmente ⇒ correlazione positiva

● La Regressione lineare ⇒ esplicita tramite una equazione la relazione tra le due variabili.
y = a + bx
Intercetta (a) ⇒ è il punto dove la retta di regressione interseca l’asse y.
Coefficiente (b) ⇒ è la pendenza della retta.
Variabile indipendente⇒ causa (sulle ascisse del grafico).
Variabile dipendente ⇒ effetto (sulle ordinate del grafico).

La regressione lineare è la stima della variazione media di una variabile in conseguenza della
variazione unitaria di un’altra variabile.
Obiettivo dell’analisi di regressione: individuare la retta che meglio predice il valore della variabile
dipendente, noto il valore della variabile indipendente.

Il segno del coefficiente ci dice la direzione della relazione.

- Coefficiente è positivo il valore medio dell’outcome aumenta all’aumentare della
variabile indipendente.
- Coefficiente è negativo il valore medio dell’outcome diminuisce all’aumentare della
variabile indipendente.
- Coefficiente è “0” la linea è piatta: cambiamenti dei valori della variabile
indipendente non provocano cambiamenti nell’outcome.

Per testare l’ipotesi nulla che non c’è un’associazione lineare tra la variabile indipendente e l’outcome,
si testa l’ipotesi che la pendenza della linea sia 0.

- Se il valore assoluto della pendenza è grande rispetto all’errore standard ad esso associato,
allora il t-value associato con il coefficiente sarà grande e il p-value sarà piccolo possiamo
rifiutare l’ipotesi nulla e considerare l’ipotesi alternativa che c’è una relazione lineare tre le
due variabili.
Questo metodo è statisticamente equivalente a testare che il coefficiente di correlazione di Pearson è 0
COEFFICIENTE DI DETERMINAZIONE
Se si effettua il quadrato del coefficiente di correlazione e si moltiplica per 100 (r2 x 100%) si ottiene
una misura dell'adattamento della retta di regressione ai dati detta coefficiente di determinazione.
Il coefficiente di determinazione varia fra 0 e 100 ed è interpretabile come percentuale della variabilità
di y “spiegata” dalla variabilità di x.

➢ Se le variabili non sono distribuite normalmente si può utilizzare la correlazione dei

ranghi di Spearman.
- Il coefficiente di correlazione di Pearson, come altre tecniche parametriche, è molto sensibile
alle osservazioni atipiche.
- Per ottenere una misura di correlazione meno sensibile ad esse, o in generale quando le
variabili non sono distribuite normalmente, è possibile utilizzare un suo analogo “non
parametrico” COEFFICIENTE DI CORRELAZIONE DI SPEARMAN.
Il test è lo stesso del coefficiente di correlazione di Pearson eccetto per il fatto che è applicato al rango
calcolato per le due variabili considerate.
Il procedimento è il seguente:
- I dati vengono ordinati per ciascuna variabile e viene definito un rango di ogni
osservazione secondo l’una e l’altra delle variabili.
- Si calcola una r di Pearson per i ranghi.

T-TEST
Quando si vuole valutare l’associazione tra una variabile dicotomica e una variabile numerica
normalmente distribuita si usa t - test di Student o più semplicemente t - test.
- Confronta le medie di due gruppi. Si cerca di confutare l’H0 che non c’è differenza tra le due
medie.

- Deve essere comparato con opportune tabelle nel quale identificare i valori soglia della
statistica per un dato a o calcolare il valore di p corrispondente ad un dato valore di t

Con due campioni di almeno 60 soggetti, un valore di t=2.0 sarà statisticamente significativo (il valore
critico corrispondente ad un a=0.05 per 100 g.d.l. è 1.984).
- La formulazione del t-test è accurata quando le varianze dei due gruppi sono uguali
(omoschedasticità).
- Varianze diverse si hanno soprattutto quando i due gruppi hanno numerosità molto diverse
tra loro t-test per varianze differenti.
La maggior parte dei software statistici automaticamente calcola il t-test sia assumendo che le varianze
siano uguali, sia assumendo varianze differenti.
- Se le varianze sono uguali riporta il valore del t-test assumendo varianze uguali.
- Se le varianze sono diverse riporta il valore del t-test assumendo varianze differenti.

- Di per sé il t-test non fornisce al lettore informazioni dirette sulla differenza numerica tra i due
gruppi.
- Un metodo per quantificare la differenza tra due gruppi è quello di calcolare la differenza
numerica tra le due medie e l’intervallo di confidenza al 95% di questa differenza usando
l’ES della differenza delle medie.
- Se l’intervallo di confidenza al 95% esclude lo “0”, allora la differenza tra le medie può
essere considerata statisticamente significativa
TEST di MANN-WHITNEY
Quando si vuole determinare l’associazione di una variabile dicotomica con una variabile numerica non
distribuita normalmente, si usa il test di Mann-Whitney.
- Il test di Mann-Whitney opera sui RANGHI delle osservazioni
1. Per comparare due gruppi si ordinano in senso crescente i valori, senza considerare in quale
gruppo sono.
2. Dopo aver ordinato le osservazioni, si sommano gli ordini delle singole osservazioni, o
RANGHI, nei due campioni.
Dato il fatto che spesso i due gruppi hanno uguale numerosità, ci aspettiamo che la somma dei ranghi
sia pressappoco uguale nei due gruppi assumendo che non ci sia differenza tra le popolazioni di
provenienza dei due gruppi.
Se la somma generata dall’ordinamento del gruppo più piccolo è molto superiore (o inferiore) della
somma che ci aspetteremmo se non ci fosse differenza tra i due gruppi, si può rifiutare l’ipotesi nulla
e si conclude che c’è una differenza tra i due gruppi.
- Con campioni piccoli il test di Mann-Whitney è molto più debole del t-test
Alla fine di una sperimentazione clinica volta a confrontare aspirina e placebo per la terapia della
cefalea, 8 pazienti trattati con aspirina e 10 con placebo assegnarono un punteggio al miglioramento
entro una retta lunga 10 cm. Il valore 0 indicava nessun miglioramento, 10 un netto miglioramento. I
risultati sono riportati nella seguente tabella.

Ordiniamo le 18 osservazioni e assegniamo le file dal più piccolo al più grande:

ANALISI DELLA VARIANZA (ANOVA)

È l’estensione del test t a tre o più campioni, quando si vuole testare l’associazione tra una variabile
nominale o ordinale con 3 o più gruppi, con una variabile numerica normalmente distribuita.
➔ H0: le medie dei campioni sono uguali
➔ H1: almeno una differisce dalle altre Le
assunzioni fondamentali sono 3:
Tutte le popolazioni sono distribuite normalmente.
La varianza dei diversi campioni è omogenea (omoschedasticità).
I campioni sono fra loro indipendenti.
L’ANOVA testa l’ipotesi nulla che non ci sono differenze nelle medie dei differenti gruppi.

Si considerano 2 tipi di medie:

- La media di tutto il campione.
- La media di ogni gruppo.

E si calcola:
➢ La varianza “tra i gruppi” (between) è basata sulla differenza tra la media di ciascun gruppo
e la media generale.
➢ La varianza “entro i gruppi” (within) è basata sulla differenza tra i soggetti del gruppo e la
media del gruppo

L’ANOVA produce un F –value:

- Per calcolare i P-value per la statistica F bisogna calcolare:

g.d.l. numeratore = numero dei gruppi - 1
g.d.l. denominatore = numerosità campione - n. gruppi

- In aggiunta all’assunzione che la variabile numerica si distribuisca normalmente per ogni

gruppo, l’ANOVA assume che le osservazioni dei gruppi hanno varianza uguale.

Esempio

<anova

Un importante limite dell’ANOVA è che non indica dove sta la differenza. Un valore grande di F ci dice
che si può rifiutare l’ipotesi di base che tutte le medie sono uguali. Per rilevare dove ci sono differenze,
ci sarà bisogno di effettuare raffronti a due a due dei gruppi utilizzando il
t-test.
L’unica differenza è che quando si usa il t-test per i confronti a due a due si sta facendo una
comparazione multipla
Quando si effettuano raffronti a due a due dei gruppi, si imposta un valore più stringente del p-value
per evitare di abusare della casualità.
Il metodo più comunemente utilizzato per aggiustare il livello significativo per raffronti multipli a due
a due è la correzione di Bonferroni:
La correzione di Bonferroni ha una serie di vantaggi:
- Facile da calcolare e molto flessibile.
- Poiché si tratta di una correzione del valore di p è possibile utilizzare in qualsiasi momento
si sta procedendo ad un confronto multiplo.
- Può essere utilizzato con confronti multipli basati sul t-test, o c2
- Può essere utilizzato con dati appaiati e non appaiati

TEST di KRUSKALL-WALLIS
Se la variabile numerica non si distribuisce normalmente, si utilizza il test di Kuskal-Wallis per
comparare tre o più gruppi. È la generalizzazione per più campioni del test di
Mann-Whitney-Wilcoxon della somma dei ranghi.

Similmente al test di Mann-Whitney, il test di Kruskal-Wallis si basa sull’ordinamento crescente dei

soggetti sui valori di interesse, e successivamente nella somma dei ranghi di ogni gruppo.

- Se non c’è differenza tra i gruppi, e l’ampiezza del campione è la stessa, allora la somma
dei ranghi per i gruppi dovrebbe essere all’incirca la stessa.

- Se c’è una grande differenza, il valore H del test di Kruskal-Wallis sarà grande e il P – value
2
sarà piccolo (per valutare il risultato si usano le stesse tabelle della distribuzione χ ). Si può
allora rifiutare l’ipotesi nulla e considerare l’ipotesi alternativa che i gruppi sono differenti

Il test di di Kruskal-Wallis è un metodo non parametrico per testare l’uguaglianza dei ranghi medi tra
gruppi.
Anche il test di Kruskal-Wallis, come l’ANOVA, non ci dice dove sono le differenze.
Per fare questo si utilizza, tra gli altri, il test di Dunn, che rispetto agli altri test disponibili non richiede
che i gruppi abbiano la stessa numerosità, una condizione raramente osservabile in studi clinici.
Nel calcolare il valore di P - value, il test di Dunn tiene conto del numero di comparazioni che si stanno
effettuando (non c’è bisogno di correzione per test ripetuti).
VALIDITÀ DI UN TEST DIAGNOSTICO
Perché un test diagnostico (Di laboratorio, di immagine, clinico) sia utile è necessario che:
1. Produca risultati vicini al “vero” (accuratezza) ⇒ Per valutare l’accuratezza si confronta
il risultato di un test diagnostico con quello di un test di riferimento di cui conosciamo
l’accuratezza (elevata!) e che rappresenta il “vero” (Gold Standard)

QUATTRO POSSIBILI RISULTATI ⇒ Il nuovo test…

- Può essere positivo, proprio come il gold standard
- Può essere negativo, proprio come il gold standard
- Può essere negativo, ma il gold standard è positivo
- Può essere positivo, ma il gold standard è negativo

Sensibilità=a/(a+c) ovvero la percentuale di esami realmente positivi che il test riesce ad evidenziare
Specificità=d/(b+d) ovvero la percentuale di esami realmente negativi che il test riesce ad evidenziare

PREVALENZA DELLA PATOLOGIA = (a+c)/N

IL POTERE PREDITTIVO
● Nella pratica clinica la domanda rilevante è: qual è la probabilità che il test ci dia una
diagnosi corretta?
In altri termini:
- Quale è la probabilità che una persona risultata positiva sia veramente malata?
- Quale è la probabilità che una persona risultata negativa sia veramente sana?

2. Produca risultati simili se eseguito più volte sul medesimo individuo/campione

(riproducibilità)

VALIDITÀ DI UN TEST DIAGNOSTICO: UN ESEMPIO (STENOSI CAROTIDEA DI

INTERESSE CHIRURGICO)

Sensibilità = a/(a+c) = 90/100 = 90.0% Specificità = d/(b+d) =

850/900 = 94.4% Ma qual è la probabilità che il doppler dica il vero?
A questa domanda non danno risposta né la sensibilità né la specificità……

● a/(a+b) = Valore predittivo positivo (VPP), ovvero la percentuale di esami positivi che sono
realmente patologici
● d/(c+d) = Valore predittivo negativo (VPN), ovvero la percentuale di esami negativi che
sono realmente normali

Attenzione!! I VP di un test nella pratica clinica dipendono in maniera sostanziale dalla prevalenza
della patologia nella popolazione studiata, e questa può essere anche molto differente da quella
osservata negli studi che hanno calcolato originariamente i VP!!

Perciò voi dovete cercarvi i vostri VP!

Se eseguiamo un ecodoppler carotideo su tutti i presenti in quest'aula, la probabilità pre esame (o

prevalenza) di stenosi di interesse chirurgico sarà certamente molto bassa
Ma se facciamo la stessa cosa in una corsia dove sono ricoverati pazienti con recente ictus ischemico
non lacunare, che non fibrillano, la prevalenza sarà molto alta
Lo stesso esame, fatto dallo stesso operatore, avrà VP molto diversi in queste due circostanze

Più bassa è la prevalenza della patologia, più alto è il VPN e più basso è il VPP, e viceversa.
Probabilità prima, probabilità dopo
- La prevalenza può essere considerata come la probabilità di malattia prima del test
- I VP possono essere considerati come probabilità di malattia dopo il test
- La differenza tra probabilità pre-test e probabilità post-test ci dà un’ idea della utilità del test
stesso in quel contesto clinico

Attenti agli screening…

- Perfino test estremamente specifici, se utilizzati in condizioni di bassa prevalenza di
patologia, daranno luogo ad un elevato numero di falsi positivi
- A causa di ciò, in condizioni di bassa prevalenza di patologia, il VPP di un test è
comunque basso
- Tuttavia, il VPN ne risulta molto meno influenzato

TEST SERIALI
test A e test B e test C ⇒ tutti positivi A >
+>B>+>C>+

Sensibilità diminuisce
Specificità aumenta

TEST PARALLELI
test A e test B e test C tutti positivi

Sensibilità aumenta Specificità diminuisce

EFFETTO DEL TESTING PARALLELO O SERIALE SULLA SENSIBILITÀ, SPECIFICITÀ, VPP,

VPN

CURVA ROC
NORMALE O ANORMALE: QUAL È IL CUT OFF
- Molti test non danno immediatamente un risultato “si’/no”, ma sono di tipo
quantitativo
- Per scegliere il miglior cut off occorre in questi casi calcolare sensibilità e specificità per
ogni livello, e quindi trasferirli su un grafico con sensibilità e 1-specificità sugli assi
Trovare il livello migliore di cut-off per un test effettuato su 200 soggetti di 100 malati e 100 sani.

RECEIVER OPERATING CHARACTERISTIC – (ROC) CURVE

AGREEMENT

RIPRODUCIBILITÁ ovvero accordo oltre il caso

Il problema: due operatori danno un giudizio su un problema clinico (sintomo, segno, dato
strumentale, etc); non sempre si troveranno d’accordo!

Si potrebbe semplicemente calcolare la percentuale di casi in cui i due si trovano d’accordo, e - se questa
è elevata - sostenere che l’interpretazione del dato ha una buona riproducibilità
.
Due osservatori leggono cento radiografie, e le classificano come patologiche o normali I risultati

sono:
Es.
I0 concordanza osservata e con Ie concordanza attesa

ES.
Valori osservati Valori attesi
Esercizio 1
Quale informazione forniscono le misure di sensibilità e specificità?
a) La percentuale di soggetti malati e sani che verranno identificati in una
determinata popolazione << giusta
b) La probabilità di identificare correttamente malati e sani.
c) La probabilità di identificare correttamente malati e sani tenendo conto della
prevalenza della popolazione in oggetto

Esercizio 2
Quale informazione forniscono il Valore Predittivo Positivo e il Valore Predittivo Negativo?
a) Stimano in termini di probabilità i malati e i sani che verranno identificati
correttamente in una popolazione caratterizzata da un determinato tasso di
prevalenza << giusta
b) Stimano la prevalenza della malattia nella popolazione.
c) Stimano la probabilità di identificare malati e sani nella popolazione.

Esercizio 3
Dati i risultati di uno studio di valutazione di un nuovo test diagnostico, riportati nella seguente tabella:

Calcolare:
a) La prevalenza di malattia nella popolazione in studio: 150/400= 37.5%
b) La sensibilità e specificità del test : Sensibilità ⇒ 120/150=80%, Specificità ⇒
210/250 = 84%
c) Il Valore Predittivo Positivo e Negativo: Positivo ⇒ 120/160, Negativo ⇒ 210/240= 87.5%
CALCOLO DELLA MISURA DEL CAMPIONE
La dimensione del campione è molto importante per ottenere risultati accurati e statisticamente
significativi e per condurre lo studio con successo.
- Se il campione è troppo piccolo, si rischia di includere un numero sproporzionato di individui
che sono anomali e fuori norma ⇒ questi elementi falsano i risultati e non consentono di
ottenere un'immagine corretta dell'intera popolazione.
- Se il campione è troppo grande, l'intero studio diventa complesso, costoso e lungo da gestire
e, sebbene i risultati siano più accurati, i benefici non superano i costi

Dimensione non corretta del campione

- Conclusioni sbagliate
- Ricerca di scarsa qualità (errori)
- L'errore di tipo II può essere minimizzato aumentando la dimensione del campione
- Spreco di risorse
- Perdita di denaro
- Problemi etici
- Ritardo nel completamento

Prima di procedere….
1. Le dimensioni del campione calcolate ci daranno una stima approssimativa dei numeri
necessari. I calcoli sono utili per distinguere tra 50 e 100, ma non tra 50 e 53

2. Le dimensioni del campione influenzano l'errore dovuto alla variazione casuale o alla
variazione di campionamento che si verifica in uno studio. La strategia di campionamento (cioè
il modo in cui si selezionano i soggetti) influenza l'errore dovuto al bias. In altre parole, un
numero elevato di soggetti non può compensare una strategia di campionamento inadeguata
quando si vuole ottenere un campione rappresentativo.

3. Le formule per la dimensione del campione contenute nella maggior parte dei libri di testo e
dei programmi informatici presuppongono che la strategia di campionamento sia un
campionamento casuale semplice (cioè non un campionamento a grappolo o un
campionamento stratificato). Quando si utilizza una strategia di campionamento diversa, è
necessario apportare delle modifiche ai numeri calcolati. Di solito aumentano i numeri
richiesti.

Variabili nella dimensione del campione

1. Dimensione della popolazione
● Di quante persone si tratta in totale?
- Per scoprirlo, è necessario avere ben chiaro chi rientra o meno nel gruppo.
Ad esempio, se volete conoscere i proprietari di cani, includerete tutti coloro che in qualche momento
hanno posseduto almeno un cane (a seconda degli obiettivi della ricerca, potete includere o escludere
coloro che hanno posseduto un cane in passato).
Per esempio, per uno studio sulle persone che bevono il caffè in Italia, la dimensione della popolazione
sarà il numero totale di persone che bevono il caffè in Italia
NB: Spesso questo numero è indicativo e non preciso.
2. Precisione
● Margine di errore (intervallo di confidenza): quant’è il margine di errore che prevedi nella
tua ricerca. Questo margine è solitamente espresso in percentuale.
- Gli errori sono inevitabili: la questione è quanto errore si vuole consentire.

Livello di fiducia
- Viene presentato sotto forma di intervallo di confidenza (intervallo di valori entro cui si
colloca la confidenza).
- Ad esempio, un'indagine su un campione di pazienti indica che il 35% fuma.
- Possiamo accettare che la cifra per la popolazione più ampia sia compresa tra il 25 e il 45%
(consentendo un margine di errore casuale (MRE) del 10% in entrambi i casi)

3. Intervalli di confidenza
● quanto sei sicuro che i tuoi dati saranno affidabili. Anche questo valore viene espresso
in percentuale ed è solitamente in linea con il margine di errore.
- La probabilità che il valore dei parametri rientri in un intervallo specifico è
strettamente legata al livello di significatività dei test statistici.
Ad esempio, possiamo essere "fiduciosi al 95%" che il vero valore medio rientri in un livello di
confidenza valido del 95%, il che corrisponde a un test di significatività al livello del 5% (P
< 0,05).
Allo stesso modo, possiamo essere "fiduciosi al 99%" che il vero valore medio si trovi all'interno di un
livello di confidenza valido del 99%, il che corrisponde a un test di significatività al livello di
significatività dell'1% (P < 0,01).
Gli intervalli di confidenza più comuni sono 90% di confidenza, 95% di confidenza e 99% di
confidenza.

4. Deviazione standard
● E’ la stima di quanto le risposte ricevute varieranno l’una dall’altra e dal numero medio.
- Una deviazione standard bassa significa che tutti i valori saranno raggruppati intorno al numero
medio
- Una deviazione standard alta significa che sono distribuiti in un intervallo molto più ampio,
con cifre molto piccole e molto grandi
Dal momento che non avete ancora condotto il sondaggio, una scelta sicura è una deviazione standard
di 0.5, che vi aiuterà a garantire che la dimensione del campione sia sufficientemente grande.

Principi che influenzano la dimensione del campione

CAMPIONI PIÙ GRANDI SE:
- Maggiore dispersione o varianza
- Maggiore precisione desiderata della stima
- Intervallo più ristretto
- Maggiore livello di confidenza nella stima
- Maggior numero di sottogruppi di interesse

Dimensione del campione per un campione, outcome continuo

Negli studi in cui si intende stimare la media di una variabile di esito continua in una singola
popolazione, la formula per determinare la dimensione del campione è riportata di seguito:
dove Z è il valore della distribuzione normale standard che riflette il livello di confidenza che verrà
utilizzato (ad esempio, Z = 1,96 per il 95%), σ è la deviazione standard della variabile di risultato ed
E è il margine di errore desiderato.
La formula di cui sopra genera il numero minimo di soggetti necessari per garantire che il margine
di errore nell'intervallo di confidenza per μ non sia superiore a E.

Esempio:
Un ricercatore vuole stimare la pressione arteriosa sistolica media nei bambini con cardiopatia
congenita di età compresa tra i 3 e i 5 anni. Quanti bambini dovrebbero essere arruolati nello studio?
Il ricercatore intende utilizzare un intervallo di confidenza del 95% (quindi Z=1,96) e vuole un margine
di errore di 5 unità.

La deviazione standard della pressione arteriosa sistolica è sconosciuta, ma gli sperimentatori

effettuano una ricerca in letteratura e scoprono che la deviazione standard della pressione arteriosa
sistolica nei bambini con altri difetti cardiaci è compresa tra 15 e
20. Per stimare la dimensione del campione, consideriamo la deviazione standard più grande per
ottenere la dimensione del campione più conservativa (più grande)

- Per garantire che la stima dell'intervallo di confidenza al 95% della pressione arteriosa
sistolica media nei bambini di età compresa tra i 3 e i 5 anni affetti da cardiopatia
congenita si collochi entro 5 unità dalla media vera, è necessario un campione di
dimensioni pari a 62. [Nota: arrotondiamo sempre per eccesso; le formule per la
dimensione del campione generano sempre il numero minimo di soggetti necessari per
garantire la precisione specificata].
- Se avessimo ipotizzato una deviazione standard di 15, la dimensione del campione sarebbe
stata pari a n=35.
- Poiché le stime della deviazione standard sono state ricavate da studi su bambini con altri difetti
cardiaci, sarebbe consigliabile utilizzare la deviazione standard maggiore e pianificare uno
studio con 62 bambini. La scelta di una dimensione del campione più piccola potrebbe produrre
una stima dell'intervallo di confidenza con un margine di errore più ampio

Dimensione del campione per un campione, outcome dicotomico

Negli studi in cui si intende stimare la proporzione di successi in una variabile di esito dicotomica
(sì/no) in una singola popolazione, la formula per determinare la dimensione del campione è la seguente:

dove Z è il valore della distribuzione normale standard che riflette il livello di confidenza che verrà
utilizzato (ad esempio, Z = 1,96 per il 95%) ed E è il margine di errore desiderato. p è la percentuale
di successi nella popolazione.
In questo caso stiamo pianificando uno studio per generare un intervallo di confidenza del 95% per la
proporzione sconosciuta della popolazione, p. Abbiamo bisogno di un valore approssimativo di p o un
valore previsto.
L'intervallo di p è compreso tra 0 e 1, e quindi l'intervallo di p(1-p) è compreso tra 0 e 1. Il valore di p
che massimizza p(1-p) è p=0,5. Di conseguenza, se non sono disponibili informazioni per approssimare
p, si può usare p=0,5 per generare la dimensione del campione più conservativa, o più grande.

Esempio
Un ricercatore vuole stimare la percentuale di studenti della sua università che attualmente fumano
sigarette (cioè la prevalenza del fumo). Quanti studenti dovrebbero essere coinvolti nello studio per
garantire che una stima con intervallo di confidenza del 95% della percentuale di matricole che fumano
sia entro il 5% della percentuale reale?

Poiché non abbiamo informazioni sulla percentuale di studenti che fumano, usiamo 0,5 per stimare la
dimensione del campione come segue:Per garantire che la stima dell'intervallo di confidenza al 95%
della percentuale di studenti fumatori rientri nel 5% della percentuale reale, è necessario un campione
di dimensioni 385.

Dimensioni del campione per due campioni indipendenti, outcome continuo

Negli studi in cui si prevede di eseguire un test di ipotesi per confrontare le medie di una variabile di
risultato continua in due popolazioni indipendenti, le ipotesi di interesse sono:

dove μ 1 e μ 2 sono le medie delle due popolazioni di confronto

La formula per determinare le dimensioni del campione per garantire che il test abbia una potenza
specifica è:

dove ni è la dimensione del campione richiesta in ciascun gruppo (i=1,2), α è il livello di significatività
selezionato e Z 1-α /2 è il valore della distribuzione normale standard che tiene 1- α /2 al di sotto di
esso, e 1- β è la potenza selezionata e Z 1-β è il valore della distribuzione normale standard che tiene
1- β al di sotto di esso. ES è la dimensione dell'effetto; σ è la deviazione standard dell'esito di interesse.
Sp è la stima comune della deviazione standard, come misura della variabilità del risultato.

Esempio
Uno sperimentatore sta pianificando uno studio clinico per valutare l'efficacia di un nuovo farmaco
progettato per ridurre la pressione arteriosa sistolica. Si prevede di arruolare i partecipanti e di
assegnarli in modo casuale a ricevere il nuovo farmaco o un placebo. La pressione arteriosa sistolica
sarà misurata in ogni partecipante dopo 12 settimane di trattamento assegnato.
- Sulla base dell'esperienza precedente con studi simili, il ricercatore prevede che il 10% di tutti
i partecipanti sarà perso al follow-up o abbandonerà lo studio. Se il nuovo farmaco mostra una
riduzione di 5 unità della pressione arteriosa sistolica media, ciò rappresenterebbe una riduzione
clinicamente significativa. Quanti pazienti dovrebbero essere arruolati nello studio per garantire
che la potenza del test sia dell'80% per rilevare questa differenza?
- Verrà utilizzato un test con livello di significatività del 5%. Per calcolare la dimensione
dell'effetto, è necessaria una stima della variabilità della pressione arteriosa sistolica. L'analisi
dei dati del Framingham Heart Study ha mostrato che la deviazione standard della pressione
arteriosa sistolica era pari a 19,0. Questo valore può essere utilizzato per pianificare la terapia.
Questo valore può essere utilizzato per pianificare lo studio.

- L'effect size è:

Sostituiamo ora la dimensione dell'effetto e i valori Z appropriati per l'α e la potenza selezionate per
calcolare la dimensione del campione.

Campioni di dimensioni n1=232 e n2= 232 garantiranno che il test di ipotesi abbia una potenza dell'80%
per rilevare una differenza di 5 unità nella pressione arteriosa sistolica media nei pazienti che ricevono
il nuovo farmaco rispetto ai pazienti che ricevono il placebo. Tuttavia, gli sperimentatori hanno
ipotizzato un tasso di abbandono del 10% (in entrambi i gruppi) e, per garantire una dimensione totale
del campione di 232, devono tenere conto dell'abbandono.

N (numero da arruolare) * (% trattenuta) = dimensione del campione desiderata

Quindi N (numero di partecipanti) = dimensione del campione desiderata/(% di partecipanti)N =

232/0.90 = [Link] sperimentatore deve arruolare 258 partecipanti da assegnare in modo casuale a
ricevere il nuovo farmaco o il placebo

Dimensioni del campione per due campioni indipendenti, outcome dicotomici Negli studi in
cui si prevede di eseguire un test di ipotesi per confrontare le proporzioni di successo in due
popolazioni indipendenti, le ipotesi di interesse sono:
H0: p1 = p2 contro H1: p1 ≠ p2
dove p 1 e p2 sono le proporzioni nelle due popolazioni di confronto.

La formula per determinare le dimensioni del campione per garantire che il test abbia una potenza
specifica è riportata di seguito:
dove ni è la dimensione del campione richiesta in ciascun gruppo (i=1,2), α è il livello di significatività
selezionato e Z1-α/2 è il valore della distribuzione normale standard che tiene 1- α/2 al di sotto di esso,
e 1- β è la potenza selezionata e Z1-β è il valore della distribuzione normale standard che tiene 1- β al
di sotto di esso.
ES è la dimensione dell'effetto, definita come segue: dove |p1 - p2| è il valore assoluto della differenza
di proporzioni tra i due gruppi prevista nell'ipotesi alternativa, H1, e p può essere calcolata prendendo
la media delle proporzioni nei due gruppi di confronto, assumendo che i gruppi siano
approssimativamente di uguali dimensioni).

Esempio
- Un ricercatore ipotizza che ci sia una maggiore incidenza di influenza tra gli studenti che
utilizzano regolarmente le strutture sportive rispetto a quelli che non lo fanno. Lo studio sarà
condotto in primavera.
- A ogni studente verrà chiesto se ha utilizzato regolarmente l'impianto sportivo negli ultimi 6
mesi e se ha avuto o meno l'influenza.
- Verrà condotto un test di ipotesi per confrontare la percentuale di studenti che hanno utilizzato
regolarmente l'impianto sportivo e si sono ammalati di influenza con la percentuale di studenti
che non l'hanno fatto e si sono ammalati di influenza.
- In un anno tipico, circa il 35% degli studenti si ammala di influenza. Gli sperimentatori
ritengono che un aumento del 30% dell'influenza tra coloro che utilizzano regolarmente
l'impianto sportivo sarebbe clinicamente significativo. Quanti studenti dovrebbero essere
arruolati nello studio per garantire che la potenza del test sia dell'80% per rilevare questa
differenza nelle proporzioni? Verrà utilizzato un test a due facce con un livello di significatività
del 5%.

Per prima cosa calcoliamo la dimensione dell'effetto sostituendo le proporzioni di studenti di ciascun
gruppo che si prevede svilupperanno l'influenza, p1=0,46 (cioè, 0,35*1,30=0,46) e p2=0,35 e la
proporzione complessiva, p=0,41 (cioè, (0,46+0,35)/2):

Sostituiamo ora la dimensione dell'effetto e i valori Z appropriati per l'α e la potenza selezionati per
calcolare la dimensione del campione.
- Campioni di dimensioni n1=324 e n2=324 garantiranno che il test di ipotesi abbia una potenza
dell'80% per rilevare una differenza del 30% nelle proporzioni di studenti che sviluppano
l'influenza tra coloro che utilizzano e non utilizzano regolarmente le strutture sportive.
Situation Sample Size to

Estimate confidence Interval

I Continuous Outcome. [
(Z):2
One Sample·
n=
Cl for µ, H0: µ = µ0

continuous outcome,
l
ll
l

Two Independent Samples:

Cl for { µ1-µ2), H0: µ1 = µ2

l
n;=2( )2
Continuous Outcome.

Two Matched Samples:

)2
l
n= (Z d
Cl for µd . Ho: µd = 0

Dichotomous Outcome,
Sl1uatlon Sample .o Conduct Test of Hypothesis
One Sample: Size t
Cl for p . Ho: p = Po
r n=p(1-p)m2
Continuous 2
n=( 1-o/;;zl-{J
Dichotomous outcome,
Oulcome.
Two Independent Samples: 1
-- ES=f 1I=T1•-21 (1)2
One Sample:
Cl for (P1·P2), Ho: P1 = P2 n;= {P1(1-P1)+ P2(l - P2)}

Cl for µ, H0: µ • [Link] r

Continuous Outcome,
Tv.·o n1=2(zl-o/:Szl-!J

lndepenelent f11=µ2I
ES=--
"
Samples: Cl for (

µ1-µ2), HO:

µ1= µ2

Continuous
n= (zl-a/:;zl-,8r
Outcome. T
ES=1'd
u,1
•10

Matcnec:1sam

ples: Cl for

I'd, Ho: µd =

Dlehotomous 2
n = ( 1-o/:;zl-,3r
Outcome, one
ES= P1-Po
sample /p,(1-p,)

Ct for p. H 0: p = Po
Dichotomous
n1=2(zl-o/:Szl-!Jr
Outcome. Two
ES= jp,aapJ
p(l-p)
IMepenoent

Samples: Cl for

(P1·P2l , Ho: P1

• P2
EPIDEMIOLOGIA = studio sulla popolazione
- Studia la relazione tra vari fattori (ambiente, agenti, ospite) che determinano la frequenza
(quanto e quando la malattia compare) e le distribuzioni (dove la malattia compare) e
determinanti (fattori che inducono una variazione della frequenza o di altre caratteristiche della
malattia) delle malattie (si studiano sia i malati che i sani), o dello stato di salute nelle
popopolazioni umane (gruppi di individui con uno o più fattori in comune).

TIPO DI STUDIO
- Gli studi epidemiologici sono basati su una particolare pop. seguiti per un particolare periodo
di tempo
- I vari tipi di studio differiscono solo in come è definita la pop. e come le inf, sono ottenute
sulla pop. stessa e sul periodo di tempo
● STUDI SPERIMENTALI ⇒ gli interventi del ricercatore hanno o dovrebbero avere
un impatto sull’esito o sull’esposizione
- Studio clinico nel quale gli individui sono assegnati casualmente ad uno di 2 o + gruppi
di trattamento o di strategia diagnostica o di prevenzione
- In genere, uno è il gruppo SPERIMENTALE, dove viene utilizzato l’intervento che si vuole
studiare, e l’altro il gruppo di CONTROLLO (intervento standard o assenza di intervento)
- La RANDOMIZZAZIONE costituisce la più importante caratteristica degli studi clinici o
controllati, e garantisce (in aggiunta ad una eventuale procedura di stratificazione) che i due
gruppi siano confrontabili per tutti i fattori tranne che per il tipo di trattamento
● STUDI OSSERVAZIONALI ⇒ la conduzione dello studio non ha alcuna
correlazione/effetto con l’esposizione e con l’esito
1. Retrospettivi
a) Trasversale ⇒ studio della presenza della “malattia” e dei fattori di rischio.
Vantaggi:
- Rapidità di esecuzione
- Basso costo
Svantaggi:
- Non è possibile stabilire il rapporto temporale tra esposizione e malattia
- Non utile per malattie rare
- Informazioni retrospettive

b) Studi Ecologici ⇒ unità di studio = popolazione

- Studiano l’associazione tra indicatori di malattia e livello di popolazione (es. tassi
d’incidenza o di mortalità) e determinate caratteristiche di quella popolazione (es.
consumo pro capite di alcool, di grassi animali di tabacco, ecc…)
c) Caso-controllo
- Viene selezionato un campione di individui affetti dalla malattia (CASI) e un gruppo di
individui non affetti dalla malattia (CONTROLLI).
- Viene accertata per ciascuna individuo la passata esposizione a fattori di rischio.
- Viene valutata la presenza di fattori di rischio nei casi e nei controlli.
● SCELTA DEI CASI
- Definizione di caso
- Fonte ospedali, ambulatori, comunità
● SCELTA DEI CONTROLLI (=individui che sarebbero stati casi se avessero svillupato la
patologia)
- Popolazione della stessa area
- Pazienti
- Vicini-parenti-amici
● APPAIAMENTO
Ex. Fattori di rischio per l’infezione da HIV in lavoratori italiani che hanno soggiornato nello Zaire.

2. Prospettici
a) Coorte
- Viene definita una popolazione (coorte) che non presenta la malattia in studio.
- Ciascun individuo della coorte viene classificato sulla base dell’esposizione
(caratteristica, fattori di rischio).
- La coorte viene seguita nel tempo e viene rilevata l’incidenza della malattia tra “esposti”
e “non esposti” (Studio Prospettico)
● Coorte chiusa: definita da un evento (es.: i pazienti che hanno avuto una diagnosi di AIDS a
Bologna nel 1987-88).
● Coorte dinamica: definita da uno stato (es.: i tossicodipendenti che fanno uso di eroina
e.v. assistiti in un Sert di Roma tra 01/01/1985 e 31/12/1990).
Vantaggi:
- È possibile stimare l’incidenza (il rischio) di malattia.
- È possibile studiare la relazione di un fattore di rischio con più malattie.
- Migliore la valutazione dei fattori di rischio.
- Migliore la valutazione dei rapporti temporali fattore di rischio-malattia.
- Preferibili quando il fattore di rischio è raro.

Svantaggi:
- Va studiata una popolazione molto ampia.
- Sono costosi.
- Richiedono un tempo lungo.
- Potenziali errori nel valutare l’insorgere di malattia.
- Non indicati nello studio delle malattie rare.
La misura epidemiologica quantifica la frequenza di un fenomeno (EVENTO o STATO) di interesse
(medico-sanitario) in una popolazione

EVENTO= cambiamento di condizione del soggetto nel tempo (prima diagnosi di tumore, decesso per
infarto) - Incidenza
STATO= condizione in cui il soggetto si trova ad un certo tempo (malato di diabete, disabilità) -
Prevalenza

MISURE DI FREQUENZA (categorie matematiche)

RAPPORTI
- Proporzioni (numeratore e denominatore stessa unità di misura).
- Tassi (numeratore e denominatore unità differenti).
● PREVALENZA
● INCIDENZA
a) INCIDENZA CUMULATIVA
b) TASSO DI INCIDENZA
● MORTALITÀ/SOPRAVVIVENZA
● LETALITÀ

1. Rapporto
- Un confronto tra due quantità, una divisa per l’altra. Numeratore e denominatore non hanno
nulla in comune.
Rapporto = χ
𝑦
- Es. Rapporto Maschi/Femmine (6056/1798 = 3.4)
- Rapporto Posti letto per urgenza/Posti letto per riabilitazione
2. Proporzione
Un rapporto in cui il numeratore è compreso nel denominatore.
1𝑥
Proporzione =
𝑥
Es. La proporzione dei morti per una data causa sul totale delle morti:
(n di morti per una determinata causa) / (numero di morti per tutte le cause)

Di solito moltiplicati per 100 (%), per 1000 (%)

- Frequenza assoluta= numero di casi
- Frequenza relativa= Numero di casi / pop. di riferimento

3. Prevalenza
n. di casi in un periodo di tempo / persone a rischio in un periodo di tempo
a) Prevalenza di punto (o istantanea)
b) Prevalenza di periodo
- Misura lo stato (NON l’evento) + il numero di casi di una certa condizione (malattia) presenti
in un dato momento in una popolazione
⇒ puntuale (es. 14° censimento 21/10/2001)
⇒ di periodo (es. malati nell’anno)
- è una proporzione in cui il n° di casi presenti in un istante, viene rapportato al n°
complessivo di persone presenti nella popolazione totale in quel momento
Il seguente esempio indica come si calcola la prevalenza di una malattia in una popolazione. Es.
Supponiamo che il numero di persone sotto osservazione sia 10. Di queste, alcune sono già malate
quando iniziamo l'osservazione, altre ancora rimangono sane. Nel momento in cui un soggetto si
ammala, nella figura compare un quadrato pieno e per tutta la durata della malattia la linea blu è
sostituita da una linea rossa.

linea rossa = stato di malattia

Se voglio calcolare la prevalenza al 3° giorno devo contare i malati presenti nel giorno 3 (che sono 2, 3,
5, 7) e rapportarli alla popolazione presente lo stesso giorno (9 persone in tutto, perché il paziente 9 è
uscito dall'osservazione dopo il giorno 2 e non viene contato né al numeratore né al denominatore).
La misura della prevalenza per il giorno 3 è quindi:
P = 4/9 = 0.44 (44%)

Per misurare la prevalenza di una condizione bisogna definire:

a) Il momento di rilevazione (la prevalenza può variare molto da un momento all'altro ed è
indispensabile definire quando esattamente viene fatta la misura);
b) Il numero di casi presenti nel momento della rilevazione;
c) Il numero complessivo delle persone presenti (casi + non casi) nello stesso momento.
- Il numero di casi prevalenti in una popolazione dipende dalla frequenza con cui le persone
contraggono la malattia e da quanto a lungo rimangono malate.
- La prevalenza fornisce uno spaccato della popolazione in un certo momento ed indica la
proporzione di casi esistenti nella popolazione

4. INCIDENZA
n. di nuovi casi in un periodo di tempo / esposti al rischio in un periodo di tempo È una
misura di rischio.
INCIDENZA CUMULATIVA: in una corte chiusa.
TASSO D’ATTACCO: in una epidemia al denominatore, esposti suscettibili.
TASSO o DENSITÀ D’INCIDENZA: in una coorte dinamica al denominatore tempo-persona

➔ Incidenza cumulativa
n. di soggetti che si ammalano (eventi) in un certo intervallo di tempo / N. di soggetti seguiti per quel
tempo.

È necessario che ciascun soggetto sia seguito per l’intero periodo durante il quale si misura il rischio
- È una proporzione, una frazione in cui il numeratore è contenuto nel denominatore.
- È una grandezza relativa e quindi non ha dimensione, varia da 0 a 1.
- Si interpreta come una probabilità: la probabilità (media) di un individuo di ammalarsi di una
certa malattia in un dato intervallo di tempo

Incidenza Cumulativa (t1– t0) = 4/8= 0.5 = 50%

➔ Incidenza normale
- è una misura di frequenza che stima la velocità del cambiamento dello stato di salute della
popolazione.
- Misura la frequenza con cui le persone si ammalano, indipendentemente da quanto a lungo
rimangono malate.
- Per contare quante persone si ammalano bisogna definire l'arco di tempo durante cui osserviamo
l'intero gruppo.

Nell’esempio precedente possiamo supporre di essere interessati al periodo di tempo che va da t0 a t1.
In questo intervallo le persone 2, 3, 6 e 7 si ammalano ex novo, mentre 8 e 10 erano già malate prima
del giorno t0 (e non sono contate) e 1, 4, 5 e 9 non si ammalano nel periodo da t0 a t1: il numero totale
di casi incidenti è 4 su 8 persone (50%)

➔ Tasso di incidenza (IR)

- Misura il cambiamento istantaneo di una quantità per la variazione unitaria di un’altra quantità
(di solito il tempo). Es. velocità.
- Esprime la velocità del cambiamento dello stato di salute della popolazione
- è la probabilità di verificarsi di un determinato evento
𝑥
𝑦 𝑥𝐾
X = numero di eventi o casi
Y = popolazione a rischio (dove poter entrare a far parte del
numeratore)
K = base (100, 1000, 10000, ecc…)
+ Specificare: luogo, tempo, popolazioni

→somma di tutti gli intervalli di tempo a rischio individuali degli n.

soggetti

- La IR misura la concentrazione di casi (densità) in uno spazio che ha come

dimensioni la popolazione e il tempo individuale a rischio di malattia.
- Seguire una persona per 5 anni o 5 persone per un anno equivale comunque ad una osservazione
di 5 anni-persona.
- 36.5 casi/anno-persona = 0.1 caso/giorno-persona

Calcolo del Tasso -TEMPO-PERSONA

6 casi/30 AP = 0.2 casi/AP

6 bambini si sono ammalati di morbillo su 30 bambini, suscettibili, osservati per un anno Incidenza = 6
casi su 30 = 20 per 100 in un anno
Interpretazione: Il rischio di ammalare di morbillo in un anno, tra i bambini del condominio, è stato pari
a 20 per 100

MORTALITÀ

La sopravvivenza è la probabilità che gli individui con una specifica malattia restino in vita per un
determinato periodo.
La letalità è la probabilità che gli individui con una specifica malattia vengano a morte in un determinato
periodo. Misura la “capacità di uccidere” di una malattia.

INCIDENZA e PREVALENZA (Possibile domanda sulla definizione!!)

A) Tasso di incidenza
- Misura la velocità con la quale una popolazione esente da una particolare patologia sviluppa
quella data malattia durante uno specificato periodo di tempo.
➔ NUOVI casi / Popolazione A RISCHIO
- L'incidenza misura l'apparire della malattia + individua il rischio o la probabilità di
contrarre la malattia
- Incidenza significa "NUOVO"

B) Prevalenza
- Misura il numero di soggetti (di una popolazione)
affetti da una particolare patologia in un preciso
istante.
➔ TOTALE casi / Popolazione TOTALE
- Misura l'esistenza della malattia
- Piu facile da determinare (basta 1 indagine)
- Prevalenza significa "TOTALE"

CARATTERISTICHE DISTINTIVE
CASI DI AIDS IN ITALIA NEL 2006

MISURE DI ASSOCIAZIONE
Rischi e tassi esprimono la frequenza e la velocità con cui una malattia insorge in una popolazione.
- Di solito quello che interessa è il rapporto causale fra esposizione e malattia, ovvero studiare
l’effetto di un diverso livello del determinante sull’insorgenza della malattia

IL CONFRONTO
Se ipotizziamo che un fattore sia un determinante di una malattia ci aspettiamo che la frequenza della
malattia sia diversa tra i soggetti esposti a quel fattore rispetto ai soggetti non esposti una volta escluso
l’effetto di confondenti.
ES. 100 soggetti esposti sviluppano 25 casi in un anno = 0.25. Altri 100 soggetti non esposti
(rappresentano una stima di quello che sarebbe atteso fra i soggetti esposti se non fossero stati esposti)
sviluppano 10 casi in un anno con un incidenza/anno= 0.10
- L’esposizione è associata alla malattia

Se esposti e non esposti sono comparabili (per tutti gli altri fattori di rischio della malattia) possiamo
valutare l’effetto della esposizione

RISCHIO ASSOLUTO
L’effetto (rischio) assoluto è la differenza nei rischi (o tassi) fra una popolazione esposta ed una
popolazione non esposta.
- Rischio assoluto = RA = 𝑅 - 𝑅
1 0 ←
R1 = rischio fra esposti R0=
rischio fra non esposti

5
Ri ⇒ tasso di mortalità x 10 AP

RISCHIO RELATIVO
Si ottiene rapportando il rischio fra gli esposti al rischio nella classe di riferimento (non esposti).
- Rischio Relativo = RR = 𝑅 /𝑅
1 0
R1 = rischio fra esposti
R0 = rischio fra non esposti

EFFETTO RELATIVO
- Si ottiene rapportando l’effetto assoluto alla frequenza della malattia nella classe di
riferimento (es. rapporto fra rischi)
- Effetto Relativo = (R1 - R0 ) / R0 = R1/R0 - 1 = RR - 1
R1 = rischio fra esposti
R0 = rischio fra non esposti

RR = 1 se R1 = R0
se fra 0 e 1 R1 < R0 se
>1 R1 > R0

Effetto relativo (RR - 1) varia -1 a + ∞

Se RR = 0.2; effetto relativo = -0.8 (-80%)
se RR = 0.5; effetto relativo = -0.5 (-50%) se RR
= 1; effetto relativo = 0
se RR = 1.5; effetto relativo = 0.5 (+50%)
Se RR = 2; effetto relativo = 1 (+100%)

FRAZIONE (RISCHIO) ATTRIBUIBILE

- Indica quanti casi di malattia in più sono ascrivibili all’esposizione.
- Assumendo che la relazione fra esposizione e malattia sia causale.
- Effetto (dimensione) in termini di sanità pubblica della esposizione.
Si ottiene dividendo l’effetto assoluto per il rischio fra gli esposti
𝐴𝐹𝐸= (R1 - R0) / R1 = 1 - 1/RR =
𝐴𝐹 =(RR -1)/RR
𝐸
- Misura la proporzione di casi fra gli esposti legata, attribuibile, alla esposizione (se la relazione
non è distorta)

COMPARAZIONE TRA RR E RA
Il fumo ha i seguenti effetti:

In assenza di fumo, le patologie coronariche sono molto più frequenti del Ca. polmonare
- CHD: 400 decessi/100,000 AP
- Ca. polmone: 10 decessi/100,000 AP

Questo significa che un aumento del 60% della mortalità per CHD (RR=1.6) dovuto al fumo agirà su
un rischio di base molto più grande, piuttosto che l’aumento di 14-volte di mortalità per Ca. polmone.
L’impatto in termini di vite salvate dovuto alla cessazione del fumo sarà maggiore sulle CHD che non
sul tumore polmonare.

Il Rischio Relativo è utile nello stimare la causalità.

≠
Il Rischio Assoluto è utile nello stimare qual è la rilevanza (l’impatto) di un fattore di rischio.

ODDS
- È un rapporto in cui al numeratore c’è una proporzione (p) e al denominatore il suo
complemento a 1 (1-p).
- Non ha dimensione.
- Es. odds di malattia = (n. malati/ totale) / (numero non malati/ totale corrisponde al rischio /
(1-rischio)

ODDS RATIO
(rapporto delle quote) molto utilizzati nelle scommesse.
Dati due eventi mutuamente esclusivi (vittoria o sconfitta) si considera la quota dei due eventi.
Odds di essere esposto nei malati = a/c Odds di
essere esposto nei sani = b/d
Es. STUDIO CASO-CONTROLLO
Fattori di rischio per l’infezione da HIV in lavoratori italiani che hanno soggiornato nello Zaire

Negli studi prospettici (Trial Clinici o Studi di Coorte)

⇒ Dalla esposizione alla malattia
⇒ Rischio Relativo

Negli studi Caso-Controllo o studi retrospettivi

⇒ Dalla malattia alla esposizione
⇒ Odds Ratio

Nel caso delle patologie e/o esposizioni rare (a

<<c e b<<d)

ASSOCIAZIONE
- Spuria (dovuta ad una errore sistematico o casuale dello studio).
- Non Causale
- Causale

Esercizio 1
È stato effettuato uno studio epidemiologico che ha coinvolto 25 soggetti. Durante il mese di ottobre
alcuni soggetti si ammalarono di una patologia X (irreversibile). In particolare:
● il 30 settembre, 5 avevano la patologia X
● il 5 ottobre, altri 4 si ammalarono di X
● il 20 ottobre altri 2 si ammalarono di X.
Dopo aver graficamente rappresentato lo studio, calcolate:
a) La prevalenza di X al 1 ottobre.
b) L’incidenza cumulativa (rischio) di malattia nel mese di ottobre.
c) La prevalenza di X al 25 ottobre.
d) Il tasso di incidenza (in casi per 100 giorni-persona) di X nel mese di ottobre
Soluzioni
a) 5/25
b) 6/20
c) 11/25
d) 6/494 giorni persona -> 1.21
casi/100 giorni-persona.

Esercizio 2
Considerando la seguente tabella 2x2 nella quale sono mostrati i risultati di uno studio di
prevalenza condotto su 1000 soggetti (500 con età <45 anni e 500 >45anni) per indagare
l’associazione con l’esposizione ad un agente Y e una patologia infettiva X.
- Calcolare l’OR negli esposti (non considerando l’età) e nei giovani (non considerando
l’esposizione). Dopo aver calcolato separatamente l’OR negli esposti tra i giovani e tra
i meno giovani, quale tra queste affermazioni è giusta?
a) Non considerando l’esposizione a Y il rischio di avere X aumenta con l’età.
b) Negli esposti il rischio aumenta con l’età.
c) Nei <45 anni gli esposti hanno un rischio di 1.5 volte maggiore dei non esposti

SOLUZIONE
- OR esposti: 150×350/400×100 = 1.3
- OR giovani: 125×375/125×375 = 1
- OR esposti tra i giovani: 75×150/225×50 = 1
- OR esposti tra i non giovani: 75×200/175×50 = 1.7

ANALISI DEGLI STUDI DI COORTE

- Analisi classica: quando l’incidenza della malattia è relativamente rara e si può ipotizzare che il
tasso di incidenza non vari o vari solo leggermente nel tempo
- Analisi di sopravvivenza:
1. quando i tassi di incidenza variano rapidamente nel tempo
2. quando vi è un interesse a quantificare il tempo trascorso dall’ingresso all’evento

ANALISI CLASSICA (regressione di Poisson)

Poiché il tempo di follow-up può essere diverso per ogni individuo, l’analisi degli studi di coorte si basa sui
tassi. Questo è l’unico modo corretto per confrontare le malattie quando l’ingresso e l’uscita da una coorte
sono sfalsati. I tassi tengono conto del tempo di follow-up per ogni individuo. Il denominatore non è costituito
dagli individui, ma dal tempo totale di osservazione, ad esempio gli anni-persona.
Per calcolare il tasso utilizziamo λ=D/Y:
- D=numero totale di eventi (ad esempio decesso)
- Y=tempo di osservazione totale, ottenuto sommando i tempi di osservazione separati per tutti i
soggetti dello studio
Let's calculate a 95% confidence interval for the mortality rate in the high grade employees, where D = 221,
and Y = 20.340. The estimated rate is: 221 / 20.340 = 10.87 per 1000 person-years. The error factor, EF, is:
EF = exp(1.96√ (1/D)) EF = exp(1.96√ (1/221))= 1.141
Approximate 95% confidence limits for the rate are given by:
So,
- Lower confidence limit = 10.87 / 1.141 = 9.53
- Upper confidence limit = 10.87 x 1.141 = 12.40.

Again, because this is an estimate, from a sample of civil servants, we need to calculate a confidence interval
around the rate ratio.
Approximate 95% confidence limits for a rate ratio are found using:
rate ratio × EF and rate ratio ÷ EF
EF = exp(1.96√(1/D1+1/D0))
where D1 and D0 are the observed events in the exposed and unexposed groups respectively.
The term √(1/D1+1/D0)) is the standard error for the log(rate ratio) so we must divide and multiply the
rate ratio by the error factor to obtain the confidence interval.

Rate (per 1000) in high grade workers = 10.87

Rate (per 1000) in low grade workers = 25.05
Rate ratio = 25.05 / 10.87 = 2.30
The lower confidence interval is given by:
Rate Ratio / EF
So in this case it is:
2.30 / 1.217 = 1.89
The upper confidence interval is given by:
Rate Ratio x EF
So in this case it is:
2.30 x 1.217 = 2.80

TEST DI IPOTESI SUI RAPPORTI DI TASSO

Se i tassi sono uguali nei due gruppi, il rapporto di tasso è pari a 1.
• L’ipotesi nulla è: il rapporto di tasso o rate ratio è uguale a 1.
• L’ipotesi alternativa è: il rapporto di tasso o rate ratio non è uguale a 1.

ANALISI DI SOPRAVVIVENZA
Se l’interesse è rivolto alla durata e all’andamento della sopravvivenza:
1. Quando i tassi di incidenza variano rapidamente nel tempo. Il tempo che manca alla morte può
variare dopo la diagnosi di cancro al seno. Questo perché la probabilità di morire può aumentare poco
dopo l’insorgenza della malattia e poi diminuire con l’aumentare del tempo della diagnosi.
2. Quando si ha interesse a quantificare il tempo trascorso dall’ingresso all’evento. Tempo di
remissione della malattia dopo il trattamento (il tempo mediano di remissione è di maggiore interesse).

L’analisi della sopravvivenza è comunemente utilizzata negli studi clinici per esaminare la storia naturale delle
malattie e valutare nuovi interventi, e nella demografia per calcolare le aspettative di vita nelle diverse
popolazioni.
• Tempo alla morte per qualsiasi causa dopo il trattamento del cancro
• Tempo di guarigione da una determinata malattia
• Tempo di gravidanza dopo un trattamento di fecondazione in vitro.
• Tempo per l’infezione dopo l’esposizione.
• Tempo di morte per malattie cardiovascolari a partire da 60 anni.
PROBABILITÀ DI SOPRAVVIVENZA
L’obiettivo principale dell’analisi di sopravvivenza è ottenere una stima dell’esperienza di sopravvivenza della
popolazione rappresentata dalla coorte. A tal fine, si calcolano le probabilità di sopravvivenza e si esamina la
sopravvivenza cumulativa dell’intera coorte. La probabilità che un evento si verifichi è la proporzione di volte
in cui lo osserveremmo se ripetessimo un esperimento molte volte. Questa è la visione frequentista della
probabilità.
Probabilità decesso=numero di decessi/numero soggetti a rischio – 0.5 x numero dati censurati
• Non sappiamo quando sono stati censurati, ma possiamo ipotizzare che, in media, siano stati persi a
metà del periodo di follow-up. I persi al follow-up sono detti troncati o censurati e partecipano alla
determinazione della funzione di sopravvivenza per metà dell’intervallo in cui avviene il ritiro.
• Per tenere conto del momento in cui si sono verificati gli eventi possiamo suddividere il periodo di
follow-up in intervalli e calcolare le probabilità di sopravvivenza all’interno di ciascuno intervallo.
(metodo di Kaplan-Meier)

METODO DI KAPLAN-MEIER
• Metodo non parametrico utilizzato ogni volta che si dispone di informazioni precise sulla data
dell’evento (decesso o altro evento terminale).
• Stima le probabilità di sopravvivenza cumulative subito dopo ogni singolo decesso, o censura.
• Si ottiene una linea a gradini (piuttosto che una curva liscia) perché la sopravvivenza cumulativa si
riduce al momento esatto di un evento.

LOGRANK TEST-CONFRONTO CURVE SOPRAVVIVENZA

È utilizzato per verificare se due curve di sopravvivenza sono simili o meno. Possiamo concludere che le due
curve sono significativamente diverse oppure no, ma non possiamo quantificare la differenza. Per ogni
intervallo possiamo calcolare il numero di decessi attesi nei gruppi esposti e non esposti. Sommando questi
valori attesi “specifici per intervallo” e confrontandoli con il totale osservato, si esegue il test.
Se i numeri osservati differiscono solo per caso da quelli attesi, allora le curve di sopravvivenza dei due
gruppi differiscono solo a causa della variazione casuale.

ODDS E ODDS RATIO

In uno studio caso-controllo misuriamo le probabilità di esposizione nel gruppo dei casi e in quello dei controlli.
Possiamo usare l’odds ratio di esposizione per misurare quanto più comune è l’esito di interesse in coloro che
sono esposti rispetto a coloro che non sono esposti.
L’odds ratio di malattia è calcolata come=odds di malattia tra gli esposti/odds di malattia tra i non esposti.

INFERENZA DALL’ODDS RATIO

Per aiutare l’interpretazione di qualsiasi stima da un campione di dati, possiamo calcolare un intervallo di
confidenza=un intervallo tra due limiti di confidenza intorno a una stima da un campione che possiamo essere
certi contenga il vero parametro della popolazione.
Un intervallo di confidenza del 95% per l’odds ratio può essere ottenuto moltiplicando e dividendo l’OR
osservato per il fattore d’errore.
Fattore di errore=exp (1.96xES)
ES=errore standard
• È possibile che l’odds ratio osservato sia dovuto alla variazione del campionamento e che l’oddds ratio
sia pari a 1. Per testare l’ipotesi nulla che l’odds ratio vero sia 1, possiamo applicare un test del chi-
quadro per una tabella 2x2.
• Un odds ratio vero esattamente uguale a 1 significa che l’odds ratio dell’esposizione nei casi è uguale
a quello dell’esposizione nei casi.
• Un odds ratio vero esattamente uguale a 1 significa che l’odds di esposizione nei casi è uguale all’odds
di esposizione nei controlli.
Il test del punteggio-test del chi quadro di Mantel-Haenszel-viene eseguito confrontando (U2/V) con la
distribuzione x^” su 1 grado di libertà, dove:

U = D1 - E1

e V = D x H x N0 x N1
N2 x (N - 1)

D=numero totale di casi, esposti e non esposti

H=numero totale di controlli, esposti e non esposti
N0=numero totale di individui non esposti, casi e controlli
N1=numero totale di individui esposti, casi e controlli
N=numero totale di individui nella tabella

U = 140 - 451 x 189 = 28.284

763
U2 = 800.01
V =189 x 574 x 451 x 312
7632 x 762
= 34.41
Z2=U2 = 800.01
V 34.41
= 23.2 con 1 grado di libertà, P < 0.0001.

• I dati osservati non sono compatibili con l'ipotesi nulla.

• C'è una forte evidenza contro l'ipotesi nulla e a favore di una differenza nelle probabilità di infezione
da HIV nelle donne con scolarizzazione rispetto a quelle senza scolarizzazione.
• Coerentemente con quanto osservato esaminando l'intervallo di confidenza al 95%, l'intervallo non
includeva OR = 1, il limite inferiore era 1,68.

CONFONDIMENTO ED INTERAZIONE (O MODIFICAZIONE D’EFFETTO)

L’OR grezzo supporta l’associazione tra scolarizzazione e rischi di infezione a HIV in questa popolazione.
OR=2,42 (intervallo di confidenza al 95% da cui 1,68 a 3,48). P<0.00.
Bisogna considerare l’effetto delle variabili che possono confondere o modificare l’associazione osservata.
Il confondimento si verifica quando l’effetto apparente dell’esposizione sull’esito di interesse è distorto da un
fattore confondente che è una “causa” della malattia ed è associato all’esposizione.
L’interazione (o modificazione dell’effetto) si verifica quando uno o più fattori modificano significativamente
la forza o la direzione dell’associazione tra il fattore di esposizione e l’esito in studio.
Il fattore di confondimento è associato con disposizione e
outcome ma non fa parte del percorso causale.
Modificazione di effetto-->effetto con intensità e
direzione diversa.

• La tecnica più semplice per controllare il confondimento e valutare l’interazione consiste nello
stratificare la tabella grezza in strati definiti dai livelli della potenziale variabile confondente. Si
possono quindi calcolare gli odds ratio specifici per ogni strato.
• Se le stime degli odds ratio sono simili tra gli strati (omogenee), possiamo calcolare un odds ratio di
Mantel- Haenszel ponderato-questa stima è nota come ODDS RATIO AGGIUSTATO perché è
aggiustato per i potenziali confondenti.
• Se vi è evidenza che gli odds ratio differiscono tra gli strati (eterogenei), di solito devono essere
presentati gli odds ratio specifici per ogni strato: queste stime descrivono l’interazione tra l’esposizione
di interesse e modificatore d’effetto.

FASI PER LA VALUTAZIONE DEL CONFONDIMENTO NELL’ANALISI BIVARIATA

1. Calcolare il RR o OR grezzo (cioè senza stratificazione)
2. Stratificare in base alla variabile confondente e calcolare il RR o OR specifico dello strato
3. Valutare l’omogeneità delle stime di effetto tra gli strati e confrontare gli RR o gli OR stratificati e non
stratificati:
- Se c’è omogeneità nelle stime di effetto tra gli strati, riportare l’RR o l’OR complessivo aggiustato;
- Se c’è eterogeneità e siamo interessati alla modifica dell’effetto, le stime dell’effetto specifiche per
strato devono essere riportate separatamente.

ANALISI MULTIVARIATA: strumento statistico per valutare simultaneamente il contributo indipendente di

un certo numero di cause diverse (=fattori di rischio) a un singolo evento o esito.
Può essere effettuata con qualsiasi numero di variabili, anche se si raccomanda di mantenerne un numero
ragionevolmente ridotto.
Nell'analisi multivariata possiamo descrivere le relazioni tra un outcome e molte variabili esplicative
binarie, categoriche o continue allo stesso tempo.
REGRESSIONE LINEARE
Regressione lineare semplice: y = a + bx
a è l’intercetta della retta con l’asse delle ordinate -> quanto vale Y quando X vale zero
b è il coefficiente angolare: misura l’inclinazione della retta (è la tangente dell’angolo α formato dalla retta
con l’asse delle ascisse) -> di quanto aumenta Y all’aumentare di una unità di X

Variabile indipendente è causa (sulle ascisse del grafico).

Variabile dipendente è effetto (sulle ordinate del grafico).
La regressione lineare è la stima della variazione media di una variabile in conseguenza della variazione
unitaria di un’altra variabile.

Obiettivo dell’analisi di regressione: individuare la retta che meglio predice il

valore della variabile dipendente, noto il valore della variabile indipendente.

Il segno del coefficiente ci dice la direzione della relazione.

- Coefficiente è positivo è il valore medio dell’outcome aumenta all’aumentare della variabile
indipendente.
- Coefficiente è negativo è il valore medio dell’outcome diminuisce all’aumentare della variabile
indipendente.
- Coefficiente è “0” è la linea è piatta: cambiamenti dei valori della variabile indipendente non
provocano cambiamenti nell’outcome.

REGRESSIONE LOGISTICA
La regressione logistica si propone di studiare e di quantificare le relazioni tra:
- una o più variabili indipendenti (ad es. età, salario, livello di istruzione)
- una variabile dipendente dicotomica (ad es. dipendenza da sostanze stupefacenti, stato civile, voto
al referendum).

Variabile dicotomica viene codificata come 0-1 (1= successo; 0 = insuccesso) à può assumere solo valori
compresi tra 0 e 1:
- per valori alti della X il valore di Y sarà molto vicino a 1; al contrario per valori bassi della X il
valore di Y sarà molto vicino a 0.

• Nella regressione logistica la variabile dipendente definisce l’appartenenza a un gruppo (ad es. maschi
vs. femmine)
• La regressione logistica non ci predice il valore atteso di Y, a partire da il valore di X, ma la probabilità
(P) che Y si verifichi (ovvero che un dato soggetto appartenga a uno dei due/o più gruppi considerati)
• Ciò che prediciamo è la probabilità p di appartenere al gruppo con valore 1 (e 1- p sarà la
probabilità di appartenere al gruppo 0).
• Le relazioni tra variabili possono essere analizzate in termini probabilistici.
• Necessitiamo dunque di un modello che trasformi la variabile dipendente in modo da renderla
tale da linearizzare la relazione, ovvero renderla continua, e farla variare su tutto l’asse (valori
positivi e negativi).
• Per farlo ci serviamo degli ODDS che misurano l’associazione tra due variabili.
• L’ODDS indica quanto è probabile un evento rispetto ad un altro
Pi/1- Pi

• Gli ODDS assumono valori inferiori ad 1 se la probabilità che si verifichi un dato evento è inferiore
alla probabilità che non si verifichi
• Gli ODDS assumono valori superiori ad 1 se la probabilità che si verifichi un dato evento è superiore
alla probabilità che non si verifichi
• Gli ODDS assumono valore 1 se la probabilità che un evento si verifichi è pari alla probabilità che non
si verifichi.
• Tuttavia, non possiamo utilizzare l’ODDS, in quanto consente di esprimere la probabilità tra valori
compresi tra 0-1. E’ necessario fare in modo che la nostra variabile dipendente possa assumere
valori compresi tra – infinito e + infinito.

REGRESSIONE DI COX
• La regressione di Cox consente di creare un modello predittivo per i dati della relazione tempo-evento.
Il modello crea una funzione di sopravvivenza che prevede la probabilità che l'evento di interesse si
sia verificato in un dato periodo t per valori specifici delle variabili predittore.
• La variabile tempo deve essere quantitativa, ma la variabile stato può essere categoriale o continua.
Le variabili indipendenti (covariate) possono essere continue o categoriali.
• Le osservazioni devono essere indipendenti e il rapporto di rischio deve essere costante nel corso
del tempo, ossia la proporzionalità dei rischi da un caso all'altro non deve variare nel tempo. Quest'
ultima ipotesi è nota come ipotesi di rischi proporzionali. Per ogni covariata, testiamo quindi se il
suo effetto è indipendente dal tempo. Questo effetto deve essere costante,

Potrebbero piacerti anche

Statistica Univariata
Nessuna valutazione finora
Statistica Univariata
33 pagine
Statistica 2° Semestre - Appunti
Nessuna valutazione finora
Statistica 2° Semestre - Appunti
36 pagine
Statistica Università
Nessuna valutazione finora
Statistica Università
23 pagine
Dispense Prof. Ricci - Probabilità e Statistica
Nessuna valutazione finora
Dispense Prof. Ricci - Probabilità e Statistica
81 pagine
Definizioni Statistica
Nessuna valutazione finora
Definizioni Statistica
4 pagine
Statistica I
Nessuna valutazione finora
Statistica I
22 pagine
Statistica Libro Molto Dispersivo Ma Con Esercizi Utili A Imparare Le Tecniche Statistiche
Nessuna valutazione finora
Statistica Libro Molto Dispersivo Ma Con Esercizi Utili A Imparare Le Tecniche Statistiche
57 pagine
Formulario Statistica Inferenziale
100% (1)
Formulario Statistica Inferenziale
6 pagine
Statistica Appunti Lezione Libro
Nessuna valutazione finora
Statistica Appunti Lezione Libro
57 pagine
Lezione 2 Statistica Descrittiva
Nessuna valutazione finora
Lezione 2 Statistica Descrittiva
82 pagine
Analisi Statistica
Nessuna valutazione finora
Analisi Statistica
100 pagine
Statistica Appunti
Nessuna valutazione finora
Statistica Appunti
10 pagine
Statistica e Metodologia Della Ricerca
Nessuna valutazione finora
Statistica e Metodologia Della Ricerca
13 pagine
Lezione 1 Statistica Descrittiva 1
Nessuna valutazione finora
Lezione 1 Statistica Descrittiva 1
24 pagine
Riassuntone Statistica
Nessuna valutazione finora
Riassuntone Statistica
55 pagine
STATISTICA
Nessuna valutazione finora
STATISTICA
3 pagine
Probabilità e Leggi Di Distribuzione - Misure
Nessuna valutazione finora
Probabilità e Leggi Di Distribuzione - Misure
7 pagine
Descrittiva 2021
Nessuna valutazione finora
Descrittiva 2021
328 pagine
Appunti Di Statistica
Nessuna valutazione finora
Appunti Di Statistica
15 pagine
Statistica Parte 1
Nessuna valutazione finora
Statistica Parte 1
22 pagine
Formule Statistica
Nessuna valutazione finora
Formule Statistica
46 pagine
Statistica
Nessuna valutazione finora
Statistica
19 pagine
Appunti Per Esame Psico, Storia
Nessuna valutazione finora
Appunti Per Esame Psico, Storia
26 pagine
Vistocco Statistica Psicometrica 2
Nessuna valutazione finora
Vistocco Statistica Psicometrica 2
163 pagine
Docsity Riassunto Introduzione Alla Statistica Mcgraw Hill
Nessuna valutazione finora
Docsity Riassunto Introduzione Alla Statistica Mcgraw Hill
9 pagine
Appunti Statistica
Nessuna valutazione finora
Appunti Statistica
5 pagine
STATISTICA
Nessuna valutazione finora
STATISTICA
5 pagine
Algebra 1 SASSO 559-608 Statistica
Nessuna valutazione finora
Algebra 1 SASSO 559-608 Statistica
49 pagine
Statistica Descrittiva
Nessuna valutazione finora
Statistica Descrittiva
13 pagine
Statistica
Nessuna valutazione finora
Statistica
52 pagine
Statistic Am Ate Ma Tic A
Nessuna valutazione finora
Statistic Am Ate Ma Tic A
185 pagine
Appunti Di Probabilit e Statistica
Nessuna valutazione finora
Appunti Di Probabilit e Statistica
294 pagine
Formulario Statistica Uni Di Roma
Nessuna valutazione finora
Formulario Statistica Uni Di Roma
4 pagine
La Statistica: 0. Introduzione
Nessuna valutazione finora
La Statistica: 0. Introduzione
7 pagine
Statistica Matematica
Nessuna valutazione finora
Statistica Matematica
4 pagine
Tecniche e Raccolta Dati 2
Nessuna valutazione finora
Tecniche e Raccolta Dati 2
12 pagine
03 - Elementi Di Statistica-SB
Nessuna valutazione finora
03 - Elementi Di Statistica-SB
25 pagine
Statistic A
Nessuna valutazione finora
Statistic A
87 pagine
Formulario Statistica
100% (1)
Formulario Statistica
10 pagine
Statistic A
Nessuna valutazione finora
Statistic A
6 pagine
STEAD
Nessuna valutazione finora
STEAD
15 pagine
I - Introduzione
Nessuna valutazione finora
I - Introduzione
3 pagine
Analisi Dei Dati
Nessuna valutazione finora
Analisi Dei Dati
43 pagine
Gestione Dei Dati
Nessuna valutazione finora
Gestione Dei Dati
16 pagine
Statistica22 23
Nessuna valutazione finora
Statistica22 23
113 pagine
Riassunto Statistica
Nessuna valutazione finora
Riassunto Statistica
4 pagine
Dispensa Statistica
Nessuna valutazione finora
Dispensa Statistica
45 pagine
Lezione Statistica
Nessuna valutazione finora
Lezione Statistica
4 pagine
Analisi Dei Dati 1
Nessuna valutazione finora
Analisi Dei Dati 1
106 pagine
Scienze Dell'opinione Pubblica Appunti Lez.
Nessuna valutazione finora
Scienze Dell'opinione Pubblica Appunti Lez.
7 pagine
Statistica Di Base
Nessuna valutazione finora
Statistica Di Base
13 pagine
STATISTICA
Nessuna valutazione finora
STATISTICA
26 pagine
Riassunto Statistica
Nessuna valutazione finora
Riassunto Statistica
2 pagine
AL119 - Sviluppo Di Un Banco Prova X Analisi Strutturale e Fatica Di Telai Motociclistici
Nessuna valutazione finora
AL119 - Sviluppo Di Un Banco Prova X Analisi Strutturale e Fatica Di Telai Motociclistici
10 pagine
Programma Di Analisi Matematica e Geometria 1 - Angiuli-Spina
Nessuna valutazione finora
Programma Di Analisi Matematica e Geometria 1 - Angiuli-Spina
2 pagine
Diodi Varicap-Controllo e Misura
Nessuna valutazione finora
Diodi Varicap-Controllo e Misura
3 pagine
Esercizi Elettrotecnica
100% (1)
Esercizi Elettrotecnica
96 pagine
Successioni e Serie Analisi 2
Nessuna valutazione finora
Successioni e Serie Analisi 2
11 pagine