Distribuzioni campionarie Risultati su campioni normali ... · Distribuzioni campionarie Risultati...
Transcript of Distribuzioni campionarie Risultati su campioni normali ... · Distribuzioni campionarie Risultati...
Distribuzioni campionarieRisultati su campioni normali
Test per il confronto di due varianze
Distribuzioni campionarie
Le distribuzioni campionarie sono quelle che derivano dalla presenza dicampioni i.i.d. a distribuzione normale.
Definizione. Se X e una v.a. avente distribuzione N(0, 1), alloraY = X 2 ha distribuzione chi quadro con un grado di liberta (Y ∼ χ2
1)(ossia: la χ2
1 e la distribuzione del quadrato di una normale standard)
Definizione. Se Y1, . . . ,Yn e un campione di variabili indipendenti aventidistribuzione χ2
1, allora K = Y1 + · · ·+ Yn ha distribuzione chi quadrocon n gradi di liberta (K ∼ χ2
n)(ossia: la χ2
n e la distribuzione della somma di n χ21 indipendenti)
Alessandra Micheletti Biostatistica 2012
Distribuzioni campionarieRisultati su campioni normali
Test per il confronto di due varianze
Definizione. Se X ∼ N(0, 1) e K ∼ χ2n sono fra loro indipendenti, allora
T =X√Kn
ha distribuzione t di student con n gradi di liberta (T ∼ tn).(Ossia: la tn e la distribuzione del rapporto fra una normale standard e laradice di una χ2
n divisa per i propri gradi di liberta, fra loro indipendenti)
Definizione. Se K1 ∼ χ2n e K2 ∼ χ2
m sono fra loro indipendenti, allora ilrapporto
F =K1/n
K2/m
ha distribuzione F di Fisher con n,m gradi di liberta (F ∼ Fn,m)(ossia: la F di Fisher e la distribuzione del rapporto fra due χ2
indpendenti divise per i propri gradi di liberta)
Alessandra Micheletti Biostatistica 2012
Distribuzioni campionarieRisultati su campioni normali
Test per il confronto di due varianze
Alcuni risultati su campioni normali
Sia X1, . . . ,Xn un campione i.i.d. per una v.a. X ∼ N(µ, σ2).Consideriamo la varianza campionaria S2
n−1 = 1n−1
∑ni=1(Xi − Xn)2.
Si dimostrano i seguenti teoremi:
Teorema (distribuzione di S2n−1 per campioni normali)
La statistica(n−1)S2
n−1
σ2 ha distribuzione χ2n−1
Teorema (indipendenza di Xn e S2n per campioni normali)
Le due statistiche Xn e S2n−1 sono indipendenti.
Alessandra Micheletti Biostatistica 2012
Distribuzioni campionarieRisultati su campioni normali
Test per il confronto di due varianze
Test per il confronto di due varianze
SianoX1, . . . ,Xn un campione i.i.d. per X ∼ N(µ1, σ
21)
Y1, . . . ,Ym un campione i.i.d. per Y ∼ N(µ2, σ22)
e i due campioni siano fra loro indipendenti.
Vogliamo verificare l’ipotesi
H0 : σ21 = σ2
2
controH1 : σ2
1 > σ22
Alessandra Micheletti Biostatistica 2012
Distribuzioni campionarieRisultati su campioni normali
Test per il confronto di due varianze
Notiamo che, poiche le varianze campionarie sono sempre positive, le dueipotesi precedenti sono equivalenti alle seguenti:
H0 :σ21
σ22
= 1
contro
H1 :σ21
σ22
> 1
Dato che S2n−1 e un buono stimatore della varianza, un criterio di scelta
fra le due ipotesi ragionevole sara
rigetto H0 se F : =S21
S22> c, con P(
S21
S22> c|H0 vera) = α
dove S21 e la varianza campionaria calcolata sulle Xi e S2
2 e la varianzacampionaria calcolata sulle Yi
( S21 = 1
n−1
∑ni=1(Xi − Xn)2, S2
2 = 1m−1
∑mi=1(Yi − Ym)2)
Alessandra Micheletti Biostatistica 2012
Distribuzioni campionarieRisultati su campioni normali
Test per il confronto di due varianze
Per il Teorema sulla distribuzione di S2n−1 per campioni normali,
(n−1)S21
σ21∼ χ2
n−1 e(m−1)S2
2
σ22∼ χ2
m−1
e sono fra loro indipendenti, dato che dipendono da campioni diversi eindipendenti fra loro.
Dunque, se H0 e vera, ossia σ21 = σ2
2 =: σ2
(n−1)S21
σ2(n−1)
(m−1)S22
σ2(m−1)
=S21
S22
= F ∼ Fn−1,m−1
Alessandra Micheletti Biostatistica 2012
Distribuzioni campionarieRisultati su campioni normali
Test per il confronto di due varianze
e il valore critico c in P(F > c|H0 vera) = α si determina invertendo lac.d.f. FF della Fn−1,m−1, ossia FF (c) = 1− α e c = F−1
F (1− α).
e rigetteremo H0 se F > c.
Alessandra Micheletti Biostatistica 2012
Distribuzioni campionarieRisultati su campioni normali
Test per il confronto di due varianze
p-value
I software spesso invece del valore critico forniscono il p-value relativo auna statistica.Sia f il valore assunto da F sui nostri dati, e sia F una variabile aleatoriaavente distribuzione Fn−1,m−1 (ossia la distribuzione che ha F sotto H0).Il p-value relativo a F e
p − value = P(F > f )
Alessandra Micheletti Biostatistica 2012
Distribuzioni campionarieRisultati su campioni normali
Test per il confronto di due varianze
Quindi il criteriorigetto H0 se F > c, con P(F > c|H0 vera) = αe equivalente al criteriorigetto H0 se p − value < α.
Definizione. In un test di ipotesi di livello di significativita α, il p-value eil piu piccolo valore di α che consente di rigettare H0.
Alessandra Micheletti Biostatistica 2012
Distribuzioni campionarieRisultati su campioni normali
Test per il confronto di due varianze
Se, sempre nelle stesse condizioni, vogliamo verificare le ipotesi
H0 : σ21 = σ2
2
H1 : σ21 < σ2
2
o equivalentemente,
H0 :σ21
σ22
= 1
H1 :σ21
σ22
< 1
possiamo ripetere il ragionamento precedente, con le disuguaglianzeinvertite e otterremo
Alessandra Micheletti Biostatistica 2012
Distribuzioni campionarieRisultati su campioni normali
Test per il confronto di due varianze
Criterio: rigetto H0 se F < c, con P(F < c|H0 vera) = αe il valore critico c e tale che FF (c) = α e c = F−1
F (α).
e rigetteremo H0 se F < c.
Alessandra Micheletti Biostatistica 2012
Distribuzioni campionarieRisultati su campioni normali
Test per il confronto di due varianze
Oppure, usando il p-value, che questa volta e dato da
p − value = P(F < f )
rigetto H0 se p − value < α
Alessandra Micheletti Biostatistica 2012
Distribuzioni campionarieRisultati su campioni normali
Test per il confronto di due varianze
ATTENZIONE: in qualunque test di ipotesi, per come e’ definito ilp-value, il criterio di scelta e SEMPRE
rigetto H0 se p − value < α
Per questo spesso i software statistici forniscono il p-value invece delvalore critico, poiche il criterio di confronto non cambia a seconda deltipo di test o del valore di α scelto dall’utente.
Excel fornisce sia il valore critico che il p-value.
Alessandra Micheletti Biostatistica 2012
Distribuzioni campionarieRisultati su campioni normali
Test per il confronto di due varianze
ESERCIZIO
Consideriamo il file il nostro dataset.xls.
Ordiniamo i dati per valori di squadra crescenti.
Confrontiamo le varianze della variabile ”larghezza della mano destra”(ricordiamoci che questa variabile era normale!) fra il gruppo A-L e ilgruppo M-Z, ossia verifichiamo
H0 : σ2A−L = σ2
M−Z
controH1 : σ2
A−L??σ2M−Z
che disuguaglianza metto al posto di ?? ?Utilizzare analisi dati → test F a due campioni per varianze
Alessandra Micheletti Biostatistica 2012
Confronto di medie fra campioni indipendenti
1 campione ),(~ 12
1 σμNindipendenti
nXX ,...,1
mYY ,...,1 2 campione ),(~ 22
2 σμNp
Vogliamo verificareVogliamo verificare
210
:
:
μμ
μμ
>
=
H
H o0:
0: 210
>−
=−
μμ
μμ
H
H
211 : μμ >H 0: 211 >− μμH
Caso 1: 2221 σσ =
Si dim. che la statistica21 XXT −
=
)11(2
)1()1( 22
21
1
mnmnSmSn
T+⋅
−+−+−
=
ha distribuzione sotto l’ipotesi2−+mnt 0H
Sotto l’ipotesi ,Caso 2: 22
21 σσ ≠ 0Hp ,
la statistica ha distribuzione , con
21
2221
2SS
XXT −=
0
rt
)(22
21
mS
nS
+
2222
222
21
11 ⎞⎛⎞⎛
⎟⎟⎠
⎞⎜⎜⎝
⎛+
=SS
mS
nS
r22
21
11
11
⎟⎟⎠
⎞⎜⎜⎝
⎛−
+⎟⎟⎠
⎞⎜⎜⎝
⎛− m
Smn
Sn
Criterio: rigetto se >c con P( >c| vera)=0H 0H α2
1
TT
2
1
TT
Test a una codaTest a una coda
Se invece vogliamo verificare
210
:
:
μμ
μμ
<
=
H
H o 210
:
:
μμ
μμ
<
≥
H
H
211 : μμ <H 211 : μμ <H
useremo le statistiche di prima, ma il criterio di scelta sara’
Criterio: rigetto se <c con P( <c| vera)=0H 0H α2
1
TT
2
1
TT
2 2
Test a una coda
Se vogliamo verificare 210 : μμ =Hg
useremo le statistiche di prima ma il criterio di scelta sara’
211 : μμ ≠H
Criterio: rigetto se >c con P( >c| vera)=
useremo le statistiche di prima ma il criterio di scelta sara
0H 0H α|| 1T || 1TCriterio: rigetto se c con P( c| vera)0 0|| 2T || 2T
Test a due code
Se n e m>30 si puo’ applicare il Teorema del Limite Centrale e dimostrare che, QUALUNQUE SIA LA DISTRIBUZIONE DEI DUE CAMPIONI CONSIDERATI (ANCHE NON NORMALI) sia che sotto hanno distribuzione approssimativamente N(0,1).
2T1T 0Hpp ( , )
Il procedimento di ricerca dei valori critici sara’ quindi lo stesso di prima, ma si utilizzera’ la N(0,1) al posto della t-studentsi utilizzera la N(0,1) al posto della t student.
Anche per questi test e’ possibile utilizzare il p-value e confrontarlo con :αc e pe quest test e poss b e ut a e p va ue e co o ta o co :
Rigetto se p-value<0H α
211 : μμ >H 211 : μμ <H 211 : μμ ≠H
p-valuep va ue
t= valore di o 1T 2T
ESERCIZIO
Consideriamo ancora il nostro dataset.xls
Confrontiamo le medie della variabile larghezza della mano destra fra la squadra A-L e la squadra M-Z.
Usare ancora analisi dati Test t: due campioni assumendo uguale varianzaTest t: due campioni assumendo varianze diverse
Quale test devo usare per confrontare le medie?
ATTENZIONE: in un qualsiasi test di ipotesi, l’ipotesi nulla si assume vera a meno che non sia molto evidente che sia falsa.Quindi accettare H0 non significa che H0 sia vera, ma solo che NON E’ Q 0 g 0 ,EVIDENTE CHE SIA FALSA!
ESERCIZIO B
Consideriamo il file genomi_AM.xlsx(si trova linkato alla scritta istogrammi delle distribuzioni e ricerca(si trova linkato alla scritta istogrammi delle distribuzioni e ricerca di outliers su genomi.xls sulla mia pagina web)
Confrontare Uomo e Topo:Confrontare Uomo e Topo:
• La lunghezza media dei geni e’ significativamente diversa fra le due i ?specie?
• Il numero medio di esoni e’ significativamente diverso fra le due specie?
Quali test devo effettuare?
Usare ancora analisi dati