Distribuzioni campionarie Risultati su campioni normali ... · Distribuzioni campionarie Risultati...

22
Distribuzioni campionarie Risultati su campioni normali Test per il confronto di due varianze Distribuzioni campionarie Le distribuzioni campionarie sono quelle che derivano dalla presenza di campioni i.i.d. a distribuzione normale. Definizione. Se X ` e una v.a. avente distribuzione N (0, 1), allora Y = X 2 ha distribuzione chi quadro con un grado di libert` a(Y χ 2 1 ) (ossia: la χ 2 1 ` e la distribuzione del quadrato di una normale standard) Definizione. Se Y 1 ,..., Y n ` e un campione di variabili indipendenti aventi distribuzione χ 2 1 , allora K = Y 1 + ··· + Y n ha distribuzione chi quadro con n gradi di libert` a(K χ 2 n ) (ossia: la χ 2 n ` e la distribuzione della somma di n χ 2 1 indipendenti) Alessandra Micheletti Biostatistica 2012

Transcript of Distribuzioni campionarie Risultati su campioni normali ... · Distribuzioni campionarie Risultati...

Distribuzioni campionarieRisultati su campioni normali

Test per il confronto di due varianze

Distribuzioni campionarie

Le distribuzioni campionarie sono quelle che derivano dalla presenza dicampioni i.i.d. a distribuzione normale.

Definizione. Se X e una v.a. avente distribuzione N(0, 1), alloraY = X 2 ha distribuzione chi quadro con un grado di liberta (Y ∼ χ2

1)(ossia: la χ2

1 e la distribuzione del quadrato di una normale standard)

Definizione. Se Y1, . . . ,Yn e un campione di variabili indipendenti aventidistribuzione χ2

1, allora K = Y1 + · · ·+ Yn ha distribuzione chi quadrocon n gradi di liberta (K ∼ χ2

n)(ossia: la χ2

n e la distribuzione della somma di n χ21 indipendenti)

Alessandra Micheletti Biostatistica 2012

Distribuzioni campionarieRisultati su campioni normali

Test per il confronto di due varianze

Definizione. Se X ∼ N(0, 1) e K ∼ χ2n sono fra loro indipendenti, allora

T =X√Kn

ha distribuzione t di student con n gradi di liberta (T ∼ tn).(Ossia: la tn e la distribuzione del rapporto fra una normale standard e laradice di una χ2

n divisa per i propri gradi di liberta, fra loro indipendenti)

Definizione. Se K1 ∼ χ2n e K2 ∼ χ2

m sono fra loro indipendenti, allora ilrapporto

F =K1/n

K2/m

ha distribuzione F di Fisher con n,m gradi di liberta (F ∼ Fn,m)(ossia: la F di Fisher e la distribuzione del rapporto fra due χ2

indpendenti divise per i propri gradi di liberta)

Alessandra Micheletti Biostatistica 2012

Distribuzioni campionarieRisultati su campioni normali

Test per il confronto di due varianze

Alcuni risultati su campioni normali

Sia X1, . . . ,Xn un campione i.i.d. per una v.a. X ∼ N(µ, σ2).Consideriamo la varianza campionaria S2

n−1 = 1n−1

∑ni=1(Xi − Xn)2.

Si dimostrano i seguenti teoremi:

Teorema (distribuzione di S2n−1 per campioni normali)

La statistica(n−1)S2

n−1

σ2 ha distribuzione χ2n−1

Teorema (indipendenza di Xn e S2n per campioni normali)

Le due statistiche Xn e S2n−1 sono indipendenti.

Alessandra Micheletti Biostatistica 2012

Distribuzioni campionarieRisultati su campioni normali

Test per il confronto di due varianze

Test per il confronto di due varianze

SianoX1, . . . ,Xn un campione i.i.d. per X ∼ N(µ1, σ

21)

Y1, . . . ,Ym un campione i.i.d. per Y ∼ N(µ2, σ22)

e i due campioni siano fra loro indipendenti.

Vogliamo verificare l’ipotesi

H0 : σ21 = σ2

2

controH1 : σ2

1 > σ22

Alessandra Micheletti Biostatistica 2012

Distribuzioni campionarieRisultati su campioni normali

Test per il confronto di due varianze

Notiamo che, poiche le varianze campionarie sono sempre positive, le dueipotesi precedenti sono equivalenti alle seguenti:

H0 :σ21

σ22

= 1

contro

H1 :σ21

σ22

> 1

Dato che S2n−1 e un buono stimatore della varianza, un criterio di scelta

fra le due ipotesi ragionevole sara

rigetto H0 se F : =S21

S22> c, con P(

S21

S22> c|H0 vera) = α

dove S21 e la varianza campionaria calcolata sulle Xi e S2

2 e la varianzacampionaria calcolata sulle Yi

( S21 = 1

n−1

∑ni=1(Xi − Xn)2, S2

2 = 1m−1

∑mi=1(Yi − Ym)2)

Alessandra Micheletti Biostatistica 2012

Distribuzioni campionarieRisultati su campioni normali

Test per il confronto di due varianze

Per il Teorema sulla distribuzione di S2n−1 per campioni normali,

(n−1)S21

σ21∼ χ2

n−1 e(m−1)S2

2

σ22∼ χ2

m−1

e sono fra loro indipendenti, dato che dipendono da campioni diversi eindipendenti fra loro.

Dunque, se H0 e vera, ossia σ21 = σ2

2 =: σ2

(n−1)S21

σ2(n−1)

(m−1)S22

σ2(m−1)

=S21

S22

= F ∼ Fn−1,m−1

Alessandra Micheletti Biostatistica 2012

Distribuzioni campionarieRisultati su campioni normali

Test per il confronto di due varianze

e il valore critico c in P(F > c|H0 vera) = α si determina invertendo lac.d.f. FF della Fn−1,m−1, ossia FF (c) = 1− α e c = F−1

F (1− α).

e rigetteremo H0 se F > c.

Alessandra Micheletti Biostatistica 2012

Distribuzioni campionarieRisultati su campioni normali

Test per il confronto di due varianze

p-value

I software spesso invece del valore critico forniscono il p-value relativo auna statistica.Sia f il valore assunto da F sui nostri dati, e sia F una variabile aleatoriaavente distribuzione Fn−1,m−1 (ossia la distribuzione che ha F sotto H0).Il p-value relativo a F e

p − value = P(F > f )

Alessandra Micheletti Biostatistica 2012

Distribuzioni campionarieRisultati su campioni normali

Test per il confronto di due varianze

Quindi il criteriorigetto H0 se F > c, con P(F > c|H0 vera) = αe equivalente al criteriorigetto H0 se p − value < α.

Definizione. In un test di ipotesi di livello di significativita α, il p-value eil piu piccolo valore di α che consente di rigettare H0.

Alessandra Micheletti Biostatistica 2012

Distribuzioni campionarieRisultati su campioni normali

Test per il confronto di due varianze

Se, sempre nelle stesse condizioni, vogliamo verificare le ipotesi

H0 : σ21 = σ2

2

H1 : σ21 < σ2

2

o equivalentemente,

H0 :σ21

σ22

= 1

H1 :σ21

σ22

< 1

possiamo ripetere il ragionamento precedente, con le disuguaglianzeinvertite e otterremo

Alessandra Micheletti Biostatistica 2012

Distribuzioni campionarieRisultati su campioni normali

Test per il confronto di due varianze

Criterio: rigetto H0 se F < c, con P(F < c|H0 vera) = αe il valore critico c e tale che FF (c) = α e c = F−1

F (α).

e rigetteremo H0 se F < c.

Alessandra Micheletti Biostatistica 2012

Distribuzioni campionarieRisultati su campioni normali

Test per il confronto di due varianze

Oppure, usando il p-value, che questa volta e dato da

p − value = P(F < f )

rigetto H0 se p − value < α

Alessandra Micheletti Biostatistica 2012

Distribuzioni campionarieRisultati su campioni normali

Test per il confronto di due varianze

ATTENZIONE: in qualunque test di ipotesi, per come e’ definito ilp-value, il criterio di scelta e SEMPRE

rigetto H0 se p − value < α

Per questo spesso i software statistici forniscono il p-value invece delvalore critico, poiche il criterio di confronto non cambia a seconda deltipo di test o del valore di α scelto dall’utente.

Excel fornisce sia il valore critico che il p-value.

Alessandra Micheletti Biostatistica 2012

Distribuzioni campionarieRisultati su campioni normali

Test per il confronto di due varianze

ESERCIZIO

Consideriamo il file il nostro dataset.xls.

Ordiniamo i dati per valori di squadra crescenti.

Confrontiamo le varianze della variabile ”larghezza della mano destra”(ricordiamoci che questa variabile era normale!) fra il gruppo A-L e ilgruppo M-Z, ossia verifichiamo

H0 : σ2A−L = σ2

M−Z

controH1 : σ2

A−L??σ2M−Z

che disuguaglianza metto al posto di ?? ?Utilizzare analisi dati → test F a due campioni per varianze

Alessandra Micheletti Biostatistica 2012

Confronto di medie fra campioni indipendenti

1 campione ),(~ 12

1 σμNindipendenti

nXX ,...,1

mYY ,...,1 2 campione ),(~ 22

2 σμNp

Vogliamo verificareVogliamo verificare

210

:

:

μμ

μμ

>

=

H

H o0:

0: 210

>−

=−

μμ

μμ

H

H

211 : μμ >H 0: 211 >− μμH

Caso 1: 2221 σσ =

Si dim. che la statistica21 XXT −

=

)11(2

)1()1( 22

21

1

mnmnSmSn

T+⋅

−+−+−

=

ha distribuzione sotto l’ipotesi2−+mnt 0H

Sotto l’ipotesi ,Caso 2: 22

21 σσ ≠ 0Hp ,

la statistica ha distribuzione , con

21

2221

2SS

XXT −=

0

rt

)(22

21

mS

nS

+

2222

222

21

11 ⎞⎛⎞⎛

⎟⎟⎠

⎞⎜⎜⎝

⎛+

=SS

mS

nS

r22

21

11

11

⎟⎟⎠

⎞⎜⎜⎝

⎛−

+⎟⎟⎠

⎞⎜⎜⎝

⎛− m

Smn

Sn

Criterio: rigetto se >c con P( >c| vera)=0H 0H α2

1

TT

2

1

TT

Test a una codaTest a una coda

Se invece vogliamo verificare

210

:

:

μμ

μμ

<

=

H

H o 210

:

:

μμ

μμ

<

H

H

211 : μμ <H 211 : μμ <H

useremo le statistiche di prima, ma il criterio di scelta sara’

Criterio: rigetto se <c con P( <c| vera)=0H 0H α2

1

TT

2

1

TT

2 2

Test a una coda

Se vogliamo verificare 210 : μμ =Hg

useremo le statistiche di prima ma il criterio di scelta sara’

211 : μμ ≠H

Criterio: rigetto se >c con P( >c| vera)=

useremo le statistiche di prima ma il criterio di scelta sara

0H 0H α|| 1T || 1TCriterio: rigetto se c con P( c| vera)0 0|| 2T || 2T

Test a due code

Se n e m>30 si puo’ applicare il Teorema del Limite Centrale e dimostrare che, QUALUNQUE SIA LA DISTRIBUZIONE DEI DUE CAMPIONI CONSIDERATI (ANCHE NON NORMALI) sia che sotto hanno distribuzione approssimativamente N(0,1).

2T1T 0Hpp ( , )

Il procedimento di ricerca dei valori critici sara’ quindi lo stesso di prima, ma si utilizzera’ la N(0,1) al posto della t-studentsi utilizzera la N(0,1) al posto della t student.

Anche per questi test e’ possibile utilizzare il p-value e confrontarlo con :αc e pe quest test e poss b e ut a e p va ue e co o ta o co :

Rigetto se p-value<0H α

211 : μμ >H 211 : μμ <H 211 : μμ ≠H

p-valuep va ue

t= valore di o 1T 2T

ESERCIZIO

Consideriamo ancora il nostro dataset.xls

Confrontiamo le medie della variabile larghezza della mano destra fra la squadra A-L e la squadra M-Z.

Usare ancora analisi dati Test t: due campioni assumendo uguale varianzaTest t: due campioni assumendo varianze diverse

Quale test devo usare per confrontare le medie?

ATTENZIONE: in un qualsiasi test di ipotesi, l’ipotesi nulla si assume vera a meno che non sia molto evidente che sia falsa.Quindi accettare H0 non significa che H0 sia vera, ma solo che NON E’ Q 0 g 0 ,EVIDENTE CHE SIA FALSA!

ESERCIZIO B

Consideriamo il file genomi_AM.xlsx(si trova linkato alla scritta istogrammi delle distribuzioni e ricerca(si trova linkato alla scritta istogrammi delle distribuzioni e ricerca di outliers su genomi.xls sulla mia pagina web)

Confrontare Uomo e Topo:Confrontare Uomo e Topo:

• La lunghezza media dei geni e’ significativamente diversa fra le due i ?specie?

• Il numero medio di esoni e’ significativamente diverso fra le due specie?

Quali test devo effettuare?

Usare ancora analisi dati