Distribuzioni campionarie Risultati su campioni normali ... · Distribuzioni campionarie Risultati...

Distribuzioni campionarieRisultati su campioni normali

Test per il confronto di due varianze

Distribuzioni campionarie

Le distribuzioni campionarie sono quelle che derivano dalla presenza dicampioni i.i.d. a distribuzione normale.

Definizione. Se X e una v.a. avente distribuzione N(0, 1), alloraY = X 2 ha distribuzione chi quadro con un grado di liberta (Y ∼ χ2

1)(ossia: la χ2

1 e la distribuzione del quadrato di una normale standard)

Definizione. Se Y1, . . . ,Yn e un campione di variabili indipendenti aventidistribuzione χ2

1, allora K = Y1 + · · ·+ Yn ha distribuzione chi quadrocon n gradi di liberta (K ∼ χ2

n)(ossia: la χ2

n e la distribuzione della somma di n χ21 indipendenti)

Alessandra Micheletti Biostatistica 2012



Definizione. Se X ∼ N(0, 1) e K ∼ χ2n sono fra loro indipendenti, allora

T =X√Kn

ha distribuzione t di student con n gradi di liberta (T ∼ tn).(Ossia: la tn e la distribuzione del rapporto fra una normale standard e laradice di una χ2

n divisa per i propri gradi di liberta, fra loro indipendenti)

Definizione. Se K1 ∼ χ2n e K2 ∼ χ2

m sono fra loro indipendenti, allora ilrapporto

F =K1/n

K2/m

ha distribuzione F di Fisher con n,m gradi di liberta (F ∼ Fn,m)(ossia: la F di Fisher e la distribuzione del rapporto fra due χ2

indpendenti divise per i propri gradi di liberta)




Alcuni risultati su campioni normali

Sia X1, . . . ,Xn un campione i.i.d. per una v.a. X ∼ N(µ, σ2).Consideriamo la varianza campionaria S2

n−1 = 1n−1

∑ni=1(Xi − Xn)2.

Si dimostrano i seguenti teoremi:

Teorema (distribuzione di S2n−1 per campioni normali)

La statistica(n−1)S2

n−1

σ2 ha distribuzione χ2n−1

Teorema (indipendenza di Xn e S2n per campioni normali)

Le due statistiche Xn e S2n−1 sono indipendenti.





SianoX1, . . . ,Xn un campione i.i.d. per X ∼ N(µ1, σ

21)

Y1, . . . ,Ym un campione i.i.d. per Y ∼ N(µ2, σ22)

e i due campioni siano fra loro indipendenti.

Vogliamo verificare l’ipotesi

H0 : σ21 = σ2

2

controH1 : σ2

1 > σ22




Notiamo che, poiche le varianze campionarie sono sempre positive, le dueipotesi precedenti sono equivalenti alle seguenti:

H0 :σ21

σ22

= 1

contro

H1 :σ21

σ22

> 1

Dato che S2n−1 e un buono stimatore della varianza, un criterio di scelta

fra le due ipotesi ragionevole sara

rigetto H0 se F : =S21

S22> c, con P(

S21

S22> c|H0 vera) = α

dove S21 e la varianza campionaria calcolata sulle Xi e S2

2 e la varianzacampionaria calcolata sulle Yi

( S21 = 1

n−1

∑ni=1(Xi − Xn)2, S2

2 = 1m−1

∑mi=1(Yi − Ym)2)




Per il Teorema sulla distribuzione di S2n−1 per campioni normali,

(n−1)S21

σ21∼ χ2

n−1 e(m−1)S2

2

σ22∼ χ2

m−1

e sono fra loro indipendenti, dato che dipendono da campioni diversi eindipendenti fra loro.

Dunque, se H0 e vera, ossia σ21 = σ2

2 =: σ2

(n−1)S21

σ2(n−1)

(m−1)S22

σ2(m−1)

=S21

S22

= F ∼ Fn−1,m−1




e il valore critico c in P(F > c|H0 vera) = α si determina invertendo lac.d.f. FF della Fn−1,m−1, ossia FF (c) = 1− α e c = F−1

F (1− α).

e rigetteremo H0 se F > c.




p-value

I software spesso invece del valore critico forniscono il p-value relativo auna statistica.Sia f il valore assunto da F sui nostri dati, e sia F una variabile aleatoriaavente distribuzione Fn−1,m−1 (ossia la distribuzione che ha F sotto H0).Il p-value relativo a F e

p − value = P(F > f )




Quindi il criteriorigetto H0 se F > c, con P(F > c|H0 vera) = αe equivalente al criteriorigetto H0 se p − value < α.

Definizione. In un test di ipotesi di livello di significativita α, il p-value eil piu piccolo valore di α che consente di rigettare H0.




Se, sempre nelle stesse condizioni, vogliamo verificare le ipotesi

H0 : σ21 = σ2

2

H1 : σ21 < σ2

2

o equivalentemente,

H0 :σ21

σ22

= 1

H1 :σ21

σ22

< 1

possiamo ripetere il ragionamento precedente, con le disuguaglianzeinvertite e otterremo




Criterio: rigetto H0 se F < c, con P(F < c|H0 vera) = αe il valore critico c e tale che FF (c) = α e c = F−1

F (α).

e rigetteremo H0 se F < c.




Oppure, usando il p-value, che questa volta e dato da

p − value = P(F < f )

rigetto H0 se p − value < α




ATTENZIONE: in qualunque test di ipotesi, per come e’ definito ilp-value, il criterio di scelta e SEMPRE

rigetto H0 se p − value < α

Per questo spesso i software statistici forniscono il p-value invece delvalore critico, poiche il criterio di confronto non cambia a seconda deltipo di test o del valore di α scelto dall’utente.

Excel fornisce sia il valore critico che il p-value.




ESERCIZIO

Consideriamo il file il nostro dataset.xls.

Ordiniamo i dati per valori di squadra crescenti.

Confrontiamo le varianze della variabile ”larghezza della mano destra”(ricordiamoci che questa variabile era normale!) fra il gruppo A-L e ilgruppo M-Z, ossia verifichiamo

H0 : σ2A−L = σ2

M−Z

controH1 : σ2

A−L??σ2M−Z

che disuguaglianza metto al posto di ?? ?Utilizzare analisi dati → test F a due campioni per varianze


Confronto di medie fra campioni indipendenti

1 campione ),(~ 12

1 σμNindipendenti

nXX ,...,1

mYY ,...,1 2 campione ),(~ 22

2 σμNp

Vogliamo verificareVogliamo verificare

210

:

:

μμ

μμ

>

=

H

H o0:

0: 210

>−

=−

μμ

μμ

H

H

211 : μμ >H 0: 211 >− μμH

Caso 1: 2221 σσ =

Si dim. che la statistica21 XXT −

=

)11(2

)1()1( 22

21

1

mnmnSmSn

T+⋅

−+−+−

=

ha distribuzione sotto l’ipotesi2−+mnt 0H

Sotto l’ipotesi ,Caso 2: 22

21 σσ ≠ 0Hp ,

la statistica ha distribuzione , con

21

2221

2SS

XXT −=

0

rt

)(22

21

mS

nS

+

2222

222

21

11 ⎞⎛⎞⎛

⎟⎟⎠

⎞⎜⎜⎝

⎛+

=SS

mS

nS

r22

21

11

11

⎟⎟⎠

⎞⎜⎜⎝

⎛−

+⎟⎟⎠

⎞⎜⎜⎝

⎛− m

Smn

Sn

Criterio: rigetto se >c con P( >c| vera)=0H 0H α2

1

TT

2

1

TT

Test a una codaTest a una coda

Se invece vogliamo verificare

210

:

:

μμ

μμ

<

=

H

H o 210

:

:

μμ

μμ

<

≥

H

H

211 : μμ <H 211 : μμ <H

useremo le statistiche di prima, ma il criterio di scelta sara’

Criterio: rigetto se <c con P( <c| vera)=0H 0H α2

1

TT

2

1

TT

2 2

Test a una coda

Se vogliamo verificare 210 : μμ =Hg

useremo le statistiche di prima ma il criterio di scelta sara’

211 : μμ ≠H

Criterio: rigetto se >c con P( >c| vera)=

useremo le statistiche di prima ma il criterio di scelta sara

0H 0H α|| 1T || 1TCriterio: rigetto se c con P( c| vera)0 0|| 2T || 2T

Test a due code

Se n e m>30 si puo’ applicare il Teorema del Limite Centrale e dimostrare che, QUALUNQUE SIA LA DISTRIBUZIONE DEI DUE CAMPIONI CONSIDERATI (ANCHE NON NORMALI) sia che sotto hanno distribuzione approssimativamente N(0,1).

2T1T 0Hpp ( , )

Il procedimento di ricerca dei valori critici sara’ quindi lo stesso di prima, ma si utilizzera’ la N(0,1) al posto della t-studentsi utilizzera la N(0,1) al posto della t student.

Anche per questi test e’ possibile utilizzare il p-value e confrontarlo con :αc e pe quest test e poss b e ut a e p va ue e co o ta o co :

Rigetto se p-value<0H α

211 : μμ >H 211 : μμ <H 211 : μμ ≠H

p-valuep va ue

t= valore di o 1T 2T

ESERCIZIO

Consideriamo ancora il nostro dataset.xls

Confrontiamo le medie della variabile larghezza della mano destra fra la squadra A-L e la squadra M-Z.

Usare ancora analisi dati Test t: due campioni assumendo uguale varianzaTest t: due campioni assumendo varianze diverse

Quale test devo usare per confrontare le medie?

ATTENZIONE: in un qualsiasi test di ipotesi, l’ipotesi nulla si assume vera a meno che non sia molto evidente che sia falsa.Quindi accettare H0 non significa che H0 sia vera, ma solo che NON E’ Q 0 g 0 ,EVIDENTE CHE SIA FALSA!

ESERCIZIO B

Consideriamo il file genomi_AM.xlsx(si trova linkato alla scritta istogrammi delle distribuzioni e ricerca(si trova linkato alla scritta istogrammi delle distribuzioni e ricerca di outliers su genomi.xls sulla mia pagina web)

Confrontare Uomo e Topo:Confrontare Uomo e Topo:

• La lunghezza media dei geni e’ significativamente diversa fra le due i ?specie?

• Il numero medio di esoni e’ significativamente diverso fra le due specie?

Quali test devo effettuare?

Usare ancora analisi dati

Distribuzioni campionarie Risultati su campioni normali ... · Distribuzioni campionarie Risultati...

Documents

Transcript of Distribuzioni campionarie Risultati su campioni normali ... · Distribuzioni campionarie Risultati...