STATISTICA 1 –parte 2/2 Un test statistico è una regola di...

37
STATISTICA 1 –parte 2/2 Un test statistico è una regola di decisione Effettuare un test statistico significa verificare IPOTESI sui parametri. STATISTICA INFERENZIALE STIMA PER INTERVALLI STIMA PUNTUALE TEST PARAMETRICI TEST NON PARAMETRICI ESEMPI La durata in ore di una lampadina si può modellare con una legge X~N(μ,σ 2 ). Se la media μ è incognita si può fare un test per capire, ad esempio, se μ>1000 ore, cioè se la media della durata di una lampadina supera le 1000 ore. Se X e Y sono variabili aleatorie si può effettuare un test per verificare se sono o no indipendenti. Cosa è necessario per poter effettuare un test ? Si devono: formulare delle IPOTESI 0 1 : : H ipotesi principale o nulla H ipotesi alternativa Si deve stabilire il livello del test. Si utilizzano i dati del campione per stabilire se si accetta o non si accetta l’ipotesi H 0

Transcript of STATISTICA 1 –parte 2/2 Un test statistico è una regola di...

STATISTICA 1 –parte 2/2

Un test statistico è una regola di decisione

Effettuare un test statistico significa verificare IPOTESI sui parametri.

STATISTICA INFERENZIALE

STIMA PER INTERVALLI STIMA PUNTUALE

TEST PARAMETRICI TEST NON PARAMETRICI

ESEMPI

• La durata in ore di una lampadina si può modellare con una legge X~N(µ,σ2). Se la media µ è

incognita si può fare un test per capire, ad esempio, se µ>1000 ore, cioè se la media della durata di una lampadina supera le 1000 ore.

• Se X e Y sono variabili aleatorie si può effettuare un test per verificare se sono o no indipendenti.

Cosa è necessario per poter effettuare un test ?

Si devono:

formulare delle IPOTESI 0

1

: :

H ipotesi principale o nullaH ipotesi alternativa

⎧⎨⎩

Si deve stabilire il livello del test.

Si utilizzano i dati del campione per stabilire se si accetta o non si accetta l’ipotesi H0

TEST PARAMETRICI (media, varianza e proporzione) Supponiamo, ad esempio, che il tempo di vita di una lampadina segua una legge normale di media sconosciuta e varianza uguale a 125 ore (X la v.a. che modella questo fenomeno). Si vuole verificare l’ipotesi che il tempo medio di vita (durata) di quel tipo di lampadina è di 1400 ore. Per poter effettuare questa verifica si hanno a disposizione i dati relativi ad un campione di n=5 lampadine. I valori della durata (in ore) delle lampadine del campione sono :

Lampadina 1 X1

Lampadina 2 X2

Lampadina 3 X3

Lampadina 4 X4

Lampadina 5 X5

1410 1380 1420 1420 1430 Poichè quel tipo di lampadina ha legge N(µ,125),la durata di ogni lampadina, é rappresentata dalle variabili aleatorie Xi ,i=1,2,3,4,5 ciascune di legge N(µ,125). Con questi dati abbiamo visto che è possibile :

Determinare uno stimatore e una stima per µ. Determinare un intervallo di confidenza per µ e una sua realizzazione.

Attraverso i test parametrici ( la media è un parametro) si vuole stabilire se sia “ragionevole” pensare che il tempo media di vita (durata) sia di 1400 ore.

La regola di decisione che lega il campione al parametro su cui si vuole eseguire il test si chiama STATISTICA TEST.

Lo stimatore della media è : 1 5( ,..., )T X X X= 5 la cui legge è ( )125, ,5

N Nµ µ⎛ ⎞ =⎜ ⎟⎝ ⎠

5 .

5

1410 1380 1420 1420 1430 14125

x + + + += = è una stima di µ.

Si decide di accettare l’ipotesi µ=1400 se 5x non è troppo lontano da 1400, cioè se è piccola la differenza fra 5x e 1400.

- 2 -

Si supponga ore l’ipotesi H0 vera. In questo caso si suppone che il valore di µ sia 1400 e quindi la statistica T ha legge N(1400,25), inoltre 5x è il valore che assume T relativamente al campione di 5 lampadine. Il grafico della legge di T è riportato sotto

Per essere considerato “vicino” a 1400, 5x deve appartenere ad un intervallo [a,b] tale che

5( [ , ]) 1-P x a b α∈ = , con il valore 1-α scelto da chi effettua il test. Anche in questo caso il valore dell’area di ciascuna delle due zone evidenziate è α/2 .

- 3 -

Si procede poi nel modo seguente per effettuare un test a livello α :

5

5

[ , ] ' 0 [ , ] ' 0

Se x a b si accetta l ipotesi HSe x a b si rifiuta l ipotesi H

(- , ) ( , ) viene detta REGIONE DI RIFIUTOR a b= ∞ ∪ +∞

Che cosa rappresenta il valore di α ? Se il valore 5x ∈ R, cioè se la media dei valori dei dati del campione appartiene alla regione di rifiuto, si decide di rifiutare l’ipotesi H0 anche se, come supposto all’inizio, l’ipotesi è vera.

5

0 0

La probabilita' che vale .Il valore [ / ] è detto

x RP rifiutare H H vera ERRORE DI PRIMA SPECIE

αα

∈=

Nel caso preso in esame si ha che :

5 1412x = si può, ad esempio, fissare il livello del test al 10% = 0.10.

Si vogliono determinare i valori a e b tali che :

[ ] 1400 1400 0.905 5

a bP a T b P Z− −⎡ ⎤≤ ≤ = ≤ ≤ =⎢ ⎥⎣ ⎦

Se Z~N(0,1) dalle tavole si ottiene :

P(-1.64 ≤ Z ≤ 1.64) = 0.90.

- 4 -

Quindi :

1400 1.64 ( 1.64*5) 1400 1391.851400 1.64 (1.64*5) 1400 1408.25

( ,1391.8) (1408.2, )

−⎧ = − ⇒ = − + =⎪⎪⎨ −⎪ = ⇒ = + =⎪⎩

= −∞ ∪ +∞

a a

b a

R

Se la media dei dati campionari appartiene all’intervallo ( ,1391.8) (1408.2, )= −∞ ∪ +∞R , si rifiuta l’ipotesi H0.

5x 141= 2∈R, quindi si rifiuta l’ipotesi H0 che la media del tempo di vita di questo tipo di lampadina sia uguale a 1400 .

- 5 -

Il test eseguito prima è un CASO PARTICOLARE di una serie di test sui parametri di una distribuzione normale. La tabella seguente riporta i tre possibili tipi di test per la media

0

1 0

::

HH

0µ µµ µ=⎧

⎨ ≠⎩ test BILATERALE

0

1 0

::

HH

0µ µµ µ=⎧

⎨ >⎩ test UNILATERALE DESTRO

0

1 0

::

HH

0µ µµ µ=⎧

⎨ <⎩ test UNILATERALE SINISTRO

TEST BILATERALE SULLA MEDIA ( X di legge normale con varianza nota) Nel caso di test bilaterale le ipotesi sono :

0 0

1 0

::

HH

µ µµ µ=⎧

⎨ ≠⎩

e la regione di rifiuto è : (- , ) ( , ).R a b= ∞ +∞ ESEMPIO Si consideri un campione di taglia ( numerosita’) n=25 estratto da una popolazione di legge N(µ,100). Si vuole effettuare un test sulla media a livello 5%. Il valore della media del campione vale

5 20.5x = . In questo caso le ipotesi sono :

0

1 0

: 20: 20

HH

µµ=⎧

⎨ ≠⎩

La statistica test è

1 2 25... 100,25 25

X X XT N µ+ + + ⎛ ⎞= ∼ ⎜ ⎟⎝ ⎠

.

Se l’ipotesi H0 è vera si ha che T~N(20,4).

- 6 -

Per determinare la regione di rifiuto R si devono determinare due valori a e b tali che P(a ≤ T ≤ b) = 0.95, cioè facendo i conti :

20 20 20 20 0.95

2 24 4a b a bP Z P Z− − − −⎛ ⎞ ⎛ ⎞≤ ≤ = ≤ ≤ =⎜ ⎟⎜ ⎟ ⎝ ⎠⎝ ⎠

Dalle tavole della legge N(0,1) si ottiene che :

20 1.96220 1.96

2

a

b

−⎧ = −⎪⎪⎨ −⎪ =⎪⎩

quindi 20 1.96*220 1.96*2

ab= −⎧

⎨ = +⎩

16.0823.92

ab=⎧

⎨ =⎩

- 7 -

Quindi essendo R= (-∞,16.08)∪(23.92,+ ∞) (area evidenziata nella figura sopra) si ha che

5 20.5x = ∉ R e quindi si accetta l’ipotesi H0.

Si osservi che l’ipotesi H0 viene accettata quando il valore di 5x è compreso nell’intervallo [16.08 , 23.92].

TEST UNILATERALE DESTRO SULLA MEDIA (X di legge normale con varianza nota)

. Nel caso di test unilaterale destro le ipotesi sono :

0 0

1 0

::

HH

µ µµ µ=⎧

⎨ >⎩

La regione di rifiuto è del tipo R=(c,+ ∞). ESEMPIO Si consideri un campione di taglia ( numerosita’) n=25 estratto da una popolazione di legge N(µ,100). Si vuole effettuare un test sulla media a livello 5%. Il valore della media del campione vale 5 20.5x = . In questo caso le ipotesi sono :

0

1

: 2: 2

HH

µµ

00

=⎧⎨ >⎩

La statistica test è 1 2 25... 100,25 25

X X XT N µ+ + + ⎛ ⎞= ∼ ⎜ ⎟⎝ ⎠

.

Se l’ipotesi H0 è vera si ha che T~N(20,4). Per determinare la regione di rifiuto R si deve determinare un valore c tale che P(T ≤ c) = 0.95, cioè facendo i conti :

20 20 0.95

24c cP Z P Z− −⎛ ⎞ ⎛ ⎞≤ = ≤ =⎜ ⎟⎜ ⎟ ⎝ ⎠⎝ ⎠

Utilizzando le tavole si ha che : 20 1.652

c −= e quindi c = 23.3 e R=(23.3,+∞).

Essendo 5 20.5x = si accetta l’ipotesi principale (nulla).

- 8 -

Osservando la figura riportata sotto si osserva che viene accettata l’ipotesi principale 0 : 2H 0µ =

quando il valore di 5x non supera 23.3.

TEST UNILATERALE SINISTRO SULLA MEDIA (X di legge normale con varianza nota)

. Nel caso di test unilaterale destro le ipotesi sono :

0 0

1 0

::

HH

µ µµ µ=⎧

⎨ <⎩

La regione di rifiuto è del tipo R=(- ∞,d). ESEMPIO Si consideri un campione di taglia ( numerosita’) n=25 estratto da una popolazione di legge N(µ,100). Si vuole effettuare un test sulla media a livello 5%. Il valore della media del campione vale 5 19.5x = . In questo caso le ipotesi sono :

0

1

: 2: 2

HH

µµ

00

=⎧⎨ <⎩

La statistica test 1 2 25... 100 ha legge ,25 25

µ+ + + ⎛ ⎞= ⎜ ⎟⎝ ⎠

X X XT N .

Se l’ipotesi H0 è vera si ha che T~N(20,4).

- 9 -

Per determinare la regione di rifiuto R si deve determinare un valore c tale che P(T ≥ c) = 0.95, cioè facendo i conti :

20 20 0.95

24d dP Z P Z− −⎛ ⎞ ⎛ ⎞≥ = ≥ =⎜ ⎟⎜ ⎟ ⎝ ⎠⎝ ⎠

e quindi 20 0.054

dP Z −⎛ ⎞≤ =⎜ ⎟⎝ ⎠

Utilizzando le tavole si ha che : 20 1.652

d −= − e quindi d = 16.7 e R=(-∞ , 16.7).

Essendo 5 20.5x = si accetta l’ipotesi principale (nulla). Osservando la figura riportata sotto si osserva che viene accettata l’ipotesi principale 0 : 2H 0µ =

quando il valore di 5x è superiore a 16.7.

- 10 -

Regola di Decisione

• Un tteesstt ssttaattiissttiiccoo é una statistica calcolata sui dati del campione. Il valore del test é usato per

decidere se rifiutare o no l’ipotesi nulla • La rreeggoollaa ddii ddeecciissiioonnee é una regola che specifica le condizioni sotto le quali l’ipotesi nulla puó essere

rifiutata.

Errori nei test Una decisione puó essere sbagliata in due modi :

Errore di tipo I: Rifiutare H0 quando é vera

• La probabilita’ dell’errore di tipo I é denotatata con α. • α é chiamato livello di significativita’ del test

Err ore di tipo II: Non rifiutare H0 quando é falsa

• La probabilita’ dell’errore di tipo II é denotatata con β.

La tabella illustra i possibili errori in un test statistico.

- 11 -

Potenza del test (solo nel caso di ipotesi semplice)

La potenza di un test statistico (si indica con π) é “ la probabilita’ di prendere la decisione giusta”, cioé la probabilita’ di rifiutare l’ipotesi nulla quando e’ falsa.

π = 1-β = P(rifiutare H0/ H0 falsa)

Gli esempi riguarderanno solo il caso di ipotesi semplici. ESEMPIO La popolazione ha legge Normale di media µ e varianza nota : X~N(µ, σ2). Le ipotesi del test sono :

0

1

: 5: 7

HH

µµ=⎧

⎨ =⎩

00

il livello del test vale 5% e si ha che 2

10nσ

= .

Il test è unilaterale destro e quindi la regione di rifiuto R vale :

( ) (2

0 1 , = 50 1.65*10,+ 66.5,+R znασµ −

⎛ ⎞= + +∞ + ∞ = ∞⎜ ⎟⎜ ⎟⎝ ⎠

)

Calcolo della potenza del Test. Sotto l’ipotesi H1 la statistica 2~ (70,10 )nT X N= e la potenza vale :

( ) ( )( )

20 0/ ~ (70,10 ) 66.5

66.5 70~ (0,1) 0.35 0.63710

P rifiutare H H falsa P Y N

P Z N P Z

Π = = > =

−⎛ ⎞> = > ≅⎜ ⎟⎝ ⎠

L’errore di II specie β vale 1-л=0.363.

- 12 -

TEST BILATERALE SULLA MEDIA ( X di legge normale con varianza sconosciuta )

Nel caso in cui la popolazione X da cui viene estratto il campione abbia sia la media che la varianza sconosciuta si procede nel modo seguente :

• X stima la media µ • S2 stima la varianza σ2

Le ipotesi del test sono del tipo:

0 0

1 0

::

HH

µ µµ µ=⎧

⎨ ≠⎩

Se H0 è vera, la variabile aleatoria

10

/nXT t

S nµ −−= ∼

T ha legge t di Student con n-1 gradi di libertá. In questo caso si ha :

P( X ∉( -δ, +δ))= α 0µ 0µ Quindi : P( X ∉( -δ, +δ)) = P(-∞ , -δ) ∪ ( +δ,+0µ 0µ 0µ 0µ ∞ ) = P(| X - | > δ) = 0µ

= 0| |/ /

XPS n S nµ δ⎛ ⎞− ⎟⎜ ⎟>⎜ ⎟⎜ ⎟⎜⎝ ⎠

Poiché T = 0

/XS nµ−

ha legge t di Student con n-1 gradi di libertá :

0| |/ /

XPS n S nµ δ⎛ ⎞− ⎟⎜ ⎟>⎜ ⎟⎜ ⎟⎜⎝ ⎠

= | |/

P TS nδ⎛ ⎞⎟⎜ > ⎟⎜ ⎟⎟⎜⎝ ⎠

= α

- 13 -

e quindi la regione di rifiuto per il test sulla media a livello α è:

R = 1 1

0 02 2

, ,n nS St tn nα αµ µ− −

⎛ ⎞ ⎛⎟ ⎟⎜ ⎜⎟ ⎟−∞ − ∪ + +∞⎞

⎟ ⎟⎟ ⎟⎝ ⎠ ⎝ ⎠⎜ ⎜⎜ ⎜⎜ ⎜

ESEMPIO Sia X1,X2,...,X16 un campione estratto da una popolazione di legge normale di media e varianza sconosciute.

0 0

1 0

::

HH

µ µµ µ=⎧

⎨ ≠⎩ .

Si deve determinare il valore di δ tale che | | 0.05/ 16

P TS

δ⎛ ⎞⎟⎜ > =⎟⎜ ⎟⎟⎜⎝ ⎠ oppure

| | 0.1/ 16

P TS

δ⎛ ⎞⎟⎜ < =⎟⎜ ⎟⎟⎜⎝ ⎠. La legge di T é t15, cioé t di Student con 15 gradi di libertá.

150.05 2.13

/ 16t

Sδ = = quindi δ = 2.13

3S .

La regione di rifiuto è quindi :

R= 0 0, 2.13 2.13 ,S Sn n

µ µ⎛ ⎞ ⎛−∞ − + +∞⎜ ⎟ ⎜⎝ ⎠ ⎝

∪ ⎞⎟⎠

A questo punto, la conclusione del test dipende dal valore osservato x della variabile media campionaria X . Se x appartiene ad R, si rifiuta e si sceglie , altrimenti si accetta . 0H 1H 0H In modo simile si procede per i test di tipo unilaterale (destro o sinistro)

0 0

1 0

::

HH

µ µµ µ=⎧

⎨ ≠⎩

- 14 -

Test sulla media per grandi campioni

Il teorema del limite centrale (TLC) afferma che se

• 1 2, ,..., nX X X sono variabili aleatorie indipendenti (un campione)

• E(Xi)=µ, i=1,2,...,n

• VAR(Xi)=σ2, i=1,2,...,n allora

~ (0,1/nX Z N

σ−

→ )

)

Questo teorema significa che per n grande (>30):

• La distribuzione t di Student può essere approssimata con la legge normale standard Z~N(0,1).

1( ) (nP T t P Z zα α−> = >

• Si possono fare test sulla media e sulla varianza anche se le popolazioni di provenienza dei campioni non ha legge Normale.

ESEMPIO I dati relativi ad un campione di numerosità 100 si ha che la media campionaria vale 300 e la varianza campionaria 25. Si vuole testare a livello 5%:

. S

otto HO la statistica test vale

La regione di rifiuto R vale

( ) ( )

0 0 0

0

5 5, 1.96 1.96 , , 270 1.96 270 1.96 ,100 100

( , 269 271,

300 rifiuto

S SRn n

x R H

µ µ µ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛= −∞ − + +∞ = −∞ − + + +∞ =⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝

≅ −∞ +∞

= ∈ →

∪ ∪

⎞⎟⎠

00

0 270 ~ (99) (0,1)/ 5 / 100

X XT tS n

µ− −= = → N0

1

: 27: 27

HH

µµ=⎧

⎨ ≠⎩

[ ]

12

990 0 1

2 2

0.975

270 2700.05 / 5 /10 5 /10

1.96

X XP rifiutare H H vera P t P Z

con Z Zα

α α

⎡ ⎤ ⎡ ⎤− −= = > = >⎢ ⎥ ⎢ ⎥

⎣ ⎦ ⎣ ⎦= =

- 15 -

Test per la frequenza di una variabile di Bernoulli Se la popolazione ha legge di Bernoulli, cioè X~B(p), con p sconosciuto si vuole costruire test di ipotesi sul parametro p . Se X~B(p), si ha che

( 1)( 0) (1

P X pP X p p

= =⎧⎨ )= = −⎩

E(X)=p e VAR(X)=p(1-p).

Se X1,X2,...,Xn è un campione estratto da X lo stimatore di p vale :

1 2 ...ˆ nX X Xpn

+ + +=

Le ipotesi del test saranno del tipo:

0 0

1 0

::

H p pH p p

=⎧⎨ ≠⎩

Se la numerosita’ campionaria n è abbastanza grande si può utilizzare il Teorema del Limite Centrale per approssimare la distribuzione della statistica test: sotto l’ipotesi nulla, si approssima quindi

0 00

(1- )ˆ ~ , p pp con Z N pn

⎛ ⎞⎜ ⎟⎝ ⎠

.

La varianza sotto H0 vale:

( )20 0

1 (1 )ps p pn

= −

Attenzione: nel caso degli intervalli di confidenza il denominatore era (n-1).

La regione di rifiuto sarà, quindi:

R=0 0 0 0

0 01 12 2

(1 ) (1 ), ,p p p pp Z p Zn nα α

− −

⎛ ⎞ ⎛− −−∞ − + +∞⎜ ⎟ ⎜⎜ ⎟ ⎜⎝ ⎠ ⎝

∪⎞⎟⎟⎠

- 16 -

Test bilaterali per la varianza da popolazione di legge Normale

Sia X una popolazione di legge Normale di media e varianza sconosciute . Si vuole costruire un test di ipotesi per la varianza a livello α. Quindi le ipotesi saranno del tipo:

2 20 0

2 21 0

::

HH

σ σσ σ

⎧ =⎨

≠⎩

Se l’ipotesi H0 è vera, la variabile aleatoria 2

20

( 1)S nCσ−

= ha legge chi-quadro con (n-1) gradi di

liberta’. Di seguito è riportato il grafico della distribuzione chi-quadro al variare di n.

chi quadro con n=2 gradi di liberta’

chi quadro con n=3 gradi di liberta’

chi quadro con n=5 gradi di liberta’

chi quadro con n=10 gradi di liberta’

- 17 -

Costruzione del test . Si devono determinare due valori C1 e C2 tali che

P( C1 ≤ C ≤ C2 ) = 1-α

2

21 - 02 2

( 1)P( C1 C C2 ) = P C 1α α ασ

⎛ ⎞−≤ ≤ ≤ ≤ = −⎜ ⎟

⎝ ⎠

S n C

dove , per esempio con α=0.10

2 20.95 , 11 1

2 22 20.05 , 1 , 1

2 2

α α

α α

χ χ

χ χ

− , 1− − −

−−

= =

= =

n n

n n

C

C

Quindi la regione di rifiuto sarà:

R =

2 2 2 20 01 , 1 , 1

2 20, ,( 1) ( 1)

α αχ σ χ σ− − −

⎛ ⎞ ⎛⎜ ⎟ ⎜

⎞⎟+∞⎜ ⎟ ⎜− −⎜ ⎟ ⎜

⎝ ⎠ ⎝

∪n n

n n ⎟⎟⎠

- 18 -

Se la media µ è nota, la regione di rifiuto è:

R =

2 2 2 20 01 , 1 , 1

2 20, ,α αχ σ χ σ

− − −⎛ ⎞ ⎛⎜ ⎟ ⎜

⎞⎟+∞⎜ ⎟ ⎜

⎜ ⎟ ⎜⎝ ⎠ ⎝

∪n n

n n ⎟⎟⎠

ESEMPIO Sia X1,X2,..,X15 un campione estratto da una popolazione di legge X~N(µ,σ2) con la media µ sconosciuta. Se si vuole effettuare un test sulla varianza a livello 10% con le ipotesi

2 20 0

2 21 0

::

HH

σ σσ σ

⎧ =⎨

≠⎩

si ha che la regione di rifiuto è:

R = 2 2 2 20.95,14 0 0.05,14 00, ,

14 14χ σ χ σ⎛ ⎞ ⎛ ⎞

+∞⎜ ⎟ ⎜⎜ ⎟ ⎜⎝ ⎠ ⎝

∪ ⎟⎟⎠

Dalle tavole si ricava che :

20.95 ,14

20.05 ,14

6.751

23.685

χ

χ

=

=

e quindi la regione di rifiuto è:

2 20 023.685 6.7510, ,

14 14R σ σ⎛ ⎞ ⎛∗ ∗= +⎜ ⎟ ⎜⎝ ⎠ ⎝

∪⎞

∞⎟⎠

Se è noto il valore di S2 relativo al campione ( si indica con s2) si può determinare la decisione, a

seconda che tale valore appartenga o meno alla regione di rifiuto.

- 19 -

Test unilaterali per la varianza da popolazione di legge Normale

SUPERIORE

2 20 0

2 21 0

::

HH

σ σσ σ

⎧ =⎨

>⎩

2 2

, 1 0 ,( 1)αχ σ−⎛ ⎞

= +⎜ ⎟⎜ ⎟−⎝ ⎠

nRn

21 , 1nαχ − −

INFERIORE

2 20 0

2 21 0

::

HH

σ σσ σ

⎧ =⎨

<⎩

2 21 , 1 00,( 1)αχ σ− −⎛ ⎞

= ⎜ ⎟⎜ ⎟−⎝ ⎠

nRn

2

1 , 1nαχ − −

- 20 -

Il test per la differenza di medie per popolazioni di legge Normale

Si distinguono due casi : a) Sugli stessi individui viene rilevata una grandezza in tempi diversi (dati appaiati). b) Si rileva la stessa grandezza su individui apparteneneti a popolazioni diverse e indipendenti.

Caso a:

1 1 1 . . .. . .. . .. n n

individuo X Y

individuo n X Y

Caso b:

1

1

1 . .

1 . .. ..

1 .

n

individuo X

POPOLAZIONE

individuo n X

ndividuo Y

i

⎧⎪⎪⎪⎨⎪⎪⎪⎩

. . . 2. .. m

POPOLAZIONE

individuo m Y

⎫⎪⎪⎪⎬⎪⎪⎪⎭

a. Il test di differenza di medie per dati appaiati Un caso particolare del test sulla differenza di media è quello relativo ai dati appaiati, cioè quando vengono rilevati i dati riferiti allo stesso campione,ad esempio, in tempi diversi, con differenti strumenti, ecc. Esempi tipici di applicazione di questo test sono le rilevazioni di parametri fisiologici prima e dopo la somministrazione di un farmaco. I dati da esaminare avranno quindi la forma :

obs X Y 1 X1 Y12 X2 Y2.... .... ... n Xn Yn

Si suppongono X e Y di legge normale N(µX,σ1) e N(µY,σ2) Un problema che si deve risolvere molte volte é quello di stabilire se le mediedi X e Y , µX e µY sono uguali oppure no. Risolvere questo problema equivale ad effettuare un test per verificare l’ipotesi principale

- 21 -

H0: µX -µY =0 Contro una delle tre ipotesi altenative:

test unilaterale sinistro Test bilaterale Test unilaterale destro H1: µX - µY < 0 H1: µX - µY ≠ 0 H1: µX - µY > 0

Per effettuare il test :

Si deve costruire una nuova variabile D=X-Y come riportato in tabella

obs X Y D 1 X1 Y1 D1=X1 -Y12 X2 Y2 D2=X2 -Y2... ... ... ... n Xn Yn Dn=Xn -Yn

Essendo X e Y variabili aleatorie di legge normale, anche D ha legge normale

N(µD,σD)

- 22 -

Sotto l’ipotesi principale la statistica test T vale

/D

DTS n

=

ed ha legge t di Student con (n-1) gradi di libertà.

La regione di rifiuto è:

• nel caso bilaterale

2 2

, ,R t tα α

⎛ ⎞ ⎛ ⎞= −∞ − +∞⎜ ⎟ ⎜⎝ ⎠ ⎝

∪ ⎟⎠

• nel caso unilaterale destro ( ),R tα= −∞ −

• nel caso unilaterale sinistro ( ),R tα= +∞

ESEMPIO X e Y sono due variabili quantitative rilevate su un campione di n=16 persone in due tempi diversi (prima e dopo). Si effettua un test per verificare che non ci sono state variazioni in media.

N Prima Dopo D 1 334 405 71 2 150 125 -25 3 520 540 20 4 95 100 5 5 212 200 -12 6 30 30 0 7 1055 1200 145 8 300 265 -35 9 85 90 5 10 129 206 77 11 40 18 -22 12 440 489 49 13 610 590 -20 14 208 310 102 15 880 995 115 16 25 75 50

0

1

: 0: 0

H DH D

=⎧⎨ >⎩

1.7t = 150.05 53

df = (n-1) = (16-1) = 15

032.81 16 2.354 , quindi si rifiuta .55.75

D

D nt RS

= = = ∈ H

- 23 -

b. Il test di differenza di medie per popolazioni indipendenti di legge Normale

Consideriamo due campioni estratti da due popolazioni indipendenti di legge normale:

Il primo campione X1,X2,...,Xn di numerositá n con distribuzione Normale N(µX,σX); Il secondo campione Y1,Y2,...,Ym di numerositá m con distribuzione Normale N(µY,σY).

Un problema che si deve risolvere molte volte é quello di stabilire se le due medie µX e µY sono uguali oppure no. Risolvere questo problema equivale ad effettuare un test per verificare l’ipotesi principale

H0: µX = µY Contro una delle tre ipotesi altenative:

test unilaterale sinistro Test bilaterale Test unilaterale destro H1: µX < µY H1: µX ≠ µY H1: µX > µY

Siccome nX é uno stimatore di µX , mY uno stimatore di µY , segue che n mX Y− può essere usato per stimare µX - µY. Per effettuare questo test si considera quindi la variabile aleatoria

n mD X Y= − Se le varianze 2 e 2

X Yσ σ sono note, lo scarto quadratico medio di D vale :

- 24 -

2 2X Y

D n mσ σσ = +

Se l’ipotesi principale é vera, questo equivale ad assumere che µX = µY e quindi la statistica test T vale :

n m

T

X YTσ−

=

ed ha distribuzione Normale standard. La regione di rifiuto è, nel caso bilaterale,

1 12 2

, ,R z zα α− −

⎛ ⎞ ⎛ ⎞= −∞ − +∞⎜ ⎟ ⎜⎝ ⎠ ⎝

∪ ⎟⎠

2

Se le varianze 2 e X Yσ σ non sono note ma si può supporre che siano uguali, allora si usano gli usuali stimatori della varianza 2 e 2

X YS S e lo stimatore di DS Dσ assume la forma :

2 2( 1) ( 1)2

X YD

n S m S n mSn m nm

− + − +⎛ ⎞= ⎜ ⎟+ − ⎝ ⎠

Se l’ipotesi principale é vera, questo equivale ad assumere che µX = µY e quindi la statistica test

n m

D

X YTS−

=

ha distribuzione t di Student con (n+m-2) gradi di libertà e la regione di rifiuto, nel caso bilaterale, vale:

2 2

, ,R t tα α

⎛ ⎞ ⎛ ⎞= −∞ − +∞⎜ ⎟ ⎜⎝ ⎠ ⎝

∪ ⎟⎠

- 25 -

ESEMPIO 1 I possessori di American Express Gold Card hanno un utilizzo mensile (in euro) maggiore degli utilizzatori di Visa?

1

1

1

Popolazione 1: Visan =1200x = 452

= 212σ

2

2

2

Popolazione 2: Gold Cardn =800x = 523

= 185σ

H : 00 1 2H : 01 1 2

( ) ( ) (452 523) 0 71 711 2 1 2 0 7.9268.962 2 2 2 80.2346212 1851 2

1200 8001 2

p-value: p(z<-7.926) 0

H si deve rifiutare0

x xz

n n

µ µ

µ µ

µ µ

σ σ

⎧⎪⎨⎪⎩

=

− =

− ≠

− − − − − − −= = =

++

= −

Poiche’ il valore della statistica test e’ nella regione di rifiuto,l’ipotesi nulla può essere rifiutata .Si conclude che c’e’ una differenza statisticamente significativa fra l’utilizzo mensilefra i possessori di Gold Card e Visa.

- 26 -

ESEMPIO 2 Si rilevano i tempi di vita di due tipi A e B di lampadine, ottenendo i seguenti risultati. I tempi di vita medi possono essere considerati uguali?

1

1

1

Popolazione 1: Lampadine di tipo An =10x = 10.3

= 2.3s

2

2

2

Popolazione 2: Lampadine di tipo Bn = 8x = 13.1

= 1.7s

( ) ( )

2 2 2 21 1 2 2 1 2 1 2

1 2 1 2

3.409 7 18

2 16 80

:1%, 2.92 2.92,

H : 00 1 2H : 01 1 2

( ) ( ) (10.3 13.1) 2.81 2 1 2 00.677

:

H si deve rifiutare0

n s n s n n s sn n n n

LIVELLO

x xz

REGIONE DI RIFIUTO

µ µ

µ µ

µ µ

⎧⎪⎨⎪⎩

=+ + +

+ −

−∞ − ∪ +∞

− =

− ≠

− − − − −= =ii i

= −

- 27 -

Test chi-quadrato di indipendenza X e Y sono due variabili QUALITATIVE e si vuole verificare se sono indipendenti. La definizione di indipendenza nel caso di variabili qualitative e’ la seguente:

[ , ] [ ] [ i j iP X x Y y P X x P Y y= = = = = ]j

j

j

, per ogni valore di i e j Il modo piu’ intuitivo di scrivere le ipotesi del test di indipendenza e’ il seguente :

0

1

: [ , ] [ ] [ ]

: [ , ] [ ] [ ]i j i

i j i

H P X x Y y P X x P Y y

H P X x Y y P X x P Y y

= = = = =⎧⎪⎨ = = ≠ = =⎪⎩

ESEMPIO Le variabili X e Y sono :

• X : colore degli occhi (modalita’ CHIARI e SCURI) • Y : colore dei capelli (modalita’ BIONDI, CASTANI e NERI)

I dati relativi ad un campione di dimensione n=50 sono rappresentati nella seguente tabella dei conteggi: CAPELLI

O BIONDI CASTANI NERI TOTALE C CHIARI 10 10 2 22 C SCURI 10 12 6 28 H TOTALE 20 22 8 50 I

La tabella seguente rappresenta le frequenze : CAPELLI

O BIONDI CASTANI NERI TOTALE C CHIARI 0.2 0.2 0.04 0.44 C SCURI 0.2 0.24 0.12 0.56 H TOTALE 0.4 0.44 0.16 1 I

- 28 -

Per poter effettuare un test e’ necessario costruire una statistica test T . In generale si ha che :

( ) [ ]2

2

,~ ( 1)( 1ij i j

i j i j

f f fT n I J

f fχ

−= −∑ i i

i i

)−

In questo caso : • n rappresenta il numero di elementi del campione • I rappresenta il numero di livelli della variabile X (I=2) • J rappresenta il numero di livelli della variabile Y (J=3)

Se si utilizzano le frequenze assolute; la stessa statistica test è:

( ) [ ]2

2

,~ ( 1)( 1ij i j

i j i j

n n nT I

n nχ

−= −∑ i i

i i

)J −

Utilizzando la precedente tabella delle frequenze relative si possono ricavare i valori : CAPELLI

O BIONDI CASTANI NERI TOTALE C CHIARI 0.176 0.1936 0.0704 0.44=f.Chiari

C SCURI 0.224 0.2464 0.0896 0.56=f.Scuri

H TOTALE 0.4=fBiondi. 0.44= fCastani. 0.16= fNeri. f.. I

Il livello a cui si vuole effettuare il test e’ 5%. La statistica test T e’ la seguente :

[ ] [ ]2 2( 1)( 1) 2T I Jχ χ= − − = Dalle tavole si ottiene :

[ ]( )2 2 5.99 0.05P χ > = e quindi la regione di rifiuto vale R= (5.99,+∝)

- 29 -

Il valore della statistica T relativa ai dati del campione e’

( ) ( ) ( ) ( ) ( ) ( )2 2 2 2 2 20.2 0.176 0.2 0.1936 0.04 0.0704 0.2 0.224 0.24 0.2464 0.12 0.089650

0.176 0.1936 0.0704 0.224 0.2464 0.0896t

⎡ ⎤− − − − − −= + + + + +⎢ ⎥⎢ ⎥⎣ ⎦

= 1.49 . Poiche’ il valore di t non appartiene a R (t∉R) si accetta l’ipotesi H0, cioe’ che X e Y sono indipendenti.

- 30 -

Test chi-quadrato di adattamento Supponiamo di rilevare su un campione di numerosità n i risultati di una variabile X che può assumere solamente un numero finito di valori(o modalità) e si indica con {1,2,...,I} l’insieme dei valori che assume X. Si indichi con :

ni la frequenza osservata per la modalità i [ovviamente si ha che . 1

I

ii

n n=

=∑

1 2, ,..., Ip p p la distribuzione della variabile X. Il test chi-quadrato di adattamento serve per verificare se la variabile X segue o meno una

specificata distribuzione (ipotesi) di probabilità con parametri . 1 2, ,..., Iq q q

Le ipotesi del test sono :

0 1 1 2 2

1

: , ,...,: , per almeno un valore di

I I

i i

H p q p q p qH p q

= = =⎧⎨ ≠⎩ i

i

Per effettuare il test si deve per prima cosa :

calcolare le frequenze attese assolute ˆin nq= (frequenze attese nel caso in cui le frequenze della

variabile X fossero effettivamente ); 1 2, ,..., Iq q q

calcolare il valore della statistica Test (di Pearson) ( )2

1

ˆˆ

Ii i

i i

n nC

n=

−= ∑

Se l’ipotesi H0 è vera, la statistica test C ha legge (asintotica) chi-quadro con (I-1) gradi di libertà

e la regione di rifiuto se il livello del test vale α è : ( ),R cα= +∞ . Se il valore osservato della statistica C appartiene alla regione di rifiutosi si conclude che la

distribuzione della variabile X non ha i parametri . 1 2, ,..., Iq q q

Essendo questo un test asintotico si proicede solo nel caso in cui le frequenze attese siano maggiori o uguali a 5.

ˆin

- 31 -

- 32 -

Test del segno e della mediana Questo test viene di solito utilizzato per verificare una ipotesi sul valore della mediana di una popolazione oppure per controllare se due campioni provengono dalla stessa popolazione accertando che la mediana delle differenze sia nulla. In particolare si assume che M e’ la mediana di una variabile continua X e si costruisce un test per verificare se questo e’ vero. Si ricordi che se M e’ la mediana di una variabile continua X si ha che :

1( ) ( )2

M

X XM

f x dx f x dx+∞

−∞

= =∫ ∫

Si vuole quindi effettuare un test :

0 0

1 0

::

H M MH M M

=⎧⎨ ≠⎩

Se l’ipotesi H0 e’ vera circa meta’ delle osservazioni del campione dovrebbero essere superiori a M0, per cui la regola di decisione dovra’ essere costruita in modo che si rifiuti H0 se tale requisito non e’ soddisfatto. Se X1,X2,...,Xn e’ un campione estratto da X, il numero di osservazioni Sn superiori a M0 e’ una variabile binomiale di parametri n e p=0.5 . Quindi l’ipotesi H0 puo’ essere riformulata nel modo seguente :

0

1

1:21:2

H p

H p

⎧ =⎪⎪⎨⎪ ≠⎪⎩

Se H0 e’ vera Sn ha legge B(n,0.5) per cui, in media, il campione conterra’ n/2 osservazioni al di sopra di M0 . Utilizziamo la statistica test Tn = Sn/n Se il livello del test e’ α si devono determinare due valori a e b tali che

( ) 1nP a T b α≤ ≤ = − cioe’

- 33 -

1(1 ) (1 ) (1 )

nT pa p b pPp p p p p p

n n n

α

⎛ ⎞⎜ ⎟−− −⎜ ⎟≤ ≤ =⎜ ⎟− − −⎜ ⎟⎝ ⎠

Se la numerosita’ n del campione e’ abbastanza grande la variabile

~ (0,1(1 )

)−−

nT p Np p

n e quindi per determinare i valori di a e b si devono risolvere le equazioni :

2

12

(1 )

(1 )

a p zp p

nb p zp p

n

α

α−

−⎧ =⎪ −⎪⎪⎨ −⎪ =⎪ −⎪⎩

e si ottiene la regione di rifiuto come nel caso del test sulla proporzione con p0=1/2 :

R= 1 12 2

1 1 1 1, ,2 4 2 4

z zn nα α

− −

⎛ ⎞ ⎛−∞ − + +∞⎜ ⎟ ⎜⎜ ⎟ ⎜⎝ ⎠ ⎝

∪⎞⎟⎟⎠

00

ESEMPIO La variabile X rappresenta il numero di scarpa degli italiani e si vuole effettuare un test per verificare se la mediana vale 40. Si vuole cioe’ testare il fatto che meta’ della popolazione ha un numero di scarpa maggiore di 40. Le ipoesi del test sono :

0

1

: 4: 4

H MH M

=⎧⎨ ≠⎩

- 34 -

Si costruisce una nuova variabile Si cosi’ definita :

0 401, 2,...,

1 40i i

i i

S quando Xi n

S quando X= <⎧

=⎨ = ≥⎩

- 35 -

Sia X1,X2,...,X36 un campione della popolazione. Poiche’ n=36 si puo’ usare l’approssimazione normale, cioe’

(0,1)(1 )nT p N

p pn

−−

Se si vuole effettuare il test a livello 5% si procede nel seguente modo :

• Si determinano i valori di a e b risolvendo le equazioni :

0.5 1.960.5 0.5

360.5 1.96

0.5 0.536

a

b

−⎧ = −⎪⎪⎪⎨ −⎪ =⎪⎪⎩

i

i

Si ottengono i valori : 0.480.66

ab=⎧

⎨ =⎩

La regione di rifiuto e’ quindi :

( , 0.48) (0.66, )R = −∞ ∪ +∞

Se la frequenza degli elementi del campione con numero di scarpa e’ compresa fra 0.48 e 0.66 si accetta l’ipotesi che la mediana sia 40, altrimenti si rifiuta. Questo test viene anche chiamato test del segno perche’ per il calcolo della frequenza campionaria si e’ soliti contrassegnare con un segno + i valori che eccedono M0 e con un segno – quelli non superiori a M0, e poi contare i segni positivi presenti. NOTA : Se la numerosita’ del campione e’ piccola si puo’ effettuare un test ESATTO a livello α, cioe’ determinare i valori a e b in modo che :

112

b

ii a

ni

α=

⎛ ⎞− ≅⎜ ⎟

⎝ ⎠∑

- 36 -

La tabella seguente riporta i dati dell’esempio : 41 + 42 + 44 + 36 - 45 + 38 - 39 - 41 + 42 + 37 - 46 + 40 - 35 - 42 + 44 + 38 - 39 - 41 + 45 + 42 + 45 + 45 + 36 - 42 + 39 - 46 + 36 - 46 + 38 - 40 - 40 - 39 - 35 - 41 + 38 - 42 +

Nel campione ci sono 19 segni + e 17 segni – per cui la frequenza vale e si accetta l’ipotesi che la mediana sia 40 a livello 5%.

0.53p ≅

ESERCIZIO Un gruppo di pazienti e un gruppo di controllo vengono sottoposti ad un test i cui risultati, espressi come punteggi, sono di seguito riportati. I gruppi diferiscono significativamente sulla base del test? GRUPPO 1 : 13 12 12 10 10 10 10 9 8 8 7 7 7 7 7 6 GRUPPO 2 : 10 10 10 8 8 6 17 16 15 15 15 14 14 14 13 13 13 12 12 12 12 11 11 La mediana dei 39 dati vale 11 .

Osservazioni Gruppo1 Gruppo2 totali Maggiori della mediana(>11)

3 15 18 Minori o uguali alla mediana(≤ 11)

13 8 21 totali 16 23 39

I dati differiscono significativamente ?

- 37 -