STATISTICA 1 –parte 2/2 Un test statistico è una regola di...

Click here to load reader

  • date post

    29-May-2018
  • Category

    Documents

  • view

    229
  • download

    9

Embed Size (px)

Transcript of STATISTICA 1 –parte 2/2 Un test statistico è una regola di...

  • STATISTICA 1 parte 2/2

    Un test statistico una regola di decisione

    Effettuare un test statistico significa verificare IPOTESI sui parametri.

    STATISTICA INFERENZIALE

    STIMA PER INTERVALLI STIMA PUNTUALE

    TEST PARAMETRICI TEST NON PARAMETRICI

    ESEMPI

    La durata in ore di una lampadina si pu modellare con una legge X~N(,2). Se la media

    incognita si pu fare un test per capire, ad esempio, se >1000 ore, cio se la media della durata di una lampadina supera le 1000 ore.

    Se X e Y sono variabili aleatorie si pu effettuare un test per verificare se sono o no indipendenti.

    Cosa necessario per poter effettuare un test ?

    Si devono:

    formulare delle IPOTESI 0

    1

    : :

    H ipotesi principale o nullaH ipotesi alternativa

    Si deve stabilire il livello del test.

    Si utilizzano i dati del campione per stabilire se si accetta o non si accetta lipotesi H0

  • TEST PARAMETRICI (media, varianza e proporzione) Supponiamo, ad esempio, che il tempo di vita di una lampadina segua una legge normale di media sconosciuta e varianza uguale a 125 ore (X la v.a. che modella questo fenomeno). Si vuole verificare lipotesi che il tempo medio di vita (durata) di quel tipo di lampadina di 1400 ore. Per poter effettuare questa verifica si hanno a disposizione i dati relativi ad un campione di n=5 lampadine. I valori della durata (in ore) delle lampadine del campione sono :

    Lampadina 1 X1

    Lampadina 2 X2

    Lampadina 3 X3

    Lampadina 4 X4

    Lampadina 5 X5

    1410 1380 1420 1420 1430 Poich quel tipo di lampadina ha legge N(,125),la durata di ogni lampadina, rappresentata dalle variabili aleatorie Xi ,i=1,2,3,4,5 ciascune di legge N(,125). Con questi dati abbiamo visto che possibile :

    Determinare uno stimatore e una stima per . Determinare un intervallo di confidenza per e una sua realizzazione.

    Attraverso i test parametrici ( la media un parametro) si vuole stabilire se sia ragionevole pensare che il tempo media di vita (durata) sia di 1400 ore.

    La regola di decisione che lega il campione al parametro su cui si vuole eseguire il test si chiama STATISTICA TEST.

    Lo stimatore della media : 1 5( ,..., )T X X X= 5 la cui legge ( )125, ,

    5N N =

    5 .

    5

    1410 1380 1420 1420 1430 14125

    x + + + += = una stima di .

    Si decide di accettare lipotesi =1400 se 5x non troppo lontano da 1400, cio se piccola la differenza fra 5x e 1400.

    - 2 -

  • Si supponga ore lipotesi H0 vera. In questo caso si suppone che il valore di sia 1400 e quindi la statistica T ha legge N(1400,25), inoltre 5x il valore che assume T relativamente al campione di 5 lampadine. Il grafico della legge di T riportato sotto

    Per essere considerato vicino a 1400, 5x deve appartenere ad un intervallo [a,b] tale che

    5( [ , ]) 1-P x a b = , con il valore 1- scelto da chi effettua il test. Anche in questo caso il valore dellarea di ciascuna delle due zone evidenziate /2 .

    - 3 -

  • Si procede poi nel modo seguente per effettuare un test a livello :

    5

    5

    [ , ] ' 0 [ , ] ' 0

    Se x a b si accetta l ipotesi HSe x a b si rifiuta l ipotesi H

    (- , ) ( , ) viene detta REGIONE DI RIFIUTOR a b= +

    Che cosa rappresenta il valore di ? Se il valore 5x R, cio se la media dei valori dei dati del campione appartiene alla regione di rifiuto, si decide di rifiutare lipotesi H0 anche se, come supposto allinizio, lipotesi vera.

    5

    0 0

    La probabilita' che vale .Il valore [ / ] detto

    x RP rifiutare H H vera ERRORE DI PRIMA SPECIE

    =

    Nel caso preso in esame si ha che :

    5 1412x = si pu, ad esempio, fissare il livello del test al 10% = 0.10.

    Si vogliono determinare i valori a e b tali che :

    [ ] 1400 1400 0.905 5

    a bP a T b P Z = =

    Se Z~N(0,1) dalle tavole si ottiene :

    P(-1.64 Z 1.64) = 0.90.

    - 4 -

  • Quindi :

    1400 1.64 ( 1.64*5) 1400 1391.851400 1.64 (1.64*5) 1400 1408.25

    ( ,1391.8) (1408.2, )

    = = + = = = + =

    = +

    a a

    b a

    R

    Se la media dei dati campionari appartiene allintervallo ( ,1391.8) (1408.2, )= +R , si rifiuta lipotesi H0.

    5x 141= 2R, quindi si rifiuta lipotesi H0 che la media del tempo di vita di questo tipo di lampadina sia uguale a 1400 .

    - 5 -

  • Il test eseguito prima un CASO PARTICOLARE di una serie di test sui parametri di una distribuzione normale. La tabella seguente riporta i tre possibili tipi di test per la media

    0

    1 0

    ::

    HH

    0 =

    test BILATERALE

    0

    1 0

    ::

    HH

    0 =

    > test UNILATERALE DESTRO

    0

    1 0

    ::

    HH

    0 =

  • Per determinare la regione di rifiuto R si devono determinare due valori a e b tali che P(a T b) = 0.95, cio facendo i conti :

    20 20 20 20 0.95

    2 24 4a b a bP Z P Z = =

    Dalle tavole della legge N(0,1) si ottiene che :

    20 1.96220 1.96

    2

    a

    b

    = =

    quindi 20 1.96*220 1.96*2

    ab=

    = +

    16.0823.92

    ab=

    =

    - 7 -

  • Quindi essendo R= (-,16.08)(23.92,+ ) (area evidenziata nella figura sopra) si ha che

    5 20.5x = R e quindi si accetta lipotesi H0.

    Si osservi che lipotesi H0 viene accettata quando il valore di 5x compreso nellintervallo [16.08 , 23.92].

    TEST UNILATERALE DESTRO SULLA MEDIA (X di legge normale con varianza nota)

    . Nel caso di test unilaterale destro le ipotesi sono :

    0 0

    1 0

    ::

    HH

    =

    >

    La regione di rifiuto del tipo R=(c,+ ). ESEMPIO Si consideri un campione di taglia ( numerosita) n=25 estratto da una popolazione di legge N(,100). Si vuole effettuare un test sulla media a livello 5%. Il valore della media del campione vale 5 20.5x = . In questo caso le ipotesi sono :

    0

    1

    : 2: 2

    HH

    00

    = >

    La statistica test 1 2 25... 100,25 25

    X X XT N + + + =

    .

    Se lipotesi H0 vera si ha che T~N(20,4). Per determinare la regione di rifiuto R si deve determinare un valore c tale che P(T c) = 0.95, cio facendo i conti :

    20 20 0.95

    24c cP Z P Z = =

    Utilizzando le tavole si ha che : 20 1.652

    c = e quindi c = 23.3 e R=(23.3,+).

    Essendo 5 20.5x = si accetta lipotesi principale (nulla).

    - 8 -

  • Osservando la figura riportata sotto si osserva che viene accettata lipotesi principale 0 : 2H 0 =

    quando il valore di 5x non supera 23.3.

    TEST UNILATERALE SINISTRO SULLA MEDIA (X di legge normale con varianza nota)

    . Nel caso di test unilaterale destro le ipotesi sono :

    0 0

    1 0

    ::

    HH

    =

  • Per determinare la regione di rifiuto R si deve determinare un valore c tale che P(T c) = 0.95, cio facendo i conti :

    20 20 0.95

    24d dP Z P Z = =

    e quindi 20 0.054

    dP Z =

    Utilizzando le tavole si ha che : 20 1.652

    d = e quindi d = 16.7 e R=(- , 16.7).

    Essendo 5 20.5x = si accetta lipotesi principale (nulla). Osservando la figura riportata sotto si osserva che viene accettata lipotesi principale 0 : 2H 0 =

    quando il valore di 5x superiore a 16.7.

    - 10 -

  • Regola di Decisione

    Un tteesstt ssttaattiissttiiccoo una statistica calcolata sui dati del campione. Il valore del test usato per

    decidere se rifiutare o no lipotesi nulla La rreeggoollaa ddii ddeecciissiioonnee una regola che specifica le condizioni sotto le quali lipotesi nulla pu essere

    rifiutata.

    Errori nei test Una decisione pu essere sbagliata in due modi :

    Errore di tipo I: Rifiutare H0 quando vera

    La probabilita dellerrore di tipo I denotatata con . chiamato livello di significativita del test

    Err ore di tipo II: Non rifiutare H0 quando falsa

    La probabilita dellerrore di tipo II denotatata con .

    La tabella illustra i possibili errori in un test statistico.

    - 11 -

  • Potenza del test (solo nel caso di ipotesi semplice)

    La potenza di un test statistico (si indica con ) la probabilita di prendere la decisione giusta, cio la probabilita di rifiutare lipotesi nulla quando e falsa.

    = 1- = P(rifiutare H0/ H0 falsa)

    Gli esempi riguarderanno solo il caso di ipotesi semplici. ESEMPIO La popolazione ha legge Normale di media e varianza nota : X~N(, 2). Le ipotesi del test sono :

    0

    1

    : 5: 7

    HH

    =

    =

    00

    il livello del test vale 5% e si ha che 2

    10n

    = .

    Il test unilaterale destro e quindi la regione di rifiuto R vale :

    ( ) (2

    0 1 , = 50 1.65*10,+ 66.5,+R z n

    = + + + =

    )

    Calcolo della potenza del Test. Sotto lipotesi H1 la statistica 2~ (70,10 )nT X N= e la potenza vale :

    ( ) ( )( )

    20 0/ ~ (70,10 ) 66.5

    66.5 70~ (0,1) 0.35 0.63710

    P rifiutare H H falsa P Y N

    P Z N P Z

    = = > =

    > = >

    Lerrore di II specie vale 1-=0.363.

    - 12 -

  • TEST BILATERALE SULLA MEDIA ( X di legge normale con varianza sconosciuta )

    Nel caso in cui la popolazione X da cui viene estratto il campione abbia sia la media che la varianza sconosciuta si procede nel modo seguente :

    X stima la media S2 stima la varianza 2

    Le ipotesi del test sono del tipo:

    0 0

    1 0

    ::

    HH

    =

    Se H0 vera, la variabile aleatoria

    10

    /nXT t

    S n =

    T ha legge t di Student con n-1 gradi di libert. In questo caso si ha :

    P( X ( -, +))= 0 0 Quindi : P( X ( -, +)) = P(- , -) ( +,+0 0 0 0 ) = P(| X - | > ) = 0

    = 0| |

    / /XPS n S n >

    Poich T = 0/

    XS n

    ha legge t di Student con n-1 gradi di libert :

    0| |/ /

    XPS n S n >

    = | |/

    P TS n >

    =

    - 13 -

  • e quindi la regione di rifiuto per il test sulla media a livello :

    R = 1 1

    0 02 2

    , ,n nS St tn n

    + +

    ESEMPIO Sia X1,X2,...,X16 un campione estratto da una popolazione di legge normale di media e varianza sconosciute.

    0 0

    1 0

    ::

    HH

    =

    .

    Si deve determinare il valore di tale che | | 0.05/ 16

    P TS

    > = oppure

    | | 0.1/ 16

    P TS

    < = . La legge di T t15, cio t di Student con 15 gradi di libert.

    150.05 2.13/ 16

    tS

    = = quindi = 2.133S .

    La regione di rifiuto quindi :

    R= 0 0, 2.13 2.13 ,S Sn n

    + +

    A questo punto, la conclusione del test dipende dal valore osservato x della variabile media campionaria X . Se x appartiene ad R, si rifiuta e si sceglie , altrimenti si accetta . 0H 1H 0H In modo simile si procede per i test di tipo unilaterale (destro o sinistro)

    0 0

    1 0

    ::

    HH

    =

    - 14 -

  • Test sulla media per grandi campioni

    Il teorema del limite centrale (TLC) afferma che se

    1 2, ,..., nX X X sono variabili aleatorie indipendenti (un campione)

    E(Xi)=, i=1,2,...,n

    VAR(Xi)=2, i=1,2,...,n allora

    ~ (0,1/nX Z N

    n

    )

    )

    Questo teorema significa che per n grande (>30):

    La distribuzione t di Student pu essere approssimata con la legge normale standard Z~N(0,1).

    1( ) (nP T t P Z z > = >

    Si possono fare test sulla media e sulla varianza anche se le popolazioni di provenienza dei campioni non ha legge Normale.

    ESEMPIO I dati relativi ad un campione di numerosit 100 si ha che la media campionaria vale 300 e la varianza campionaria 25. Si vuole testare a livello 5%:

    . S

    otto HO la statistica test vale

    La regione di rifiuto R vale

    ( ) ( )

    0 0 0

    0

    5 5, 1.96 1.96 , , 270 1.96 270 1.96 ,100 100

    ( , 269 271,

    300 rifiuto

    S SRn n

    x R H

    = + + = + + + =

    +

    =

    00

    0 270 ~ (99) (0,1)/ 5 / 100

    X XT tS n

    = = N0

    1

    : 27: 27

    HH

    =

    [ ]

    12

    990 0 1

    2 2

    0.975

    270 2700.05 / 5 /10 5 /10

    1.96

    X XP rifiutare H H vera P t P Z

    con Z Z

    = = > = >

    = =

    - 15 -

  • Test per la frequenza di una variabile di Bernoulli Se la popolazione ha legge di Bernoulli, cio X~B(p), con p sconosciuto si vuole costruire test di ipotesi sul parametro p . Se X~B(p), si ha che

    ( 1)( 0) (1

    P X pP X p p

    = = )= =

    E(X)=p e VAR(X)=p(1-p).

    Se X1,X2,...,Xn un campione estratto da X lo stimatore di p vale :

    1 2 ... nX X Xpn

    + + +=

    Le ipotesi del test saranno del tipo:

    0 0

    1 0

    ::

    H p pH p p

    =

    Se la numerosita campionaria n abbastanza grande si pu utilizzare il Teorema del Limite Centrale per approssimare la distribuzione della statistica test: sotto lipotesi nulla, si approssima quindi

    0 00

    (1- ) ~ , p pp con Z N pn

    .

    La varianza sotto H0 vale:

    ( )2 0 01 (1 )ps p pn

    =

    Attenzione: nel caso degli intervalli di confidenza il denominatore era (n-1).

    La regione di rifiuto sar, quindi:

    R=0 0 0 0

    0 01 12 2

    (1 ) (1 ), ,p p p pp Z p Zn n

    + +

    - 16 -

  • Test bilaterali per la varianza da popolazione di legge Normale

    Sia X una popolazione di legge Normale di media e varianza sconosciute . Si vuole costruire un test di ipotesi per la varianza a livello . Quindi le ipotesi saranno del tipo:

    2 20 0

    2 21 0

    ::

    HH

    =

    Se lipotesi H0 vera, la variabile aleatoria 2

    20

    ( 1)S nC

    = ha legge chi-quadro con (n-1) gradi di

    liberta. Di seguito riportato il grafico della distribuzione chi-quadro al variare di n.

    chi quadro con n=2 gradi di liberta

    chi quadro con n=3 gradi di liberta

    chi quadro con n=5 gradi di liberta

    chi quadro con n=10 gradi di liberta

    - 17 -

  • Costruzione del test . Si devono determinare due valori C1 e C2 tali che

    P( C1 C C2 ) = 1-

    2

    21 - 02 2

    ( 1)P( C1 C C2 ) = P C 1

    =

    S n C

    dove , per esempio con =0.10

    2 20.95 , 11 1

    2 22 20.05 , 1 , 1

    2 2

    , 1

    = =

    = =

    n n

    n n

    C

    C

    Quindi la regione di rifiuto sar:

    R =

    2 2 2 20 01 , 1 , 1

    2 20, ,( 1) ( 1)

    +

    n n

    n n

    - 18 -

  • Se la media nota, la regione di rifiuto :

    R =

    2 2 2 20 01 , 1 , 1

    2 20, ,

    +

    n n

    n n

    ESEMPIO Sia X1,X2,..,X15 un campione estratto da una popolazione di legge X~N(,2) con la media sconosciuta. Se si vuole effettuare un test sulla varianza a livello 10% con le ipotesi

    2 20 0

    2 21 0

    ::

    HH

    =

    si ha che la regione di rifiuto :

    R = 2 2 2 20.95,14 0 0.05,14 00, ,

    14 14

    +

    Dalle tavole si ricava che :

    20.95 ,14

    20.05 ,14

    6.751

    23.685

    =

    =

    e quindi la regione di rifiuto :

    2 20 023.685 6.7510, ,

    14 14R

    = +

    Se noto il valore di S2 relativo al campione ( si indica con s2) si pu determinare la decisione, a

    seconda che tale valore appartenga o meno alla regione di rifiuto.

    - 19 -

  • Test unilaterali per la varianza da popolazione di legge Normale

    SUPERIORE

    2 20 0

    2 21 0

    ::

    HH

    =

    >

    2 2

    , 1 0 ,( 1) = +

    nRn

    21 , 1n INFERIORE

    2 20 0

    2 21 0

    ::

    HH

    =

  • Il test per la differenza di medie per popolazioni di legge Normale

    Si distinguono due casi : a) Sugli stessi individui viene rilevata una grandezza in tempi diversi (dati appaiati). b) Si rileva la stessa grandezza su individui apparteneneti a popolazioni diverse e indipendenti.

    Caso a:

    1 1 1 . . .. . .. . .. n n

    individuo X Y

    individuo n X Y

    Caso b:

    1

    1

    1 . .

    1 . .. ..

    1 .

    n

    individuo X

    POPOLAZIONE

    individuo n X

    ndividuo Y

    i

    . . . 2. .. m

    POPOLAZIONE

    individuo m Y

    a. Il test di differenza di medie per dati appaiati Un caso particolare del test sulla differenza di media quello relativo ai dati appaiati, cio quando vengono rilevati i dati riferiti allo stesso campione,ad esempio, in tempi diversi, con differenti strumenti, ecc. Esempi tipici di applicazione di questo test sono le rilevazioni di parametri fisiologici prima e dopo la somministrazione di un farmaco. I dati da esaminare avranno quindi la forma :

    obs X Y 1 X1 Y12 X2 Y2.... .... ... n Xn Yn

    Si suppongono X e Y di legge normale N(X,1) e N(Y,2) Un problema che si deve risolvere molte volte quello di stabilire se le mediedi X e Y , X e Y sono uguali oppure no. Risolvere questo problema equivale ad effettuare un test per verificare lipotesi principale

    - 21 -

  • H0: X -Y =0 Contro una delle tre ipotesi altenative:

    test unilaterale sinistro Test bilaterale Test unilaterale destro H1: X - Y < 0 H1: X - Y 0 H1: X - Y > 0

    Per effettuare il test :

    Si deve costruire una nuova variabile D=X-Y come riportato in tabella

    obs X Y D 1 X1 Y1 D1=X1 -Y12 X2 Y2 D2=X2 -Y2... ... ... ... n Xn Yn Dn=Xn -Yn

    Essendo X e Y variabili aleatorie di legge normale, anche D ha legge normale

    N(D,D)

    - 22 -

  • Sotto lipotesi principale la statistica test T vale

    /D

    DTS n

    =

    ed ha legge t di Student con (n-1) gradi di libert.

    La regione di rifiuto :

    nel caso bilaterale

    2 2

    , ,R t t

    = +

    nel caso unilaterale destro ( ),R t=

    nel caso unilaterale sinistro ( ),R t= +

    ESEMPIO X e Y sono due variabili quantitative rilevate su un campione di n=16 persone in due tempi diversi (prima e dopo). Si effettua un test per verificare che non ci sono state variazioni in media.

    N Prima Dopo D 1 334 405 71 2 150 125 -25 3 520 540 20 4 95 100 5 5 212 200 -12 6 30 30 0 7 1055 1200 145 8 300 265 -35 9 85 90 5 10 129 206 77 11 40 18 -22 12 440 489 49 13 610 590 -20 14 208 310 102 15 880 995 115 16 25 75 50

    0

    1

    : 0: 0

    H DH D

    = >

    1.7t = 150.05 53

    df = (n-1) = (16-1) = 15

    032.81 16 2.354 , quindi si rifiuta .55.75

    D

    D nt RS

    = = = H

    - 23 -

  • b. Il test di differenza di medie per popolazioni indipendenti di legge Normale

    Consideriamo due campioni estratti da due popolazioni indipendenti di legge normale:

    Il primo campione X1,X2,...,Xn di numerosit n con distribuzione Normale N(X,X); Il secondo campione Y1,Y2,...,Ym di numerosit m con distribuzione Normale N(Y,Y).

    Un problema che si deve risolvere molte volte quello di stabilire se le due medie X e Y sono uguali oppure no. Risolvere questo problema equivale ad effettuare un test per verificare lipotesi principale

    H0: X = Y Contro una delle tre ipotesi altenative:

    test unilaterale sinistro Test bilaterale Test unilaterale destro H1: X < Y H1: X Y H1: X > Y

    Siccome nX uno stimatore di X , mY uno stimatore di Y , segue che n mX Y pu essere usato per stimare X - Y. Per effettuare questo test si considera quindi la variabile aleatoria

    n mD X Y= Se le varianze 2 e 2X Y sono note, lo scarto quadratico medio di D vale :

    - 24 -

  • 2 2X Y

    D n m = +

    Se lipotesi principale vera, questo equivale ad assumere che X = Y e quindi la statistica test T vale :

    n m

    T

    X YT

    =

    ed ha distribuzione Normale standard. La regione di rifiuto , nel caso bilaterale,

    1 12 2

    , ,R z z

    = +

    2

    Se le varianze 2 e X Y non sono note ma si pu supporre che siano uguali, allora si usano gli usuali stimatori della varianza 2 e 2X YS S e lo stimatore di DS D assume la forma :

    2 2( 1) ( 1)2

    X YD

    n S m S n mSn m nm

    + + = +

    Se lipotesi principale vera, questo equivale ad assumere che X = Y e quindi la statistica test

    n m

    D

    X YTS

    =

    ha distribuzione t di Student con (n+m-2) gradi di libert e la regione di rifiuto, nel caso bilaterale, vale:

    2 2

    , ,R t t

    = +

    - 25 -

  • ESEMPIO 1 I possessori di American Express Gold Card hanno un utilizzo mensile (in euro) maggiore degli utilizzatori di Visa?

    1

    1

    1

    Popolazione 1: Visan =1200x = 452

    = 212

    2

    2

    2

    Popolazione 2: Gold Cardn =800x = 523

    = 185

    H : 00 1 2H : 01 1 2

    ( ) ( ) (452 523) 0 71 711 2 1 2 0 7.9268.962 2 2 2 80.2346212 1851 2

    1200 8001 2

    p-value: p(z

  • ESEMPIO 2 Si rilevano i tempi di vita di due tipi A e B di lampadine, ottenendo i seguenti risultati. I tempi di vita medi possono essere considerati uguali?

    1

    1

    1

    Popolazione 1: Lampadine di tipo An =10x = 10.3

    = 2.3s

    2

    2

    2

    Popolazione 2: Lampadine di tipo Bn = 8x = 13.1

    = 1.7s

    ( ) ( )

    2 2 2 21 1 2 2 1 2 1 2

    1 2 1 2

    3.409 7 18

    2 16 80

    :1%, 2.92 2.92,

    H : 00 1 2H : 01 1 2

    ( ) ( ) (10.3 13.1) 2.81 2 1 2 00.677

    :

    H si deve rifiutare0

    n s n s n n s sn n n n

    LIVELLO

    x xz

    REGIONE DI RIFIUTO

    =+ + +

    +

    +

    =

    = =ii i

    =

    - 27 -

  • Test chi-quadrato di indipendenza X e Y sono due variabili QUALITATIVE e si vuole verificare se sono indipendenti. La definizione di indipendenza nel caso di variabili qualitative e la seguente:

    [ , ] [ ] [ i j iP X x Y y P X x P Y y= = = = = ]j

    j

    j

    , per ogni valore di i e j Il modo piu intuitivo di scrivere le ipotesi del test di indipendenza e il seguente :

    0

    1

    : [ , ] [ ] [ ]

    : [ , ] [ ] [ ]i j i

    i j i

    H P X x Y y P X x P Y y

    H P X x Y y P X x P Y y

    = = = = = = = = =

    ESEMPIO Le variabili X e Y sono :

    X : colore degli occhi (modalita CHIARI e SCURI) Y : colore dei capelli (modalita BIONDI, CASTANI e NERI)

    I dati relativi ad un campione di dimensione n=50 sono rappresentati nella seguente tabella dei conteggi: CAPELLI

    O BIONDI CASTANI NERI TOTALE C CHIARI 10 10 2 22 C SCURI 10 12 6 28 H TOTALE 20 22 8 50 I

    La tabella seguente rappresenta le frequenze : CAPELLI

    O BIONDI CASTANI NERI TOTALE C CHIARI 0.2 0.2 0.04 0.44 C SCURI 0.2 0.24 0.12 0.56 H TOTALE 0.4 0.44 0.16 1 I

    - 28 -

  • Per poter effettuare un test e necessario costruire una statistica test T . In generale si ha che :

    ( ) [ ]2

    2

    ,~ ( 1)( 1ij i j

    i j i j

    f f fT n I J

    f f

    = i i

    i i

    )

    In questo caso : n rappresenta il numero di elementi del campione I rappresenta il numero di livelli della variabile X (I=2) J rappresenta il numero di livelli della variabile Y (J=3)

    Se si utilizzano le frequenze assolute; la stessa statistica test :

    ( ) [ ]2

    2

    ,~ ( 1)( 1ij i j

    i j i j

    n n nT I

    n n

    = i i

    i i

    )J

    Utilizzando la precedente tabella delle frequenze relative si possono ricavare i valori : CAPELLI

    O BIONDI CASTANI NERI TOTALE C CHIARI 0.176 0.1936 0.0704 0.44=f.ChiariC SCURI 0.224 0.2464 0.0896 0.56=f.ScuriH TOTALE 0.4=fBiondi. 0.44= fCastani. 0.16= fNeri. f.. I

    Il livello a cui si vuole effettuare il test e 5%. La statistica test T e la seguente :

    [ ] [ ]2 2( 1)( 1) 2T I J = = Dalle tavole si ottiene :

    [ ]( )2 2 5.99 0.05P > = e quindi la regione di rifiuto vale R= (5.99,+)

    - 29 -

  • Il valore della statistica T relativa ai dati del campione e

    ( ) ( ) ( ) ( ) ( ) ( )2 2 2 2 2 20.2 0.176 0.2 0.1936 0.04 0.0704 0.2 0.224 0.24 0.2464 0.12 0.0896 500.176 0.1936 0.0704 0.224 0.2464 0.0896

    t

    = + + + + +

    = 1.49 . Poiche il valore di t non appartiene a R (tR) si accetta lipotesi H0, cioe che X e Y sono indipendenti.

    - 30 -

  • Test chi-quadrato di adattamento Supponiamo di rilevare su un campione di numerosit n i risultati di una variabile X che pu assumere solamente un numero finito di valori(o modalit) e si indica con {1,2,...,I} linsieme dei valori che assume X. Si indichi con :

    ni la frequenza osservata per la modalit i [ovviamente si ha che . 1

    I

    ii

    n n=

    =

    1 2, ,..., Ip p p la distribuzione della variabile X.

    Il test chi-quadrato di adattamento serve per verificare se la variabile X segue o meno una

    specificata distribuzione (ipotesi) di probabilit con parametri . 1 2, ,..., Iq q q

    Le ipotesi del test sono :

    0 1 1 2 2

    1

    : , ,...,: , per almeno un valore di

    I I

    i i

    H p q p q p qH p q

    = = = i

    i

    Per effettuare il test si deve per prima cosa :

    calcolare le frequenze attese assolute in nq= (frequenze attese nel caso in cui le frequenze della

    variabile X fossero effettivamente ); 1 2, ,..., Iq q q

    calcolare il valore della statistica Test (di Pearson) ( )2

    1

    Ii i

    i i

    n nC

    n=

    =

    Se lipotesi H0 vera, la statistica test C ha legge (asintotica) chi-quadro con (I-1) gradi di libert

    e la regione di rifiuto se il livello del test vale : ( ),R c= + . Se il valore osservato della statistica C appartiene alla regione di rifiutosi si conclude che la

    distribuzione della variabile X non ha i parametri . 1 2, ,..., Iq q q

    Essendo questo un test asintotico si proicede solo nel caso in cui le frequenze attese siano maggiori o uguali a 5.

    in

    - 31 -

  • - 32 -

  • Test del segno e della mediana Questo test viene di solito utilizzato per verificare una ipotesi sul valore della mediana di una popolazione oppure per controllare se due campioni provengono dalla stessa popolazione accertando che la mediana delle differenze sia nulla. In particolare si assume che M e la mediana di una variabile continua X e si costruisce un test per verificare se questo e vero. Si ricordi che se M e la mediana di una variabile continua X si ha che :

    1( ) ( )2

    M

    X XM

    f x dx f x dx+

    = =

    Si vuole quindi effettuare un test :

    0 0

    1 0

    ::

    H M MH M M

    =

    Se lipotesi H0 e vera circa meta delle osservazioni del campione dovrebbero essere superiori a M0, per cui la regola di decisione dovra essere costruita in modo che si rifiuti H0 se tale requisito non e soddisfatto. Se X1,X2,...,Xn e un campione estratto da X, il numero di osservazioni Sn superiori a M0 e una variabile binomiale di parametri n e p=0.5 . Quindi lipotesi H0 puo essere riformulata nel modo seguente :

    0

    1

    1:21:2

    H p

    H p

    =

    Se H0 e vera Sn ha legge B(n,0.5) per cui, in media, il campione conterra n/2 osservazioni al di sopra di M0 . Utilizziamo la statistica test Tn = Sn/n Se il livello del test e si devono determinare due valori a e b tali che

    ( ) 1nP a T b = cioe

    - 33 -

  • 1(1 ) (1 ) (1 )

    nT pa p b pPp p p p p p

    n n n

    =

    Se la numerosita n del campione e abbastanza grande la variabile

    ~ (0,1(1 )

    )

    nT p Np p

    n e quindi per determinare i valori di a e b si devono risolvere le equazioni :

    2

    12

    (1 )

    (1 )

    a p zp p

    nb p zp p

    n

    = =

    e si ottiene la regione di rifiuto come nel caso del test sulla proporzione con p0=1/2 :

    R= 1 12 2

    1 1 1 1, ,2 4 2 4

    z zn n

    + +

    00

    ESEMPIO La variabile X rappresenta il numero di scarpa degli italiani e si vuole effettuare un test per verificare se la mediana vale 40. Si vuole cioe testare il fatto che meta della popolazione ha un numero di scarpa maggiore di 40. Le ipoesi del test sono :

    0

    1

    : 4: 4

    H MH M

    =

    - 34 -

  • Si costruisce una nuova variabile Si cosi definita :

    0 401, 2,...,

    1 40i i

    i i

    S quando Xi n

    S quando X=

  • Sia X1,X2,...,X36 un campione della popolazione. Poiche n=36 si puo usare lapprossimazione normale, cioe

    (0,1)(1 )nT p N

    p pn

    Se si vuole effettuare il test a livello 5% si procede nel seguente modo :

    Si determinano i valori di a e b risolvendo le equazioni :

    0.5 1.960.5 0.5

    360.5 1.96

    0.5 0.536

    a

    b

    = =

    i

    i

    Si ottengono i valori : 0.480.66

    ab=

    =

    La regione di rifiuto e quindi :

    ( , 0.48) (0.66, )R = +

    Se la frequenza degli elementi del campione con numero di scarpa e compresa fra 0.48 e 0.66 si accetta lipotesi che la mediana sia 40, altrimenti si rifiuta. Questo test viene anche chiamato test del segno perche per il calcolo della frequenza campionaria si e soliti contrassegnare con un segno + i valori che eccedono M0 e con un segno quelli non superiori a M0, e poi contare i segni positivi presenti. NOTA : Se la numerosita del campione e piccola si puo effettuare un test ESATTO a livello , cioe determinare i valori a e b in modo che :

    112

    b

    ii a

    ni

    =

    - 36 -

  • La tabella seguente riporta i dati dellesempio : 41 + 42 + 44 + 36 - 45 + 38 - 39 - 41 + 42 + 37 - 46 + 40 - 35 - 42 + 44 + 38 - 39 - 41 + 45 + 42 + 45 + 45 + 36 - 42 + 39 - 46 + 36 - 46 + 38 - 40 - 40 - 39 - 35 - 41 + 38 - 42 +

    Nel campione ci sono 19 segni + e 17 segni per cui la frequenza vale e si accetta lipotesi che la mediana sia 40 a livello 5%.

    0.53p

    ESERCIZIO Un gruppo di pazienti e un gruppo di controllo vengono sottoposti ad un test i cui risultati, espressi come punteggi, sono di seguito riportati. I gruppi diferiscono significativamente sulla base del test? GRUPPO 1 : 13 12 12 10 10 10 10 9 8 8 7 7 7 7 7 6 GRUPPO 2 : 10 10 10 8 8 6 17 16 15 15 15 14 14 14 13 13 13 12 12 12 12 11 11 La mediana dei 39 dati vale 11 .

    Osservazioni Gruppo1 Gruppo2 totali Maggiori della mediana(>11)

    3 15 18 Minori o uguali alla mediana( 11)

    13 8 21 totali 16 23 39

    I dati differiscono significativamente ?

    - 37 -

    Regola di DecisioneUn test statistico una statistica calcolata sui dati del La regola di decisione una regola che specifica le condizi

    Errori nei testUna decisione pu essere sbagliata in due modi :Errore di tipo I: Rifiutare H0 quando veraLa probabilita dellerrore di tipo I denotatata con . chiamato livello di significativita del test

    Errore di tipo II: Non rifiutare H0 quando falsaLa probabilita dellerrore di tipo II denotatata con .

    La tabella illustra i possibili errori in un test statisticoPotenza del test (solo nel caso di ipotesi semplice)Gli esempi riguarderanno solo il caso di ipotesi semplici.Lerrore di II specie vale 1-=0.363.