STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza...

88
STATISTICA INFERENZIALE Premessa importante : si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene descritto attraverso una funzione parametrica di probabilità p X (x | θ) o di densità f X (x | θ) di cui non si conosce θ. Non si conosco i dati relativi a tutta la popolazione, ma solo quelli relativi ad un campione rappresentativo di n unità: X 1 = x 1 ,...,X n = x n . Attraverso la conoscenza del campione si cerca di stimare o di verificare la validità di alcune congetture per θ. Quindi l’inferenza è un processo attraverso il quale dal campione si deducono informazioni sulla popolazione ed è necessario valutare la qualità e la veridicità di tali informazioni. Statistica, CLEM – p. 1/88

Transcript of STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza...

Page 1: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

STATISTICAINFERENZIALE

Premessa importante: si ipotizza che il comportamento della popolazione rispetto aduna variabile casuale X viene descritto attraverso una funzione parametrica diprobabilità pX(x | θ) o di densità fX(x | θ) di cui non si conosce θ. Non si conosco i datirelativi a tutta la popolazione, ma solo quelli relativi ad un campione rappresentativo di n

unità: X1 = x1, . . . , Xn = xn. Attraverso la conoscenza del campione si cerca distimare o di verificare la validità di alcune congetture per θ. Quindi l’inferenza è unprocesso attraverso il quale dal campione si deducono informazioni sulla popolazione edè necessario valutare la qualità e la veridicità di tali informazioni.

Statistica, CLEM – p. 1/88

Page 2: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Problema inferenziale (1)

Un’azienda produce dei bulloni di ferro. Durante la produzione, capita che dei bulloniprodotti siano difettosi e quindi vanno eliminati. L’azienda, per capire la qualità del suoprocesso produttivo, vuole conoscere la proporzione p di prodotti difettosi in un mese.L’azienda inoltre valuta che il processo produttivo è buono se tale proporzione in unmese è p < 15%

Problema inferenziale:

stimare un valore per p

stimare un intervallo di valori per p

valutare se il processo produttivo è buono o necessita di interventi per migliorie

Statistica, CLEM – p. 2/88

Page 3: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Interpretazione del problema inferenziale (1)

C’è una variabile casuale binaria X = numero di pezzi difettosi in un mese (1:difettoso; 0: non difettoso)

per conoscere la vera proporzione p di pezzi difettosi, basterrebbe osservaretutta la POPOLAZIONE = tutti i pezzi prodotti in un mese classificandoli come 1(difettosi) o 0 (non difettosi) e si calcola la proporzione, cioè il PARAMETRO p

della popolazione

per vari motivi, non si può osservare tutta la popolazione, ma un CAMPIONE(x1, . . . , xn) di n bulloni prodotti in un mese

Dato il campione, si cerca di conoscere la popolazione:

STIMA PUNTUALE: stimare un valore per p

INTERVALLI DI CONFIDENZA: stimare un intervallo di valori per p

TEST DI IPOTESI: verificare che p < 0.15 per sincerarsi che il processoproduttivo è buono

Statistica, CLEM – p. 3/88

Page 4: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Problema inferenziale (2)

Consideriamo gli iscritti al primo anno del CLEM. Siamo interessati a conoscere l’altezzamedia dei maschi µM e l’altezza media delle femmine µF . Inoltre vogliamo verificareche in media i maschi sono più alti delle femmine.

Problema inferenziale:

stimare due valori per µF e µM

stimare due intervalli di valori per µF e µM

verificare l’ipotesi che i maschi sono in media più alti delle femmine

Statistica, CLEM – p. 4/88

Page 5: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Interpretazione del problema inferenziale (2)

Ci sono due variabili casuali continue M = altezza dei maschi e F= altezza dellefemmine

per conoscere le vere altezze medie µF e µM , basterrebbe osservare laPOPOLAZIONE dei MASCHI = altezza di tutti i maschi iscritti al primo anno e laPOPOLAZIONE delle FEMMINE = altezza di tutte le femmine iscritte al primoanno. Facendo le medie dei dati osservati, si ottengono i PARAMETRI µF e µM

delle due popolazioni

per vari motivi, non si possono osservare entrambe le popolazioni, ma dueCAMPIONI (m1, . . . , mn) e (f1, . . . , fm) rispettivamente di n e m dimensioni

Dati i due campioni, si cerca di conoscere i parametri di entrambe le popolazioni:

STIMA PUNTUALE: stimare due valori per µM e µF

INTERVALLI DI CONFIDENZA: stimare due intervalli di valori per µM e µF

TEST DI IPOTESI: verificare che µM − µF > 0 per attestare che effettivamente imaschi in media sono più altri delle femmine

Statistica, CLEM – p. 5/88

Page 6: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Perché il campione

Le indagini svolte sull’intera popolazione sono dette censuarie poiché svolte attraversodei CENSIMENTI. Ma spesso può convenire osservare solo un sottoinsieme dellapopolazione, cioé un CAMPIONE

costi elevati di un censimento

tempi lunghi di un censimento

la popolazione può essere infinita

Statistica, CLEM – p. 6/88

Page 7: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Campione probabilistico

Un campione (X1, . . . , Xn) è probabilistico quando è nota la probabilità di ogni singolaunità di entrare a far parte del campione

PRIMA dell’estrazione delle n unità il campione

(X1, . . . , Xn)

è una variabile casuale perché non sappiamo esattamente le unità che farannoparte del campione

DOPO l’estrazione delle n unità il campione (x1, . . . , xn) contiente delleosservazioni e non è più una variabile casuale

(X1 = x1, . . . , Xn = xn)

Statistica, CLEM – p. 7/88

Page 8: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Campionamento casuale semplice

Un CAMPIONE (X1, . . . , Xn) è detto CASUALE SEMPLICE quando ogni unità dellapopolazione ha la stessa probabilità di entrare a far parte del campione. Consideriamodue tecniche di campionamento

estrazione con reinserimento

estrazione senza reinserimento

Nel primo caso si ha un campione casuale semplice perché ogni unità mantiene lastessa probabilità di entrare a far parte del campione. Nel secondo caso non si ha uncampione casuale semplice perché, a seguito di ogni estrazione, varia la probabilitàdelle singole unità di entrare a far parte del campione.Le differenze fra le due tecniche sono minime quando si hanno popolazioni molto grandi.

In generale consideriamo sempre CCS (campioni casuali semplici) ottenuti con

estrazione con reinserimento

estrazione senza reinserimento in grandi popolazioni

Statistica, CLEM – p. 8/88

Page 9: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Struttura probabilistica del CCS

Data una popolazione per una variabile casuale X con distribuzione di probabilitàpX(x), un CCS, PRIMA dell’estrazione, è una successione di variabili casuali

X1, . . . , Xi, . . . , Xn, i = 1, . . . , n

X1, . . . , Xn sono i.i.d.

ogni Xi ha la stessa distribuzione di probabilità della popolazione pXi(xi)

per l’indipendenza, la distribuzione di probabilità del campione è

pX1,...,Xn(x1, . . . , xn) =

n∏

i=1

pXi(xi)

DOPO l’estrazione, il campione non è più una variabile casuale, ma unasuccessione di osservazioni con cui fare inferenza sulla popolazione

x1, . . . , xi, . . . , xn, i = 1, . . . , n

Statistica, CLEM – p. 9/88

Page 10: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Come fare inferenza

Supponiamo di considerare una variabile casuale X= altezza ed ipotizziamoX ∼ N(µ, σ2).

effettuiamo un CCS X1, . . . , Xnosserviamo n unità x1, . . . , xn

Cerchiamo un criterio per utilizzare i dati del CAMPIONE per fare inferenza suiPARAMETRI media µ e varianza σ2 della POPOLAZIONE

Cerchiamo degli indicatori sintetici da calcolare nel campione che possono darciinformazioni sui parametri

STATISTICHE CAMPIONARIE

Statistica, CLEM – p. 10/88

Page 11: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Statistica campionaria

Una statistica campionaria T (X1, . . . , Xn) è una funzione che dipende solo dai dati delcampione e non da variabili incognite. Dato un CCS X1, . . . , Xn

la media campionaria: X = 1n

∑2i=1 Xi

la varianza campionaria: S2 = 1n−1

∑ni=1(Xi − X)2 oppure

S2 = 1n

∑ni=1(Xi − X)2

la mediana campionaria

semisomma dei valori estremi: (Xmax − Xmin)/2

...

Struttura probabilistica della statistica campionaria

PRIMA dell’estrazione del campione T (X1, . . . , Xn) è una variabile casualeottenuta come combinazioni di variabili casuali Xi la cui funzione di distribuzioneè quella della popolazione

DOPO l’estrazione del campione, T (x1, . . . , xn) = t non è una variabile casuale,ma è il valore t che la statistica campionaria assume nel campione estratto.

Statistica, CLEM – p. 11/88

Page 12: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Stimatore di un parametro

Lo stimatore è una statistica campionaria T (X1, . . . , Xn) che viene utilizzata perstimare (dedurre informazioni) il parametro della popolazione.

Esempio. Sia X ∼ Be(p). Sia x1, . . . , xn un CCS osservato del tipo 1, 0, 0 . . . , 1.Si vuole trovare uno stimatore per p, parametro che rappresenta la proporzione disuccessi nella popolazione. Un possibile stimatore è la statistica campionaria

p =1

n

n∑

i=1

xi

Esempio. Sia X ∼ N(0, σ2). Sia x1, . . . , xn un CCS osservato. Si vuole trovare uno

stimatore per σ2, parametro che rappresenta la variabilità nella popolazione. Possibilistimatori sono

S2 =1

n

n∑

i=1

(xi − 0)2, S2 =1

n − 1

n∑

i=1

(xi − 0)2, T = (Xmax − Xmin)/2

Statistica, CLEM – p. 12/88

Page 13: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Come si sceglie lo stimatore?

si devono studiare le proprietà degli stimatori e scegliere quello con le proprietàpiù desiderabili

per conoscere le proprietà degli stimatori è necessario conoscere la loro strutturaprobabilistica, cioè la loro distribuzione di probabilità

dato che è nota la distribuzione di probabilità della popolazione, si può dedurreanche la distribuzione di probabilità di una statistica campionaria, poiché questaè funzione del CCS X1, . . . , Xn composto di var. casuali i.i.d.

Alcune proprietà di uno stimatore

correttezza

efficienza

consistenza

Statistica, CLEM – p. 13/88

Page 14: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Correttezza di uno stimatore (1)

Sia X una variabile casuale con distribuzione di probabilità pX(x | θ) con parametro θ.Sia T una funzione del campione X1, . . . , Xn usata come stimatore di θ. Se pT (t | θ)

è la distribuzione di probabilità dello stimatore T , questo è corretto o non distorto se

E(T ) = θ

Esempio. Sia T = X la media campionaria usata come stimatore di θ. Se T è corretto,significa che in media riproduce il valore di θ:

si estraggono m = 1000 campioni x1, . . . , xnin ogni campione si calcola la media campionaria x1, . . . , xm

la media di tutte le medie è uguale a θ

1

m

m∑

j=1

xj = θ

Statistica, CLEM – p. 14/88

Page 15: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Correttezza di uno stimatore (2)

1 1.2 1.4 1.6 1.8 2 2.20

1

2

3

4

T

densità

T 1 T 2

theta = 1.6 T 1 è corretto T 2 non è corretto

Statistica, CLEM – p. 15/88

Page 16: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Efficienza di uno stimatore (1)

Sia X una variabile casuale con distribuzione di probabilità pX(x | θ) con parametro θ.Siano T1 e T2 due possibili stimatori di θ. Se pT1

(t1 | θ) pT2(t2 | θ) sono le distribuzioni

di probabilità dei due stimatori, T1 è più efficiente di T2

V(T1) < V(T2)

Esempio. Siano T1 = X la media campionaria e T2 = Me la mediana campionaria,due stimatori di θ. X è più efficiente di Me se è meno variabile:

si estraggono m = 1000 campioni x1, . . . , xnin ogni campione si calcolano i due stimatori x1, . . . , xm, me1, . . . , mem

si calcolano la varianze σ2T1

e σ2T2

per entrambe le successioni di stimatori

la media campionaria è più efficiente delle mediana campionaria se

σ2T1

< σ2T2

N.B. L’efficienza di uno stimatore è definita in termini relativi (rispetto ad altri stimatori) enon in termini assoluti.

Statistica, CLEM – p. 16/88

Page 17: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Efficienza di uno stimatore (2)

1 1.2 1.4 1.6 1.8 2 2.20

2

4

6

8

T

densità

T 1

T 2

VAR(T1) < VAR(T2)

Statistica, CLEM – p. 17/88

Page 18: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Errore quadratico medio (1)

L’errore quandratico medio di uno stimatore T di un parametro θ consideracongiuntamente sia l’efficienza sia la distorsione dello stimatore

MSE(T ) = E(T − θ)2 = V(T ) + D(T )2

dove D(T ) = E(T ) − θ. Se uno stimatore è corretto, D(T ) = 0, quindi l’errorequadratico medio coincide con la varianza

MSE(T ) = V(T ), per stimatori non distorti

Siano T1 e T2 due possibili stimatori di θ. Lo stimatore T1 è migliore di T2 se

MSE(T1) < MSE(T2)

Se T1 e T2 sono due stimatori corretti di θ, si ritorna alla definizione di efficienza, per cuilo stimatore T1 è migliore di T2 se

V(T1) < V(T2)

Statistica, CLEM – p. 18/88

Page 19: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Errore quadratico medio (2)

Anche se T1 è distorto, è comunque migliore di T2 perché ha una maggiore efficienza.

1 1.2 1.4 1.6 1.8 2 2.20

2

4

6

8

T

densità

T 1

T 2

theta = 1.60 E(T1) = 1.70 E(T2) = 1.60 V(T1) < V(T2) MSE(T1) < MSE(T2)

Statistica, CLEM – p. 19/88

Page 20: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Consistenza (1)

La consistenza è una proprietà asintotica, nel senso che vale per campioni molto grandi,cioè quando n → ∞.

Indichiamo con Tn lo stimatore calcolato su campioni di dimensioni n. Uno stimatore Tn

di un parametro θ è consistente quando

limn→∞

P (| Tn − θ |< ε) = 1, ε è un numero piccolissimo positivo

Questo significa che quando il campione è molto grande

tende ad 1 la probabilità che la stima Tn = t cade in un intervallo molto piccolodel parametro θ

la stima Tn = t ottenuta attraverso uno stimatore consistente è molto vicina alvalore vero del parametro θ.

Statistica, CLEM – p. 20/88

Page 21: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Consistenza (2)

1.3 1.4 1.5 1.6 1.7 1.8 1.9 20

5

10

15

20

25

30

35

40

T

densità

n = 50

n = 200 n = 100

theta = 1.60

Statistica, CLEM – p. 21/88

Page 22: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

La distribuzione degli stimatori

Dato uno stimatore Tn, per conoscere le sue proprietà è necessario conoscere la suadistribuzione di probabilità.

Studiamo la distribuzione di probabilità e le proprietà dei seguenti stimatori

X = 1n

∑ni=1 Xi

S2 = 1n−1

∑ni=1(Xi − X)2

S2 = 1n

∑ni=1(Xi − X)2

p =∑n

i=1 Xi, quando X è una variabile binaria discreta (0, 1)

Statistica, CLEM – p. 22/88

Page 23: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

La distrib. della media campionaria X (1)Sia X una variabile casuale con E(X) = µ e V(X) = σ2 e sia X1, . . . , Xn un CCScon variabili i.i.d.

Consideriamo la variabile casuale media campionaria

X =1

n

n∑

i=1

Xi

dato che il campione CS è costituito di variabili i.i.d.

E(X) = 1n

∑ni=1 E(Xi) = nµ

n= µ: X è uno stimatore CORRETTO di µ

V(X) = 1n2

∑ni=1 V(Xi) = nσ2

n2= σ2

n

N.B. Notare che la media campionaria X ha una variabilità inferiore alla variabile X

V(X) =σ2

n< V(X) = σ2

Statistica, CLEM – p. 23/88

Page 24: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

La distrib. della media campionaria X (2)Se X una variabile casuale normale, X ∼ N(µ, σ2) e se X1, . . . , Xn è unCCS, la media campionaria

X =1

n

n∑

i=1

Xi

è una combinazione di variabili casuali i.i.d. Per le proprietà della normale

X ∼ N(µ, σ2/n)

Se X è variabile casuale qualsiasi con E(X) = µ e V(X) = σ2, la mediacampionaria è sempre una combinazione di variabili i.i.d., ma potremmo nonconoscere la distribuzione esatta di X

ma se il campione è abbastanza grande, per il TLC (teorema del limite centrale),la distribuzione di X si approssima con una distribuzione normale

X → N(µ, σ2/n)

Statistica, CLEM – p. 24/88

Page 25: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

La media campionaria per una pop. normale

1 1.5 2 2.50

2

4

6

8

10

12

14

16

18

20

densità

X

T = media campionaria

X = N(1.60, 0.2)

T = N(1.60, 0.2/10)

Statistica, CLEM – p. 25/88

Page 26: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

La distribuzione della stat. campionaria S2

Sia X una variabile casuale normale N(µ, σ2) e sia X1, . . . , Xn un CCS con variabilii.i.d.. Consideriamo la statistica campionaria

S2 =1

n

n∑

i=1

(Xi − X)2

dato che il campione CS è costituito da variabili i.i.d., si dimostra che

nS2

σ2∼ χ2

(n−1), N.B. solo se X ∼ N

da cui si può facilmente verificare che S2 è uno stimatore DISTORTO di σ2

E(nS2

σ2) = n − 1, E(S2) =

n − 1

nσ2 < σ2

Quindi lo stimatore distorto S2 tende a sottostimare σ2.

Statistica, CLEM – p. 26/88

Page 27: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

La distribuzione della stat. campionaria S2

Sia X una variabile casuale normale N(µ, σ2) e sia X1, . . . , Xn un CCS con variabilii.i.d.. Consideriamo la statistica campionaria

S2 =1

n − 1

n∑

i=1

(Xi − X)2

dato che il campione CS è costituito da variabili i.i.d., si dimostra che

(n − 1)S2

σ2∼ χ2

(n−1), N.B. solo se X ∼ N

da cui si può facilmente verificare che S2 è uno stimatore CORRETTO di σ2

E((n − 1)S2

σ2) = n − 1, E(S2) =

n − 1

n − 1σ2 = σ2

Quindi si predilige S2 come stimatore della varianza σ2.

Statistica, CLEM – p. 27/88

Page 28: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

La distrib. di (n − 1)S2/σ2 per pop. normali

0 5 10 15 20 25 300

0.02

0.04

0.06

0.08

0.1

0.12Distribuzione della varianza campionaria

de

nsi

chi−quadrato n−1 gradi di libertà

Statistica, CLEM – p. 28/88

Page 29: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

La distrib. della proporzione campionaria p

Sia X una variabile casuale binaria X ∼ Be(p) con E(X) = p e V(X) = p(1 − p) e siaX1, . . . , Xn un CCS con variabili i.i.d.

Consideriamo la variabile casuale p = proporzione campionaria di successo

p =1

n

n∑

i=1

Xi

dato che il campione CS è fatto variabili i.i.d. Xi ∼ Be(p),

p ∼ Bin(n, p)

E(p) = 1n

∑ni=1 E(Xi) = np

n= p: p è uno stimatore CORRETTO di p

V(p) = 1n2

∑ni=1 V(Xi) =

np(1−p)

n2=

p(1−p)n

N.B. Se il campione è molto grande, per il TLC p si approssima con una normale

p → N(p,p(1 − p)

n)

Statistica, CLEM – p. 29/88

Page 30: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

La distrib. approssimata di p per vari n

0.35 0.40

20

40

60

80

100

120

140

160

Densità approssimata della proporzione camp.

densi

p = 0.4

p(1−p) = 0.24

N(0.4, 0.24/100)

N(0.4, 0.24/50)

N(0.4, 0.24/30)

n = 100

n = 50

n = 30

Statistica, CLEM – p. 30/88

Page 31: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Stima puntuale

Sia X distribuita con una legge di probabilità pX(x | θ) o funzione di densità fX(x | θ).Sia T (X) uno stimatore di θ e X1, . . . , Xn un CCS. Una volta estratto il campione

X1 = x1, . . . , Xn = xn

la stima puntuale è il valore assunto dallo stimatore nel campione

T (x1, . . . , xn) = t

Si assume t come stima per θ.

L’accuratezza della stima puntuale dipende dall’errore standard della stima

SE(T ) =√

V(T )

Statistica, CLEM – p. 31/88

Page 32: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Stima puntuale della media

Sia X ∼ N(µ, σ2). Supponiamo che σ2 sia noto e l’unico parametro è µ. Una voltaestratto il campione

X1 = x1, . . . , Xn = xn

la stima puntuale è

x =1

n

n∑

i=1

xi

e l’accuratezza della stima di µ è

SE(x) =σ√n

dato che V(X) = σ2

n

Statistica, CLEM – p. 32/88

Page 33: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Stima puntuale di una proporzione

Sia X ∼ Be(p) di parametro p. Una volta estratto il campione

X1 = x1, . . . , Xn = xn

la stima puntuale di p è

p =1

n

n∑

i=1

xi

e l’accuratezza della stima è

SE(p) =

√p(1 − p)

n

dato che V(p) =p(1−p)

n

Statistica, CLEM – p. 33/88

Page 34: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Stima per intervallo (1)

A volte, piuttosto che stimare il parametro con un unico valore (stima puntuale), sipreferisce stimare un intervallo di valori plausibili per il parametro: un intervallo diconfidenza (o fiduciario).

La stima per intervallo si basa su:

uno stimatore T per il parametro θ

la distribuzione di probabilità pT (t | θ) dello stimatore T

un livello di confidenza α = una probabilità che indica l’affidabilità della stima

un intervallo di confidenza: un insieme di valori per θ

Statistica, CLEM – p. 34/88

Page 35: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Stima per intervallo (2)

Sia X una variabile casuale per la popolazione con parametro θ non noto. Sia T unostimatore corretto di θ, E(T ) = θ, e X1, . . . , Xn un CCS.

PRIMA dell’estrazione del campione, T è una variabile casuale che consideriamostandardizzata e per la quale possiamo definire un intervallo (a, b) tale che

P (a ≤ T − θ

SE(T )≤ b) = 1 − α, con α abbastanza piccolo

P (T − a × SE(T ) ≤ θ ≤ T + b × SE(T )) = P (a′ ≤ θ ≤ b′) = 1 − α

Gli estremi dell’intervallo (a′, b′) dipendono da T e sono anche loro variabili casuali.

α = P [θ /∈ (a′, b′)], 1 − α = P [θ ∈ (a′, b′)]

α = probabilità di estrarre un certo campione in cui T = t da cui deriva un intervallo[t − a × SE(t), t + b × SE(T )] che non contiene il parametro θ, quindi produce unastima per intervallo errata

Statistica, CLEM – p. 35/88

Page 36: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Intervallo di confidenza

PRIMA dell’estrazione del campione,

P (T − v ≤ θ ≤ T + k) = 1 − α, v = a × SE(T ), k = b × SE(T )

(T − v, T + k) è un intervallo i cui estremi sono variabili casuali

1 − α = probabilità si estrarre un certo campione in cui T = t da cui deriva unastima per intervallo intervallo (t − v, t + k) che contiene il parametro θ.

DOPO l’estrazione del campione CS x1, . . . , xn(t − v, t + k) è l’intervallo di confidenza i cui estremi sono valori certi, non piùvariabili casuali

per un α molto piccolo 0.10, 0.05, 0.01, abbiamo che la probabilità a priori diestrarre un campione che genera un intervallo che non contiene θ è bassissma,perciò ’confidiamo’ nel fatto che

θ ∈ (t − v, t + k)

Statistica, CLEM – p. 36/88

Page 37: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Intervallo di confidenza (2)

Consideriamo una variabile casuale X ∼ N(µ, 1) con varianza nota. Sia X1, . . . , Xnun CCS e sia T ∼ N(µ, 1/n) lo stimatore media campionaria per il parametro µ. Seα = 0.05 = 5%,

P (a ≤ T − µ√1/n

≤ b) = P (T − a ×√

1/n ≤ µ ≤ T + b ×√

1/n) = 0.95 = 95%

In pratica, supponiamo di estrarre 1000 campioni:

950 di questi campioni generano una stima T = t tale che la stima per intervalloè corretta

θ ∈ (t − a ×√

1/n, t + b ×√

1/n)

50 di questi campioni generano una stima T = t tale che la stima per intervallo èerrata

θ /∈ (t − a ×√

1/n, t + b ×√

1/n)

Statistica, CLEM – p. 37/88

Page 38: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Come si scelgono a e b?

Consideriamo α = 0.10

P (a ≤ T − µ√1/n

≤ b) = P (a ≤ Z ≤ b) = 90%

Ci sono tantissimi intervalli (a, b) che soddisfano quella condizione

P (−2.05 ≤ Z ≤ 1.41) = P (−1.48 ≤ Z ≤ 1.88) = P (−1.64 ≤ Z ≤ 1.64) = 90%

L’intervallo di confidenza ’migliore’ di solito è quello simmetrico, cioè quello per cui laprobabilità α = 10% si divide a metà

P (−1.64 ≤ Z ≤ 1.64) = 90%

P (Z ≤ −1.64) = α/2 = 5%, P (Z <≥ −1.64) = α/2 = 5%

Statistica, CLEM – p. 38/88

Page 39: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Alcuni intervalli per α = 0.10

Quello in rosso è l’intervallo simmetrico (−1.64, 1.64)

−4 −3 −2 −1 0 1 2 3 40

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4Int. Confidenza, alpha = 10%

Z

de

nsi

−4 −3 −2 −1 0 1 2 3 40

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

Z

de

nsi

alpha = 2% + 8%

alpha = 5%+ 5%

alpha = 7% + 3%

IC = (−2.05, 1,41)

IC = (−1.64, 1,64)

IC = (−1.48, 1,88)

Statistica, CLEM – p. 39/88

Page 40: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Intervallo di confidenza simmetrico

Consideriamo una variabile casuale X ∼ N(µ, 1) con varianza nota. Sia X1, . . . , Xnun CCS e sia T ∼ N(µ, 1/n) lo stimatore media campionaria per il parametro µ.L’intervallo di confidenza simmetrico si ottiene

P (−zα/2 ≤ T − µ√1/n

≤ zα/2) = P (T − zα/2 ×√

1/n ≤ µ ≤ T + zα/2 ×√

1/n) = 1−α

Se α = 0.05, z0.025 = 1.96 e −z0.025 = −1.96. L’intervallo di confidenza casuale è

(T − 1.96 ×√

1/n, T + 1.96 ×√

1/n)

poiché

P (−1.96 ≤ T − µ√1/n

≤ 1.96) = 1 − 5% = 95%

Una volta estratto un campione x1, . . . , xn in cui T = t, la stima per intervallo delparametro µ è data dall’intervallo di confidenza

µ ∈ (t − 1.96 ×√

1/n, t + 1.96 ×√

1/n)

Statistica, CLEM – p. 40/88

Page 41: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Alcuni valori zα/2 per una normale standard

−3 −2 −1 0 1 2 30

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

−1.64 1.64

90%

5% 5%

Normale Standard

−3 −2 −1 0 1 2 30

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

−1.96 1.96

95%

2.5% 2.5%

Normale Standard

−3 −2 −1 0 1 2 30

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

−2.57 2.57

99%

0.5% 0.5%

Normale Standard

Statistica, CLEM – p. 41/88

Page 42: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

IC per la media µ in caso di varianza nota

IC per µ di pop. normale con varianza nota

Sia X ∼ N(µ, σ2) con varianza σ2 nota

Sia X ∼ N(µ, σ2/n) lo stimatore per il parametro µ

Sia x1, . . . , xn un CCS estratto in cui X = x

L’intervallo di confidenza simmetrico è

(x − 1.64 × σ/√

n, x + 1.64 × σ/√

n), per α = 10%

(x − 1.96 × σ/√

n, x + 1.96 × σ/√

n), per α = 5%

(x − 2.57 × σ/√

n, x + 2.57 × σ/√

n), per α = 1%

IC per µ di pop. non normale con varianza nota e grandi campioni

Gli stessi intervalli si possono usare per ottenere IC asintotici per il parametroE(X) = µ anche per variabili casuali X NON NORMALI, ma solo nel caso diGRANDI CAMPIONI (n abbastanza grande). Poiché, per il teorema del limitecentrale

X =1

n

n∑

i=1

Xi si approssima con N(µ, σ2/n) per n grande

Statistica, CLEM – p. 42/88

Page 43: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Stima giusta o errata?

IC rossi sono stime errate di µ generate da campioni in cui t = x è poco probabile

0.5 1 1.5 2 2.50

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2Stime per intervallo corrette ed errate

T

mu = 1.60

t = 1.80

t = 1.40

t = 2.10

t = 0.90

Statistica, CLEM – p. 43/88

Page 44: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

IC per la media µ con varianza non nota (1)

IC per µ di pop. normale con varianza non nota

Sia X ∼ N(µ, σ2) con varianza σ2 non nota

usiamo S2 = 1n−1

∑ni=1(Xi − X)2 come stimatore di σ2

Sia X lo stimatore per il parametro µ, se X ∼ N , si dimostra che

X − µ

S/√

n∼ tn−1, t − Student con n − 1 g.l.

Sia x1, . . . , xn un CCS estratto in cui X = x e S2 = s2

L’intervallo di confidenza simmetrico è

(x − t(n−1),α/2 × s/√

n, x + t(n−1),α/2 × s/√

n)

(x − 1.83 × s√

n, x + 1.83 × s/√

n), per α = 10% e n = 10

(x − 2.26 × s/√

n, x + 2.26 × s/√

n), per α = 5% e n = 10

(x − 3.25 × s/√

n, x + 3.25 × s/√

n), per α = 1% e n = 10

Statistica, CLEM – p. 44/88

Page 45: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

IC per la media µ con varianza non nota (2)

IC per µ di pop. non normale con varianza non nota e grandi campioni

Nel caso di grandi campioni, sia che X sia normale sia che X sia non normale,per il teorema del limite centrale

X − µ

S/√

nsi approssima con N(0, 1)

L’intervallo di confidenza asintotico e simmetrico per µ è quindi

(x − zα/2 × s/√

n, x + zα/2 × s/√

n)

Ad esempio, con n = 10 con α = 5%, IC per µ è

(x − 1.96 × s/√

n, x + 1.96 × s/√

n)

Statistica, CLEM – p. 45/88

Page 46: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

IC per la proporzione p in grandi campioni

Sia X ∼ Be(p) una variabile binaria (0, 1) e sia X1, . . . , Xn un CCS

Sia p = 1n

∑ni=1 Xi lo stimatore per il parametro p. Per il teorema del limite

centralep − p√p(1−p)

n

si approssima con N(0, 1)

Sia x1, . . . , xn un GRANDE CAMPIONE estratto in cui si calcola p

L’intervallo di confidenza asintotico e simmetrico è

(p − zα/2 ×√

p(1 − p)

n, p + zα/2 ×

√p(1 − p)

n)

(p − 1.64 ×√

p(1−p)n

, p + 1.64 ×√

p(1−p)n

), per α = 10%

(p − 1.96 ×√

p(1−p)n

, p + 1.96 ×√

p(1−p)n

), per α = 5%

(p − 2.57 ×√

p(1−p)n

, p + 2.57 ×√

p(1−p)n

), per α = 1%

Statistica, CLEM – p. 46/88

Page 47: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

IC per la varianza σ2 in pop. normali (1)IC per σ2 di pop. normale con µ non nota

Sia X ∼ N(µ, σ2) con µ non nota

usiamo S2 = 1n−1

∑ni=1(Xi − X)2 come stimatore di σ2. Si ha che

(n − 1)S2

σ2∼ χ2

n−1, chi-quadrato con n − 1 g.l.

per un certo α

P [χ2(n−1),1−α/2 ≤ (n − 1)S2

σ2≤ χ2

(n−1),α/2] = 1 − α

P [(n − 1)S2/χ2(n−1),α/2 ≤ σ2 ≤ (n − 1)S2/χ2

(n−1),1−α/2] = 1 − α

Sia x1, . . . , xn un CCS estratto in cui S2 = s2

L’intervallo di confidenza simmetrico è

[(n − 1)s2/χ2(n−1),α/2, (n − 1)s2/χ2

(n−1),1−α/2]

Statistica, CLEM – p. 47/88

Page 48: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

IC per la varianza σ2 in pop. normali (2)(9s2/16.92, 9s2/3.33), per α = 10% e n = 10

(9s2/19.02, 9s2/2.70), per α = 5% e n = 10

(9s2/23.59, 9s2/1.73), per α = 1% e n = 10

IC per σ2 di pop. normale con µ nota

Se X ∼ N(µ, σ2) dove µ è nota, la differenza è che

(n − 1)S2

σ2∼ χ2

n, chi-quadrato con n g.l.

quindi, per un certo valore s2 ed un certo α, IC simmetrico per σ2 è

[(n − 1)s2/χ2n,α/2, (n − 1)s2/χ2

n,1−α/2]

Statistica, CLEM – p. 48/88

Page 49: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Quantili χ2

9,α/2e χ2

9,1−α/2

0 5 10 15 20 25 300

0.02

0.04

0.06

0.08

0.1

0.12Chi−quadro con 9 gradi di libertà

IC 99%

IC 95%

IC 90%

Statistica, CLEM – p. 49/88

Page 50: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

IC per µX − µY : pop. normali, var. note

IC per µX − µY con X ∼ N(µX , σ2X) e Y ∼ N(µY , σ2

Y ), con X ⊥⊥ Y

Siano le varianze σ2X e σ2

Y note

Siano X ∼ N(µX , σ2X/n) e Y ∼ N(µY , σ2

Y /m) gli stimatori di µX e µY

Siano x1, . . . , xn e y1, . . . , ym due CCS indipendenti in cui X = x e Y = y

Per l’indipendenza si ha che

(X − Y ) − (µX − µY )√σ2

X

n+

σ2

Y

m

∼ N(0, 1)

L’intervallo di confidenza simmetrico è

[(x − y) − 1.64 ×√

σ2

X

n+

σ2

Y

m, (x − y) + 1.64 ×

√σ2

X

n+

σ2

Y

m], per α = 10%

[(x − y) − 1.96 ×√

σ2

X

n+

σ2

Y

m, (x − y) + 1.96 ×

√σ2

X

n+

σ2

Y

m], per α = 5%

[(x − y) − 2.57 ×√

σ2

X

n+

σ2

Y

m, (x − y) + 2.57 ×

√σ2

X

n+

σ2

Y

m], per α = 1%

Statistica, CLEM – p. 50/88

Page 51: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

IC per µX − µY : pop. normali, var. non note

IC per µX − µY con X ∼ N(µX , σ2X) e Y ∼ N(µY , σ2

Y ), con X ⊥⊥ Y

Siano le varianze non note ma uguali σ2 = σ2X = σ2

Y (omoschedasticità)

Assumiamo come stimatore per la varianza comune

S2p =

(n − 1)S2X + (m − 1)S2

Y

n + m − 2

Siano X ∼ N(µX , σ2X/n) e Y ∼ N(µY , σ2

Y /m) gli stimatori di µX e µY

Siano x1, . . . , xn e y1, . . . , ym due CCS indipendenti in cui X = x e Y = y

Se X ed Y sono normali ed indipendenti si ha che

(X − Y ) − (µX − µY )√S2

p( 1n

+ 1m

)∼ tk, k = n + m − 2

L’intervallo di confidenza simmetrico è

[(x − y) − tk,α/2 ×√

s2p(

1

n+

1

m), (x − y) + tk,α/2 ×

√s2p(

1

n+

1

m)]

Statistica, CLEM – p. 51/88

Page 52: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

IC per µX − µY per grandi campioni (1)

IC per µX − µY per popolazioni non normali con varianze note e grandi campioni

Anche se X ed Y sono NON NORMALI, ma INDIPENDENTI, per costruireintervalli di confidenza per il parametro µX − µY si può comunque utilizzare ladistribuzione Normale, ma solo nel caso di GRANDI CAMPIONI, poiché, per ilteorema del limite centrale

(X − Y ) − (µX − µY )√σ2

X

n+

σ2

Y

m

si approssima con N(0, 1) per n ed m grandi

L’intervallo di confidenza asintotico e simmetrico è

[(x − y) − zα/2 ×

√σ2

X

n+

σ2Y

m, (x − y) + zα/2 ×

√σ2

X

n+

σ2Y

m]

Statistica, CLEM – p. 52/88

Page 53: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

IC per µX − µY per grandi campioni (2)

IC per µX − µY per popolazioni non normali con varianze non note e grandi campioni

Consideriamo S2X ed S2

Y come stimatori corretti per σ2X e σ2

Y

Anche se X ed Y sono NON NORMALI, ma INDIPENDENTI, per costruireintervalli di confidenza per il parametro µX − µY si può comunque utilizzare ladistribuzione Normale, ma solo nel caso di GRANDI CAMPIONI, poiché, per ilteorema del limite centrale

(X − Y ) − (µX − µY )√S2

X

n+

S2

Y

m

si approssima con N(0, 1) per n ed m grandi

L’intervallo di confidenza asintotico e simmetrico è

[(x − y) − zα/2 ×

√s2X

n+

s2Y

m, (x − y) + zα/2 ×

√s2X

n+

s2Y

m]

Statistica, CLEM – p. 53/88

Page 54: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Decisioni in condizioni di incertezza

Un’azienda che produce pezzi di ricambio per auto ha acquistato un nuovo macchinarioper realizzare tali pezzi in una lega più leggera di alluminio. Vuole testare e valutare ilnuovo processo produttivo sulla base dei pezzi prodotti. Valuta che

in media i pezzi dovrebbero pesare µ = 1.5 kg

se i pezzi pesano in media più o meno di 1.5 kg, il processo produttivo vafermato e revisionato.

La decisione si basa su un campione scelto casualmente di n = 50 pezzi prodotti: comesi fa a prendere una decisione?

1. si osserva il peso dei 16 pezzi x1, . . . , x16, si calcola la media e, se x 6= 1.5,allora si decide di fermare il processo produttivo

2. dato che non si conosce l’intera popolazione, la decisione deve tenere contodell’incertezza dovuta alla stima campionaria: x può essere diverso da 1.5 nelcampione, ma la media nella popolazione µ potrebbe comunque essere 1.5

3. per decidere se fermare o no la produzione sulla base del campione, ènecessario definire una regola che tiene conto dell’errore campionario x − µ

Statistica, CLEM – p. 54/88

Page 55: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Verifica di ipotesi

Sia X un certo fenomeno casuale oggetto di interesse (peso dei pezzi prodotti) di cui siconosce la famiglia di distribuzione di probabilità pX(x | θ) o fX(x | θ), ma non siconosce il valore del parametro θ.

Si vuole verificare una certa ipotesi su θ sulla base di un campione di osservaioni. Laverifica di ipotesi si basa su:

uno stimatore T per θ

la distribuzione fT (t | θ) dello stimatore T

l’ipotesi nulla H0 : θ = θ0

l’ipotesi alternativa H1

semplice: H1 : θ = θ1

unidirezionale: H1 : θ > θ0 o H1 : θ < θ0

bi-direzionale: H1 : θ 6= θ0

una regola per prendere una decisione sulla base del campione estratto:accettare H0 o rifiutare H0

la probabilità α di commettere un errore nel prendere una decisione: rifiutare H0

anche se è vera.

Statistica, CLEM – p. 55/88

Page 56: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Sistema di ipotesi

L’ipotesi nulla H0 : θ = θ0 esprime ciò che ci interessa verificare. Nell’esempioprecedente:

H0 : µ = 15

L’ipotesi alternativa H1 smentisce l’ipotesi nulla ed indica altri possibili valori perθ diversi da θ0. Nell’esempio precedente:

H1 : µ = 30 o H1 : µ > 15 o H1 < 15 o H1 6= 15

Esempio:

Sia X = il peso dei pezzi prodotti e sia x1, . . . , x16 un campione di 50 pezzi osservati.Assumiamo che X ∼ N(µ, 4) con µ non nota. Prendiamo X come stimatore di µ:

X ∼ N(µ, 4/16)

Dato che nel campione osservato x = 14, serve una REGOLA per decidere se

accettare H0 : µ = 15 e non fermare il processo produttivo

rifiutare H0 poiché µ 6= 15 e fermare il processo produttivo

Statistica, CLEM – p. 56/88

Page 57: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Regola decisionale (1)

Sia Ω lo spazio campionario, cioè l’insieme di tutti i possibili campioni x1, . . . , xn

che si possono estrarre

La regola va definita sullo spazio Ω il quale viene diviso in due parti disgiunte edesaustive, Ω = A ∪ R, A ∩ R = ∅

A: l’insieme dei campioni per cui si accetta H0

R: l’insieme dei campioni per cui si rifiuta H0

Consideriamo il sistema di ipotesi

H0 : θ = θ0, H1 : θ 6= θ0.

e lo stimatore T di θ che in ogni campione x1, . . . , xn assume un certo valore t. Laregola dovrebbe essere definita in modo tale che

per ogni campione contenuto in A, t deve essere abbastanza vicino a θ0

per ogni campione contenuto in R, t deve essere abbastanza diverso da θ0

Statistica, CLEM – p. 57/88

Page 58: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Regola decisionale (2)

La regola deve essere definita in modo tale che campioni che producono stime T = t peril parametro θ molto vicine (diverse) a θ0 portano ad accettare (rifiutare) l’ipotesi nulla H0

Si considera la distribuzione di probabilità fT (t | θ0) dello stimatore T quando èvera H0

sulla base di fT (t | θ0), la regola definisce

A: zona di accettazione, cioè i valori di T per cui si accetta H0

R: zona di rifiuto o zona critica, cioè i valori di T per cui si rifiuta H0

se H0 è vera, A è un insieme di valori di T molto probabili secondo la funzionefT (t | θ0)

se H0 è vera, R è un insieme di valori di T poco probabili secondo la funzionefT (t | θ0)

Statistica, CLEM – p. 58/88

Page 59: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Zona R di rifiuto e zona di A accettazione

Sia X ∼ N(µ, 4) e X ∼ N(µ, 4/16) lo stimatore di µ. Vogliamo verificare l’ipotesi

H0 : µ = 15, contro H1 : µ 6= 15

13 13.5 14 14.5 15 15.5 16 16.5 170

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6Distribuzione della media camp. sotto l’ipotesi nulla

densi

media campionaria

A R R

A: insieme di molto probabili e R: insieme di poco probabili se è vera H0

Statistica, CLEM – p. 59/88

Page 60: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Livello di significatività α e valori critici

Il livello di significatività α è una probabilità da cui derivano i valori critici xα/2 chedelimitano la zona di rifiuto (zona critica) R e di accettazione A

13 13.5 14 14.5 15 15.5 16 16.5 170

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6Distribuzione della media camp. sotto H0 densi

media campionaria

A R

H0

R

alpha = 10%

90% 5% 5%

14.5 = valore critico15.5 = valore critico

xα/2 = (14.5, 15.5)

R : (−∞, 14.5) ∪ (15.5, +∞) ⇒ P (X ∈ R) = 0.10 = α: prob. di rifiutare H0

A : (14.5, 15.5) ⇒ P (X ∈ A) = 0.90 = 1 − α: prob. di accettare H0

Statistica, CLEM – p. 60/88

Page 61: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Errori di I e II tipo

R : (−∞, 14.5) ∪ (15.5, +∞), A : (14.5, 15.5)

Se estraggo un campione x1, . . . , x16 in cui = 14.8, ACCETTO H0 perchéx ∈ A. Se

se H0 è vera prendo una decisione corretta

se H0 è falsa prendo una decisione errata

Se estraggo un campione x1, . . . , x16 in cui x = 15.9, RIFIUTO H0 perchéx ∈ R. Se

se H0 è vera prendo una decisione errata

se H0 è falsa prendo una decisione corretta

Nel prendere queste decisioni si possono commettere due errori:

ERRORE di I tipo: rifiuto H0 ma è vera

ERRORE di II tipo: accetto H0 ma è falsa

Statistica, CLEM – p. 61/88

Page 62: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Errore di I tipo

Se estraggo un campione con x = 15.9 o con x = 13.9, questi valori sotto H0 sono pocoplausibili, mentre sono più plausibili sotto H1: RIFIUTO H0

13 13.5 14 14.5 15 15.5 16 16.5 170

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6Distribuzione della media camp. sotto H0 e H1

densi

media campionaria

A R R

H0 H1 H1

se H0 è falsa ho preso una giusta decisione

se H0 è vera ho commesso un ERRORE DI I TIPO

Statistica, CLEM – p. 62/88

Page 63: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Errore di II tipo

Se estraggo un campione con x = 14.8, questo valore sotto H0 è molto plausibile,mentre è poco plausibile sotto H1: ACCETTO H0

13 13.5 14 14.5 15 15.5 16 16.5 170

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6Distribuzione della media camp. sotto H0 e H1

densi

media campionaria

A R R

H0 H1 H1

se H0 è falsa ho commesso un ERRORE DI II TIPO

se H0 è vera ho preso una giusta decisione

Statistica, CLEM – p. 63/88

Page 64: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Test unidirezionale semplice (1)

Verifica di ipotesi unidirezionale semplice con α = 10%

H0 : µ = 15 H1 : µ = 15.6

Il valore critico è xα = 15.3 e la zona di rifiuto o critica è x > 15.3

14 14.5 15 15.5 160

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

de

nsi

tàH0

15.3

alpha = 10%

H1

A R

Statistica, CLEM – p. 64/88

Page 65: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Test unidirezionale semplice (2)

Verifica di ipotesi unidirezionale semplice con α = 5%

H0 : µ = 15 H1 : µ = 14.3

Il valore critico è xα = 14.5 e la zona di rifiuto o critica è x < 14.5

14 14.5 15 15.5 160

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

densi

tàH0

alpha = 5%

H1

AR

Statistica, CLEM – p. 65/88

Page 66: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Probabilità dell’ errore di I e II tipo

PRIMA di estrarre il campione posso calcolare la probabilità di decisioni errate.

P (Errore I tipo) = P (X ∈ R | H0 è vera) = α

P (Errore II tipo) = P (X ∈ A | H0 è falsa) = P (X ∈ A | H1 è vera) = β

PRIMA di estrarre il campione posso calcolare la probabilità di decisioni corrette

P (X ∈ A | H0 è vera) = 1 − α

P (X ∈ R | H1 è vera) = 1 − β: potenza del test

DOPO l’estrazione del campione, si ha un valore preciso X = x per il quale si confidanella decisione presa

ACCETTO H0 se x ∈ A o

RIFIUTO H0 se x ∈ R

sulla base della zona di rifiuto o critica stabilita secondo un livello di significatività α

Statistica, CLEM – p. 66/88

Page 67: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

H0 : µ = 15 H1 : µ = 15.6 xα = 15.3

13.5 14 14.5 15 15.5 160

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

A R

H1 H0 alpha = 10%

beta = 32%

15.3

P (X ∈ R | H0) = P (X > 15.3 | µ = 15) = α = 0.10: prob. errore I tipoP (X ∈ A | H1) = P (X < 15.3 | µ = 15.6) = β = 0.32: prob. errore II tipo

P (X ∈ A | H0) = P (X < 15.3 | µ = 15) = 1 − α = 0.90:P (X ∈ R | H1) = P (X > 15.3 | µ = 15.6) = 1 − β = 0.78: potenza del test

Statistica, CLEM – p. 67/88

Page 68: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Test unidirezionale composto (1)

Verifica di ipotesi unidirezionale semplice con α = 5%

H0 : µ = 15 H1 : µ > 15 (l’ipotesi H1 non è semplice, è definita per ogni µ > 15)

Il valore critico è xα = 15.3 e la zona di rifiuto o critica è x > 15.3

14 15 16 170

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6H0

A R

H1

15.3

alpha = 10%

Statistica, CLEM – p. 68/88

Page 69: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Test unidirezionale composto (2)

Verifica di ipotesi unidirezionale semplice con α = 5%

H0 : µ = 15 H1 : µ < 15 (l’ipotesi H1 non è semplice, è definita per ogni µ < 15)

Il valore critico è xα = 14.5 e la zona di rifiuto o critica è x < 14.5

13 14 15 160

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6H0

AR

H1

14.5

alpha = 5%

Statistica, CLEM – p. 69/88

Page 70: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

H0 : µ = 15 H1 : µ = µ1 < 15

13 14 15 160

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6H0

AR

H1

14.5

alpha = 5%

P (X ∈ R | H0) = P (X < 14.5 | µ = 15) = α = 0.5: prob. errore I tipoP (X ∈ A | H1) = P (X > 14.5 | µ1) = β(µ1): prob. errore II tipo

P (X ∈ A | H0) = P (X > 14.5 | µ = 15) = 1 − α = 0.95:P (X ∈ R | H1) = P (X < 14.5 | µ1) = 1 − β(µ1): potenza del test

Statistica, CLEM – p. 70/88

Page 71: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Test bi-direzionale

Verifica di ipotesi bi-direzionale con α = 10%,

H0 : µ = 15 H1 : µ 6= 15 (l’ipotesi H1 non è semplice, è definita per ogni µ 6= 15)

Abbiamo due valori critici che si ottengono convenzionalmente usando α/2:xα/2 = (14.5, 15.5) e la zona di rifiuto o critica è x < 14.5 ∪ x > 15.5

13 13.5 14 14.5 15 15.5 16 16.5 170

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6Test bi−direzionale con alpha = 10%

H0

AR R

H1 H1

Statistica, CLEM – p. 71/88

Page 72: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

H0 : µ = 15 H1 : µ = µ1 6= 15

13 13.5 14 14.5 15 15.5 16 16.5 170

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6Test bi−direzionale con alpha = 10%

H0

AR R

H1 H1

P (X ∈ R | H0) = P (X > 15.5 ∪ X < 14.5 | µ = 15) = α = 0.10: prob. errore I tipoP (X ∈ A | H1) = P (14.5 < X < 15.5 | µ1) = β(µ1): prob. errore II tipo

P (X ∈ A | H0) = P (14.5 < X < 15.5 | µ = 15) = 1 − α = 0.90

P (X ∈ R | H1) = P (X > 15.5 ∪ X < 14.5 | µ1) = 1 − β(µ1): potenza del test

Statistica, CLEM – p. 72/88

Page 73: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Considerazioni sulla verifica di ipotesi (1)

Data una variabile casuale X con distribuzione di probabilità fX(x | θ), attraverso untest statistico si vuole verificare una certa ipotesi sul parametro θ. Il test di ipotesi dibasa su

un’ipotesi nulla H0 ed un’ipotesi alternativa H1 che sono fra loro incompatibili

uno stimatore T di θ, detto anche statistica test che ha una certa distribuzione diprobabilità fT (t | θ)

un livello di significatività α che, sulla base della distribuzione di probabilitàfT (t | θ0) sotto H0 definisce:

dei valori critici tα oppure tα/2

una zona critica R di rifiuto e una zona di accettazione A per verificarel’ipotesi H0

dato un campione CS x1, . . . , xn in cui T = t

se t ∈ A, si accetta H0

se t ∈ R si rifiuta H0

Statistica, CLEM – p. 73/88

Page 74: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Considerazioni sulla verifica di ipotesi (2)

La regola decisionale del test che porta ad accettare/rifiutare l’ipotesi nulla, dipende solo

dal livello di significatività α

dalla distribuzione fT (t | θ0) sotto H0

L’ipotesi alternativa H1 consente

di valutare l’errore di II tipo β e la potenza del test 1 − β

di capire la direzione del test (unidirezionale o bi-direzionale)

Si possono commettere due errori, le cui probabilità PRIMA di estrarre il campione sono:

P (T ∈ R | H0) = α: prob. errore di I tipo

P (T ∈ A | H1) = β: prob. errore di II tipo

DOPO l’estrazione del campione, dato il valore della statistica test T = t, si valuta se

accettare H0: il test non è significativo al livelllo α

rifiutare H0: il test è significativo al livello α

N.B. Al variare di α, varia la regione critica R e con lo stesso campione si possonoprendere decisioni diverse

Statistica, CLEM – p. 74/88

Page 75: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

H0 : µ = 15 H1 : µ = 15.6

Dato un campione CS in cui x = 15.4,

il test è significativo (rifiuto H0) al livello α = 10%

il test è non significativo (accetto H0) al livello α = 1%

13 14 15 16 170

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6H1 H0 alpha = 10%

valore critico = 15.64beta = 53%

15.64 16.16

alpha = 1% valore critico = 15.6beta = 87%

Statistica, CLEM – p. 75/88

Page 76: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Test per la media µ con varianza nota (1)

Test per H0 : µ = µ0 in pop. normale con varianza nota

Sia X ∼ N(µ, σ2) con varianza σ2 nota

Sia X ∼ N(µ, σ2/n) la statistica test per µ e α il livello di significatività del test

Sia x1, . . . , xn in cui X = x Il valore standardizato di x sotto H0 è

z =x − µ0

σ/√

n,

0 1 2 3 4 5 6 7 8 9 100

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0.18

0.2Media campionaria, N(5,4)

5.5 3.3

P(T > 5.5)= 0.4 P(T > 3.3) = 0.80

−3 −2 −1 0 1 2 30

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4Media campionaria standardizzata, N(0,1)

0.25 −0.85

z = (5.5 − 5)/2) = 0.25P(Z > 0.25)= = 0.4

z = (3−3 − 5)/2) = − 0.85P(Z > − 0.85)= = 0.80

Statistica, CLEM – p. 76/88

Page 77: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Test per la media µ con varianza nota (2)

H0 : µ = 5 H1 : µ > 5

Per α = 5%, i valori critici sono zα sulla N(0, 1),xα = µ0 + zασ/

√n = 5 + 1.64 ∗ 2 = 8.3 sulla N(5, 2)

−3 −2 −1 0 1 2 3 4 5 6 7 8 9 100

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4Media camp. standardizzata, N(0,1) e Media campionaria, N(5,4)

alpha = 5%

8.3 1.64

N(0,1) valore critico: 1.64R: z > 1.64

N(5,4) valore critico: 8.3 R: t > 8.3 = 1.64*2 + 5

Statistica, CLEM – p. 77/88

Page 78: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Test per la media µ con varianza nota (3)

se H1 : µ = µ1 > µ0, o H1 : µ ≥ µ0, il valore critico per un certo α èzα:A = (−∞, zα), R = (zα, +∞)

rifiuto H0 se z > zα

se H1 : µ = µ1 < µ0, o H1 : µ ≤ µ0, il valore critico per un certo α è−zα:A = (zα, +∞), R = (−∞,−zα)

rifiuto H0 se z < −zα

se H1 : µ 6= µ0, i valori critici per un certo α sono ±zα/2:A = (−zα/2, zα/2), R = (−∞,−zα/2) ∪ (zα/2, +∞)

rifiuto H0 se z < −zα/2 o z > zα/2

Test per µ di pop. non normale con varianza nota e grandi campioni

Per il TLC si può usare lo stesso test asintotico per la verifica di ipotesi delparametro E(X) = µ anche per variabili NON NORMALI in GRANDI CAMPIONI.

Statistica, CLEM – p. 78/88

Page 79: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Alcuni valori critici zα

Test unidirezionali

−3 −2 −1 0 1 2 30

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4Test inidirezionale a sinistra

alpha = 10%

alpha = 5% alpha = 1%

−2.32 −1.64 −1.28 −3 −2 −1 0 1 2 30

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

−3 −2 −1 0 1 2 30

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4Test unidirezionale a destra

1.28 1.64 2.32

alpha = 10%

alpha = 5%

alpha = 1%

Statistica, CLEM – p. 79/88

Page 80: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Alcuni valori critici zα/2

Test bi-direzionali

−3 −2 −1 0 1 2 30

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4Test bi−direzionali

alpha = 10%

alpha = 5% alpha = 1%

−2.57 −1.64 −1.96 1.64 1.96 2.57

Statistica, CLEM – p. 80/88

Page 81: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Test per la media µ con varianza non nota (1)

Test per H0 : µ = µ0 in pop. normale con varianza non nota

Sia X ∼ N(µ, σ2) con varianza σ2 non nota

con S2 come stimatore di σ2 e X come stimatore di µ, sotto H0

t =X − µ0

S/√

n∼ tn−1, t − Student con n − 1 g.l.

Dato un campione CS in cui X = x, per un certo α fissato

se H1 : µ = µ1 > µ0, o H1 : µ ≥ µ0,

rifiuto H0 se t > tα

se H1 : µ = µ1 < µ0, o H1 : µ ≤ µ0,

rifiuto H0 se t < −tα

se H1 : µ 6= µ0,

rifiuto H0 se t < −tα/2 o t > tα/2

Statistica, CLEM – p. 81/88

Page 82: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Test per la media µ con varianza non nota (2)

Test per µ di pop. non normale con varianza non nota e grandi campioni

Nel caso di grandi campioni, sia che X sia normale sia che X sia non normale,per il TLC, sotto H0

z =X − µ0

S/√

nsi approssima con N(0, 1)

Il test asintotico per µ si può fare utilizzando la distribuzione normale. Per un certo α

se H1 : µ = µ1 > µ0, o H1 : µ ≥ µ0,

rifiuto H0 se z > zα

se H1 : µ = µ1 < µ0, o H1 : µ ≤ µ0,

rifiuto H0 se z < −zα

se H1 : µ 6= µ0,

rifiuto H0 se z < −zα/2 o z > zα/2

Statistica, CLEM – p. 82/88

Page 83: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Test per la proporzione p in grandi campioni

Sia X ∼ Be(p) una variabile binaria (0, 1) e sia X1, . . . , Xn un CCS

Sia p = 1n

∑ni=1 Xi lo stimatore per il parametro p. Per il TLC, sotto H0 : p = p0

z =p − p0√p0(1−p0)

n

si approssima con N(0, 1)

Sia x1, . . . , xn un GRANDE CAMPIONE estratto in cui si calcola p e z

Il test asintotico per un certo α fissato è

se H1 : p = p1 > p0, o H1 : p ≥ p0,

rifiuto H0 se z > zα

se H1 : p = p1 < p0, o H1 : p ≤ p0,

rifiuto H0 se z < −zα

se H1 : p 6= p0,

rifiuto H0 se z < −zα/2 o z > zα/2

Statistica, CLEM – p. 83/88

Page 84: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Test per µX − µY : pop. normali, var. note

Test per H0 : µX − µY = 0 con X ∼ N(µX , σ2X) e Y ∼ N(µY , σ2

Y ), con X ⊥⊥ Y

Siano le varianze σ2X e σ2

Y note

Siano X ∼ N(µX , σ2X/n) e Y ∼ N(µY , σ2

Y /m) gli stimatori di µX e µY

Siano x1, . . . , xn e y1, . . . , ym due CCS indipendenti in cui X = x e Y = y

Per l’indipendenza si ha che, sotto H0

z =X − Y√σ2

X

n+

σ2

Y

m

∼ N(0, 1)

Il test per un certo α fissato èse H1 : µX − µY > 0,

rifiuto H0 se z > zα

se H1 : µX − µY < 0,

rifiuto H0 se z < −zα

se H1 : µX − µY 6= 0,

rifiuto H0 se z < −zα/2 o z > zα/2

Statistica, CLEM – p. 84/88

Page 85: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Test per µX −µY : pop. normali, var. non note

Test per H0 : µX − µY = 0 con X ∼ N(µX , σ2X) e Y ∼ N(µY , σ2

Y ), con X ⊥⊥ Y

Siano le varianze non note ma uguali σ2 = σ2X = σ2

Y (omoschedasticità)

Assumiamo come stimatore per la varianza comune

S2p =

(n − 1)S2X + (m − 1)S2

Y

n + m − 2

Siano X ∼ N(µX , σ2X/n) e Y ∼ N(µY , σ2

Y /m) gli stimatori di µX e µY

Siano x1, . . . , xn e y1, . . . , ym due CCS indipendenti in cui X = x e Y = y

Se X ed Y sono normali ed indipendenti si ha che, sotto H0

t =X − Y√

S2p( 1

n+ 1

m)∼ tk, k = n + m − 2

Statistica, CLEM – p. 85/88

Page 86: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Test per µX −µY : pop. normali, var. non note

Il test per un certo α fissato è

se H1 : µX − µY > 0,

rifiuto H0 se t > tα

se H1 : µX − µY < 0,

rifiuto H0 se t < −tα

se H1 : µX − µY 6= 0,

rifiuto H0 se t < −tα/2 o t > tα/2

Statistica, CLEM – p. 86/88

Page 87: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Test per µX − µY per grandi campioni (1)

Test per H0 : µX − µY = 0 per popolazioni non normali con varianze note e grandi campioni

Anche se X ed Y sono NON NORMALI, ma INDIPENDENTI, per costruireintervalli di confidenza per il parametro µX − µY si può utilizzare la distribuzioneNormale, perché per il TLC, nel caso di GRANDI CAMPIONI, sotto H0

z =X − Y√σ2

X

n+

σ2

Y

m

si approssima con N(0, 1) per n ed m grandi

Il test per un certo α fissato è

se H1 : µX − µY > 0,

rifiuto H0 se z > zα

se H1 : µX − µY < 0,

rifiuto H0 se z < −zα

se H1 : µX − µY 6= 0,

rifiuto H0 se z < −zα/2 o z > zα/2

Statistica, CLEM – p. 87/88

Page 88: STATISTICA INFERENZIALE - stat.unibo.it · STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene

Test per µX − µY per grandi campioni (2)

Test per H0 : µX − µY = 0 per popolazioni non normali con varianze non note e grandi campioni

Consideriamo S2X ed S2

Y come stimatori corretti per σ2X e σ2

Y

Anche se X ed Y sono NON NORMALI, ma INDIPENDENTI, il test asintoticoper µX − µY si può fare usando la distribuzione Normale, perché per il TLC, nelcaso di GRANDI CAMPIONI, sotto H0

z =X − Y√S2

X

n+

S2

Y

m

si approssima con N(0, 1) per n ed m grandi

Il test asintotico per un certo α fissato è

se H1 : µX − µY > 0,

rifiuto H0 se z > zα

se H1 : µX − µY < 0,

rifiuto H0 se z < −zα

se H1 : µX − µY 6= 0,

rifiuto H0 se z < −zα/2 o z > zα/2

Statistica, CLEM – p. 88/88