- 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE...

58
- 1 - ELEMENTI DI STATISTICA = = = 6 1 1 172 28.7 6 6 i i x x = = 6 1 1 Γ( , ) 6 i i i XY xy xy = = = 6 1 1 6 i i y y ( ) = = 6 2 2 2 1 1 6 i i σ Y y y ( ) ( ) = Γ (,) (,) XY ρ XY σ X σ Y ( ) 5 2 2 1 1 5 i i k sm mf m = =

Transcript of - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE...

Page 1: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 1 -

ELEMENTI DI STATISTICA

=

= = ≅∑6

1

1 172 28.76 6i

ix x

=

⎛ ⎞= −⎜ ⎟⎝ ⎠∑

6

1

1Γ( , )6 i i

iX Y x y xy

=

= =∑6

1

16 i

iy y ( )

=

⎛ ⎞= −⎜ ⎟⎝ ⎠∑

62 2 2

1

16 i

iσ Y y y

( ) ( )=

Γ( , )( , ) X Yρ X Yσ X σ Y ( )

52 2

1

15 i i

ks m m f m

=

⎛ ⎞= −⎜ ⎟

⎝ ⎠∑

Page 2: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 2 -

Elementi di statistica descrittiva

I dati riportati sotto si riferiscono a 20 studenti universitari che frequentavano un corso di Statistica e sono stati raccolti facendo compilare ad ogni studente il seguente modulo:

SESSO ALTEZZA PESO CORSO LAUREA

NUMERO SCARPA

COLORE OCCHI

COLORE CAPELLI

ATT SPORTIVA DIPLOMA

CORSO LAUREA M= matematica B = biologia I = informatica

COLORE OCCHI 1 = scuri 2 = verdi 3 = azzurri

COLORE CAPELLI 1 = scuri 2 = castani 3 = biondi

ATT.SPORTIVA 1 = nulla 2 = media 3 = alta

DIPLOMA 1 = liceo scientifico 2 = liceo classico 3 = ist. tecnico 4 = ist. magistrale 5 = altro

Tabella dei dati: N SESSO

ALTEZZA

(cm) PESO (kg)

CORSO LAUREA

NUMERO SCARPA

COLORE OCCHI

COLORE CAPELLI

ATT SPORTIVA

DIPLOMA

1 M 179 65 I 43 1 1 2 3 2 M 180 62 I 43 1 1 2 3 3 F 165 50 I 39 1 2 1 1 4 F 160 49 I 37 2 2 2 3 5 F 160 47 M 37 3 3 2 5 6 F 160 48 M 36 1 3 2 1 7 F 164 56 M 38 2 2 2 2 8 F 170 57 M 38 1 2 2 1 9 M 180 73 M 43 2 2 1 1 10 M 186 86 M 45 3 1 1 3 11 M 170 66 M 42 1 2 2 1 12 M 180 68 I 41 1 1 3 3 13 M 180 85 I 43 1 2 2 3 14 F 176 56 I 37 1 3 2 1 15 M 170 72 I 42 2 2 2 5 16 M 180 65 I 42 1 1 1 3 17 M 170 75 I 41 1 1 2 3 18 M 172 70 I 40 1 2 1 1 19 M 178 80 I 45 1 2 1 3 20 F 162 49 B 37 1 1 2 2

VARIABILI QUALITATIVE:

SESSO

CORSO LAUREA

COLORE OCCHI

COLORE CAPELLI

ATT SPORTIVA

DIPLOMA

VARIABILI QUANTITATIVE:

ALTEZZA (cm)

PESO (kg)

NUMERO SCARPA

Page 3: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 3 -

STATISTICA DESCRITTIVA PER VARIABILI QUALITATIVE

Sesso conteggi percentuale

M 12 60 F 8 40

totale 20 100

CLaurea conteggi percentuale

B 1 5 I 12 60 M 7 35

totale 20 100

Diploma conteggi percentuale 1 7 35 2 2 10 3 9 45 4 0 0 5 2 10

totale 20 100

Att.Sport. conteggi percentuale

1 6 30 2 13 65 3 1 5

totale 20 100

Occhi conteggi percentuale

1 14 70 2 4 20 3 2 10

totale 20 100

Capelli conteggi percentuale

1 7 35 2 10 50 3 3 15

totale 20 100

Page 4: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 4 -

Relazioni fra variabili qualitative

Tabella di contingenza ( variabili sesso e corso di laurea) SESSO/C.LAUREA B I M Totale

F 1 3 4 8 M 0 9 3 12

Totale 1 12 7 20

Tabella percentuale SESSO/C.LAUREA B I M Totale

F 5 15 20 40 M 0 45 15 60

Totale 5 60 35 100

Tabella profili riga SESSO/C.LAUREA B I M Totale

F 12.5 37.5 50 100 M 0 75 25 100

Totale 5 60 35 100

Tabella profili colonna SESSO/C.LAUREA B I M Totale

F 100 25 57.1 40 M 0 75 42.9 60

Totale 100 100 100 100

Page 5: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 5 -

Rappresentazione grafica di variabili qualitative

ISTOGRAMMA

CLaurea conteggi percentuale B 1 5 I 12 60 M 7 35

totale 20 100

Occhi conteggi percentuale scuri 14 70 verdi 4 20

azzurri 2 10 totale 20 100

Page 6: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 6 -

ESERCIZIO

La tabella seguente riporta i dati di 20n = individui. La variabile Reddito è suddivisa nelle tre classi, a reddito crescente, 1, 2 e 3; la variabile Auto indica il numero di auto possedute dal nucleo familiare di cui la persona fa parte.

N

SESSO

REDDITO

AUTO

FUMATORE

1 M 1 1 NO 2 M 3 1 NO 3 F 3 2 NO 4 F 2 0 SI 5 F 3 3 NO 6 F 1 1 NO 7 M 2 1 NO 8 F 1 2 SI 9 F 2 1 SI 10 F 1 0 NO 11 M 2 1 SI 12 M 1 2 NO 13 M 1 2 SI 14 M 2 0 NO 15 F 3 3 NO 16 M 1 1 NO 17 M 3 2 NO 18 F 1 2 SI 19 F 2 0 SI 20 F 3 3 NO

1. Costruire le tabelle di contingenza e percentuali per ognuna delle variabili. 2. Costruire un istogramma dei conteggi per ognuna delle variabili. 3. Costruire un istogramma percentuale per ognuna delle variabili. 4. Costruire la tabella congiunta (conteggi e percentuale) per le variabili Sesso e

Fumo. 5. Costruire la tabella congiunta (conteggi e percentuale) per le variabili reddito e

Auto. 6. Costruire un istogramma della variabile reddito ripartito per la variabile Auto.

Page 7: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 7 -

Risoluzione di alcune parti dell’esercizio Punti 1 e 2

Sesso conteggi percentuale M 9 45 F 11 55

totale 20 100

Reddito

conteggi percentuale

1 8 40 2 6 30 3 6 30

totale 20 100

fumatori conteggi percentuale

no 13 65 si 7 35

totale 20 100

Auto conteggi percentuale

0 4 20 1 7 35 2 6 30 3 3 15

totale 20 100

Page 8: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 8 - Punto 4

Tabella dei conteggi SESSO/FUMO SI NO Totale

F 5 6 11 M 2 7 9

Totale 7 13 20

Tabella percentuale SESSO/FUMO SI NO Totale

F 25 30 55 M 10 35 45

Totale 35 65 100 Punto 6

Page 9: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 9 -

STATISTICA DESCRITTIVA PER VARIABILI QUANTITATIVE Si effettuano 40n = misurazioni di una variabile quantitativa (numero di fiori di una pianta rilevati ogni 24 ore) e si ottengono i seguenti risultati (l’ordine di lettura è da sinistra a destra e dall’alto in basso):

0 2 1 4 3 1 2 3 8 2 5 2 1 3 3 1 3 2 2 5 4 4 4 2 3 5 5 1 1 2 2 4 4 2 3 3 3 3 3 2

Questa variabile puó assumere solo valori interi. La tabella seguente rappresenta la distribuzione di frequenza: num. fiori Freq. Assoluta Freq. Relativa Freq. percentuale Freq. % cumulata

0 1 0.025 2.5 2.5 1 6 0.150 15 17.50 2 11 0.275 27.5 45 3 11 0.275 27.5 72.50 4 6 0.150 15 87.50 5 4 0.100 10 97.50 8 1 0.025 2.5 100

totale 40 1.000 100 ****** Per variabili che hanno valori non solo interi (ad esempio altezza e peso) la scelta dei valori della prima colonna della tabella deve essere effettuata da chi fa l’analisi.

Page 10: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 10 -

INDICI DI POSIZIONE

Si indica con x1, x2, ..., xn il valore di una variabile quantitativa rilevata su n individui (osservazioni). Media campionaria La media campionaria é:

1

1=

= ∑n

ii

x xn

La media x ha la stessa unità di misura dei dati ix . Esempio: 10n = osservazioni

5.2 2.3 1 5.3 3 1.8 7.3 2.9 2.9 5.4

10

1

1 5 2 2 3 1 5 3 3 1 8 7 3 2 9 2 9 5 4 3 7110 10=

+ + + + + + + + += = =∑ . . . . . . . . .i

ix x

Mediana: è un valore che divide in parti uguali i dati ordinati: cioè metà di essi sono minori o uguale e metà sono maggiori o uguali Per calcolare il valore della mediana:

si ordinano in modo crescente i dati; se n é dispari la mediana é il valore del dato che occupa il posto centrale; se n é pari la mediana é la media aritmetica del valore dei due dati che occupano i

due posti “centrali”. Esempio: 9n = osservazioni

5.2 2.3 1 5.3 1.8 7.3 2.9 2.9 5.4 Dati ordinati in modo crescente:

1 1.8 2.3 2.9 2.9 5.2 5.3 5.4 7.3 Mediana: 2.9 Esempio: 10n = osservazioni

5.2 2.3 1 5.3 3 1.8 7.3 2.9 2.9 5.4 Dati ordinati in modo crescente:

1 1.8 2.3 2.9 2.9 3 5.2 5.3 5.4 7.3

Mediana: 2.9 3 2.95

2+

=

Page 11: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 11 -

INDICI DI DISPERSIONE

Varianza campionaria

( )2

2 1

n

ii

x x

nσ =

−=∑

oppure ( )

22 2

22 1 1 1

n n n

i i ii i i

x x xx

n n nσ = = =

⎛ ⎞⎜ ⎟⎜ ⎟= − = −⎜ ⎟⎜ ⎟⎝ ⎠

∑ ∑ ∑

Scarto quadratico medio σ

2σ σ=

La varianza 2σ ha come unità di misura il quadrato dell’unità di misura dei dati

ix ; lo scarto σ ha la stessa unità di misura dei dati.

Quantili: il quantile pQ di ordine p è un valore che è preceduto dal %p dei dati campionari e seguito dagli altri.

Se si vuole calcolare il quantile di ordine p si deve: 1. Ordinare i valori delle osservazioni in senso crescente. 2. Calcolare il valore np . 3. Se np é un intero, posto =k np , il quantile di ordine p é la media fra

kx e +1kx . 4. Se np non é intero, posto k l’intero successivo a np , allora il quantile di

ordine p é kx . Il -esimop quantile viene detto anche 100 -esimop percentile. Il 25°, il 50° e il 75° percentile vengono chiamati rispettivamente primo, secondo, e terzo quartile; sono indicati con 1Q , 2Q e 3Q rispettivamente.

Esempio: 10n = osservazioni ordinate in modo crescente

1 1.8 2.3 2.9 2.9 3 5.2 5.3 5.4 7.3

quartile 1Q 2Q 3Q valore 2.3 2.95 5.3

Page 12: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 12 -

ESERCIZIO

La tabella riportata sotto si riferisce alle seguenti variabili riferite a = 20n individui:

Puls1 = pulsazioni cardiache rilevate a riposo Puls2 = pulsazioni cardiache rilevate dopo aver percorso 500m a passo veloce Fumo: 1=fumatore 2=non fumatore Altezza, in cm Peso, in kg Att (attività sportiva): 1=bassa, 2=media, 3=alta

Puls1 Puls2 Fumo Altezza Peso Att 64 88 2 170 64 2 58 70 2 183 66 2 62 76 1 187 73 3 66 78 1 185 86 1 64 80 2 175 70 2 74 84 2 185 75 1 84 84 2 183 68 3 68 72 2 188 86 2 62 75 2 183 89 2 76 118 2 180 63 2 90 94 1 188 73 1 80 96 2 183 70 2 92 84 1 178 69 3 68 76 2 170 66 2 60 76 2 180 77 3 62 58 2 183 79 3 66 82 1 175 79 2 70 72 1 185 77 3 68 76 1 188 82 2 72 80 2 170 61 3

1. Calcolare media e varianza per le variabili quantitative. 2. Calcolare 1Q , 2Q e 3Q per le variabili quantitative. 3. Costruire una tabella percentuale per ognuna delle variabili qualitative. 4. Calcolare media e varianza per Puls1 e Puls2 per ognuno dei valori di Fumo.

Page 13: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 13 -

Calcolo di media e varianza per dati raggruppati Nella tabella seguente sono riportati i dati dei risultati di un esame universitario e il relativo istogramma:

voto Numero studenti

18 6 21 8 22 4 23 10 25 11 26 2 28 9 29 1 30 9

Totali 60 Come posso calcolare la media dei voti avendo a disposizione unicamente questi dati e non le singole osservazioni? Si devono “pesare” i voti rispetto al numero di studenti che hanno ottenuto quel voto. La formula per il calcolo della media sarà quindi:

1

k

i ii

x nx

n==∑

dove: ix rappresenta l’i-esimo valore della variabile k rappresenta il numero dei valori assunti dalla variabile in rappresenta il numero di elementi che assumono il valore ix n é il numero totale di osservazioni

Page 14: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 14 - Il calcolo della media viene agevolato dalla compilazione della tabella

Voto ix

Numero studenti in i ix n

18 6 108 21 8 168 22 4 88 23 10 230 25 11 275 26 2 52 28 9 252 29 1 29 30 9 270

Totali 60 1472 Da essa si ricava:

• 9k = (numero di righe) • 60n = (totale della seconda colonna) e quindi:

9

1 1472 24.560

i ii

x nx

n== = ≅∑

Il caso esaminato sopra é il piú semplice in quanto la variabile VOTO assume solo valori interi. Come si calcola il valore della media della variabile Altezza, i cui dati sono quelli riportati nella tabella dell’esercizio precedente? In questo caso, avendo a disposizione i valori delle 20 osservazioni, si ha che

20

1 1 3619 180.9520 20

n

i ii i

x xx

n= == = = ≅∑ ∑

Se invece i dati sono forniti attraverso la seguente tabella come posso calcolare la media?

Altezza ix 170-174 172 174-178 176 178-182 180 182-188 184

Non é possibile calcolare il valore esatto della media ma si puó calcolarne una approssimazione costruendo una nuova colonna che contiene i valori centrali di ognuna delle classi di Altezza e poi procedere come nel caso precedente.

Page 15: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 15 - In questo caso la nuova tabella diventa:

E il valore (approssimato!) della media é

4

1 1 3616 180.820

k

i i i ii i

x n x nx

n n= == = = =∑ ∑

Si osservi che i valori della media calcolata sui dati originali o utilizzando la tabella precedente sono differenti. Torniamo alla tabella dei dati dei risultati di un esame universitario. Come posso calcolare la varianza (e quindi lo scarto)? Con la formula:

( )22 2 2

1 1

1 1k k

i i i ii i

x x n x n xn n

σ= =

⎛ ⎞ ⎛ ⎞= − = −⎜ ⎟ ⎜ ⎟

⎝ ⎠ ⎝ ⎠∑ ∑

dove: ix rappresenta l’i-esimo valore della variabile k rappresenta il numero delle classi in cui é divisa la variabile in rappresenta il numero di elementi che assumono il valori nella classe -esimai n é il numero totale di osservazioni

Altezza ix in i ix n

170-174 172 3 516 174-178 176 2 352 178-182 180 3 540 182-188 184 12 2208 totale 20 3616

Page 16: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 16 - Il modo piú semplice di effettuare i conti é costruire una nuova tabella:

Voto ix

Numero studenti in i ix n 2

ix 2i ix n

18 6 108 324 1944 21 8 168 441 3528 22 4 88 484 1936 23 10 230 529 5290 25 11 275 625 6875 26 2 52 676 1352 28 9 252 784 7056 29 1 29 841 841 30 9 270 900 8100

Totali 60 1472 36922 Dalla tabella si ricavano, oltre agli elementi già calcolati: 9k = , 60n = e

1472 24.560

x = ≅ , anche 2

2 2 2

1

1 36922 1472 13.4860 60

k

i ii

σ x n xn =

⎛ ⎞ ⎛ ⎞= − = − ≅⎜ ⎟⎜ ⎟ ⎝ ⎠⎝ ⎠∑ e quindi

2 3.67.σ σ= ≅ Si noti che se nel precedente calcolo della varianza invece che il valore esatto

della media 147260

x = si utilizza il suo valore approssimato 24.5 si ottiene:

( )22 2 2

1

1 36922 24.5 15.1260

k

i ii

σ x n xn =

⎛ ⎞= − = − ≅⎜ ⎟⎝ ⎠∑ , commettendo così un errore

percentuale di approssimazione pari a 15.12 13.48 12.17%13.48−

≅ , tutt’altro che

trascurabile. Per il calcolo della varianza della variabile altezza si costruisce la tabella:

Nel caso dei dati non divisi in classi si ha che la varianza vale circa 34.8. Se si utilizza la tabella con i dati divisi in classi si ottiene:

( )22 2 2

1

1 654176 180.8 20.1620

k

i ii

σ x n xn =

⎛ ⎞= − = − ≅⎜ ⎟⎝ ⎠∑

Altezza ix in i ix n 2

ix 2i ix n

172 3 516 29584 88752 176 2 352 30976 61952 180 3 540 32400 97200 184 12 2208 33856 406272

totale 20 3616 654176

Page 17: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 17 - ESERCIZIO La tabella seguente riporta i dati di peso (kg) e altezza (cm) di 30n = bambini.

PESO ALTEZZA 27 125 20 131 21 108 14 102 28 116 18 118 18 108 15 104 15 106 19 108 20 114 19 111 23 125 19 118 25 118 18 108 21 118 20 114 32 116 14 108 21 123 16 111 19 117 15 106 18 116 18 105 20 114 19 111 23 110 17 103

1. Suddividere le variabili in 4 classi di uguale ampiezza e costruire la corrispondente tabella.

2. Calcolare media e varianza delle due variabili prima con i dati della tabella di partenza e poi con quella della tabella con quattro classi.

3. Commentare i risultati ottenuti.

PESO in

Totale 30

ALTEZZA in

Totale 30

Dati originali Dati divisi in classi Media Varianza

Page 18: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 18 -

ESERCIZIO

Sono riportati di seguito le durate, in anni, degli studi compiuti da 20 persone: 13, 18, 18, 13, 8, 8, 13, 8, 8, 8, 13, 19, 14, 8, 8, 14, 8, 13, 20, 8.

Costruire l’istogramma degli anni di studio Dire quante persone hanno studiato almeno 13 anni. Completare la tabella seguente:

Anni di studio ix in i ix n 2

ix 2i ix n

8 13 14 18 19 20

Totali

Utilizzando i valori riportati nella tabella precedente, calcolare: il valore medio del numero di anni di studio (con una cifra decimale); m =

lo scarto quadratico medio del numero di anni di studio (con due cifre decimali) σ =

Page 19: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 19 -

ESERCIZIO

Per un periodo di 20 giorni, il numero di scosse del terreno rilevate da un sismografo; i dati sono i seguenti:

8, 8, 6, 7, 9, 9, 8, 10, 8, 9, 1, 9, 9, 6, 6, 9, 7, 9, 6, 9 Tracciare, in un opportuno sistema d’assi, l’istogramma dei dati rilevati. Per quanti giorni si sono rilevate più di 5 e meno di 10 scosse? Costruire la tabella sotto riportata:

ix in i ix n 2ix 2

i ix n 1 6 7 8 9 10

Totali

Utilizzando i valori determinati nella tabella precedente, calcolare la media e lo scarto quadratico medio del numero di scosse al giorno del terreno.

Page 20: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 20 - Esercizio

La figura riporta l’istogramma del numero di puntate di un cartone animato viste da 20 bambini. a) Dire quanti bambini: - hanno visto 1 puntata; - hanno visto 3 puntate; - hanno visto più di 3 puntate.

Costruire la tabella seguente.

ix in i ix n 2ix 2

i ix n 0 1 2 3 4 5 6

Totali

Utilizzando i valori determinati nella tabella precedente, calcolare la media e lo scarto quadratico medio del del numero di puntate viste dai bambini;

Page 21: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 21 -

Relazioni fra variabili quantitative

Le relazioni fra variabili qualitative vengono esaminate costruendo tabelle congiunte o istogrammi. In che modo puó, ad esempio, essere studiata la relazione fra due variabili quantitative X e Y misurate su n individui o unità statistiche?

Covarianza

( ) ( )( )1 1

1 1Γ ,n n

i i i ii i

X Y x x y y x y x yn n= =

⎛ ⎞= − − = −⎜ ⎟⎝ ⎠

∑ ∑

Il coefficiente di correlazione

( ) ( )( ) ( )Γ ,, X Yρ X Y

σ X σ Y=

La covarianza e la correlazione hanno lo stesso segno. La differenza consiste nel fatto che la correlazione é un indice, cioé un valore indipendente dalle unità di misura delle variabili X e Y . La covarianza ha invece quale unità di misura il prodotto delle unità di misura di X e Y . Si può inoltre verificare che ( )1 , 1ρ X Y− ≤ ≤ . Esempi

Covarianza positiva Correlazione= 0.89 Media di X = 58.1 m Media di Y = 58.6 m

Page 22: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 22 -

Covarianza negativa Correlazione= -0.92 Media di X = 0.018 kg Media di Y = 59 m

Covarianza positiva Correlazione= 0.59 Media di X = 20.3cm Media di Y = 113.8 dl

Page 23: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 23 - ESEMPIO Nella tabella seguente sono riportati i valori di 9n = coppie ( )1 2,x x in cui sono stati cambiati gli appaiamenti fra 1x e 2x .

A B C D 1x 2x 1x 2x 1x 2x 1x 2x

10 8 10 12 10 12 10 16 16 12 16 16 16 24 16 14 19 14 19 8 19 8 19 24 22 16 22 14 22 20 22 20 28 20 28 22 28 14 28 22 31 22 31 30 31 16 31 34 34 24 34 24 34 34 34 12 43 30 43 20 43 22 43 30 49 34 49 34 49 34 49 8 I grafici seguenti rappresentano gli scatterplot di 1x e 2x e il coefficiente di correlazione.

covarianza=86.4 correlazione = 1

covarianza=68.4

correlazione = 0.79

covarianza=51.6

correlazione = 0.60

covarianza=0.0

correlazione = 0.0

Page 24: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 24 - ESERCIZIO I dati seguenti si riferiscono ai costi di produzione di un prodotto rispetto alla quantità giornaliera prodotta:

Costi (Y ) 12 18 6 14 4 6 n.pezzi (X ) 20 24 10 22 14 12

Calcolare il valore medio e la varianza di X e Y . Disegnare il grafico delle variabili. Calcolare il valore della covarianza e della correlazione fra X e Y .

Page 25: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 25 -

Regressione lineare fra variabili quantitative Si effettua una regressione lineare quando si vuole stabilire se esiste un rapporto di dipendenza fra due variabili X e Y rilevate sulle stesse unità statistiche. Si vuole in altre parole stabilire se la variabilità di Y può essere (anche solo in parte) imputata alla variabile X . Si noti che in questo caso non è di interesse stabilire se le variabili X e Y variano in modo congiunto e stabilire il loro grado di associazione. Tecnicamente il problema consiste nel cercare due valori reali a e b tali che la retta y ax b= + passi il più vicino possibile a quasi tutti i punti. La determinazione analitica dei valori di a e b si effettua cercando di minimizzare la quantità seguente:

( )( )21

n

i ii

y ax b=

− +∑

Nota: perché si minimizzano i quadrati delle differenze e non le differenze, e non il valore assoluto delle differenze?

Si può notare che la quantità ( )i iy ax b− + rappresenta la differenza di ordinata fra il valore della retta nel punto ix e il punto iy come riportato nella figura seguente.

I valori di a e b che vengono determinati in modo analitico sono:

( )( )2

Γ ,X Yaσ X

= b y a x= −

e l’equazione della retta:

y ax b= +

Page 26: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 26 - I valori che si ottengono sostituendo i valori di ix nella formula sopra e che rappresentano i valori della variabile Y stimati dalle retta di regressione si indicano con iy ; si ha cioè:

i iy a x b= + Le quantità ˆi i ir y y= − si chiamano residui. I grafici seguenti rappresentano alcuni esempi di scatterplot di variabili X e Y ; sono indicati i coefficienti di correlazione e il grafico delle rette di regressione Y in funzione di X e viceversa.

Page 27: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 27 -

Ad esempio si vuole effettuare una regressione fra le variabili X e Y i cui valori sono riportati in tabella.

X Y 18 433 22 782 27 555 35 232 45 322 55 157 65 158

L’equazione della retta è:

771.4 10.34y x= −

Page 28: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 28 -

Per calcolare i valori dei residui è bene costruire la tabella seguente:

ix iy i iy a x b= + ˆi iy y− 18 433 22 782 27 555 35 232 45 322 55 157 65 158

I segmenti verticali che uniscono i punti ( ),i ix y con i corrispondenti punti

( )ˆ,i ix y presi sulla la retta rappresentano i valori dei residui.

Page 29: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 29 -

ESEMPIO I dati seguenti si riferiscono a due variabili X e Y .

Calcolare media, varianza, minimo, massimo, 1Q e 3Q di X e Y .

Calcolare il coefficiente di correlazione fra X e Y .

Disegnare il grafico delle variabili. Scrivere l'espressione della retta di

regressione di Y in funzione di X e disegnarla nel grafico precedente.

Costruire la tabella dei residui per ognuno dei valori assunti da X .

i X Y 1 16 18 2 28 32 3 33 36 4 31 39 5 31 34

SOLUZIONE Per effettuare i conti è utile costruire la seguente tabella:

i ix iy i ix y 2ix 2

iy 1 16 18 288 256 324 2 28 32 896 784 1024 3 33 36 1188 1089 1296 4 31 39 1209 961 1521 5 31 34 1054 961 1156 6 33 34 1122 1089 1156

totale 172 193 5757 5140 6477

6

1

1 172 28.76 6i

ix x

=

= = ≅∑ ( )6

1

1Γ , ...6 i i

iX Y x y x y

=

⎛ ⎞= − =⎜ ⎟⎝ ⎠∑

6

1

1 ...6 i

iy y

=

= =∑ ( )6

2 2 2

1

1 ...6 i

iσ Y y y

=

⎛ ⎞= − =⎜ ⎟⎝ ⎠∑

( ) ( )( ) ( )Γ ,, ...X Yρ X Y

σ X σ Y= =

Media Varianza Minimo Massimo 1Q 3Q X 28.7 34.9 16 33 28 31 Y 18 39 32 39

Page 30: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 30 -

i coefficienti della retta di regressione sono.

( )( )2

Γ , ...X Yaσ X

= = ...b y a x= − =

l’equazione della retta di regressione è:

y ax b= + =

Tabella dei residui

i ix iy i iy a x b= + ˆi iy y− 1 16 18 2 28 32 3 33 36 4 31 39 5 31 34 6 33 34

Page 31: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 31 -

Esercizio I dati seguenti si riferiscono ai costi di produzione di un prodotto rispetto alla quantità giornaliera prodotta:

Costi (Y ) 2 8 6 4 4 6 n.pezzi (X ) 20 24 10 22 14 12

Calcolare il valore medio di X e Y . Disegnare il grafico delle variabili X e Y . Calcolare il valore della correlazione fra X e Y . Scrivere l'espressione della retta di regressione di Y in funzione di X . Calcolare il valore del residuo relativo al valore di 24x = .

Esercizio I dati seguenti si riferiscono a valori di un parametro chimico del sangue prima (CH1) e dopo (CH2) aver ingerito un farmaco.

n CH1 CH2 1 66 102 2 70 94 3 96 140 4 62 100 5 78 104 6 82 100 7 100 115 8 68 112

Calcolare il valore medio di CH1 e CH2. Disegnare il grafico delle variabili CH1 e CH2. Calcolare il valore della correlazione fra CH1 e CH2. Scrivere l'espressione della retta di regressione di CH2 in funzione di CH1. Costruire la tabella dei residui per ognuno dei valori assunti da CH1.

Page 32: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 32 -

E L E M E N T I D I S T A T I S T I C A I N F E R E N Z I A L E

La statistica inferenziale si occupa di acquisire conoscenze in condizioni di incertezza. Un problema tipico è quello di ricavare conoscenze circa una o più caratteristiche di un insieme di soggetti, a partire dai valori che tali caratteristiche hanno su una parte di essi. La totalità dei soggetti viene detta popolazione. Sui soggetti di una data popolazione vengono definite le caratterictiche sulle quali si ha interesse ad avere conoscenze: possono essere variabili qualitative e quantitative. Ad esempio, la tabella di pag. 1 del fascicolo di Statistica Descrittiva presenta la scelta di 9 caratteristiche: “SESSO, ALTEZZA, PESO, CORSO DI LAUREA, NUMERO DI SCARPA, COLORE DEGLI OCCHI, COLORE DEI CAPELLI, ATTIVITÀ SPORTIVA, TIPO DI DIPLOMA CONSEGUITO” rilevate su una popolazione costituita da 20 studenti. In generale una popolazione è costituita da un numero ben più elevato di soggetti:

- da alcune migliaia, a milioni o miliardi per popolazioni umane; - possono raggiungere anche numeri più elevati per:

= prodotti industriali o dell’agricoltura; = piante, animali, cellule, batteri, L’osservazione dei valori delle caratteristiche che interessano per tutti i soggetti della popolazione (il censimento) presenta delle difficoltà:

• può non essere conveniente dal punto di vista economico, ma anche dell’organizzazione, tecnico, … e persino legale (una ditta che produca un certo bene può non essere autorizzata a rilevare i dati di reddito dei suoi potenziali clienti);

• può non essere materialmente possibile: come si fa a rilevare la durata della vita, a partire da un preciso istante, di tutte le zanzare che vivono in un grande acquitrino? come si fa a misurare il tempo di funzionamento di lampadine prodotte senza causare la loro distruzione?

La situazione più comune è quella nella quale non si conoscono i valori che le caratteristiche assumono per tutti i soggetti della popolazione.

Page 33: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 33 -

V a r i a b i l i d e l l a p o p o l a z i o n e Tutti gli elementi di statistica descrittiva che abbiamo visto per variabili qualitative o quantitative vengono applicati alle caratteristiche della popolazione; tali valori spesso non sono noti: compito della statistica inferenziale è quello di avere delle conoscenze che li riguardino. Ad esempio, si vorrà sapere:

– se il numero di abitanti della terra che hanno meno di 21 anni è maggiore o minore della metà dell’intera popolazione mondiale (cioè se la mediana della caratteristica “età” è minore o maggiore di 21 anni);

– se un farmaco ha effetti migliori di un altro, nella popolazione italiana; – quanto vale l’altezza media degli italiani.

C a m p i o n i Usualmente si cerca di dare delle risposte rilevando il valore che le caratteristiche hanno di una parte ridotta, opportunamente scelta, della popolazione, detta campione. Non ci occupiamo delle raffinate tecniche che portano a campioni rappresentativi della popolazione cioè effettivamente simili ad essa. Ci limitiamo a quel tipo di campionamento che è alla base di esse: quello costituito dalla scelta casuale di una dato numero n di soggetti della popolazione; occorre fare in modo che ogni volta si fa una scelta ciascun soggetto della popolazione abbia possibilità di essere scelto pari a quella di ogni altro. Per darsi una rappresentazione mentale di cosa sia un campione casuale si immagini di doverne realizzare uno di 100 elementi da una data popolazione. Si etichettano tutti i soggetti della popolazione con un numero progressivo; si imbussolano tutti i numeri in un’urna, e da essa si fanno 100 estrazioni, rimettendo ogni volta il numero estratto nell’urna (così lo stesso numero può uscire più volte). E s e m p i o 1 Popolazione: 4 appartamenti A, B, C, D. Caratteristica oggetto di studio: il numero di vani.

Appartamento numero vani A 2 B 3 C 4 D 4

Page 34: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 34 - Rappresentare in un istogramma la distribuzione del numero di vani della popolazione

La caratteristica X “numero dei vani” è quantitativa: ha media e scarto (ed altri indicatori statistici: 1Q , 2Q , 3Q , ...). In tal senso di parla di:

media, scarto, … della popolazione. Verrano indicate con:

2

: media: varianza: scarto

μ

σσ

la media, la varianza e lo scarto della caratteristica X della popolazione. Quando non vi sono possibili confusioni fra variabili si parla semplicemente di media μ , varianza 2σ e scarto σ della popolazione. Analoghe nomenclature si hanno per altri indicatori: si parla di 1Q , 2Q e 3Q della popolazione. Per due caratteristiche X e Y della popolazione si parla di covarianza ( )Γ ,X Y o di coefficiente di correlazione ( ),ρ X Y , … Calcolare media, varianza e scarto della popolazione.

ix in i ix n 2ix 2

i ix n 2 1 2 3 1 3 4 2 8

Totali 4 13 Valori della popolazione: media μ = varianza 2σ = scarto σ =

Page 35: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 35 -

V a r i a b i l i c a m p i o n a r i e La presente tabella riporta i 16 possibili campioni di due elementi estratti dalla popolazione dell’esempio 1. Per ogni campione ( )1 2,x x , riportare:

– gli appartamenti che lo formano;

– la media 1 2

2x x+ ; la varianza ( )21 2

4x x− ;

– lo scarto 1 2

2x x−

.

Appartamenti Campione

1x , 2x media camp.

1 2

2x x+

var. camp. ( )21 2

4x x−

scarto camp. 1 2

2x x−

A A A B A C A D

2, 2 2, 3

2.0 2.5

0.00 0.25

0.0 0.5

B A B B B C B D

3, 2 3, 3

2.5 3.0

0.25 0.00

0.5 0.0

C A C B C C C D

D A D B D C D D

Page 36: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 36 -

V a r i a b i l e m e d i a c a m p i o n a r i a m Tracciare l’istogramma della media campionaria.

Valore medio m , varianza ( )2σ m e scarto ( )σ m della media campionaria:

Valori im frequenze if i imf 2im 2

i im f 2.0 1 2.5 2 3.0 5 3.5 4 4.0 4

Totali 16

Media della media campionaria 5

1i i

im mf

=

= =∑

Varianza della media campionaria ( )5

2 2 2

1

1i i

is m m f m

n =

⎛ ⎞= − =⎜ ⎟⎝ ⎠∑

Scarto della media campionaria ( ) ( )2s m s m= =

Page 37: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 37 -

V a r i a b i l e s c a r t o c a m p i o n a r i o σ Tracciare l’istogramma dello scarto campionario. Valore medio s , varianza ( )2σ s e scarto ( )σ s dello scarto campionario:

Valori is frequenze if i is f 2is 2

i is f 0.0 6 0.5 6 1.0 4

Totali 16 Media dello scarto campionario s = Varianza dello scarto campionario ( )2σ s = Scarto dello scarto campionario ( )σ s =

Page 38: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 38 -

C o n f r o n t i p o p o l a z i o n e - c a m p i o n i (di numerosità 2n = )

P o p o l a z i o n e media 13 4 3.25μ = =

varianza ( )22 45 4 13 4 11 16σ = − =

11 0.82916

11 0.58632

scarto

n

σ

σ

= =

= =

M e d i a c a m p i o n a r i a Media 52 16 3.25m = =

varianza: ( ) ( )22 174.5 16 13 4σ m = − =

5.5 16 11 32= =

scarto s(m) = 1132

1132

= 0.586…

Non si tratta di una coincidenza; con metodi matematici si può dimostrare che: se μ e σ sono rispettivamente la media e lo scarto di una popolazione, la variabile media campionaria, per campioni di numerosità n , ha media e scarto eguali rispettivamente a:

m μ= ( ) σs mn

=

Se avessimo fatto campioni con molto più di due elementi? Un importante teorema di statistica matematica (Teorema del limite centrale: TLC) dimostra che la forma dell’istogramma che avremmo ottenuto sarebbe “molto vicino” al grafico di una ben determinata funzione:

nσμ − μ

nσμ +

Tale funzione è detta normale (o gaussiana) di media μ e scarto σn

.

Page 39: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 39 - Il TLC afferma che l’istogramma della media campionaria ha forma normale solo per “grandi valori” della numerosità campionaria n :

• in teoria per n che tende ad infinito. • in pratica è sufficiente 40n ≥ , o meglio 50n ≥ .

È nota una formula che espliciti la funzione normale, al variare dei

parametri che la caratterizzano μ e σn

; ma poiché gli aspetti di calcolo ad essa

relativi sono complessi sono state compilate delle tavole numeriche che consentono di fare i calcoli ad essa relativi. Le tavole sono riportate nell’allegato 1; illustriamo dapprima il loro uso, poi torniamo alle applicazioni del TLC. Le tavole riportano i dati di una particolare curva normale (corrispondente a determinati valori di media e scarto): ogni calcolo relativo ad altre curve normali può essere effettuato con quella tabulata, come vedremo fra un attimo. Se z è l’ascissa di un punto, indichiamo con ( )Φ z l’area che nell’intestazione delle tavole è annerita. Le tavole consentono di calcolare ( )Φ z nel modo che esemplifichiamo: z = 1.37 : riga “1.3” colonna “7” si legge ( )Φ 1.37 0.9147 91.47%= =

z = –1.03 : riga “–1.0” colonna “3” si legge ( )Φ 1.03 0.1515 15.15%− = =

Page 40: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 40 - La curva normale è sempre strettamente positiva; l’area che essa sottende su tutto l’asse reale vale 1. Per ogni z è ( )Φ 0z > , tuttavia per 3.9z < − , ( )Φ z è un valore così prossimo a 0 che, con la precisione delle quattro cifre decimali delle tavole, non si distingue da esso; quindi nell’uso di queste tavole si assume

se 3.9z < − allora ( )Φ 0z = ; Per ogni z è ( )Φ 1z < ; tuttavia per alcuni di z , ( )Φ z è un valore così prossimo a 1 che, con la precisione delle quattro cifre decimali delle tavole, non si distingue da esso; quindi nell’uso di queste tavole si assume

se 3.9z > allora ( )Φ 1z = .

Un altro uso delle tavole ci sarà particolarmente utile è il seguente: dato un valore p ( )1o p< < trovare z tale che l’area sottesa dalla curva nomale nelle due “code” che formano la parte esterna all’intervallo ( ),z z− abbia valore p . Un esempio numerico chiarirà il procedimento: se 5%p = (= 0.05), l’area sottesa nell’intervallo ( ),z z− deve valere 95% (perché l’area complessiva = 100%); quella di ciascuno coda 5/2 = 2.5%; quindi l’area sottesa nell’intervallo ( ),z−∞ deve valere 2.5 + 95 = 97.5% = 0.9750, ovvero ( )Φ 0.9750z = . Dalle tavole, 1.96z = .

Page 41: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 41 -

T e o r e m a d e l l i m i t e c e n t r a l e La probabilità ( )P m x≤ che un campione di n elementi tratto da una popolazione di media μ e scarto σ , abbia valore medio minore o uguale ad un valore x è:

( ) Φ x μP m xσ n⎛ ⎞−

≤ = ⎜ ⎟⎝ ⎠

A p p l i c a z i o n i d e l T L C

E s e m p i o 2 La popolazione dei quattro appartamenti dell’esempio 1 ha media 3.25μ = e scarto 11 32 0.586...σ = ≅ La probabilità che un campione di 100 elementi abbia media compresa fra 3.1 e 3.4 vale:

( ) ( ) ( )3.1 3.4 3.4 3.1P m P m P m≤ ≤ = ≤ − ≤ =

( ) ( )3.4 3.25 3.1 3.25Φ Φ Φ 2.56 Φ 2.5611 3200 11 3200

⎛ ⎞ ⎛ ⎞− −= − = − −⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟

⎝ ⎠ ⎝ ⎠

consultando le tavole ricaviamo:

( )3.1 3.4 0.9948 0.0052 0.9896P m≤ ≤ = − =

NOTA La media campionaria ha potere “accentrante”: ben il 98.96% dei campioni (di numerosità 100) hanno valore medio appartenente ad un intervallo di lunghezza molto ridotta: 3.4 – 3.1 = 0.3. Tale risultato non dipende dal numero di appartamenti di cui è formata la popolazione, ma solo dalla sua media e dal suo scarto (oltreché dalla numerosità campionaria). E s e m p i o 3 Una popolazione ha media 3.25 e scarto 11 32 0.586...≅ Quale deve essere la (minima) numerosità campionaria per cui la media campionaria abbia probabilità 90% di essere compresa nell’intervallo (3.2, 3.3)? Ciascuna coda esterna all’intervallo cumula una probabilità (pari all’area da essa sottesa) del 5%, ciò impone alla media campionaria che ( )3.3 95%P m ≤ = .

Page 42: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 42 - Per il TLC:

( ) 3.3 3.25 323.3 Φ Φ 0.05 95%1111 32

nP mn

⎛ ⎞ ⎛ ⎞−≤ = = =⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎝ ⎠⎝ ⎠

Dalle tavole risulta: 320.05 1.6511

n=

(dei due valori sulle tavole, 1.64 corrispondete a 0.9495, e 1.65 che corrisponde a 0.9505 si sceglie il più grande perché evidentemente si vuole che la probabilità che la media campionaria sia nell’intervallo (3.2, 3.3) sia del 90% o, se non è possbile questo valore esatto “sulle tavole”, semmai un poco maggiore). Elevando al quadrato e facendo i conti si ha

22320.05 1.65 da cui 374.34

11n n

⎛ ⎞= =⎜ ⎟

⎝ ⎠

dovendo essere n intero si prenderà 375n = .

P r o b l e m a c e n t r a l e d e l l ’ i n f e r e n z a s t a t i s t i c a Si vuole sapere se per una data popolazione è da ritenersi valida o meno una data ipotesi H . Si considerano:

• l’ipotesi H • i risultati sperimentali E (consistenti o no in un campione) • la probabilità ( )P E H che avrebbe E di verificarsi se H fosse vera.

Si applica il “principio della piccola probabilità”: se ( )P E H ha un valore “piccolo” si rifiuta che H valga in quanto la piccola probabilità ( )P E H indica che o H è falsa, oppure si è verificato un esito sperimentale E che sarebbe raro se H fosse vera. Di fronte all’alternativa che H sia falsa oppure che si sia relizzato un evento raro, si sceglie la prima possibilità e si rigetta l’ipotesi H . Se ( )P E H ha un valore non “piccolo” non si rifiuta H . Nella pratica per decidere se ( )P E H è “piccola” la si confronta con un valore di probabilità a:

• se ( )P E H α≤ SI RIGETTA H ; • se ( )P E H α> NON SI RIGETTA H .

Page 43: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 43 - Il valore α viene detto livello. Nella pratica sono molto usati tre livelli:

5%α = 1%α = 1α = ‰ La scelta di α dipende dallo specifico problema che si vuole affrontare e coinvolge aspetti che in questa sede non è possibile sviluppare. Significato di α . Il criterio di rigetto dell’ipotesi H sopra indicato non garantisce la correttezza del risultato, ma si limita a controllarne la probabilità di errore; un errore possibile consiste nel rifiutare H quando questa in realtà è vera; ebbene, la sua probabilità vale proprio α :

se si opera al livello α , P(rigettare H | H è in realtà vera) = α La probabilità dell’altro possibile errore:

P(non rigettare H | H è in realtà falsa) = β

coinvolge nozioni più complesse; il problema non viene qui affrontato. Tuttavia esso è ampiamente sviluppato in molti problemi di statistica inferenziale e talvolta è possibile operare in modo tale che sia α che β abbiano un valore limitato.

Page 44: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 44 -

T e s t s u l l a m e d i a s c o n o s c i u t a d i u n a p o p o l a z i o n e c o n s c a r t o n o t o .

Una popolazione abbia media sconosciuta e scarto σ noto. Sia data l’ipotesi

H : la media della popolazione ha valore μ Con un campione di numerosità n , di media m, si deve decidere se rigettare o accogliere H , ad un livello dato α . Si calcola un intervallo ( ),I μ x μ x= − + di centro μ ed ampiezza x che contenga la media campionaria con probabilità 1 α− ; cosicché la probabilità che m non appartenga ad I vale α . La regola del test è:

• se la media campionaria APPARTIENE ad I allora NON si rigetta H ; • se la media campionaria NON APPARTIENE ad I allora SI RIGETTA H .

Il calcolo degli estremi dell’intervallo I è facile: se si vuole che:

( ) 1P μ x m μ x α− ≤ ≤ + = − basta imporre, per un ragionamento esposto poco sopra (circa i rapporti fra le probabilità delle “code” e quella dell’intervallo centrale in una normale) che

( ) Φ Φ 1 2μ x μ xP m μ x ασ n σ n

⎛ ⎞ ⎛ ⎞+ −≤ + = = = −⎜ ⎟ ⎜ ⎟

⎝ ⎠ ⎝ ⎠

detto z il corrispondente punto sulle tavole, è x z

σ n=

Ne segue: σx zn

=

In conclusione, il test è il seguente: se la media campionaria

• APPARTIENE all’intervallo ,σ σμ z μ zn n

⎛ ⎞− +⎜ ⎟⎝ ⎠

allora NON si rigetta H ;

• NON appartiene all’intervallo ,σ σμ z μ zn n

⎛ ⎞− +⎜ ⎟⎝ ⎠

allora SI RIGETTA H .

Page 45: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 45 -

E s e m p i o 4 Prima dell’esplosione di una centrale nucleare, i terreni di una certa regione producevano quantità di grano (per una data unità di superficie) il cui valore medio era 200 quintali con uno scarto 15. Ipotizziamo che l’effetto dell’esplosione sia tale da non modificare il valore dello scarto. Non sappiamo se, oltre a cambiamenti nella qualità del prodotto, vi siano stati cambiamenti anche nella quantità. Vengono scelte (a caso) 100 unità di superificie di terreno di quella zona e di ciascuna si osservano le quantità prodotte. Le 100 osservazioni campionarie della produzione unitaria hanno media 196.3. Si può ritenere, al livello del 5%, che la quantità media prodotta sia rimasta invariata? Si tratta di testare, al livello del 5%, l’ipotesi

H : 200μ =

Il valore z fornito dalle tavole è quello che corrisponde alla probabilità 95% + 2.5% = 97.5% = 0.9750;

risulta 1.96z = . In corrispondenza a tale valore di z si ha:

( )15 15, 200 1.96 ,200 1.96 197.06,202.94100 100

σ σI μ z μ zn n

⎛ ⎞⎛ ⎞= − + = − + ≅⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠

Poiché la media campionaria osservata 196.3 non appartiene all’intervallo ( )197.06,202.94 , l’esito del test è che si rigetta l’ipotesi che la media sia rimasta invariata. Si noti come, in forza della potenza del TLC, si può giungere a questa conclusione con poche conoscenze sia sulla popolazione che sul campione:

• della popolazione basta conoscere lo scarto; ogni altra sua proprietà non influenza il risultato;

• del campione basta conoscere il valore medio e la numerosità; gli specifici dati campionari, così come altre sue proprietà, non influenzano il risultato.

Page 46: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 46 -

Il -valuep ( -valorep )

Illustriamo un metodo alternativo per effettuare lo stesso test che fornisce maggiori informazioni: il metodo del -valorep ( -valuep , in inglese).

Dato un campione di numerosità n e di media m , si pone x m μ= − .

( ) Φ Φ Φ m μμ x μ xP m μ xσ n σ n σ n

⎛ ⎞ ⎛ ⎞ ⎛ ⎞− −− − −≤ − = = =⎜ ⎟ ⎜ ⎟ ⎜ ⎟

⎝ ⎠ ⎝ ⎠ ⎝ ⎠

rappresenta la probabilità sottesa dalla sola “coda sinistra” individuata dal valore medio del campione eseguito; se la si moltiplica per 2 si ottiene la probabilità p che un generico campione, di pari numerosità, abbia media m ′ che dista dalla media μ ipotizzata più di quanto non lo faccia m :

-valore 2 Φ m μpσ n

⎛ ⎞− −= ⎜ ⎟

⎝ ⎠

Per concludere il test a livello α si confronta -valorep con α :

• se -valorep α> allora NON si rigetta H ;

• se -valorep α≤ allora SI RIGETTA H .

La conclusione di questo metodo per eseguire il test è, ovviamente, la stessa del metodo precedente, però il -valorep dà delle maggiori informazioni:

il -valorep è uguale al minimo livello del test fra tutti quelli che ci porterebbero a respingere l’ipotesi H .

Esempio 5

Con i dati dell’esempio 4 si ha:

media ipotizzata 200μ = , 15σ = , 100n = , 196.3m = , 5%α = .

( )3.7-valore 2 Φ 2 Φ 2 Φ 2.47 2 0.0068 1.36%15 100

m μpσ n

⎛ ⎞⎛ ⎞− − −= = ≅ − = × =⎜ ⎟⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠

Page 47: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 47 -

Poiche -valore 5%p ≤ , si rigetta l’ipotesi che la media sia rimasta invariata. Ma tale valore mostra che siamo abbondantemente sotto il 5% e molto vicini all’1%: i dati

campionari da noi ottenuti avrebbero una “rarità” dell’1.36% se l’ipotesi µ = 200 fosse valida. Ciò ci può portare ad una maggiore “convinzione” nel rigettare l’ipotesi.

Se, ad esempio, la media riscontrata nel campione fosse stata 192.1m = , certamente saremmo nella zona di rifiuto di H al 5%; ma il -valorep

( )7.9-valore 2 Φ 2 Φ 5.27 015 100

p⎛ ⎞−

= ≅ − ≅⎜ ⎟⎜ ⎟⎝ ⎠

avrebbe valore così piccolo da essere nullo, con l’approssimazione a quattro cifre delle tavole. Ciò ci darebbe una convinzione molto maggiore di rigettare l’ipotesi di quanto ne avremmo eseguendo il test col primo metodo (fatto questo che equivale semplicemente a sapere che -valore 5%p ≤ , senza conoscerne però il valore numerico).

Esercizio 1. Una popolazione ha media sconosciuta e scarto 2.03. 1) Verificare l’ipotesi che la media sia 80, ad un livello del 5%, mediante un campione di 280 elementi, di media 80.2. 2) Quanto vale il -valorep in questa situazione?

Esercizio 2. Una popolazione ha media sconosciuta e scarto 4.11. Si vuole che l’intervallo in cui non viene rigettata l’ipotesi

H : 80μ = al livello dell’1%, abbia lunghezza pari a 1.5. 1) Qual è la minima numerosità campionaria n per cui ciò accade? 2) Il valore di n dipende dal valore ipotizzato 80 della media μ della popolazione?

Page 48: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 48 -

I n d i p e n d e n z a d i d u e v a r i a b i l i

In molti casi sorge il problema di sapere se due variabili sono indipendenti oppure no.

Ad esempio si vorrà sapere se è vero o no che:

– chi fuma ha un rischio di tumori (polmonari e non solo) maggiore (o molto maggiore) di chi non fuma;

– chi usa il casco nei mezzi a due ruote ha un rischio di traumi cranici minore (molto minore) di chi non lo mette;

– chi usa precauzioni igieniche ha rischi minori (o molto minori) di insorgenza di certe malattie di chi non le usa;

– vi sia dipendenza fra la presenza di una data sostanza in un certo ambiente e le possibilità di vita di certe piante o di certi animali in esso viventi.

Per lo studio dell’effetto combinato di due variabili X e Y su una popolazione, si dovrà prendere in considerazione per ogni suo soggetto la coppia “bivariata” di valori (x, y) che esse hanno su di lui (così come nella tabella di pag. 2 ogni soggetto individua i nove valori che le variabili ivi definite assumono su di lui).

Se si potesse fare il censimento dei valori della coppia ( ),X Y allora il problema della indipendenza delle variabili X e Y non sarebbe di inferenza statistica (non ci sarebbero problemi di conoscenza in condizione di incertezza) ma si tratterebbe di trovare un “buon indice” capace di misurare l’indipendenza delle variabili (ad esempio, per variabili quantitative potrebbe venire in mente di utilizzare il coefficiente ( ),ρ X Y , calcolato per tutti i soggetti della popolazione, o altri indici).

Il problema inferenziale nasce, anche in questo caso, dal poter disporre di sole osservazioni campionarie.

Page 49: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 49 -

I l t e s t χ2 d i i n d i p e n d e n z a

A rigore si può applicare solo per due variabili qualitative.

Il suo principio di funzionamento è ancora quello della “piccola probabilità”; schematicamente:

– si fa l’ipotesi H : le variabili X e Y sono indipendenti

– si sceglie un livello α del test (comunemente uno dei valori 5%, 1%, 5‰);

– si fanno le osservazioni E ;

– si la probabilità ( )P E H che esse avrebbero se H fosse vera;

– si confronta tale probabilità con il livello α :

• se ( )P E H α≤ SI RIGETTA H ;

• se ( )P E H α> NON SI RIGETTA H .

Si vuole valutare se vi sia o meno indipenenza fra le due variabili

X settore lavorativo, ripartita nei 4 settori: 1X : Agricoltura 2X : Industria 3X : Servizi commerciali 4X : Servizi non commerciabili

e Y tipo di lavoro, ripartita in 1Y : Dipendenti 2Y : Indipendenti

I dati di un campione di 23˙132 osservazioni sono riportati in tabella:

X Settore lavorativo\Y lavoro Dipendenti Indipendenti Totale

1X : Agricoltura 751 1˙545 2˙296

2X : Industria 5˙544 1˙319 6˙863

3X : Servizi commerciali 5˙255 4˙503 9˙758

4X : Servizi non commerciabili 4˙215 0 4˙215 Totale 15˙765 7˙367 23˙132

Page 50: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 50 -

Il lettore cerchi ora di pronunciarsi, ad un livello intuitivo, sui quesiti seguenti:

– i dati riportati segnalano, a suo giudizio, dipendenza o indipenenza fra X e Y ?

– se dipendenti, si ritiene che sia una dipendenza molto forte o piuttosto debole? esprimetela con una misura percentuale (0: indipendenza, 100: dipendenza massima)

– quale grado di convinzione avete sulla validità delle due affermazioni precedenti? esprimetelo con una misura percentuale (0: totale incertezza, 100: sicurezza assoluta).

Proseguiamo nella esposizione del test χ2 di indipendenza.

L’indipendenza o la dipendenza delle variabili è un fatto che è collegato solo ai valori “interni” della tabella, quelli che sono stati omessi nella tabella seguente:

X Settore lavorativo\Y lavoro Dipendenti Indipendenti Totale

1X : Agricoltura 2˙296

2X : Industria 6˙863

3X : Servizi commerciali 9˙758

4X : Servizi non commerciabili 4˙215 Totale 15˙765 7˙367 23˙132

Per ciascuna delle caselle bianche della tabella, siamo in grado di determinare un valore attorno al quale dovrebbero avvicinarsi le frequenze osservate se effettivamente le variabili fossero indipendenti:

se due variabili sono indipendenti i profili riga sono tutti uguali, lo stesso i profili colonna.

Detto in altre parole i 2˙296 lavoratori del settore “Agricoltura” si dovrebbero ripartire in “Dipendenti” e “Indipendenti” nelle stesse proporzioni con cui si ripartiscono tutti i 23˙132 soggetti osservati nel campione.

Questa proporzionalità dà luogo alla tabella delle così dette “frequenze teoriche” (“teoriche”: nell’ipotesi che la variabili siano effetivamente indipendenti); essa è così strutturata:

si fa una tabella che abbia la stessa riga e colonna marginali della precedente, poi si calcolano le frequenze teoriche it previste in ogni casella in modo da rendere tutte le righe (e, necessariamente, anche tutte le colonne) proporzionali fra loro.

Page 51: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 51 -

X Settore lavorativo\Y lavoro Dipendenti Indipendenti Totale 1X : Agricoltura 1t 2t 2˙296

2X : Industria 3t 4t 6˙863

3X : Servizi commerciali 5t 6t 9˙758

4X : Servizi non commerciabili 7t 8t 4˙215 Totale 15˙765 7˙367 23˙132

Ovviamente le frequenze teoriche sono tante quanto è il numero k delle caselle interne della tabella; nel nostro caso è 8k = .

Le frequenze teoriche it sono calcolabili con proporzioni del tipo:

1t : 2˙296 = 15˙765 : 23˙132 12 296 15 765 = = 1 564.8

23132t ×i i

ii

4t : 6˙863 = 7˙367 : 23˙132 46 863 7 367 = = 2 185.7

23132t ×i i

ii

Le frequenze teoriche non sono, in generale, numeri interi. Soprattutto quando siano valori non troppo grandi è consigliabile di approssimarle con più di un decimale. Nel caso presente, in cui hanno valore elevato, assumiamo un decimale.

La regola per il calcolo delle frequenze teoriche è molto semplice:

Il valore della frequenza teorica da riportare in una data casella si ottiene moltiplicando fra loro i due totali della riga e della colonna cui la casella appartiene, poi dividendo per il totale generale delle tabella.

In tal modo si ottiene la tabella delle frequenze teoriche

X Settore lavorativo\Y lavoro

Dipendenti Indipendenti Totale

1X : Agricoltura 1˙564.8 731.2 2˙296

2X : Industria 4˙677.3 2˙185.7 6˙863

3X : Servizi commerciali 6˙650.3 3˙107.7 9˙758

4X : Servizi non commerciabili 2˙872.6 1˙342.4 4˙215 Totale 15˙765 7˙367 23˙132

Page 52: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 52 -

Le frequenze dei dati osservati vengono chiamate frequenze osservate; vengono indicate con if indiciandole con lo stesso ordine, in modo che le frequenze osservate

if e quelle teoriche it si corrispondano nelle rispettive tabelle.

Il test procede misurando la discrepanza fra le frequenze osservate e quelle teoriche, prima casella per casella, poi quella complessiva.

La discrepanza fra if e it di una data casella è misurata in due fasi:

• dapprima, con le stesse motivazioni che abbiamo già utilizzato nella definizione di varianza e di scarto, si considera la differenza quadratica “assoluta” ( )2i if t− ;

• poi si tiene conto che tale valore ha maggiore o minore importanza a seconda del valore che ci aspettiamo in quella casella (così come l’errore assoluto di 1 cm nella misura di una lunghezza ha un peso in relazione alla lunghezza di 1 metro, ma ha peso molto minore in relazione ad una lunghezza di vari chilometri, e quindi si considera l’errore relativo: (1 cm) /(vari chilometri) assumendo questo come “precisione della misura) esprimendo la discrepanza fra if e it di una data casella con la differenza quadratica “relativa”:

22 ( )i ii

i

f tt

χ −=

Si noti che al denominatore è posta la frequenza teorica!

La discrepanza complessiva fra le frequenze osservate e quelle teoriche è misurata dall’indice:

22

1

( )ki i

i i

f tt

χ=

−= ∑

dove k il numero delle caselle “interne” alla tabella.

Nel caso esemplificato si ha:

Page 53: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 53 -

2 2 22

2 2 2

2 2

(751 -1564.8) (1545 - 731.2) (5544 - 4677.3)1564.8 731.2 4677.3

(1319 -2185.7) (5255 - 6650.3) (4503 -3107.7)2185.7 6650.3 3107.7

(4215 -2872.6) (0 -1342.4) 4722.172872.6 1342.4

= + + +

+ + +

+ ≅

χ

Se si fanno i calcoli con il valore esatto (frazionario) delle it si ottiene χ2 = 4722.04

L’indice 2χ assume valori prossimi a 0 quando le frequenze osservate sono “vicine” a quelle teoriche (in effeti, 2 0=χ se e solo se i if t= per ogni i ). Viceversa elevati valori di 2χ indicano che vi è discrepanza fra frequene osservate e le corrispondenti teoriche. Se 2χ è troppo grande (o meglio, se è così grande da rendere inferiore al livello prescelto la probabilità dei dati osservati) si rigetterà l’ipotesi.

Ne segue che le zone di rifiuto dell’ipotesi (di indipendenza delle variabili) di questo test sono del tipo:

2 c>χ

per una opportuna costante c . Ciò corrisponde a dire (si guardino le tavole della distribuzione 2χ ) che le zone di rifiuto sono delle “code destre”, cioè corrispondono alle ascisse dei punti appartenenti alla regione annerita nella figura allegata alle tavole.

Ora illustriamo come calcolare c in modo da tener conto degli aspetti probabilistici legati al livello del test.

Come per la media campionaria col TLC, vi è un teorema di statistica matematica che ci consente di valutare le probabilità che 2χ assuma determinati valori.

Anche in questo caso:

– le formule relative, troppo complesse per essere trattate in questa sede, possono essere evitate ricorrendo ad opportune tavole che danno la distribuzione di

2χ ; le tavole sono riportate nell’allegato 2;

Page 54: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 54 -

– la distribuzione fornita dalle tavole ha bisogno, in teoria, che n → ∞ ; in pratica essa è buona quando TUTTE le frequenze TEORICHE (teoriche! non quelle osservate) hanno valore

5it ≥ o meglio ancora 10it ≥

per cui si sconsiglia di utilizzare questo test se anche solo per qualcuna delle frequenze teorica avviene che ti < 5.

La distribuzione di 2χ fornita dalle tavole dipende da un parametro chiamato numero dei gradi di libertà. Questo viene indicato con ν . Il suo valore dipende dal numero di righe e di colonne della “parte interna” della tabella (quella comprendente le caselle in corrispondenza delle quali sono calcolate le frequenze teoriche). Ad esempio, nella tabella da noi esemplificata la “parte interna” ha 4 righe (corrispondendi ai 4 settori di lavoro) e 2 colonne (corrispondenti alla classificazione della variabile Y in “Dipendenti” e “Indipendenti”). Il numero dei gradi di libertà è definito da:

ν = (numero di righe – 1) (numero di colonne – 1).

Nel caso indicato, ( )( )4 1 2 1 3 1 3ν = − − = × = .

Nelle tavole, la prima colonna corrisponde al numero dei gradi di libertà.

Si considera la riga individuata da ν e la colonna individuata dal livello α , all’intersezione di esse si trova il valore “critico” c , si confronta 2χ con c :

se 2 c≥χ SI RIGETTA H : secondo il test 2χ le variabili sono DIPENDENTI;

se 2 c<χ NON SI RIGETTA H : il test 2χ dichiara le variabili INDIPENDENTI.

Nel caso da noi illustrato, si ha:

5%α = χ =2 4 522.17... 3ν = dalle tavole: 7.815c =

Poiché χ2 = 4˙522.17… > c = 7.815, si rigetta H (al livello del 5%).

Si noti che, in questo caso, il valore di 2χ è così elevato da superare i valori critici riportati nella tabella corrispondenti ai livelli dell’1% e del 5‰.

Page 55: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 55 -

Esercizio 1.

762 animaletti di una data specie, che vivono nelle acque di un lago, sono stati classificati a seconda del sesso e della profondità (moderata, media o elevata) a cui sono stati prelevati.

I risultati sono riportati nella seguente tabella:

Profondità moderata

Profondità media

Profondità elevata Totale

Maschi 220 112 56 388 Femmine 202 130 42 374 Totale 422 242 98 762

Valutare, col test 2χ al livello del 5%, se si possa ritenere che vi sia indipendenza fra il sesso e la profondità.

Esercizio 2.

I mille individui di un campione sono stati classificati secondo il sesso e secondo il fatto di essere o meno daltonici:

Maschio Femmina Totali Normali 442 514 956 Daltonici 38 6 44

Totali 480 520 1˙000

Valutare, mediante il test 2χ , ad un livello del 5%, se si può ritenere che l’essere o meno daltonici sia un fenomeno indipendente dal sesso.

Page 56: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 56 -

Esercizio 3.

Un vaccino è stato somministrato ad alcune persone scelte a caso fra un folto gruppo di volontari. Le successive osservazioni hanno fornito i seguenti risultati:

Infettati Non infettati Totali

Vaccinati 56 6˙759 6˙815 Non vaccinati 272 11˙396 11˙668 Totali 328 18˙155 18˙483

Questi dati sono compatibili con l'ipotesi che il vaccino non abbia effetto, ovvero che l'essere o meno vaccinati (con quel vaccino) non influenzi il fatto di essere o meno infettati?

Page 57: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 57 -

Tavole della Normale Standardizzata 2

21( ) ( )2

z x

z e dx P Z zπ

−∞

Φ = = ≤∫

z 0 1 2 3 4 5 6 7 8 9

-3.0 0.0013 0.0013 0.0013 0.0012 0.0012 0.0011 0.0011 0.0011 0.0010 0.0010 -2.9 0.0019 0.0018 0.0018 0.0017 0.0016 0.0016 0.0015 0.0015 0.0014 0.0014 -2.8 0.0026 0.0025 0.0024 0.0023 0.0023 0.0022 0.0021 0.0021 0.0020 0.0019 -2.7 0.0035 0.0034 0.0033 0.0032 0.0031 0.0030 0.0029 0.0028 0.0027 0.0026 -2.6 0.0047 0.0045 0.0044 0.0043 0.0041 0.0040 0.0039 0.0038 0.0037 0.0036 -2.5 0.0062 0.0060 0.0059 0.0057 0.0055 0.0054 0.0052 0.0051 0.0049 0.0048 -2.4 0.0082 0.0080 0.0078 0.0075 0.0073 0.0071 0.0069 0.0068 0.0066 0.0064 -2.3 0.0107 0.0104 0.0102 0.0099 0.0096 0.0094 0.0091 0.0089 0.0087 0.0084 -2.2 0.0139 0.0136 0.0132 0.0129 0.0125 0.0122 0.0119 0.0116 0.0113 0.0110 -2.1 0.0179 0.0174 0.0170 0.0166 0.0162 0.0158 0.0154 0.0150 0.0146 0.0143 -2.0 0.0228 0.0222 0.0217 0.0212 0.0207 0.0202 0.0197 0.0192 0.0188 0.0183 -1.9 0.0287 0.0281 0.0274 0.0268 0.0262 0.0256 0.0250 0.0244 0.0239 0.0233 -1.8 0.0359 0.0351 0.0344 0.0336 0.0329 0.0322 0.0314 0.0307 0.0301 0.0294 -1.7 0.0446 0.0436 0.0427 0.0418 0.0409 0.0401 0.0392 0.0384 0.0375 0.0367 -1.6 0.0548 0.0537 0.0526 0.0516 0.0505 0.0495 0.0485 0.0475 0.0465 0.0455 -1.5 0.0668 0.0655 0.0643 0.0630 0.0618 0.0606 0.0594 0.0582 0.0571 0.0559 -1.4 0.0808 0.0793 0.0778 0.0764 0.0749 0.0735 0.0721 0.0708 0.0694 0.0681 -1.3 0.0968 0.0951 0.0934 0.0918 0.0901 0.0885 0.0869 0.0853 0.0838 0.0823 -1.2 0.1151 0.1131 0.1112 0.1093 0.1075 0.1056 0.1038 0.1020 0.1003 0.0985 -1.1 0.1357 0.1335 0.1314 0.1292 0.1271 0.1251 0.1230 0.1210 0.1190 0.1170 -1.0 0.1587 0.1562 0.1539 0.1515 0.1492 0.1469 0.1446 0.1423 0.1401 0.1379 -0.9 0.1841 0.1814 0.1788 0.1762 0.1736 0.1711 0.1685 0.1660 0.1635 0.1611 -0.8 0.2119 0.2090 0.2061 0.2033 0.2005 0.1977 0.1949 0.1922 0.1894 0.1867 -0.7 0.2420 0.2389 0.2358 0.2327 0.2296 0.2266 0.2236 0.2206 0.2177 0.2148 -0.6 0.2743 0.2709 0.2676 0.2643 0.2611 0.2578 0.2546 0.2514 0.2483 0.2451 -0.5 0.3085 0.3050 0.3015 0.2981 0.2946 0.2912 0.2877 0.2843 0.2810 0.2776 -0.4 0.3446 0.3409 0.3372 0.3336 0.3300 0.3264 0.3228 0.3192 0.3156 0.3121 -0.3 0.3821 0.3783 0.3745 0.3707 0.3669 0.3632 0.3594 0.3557 0.3520 0.3483 -0.2 0.4207 0.4168 0.4129 0.4090 0.4052 0.4013 0.3974 0.3936 0.3897 0.3859 -0.1 0.4602 0.4562 0.4522 0.4483 0.4443 0.4404 0.4364 0.4325 0.4286 0.4247 -0.0 0.5000 0.4960 0.4920 0.4880 0.4840 0.4801 0.4761 0.4721 0.4681 0.4641

0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359 0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753 0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141 0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517 0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879 0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224 0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549 0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852 0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133 0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389 1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621 1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830 1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015 1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177 1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319 1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441 1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545 1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633 1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706 1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767 2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817 2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857 2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890 2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916 2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936 2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952 2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964 2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974 2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981 2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986 3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990

Page 58: - 1 - ELEMENTI DI STATISTICA - statprob.dima.unige.itstatprob.dima.unige.it/SMID/SD1/DISPENSE SD1.pdf · Se np é un intero, posto knp= , il quantile di ordine p é la media fra xk

- 58 -

Distribuzione del χ2 di Pearson

GDL 0,9995 0,995 0,975 0,05 0,025 0,01 0,005 0,001 0,0005

1 <0,001 <0,001 0,001 3,841 5,024 6,635 7,879 10,827 12,115 2 0,001 0,010 0,051 5,991 7,378 9,210 10,597 13,815 15,201 3 0,015 0,072 0,216 7,815 9,348 11,345 12,838 16,266 17,731 4 0,064 0,207 0,484 9,488 11,143 13,277 14,860 18,466 19,998 5 0,158 0,412 0,831 11,070 12,832 15,086 16,750 20,515 22,106 6 0,299 0,676 1,237 12,592 14,449 16,812 18,548 22,457 24,102 7 0,485 0,989 1,690 14,067 16,013 18,475 20,278 24,321 26,018 8 0,710 1,344 2,180 15,507 17,535 20,090 21,955 26,124 27,867 9 0,972 1,735 2,700 16,919 19,023 21,666 23,589 27,877 29,667

10 1,265 2,156 3,247 18,307 20,483 23,209 25,188 29,588 31,419 11 1,587 2,603 3,816 19,675 21,920 24,725 26,757 31,264 33,138 12 1,935 3,074 4,404 21,026 23,337 26,217 28,300 32,909 34,821 13 2,305 3,565 5,009 22,362 24,736 27,688 29,819 34,527 36,477 14 2,697 4,075 5,629 23,685 26,119 29,141 31,319 36,124 38,109 15 3,107 4,601 6,262 24,996 27,488 30,578 32,801 37,698 39,717 16 3,536 5,142 6,908 26,296 28,845 32,000 34,267 39,252 41,308 17 3,980 5,697 7,564 27,587 30,191 33,409 35,718 40,791 42,881 18 4,439 6,265 8,231 28,869 31,526 34,805 37,156 42,312 44,434 19 4,913 6,844 8,907 30,144 32,852 36,191 38,582 43,819 45,974 20 5,398 7,434 9,591 31,410 34,170 37,566 39,997 45,314 47,498 21 5,895 8,034 10,283 32,671 35,479 38,932 41,401 46,796 49,010 22 6,404 8,643 10,982 33,924 36,781 40,289 42,796 48,268 50,510 23 6,924 9,260 11,689 35,172 38,076 41,638 44,181 49,728 51,999 24 7,453 9,886 12,401 36,415 39,364 42,980 45,558 51,179 53,478 25 7,991 10,520 13,120 37,652 40,646 44,314 46,928 52,619 54,948 26 8,537 11,160 13,844 38,885 41,923 45,642 48,290 54,051 56,407 27 9,093 11,808 14,573 40,113 43,195 46,963 49,645 55,475 57,856 28 9,656 12,461 15,308 41,337 44,461 48,278 50,994 56,892 59,299 29 10,227 13,121 16,047 42,557 45,722 49,588 52,335 58,301 60,734 30 10,804 13,787 16,791 43,773 46,979 50,892 53,672 59,702 62,160 40 16,906 20,707 24,433 55,758 59,342 63,691 66,766 73,403 76,096 50 23,461 27,991 32,357 67,505 71,420 76,154 79,490 86,660 89,560 60 30,339 35,534 40,482 79,082 83,298 88,379 91,952 99,608 102,697 70 37,467 43,275 48,758 90,531 95,023 100,425 104,21 112,31 115,577 80 44,792 51,172 57,153 101,879 106,629 112,329 116,32 124,83 128,264 90 52,277 59,196 65,647 113,145 118,136 124,116 128,29 137,20 140,780

100 59,895 67,328 74,222 124,342 129,561 135,807 140,17 149,44 153,164 200 140,659 152,241 162,728 233,994 241,058 249,445 255,26 267,53 272,422 300 225,886 240,663 253,912 341,395 349,874 359,906 366,44 381,42 387,202 400 313,423 330,903 346,482 447,632 457,306 468,724 476,60 493,13 499,667 500 402,447 422,303 439,936 553,127 563,851 576,493 585,20 603,44 610,643 600 492,520 514,529 534,019 658,094 669,769 683,515 692,98 712,77 720,571 700 583,390 607,379 628,577 762,661 775,210 789,974 800,13 821,34 829,701 800 674,892 700,725 723,513 866,911 880,275 895,984 906,78 929,33 938,199 900 766,916 794,475 818,756 970,904 985,032 1001,62 1013,0 1036,8 1046,182