Metodo dei Minimi Quadrati . Principio di Massima ... · Questo metodo e’ noto come . Metoto dei...
Transcript of Metodo dei Minimi Quadrati . Principio di Massima ... · Questo metodo e’ noto come . Metoto dei...
LABORATORIO 2 (meccanica e Termodinamica) a.a. 2007/2008 F.Balestra. ( Per cortesia segnalatemi punti non chiari o refusi. Grazie e buon studio)
Metodo dei Minimi Quadrati . Principio di Massima Verosimiglianza . Test del χ2.
10 20 30 40 50
0.2
0.4
0.6
0.8
1.0density function and distribution function
2 4 6 8 10 12
-0.1
0.1
0.2
0.3c2
0.95H4L = 0.711 and c20.05H4L = 9.488
3 4 5 6 7 8
4
5
6
7
8
9
Metodo dei Minimi Quadrati e Principio di Massima Verosimiglianza. Proprieta’ degli stimatori. Dipendenza della matrice di covarianza e del χ2 dall’errore sulle y. Test del χ2. Ricerca della migliore forma funzionale. Correlazioni tra i coefficienti stimati. Principio di Massima Verosimiglianza. Media pesata. Stima di parametri per la distribuzione di Bernoulli e di Poisson. Stima e proprieta’ degli stimatori.
1
Principio di massima verosimiglianza e metodo dei minimi quadrati. Supponiamo di avere n coppie di dati {xi; yi ± σi} Sia y = f( x; a ) una funzione che fornisce un valore y per ogni x. La forma e’ nota, ma contiene un parametro a ( o piu’ parametri) che vogliamo stimare. Le misure yi hanno come valore vero y = f( xi;a) e sono disperse rispetto ad y a causa dell’errore σi, con distribuzione gaussiana. La probabilita’ di ottenere un particolare valore di yi per un dato valore di xi e’
i
axfy
ii dyeayP i
ii2
2
2)];([
21);( σ
πσ
−−
= .
La probabilita’ congiunta di ottenere la serie delle n misure indipendenti {yi} realmente ottenute vale
2
2
1 2)];([
11)
2();( i
iin axfy
i
ini
n edyayPP σ
πσ
−−∑
•== ∏∏
La funzione densita’ di probabilita’ corrispondente,detta a posteriori perche’ costruita con il campione di dati, e’ la funzione di verosimiglianza L per il campione di dati. Essa vale
2
2
1 2)];([
11)
21();( i
iin axfy
i
ni
n eayPL σ
πσ
−−∑
•== ∏∏ .
Il Principio di Massima Verosimiglianza assume che il valore piu’ verosimile come stima del parametro a e’ quello che rende massima la funzione L, ossia rende massima la probabilita’ di ottenere la serie di dati del campione . Massimizzare L e’equivalente a rendere massima la funzione logaritmo l = ln L:
2
2
112
2
111
)];([21)2(ln[]
2)];([)
21(ln[);(lnln
ii
axfyaxfyayPLl iin
i
nii
n
i
n
in
σπσ
σπσ−
∑−−=−
∑−=== ∑∑∏. Per rendere massima l e’ sufficiente minimizzare la sommatoria:
2
2
1
)];([2
i
axfy iin
σχ −
∑= ,
cioe’ minimizzare la somma del quadrato degli scarti, pesati, tra le yi e le f(xi;a) predette. Questo metodo e’ noto come Metoto dei Minimi Quadrati. Il metodo fornisce un mezzo per stimare il parametro a in una funzione f(xi; a) che fornisce i valori veri di y per ogni x. I dati usati sono le {xi} , assunte senza errori, ed i corrispondenti valori {yi} misurati con errore σi. Si costruisce, per tutti i punti, la somma del quadrato delle differenze fra i valori misurati e quelli attesi f(xi; a) opportunamente scalate di σi.
Questa somma 2
2
1
)];([2
i
axfy iin
σχ −
∑= e’ detta . Essa e’ la somma del quadrato di n variabili
normali standardizzate.
2
χ
Si vuole il valore di a che rende minima questa somma . Se sono note le derivate di f rispetto ad a il problema e’ di trovare la soluzione:
0)];([);(1;01
21
2
=−∑= axfyda
axdfda
dii
in
σχ .
Se le σi = σ sono tutte eguali la soluzione si ha risolvendo la :
2
0)];([);(;01
2
=−∑= axfyda
axdfda
dii
inχ .
Se non si conoscono gli errori σ , la soluzione per a si ottiene dalla stessa relazione usata per le σi = σ =cost.
Il valore stimato di a , indicato con , sara’ prossimo al valore vero ma non coincidera’ con esso. ^a
La stima e’ funzione delle yi : . Usando la propagazione degli errori, assumendo le yi indipendenti, si ottiene la varianza del valore stimato:
^a )(
^
iyaa =
22
1
2 )(^ i
n
ia ya σσ ∑ ∂
∂= .
Se la f contiene N parametri { a1, a2, …, an}, essi si otterranno dalla soluzione di un sistema di N equazioni in N incognite :
0)];([);(;01
2
=−∑= iiii
iin
i
axfyda
axdfdadχ ; i = 1 , …, N
Il caso della retta , della interpolazione lineare, e’ il piu’ comune: y = f(xi; a,b)= a + b x. Supposte valide le condizioni descritte sopra e σi = σ = cost, la probabilita’ di ottenere un valore yi per un dato xi e’ data da:
2
2
1 2)];([
2),;(
σ
πσ
axfy
ii
iin
edybayP−
−∑•= .
La probabilita’ di ottenere l’insieme completo di misure {yi} e’ il prodotto
2
2
12
2
1 2)]([
2)]([
11)
2()
2(),;(
σσ
πσπσ
bxay
ni
bxay
ini
ni
ni
n
edyedybayPP+−
−+−
− ∑•=
∑•== ∏∏ .
La funzione di verosimiglianza e’ espressa come:
2
2
12
2
1 2)]([
2)]([
1)
21()
21(
σσ
πσπσ
bxay
n
bxayn
in
in
eeL+−
−+−
− ∑•=
∑•= ∏
Il logaritmo di L vale:
2
2
12
2
111
)]([21)2ln(]
2)];([)
21(ln[),;(lnln
σπσ
σπσii
nii
nnn
in bxaynaxfybayPLl +−
∑−−=−
∑−=== ∑∏ Il Metodo di Massima Verosimiglianza consiste nel fare l’assunto, che la migliore stima di a e b , basata sulle n misure {yi} ottenute, e’ fornita dai valori degli stessi per cui L o l sono massime, e questo equivale a minimizzare :
2
2
1
2 )]([σ
χ iin bxay +−∑= .
(Il metodo e’ stato trattato in dettaglio nel corso di Lab. 1) Esempio: Vediamo come esempio il caso semplice in cui y e’ propozionale ad x : y = mx. Questo e’ un semplice esempio di fit con m come unico parametro incognito. La quantita’ da minimizzare in funzione di m, e’
2
2
1
2 ][
i
iin
i
mxyσ
χ −∑==
Differenziando rispetto ad m si ottiene 3
21
2 ][2i
iin
ii
mxyxm σχ −
∑ −=∂∂
=
Se si assume che tutte le yi abbiano lo stesso errore σ
∑ −−=∑ −−=∂∂
==
n
iiii
n
iiii mxyxmxyx
m 1
22
12
2
)(2][2σσ
χ
Per la stima di m questa quantita’ e’ zero:
∑ =∑ −=∑ −−= ===
∑n
ii
n
ii
n
iiii
n
iiii xmyxmxyxmxyx
1
2
111
2
1
22 ;)(;0)(2
σ
La stima di m diventa: 2
11
1^
i
n
n
iii
x
yxm
∑=
=∑
= .
La precisione di questa stima , applicando la propagazione degli errori, risulta
2
11
222
2
11
1
22
1
^
2 )()(^
i
n
i
ni
nn
imxx
xym
∑∑∑∑
==
==∂∂
=σσσσ ;
2
11
^
i
nmx∑
=
=σσ
Proprieta’ degli stimatori . Eseguita la misura di due grandezze fisiche (x,y) e riportati i valori (xi,yi±σi) su di un grafico cartesiano, nasce il problema di stabilire quale sia la relazione funzionale, y = f(xi,a) piu’ adatta per interpolare i dati. Le yi si assumono indipendenti e gaussiane. Il metodo dei minimi quadrati ci permette di determinare una stima dei parametri ma non ci fornisce indicazioni sulla scelta della funzione. Nel caso di una retta, di una relazione lineare : y = a + bx, per valutare i parametri si rende minima la somma
∑∑ ∑ =−−
=Δ
=n
i
n n
i
ii
i
i zbxayy
1
2
1 12
2
2
22 )()(
σσχ .
Questo vale sia nel caso che le σi siano eguali, sia in quello in cui siano differenti per ciascuna delle yi.
Se le σi non sono note si stimano con: ∑∑ −Δ
=−+−
=N
iN
iy N
yN
bxayS
1
2
1
22
2)(
2)]([
Valutati a e b, nel caso di σi = σy =costante, si ottengono le loro incertezze attraverso le relazioni :
∑ ∑
∑
−= n N
ii
N
iy
a
xxN
x
1 1
22
1
2
2
)(
σσ ,
∑ ∑−= n N
ii
yb
xxN
N
1 1
22
22
)(
σσ
Finora la procedura e’ stata semplicemente una determinazione di parametri. Per le stime, a e b, dei parametri valgono le seguenti proprieta’ :
• E[a + b x] = E[a] + x E[b] = A + B x. I valori veri A e B sono stimati da a e b che si suppongono distribuiti normalmente, con varianze
e , attorno ai valori veri A e B. La varianza si suppone nota. 2aσ 2
bσ 2yσ
a e b sono detti stimatori corretti di A e B. 4
• 2aσ = E[(a – A)2] = minima. 2
bσ = E[(b – B)2] = minima. Gli stimatori a e b sono stimatori efficienti e precisi di A e B.
• ∑∑ ∑ =−−
=Δ
=n
i
n n
i
ii
i
i zbxayy
1
2
1 12
2
2
22 )()(
σσχ segue la distribuzione χ2 con DF = n -2 .
Nel caso di n misure dirette {yi ± } della grandezza Y, 2yσ
• il valore medio ∑=n
iyn
y1
1 e’ la migliore stima del valore medio della popolazione da cui il
campione e’ ottenuto, che si assume come il valore vero della grandezza .
• la variabile : ∑∑ ∑ =−
=Δ
=n
i
n n
y
i
y
i zyyy
1
2
1 12
2
2
22 )()(
σσχ segue la distribuzione χ2 con
DF = n – 1 gradi di liberta’. • 2
yσ = E[(yi – y )2] = minimo. La media e’ uno stimatore efficiente o preciso.
• E[ y ] = μY. La media e’ uno stimatore corretto di Y.
Nel caso di n misure dirette {yi± } della grandezza , 2iσ
• la media pesata∑
∑= n
i
n
i
iy
y
12
12
1σ
σ e’ la migliore stima della grandezza , e la variabile :
∑∑ ∑ =−
=Δ
=n
i
n n
i
i
i
i zyyy
1
2
1 12
2
2
22 )()(
σσχ segue la distribuzione χ2 con DF = n – 1 gradi di
liberta’. • 2
yσ = E[(yi – y )2] = minimo.
• E[ y ] = μY. Se la distribuzione dell’errore non e’ nota la soluzione dei minimi quadrati gode ancora delle proprieta’ :
• Le soluzioni sono senza bias , sono corrette; • Fra tutte le soluzioni, che sono stime senza bias della grandezza e combinazioni lineari delle
misure yi, le soluzioni dei minimi quadrati hanno varianza minima;
• ∑ ∑ −−=
Δ==
n n
i
ii
i
i bxayyM
1 12
2
2
22 )()(
σσχ , E[M] = n – 2.
TEST del χ2 : raccomandazioni per l’interpretazione e l’uso.
Prendendo come esempio il caso di andamento lineare, possiamo vedere quanto bene la curva si adatta ai dati. Il test del χ2 permette di decidere se una relazione funzionale approssima “statisticamente” i punti sperimentali, oppure scegliere tra piu’ relazioni funzionali quella che li approssima meglio. Come primo passo sempre fare e rappresentare il GRAFICO di confronto dei punti misurati con la curva.
5
Note le σi, se le yi sono normali, allora ∑∑ ∑ =−
=Δ
=n
i
n n
i
i
i
i zyyy
1
2
1 12
2
2
22 )()(
σσχ e’ una variabile χ2
con DF = n – 2 gradi di liberta’. Valutato il χ2
M , in funzione dei parametri a e b che lo minimizzano, si esegue il test del χ2. • Se χ2
Μ >> n -2 occorre controllare bene l’assunto sul quale si basa il calcolo. • Nel caso χ2
Μ ≤ DF =n −2 ,P[ χ2DF > χ2
Μ] > α: la funzione e' corretta al livello di significativita’ di α.
• Se χ2Μ eccede il valore critico del χ2, che corrisponde al livello di significativita’ α e
DF = n -2 ,si rigetta il risultato al livello di significativita’ di α. Se P[ χ2
DF > χ2Μ] < α : Rigetto.
Il rigetto puo’ essere causato da piu’ ragioni: -da un errore di I specie; -la y = f ( xi,a) non e’ corretta e non e’ a applicabile,o perche’ totalmente sbagliata o qualche parametro di essa, che si e’ supposto noto, non e’ corretto.
• Se χ2Μ << DF = n -2 : o gli errori sono sovrastimati, o i dati sono stati selezionati in modo
speciale, o siamo stati fortunati a selezionare valori di yi molto prossimi a quelli attesi.
Se il test fallisce , ( sempre fare come primo passo il GRAFICO), perche’ si trovano modelli migliori, in quanto ci sono evidenti deviazioni sistematiche dai punti della linea retta, si puo’ assumere una forma non lineare. Si possono nuovamente interpolare i dati, confrontandoli col nuovo modello di regressione ESEMPI
polynomial degree 1
1
0.0 0.2 0.4 0.6 0.8 1.0-2
-1
0
1
21.85563 x - 1.44361
polynomial degree 1
0.0 0.2 0.4 0.6 0.8 1.0-2
-1
0
1
22.73046 x - 0.894224
Gli ultimi tre punti non sembrano piu’ appartenere alla retta. Il punto centrale devia di piu’ di 3 σ dalla retta.
6
polynomial degree 1
1
7
0.0 0.2 0.4 0.6 0.8 1.0-2
-1
0
1
22.33807 x - 1.64244
I punti sembrano essere bene interpolati da una parabola mentre la retta non li interpola (successione di scarti tutti positivi poi tutti negativi, poi nuovamente positivi)
polynomial degree 2
2
0.0 0.2 0.4 0.6 0.8 1.0-2
-1
0
1
21.77587 x2 + 0.458199 x - 1.5923
polynomial degree 2
2
0.0 0.2 0.4 0.6 0.8 1.0-2
-1
0
1
22.7596 x2 - 0.279871 x - 1.5157
Gli ultimi tre punti non sembrano piu’ appartenere alla parabola. Ecco come cambia il fit escludendoli.
polynomial degree 2
0.0 0.2 0.4 0.6 0.8 1.0-2
-1
0
1
212.9256 x2 - 14.4205 x + 2.40084
polynomial degree 3
0.0 0.2 0.4 0.6 0.8 1.0-2
-1
0
1
2-8.1193 x3 + 25.7566 x2 - 19.8212 x+ 2.86375
L’andamento parabolico non interpola sufficientemente bene i dati; quello cubico interpola bene .
2 20.00.20.40.60 ?2 ?1 0 1 2 x2 ? x?
polynomial degree 1
0.0 0.2 0.4 0.6 0.8 1.0-2
-1
0
1
23.37832 x - 1.42167
polynomial degree 2
0.0 0.2 0.4 0.6 0.8 1.0-2
-1
0
1
2-0.27769 x2 + 3.63093 x - 1.45567
Non ci sembrano motivi per rigettare l’interpolazione lineare e sceglierne una parabolica(figura di destra). Se il test fallisce , ma non sembrano esistere modelli migliori, perche’ non si riscontrano deviazioni sistematiche dalla linea retta, si devono rivedere le assunzioni fatte sugli errori. Essi possono essere basati su stime troppo rozze o supposizioni non corrette, e possono essere sottostimati o sovrastimati. Infatti, riferendoci per semplicita’ al caso di = cost., se la e’ sottostimata di un fattore F, tutti i termini della matrice degli errori ed il χ2
2yσ yσ
,)()(
1 12
2
2
22 ∑ ∑ −−
=Δ
=n n
y
ii
y
i bxayyσσ
χ∑ ∑
∑
−= n N
ii
N
iy
a
xxN
x
1 1
22
1
2
2
)(
σσ ,
∑ ∑−= n N
ii
yb
xxN
N
1 1
22
22
)(
σσ ,
sono influenzati. Le varianze , sono aumentate di F2, mentre il valore del χ2 e’ diminuito di F2. 2
aσ 2bσ
Faa •= σσ ' ; 2
22'' ;
FFbb
χχσσ =•=
La matrice degli errori e’ stata calcolata secondo l’errore sulle y. I valori dei parametri , pero’ non vengono modificati poiche’ il punto di minimo del χ2 non dipende da yσ . Al contrario il valore del minimo del χ2 ( che serve per il test) ed i valori della matrice degli errori sono molto influenzati dal valore di yσ . Vedere esempio A. Solo il test del χ2 ( non il valore degli errori sui parametri) indica quando il modello assunto nella regressione , in questo caso una dipendenza lineare, e’ giustificato. Se yσ e’ piccolo , aσ e bσ sono piccoli, ma il χ2 puo’ essere grande ed il test fallisce, anche se gli errori sui parametri sono piccoli. E’ necessario ottenere una attendibile , anche se rozza stima di yσ per potere effettuare il test del χ2. Se le yσ non sono note ( misure fatte con lo stesso strumento, senza sistematici, errore ignoto) il metodo da solo non permette di decidere quando il modello e’ giustificato. Rimane il riscontro qualitativo, derivante dall’analisi critica del grafico y = y(xi,a), per la ricerca di deviazioni sistematiche dei punti dalla linea ipotizzata . Se tali deviazioni sembrano esistere , allora occorre costruire altre forme non lineari e confrontarle con i dati.
8
Per stabilire se per una serie di punti e’ giustificato l’uso di una interpolazione lineare, come gia’ visto in piu’ occasioni, si puo’ fare uso del coefficiente di correlazione lineare ρ. Se le yσ non sono note , il metodo MMQ si puo’ sempre applicare . Si stimano i parametri a e b
col solito metodo. Gli errori sulle yi si assumono tutti eguali e sono stimati da ∑ −Δ
=n
iy n
yS
1
22
2)(
.
Gli errori sui parametri si ottengono a partire da : 2yS
∑ ∑
∑
−= n N
ii
N
iy
a
xxN
xSS
1 1
22
1
2
2
)( ∑ ∑−= n N
ii
yb
xxN
NSS
1 1
22
22
)(
Il test del χ2 pero’ non si puo’ effettuare.
La variabile per il test vale: 2
2
1 12
2
2
22 )2(
)()(
y
yn n
y
ii
y
i Sn
bxayyσσσ
χ −=−−
=Δ
= ∑ ∑
Se si assumesse σy = Sy allora il valore del χ2 assume il valore atteso χ2 = n - 2 =DF, e non avrebbe piu’ alcun significato statistico. La variabile per il test si puo’ scrivere , come appena visto,
2
22 )2(
y
ySn
σχ −= ed il come
2~χ 2
222~
2 y
ySn σχχ =
−= .
La varianza σy della popolazione e’ una caratteristica della dispersione dei dati dalla distribuzione primaria : y = A + B x e non e’ indicativa della bonta’ del fit. La Sy stimata, e’ invece caratteristica sia della dispersione dei dati sia dell’accuratezza del fit.
La definizione di 2
22~
y
ySσ
χ = come rapporto della varianza stimata e la varianza della popolazione
rende il come una misura conveniente della bonta’ del fit. 2~
χSe la funzione fit fosse una buona approssimazione della funzione vera , allora la varianza stimata
dovrebbe accordarsi bene con la varianza ed il valore di dovrebbe assumere un valore prossimo ad 1.
2yS 2
yσ2~
χ
Se la funzione fit non e’ adatta per descrivere i dati, la deviazione sara’ piu’ grande e portera’ a
valori di > 1 o >> 1. 2~
χ2~
χ
Valori di < 1 non indicano, necessariamente, un miglioramento del fit, ma la conseguenza del fatto che esiste una incertezza nella determinazione della variabile casuale , che fluttua, da
campione a campione, seguendo una distribuzione ;di conseguenza il valore del , in prove ripetute, fluttua da esperimento ad esperimento.
2~χ
2yS
2~χ
2~χ
E’ bene stimare sempre e confrontarlo con (se nota). 2yS 2
yσ
Se il test fallisce , e si decide di rivalutare gli errori attraverso la , anche gli errori sulle stime dei parametri devono essere rivalutati.
2yS
9
ESEMPIO A Consideriamo la regressione lineare che fa uso delle stesse misure ma in cui si fanno tre differenti assunzioni circa il loro errori. Si esegue una regressione per una serie di dati , che sono riportati in tabella. t 0.5 11.2 19.3 30.7 51.0 y 5.0 8.0 23.0 36.0 43.0
Si fanno tre differenti assunzioni circa le deviazioni standard delle misure y.
a) σy = 1; b) σy = 8; c) σy non nota. I risultati sono riportati nelle figure e tabelle che seguono. Per la regressione si assume la forma: y = a + b t.
La matrice di covarianza si esprime come:
2
1 1
21
1
112
22
22
)(; ∑ ∑∑
∑∑−=Δ
⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜
⎝
⎛
−
−
Δ=⎟⎟
⎠
⎞⎜⎜⎝
⎛ N N
iN
i
N
i
N
iy
bab
aba ttNNt
ttσσσσσ
,
ed il valore del χ2 come:
2
2
1 12
2
2
22 )2()()(
y
yn n
y
ii
y
i Snbtayy
σσσχ −=
−−=
Δ= ∑ ∑
Il valore interpolato,Y, per un certo valore di t = T vale: Y = a + b T. La varianza di Y vale: . 22222 2 abbaY TT σσσσ ++=Sebbene i parametri a e b non siano influenzati dalle assunzioni , vi e’ una significativa influenza sulla matrice di covarianza, sul minimo del χ2 e sui limiti di confidenza.
• σy = 1. a = 4.35 ± 538.0 b= 0.827± 00067.0
J0.538383 −0.0150125−0.0150125 0.00066604
N
χ2= 90.42 I limiti di confidenza sono molto piccoli; gli errori sui parametri sono molto piccoli ,tuttavia il valore del χ2 e’ grande cosicche’ il test fallisce ( DF =3; α = 0.01;χ2
c = 11.340) • σy = 8. a = 4.35 ± 45.34
b= 0.827± 0427.0
J34.4565 −0.960802−0.960802 0.0426265
N
χ2=1.41 I limiti di confidenza , gli errori sui parametri sono grandi ma il valore del χ2 e’ piccolo il fit sembra ragionevole.
• σy = incognita a = 4.35 ± 28.16 B = 0.827± 0201.0 J16.2861 −0.454129−0.454129 0.0201477
N
10
Sy e’ incognito ed e’ stimato da 2
1
2 )(1
1i
N
iy btayN
s −−−
= ∑ ; Sy = 5.5
I limiti di confidenza sono ragionevoli confrontati con le variazioni dei dati. Il test del χ2 non puo’ essere valutato.
Nelle figure sono riportati, per le tre situazioni, i grafici che confrontano i dati con la retta che meglio li interpola, i valori dei parametri stimati e la matrice di covarianza, i limiti di accettazione e rigetto , fissato α = 5% e 1%, per il test χ2. σy = 1
10 20 30 40 50
10
20
30
40
J4.35293
0.827288N J0.538383 −0.0150125
−0.0150125 0.00066604N
σy=8
11
10 20 30 40 50
10
20
30
40
50
J4.352930.827288
N J34.4565 −0.960802−0.960802 0.0426265
N
σy = incognito ; Sy = 5.4
10 20 30 40 50
10
20
30
40
J4.352930.827288
N J16.2861 −0.454129−0.454129 0.0201477
N
2 4 6 8
-0.1
0.1
0.2
0.3c2
0.95H3L = 0.352 and c20.05H3L = 7.815
2 4 6 8
-0.1
0.1
0.2
0.3c2
0.99H3L = 0.115 and c20.01H3L = 11.345
Ricerca della migliore forma funzionale. Si supponga di avere 7 coppie di misure , i valori dei quali sono riportati in tabella.
87654325.85.85.75.70.65.40.55.0±
i
i
xy
Gli errori sulle Xi si ritengono trascurabili. Si vuole determinare la migliore forma funzionale che lega le due grandezze. Si prendono in esame due funzioni: A) y = a + bx ; B) y = k ln (x) Col metodo dei minimi quadrati si determinano i valori dei parametri. Nel caso della funzione A) si ottengono: a = 3.25 ± 0.51 , b = 0.714 ± 0.095 Nel caso della funzione B) si ottiene: k = 4.364 ± 0.023. In figura e’ riportato il confronto tra i dati sperimentali e le due curve “best fit”. Il test del χ2 si puo’ utilizzare per decidere quale delle due funzioni si adatta meglio ai punti sperimentali. Per la curva A) il valore di ottenuto vale :χ2
M = 6.6 , i gradi di liberta’ risultano :DF = 7 -2 = 5.
12
Il valore di 3.12
2 ==DF
ridotto Mχχ . La probabilita’ di ottenere un valore pari o maggiore di quello
ottenuto vale P[ χ2DF > χ2
M ] = 0.25. Per la curva B) ) il valore di ottenuto vale :χ2
M = 19 , i gradi di liberta’ risultano :DF = 7 -1 = 6.
13
5 10 15
-0.1
0.1
0.2
0.3c2
0.95H6L = 1.635 and
2 4 6 8 10 12 14
-0.1
0.1
0.2
0.3c2
0.95H5L = 1.145 and c20.05H5L = 11.070c2
0.05H6L = 12.592
Il valore di 1.32
2 ==DF
ridotto Mχχ . La probabilita’ di ottenere un valore pari o maggiore di quello
ottenuto vale P[ χ2DF > χ2
M ] = 0.005.
3 4 5 6 7 8
4
5
6
7
8
9
L’andamento lineare si adatta molto meglio ai dati sperimentali. La coppia di valori (2. ; 5.0 ± 0.5) nel caso dell’andamento y = k ln(x) è quella che influenza maggiormente il valore del χ2
M , infatti la discrepanza tra valore misurato y1 =5.0 e valore atteso k ln(2) = 3. è pari a 4 deviazioni standard. Se si reputasse , per qualche motivo, di eludere questo valore si otterrebbero i nuovi valori : Per la curva A) a = 2.72 ± 0.69 ; b = 0.79 ± 0.12 il valore di ottenuto vale :χ2
M = 5.7 , i gradi di liberta’ risultano :DF = 6-2 = 4.
Il valore di 4.12
2 ==DF
ridotto Mχχ . La probabilita’ di ottenere un valore pari o maggiore di quello
ottenuto vale P[ χ2DF > χ2
M ] = 0.22. Per la curva B) k = 4.238 ± 0.029 il valore di ottenuto vale :χ2
M = 2.5 , i gradi di liberta’ risultano :DF = 6 -1 = 5.
Il valore di 5.02
2 ==DF
ridotto Mχχ . La probabilita’ di ottenere un valore pari o maggiore di
quello ottenuto vale P[ χ2DF > χ2
M ] = 0.75. La figura mostra i nuovi andamenti.
4 5 6 7 8
5
6
7
8
9
L’esclusione della prima coppia di valori, non cambia in modo apprezzabile i valori dei parametri, ma fa si che questa volta l’andamento logaritmico sembri piu’ adatto a descrivere i dati sperimentali. Il rigettare o meno la prima coppia di valori è cruciale per interpretare i dati. Occorre cautela ed un’analisi accurata degli eventuali sistematici, e se l’analisi non dovesse risultare decisiva, occorre ripetere la misura. Appendice:determinazione, mediante il MMQ, di k . y = k ln(x): determinazione di k ±σk col metodo dei minimi quadrati. Si suppone σyi = σ = cost
∑ −=
nii xky
12
22 ))ln((
σχ
∑ =−−=∂
∂ n
iii xxkyk 1
2
2
0ln)ln(2σ
χ
∑ ∑−=n
i
n
ii xkxy1
2
1
)(ln)ln(
2
1
1
)(ln
)(ln
i
n
i
n
i
x
xyk
∑
∑=
La varianza di k si ottiene propagando gli errori sulle yi
∑∑
∑∑
∑∑
==
=
=
=
==⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜
⎝
⎛
=∂∂
= n
ii
n
ii
n
jjn
jn
ii
jn
jk
xx
x
x
xyk
1
2
2
1
22
1
22
2
1
2
1
2
22
1
2
)(ln])(ln[
)(ln
)(ln
ln)( σ
σσσσ
2
1
1
)(ln
)(ln
i
n
i
n
i
x
xyk
∑
∑= ±
∑=
n
iix
1
2)(ln
σ
14
Esempio. Si interpolino , con il MMQ , N = 20 punti ( xi,yi)
- Interpolazione lineare : DF = N- 2 = 20 – 2 = 18. Sia χ2M= 36.3 il valore ottenuto. P[ χ2
18 > 36.3] = 1% - Parabola: DF = N- 3 = 20 – 3 = 17. Sia χ2M= 20.1 il valore ottenuto. P[ χ2
17 > 20.1] > 20% - Cubica: DF = N- 4 = 20 – 4 = 16. Sia χ2M= 17.6 il valore ottenuto.
P[ χ216 > 17.6] > 20%
E’ improbabile, nel caso della retta, che per fluttuazioni casuali si ottenga un valore di χ2M= 36.3: la probabilita’ P[ χ2
18 > 36.3] dell’ 1% e’ moto piccola. La retta e’ improbabile. H0 e’ scartata al livello di significativita’ dell’1%. Rigetto altamente significativo. Per la relazione parabolica la P[ χ2
16 > 17.6] > 20% e’ elevata, in diversi campionamenti una volta su 5 possiamo trovare un valore grande come quello ottenuto. Se rigettiamo l’ipotesi di accordo incorriamo in un errore di I specie con una probabilita’ del 20 %. Non abbiamo motivo di dubitare, al livello di fiducia del 5 %, dell’accordo tra parabola e dati. Le fluttuazioni sono dovute al caso. Non c’e giustificazione per la relazione cubica. Errori su x non trascurabili: ancora qualche raccomandazione. Nel MMQ gli errori sulle ordinate sono assunti nulli, e tutta la incertezza e’ associata alla variabile dipendente y. Questo equivale ad assumere che la precisione delle x e’ considerevolmente piu’ alta di quella sulle y. Questa condizione puo’ essere considerata valida solo se le incertezze della yi, che possono essere indotte da variazioni della xi prodotte da errori casuali nella misura della xi stessa, sono molto piu’ piccole delle incertezze della yi stessa. Questo e’ equivalente , in prima approssimazione, alla richiesta, che per ogni punto misurato:
yx dxdy σσ <<|| dove dy/dx e’ la pendenza della curva y = y(x).
Se le incertezze indotte dalla x non sono trascurabili, la procedura di fit sara’ ancora
sufficientemente accurata se stimiamo il contributo =yIσ ||dxdy
xσ , e combiniamo, in quadratura,
questo contributo con quello diretto , che e’ l’incertezza di misura di y: yDσ
222yDyIy σσσ +=
Con questa assunzione, l’incertezza nei dati si associa solo alla variabile y dipendente, mentre le corrispondenti fluttuazioni possono avere origine sia dall’incertezza sulle x sia da quella sulle y. In quei casi dove l’incertezza nella determinazione della quantita’ indipendente sono considerevolmente piu’ grandi di quelle sulla quantita’ dipendente, e’ piu’ opportuno scambiare i ruoli delle due quantita’.
15
FIT POLINOMIO DI ORDINE m.
mm xaxaxaay ++++= ...2
210 Per l’esecuzione del calcolo degli elementi delle matrici e’ opportuno usare un metodo che semplifica la procedura e la riconduce a operazioni di prodotto di matrici, inversione e trasposizione di matrici.
⎟⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜⎜
⎝
⎛
=
mn
mm
n
xxx
xxxH
L
MMM
K
K
21
21
111
xi: i=1,…,n valori variabile x; m=grado del polinomio
⎟⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜⎜
⎝
⎛
=
mnn
m
m
T
xx
xxxx
H
L
MMM
K
K
1
11
22
11
matrice trasposta
⎟⎟⎟⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜⎜⎜⎜
⎝
⎛
=
2
22
21
10
10
001
n
C
σ
σ
σ
M
L
σi2: varianza del valore yi; i=1,…,n
11 )( −− ⋅⋅=⋅⋅= TT HCHDHCHD
16
Inoltre, indicando con: e con:
⎟⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜⎜
⎝
⎛
=
ny
yy
YM2
1
YCHB ⋅⋅=
si ottiene:
⎟⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜⎜
⎝
⎛
=⋅⋅⋅⋅=
=−
−
m
T
a
aa
AYCHHCHA
BDAM1
0
1
1
)()(
Esempio:
2210 xaxaayi ++= ; ),( iii yx σ± ; i=1,…,n
⎟⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜⎜
⎝
⎛
=
⎟⎟⎟⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜⎜⎜⎜
⎝
⎛
=
⎟⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜⎜
⎝
⎛
=⎟⎟⎟
⎠
⎞
⎜⎜⎜
⎝
⎛=
nn
nn
T
n
n
y
yy
YC
xx
xxxx
HxxxxxxH
M
L
MM
L
MMML
L
L2
1
2
22
21
2
222
211
222
21
21
100
010
001
1
11
111
σ
σ
σ
ESEMPI di interpolazione degli stessi dati con polinomi di ordine successivo.
17
400 600 800 1000 1200d@mmD
2
2.1
2.2
2.3
T@sD PRIMA PARABOLA ToHdL
400 600 800 1000 1200d@mmD
1.98
2.02
2.04
2.06
2.08
2.1
T@sD SECONDA PARABOLA To'HdL
18
400 600 800 1000 1200d@mmD
2.1
2.2
2.3
T@sD PRIMA CUBICA ToHdL
400 600 800 1000 1200d@mmD
2.1
2.2
2.3
T@sD SECONDA CUBICA To'HdL
19
0 400 600 800 1000 1200 1400d@mmD
2
2.1
2.2
2.3
T@s D PRIMA QUARTICA ToHdL
0 400 600 800 1000 1200 1400d@mmD
2
2.05
2.1
2.15
T@sD SECONDA QUARTICA To'HdL
20
0 400 600 800 1000 1200 1400d@mmD
2
2.2
2.4
2.6
T@sD CURVA DI QUINTO GRADO To
21
TEST χ2:Accordo tra una distribuzione teorica ed una sperimentale. Con il test normale e di Student, abbiamo costruito dei test di ipotesi che specificano i valori di uno o piu’ parametri della popolazione. Essi si possono indicare come test parametrici. La procedura consiste nel rigetto o accettazione di una ipotesi sulla base sulla base di un singolo numero determinato dal campione. Un’altra classe di test confronta la funzione di distribuzione del campione direttamente con la distribuzione della popolazione ; quest’ultima puo’ essere basata su alcune ipotesi. Si vuole stabilire se vi e’ accordo tra una distribuzione teorica ed una sperimentale, se l’istogramma delle frequenze sperimentali e’ compatibile con una distribuzione limite attesa , ottenibile solo nel caso di un numero infinito di misurazioni. Negli esempi in figura sono riportati i casi in cui la distribuzione limite attesa sia gaussiana, uniforme ed esponenziale. In tutti e tre i casi ci si aspetta che all’aumentare del numero di prove , all’aumentare della grandezza del campione, la distribuzione sperimentale approssimi sempre meglio quella attesa. Sono mostrate le fluttuazioni statistiche possibili in campioni di grandezza N=100, e come esse diminuiscano all’aumentare della grandezza del campione N=1000 e N=100000 . Se si dispone di campioni di grandezza finita ad esempio N = 100, come si puo’ stabilire se le fluttuazioni tra campione e campione e tra istogramma e distribuzione limite ipotizzata siano solo casuali?. Il test del χ2 puo essere utilizzato per rispondere alla domanda. GAUSSIANA
-4 -2 0 2 4
100 values
-4 -2 0 2 4
100 values
-4 -2 0 2 4
1000 values
-4 -2 0 2 4
100 000 values
22
UNIFORME
0 0.2 0.4 0.6 0.8 1
100 values
0 0.2 0.4 0.6 0.8 1
100 values
0 0.2 0.4 0.6 0.8 1
1000 values
0 0.2 0.4 0.6 0.8 1
100 000 values
ESPONENZIALE
0 2 4 6 8
100 values
0 2 4 6 8
100 values
0 2 4 6 8
1000 values
0 2 4 6 8
100 000 values
Si abbia una variabile casuale x. Si disponga di n dati sperimentali xi. Si divida l’intervallo delle eventualita’ di x in k classi tra loro mutuamente esclusive e di ampiezza Δx. Sia pi la probabilita’ che un valore di x cada nella classe i-esima. Si indichino con Oi le frequenze sperimentali osservate,ossia il numero di volte che si sono presentati i valori di x in tale classe (intervallo). Se Oi rappresenta la frequenza assoluta in quella
23
classe, νi = Oi/n rappresenta la frequenza relativa. Si costruisca l’istogramma delle frequenze sperimentali. Si indichino con Ei le frequenze assolute teoriche attese : Ei = n pi. La frequenza relativa teorica attesa coincide con pi .
La ; ∑ =k
i nO1
∑ =k
ip1
1
Se le variabile x e’ discreta Ej = n pj Se la variabile x e’ continua e f(x) e’ la funzione densita’ di probabilita’,
le probabilita’ per valori di x di appartenere alla classe j sono: xxfdxxfpxxj
xj jj Δ•≅= ∫Δ+
)()( *
dove e’ calcolato nel valore centrale della classe j. Il numero atteso di valori nella classe j
vale : Ej = n pj.
)( *jxf
La distribuzione congiunta delle frequenze in prove ripetute ed indipendenti e’ multinomiale: kO
kOO
kk PPP
OOOnOOOP )...()()(
!,...,!!!),...,,( 21
2121
21 = .
Le deviazioni standard valgono : iii qnp=σ , e se: pi <<1 allora iii Enp ==σ . In ogni classe la distribuzione delle frequenze Oi si puo’ assumere segua la distribuzione di Poisson di valore medio Ei e varianza . ii E=2σSi usano le frequenze assolute Ei come frequenze vere , come norma, in ogni classe. La quantita’ ( Oi – Ei)2 si puo’ ragionevolmente assumere come una misura della deviazione delle frequenze teoriche Ei dalle sperimentali Oi. Si debbono confrontare tra di loro le deviazioni dalla norma delle varie classi, ed e’ necessario normalizzare tra di loro gli scarti.
Consideriamo come scala, come misura di ogni deviazione il rapportoi
ii
EEO 2)( − .
Allora il valore i
iik
EEO 2
1
2' )( −= ∑χ , lo possiamo considerare come una misura della deviazione
totale. Sostituendo e sviluppando il quadrato si ottiene
nEOOE
EO
EEOEO
EEO k
i
ik
i
k
i
k
i
ik
i
iiii
i
iik
−=−+=−+
=−
= ∑∑∑∑∑∑1
2
111
2
1
222
1
2' 22)(χ .
Se consideriamo le frequenze assolute vale inoltre la relazione: . nOEk
i
k
i == ∑∑11
La variabile e’ distribuita asintoticamente come una variabile con DF = (k – 1 )gradi di
liberta’. Infatti , a causa del vincolo: , solamente (k – 1 ) variabili Oi sono
realmente indipendenti.
2'χ 2χ
nOEk
i
k
i == ∑∑11
Se non si stimano parametri della distribuzione teorica ipotizzata f(x) i gradi di liberta’ restano ( k-1). Se si devono stimare h parametri della distribuzione , i gradi di liberta’ si riducono di numero : DF = k – 1 – h, poiche’ si impongono (h + 1) vincoli sui dati. Affinche’ la distribuzione sia approssimata da quella assume importanza il valore della frequenza assoluta attesa Ei in ogni classe.
2'χ 2χ
Esse debbono essere in ogni classe : Ei = n pi > 5. Questo potra’ venire realizzato con opportuni raggruppamenti di classi.
24
Se si assume che la variabile i-ma si comporti approssimativamente come una variabile di Poisson
di valore medio μ = Ei e varianza σ2 = Ei allora il rapporto i
ii
EEO 2)( − rappresenta il quadrato di
una variabile standardizzata di Poisson. Per μ > 5 una variabile di Poisson puo’ gia’ essere ben
approssimata da una variabile gaussiana, e la sommatoria: ∑∑ ==− 22
2
1
)(iDF
i
iik
zE
EO χ , risulta la
somma del quadrato di k variabili normali centrate e ridotte , ossia una variabile χ2 con DF = ( k-1-h) gradi di liberta’. Calcolato il valore per applicare il test del si deve decidere prima sul valore del livello di
fiducia e in base a questo si determinano i limiti della regione critica tale che
2'χ 2χ2αχ
2222 )()(2
χχαχχχα dfP
aDFDF ∫
∞==> (Uso tabelle).
Le successive decisioni sono fissate avendo scelto la regione di accettabilita’ dell’ipotesi H0. Se il valore calcolato cade al di fuori della regione di fiducia ( ), nella zona di rigetto, allora la distribuzione teorica non si adatta bene ai nostri dati al livello di fiducia di α.
2Mχ >2
Mχ 2αχ
2 4 6 8 10 12
-0.1
0.1
0.2
0.3c2
0.95H4L = 0.711 and c20.05H4L = 9.488
Considerazioni La distribuzione limite teorica (Ei) ci dice quanti eventi di un certo tipo sono attesi in una certa classe quando il numero delle prove n e’ molto grande (n → ∞). Ei = n pi: numero medio di conteggi attesi nella classe i. In pratica, se ripetessimo la prova molte volte (se ricavassimo molti campioni di grandezza n) il numero Oi osservato di eventi in ogni classe fluttuerebbe da una prova all’altra: Oi segue
25
approssimativamente una distribuzione di Poisson. I diversi valori Oi dovrebbero avere valori medi μ=Ei e dovrebbero fluttuare intorno ad Ei con σ=√Ei (errore statistico). Cosi’ i numeri da confrontare sono le deviazioni (Oi - Ei) e σ=√Ei. Pertanto la quantita’:
i
ii
EEO 2)( −
per alcuni dei k intervalli potra’ essere >>1, per altri <<1, in media ≈1.
i
iik
EEO 2
1
2 )( −= ∑χ e’ indice dell’accordo:
χ2 = 0: accordo perfetto (molto improbabile); χ2 ≤ D.F.: accordo; χ2 >> D.F.: vi e’ il sospetto che la misura si discosti dal valore atteso.
i
ii
EEO 2)( − e’ la variabile standardizzata al quadrato. Gli intervalli dovrebbero essere scelti in modo
che il conteggio atteso Ei in una classe sia ragionevolmente grande (>5). Se i numeri in gioco sono ragionevolmente grandi la distribuzione di Poisson e’ ben rappresentata dalla distribuzione normale, quindi i numeri Oi possono essere trattati come fossero variabili casuali continue, distribuiti attorno al valore medio Ei secondo la gaussiana, anche se nei problemi considerati Oi e’ una variabile discreta distribuita secondo Poisson.
Allora (variabile normale standardizzata)2 puo’ essere pensata come una variabile χ2 e
seguire la fDF(χ2) distribuzione χ2 con gradi di liberta’ DF=k-h-1 (nel caso di una gaussiana in cui sono stimati 2 parametri μ e σ, occorre che k≥4)
∑=
=k
i 1
2'χ
La condizione per cui Oi segua Poisson e’: pi<<1. Bisogna quindi impostare un numero opportuno di classi perche’ essa sia verificata. Occorre sottolineare, nel caso di una variabile continua, che il confronto tra le frequenze sperimentali, variabili discrete, e le frequenze teoriche, variabili continue, e’ tanto piu’ attendibile quanto piu’ n e’ grande e l’ampiezza della classe Δx e’ piccola. (fare riferimento anche agli esempi gia’ trattati in Lab. 1)
26
TEST χ2 : Esempio per una distribuzione di Poisson Rutherford e Geiger in una celebre esperienza studiarono le emissioni di particelle a da un preparato radioattivo . Divisero il tempo in N = 2608 intervalli uguali aventi la durata di Δt = 7.5 s ciascuno, e misurarono il numero Xi di particelle emesse in ogni intervallo. Ottennero i risultati dalle prime due colonne della Tab 1. dove: Oi è il numero di intervalli in cui furono emesse Xi particelle. Ei: rappresenta il numero di intervalli in cui ci si aspetta siano emesse Xi particelle se la distribuzione e’ quella di Poisson con valore medio μ = x Xi Oi Ei νi P(Xi) (Oi -Ei)2/E
0 57 54 0,022 0,021 0.11 1 203 211 0.078 0.081 0.298 2 383 407 0.147 0.156 1.52 3 525 525 0.201 0.201 0.0 4 532 508 0.204 0.194 1.1 5 408 394 0.156 0.151 0.55 6 273 254 0.105 0.097 1.5 7 139 140 0.533 0.054 0.01 8 45 68 0.017 0.026 7.60 9 27 29 0.010 0.011 0.14 ≥10
0
100
200
300
400
500
600
0 1 2 3 4 5 6 7 8 9 10
Serie1Serie2
La figura riporta l’andamento delle frequenze Oi ed Ei L’accordo e’ buono. Un criterio per valutare l’accordo e’ il test del χ2 TEST χ2 . Ipotesi nulla H0 : la distribuzione e’ poissoniana. Stimiamo i valori attesi Ei= P(Xi)●N secondo tale ipotesi.
μ = ∑
∑= 10
0
10
0
i
ii
O
Oxx =3.87 ; S
1
)( 210
02
−
−=
∑N
xx i
= 3.63.
La teoria richiede s2 = μ : l’accordo e’ buono
νi = Oi / N ; !
87.3!
)(87.3
i
xi
i
xi
i xe
xexP
−− •=
•=
μμ
Ei = N ●P(Xi) ; N= ∑Oi = 2608 ( 1 vincolo). Stimato il parametro μ ( secondo vincolo) . Numero classi = 11. I valori di P(Xi) e di Ei sono indicati in tabella. Indicare gli errori statistici sull’istogramma delle frequenze. Il valore del χ2M = ∑ (Oi-Ei)2/Ei = 11.3. I gradi di liberta’sono: DF=(11-2)=9. Il valore di χ2
M ridotto = χ2M / DF = 1. 2
P(χ2DF=9 ≥χ2M) = 29%. L’ipotesi di distribuzione poissoniana e’ accettata al livello di
significativita’ del 29%.
27
I valori di χ2 critici per D.F.= 9 sono , fissato un livello di fiducia del 5%, :limite a sinistra=3.33 limite destro= 16.92. Il valore di χ2
M = 11.3 cade entro tali limiti. L’ipotesi Ho si ritiene accettata. Esempio Si ottenga un campione di n = 120 lanci di un dado, che si suppone, non truccato. Nel caso di un dado non truccato, le probabilita’ che si presentino le facce 1,2,3,4,5,6 sono tutte eguali: p1=p2=p3=p4=p5=p6=1/6 . Le corrispondenti frequenze assolute attese Ei sono: np1 = np2 = …= np6= 120 (1/6) = 20. Le frequenze realmente osservate Oi potranno essere diverse. i Oi Ei = n pi Oi - Ei (Oi-Ei)2
1 22 20 2 4 2 11 20 -9 81 3 10 20 -10 100 4 17 20 -3 9 5 35 20 15 225 6 25 20 5 25 Si vuole controllare l’accordo tra l’andamento delle frequenze osservate Oi e l’andamento della distribuzione di quelle teoriche attese, che si postula sia costante e pari a Ei = 20. Se l’accordo non fosse buono, l’ipotesi di dado non truccato potrebbe non essere vera.
Si costruisce la variabilei
iik
npnpO 2
1
2' )( −= ∑χ
i
iik
EEO 2
1
)( −= ∑ .
In ogni classe il valore atteso Ei = n pi e’ Ei > 5 , e la variabile ii
ii znp
npO=
− 2)( si puo’ supporre
una variabile normale centrata e ridotta. La variabile i
iik
npnpO 2
1
2' )( −= ∑χ segue una distribuzione
χ2 con DF = k -1 gradi di liberta’. Le probabilita’ pi = 1/6 si suppongono note, e quindi non si
debbono stimare parametri . Esiste un vincolo, poiche’ , e le variabili realmente
indipendenti non sono k ma (k -1). In questo caso il numero di variabili e k =6 e DF = 6 -1 = 5.
nOk
i =∑1
Il valore di χ2M vale 2.22
20444
20)20()( 26
1
26
1
2 ==−
=−
= ∑∑ i
i
iiM
OE
EOχ
Se si fissa un livello di fiducia α = 5% , per un valore DF =5 , il valore critico risulta χ2c = 11.07.
Il valore di χ2M osservato supera il valore critico al livello di significativita’ del 5 %.
Si scarta l’ipotesi che le probabilita’ siano eguali e pari a pi = 1/6, e che Ei =n pi = 20. Le frequenze osservate differiscono in maniera significativa da quelle attese e si rigetta l’ipotesi che ci sia accordo tra i valori di frequenza misurati e la forma ipotizzata , che prevede Ei = npi = 20. La discrepanza tra valori osservati e quelli attesi non puo’ essere imputata solamente a fluttuazioni casuali , l’ipotesi che il dado non sia truccato viene rigettata al livello di significativita’ del 5%. Se α = 1% e DF = 5 il valore di χ2
c risulta χ2c = 15. L’ipotesi che il dado non sia truccato puo’
venire rigettata anche al livello di significativita’ del 1%. Il rigetto e’ altamente significativo, si puo’ commettere un errore di I tipo con probabilita’ inferiore all’ 1%.
28
29
2 4 6 8 10 12 14
-0.1
0.1
0.2
0.3c2
0.95H5L = 1.145 and
2 4 6 8 10 12 14
-0.1
0.1
0.2
0.3c2
0.99H5L = 0.554 and c20.01H5L = 15.086
c20.05H5L = 11.070
Appendice 2:Esempio del significato delle correlazioni tra i coefficienti stimati col MMQ.
-1 -0.5 0.5 1
1.925
1.95
1.975
2.025
2.05
Fig 1:andamento del periodo attorno al coltello O in funzione del tempo. I punti sono interpolati, previa traslazione dell’asse delle ascisse nel baricentro dei valori di , con una parabola (vedi programma di Mathematica)
-1 -0.5 0.5 1
1.94
1.96
1.98
2.02
Fig2:andamento del periodo attorno al coltello O1 in funzione del tempo. I punti sono interpolati, previa traslazione dell’asse delle ascisse nel baricentro dei valori di , con una parabola (vedi programma di Mathematica)
-1 -0.5 0.5 1
1.925
1.95
1.975
2.025
2.05
Fig 3: calcolo del valore del periodo in corrispondenza dell’intersezione delle due parabole
-1 -0.5 0.5 1
1.9
1.92
1.94
1.96
1.98
2.02
0.005 0.01 0.015 0.02
0.09
0.11
0.12
scatter bc
1.895 1.905 1.91 1.915
0.005
0.01
0.015
0.02scatter ab
1.895 1.905 1.91 1.915
0.09
0.11
0.12
scatter ac
30
1.895 1.9 1.905 1.91 1.915
10
20
30
40
50
60
0 0.005 0.01 0.015 0.02
10
20
30
40
50
0.09 0.1 0.11 0.12
20
40
60
Fig 4: correlazione tra i coefficienti dei parametri di una parabola T=A+ Bd+Cd2 ottenuti col metodo dei minimi quadrati. La figura riporta il coefficiente di correlazione (covarianza) tra i parametri A-B, A-C, B-C. Come si nota i coefficienti di correlazione A-B e B-C sono fra di loro scorrelati, infatti il diagramma mostra un coefficiente di correlazione prossimo a 0 . I coefficienti A e C sono invece correlati come mostrato dal diagramma che indica una correlazione diversa da 0 e negativa. La correlazione pari a 0 tra i coefficienti A e B e tra i coefficienti B e C è ottenuta grazie alla traslazione dell’asse delle ascisse nel baricentro delle di. Presa la serie di punti T(di )± σ i e interpolandoli si ottiene una parabola di coefficienti Ai, Bi, Ci. Facendo variare ogni valore di entro l’errore σ i secondo, una distribuzione gaussiana, si ottiene un’altra serie di dati che interpolati forniscono altri coefficienti Ai, Bi, Ci. Il procedimento si ripete N volte ottenendo una serie del valore degli stessi con i=1…N. Negli istogrammi sono riportati le distribuzioni ottenute dei valori dei coefficienti A, B ,C. I diagrammi riportati sopra si ottengono mettendo in correlazione i vari coefficienti ottenuti.
31
Rapporto di verosimiglianza. Principio di massima verosimiglianza. Si supponga che f(x, λ) sia una funzione densita’ di probabilita’ caratterizzata da k parametri (λ1, λ2,
…, λn). Sia x1, x2, …, xn un provino ottenuto da n misurazioni di una data grandezza fisica, il cui comportamento e’ assimilabile a quello della variabile casuale x. L’espressione jjj dxxfdP ),( λ= e’ la probabilita’ di ottenere il valore x compreso tra xj e xj+dxj. Se gli n risultati xj si suppongono indipendenti, allora la probabilita’ che x1 sia compreso tra x1 e x1+dx1, x2 tra x2 e x2+dx2, …, e’ data dal valore della probabilita’ congiunta:
∏=
=n
jjj dxxfdP
1
),( λ funzione di k parametri
L’espressione produttoria: e’ detta funzione di verosimiglianza. Essa non deve
essere identificata con una funzione densita’ di probabilita’ in senso stretto, anche se ne ha le caratteristiche. Il termine “verosimiglianza” indica che essa ha il significato di una funzione densita’ di probabilita’ non a priori ma a posteriori, essendo definita sul provino di dati a disposizione.
∏=
=n
jjxfL
1
),( λ
Si supponga, per semplicita’, che la popolazione sia caratterizzata da un solo parametro che puo’ assumere al piu’ due valori λ1 e λ2, distinti tra loro. Si puo’ costruire il rapporto:
∏
∏
=
== n
jj
n
jj
xf
xfQ
12
11
),(
),(
λ
λ rapporto di verosimiglianza
Esempio: λ=parita’ di uno stato; λ1=dispari; λ2=pari Il risultato del processo di campionamento puo’ indicare che l’insieme col parametro λ=λ1 e’ Q volte piu’ probabile dell’insieme allorche’ λ=λ2. Esempio: viene lanciata una moneta asimmetrica. 5 lanci: 1 volta T; 4 volte C Tre ipotesi: A – PT=1/3; PC=2/3 B – PT=2/3; PC=1/3 C – PT=1/2; PC=1/2 A seguito dei risultati dell’esperimento, la funzione di verosimiglianza ha valore:
ipotesi A → 4
32
31
⎟⎠⎞
⎜⎝⎛=AL
ipotesi B → 4
31
32
⎟⎠⎞
⎜⎝⎛=BL
ipotesi C → 4
21
21
⎟⎠⎞
⎜⎝⎛=CL
e dunque i rapporti di verosimiglianza risultano: 8.11.28 ====== CBBCCAACBAAB LLQLLQLLQ
La verosimiglianza dell’ipotesi A e’ la piu’ alta fra tutte; e’ molto probabile che la moneta appartenga alla classe A piuttosto che alla classe B o C. Esempio: π1=0.4 e π2=0.2 rappresentino la proporzione di individui di gruppo sanguigno Rh- in due diverse popolazioni. Si considerino le popolazioni bernoulliane e si osservi un campione di 20 individui: x=6 soggetti presentano questa caratteristica.
32
Ipotesi 1 → il campione proviene dalla popolazione π1 0000032.06.04.0)1(),( 146
111 ==−= −xnxxL πππ Ipotesi 2 → il campione proviene dalla popolazione π2
0000028.08.02.0)1(),( 146222 ==−= −xnxxL πππ
875.0),(),(
1
2 ==ππ
xLxLQ
La verosimiglianza dell’ipotesi riferita alla popolazione π2=0.2 e’ del 12.5% piu’ bassa. La funzione di verosimiglianza e di massima verosimiglianza. Stima di parametri.
La funzione di verosimiglianza considerata come funzione di λ puo’ presentare u
o piu’ massimi.
∏=
=n
jjxfL
1
),( λ no
1) Un solo massimo λ1 con simmetria attorno a λ1: in tal caso λ1 e’ la miglior stima di λ e la 2
1λσ puo’ essere presa come errore sulla stima di λ1.
2) Un solo massimo λ1 con asimmetria attorno a λ1: in tal caso λ1 e’ la miglior stima di λ ma la 2
1λσ e’ poco significativa. Presentare L(λ) e λ1.
3) Piu’ massimi: e’ preferibile scegliere il λ che corrisponde al massimo dei massimi di L(λ). Riportare L(λ).
Determinazione del massimo
La ricerca del massimo di L(λ) viene fatta risolvendo l’equazione: 0)(=
λλ
ddL
E’ preferibile dapprima calcolare: e poi farne la derivata. La posizione dei
massimi di L(λ) e di ln L(λ) e’ la stessa.
∑=
==n
jjxfLl
1),(lnln λ
Se si considera un solo parametro λ, si puo’ risolvere l’equazione:
∑ ∑∑= ==
=====n
j
n
jj
n
jj x
ffxf
dd
dLd
ddll
1 11
),('),(lnln' λϕλλλλ
Se i paramtri sono k, si dovra’ risolvere il sistema di equazioni:
0=id
dlλ
con i=1,2,…,k
Stima dell’errore Se il numero delle osservabili e’ grande, L tende ad una gaussiana, almeno in prossimita’ del massimo, e l tende ad una funzione parabolica nella regione in cui la sua derivata si annulla. La miglior stima del parametro λ e’ il valore λ0 che rende massime sia L che l. La precisione con cui si determina λ0 e’ determinata dalla condizione:
21)( max0 −=± ll λδλ che e’ equivalente alla: ( ) )(22 Lσδλ =
33
Infatti, nel caso in cui L e’ circa gaussiana, si ha: 2/1
2
2
0
)(−
⎟⎟⎠
⎞⎜⎜⎝
⎛∂∂
−=λλ
σ lL
Nel caso piu’ generale di piu’ parametri , i valori di essi si ottengono risolvendo il sistema:
iid
dl λλ
⇒= 0
Se L e’ gaussiana:
( )⎟⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜⎜
⎝
⎛
==∂∂
∂−= −
2
22
21
12
k
ijijijji
ij EHElH
λ
λ
λ
σ
σσ
λλ O
Stima di μ e media pesata La misura di una grandezza fisica ha un comportamento assimilabile a quello di una variabile casuale normale con madia μ. La generica misura xj abbia varianza sj
2. La probabilita’ a posteriori di ottenere un valore di x compreso tra xj e xj+dxj e’ data da:
( )
js
x
jjj dxe
sdxxf j
j
⎥⎥⎦
⎤
⎢⎢⎣
⎡ −−
=2
2
2
21),(
μ
πμ
Se le misure sono n, allora: ( )
∏=
⎥⎥⎦
⎤
⎢⎢⎣
⎡ −−
=n
j
s
x
j
j
j
es
L1
2 2
2
21
μ
π
( )∑∑
==
+⎪⎭
⎪⎬⎫
⎪⎩
⎪⎨⎧ −−−==
n
j j
n
j j
j
ssx
Ll11
2
2
21ln
21ln
π
μ
Se vogliamo stimare μ, dobbiamo risolvere l’equazione:
∑∑ ∑ =−⇒=−
===
010)(
221' 2
122
j
n
j j
j
j
j
ssx
sx
ddll μ
μμ
∑
∑=
2
2
1j
j
j
s
sx
μ valore medio delle misure, ciascuna pesata sull’inverso dell’errore al quadrato
Se le sj sono tutte uguali: ∑ == xxn i1μ
Errore su μ:
∑∑
=⎟⎟⎠
⎞⎜⎜⎝
⎛∂∂
−=−=∂∂
−
2
2/1
2
2
22
2
111
j
j
s
ls
lμ
σμ μ
Media pesata: esempio.
34
Supponiamo di misurare la tensione di una cella fotovoltaica. 401 =n misure 021.11 =V V V 010.0
1=Vs
Prendiamo piu’ confidenza e impariamo a migliorare lo strumento usandolo meglio, miglioriamo la precisione intrinseca dell’apparato (sv) di 2.5 volte:
102 =n misure 019.12 =V V V 004.02
=Vs
V 0013.010004.0V 0016.0
4001.0
21==== VV σσ
Il confronto mostra che il fatto di fare piu’ misure decresce l’errore come n/1 , ma questo non e’ cosi’ importante come migliorare decisamente la precisione dell’apparato. Combiniamo le due serie di misure:
V 0010.011
1
V 0196.1)019.1(61.0)021.1(39.0
)004.0(10
)01.0(40
)019.1()004.0(
10)021.1()01.0(
40
1
22
22
22
2
2
21
=+
=
=+=+
+==
∑
∑
VV
V
i
i
iV
V
σσ
σ
σ
σ
Sebbene vi siano 40 misure nella prima serie e solo 10 nella seconda, nella valutazione della media il risultato della seconda serie pesa circa il doppio perche’ il suo errore e’ 2.5 volte minore. Stima di σ2(noto μ ) Sia noto μ e incognita σ2 (con le sj tutte uguali).
( )⎥⎥⎦
⎤
⎢⎢⎣
⎡ −−
=2
2
2
21),,( σ
μ
σπσμ
x
exf
( )
∏=
−−∑
⎟⎠
⎞⎜⎝
⎛==
n
i
xn
i
i
exfL1
2 2
2
21),,( σ
μ
σπσμ
∑ −−−== 22
2 )(2
1)2ln(2
ln μσ
πσ ixnLl
∑ −+−=∂∂
= 22222 )(
)(21
22
2' μ
σπσπ
σ ixnll
Per determinare σ2 si deve porre: l’=0
nxxn ii ∑∑ −
=⇒=−
+−2
222
2
2
)(ˆ0
)(2)(
2μ
σσ
μσ
Errore su σ2:
22 ˆ22
22
)(
1ˆ
σσσ
σ
=⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
∂∂
−=l
35
⎟⎟⎠
⎞⎜⎜⎝
⎛−
−+=
∂∂ ∑ 32
2
2222
2
)ˆ(2
2)(
)ˆ(2)( σμ
σσixnl
La l” va calcolata per n
xi∑ −==
222 )(
ˆμ
σσ :
46
2
4ˆ
22
2
ˆ2ˆ2
2ˆ
ˆ2)( 2 σσσ
σσ σ
nnnl−=⎟
⎠⎞
⎜⎝⎛−+=⎟⎟
⎠
⎞⎜⎜⎝
⎛∂
∂
Quindi: 2
ˆ
42 ˆ2ˆ2)ˆ( 2 σσσσ
σ nnVar =⇒=
N.B.: se non conosciamo μ e lo stimiamo con x allora σ2 e’ stimato da ∑ −−
= 22 )(1
1 xxn
s i e
quindi )1(
2 42
2−
=ns
σσ
Distribuzione di Bernoulli: stima di p Un evento a di probabilita’ incognita p si e’ presentato x volte in n prove. Qual e’ il valore piu’ probabile di p? Vogliamo fare una stime di p.
Distribuzione di Bernoulli: la probabilita’ di ottenere x successi in n prove e’ pari a xnx ppxn −−⎟⎟
⎠
⎞⎜⎜⎝
⎛)1(
Scegliamo una funzione di verosimiglianza: xnxxnx pp
xnnxpp
xn
pxL −− −−
=−⎟⎟⎠
⎞⎜⎜⎝
⎛= )1(
)!(!!)1(),(
che va intesa come una funzione della sola p (il nostro parametro).
⎟⎟⎠
⎞⎜⎜⎝
⎛+−−+==
xn
pxnpxLl ln)1ln()(lnln
Per stimare p occorre risolvere: l’=0
nxpnpx
ppxpnpxpx
pxn
px
dpdll =⇒=−⇒=
−+−−
⇒=−−
−== 00)1(
01
'
Pertanto la frequenza relativa nx
=ν e’ la stima di massima verosimiglianza del parametro p della
distribuzione binomiale. Per n → ∞ si ha: ν → p (stima consistente) E(ν)=p (stima corretta) Se ripetiamo la serie di n prove r volte, ottenendo r valori {x1, x2, …, xr}, allora:
∑∑∑∑∑
∑ ∑ ∑
∏
====
=−−
−==
⎟⎟⎠
⎞⎜⎜⎝
⎛+−−+==
−⎟⎟⎠
⎞⎜⎜⎝
⎛=
= =
=
−
νν iii
ii
r
i
r
i
r
i iii
r
i
xnx
ii
rnx
rnrx
p
xnp
xpdp
dll
xn
xnppxLl
ppxn
pxL ii
11
0)(1
11'
ln)()1ln(lnln
)1(),(
1 1
1
=1
36
(frequenza relativa media)
Distribuzione di Poisson: stima di λ Sia λ il parametro stimatore del valore medio della distribuzione di Poisson:
!),(
xexf
x λλλ−
=
In n prove otteniamo { x1, x2, …, xn}, con ii x±=σ e ∑ = Nxi . La funzione di verosimiglianza per il dato campione e’:
∏=
−
=n
i i
x
xeL
i
1 !
λλ
( ){ }∑ −−== λλ !lnlnln ii xxLl
∑ ∑ −=⎭⎬⎫
⎩⎨⎧ −== nxx
ddll i
i
λλλ11'
La stima di verosimiglianza di λ si ottiene risolvendo: l’=0
xn
xx
n i
i
==⇒=⇒ ∑∑
λλ1
x e’ uno stimatore corretto e ha varianza minima: nx
x =2σ
( ) nx
xxnxl
xixx ==⎟
⎟⎠
⎞⎜⎜⎝
⎛−=⎟
⎠⎞
⎜⎝⎛−=
∑2
22 1
/1
"1
λσ
Quindi la stima di massima verosimiglianza del valore medio di una variabile di Poisson e’ data da:
nxx == λσλ ˆ
ˆ
Nxnxxn
x
i
111ˆ
ˆ ====∑λ
σ λ
In una sola prova: iii xxx === 2ˆˆ
ˆλλ
σσλ Se gli intervalli di tempo ti in cui si effettuano i conteggi xi non sono uguali:
NTN
tx
xetxP
i
i
i
txi
i
ii 1ˆ
ˆ!
)()( ˆ ====∑∑−
λ
σλλ λ
λ
37
Stima. Stimatori e loro proprieta’ Uno degli scopi della statistica inferenziale e’ quello di ottenere informazioni circa i parametri della popolazione, che devono essere considerati fissi, a partire dai valori determinati in base al campione, che sono invece variabili casuali. I parametri, infatti, quali μ e σ, sono delle costanti numeriche, mentre i corrispondenti stimatori x e sono variabili casuali che seguono una distribuzione di probabilita’.
s
Il fine e’ quello di ottenere dai valori campionari indicazioni quanto piu’ precise possibile circa il valore vero delle quantita’ ignote, stime quanto piu’ possibile vicine ai parametri cercati. La metodologia adatta a raggiungere questo scopo costituisce una procedura che viene detta stima; si parla di stima puntuale quando fornisce un singolo valore del parametro in studio, oppure di stima per intervallo se consente di costruire un intervallo (fornisce due numeri) entro cui si puo’ supporre che il parametro sia compreso. La stima dei parametri di una popolazione consiste nel determinare uno stimatore, ossia una funzione t(x1, x2, …, xN) delle N determinazioni sperimentali xi della grandezza x che costituiscono il campione, che fornisce un valore “approssimato” del parametro. Nel caso della media, ad
esempio, la funzione t vale:N
xx i∑= . Il valore di uno stimatore per un dato campione e’ detto
stima. Uno stimatore e’ una funzione di variabili casuali e, pertanto, una variabile casuale esso stesso; si puo’ parlare di valore medio e varianza di uno stimatore riferendoci alla popolazione dei possibili valori della stima in corrispondenza di tutti i possibili campioni. Per derivare uno stimatore puntuale, i criteri di stima piu’ usati sono: il metodo di massima verosimiglianza e il metodo dei minimi quadrati. Proprieta’ degli stimatori Ad uno stimatore si possono associare diverse caratteristiche che ne individuano la “bonta’”. Un buon stimatore deve essere:
- consistente - corretto - efficiente
Indichiamo con a la quantita’ da stimare e con â lo stimatore. Ad es.: a≡μ; â= x L’applicazione di uno stimatore â al campione di dati di N misure porta alla stima di a. Questa potra’ variare dal valore vero, a causa di fluttuazioni statistiche del campione. Pero’ se le misure sono indipendenti e non ci sono errori sistematici, per la legge dei grandi numeri questi effetti diventano sempre piu’ piccoli per N → ∞. Sembra ragionevole richiedere che per un buon stimatore la differenza fra stima e valore vero → 0 per N → ∞. Uno stimatore e’ consistente quando converge (in probabilita’) al valore vero del parametro:
∞→Nlim â = a
P(â=a) → 1: a mano a mano che la dimensione del campione aumenta, la stima ottenuta tende al valore vero. Condizione sufficiente e’ che la varianza dello stimatore → 0 per N → ∞. Esempio: la media x e’ uno stimatore consistente, infatti:
11lim1lim)(lim22
=⎟⎟⎠
⎞⎜⎜⎝
⎛−=⎟⎟
⎠
⎞⎜⎜⎝
⎛−≥<−
∞→∞→∞→ εσ
εσεμ
nxP
N
x
NN
38
(disuguaglianza di Cebycev) La media, il valore medio di un campione, converge in probabilita’ alla media della popolazione:
μ⎯→⎯Px Per N finito non possiamo sperare che per un particolare campione di dati â abbia lo stesso valore di a; puo’ essere piu’ grande o piu’ piccolo. Possiamo richiedere che la probabilita’ di sovrastima bilanci quella di sottostima e in media coincida con il valore vero. Lo stimatore e’ corretto, cioe’ non distorto, senza “bias” se: E[â]=a ovvero se mediamente coincide con il valore vero di a. Esempio: la media x e’ uno stimatore corretto, poiche’:
μ=)(xE (la media di tutte le medie campionarie e’ uguale a μ)
Il valore di â dipende dal campione, per cui â variera’ da campione a campione. Se la stima deve essere una buona misura del valore vero a, la dispersione dei suoi possibili valori deve essere la piu’ piccola possibile. Uno stimatore e’ detto efficiente quando ha una piccola dispersione misurata dalla σâ
2 (piccola varianza). Se â1 e â2 sono ambedue stimatori non distanti di a, ma vale σ1
2< σ22, e’ da considerarsi preferibile
â1 che viene definito piu’ efficiente o piu’ preciso. Esempio:
NxE x
xσσμ ==][ ; m=mediana μ=][mE
⇒> 22xm σσ il valore medio e’ piu’ efficiente di m
Approfondimento E’ possibile dimostrare che per ogni stimatore â di a esiste un limite inferiore della varianza dello stimatore σâ
2 e quindi un limite superiore per la sua efficienza (teorema di Cramer-Rao). Per uno stimatore corretto non distorto:
)(ln
12
2ˆ ak
aLE
a =
⎥⎥⎦
⎤
⎢⎢⎣
⎡⎟⎠⎞
⎜⎝⎛
∂∂
≥σ
dove L e’ la funzione di verosimiglianza: ∏== ),(),()...,(),(),...,,( 2121 axPaxPaxPaxPxxxL inn
Il teorema puo’ essere anche riscritto come:
⎥⎦
⎤⎢⎣
⎡⎟⎟⎠
⎞⎜⎜⎝
⎛∂
∂−≥
2
22ˆ
ln1
aLE
aσ
Nota su: 2222 ,,, xxxx ssσσ Supponiamo che siano ottenute da un campione di n {x1} normali.
)1(21
)1(2)1(2
)(1
1 2
−≈
−≈
−≈
=−−
= ∑
nsns
n
nssxx
ns
sxxs
xxix
σσσ
39
40
Si voglia misurare σ. A livello di progetto si voglia valutare quante misure occorrono per ottenere una data precisione di σ. Se si vuole raggiungere un errore di circa il 10%; se prevediamo n=50 misure di xi:
%10)150(2
1=
−=
ssσ
se σ=6 e’ una ragionevole assunzione:
6.0)150(2
6≈
−≈sσ
A livello di analisi, se non conosciamo σ ma vogliamo stimarla:)1(2 −
≈nsx
sxσ
6.00.66.0506 ±==== xsx snsx
σ Vi e’ differenza tra un errore ottenuto dal campione in questo modo e una conoscenza a priori di σx (s → ∞ per n → ∞). Vi e’ differenza tra i due risultati:
1) 1.00.10 ±=μ dove 2.0=xσ e’ noto, n=4 misure, 0.10=x e 1.022.0
===nx
xσσ
2) 1.00.10 ±=μ dove xσ non e’ noto e viene stimato sui 4 valori {xi}:
∑ =−−
= (1
12 xxn
s ix 2.0)2 1.022.0
===n
ss xx 0.10=x
Tale differenza e’ importante per piccoli n (piccoli campioni):
xsxx ±= richiede l’uso di Student xs
xt μ−=
Per grandi campioni (n grande) la stima di σ migliora e la differenza e’ meno importante:
xxx σ±= richiede x
xzσ
μ−=