Metodo dei Minimi Quadrati . Principio di Massima ... · Questo metodo e’ noto come . Metoto dei...

LABORATORIO 2 (meccanica e Termodinamica) a.a. 2007/2008 F.Balestra. ( Per cortesia segnalatemi punti non chiari o refusi. Grazie e buon studio)

Metodo dei Minimi Quadrati . Principio di Massima Verosimiglianza . Test del χ2.

10 20 30 40 50

0.2

0.4

0.6

0.8

1.0density function and distribution function

2 4 6 8 10 12

-0.1

0.1

0.2

0.3c2

0.95H4L = 0.711 and c20.05H4L = 9.488

3 4 5 6 7 8

4

5

6

7

8

9

Metodo dei Minimi Quadrati e Principio di Massima Verosimiglianza. Proprieta’ degli stimatori. Dipendenza della matrice di covarianza e del χ2 dall’errore sulle y. Test del χ2. Ricerca della migliore forma funzionale. Correlazioni tra i coefficienti stimati. Principio di Massima Verosimiglianza. Media pesata. Stima di parametri per la distribuzione di Bernoulli e di Poisson. Stima e proprieta’ degli stimatori.

1

Principio di massima verosimiglianza e metodo dei minimi quadrati. Supponiamo di avere n coppie di dati {xi; yi ± σi} Sia y = f( x; a ) una funzione che fornisce un valore y per ogni x. La forma e’ nota, ma contiene un parametro a ( o piu’ parametri) che vogliamo stimare. Le misure yi hanno come valore vero y = f( xi;a) e sono disperse rispetto ad y a causa dell’errore σi, con distribuzione gaussiana. La probabilita’ di ottenere un particolare valore di yi per un dato valore di xi e’

i

axfy

ii dyeayP i

ii2

2

2)];([

21);( σ

πσ

−−

= .

La probabilita’ congiunta di ottenere la serie delle n misure indipendenti {yi} realmente ottenute vale

2

2

1 2)];([

11)

2();( i

iin axfy

i

ini

n edyayPP σ

πσ

−−∑

•== ∏∏

La funzione densita’ di probabilita’ corrispondente,detta a posteriori perche’ costruita con il campione di dati, e’ la funzione di verosimiglianza L per il campione di dati. Essa vale

2

2

1 2)];([

11)

21();( i

iin axfy

i

ni

n eayPL σ

πσ

−−∑

•== ∏∏ .

Il Principio di Massima Verosimiglianza assume che il valore piu’ verosimile come stima del parametro a e’ quello che rende massima la funzione L, ossia rende massima la probabilita’ di ottenere la serie di dati del campione . Massimizzare L e’equivalente a rendere massima la funzione logaritmo l = ln L:

2

2

112

2

111

)];([21)2(ln[]

2)];([)

21(ln[);(lnln

ii

axfyaxfyayPLl iin

i

nii

n

i

n

in

σπσ

σπσ−

∑−−=−

∑−=== ∑∑∏. Per rendere massima l e’ sufficiente minimizzare la sommatoria:

2

2

1

)];([2

i

axfy iin

σχ −

∑= ,

cioe’ minimizzare la somma del quadrato degli scarti, pesati, tra le yi e le f(xi;a) predette. Questo metodo e’ noto come Metoto dei Minimi Quadrati. Il metodo fornisce un mezzo per stimare il parametro a in una funzione f(xi; a) che fornisce i valori veri di y per ogni x. I dati usati sono le {xi} , assunte senza errori, ed i corrispondenti valori {yi} misurati con errore σi. Si costruisce, per tutti i punti, la somma del quadrato delle differenze fra i valori misurati e quelli attesi f(xi; a) opportunamente scalate di σi.

Questa somma 2

2

1

)];([2

i

axfy iin

σχ −

∑= e’ detta . Essa e’ la somma del quadrato di n variabili

normali standardizzate.

2

χ

Si vuole il valore di a che rende minima questa somma . Se sono note le derivate di f rispetto ad a il problema e’ di trovare la soluzione:

0)];([);(1;01

21

2

=−∑= axfyda

axdfda

dii

in

σχ .

Se le σi = σ sono tutte eguali la soluzione si ha risolvendo la :

2

0)];([);(;01

2

=−∑= axfyda

axdfda

dii

inχ .

Se non si conoscono gli errori σ , la soluzione per a si ottiene dalla stessa relazione usata per le σi = σ =cost.

Il valore stimato di a , indicato con , sara’ prossimo al valore vero ma non coincidera’ con esso. ^a

La stima e’ funzione delle yi : . Usando la propagazione degli errori, assumendo le yi indipendenti, si ottiene la varianza del valore stimato:

^a )(

^

iyaa =

22

1

2 )(^ i

n

ia ya σσ ∑ ∂

∂= .

Se la f contiene N parametri { a1, a2, …, an}, essi si otterranno dalla soluzione di un sistema di N equazioni in N incognite :

0)];([);(;01

2

=−∑= iiii

iin

i

axfyda

axdfdadχ ; i = 1 , …, N

Il caso della retta , della interpolazione lineare, e’ il piu’ comune: y = f(xi; a,b)= a + b x. Supposte valide le condizioni descritte sopra e σi = σ = cost, la probabilita’ di ottenere un valore yi per un dato xi e’ data da:

2

2

1 2)];([

2),;(

σ

πσ

axfy

ii

iin

edybayP−

−∑•= .

La probabilita’ di ottenere l’insieme completo di misure {yi} e’ il prodotto

2

2

12

2

1 2)]([

2)]([

11)

2()

2(),;(

σσ

πσπσ

bxay

ni

bxay

ini

ni

ni

n

edyedybayPP+−

−+−

− ∑•=

∑•== ∏∏ .

La funzione di verosimiglianza e’ espressa come:

2

2

12

2

1 2)]([

2)]([

1)

21()

21(

σσ

πσπσ

bxay

n

bxayn

in

in

eeL+−

−+−

− ∑•=

∑•= ∏

Il logaritmo di L vale:

2

2

12

2

111

)]([21)2ln(]

2)];([)

21(ln[),;(lnln

σπσ

σπσii

nii

nnn

in bxaynaxfybayPLl +−

∑−−=−

∑−=== ∑∏ Il Metodo di Massima Verosimiglianza consiste nel fare l’assunto, che la migliore stima di a e b , basata sulle n misure {yi} ottenute, e’ fornita dai valori degli stessi per cui L o l sono massime, e questo equivale a minimizzare :

2

2

1

2 )]([σ

χ iin bxay +−∑= .

(Il metodo e’ stato trattato in dettaglio nel corso di Lab. 1) Esempio: Vediamo come esempio il caso semplice in cui y e’ propozionale ad x : y = mx. Questo e’ un semplice esempio di fit con m come unico parametro incognito. La quantita’ da minimizzare in funzione di m, e’

2

2

1

2 ][

i

iin

i

mxyσ

χ −∑==

Differenziando rispetto ad m si ottiene 3

21

2 ][2i

iin

ii

mxyxm σχ −

∑ −=∂∂

=

Se si assume che tutte le yi abbiano lo stesso errore σ

∑ −−=∑ −−=∂∂

==

n

iiii

n

iiii mxyxmxyx

m 1

22

12

2

)(2][2σσ

χ

Per la stima di m questa quantita’ e’ zero:

∑ =∑ −=∑ −−= ===

∑n

ii

n

ii

n

iiii

n

iiii xmyxmxyxmxyx

1

2

111

2

1

22 ;)(;0)(2

σ

La stima di m diventa: 2

11

1^

i

n

n

iii

x

yxm

∑=

=∑

= .

La precisione di questa stima , applicando la propagazione degli errori, risulta

2

11

222

2

11

1

22

1

^

2 )()(^

i

n

i

ni

nn

imxx

xym

∑∑∑∑

==

==∂∂

=σσσσ ;

2

11

^

i

nmx∑

=

=σσ

Proprieta’ degli stimatori . Eseguita la misura di due grandezze fisiche (x,y) e riportati i valori (xi,yi±σi) su di un grafico cartesiano, nasce il problema di stabilire quale sia la relazione funzionale, y = f(xi,a) piu’ adatta per interpolare i dati. Le yi si assumono indipendenti e gaussiane. Il metodo dei minimi quadrati ci permette di determinare una stima dei parametri ma non ci fornisce indicazioni sulla scelta della funzione. Nel caso di una retta, di una relazione lineare : y = a + bx, per valutare i parametri si rende minima la somma

∑∑ ∑ =−−

=Δ

=n

i

n n

i

ii

i

i zbxayy

1

2

1 12

2

2

22 )()(

σσχ .

Questo vale sia nel caso che le σi siano eguali, sia in quello in cui siano differenti per ciascuna delle yi.

Se le σi non sono note si stimano con: ∑∑ −Δ

=−+−

=N

iN

iy N

yN

bxayS

1

2

1

22

2)(

2)]([

Valutati a e b, nel caso di σi = σy =costante, si ottengono le loro incertezze attraverso le relazioni :

∑ ∑

∑

−= n N

ii

N

iy

a

xxN

x

1 1

22

1

2

2

)(

σσ ,

∑ ∑−= n N

ii

yb

xxN

N

1 1

22

22

)(

σσ

Finora la procedura e’ stata semplicemente una determinazione di parametri. Per le stime, a e b, dei parametri valgono le seguenti proprieta’ :

• E[a + b x] = E[a] + x E[b] = A + B x. I valori veri A e B sono stimati da a e b che si suppongono distribuiti normalmente, con varianze

e , attorno ai valori veri A e B. La varianza si suppone nota. 2aσ 2

bσ 2yσ

a e b sono detti stimatori corretti di A e B. 4

• 2aσ = E[(a – A)2] = minima. 2

bσ = E[(b – B)2] = minima. Gli stimatori a e b sono stimatori efficienti e precisi di A e B.

• ∑∑ ∑ =−−

=Δ

=n

i

n n

i

ii

i

i zbxayy

1

2

1 12

2

2

22 )()(

σσχ segue la distribuzione χ2 con DF = n -2 .

Nel caso di n misure dirette {yi ± } della grandezza Y, 2yσ

• il valore medio ∑=n

iyn

y1

1 e’ la migliore stima del valore medio della popolazione da cui il

campione e’ ottenuto, che si assume come il valore vero della grandezza .

• la variabile : ∑∑ ∑ =−

=Δ

=n

i

n n

y

i

y

i zyyy

1

2

1 12

2

2

22 )()(

σσχ segue la distribuzione χ2 con

DF = n – 1 gradi di liberta’. • 2

yσ = E[(yi – y )2] = minimo. La media e’ uno stimatore efficiente o preciso.

• E[ y ] = μY. La media e’ uno stimatore corretto di Y.

Nel caso di n misure dirette {yi± } della grandezza , 2iσ

• la media pesata∑

∑= n

i

n

i

iy

y

12

12

1σ

σ e’ la migliore stima della grandezza , e la variabile :

∑∑ ∑ =−

=Δ

=n

i

n n

i

i

i

i zyyy

1

2

1 12

2

2

22 )()(

σσχ segue la distribuzione χ2 con DF = n – 1 gradi di

liberta’. • 2

yσ = E[(yi – y )2] = minimo.

• E[ y ] = μY. Se la distribuzione dell’errore non e’ nota la soluzione dei minimi quadrati gode ancora delle proprieta’ :

• Le soluzioni sono senza bias , sono corrette; • Fra tutte le soluzioni, che sono stime senza bias della grandezza e combinazioni lineari delle

misure yi, le soluzioni dei minimi quadrati hanno varianza minima;

• ∑ ∑ −−=

Δ==

n n

i

ii

i

i bxayyM

1 12

2

2

22 )()(

σσχ , E[M] = n – 2.

TEST del χ2 : raccomandazioni per l’interpretazione e l’uso.

Prendendo come esempio il caso di andamento lineare, possiamo vedere quanto bene la curva si adatta ai dati. Il test del χ2 permette di decidere se una relazione funzionale approssima “statisticamente” i punti sperimentali, oppure scegliere tra piu’ relazioni funzionali quella che li approssima meglio. Come primo passo sempre fare e rappresentare il GRAFICO di confronto dei punti misurati con la curva.

5

Note le σi, se le yi sono normali, allora ∑∑ ∑ =−

=Δ

=n

i

n n

i

i

i

i zyyy

1

2

1 12

2

2

22 )()(

σσχ e’ una variabile χ2

con DF = n – 2 gradi di liberta’. Valutato il χ2

M , in funzione dei parametri a e b che lo minimizzano, si esegue il test del χ2. • Se χ2

Μ >> n -2 occorre controllare bene l’assunto sul quale si basa il calcolo. • Nel caso χ2

Μ ≤ DF =n −2 ,P[ χ2DF > χ2

Μ] > α: la funzione e' corretta al livello di significativita’ di α.

• Se χ2Μ eccede il valore critico del χ2, che corrisponde al livello di significativita’ α e

DF = n -2 ,si rigetta il risultato al livello di significativita’ di α. Se P[ χ2

DF > χ2Μ] < α : Rigetto.

Il rigetto puo’ essere causato da piu’ ragioni: -da un errore di I specie; -la y = f ( xi,a) non e’ corretta e non e’ a applicabile,o perche’ totalmente sbagliata o qualche parametro di essa, che si e’ supposto noto, non e’ corretto.

• Se χ2Μ << DF = n -2 : o gli errori sono sovrastimati, o i dati sono stati selezionati in modo

speciale, o siamo stati fortunati a selezionare valori di yi molto prossimi a quelli attesi.

Se il test fallisce , ( sempre fare come primo passo il GRAFICO), perche’ si trovano modelli migliori, in quanto ci sono evidenti deviazioni sistematiche dai punti della linea retta, si puo’ assumere una forma non lineare. Si possono nuovamente interpolare i dati, confrontandoli col nuovo modello di regressione ESEMPI

polynomial degree 1

1

0.0 0.2 0.4 0.6 0.8 1.0-2

-1

0

1

21.85563 x - 1.44361

polynomial degree 1

0.0 0.2 0.4 0.6 0.8 1.0-2

-1

0

1

22.73046 x - 0.894224

Gli ultimi tre punti non sembrano piu’ appartenere alla retta. Il punto centrale devia di piu’ di 3 σ dalla retta.

6

polynomial degree 1

1

7

0.0 0.2 0.4 0.6 0.8 1.0-2

-1

0

1

22.33807 x - 1.64244

I punti sembrano essere bene interpolati da una parabola mentre la retta non li interpola (successione di scarti tutti positivi poi tutti negativi, poi nuovamente positivi)

polynomial degree 2

2

0.0 0.2 0.4 0.6 0.8 1.0-2

-1

0

1

21.77587 x2 + 0.458199 x - 1.5923

polynomial degree 2

2

0.0 0.2 0.4 0.6 0.8 1.0-2

-1

0

1

22.7596 x2 - 0.279871 x - 1.5157

Gli ultimi tre punti non sembrano piu’ appartenere alla parabola. Ecco come cambia il fit escludendoli.

polynomial degree 2

0.0 0.2 0.4 0.6 0.8 1.0-2

-1

0

1

212.9256 x2 - 14.4205 x + 2.40084

polynomial degree 3

0.0 0.2 0.4 0.6 0.8 1.0-2

-1

0

1

2-8.1193 x3 + 25.7566 x2 - 19.8212 x+ 2.86375

L’andamento parabolico non interpola sufficientemente bene i dati; quello cubico interpola bene .

2 20.00.20.40.60 ?2 ?1 0 1 2 x2 ? x?

polynomial degree 1

0.0 0.2 0.4 0.6 0.8 1.0-2

-1

0

1

23.37832 x - 1.42167

polynomial degree 2

0.0 0.2 0.4 0.6 0.8 1.0-2

-1

0

1

2-0.27769 x2 + 3.63093 x - 1.45567

Non ci sembrano motivi per rigettare l’interpolazione lineare e sceglierne una parabolica(figura di destra). Se il test fallisce , ma non sembrano esistere modelli migliori, perche’ non si riscontrano deviazioni sistematiche dalla linea retta, si devono rivedere le assunzioni fatte sugli errori. Essi possono essere basati su stime troppo rozze o supposizioni non corrette, e possono essere sottostimati o sovrastimati. Infatti, riferendoci per semplicita’ al caso di = cost., se la e’ sottostimata di un fattore F, tutti i termini della matrice degli errori ed il χ2

2yσ yσ

,)()(

1 12

2

2

22 ∑ ∑ −−

=Δ

=n n

y

ii

y

i bxayyσσ

χ∑ ∑

∑

−= n N

ii

N

iy

a

xxN

x

1 1

22

1

2

2

)(

σσ ,

∑ ∑−= n N

ii

yb

xxN

N

1 1

22

22

)(

σσ ,

sono influenzati. Le varianze , sono aumentate di F2, mentre il valore del χ2 e’ diminuito di F2. 2

aσ 2bσ

Faa •= σσ ' ; 2

22'' ;

FFbb

χχσσ =•=

La matrice degli errori e’ stata calcolata secondo l’errore sulle y. I valori dei parametri , pero’ non vengono modificati poiche’ il punto di minimo del χ2 non dipende da yσ . Al contrario il valore del minimo del χ2 ( che serve per il test) ed i valori della matrice degli errori sono molto influenzati dal valore di yσ . Vedere esempio A. Solo il test del χ2 ( non il valore degli errori sui parametri) indica quando il modello assunto nella regressione , in questo caso una dipendenza lineare, e’ giustificato. Se yσ e’ piccolo , aσ e bσ sono piccoli, ma il χ2 puo’ essere grande ed il test fallisce, anche se gli errori sui parametri sono piccoli. E’ necessario ottenere una attendibile , anche se rozza stima di yσ per potere effettuare il test del χ2. Se le yσ non sono note ( misure fatte con lo stesso strumento, senza sistematici, errore ignoto) il metodo da solo non permette di decidere quando il modello e’ giustificato. Rimane il riscontro qualitativo, derivante dall’analisi critica del grafico y = y(xi,a), per la ricerca di deviazioni sistematiche dei punti dalla linea ipotizzata . Se tali deviazioni sembrano esistere , allora occorre costruire altre forme non lineari e confrontarle con i dati.

8

Per stabilire se per una serie di punti e’ giustificato l’uso di una interpolazione lineare, come gia’ visto in piu’ occasioni, si puo’ fare uso del coefficiente di correlazione lineare ρ. Se le yσ non sono note , il metodo MMQ si puo’ sempre applicare . Si stimano i parametri a e b

col solito metodo. Gli errori sulle yi si assumono tutti eguali e sono stimati da ∑ −Δ

=n

iy n

yS

1

22

2)(

.

Gli errori sui parametri si ottengono a partire da : 2yS

∑ ∑

∑

−= n N

ii

N

iy

a

xxN

xSS

1 1

22

1

2

2

)( ∑ ∑−= n N

ii

yb

xxN

NSS

1 1

22

22

)(

Il test del χ2 pero’ non si puo’ effettuare.

La variabile per il test vale: 2

2

1 12

2

2

22 )2(

)()(

y

yn n

y

ii

y

i Sn

bxayyσσσ

χ −=−−

=Δ

= ∑ ∑

Se si assumesse σy = Sy allora il valore del χ2 assume il valore atteso χ2 = n - 2 =DF, e non avrebbe piu’ alcun significato statistico. La variabile per il test si puo’ scrivere , come appena visto,

2

22 )2(

y

ySn

σχ −= ed il come

2~χ 2

222~

2 y

ySn σχχ =

−= .

La varianza σy della popolazione e’ una caratteristica della dispersione dei dati dalla distribuzione primaria : y = A + B x e non e’ indicativa della bonta’ del fit. La Sy stimata, e’ invece caratteristica sia della dispersione dei dati sia dell’accuratezza del fit.

La definizione di 2

22~

y

ySσ

χ = come rapporto della varianza stimata e la varianza della popolazione

rende il come una misura conveniente della bonta’ del fit. 2~

χSe la funzione fit fosse una buona approssimazione della funzione vera , allora la varianza stimata

dovrebbe accordarsi bene con la varianza ed il valore di dovrebbe assumere un valore prossimo ad 1.

2yS 2

yσ2~

χ

Se la funzione fit non e’ adatta per descrivere i dati, la deviazione sara’ piu’ grande e portera’ a

valori di > 1 o >> 1. 2~

χ2~

χ

Valori di < 1 non indicano, necessariamente, un miglioramento del fit, ma la conseguenza del fatto che esiste una incertezza nella determinazione della variabile casuale , che fluttua, da

campione a campione, seguendo una distribuzione ;di conseguenza il valore del , in prove ripetute, fluttua da esperimento ad esperimento.

2~χ

2yS

2~χ

2~χ

E’ bene stimare sempre e confrontarlo con (se nota). 2yS 2

yσ

Se il test fallisce , e si decide di rivalutare gli errori attraverso la , anche gli errori sulle stime dei parametri devono essere rivalutati.

2yS

9

ESEMPIO A Consideriamo la regressione lineare che fa uso delle stesse misure ma in cui si fanno tre differenti assunzioni circa il loro errori. Si esegue una regressione per una serie di dati , che sono riportati in tabella. t 0.5 11.2 19.3 30.7 51.0 y 5.0 8.0 23.0 36.0 43.0

Si fanno tre differenti assunzioni circa le deviazioni standard delle misure y.

a) σy = 1; b) σy = 8; c) σy non nota. I risultati sono riportati nelle figure e tabelle che seguono. Per la regressione si assume la forma: y = a + b t.

La matrice di covarianza si esprime come:

2

1 1

21

1

112

22

22

)(; ∑ ∑∑

∑∑−=Δ

⎟⎟⎟⎟

⎠

⎞

⎜⎜⎜⎜

⎝

⎛

−

−

Δ=⎟⎟

⎠

⎞⎜⎜⎝

⎛ N N

iN

i

N

i

N

iy

bab

aba ttNNt

ttσσσσσ

,

ed il valore del χ2 come:

2

2

1 12

2

2

22 )2()()(

y

yn n

y

ii

y

i Snbtayy

σσσχ −=

−−=

Δ= ∑ ∑

Il valore interpolato,Y, per un certo valore di t = T vale: Y = a + b T. La varianza di Y vale: . 22222 2 abbaY TT σσσσ ++=Sebbene i parametri a e b non siano influenzati dalle assunzioni , vi e’ una significativa influenza sulla matrice di covarianza, sul minimo del χ2 e sui limiti di confidenza.

• σy = 1. a = 4.35 ± 538.0 b= 0.827± 00067.0

J0.538383 −0.0150125−0.0150125 0.00066604

N

χ2= 90.42 I limiti di confidenza sono molto piccoli; gli errori sui parametri sono molto piccoli ,tuttavia il valore del χ2 e’ grande cosicche’ il test fallisce ( DF =3; α = 0.01;χ2

c = 11.340) • σy = 8. a = 4.35 ± 45.34

b= 0.827± 0427.0

J34.4565 −0.960802−0.960802 0.0426265

N

χ2=1.41 I limiti di confidenza , gli errori sui parametri sono grandi ma il valore del χ2 e’ piccolo il fit sembra ragionevole.

• σy = incognita a = 4.35 ± 28.16 B = 0.827± 0201.0 J16.2861 −0.454129−0.454129 0.0201477

N

10

Sy e’ incognito ed e’ stimato da 2

1

2 )(1

1i

N

iy btayN

s −−−

= ∑ ; Sy = 5.5

I limiti di confidenza sono ragionevoli confrontati con le variazioni dei dati. Il test del χ2 non puo’ essere valutato.

Nelle figure sono riportati, per le tre situazioni, i grafici che confrontano i dati con la retta che meglio li interpola, i valori dei parametri stimati e la matrice di covarianza, i limiti di accettazione e rigetto , fissato α = 5% e 1%, per il test χ2. σy = 1

10 20 30 40 50

10

20

30

40

J4.35293

0.827288N J0.538383 −0.0150125

−0.0150125 0.00066604N

σy=8

11

10 20 30 40 50

10

20

30

40

50

J4.352930.827288

N J34.4565 −0.960802−0.960802 0.0426265

N

σy = incognito ; Sy = 5.4

10 20 30 40 50

10

20

30

40

J4.352930.827288

N J16.2861 −0.454129−0.454129 0.0201477

N

2 4 6 8

-0.1

0.1

0.2

0.3c2

0.95H3L = 0.352 and c20.05H3L = 7.815

2 4 6 8

-0.1

0.1

0.2

0.3c2

0.99H3L = 0.115 and c20.01H3L = 11.345

Ricerca della migliore forma funzionale. Si supponga di avere 7 coppie di misure , i valori dei quali sono riportati in tabella.

87654325.85.85.75.70.65.40.55.0±

i

i

xy

Gli errori sulle Xi si ritengono trascurabili. Si vuole determinare la migliore forma funzionale che lega le due grandezze. Si prendono in esame due funzioni: A) y = a + bx ; B) y = k ln (x) Col metodo dei minimi quadrati si determinano i valori dei parametri. Nel caso della funzione A) si ottengono: a = 3.25 ± 0.51 , b = 0.714 ± 0.095 Nel caso della funzione B) si ottiene: k = 4.364 ± 0.023. In figura e’ riportato il confronto tra i dati sperimentali e le due curve “best fit”. Il test del χ2 si puo’ utilizzare per decidere quale delle due funzioni si adatta meglio ai punti sperimentali. Per la curva A) il valore di ottenuto vale :χ2

M = 6.6 , i gradi di liberta’ risultano :DF = 7 -2 = 5.

12

Il valore di 3.12

2 ==DF

ridotto Mχχ . La probabilita’ di ottenere un valore pari o maggiore di quello

ottenuto vale P[ χ2DF > χ2

M ] = 0.25. Per la curva B) ) il valore di ottenuto vale :χ2

M = 19 , i gradi di liberta’ risultano :DF = 7 -1 = 6.

13

5 10 15

-0.1

0.1

0.2

0.3c2

0.95H6L = 1.635 and

2 4 6 8 10 12 14

-0.1

0.1

0.2

0.3c2

0.95H5L = 1.145 and c20.05H5L = 11.070c2

0.05H6L = 12.592

Il valore di 1.32

2 ==DF



M ] = 0.005.

3 4 5 6 7 8

4

5

6

7

8

9

L’andamento lineare si adatta molto meglio ai dati sperimentali. La coppia di valori (2. ; 5.0 ± 0.5) nel caso dell’andamento y = k ln(x) è quella che influenza maggiormente il valore del χ2

M , infatti la discrepanza tra valore misurato y1 =5.0 e valore atteso k ln(2) = 3. è pari a 4 deviazioni standard. Se si reputasse , per qualche motivo, di eludere questo valore si otterrebbero i nuovi valori : Per la curva A) a = 2.72 ± 0.69 ; b = 0.79 ± 0.12 il valore di ottenuto vale :χ2

M = 5.7 , i gradi di liberta’ risultano :DF = 6-2 = 4.

Il valore di 4.12

2 ==DF



M ] = 0.22. Per la curva B) k = 4.238 ± 0.029 il valore di ottenuto vale :χ2

M = 2.5 , i gradi di liberta’ risultano :DF = 6 -1 = 5.

Il valore di 5.02

2 ==DF

ridotto Mχχ . La probabilita’ di ottenere un valore pari o maggiore di

quello ottenuto vale P[ χ2DF > χ2

M ] = 0.75. La figura mostra i nuovi andamenti.

4 5 6 7 8

5

6

7

8

9

L’esclusione della prima coppia di valori, non cambia in modo apprezzabile i valori dei parametri, ma fa si che questa volta l’andamento logaritmico sembri piu’ adatto a descrivere i dati sperimentali. Il rigettare o meno la prima coppia di valori è cruciale per interpretare i dati. Occorre cautela ed un’analisi accurata degli eventuali sistematici, e se l’analisi non dovesse risultare decisiva, occorre ripetere la misura. Appendice:determinazione, mediante il MMQ, di k . y = k ln(x): determinazione di k ±σk col metodo dei minimi quadrati. Si suppone σyi = σ = cost

∑ −=

nii xky

12

22 ))ln((

σχ

∑ =−−=∂

∂ n

iii xxkyk 1

2

2

0ln)ln(2σ

χ

∑ ∑−=n

i

n

ii xkxy1

2

1

)(ln)ln(

2

1

1

)(ln

)(ln

i

n

i

n

i

x

xyk

∑

∑=

La varianza di k si ottiene propagando gli errori sulle yi

∑∑

∑∑

∑∑

==

=

=

=

==⎟⎟⎟⎟

⎠

⎞

⎜⎜⎜⎜

⎝

⎛

=∂∂

= n

ii

n

ii

n

jjn

jn

ii

jn

jk

xx

x

x

xyk

1

2

2

1

22

1

22

2

1

2

1

2

22

1

2

)(ln])(ln[

)(ln

)(ln

ln)( σ

σσσσ

2

1

1

)(ln

)(ln

i

n

i

n

i

x

xyk

∑

∑= ±

∑=

n

iix

1

2)(ln

σ

14

Esempio. Si interpolino , con il MMQ , N = 20 punti ( xi,yi)

- Interpolazione lineare : DF = N- 2 = 20 – 2 = 18. Sia χ2M= 36.3 il valore ottenuto. P[ χ2

18 > 36.3] = 1% - Parabola: DF = N- 3 = 20 – 3 = 17. Sia χ2M= 20.1 il valore ottenuto. P[ χ2

17 > 20.1] > 20% - Cubica: DF = N- 4 = 20 – 4 = 16. Sia χ2M= 17.6 il valore ottenuto.

P[ χ216 > 17.6] > 20%

E’ improbabile, nel caso della retta, che per fluttuazioni casuali si ottenga un valore di χ2M= 36.3: la probabilita’ P[ χ2

18 > 36.3] dell’ 1% e’ moto piccola. La retta e’ improbabile. H0 e’ scartata al livello di significativita’ dell’1%. Rigetto altamente significativo. Per la relazione parabolica la P[ χ2

16 > 17.6] > 20% e’ elevata, in diversi campionamenti una volta su 5 possiamo trovare un valore grande come quello ottenuto. Se rigettiamo l’ipotesi di accordo incorriamo in un errore di I specie con una probabilita’ del 20 %. Non abbiamo motivo di dubitare, al livello di fiducia del 5 %, dell’accordo tra parabola e dati. Le fluttuazioni sono dovute al caso. Non c’e giustificazione per la relazione cubica. Errori su x non trascurabili: ancora qualche raccomandazione. Nel MMQ gli errori sulle ordinate sono assunti nulli, e tutta la incertezza e’ associata alla variabile dipendente y. Questo equivale ad assumere che la precisione delle x e’ considerevolmente piu’ alta di quella sulle y. Questa condizione puo’ essere considerata valida solo se le incertezze della yi, che possono essere indotte da variazioni della xi prodotte da errori casuali nella misura della xi stessa, sono molto piu’ piccole delle incertezze della yi stessa. Questo e’ equivalente , in prima approssimazione, alla richiesta, che per ogni punto misurato:

yx dxdy σσ <<|| dove dy/dx e’ la pendenza della curva y = y(x).

Se le incertezze indotte dalla x non sono trascurabili, la procedura di fit sara’ ancora

sufficientemente accurata se stimiamo il contributo =yIσ ||dxdy

xσ , e combiniamo, in quadratura,

questo contributo con quello diretto , che e’ l’incertezza di misura di y: yDσ

222yDyIy σσσ +=

Con questa assunzione, l’incertezza nei dati si associa solo alla variabile y dipendente, mentre le corrispondenti fluttuazioni possono avere origine sia dall’incertezza sulle x sia da quella sulle y. In quei casi dove l’incertezza nella determinazione della quantita’ indipendente sono considerevolmente piu’ grandi di quelle sulla quantita’ dipendente, e’ piu’ opportuno scambiare i ruoli delle due quantita’.

15

FIT POLINOMIO DI ORDINE m.

mm xaxaxaay ++++= ...2

210 Per l’esecuzione del calcolo degli elementi delle matrici e’ opportuno usare un metodo che semplifica la procedura e la riconduce a operazioni di prodotto di matrici, inversione e trasposizione di matrici.

⎟⎟⎟⎟⎟

⎠

⎞

⎜⎜⎜⎜⎜

⎝

⎛

=

mn

mm

n

xxx

xxxH

L

MMM

K

K

21

21

111

xi: i=1,…,n valori variabile x; m=grado del polinomio

⎟⎟⎟⎟⎟

⎠

⎞

⎜⎜⎜⎜⎜

⎝

⎛

=

mnn

m

m

T

xx

xxxx

H

L

MMM

K

K

1

11

22

11

matrice trasposta

⎟⎟⎟⎟⎟⎟⎟

⎠

⎞

⎜⎜⎜⎜⎜⎜⎜

⎝

⎛

=

2

22

21

10

10

001

n

C

σ

σ

σ

M

L

σi2: varianza del valore yi; i=1,…,n

11 )( −− ⋅⋅=⋅⋅= TT HCHDHCHD

16

Inoltre, indicando con: e con:

⎟⎟⎟⎟⎟

⎠

⎞

⎜⎜⎜⎜⎜

⎝

⎛

=

ny

yy

YM2

1

YCHB ⋅⋅=

si ottiene:

⎟⎟⎟⎟⎟

⎠

⎞

⎜⎜⎜⎜⎜

⎝

⎛

=⋅⋅⋅⋅=

=−

−

m

T

a

aa

AYCHHCHA

BDAM1

0

1

1

)()(

Esempio:

2210 xaxaayi ++= ; ),( iii yx σ± ; i=1,…,n

⎟⎟⎟⎟⎟

⎠

⎞

⎜⎜⎜⎜⎜

⎝

⎛

=

⎟⎟⎟⎟⎟⎟⎟

⎠

⎞

⎜⎜⎜⎜⎜⎜⎜

⎝

⎛

=

⎟⎟⎟⎟⎟

⎠

⎞

⎜⎜⎜⎜⎜

⎝

⎛

=⎟⎟⎟

⎠

⎞

⎜⎜⎜

⎝

⎛=

nn

nn

T

n

n

y

yy

YC

xx

xxxx

HxxxxxxH

M

L

MM

L

MMML

L

L2

1

2

22

21

2

222

211

222

21

21

100

010

001

1

11

111

σ

σ

σ

ESEMPI di interpolazione degli stessi dati con polinomi di ordine successivo.

17

400 600 800 1000 1200d@mmD

2

2.1

2.2

2.3

T@sD PRIMA PARABOLA ToHdL

400 600 800 1000 1200d@mmD

1.98

2.02

2.04

2.06

2.08

2.1

T@sD SECONDA PARABOLA To'HdL

18

400 600 800 1000 1200d@mmD

2.1

2.2

2.3

T@sD PRIMA CUBICA ToHdL

400 600 800 1000 1200d@mmD

2.1

2.2

2.3

T@sD SECONDA CUBICA To'HdL

19

0 400 600 800 1000 1200 1400d@mmD

2

2.1

2.2

2.3

T@s D PRIMA QUARTICA ToHdL

0 400 600 800 1000 1200 1400d@mmD

2

2.05

2.1

2.15

T@sD SECONDA QUARTICA To'HdL

20

0 400 600 800 1000 1200 1400d@mmD

2

2.2

2.4

2.6

T@sD CURVA DI QUINTO GRADO To

21

TEST χ2:Accordo tra una distribuzione teorica ed una sperimentale. Con il test normale e di Student, abbiamo costruito dei test di ipotesi che specificano i valori di uno o piu’ parametri della popolazione. Essi si possono indicare come test parametrici. La procedura consiste nel rigetto o accettazione di una ipotesi sulla base sulla base di un singolo numero determinato dal campione. Un’altra classe di test confronta la funzione di distribuzione del campione direttamente con la distribuzione della popolazione ; quest’ultima puo’ essere basata su alcune ipotesi. Si vuole stabilire se vi e’ accordo tra una distribuzione teorica ed una sperimentale, se l’istogramma delle frequenze sperimentali e’ compatibile con una distribuzione limite attesa , ottenibile solo nel caso di un numero infinito di misurazioni. Negli esempi in figura sono riportati i casi in cui la distribuzione limite attesa sia gaussiana, uniforme ed esponenziale. In tutti e tre i casi ci si aspetta che all’aumentare del numero di prove , all’aumentare della grandezza del campione, la distribuzione sperimentale approssimi sempre meglio quella attesa. Sono mostrate le fluttuazioni statistiche possibili in campioni di grandezza N=100, e come esse diminuiscano all’aumentare della grandezza del campione N=1000 e N=100000 . Se si dispone di campioni di grandezza finita ad esempio N = 100, come si puo’ stabilire se le fluttuazioni tra campione e campione e tra istogramma e distribuzione limite ipotizzata siano solo casuali?. Il test del χ2 puo essere utilizzato per rispondere alla domanda. GAUSSIANA

-4 -2 0 2 4

100 values

-4 -2 0 2 4

100 values

-4 -2 0 2 4

1000 values

-4 -2 0 2 4

100 000 values

22

UNIFORME

0 0.2 0.4 0.6 0.8 1

100 values

0 0.2 0.4 0.6 0.8 1

100 values

0 0.2 0.4 0.6 0.8 1

1000 values

0 0.2 0.4 0.6 0.8 1

100 000 values

ESPONENZIALE

0 2 4 6 8

100 values

0 2 4 6 8

100 values

0 2 4 6 8

1000 values

0 2 4 6 8

100 000 values

Si abbia una variabile casuale x. Si disponga di n dati sperimentali xi. Si divida l’intervallo delle eventualita’ di x in k classi tra loro mutuamente esclusive e di ampiezza Δx. Sia pi la probabilita’ che un valore di x cada nella classe i-esima. Si indichino con Oi le frequenze sperimentali osservate,ossia il numero di volte che si sono presentati i valori di x in tale classe (intervallo). Se Oi rappresenta la frequenza assoluta in quella

23

classe, νi = Oi/n rappresenta la frequenza relativa. Si costruisca l’istogramma delle frequenze sperimentali. Si indichino con Ei le frequenze assolute teoriche attese : Ei = n pi. La frequenza relativa teorica attesa coincide con pi .

La ; ∑ =k

i nO1

∑ =k

ip1

1

Se le variabile x e’ discreta Ej = n pj Se la variabile x e’ continua e f(x) e’ la funzione densita’ di probabilita’,

le probabilita’ per valori di x di appartenere alla classe j sono: xxfdxxfpxxj

xj jj Δ•≅= ∫Δ+

)()( *

dove e’ calcolato nel valore centrale della classe j. Il numero atteso di valori nella classe j

vale : Ej = n pj.

)( *jxf

La distribuzione congiunta delle frequenze in prove ripetute ed indipendenti e’ multinomiale: kO

kOO

kk PPP

OOOnOOOP )...()()(

!,...,!!!),...,,( 21

2121

21 = .

Le deviazioni standard valgono : iii qnp=σ , e se: pi <<1 allora iii Enp ==σ . In ogni classe la distribuzione delle frequenze Oi si puo’ assumere segua la distribuzione di Poisson di valore medio Ei e varianza . ii E=2σSi usano le frequenze assolute Ei come frequenze vere , come norma, in ogni classe. La quantita’ ( Oi – Ei)2 si puo’ ragionevolmente assumere come una misura della deviazione delle frequenze teoriche Ei dalle sperimentali Oi. Si debbono confrontare tra di loro le deviazioni dalla norma delle varie classi, ed e’ necessario normalizzare tra di loro gli scarti.

Consideriamo come scala, come misura di ogni deviazione il rapportoi

ii

EEO 2)( − .

Allora il valore i

iik

EEO 2

1

2' )( −= ∑χ , lo possiamo considerare come una misura della deviazione

totale. Sostituendo e sviluppando il quadrato si ottiene

nEOOE

EO

EEOEO

EEO k

i

ik

i

k

i

k

i

ik

i

iiii

i

iik

−=−+=−+

=−

= ∑∑∑∑∑∑1

2

111

2

1

222

1

2' 22)(χ .

Se consideriamo le frequenze assolute vale inoltre la relazione: . nOEk

i

k

i == ∑∑11

La variabile e’ distribuita asintoticamente come una variabile con DF = (k – 1 )gradi di

liberta’. Infatti , a causa del vincolo: , solamente (k – 1 ) variabili Oi sono

realmente indipendenti.

2'χ 2χ

nOEk

i

k

i == ∑∑11

Se non si stimano parametri della distribuzione teorica ipotizzata f(x) i gradi di liberta’ restano ( k-1). Se si devono stimare h parametri della distribuzione , i gradi di liberta’ si riducono di numero : DF = k – 1 – h, poiche’ si impongono (h + 1) vincoli sui dati. Affinche’ la distribuzione sia approssimata da quella assume importanza il valore della frequenza assoluta attesa Ei in ogni classe.

2'χ 2χ

Esse debbono essere in ogni classe : Ei = n pi > 5. Questo potra’ venire realizzato con opportuni raggruppamenti di classi.

24

Se si assume che la variabile i-ma si comporti approssimativamente come una variabile di Poisson

di valore medio μ = Ei e varianza σ2 = Ei allora il rapporto i

ii

EEO 2)( − rappresenta il quadrato di

una variabile standardizzata di Poisson. Per μ > 5 una variabile di Poisson puo’ gia’ essere ben

approssimata da una variabile gaussiana, e la sommatoria: ∑∑ ==− 22

2

1

)(iDF

i

iik

zE

EO χ , risulta la

somma del quadrato di k variabili normali centrate e ridotte , ossia una variabile χ2 con DF = ( k-1-h) gradi di liberta’. Calcolato il valore per applicare il test del si deve decidere prima sul valore del livello di

fiducia e in base a questo si determinano i limiti della regione critica tale che

2'χ 2χ2αχ

2222 )()(2

χχαχχχα dfP

aDFDF ∫

∞==> (Uso tabelle).

Le successive decisioni sono fissate avendo scelto la regione di accettabilita’ dell’ipotesi H0. Se il valore calcolato cade al di fuori della regione di fiducia ( ), nella zona di rigetto, allora la distribuzione teorica non si adatta bene ai nostri dati al livello di fiducia di α.

2Mχ >2

Mχ 2αχ

2 4 6 8 10 12

-0.1

0.1

0.2

0.3c2

0.95H4L = 0.711 and c20.05H4L = 9.488

Considerazioni La distribuzione limite teorica (Ei) ci dice quanti eventi di un certo tipo sono attesi in una certa classe quando il numero delle prove n e’ molto grande (n → ∞). Ei = n pi: numero medio di conteggi attesi nella classe i. In pratica, se ripetessimo la prova molte volte (se ricavassimo molti campioni di grandezza n) il numero Oi osservato di eventi in ogni classe fluttuerebbe da una prova all’altra: Oi segue

25

approssimativamente una distribuzione di Poisson. I diversi valori Oi dovrebbero avere valori medi μ=Ei e dovrebbero fluttuare intorno ad Ei con σ=√Ei (errore statistico). Cosi’ i numeri da confrontare sono le deviazioni (Oi - Ei) e σ=√Ei. Pertanto la quantita’:

i

ii

EEO 2)( −

per alcuni dei k intervalli potra’ essere >>1, per altri <<1, in media ≈1.

i

iik

EEO 2

1

2 )( −= ∑χ e’ indice dell’accordo:

χ2 = 0: accordo perfetto (molto improbabile); χ2 ≤ D.F.: accordo; χ2 >> D.F.: vi e’ il sospetto che la misura si discosti dal valore atteso.

i

ii

EEO 2)( − e’ la variabile standardizzata al quadrato. Gli intervalli dovrebbero essere scelti in modo

che il conteggio atteso Ei in una classe sia ragionevolmente grande (>5). Se i numeri in gioco sono ragionevolmente grandi la distribuzione di Poisson e’ ben rappresentata dalla distribuzione normale, quindi i numeri Oi possono essere trattati come fossero variabili casuali continue, distribuiti attorno al valore medio Ei secondo la gaussiana, anche se nei problemi considerati Oi e’ una variabile discreta distribuita secondo Poisson.

Allora (variabile normale standardizzata)2 puo’ essere pensata come una variabile χ2 e

seguire la fDF(χ2) distribuzione χ2 con gradi di liberta’ DF=k-h-1 (nel caso di una gaussiana in cui sono stimati 2 parametri μ e σ, occorre che k≥4)

∑=

=k

i 1

2'χ

La condizione per cui Oi segua Poisson e’: pi<<1. Bisogna quindi impostare un numero opportuno di classi perche’ essa sia verificata. Occorre sottolineare, nel caso di una variabile continua, che il confronto tra le frequenze sperimentali, variabili discrete, e le frequenze teoriche, variabili continue, e’ tanto piu’ attendibile quanto piu’ n e’ grande e l’ampiezza della classe Δx e’ piccola. (fare riferimento anche agli esempi gia’ trattati in Lab. 1)

26

TEST χ2 : Esempio per una distribuzione di Poisson Rutherford e Geiger in una celebre esperienza studiarono le emissioni di particelle a da un preparato radioattivo . Divisero il tempo in N = 2608 intervalli uguali aventi la durata di Δt = 7.5 s ciascuno, e misurarono il numero Xi di particelle emesse in ogni intervallo. Ottennero i risultati dalle prime due colonne della Tab 1. dove: Oi è il numero di intervalli in cui furono emesse Xi particelle. Ei: rappresenta il numero di intervalli in cui ci si aspetta siano emesse Xi particelle se la distribuzione e’ quella di Poisson con valore medio μ = x Xi Oi Ei νi P(Xi) (Oi -Ei)2/E

0 57 54 0,022 0,021 0.11 1 203 211 0.078 0.081 0.298 2 383 407 0.147 0.156 1.52 3 525 525 0.201 0.201 0.0 4 532 508 0.204 0.194 1.1 5 408 394 0.156 0.151 0.55 6 273 254 0.105 0.097 1.5 7 139 140 0.533 0.054 0.01 8 45 68 0.017 0.026 7.60 9 27 29 0.010 0.011 0.14 ≥10

0

100

200

300

400

500

600

0 1 2 3 4 5 6 7 8 9 10

Serie1Serie2

La figura riporta l’andamento delle frequenze Oi ed Ei L’accordo e’ buono. Un criterio per valutare l’accordo e’ il test del χ2 TEST χ2 . Ipotesi nulla H0 : la distribuzione e’ poissoniana. Stimiamo i valori attesi Ei= P(Xi)●N secondo tale ipotesi.

μ = ∑

∑= 10

0

10

0

i

ii

O

Oxx =3.87 ; S

1

)( 210

02

−

−=

∑N

xx i

= 3.63.

La teoria richiede s2 = μ : l’accordo e’ buono

νi = Oi / N ; !

87.3!

)(87.3

i

xi

i

xi

i xe

xexP

−− •=

•=

μμ

Ei = N ●P(Xi) ; N= ∑Oi = 2608 ( 1 vincolo). Stimato il parametro μ ( secondo vincolo) . Numero classi = 11. I valori di P(Xi) e di Ei sono indicati in tabella. Indicare gli errori statistici sull’istogramma delle frequenze. Il valore del χ2M = ∑ (Oi-Ei)2/Ei = 11.3. I gradi di liberta’sono: DF=(11-2)=9. Il valore di χ2

M ridotto = χ2M / DF = 1. 2

P(χ2DF=9 ≥χ2M) = 29%. L’ipotesi di distribuzione poissoniana e’ accettata al livello di

significativita’ del 29%.

27

I valori di χ2 critici per D.F.= 9 sono , fissato un livello di fiducia del 5%, :limite a sinistra=3.33 limite destro= 16.92. Il valore di χ2

M = 11.3 cade entro tali limiti. L’ipotesi Ho si ritiene accettata. Esempio Si ottenga un campione di n = 120 lanci di un dado, che si suppone, non truccato. Nel caso di un dado non truccato, le probabilita’ che si presentino le facce 1,2,3,4,5,6 sono tutte eguali: p1=p2=p3=p4=p5=p6=1/6 . Le corrispondenti frequenze assolute attese Ei sono: np1 = np2 = …= np6= 120 (1/6) = 20. Le frequenze realmente osservate Oi potranno essere diverse. i Oi Ei = n pi Oi - Ei (Oi-Ei)2

1 22 20 2 4 2 11 20 -9 81 3 10 20 -10 100 4 17 20 -3 9 5 35 20 15 225 6 25 20 5 25 Si vuole controllare l’accordo tra l’andamento delle frequenze osservate Oi e l’andamento della distribuzione di quelle teoriche attese, che si postula sia costante e pari a Ei = 20. Se l’accordo non fosse buono, l’ipotesi di dado non truccato potrebbe non essere vera.

Si costruisce la variabilei

iik

npnpO 2

1

2' )( −= ∑χ

i

iik

EEO 2

1

)( −= ∑ .

In ogni classe il valore atteso Ei = n pi e’ Ei > 5 , e la variabile ii

ii znp

npO=

− 2)( si puo’ supporre

una variabile normale centrata e ridotta. La variabile i

iik

npnpO 2

1

2' )( −= ∑χ segue una distribuzione

χ2 con DF = k -1 gradi di liberta’. Le probabilita’ pi = 1/6 si suppongono note, e quindi non si

debbono stimare parametri . Esiste un vincolo, poiche’ , e le variabili realmente

indipendenti non sono k ma (k -1). In questo caso il numero di variabili e k =6 e DF = 6 -1 = 5.

nOk

i =∑1

Il valore di χ2M vale 2.22

20444

20)20()( 26

1

26

1

2 ==−

=−

= ∑∑ i

i

iiM

OE

EOχ

Se si fissa un livello di fiducia α = 5% , per un valore DF =5 , il valore critico risulta χ2c = 11.07.

Il valore di χ2M osservato supera il valore critico al livello di significativita’ del 5 %.

Si scarta l’ipotesi che le probabilita’ siano eguali e pari a pi = 1/6, e che Ei =n pi = 20. Le frequenze osservate differiscono in maniera significativa da quelle attese e si rigetta l’ipotesi che ci sia accordo tra i valori di frequenza misurati e la forma ipotizzata , che prevede Ei = npi = 20. La discrepanza tra valori osservati e quelli attesi non puo’ essere imputata solamente a fluttuazioni casuali , l’ipotesi che il dado non sia truccato viene rigettata al livello di significativita’ del 5%. Se α = 1% e DF = 5 il valore di χ2

c risulta χ2c = 15. L’ipotesi che il dado non sia truccato puo’

venire rigettata anche al livello di significativita’ del 1%. Il rigetto e’ altamente significativo, si puo’ commettere un errore di I tipo con probabilita’ inferiore all’ 1%.

28

29

2 4 6 8 10 12 14

-0.1

0.1

0.2

0.3c2

0.95H5L = 1.145 and

2 4 6 8 10 12 14

-0.1

0.1

0.2

0.3c2

0.99H5L = 0.554 and c20.01H5L = 15.086

c20.05H5L = 11.070

Appendice 2:Esempio del significato delle correlazioni tra i coefficienti stimati col MMQ.

-1 -0.5 0.5 1

1.925

1.95

1.975

2.025

2.05

Fig 1:andamento del periodo attorno al coltello O in funzione del tempo. I punti sono interpolati, previa traslazione dell’asse delle ascisse nel baricentro dei valori di , con una parabola (vedi programma di Mathematica)

-1 -0.5 0.5 1

1.94

1.96

1.98

2.02

Fig2:andamento del periodo attorno al coltello O1 in funzione del tempo. I punti sono interpolati, previa traslazione dell’asse delle ascisse nel baricentro dei valori di , con una parabola (vedi programma di Mathematica)

-1 -0.5 0.5 1

1.925

1.95

1.975

2.025

2.05

Fig 3: calcolo del valore del periodo in corrispondenza dell’intersezione delle due parabole

-1 -0.5 0.5 1

1.9

1.92

1.94

1.96

1.98

2.02

0.005 0.01 0.015 0.02

0.09

0.11

0.12

scatter bc

1.895 1.905 1.91 1.915

0.005

0.01

0.015

0.02scatter ab

1.895 1.905 1.91 1.915

0.09

0.11

0.12

scatter ac

30

1.895 1.9 1.905 1.91 1.915

10

20

30

40

50

60

0 0.005 0.01 0.015 0.02

10

20

30

40

50

0.09 0.1 0.11 0.12

20

40

60

Fig 4: correlazione tra i coefficienti dei parametri di una parabola T=A+ Bd+Cd2 ottenuti col metodo dei minimi quadrati. La figura riporta il coefficiente di correlazione (covarianza) tra i parametri A-B, A-C, B-C. Come si nota i coefficienti di correlazione A-B e B-C sono fra di loro scorrelati, infatti il diagramma mostra un coefficiente di correlazione prossimo a 0 . I coefficienti A e C sono invece correlati come mostrato dal diagramma che indica una correlazione diversa da 0 e negativa. La correlazione pari a 0 tra i coefficienti A e B e tra i coefficienti B e C è ottenuta grazie alla traslazione dell’asse delle ascisse nel baricentro delle di. Presa la serie di punti T(di )± σ i e interpolandoli si ottiene una parabola di coefficienti Ai, Bi, Ci. Facendo variare ogni valore di entro l’errore σ i secondo, una distribuzione gaussiana, si ottiene un’altra serie di dati che interpolati forniscono altri coefficienti Ai, Bi, Ci. Il procedimento si ripete N volte ottenendo una serie del valore degli stessi con i=1…N. Negli istogrammi sono riportati le distribuzioni ottenute dei valori dei coefficienti A, B ,C. I diagrammi riportati sopra si ottengono mettendo in correlazione i vari coefficienti ottenuti.

31

Rapporto di verosimiglianza. Principio di massima verosimiglianza. Si supponga che f(x, λ) sia una funzione densita’ di probabilita’ caratterizzata da k parametri (λ1, λ2,

…, λn). Sia x1, x2, …, xn un provino ottenuto da n misurazioni di una data grandezza fisica, il cui comportamento e’ assimilabile a quello della variabile casuale x. L’espressione jjj dxxfdP ),( λ= e’ la probabilita’ di ottenere il valore x compreso tra xj e xj+dxj. Se gli n risultati xj si suppongono indipendenti, allora la probabilita’ che x1 sia compreso tra x1 e x1+dx1, x2 tra x2 e x2+dx2, …, e’ data dal valore della probabilita’ congiunta:

∏=

=n

jjj dxxfdP

1

),( λ funzione di k parametri

L’espressione produttoria: e’ detta funzione di verosimiglianza. Essa non deve

essere identificata con una funzione densita’ di probabilita’ in senso stretto, anche se ne ha le caratteristiche. Il termine “verosimiglianza” indica che essa ha il significato di una funzione densita’ di probabilita’ non a priori ma a posteriori, essendo definita sul provino di dati a disposizione.

∏=

=n

jjxfL

1

),( λ

Si supponga, per semplicita’, che la popolazione sia caratterizzata da un solo parametro che puo’ assumere al piu’ due valori λ1 e λ2, distinti tra loro. Si puo’ costruire il rapporto:

∏

∏

=

== n

jj

n

jj

xf

xfQ

12

11

),(

),(

λ

λ rapporto di verosimiglianza

Esempio: λ=parita’ di uno stato; λ1=dispari; λ2=pari Il risultato del processo di campionamento puo’ indicare che l’insieme col parametro λ=λ1 e’ Q volte piu’ probabile dell’insieme allorche’ λ=λ2. Esempio: viene lanciata una moneta asimmetrica. 5 lanci: 1 volta T; 4 volte C Tre ipotesi: A – PT=1/3; PC=2/3 B – PT=2/3; PC=1/3 C – PT=1/2; PC=1/2 A seguito dei risultati dell’esperimento, la funzione di verosimiglianza ha valore:

ipotesi A → 4

32

31

⎟⎠⎞

⎜⎝⎛=AL

ipotesi B → 4

31

32

⎟⎠⎞

⎜⎝⎛=BL

ipotesi C → 4

21

21

⎟⎠⎞

⎜⎝⎛=CL

e dunque i rapporti di verosimiglianza risultano: 8.11.28 ====== CBBCCAACBAAB LLQLLQLLQ

La verosimiglianza dell’ipotesi A e’ la piu’ alta fra tutte; e’ molto probabile che la moneta appartenga alla classe A piuttosto che alla classe B o C. Esempio: π1=0.4 e π2=0.2 rappresentino la proporzione di individui di gruppo sanguigno Rh- in due diverse popolazioni. Si considerino le popolazioni bernoulliane e si osservi un campione di 20 individui: x=6 soggetti presentano questa caratteristica.

32

Ipotesi 1 → il campione proviene dalla popolazione π1 0000032.06.04.0)1(),( 146

111 ==−= −xnxxL πππ Ipotesi 2 → il campione proviene dalla popolazione π2

0000028.08.02.0)1(),( 146222 ==−= −xnxxL πππ

875.0),(),(

1

2 ==ππ

xLxLQ

La verosimiglianza dell’ipotesi riferita alla popolazione π2=0.2 e’ del 12.5% piu’ bassa. La funzione di verosimiglianza e di massima verosimiglianza. Stima di parametri.

La funzione di verosimiglianza considerata come funzione di λ puo’ presentare u

o piu’ massimi.

∏=

=n

jjxfL

1

),( λ no

1) Un solo massimo λ1 con simmetria attorno a λ1: in tal caso λ1 e’ la miglior stima di λ e la 2

1λσ puo’ essere presa come errore sulla stima di λ1.

2) Un solo massimo λ1 con asimmetria attorno a λ1: in tal caso λ1 e’ la miglior stima di λ ma la 2

1λσ e’ poco significativa. Presentare L(λ) e λ1.

3) Piu’ massimi: e’ preferibile scegliere il λ che corrisponde al massimo dei massimi di L(λ). Riportare L(λ).

Determinazione del massimo

La ricerca del massimo di L(λ) viene fatta risolvendo l’equazione: 0)(=

λλ

ddL

E’ preferibile dapprima calcolare: e poi farne la derivata. La posizione dei

massimi di L(λ) e di ln L(λ) e’ la stessa.

∑=

==n

jjxfLl

1),(lnln λ

Se si considera un solo parametro λ, si puo’ risolvere l’equazione:

∑ ∑∑= ==

=====n

j

n

jj

n

jj x

ffxf

dd

dLd

ddll

1 11

),('),(lnln' λϕλλλλ

Se i paramtri sono k, si dovra’ risolvere il sistema di equazioni:

0=id

dlλ

con i=1,2,…,k

Stima dell’errore Se il numero delle osservabili e’ grande, L tende ad una gaussiana, almeno in prossimita’ del massimo, e l tende ad una funzione parabolica nella regione in cui la sua derivata si annulla. La miglior stima del parametro λ e’ il valore λ0 che rende massime sia L che l. La precisione con cui si determina λ0 e’ determinata dalla condizione:

21)( max0 −=± ll λδλ che e’ equivalente alla: ( ) )(22 Lσδλ =

33

Infatti, nel caso in cui L e’ circa gaussiana, si ha: 2/1

2

2

0

)(−

⎟⎟⎠

⎞⎜⎜⎝

⎛∂∂

−=λλ

σ lL

Nel caso piu’ generale di piu’ parametri , i valori di essi si ottengono risolvendo il sistema:

iid

dl λλ

⇒= 0

Se L e’ gaussiana:

( )⎟⎟⎟⎟⎟

⎠

⎞

⎜⎜⎜⎜⎜

⎝

⎛

==∂∂

∂−= −

2

22

21

12

k

ijijijji

ij EHElH

λ

λ

λ

σ

σσ

λλ O

Stima di μ e media pesata La misura di una grandezza fisica ha un comportamento assimilabile a quello di una variabile casuale normale con madia μ. La generica misura xj abbia varianza sj

2. La probabilita’ a posteriori di ottenere un valore di x compreso tra xj e xj+dxj e’ data da:

( )

js

x

jjj dxe

sdxxf j

j

⎥⎥⎦

⎤

⎢⎢⎣

⎡ −−

=2

2

2

21),(

μ

πμ

Se le misure sono n, allora: ( )

∏=

⎥⎥⎦

⎤

⎢⎢⎣

⎡ −−

=n

j

s

x

j

j

j

es

L1

2 2

2

21

μ

π

( )∑∑

==

+⎪⎭

⎪⎬⎫

⎪⎩

⎪⎨⎧ −−−==

n

j j

n

j j

j

ssx

Ll11

2

2

21ln

21ln

π

μ

Se vogliamo stimare μ, dobbiamo risolvere l’equazione:

∑∑ ∑ =−⇒=−

===

010)(

221' 2

122

j

n

j j

j

j

j

ssx

sx

ddll μ

μμ

∑

∑=

2

2

1j

j

j

s

sx

μ valore medio delle misure, ciascuna pesata sull’inverso dell’errore al quadrato

Se le sj sono tutte uguali: ∑ == xxn i1μ

Errore su μ:

∑∑

=⎟⎟⎠

⎞⎜⎜⎝

⎛∂∂

−=−=∂∂

−

2

2/1

2

2

22

2

111

j

j

s

ls

lμ

σμ μ

Media pesata: esempio.

34

Supponiamo di misurare la tensione di una cella fotovoltaica. 401 =n misure 021.11 =V V V 010.0

1=Vs

Prendiamo piu’ confidenza e impariamo a migliorare lo strumento usandolo meglio, miglioriamo la precisione intrinseca dell’apparato (sv) di 2.5 volte:

102 =n misure 019.12 =V V V 004.02

=Vs

V 0013.010004.0V 0016.0

4001.0

21==== VV σσ

Il confronto mostra che il fatto di fare piu’ misure decresce l’errore come n/1 , ma questo non e’ cosi’ importante come migliorare decisamente la precisione dell’apparato. Combiniamo le due serie di misure:

V 0010.011

1

V 0196.1)019.1(61.0)021.1(39.0

)004.0(10

)01.0(40

)019.1()004.0(

10)021.1()01.0(

40

1

22

22

22

2

2

21

=+

=

=+=+

+==

∑

∑

VV

V

i

i

iV

V

σσ

σ

σ

σ

Sebbene vi siano 40 misure nella prima serie e solo 10 nella seconda, nella valutazione della media il risultato della seconda serie pesa circa il doppio perche’ il suo errore e’ 2.5 volte minore. Stima di σ2(noto μ ) Sia noto μ e incognita σ2 (con le sj tutte uguali).

( )⎥⎥⎦

⎤

⎢⎢⎣

⎡ −−

=2

2

2

21),,( σ

μ

σπσμ

x

exf

( )

∏=

−−∑

⎟⎠

⎞⎜⎝

⎛==

n

i

xn

i

i

exfL1

2 2

2

21),,( σ

μ

σπσμ

∑ −−−== 22

2 )(2

1)2ln(2

ln μσ

πσ ixnLl

∑ −+−=∂∂

= 22222 )(

)(21

22

2' μ

σπσπ

σ ixnll

Per determinare σ2 si deve porre: l’=0

nxxn ii ∑∑ −

=⇒=−

+−2

222

2

2

)(ˆ0

)(2)(

2μ

σσ

μσ

Errore su σ2:

22 ˆ22

22

)(

1ˆ

σσσ

σ

=⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

∂∂

−=l

35

⎟⎟⎠

⎞⎜⎜⎝

⎛−

−+=

∂∂ ∑ 32

2

2222

2

)ˆ(2

2)(

)ˆ(2)( σμ

σσixnl

La l” va calcolata per n

xi∑ −==

222 )(

ˆμ

σσ :

46

2

4ˆ

22

2

ˆ2ˆ2

2ˆ

ˆ2)( 2 σσσ

σσ σ

nnnl−=⎟

⎠⎞

⎜⎝⎛−+=⎟⎟

⎠

⎞⎜⎜⎝

⎛∂

∂

Quindi: 2

ˆ

42 ˆ2ˆ2)ˆ( 2 σσσσ

σ nnVar =⇒=

N.B.: se non conosciamo μ e lo stimiamo con x allora σ2 e’ stimato da ∑ −−

= 22 )(1

1 xxn

s i e

quindi )1(

2 42

2−

=ns

σσ

Distribuzione di Bernoulli: stima di p Un evento a di probabilita’ incognita p si e’ presentato x volte in n prove. Qual e’ il valore piu’ probabile di p? Vogliamo fare una stime di p.

Distribuzione di Bernoulli: la probabilita’ di ottenere x successi in n prove e’ pari a xnx ppxn −−⎟⎟

⎠

⎞⎜⎜⎝

⎛)1(

Scegliamo una funzione di verosimiglianza: xnxxnx pp

xnnxpp

xn

pxL −− −−

=−⎟⎟⎠

⎞⎜⎜⎝

⎛= )1(

)!(!!)1(),(

che va intesa come una funzione della sola p (il nostro parametro).

⎟⎟⎠

⎞⎜⎜⎝

⎛+−−+==

xn

pxnpxLl ln)1ln()(lnln

Per stimare p occorre risolvere: l’=0

nxpnpx

ppxpnpxpx

pxn

px

dpdll =⇒=−⇒=

−+−−

⇒=−−

−== 00)1(

01

'

Pertanto la frequenza relativa nx

=ν e’ la stima di massima verosimiglianza del parametro p della

distribuzione binomiale. Per n → ∞ si ha: ν → p (stima consistente) E(ν)=p (stima corretta) Se ripetiamo la serie di n prove r volte, ottenendo r valori {x1, x2, …, xr}, allora:

∑∑∑∑∑

∑ ∑ ∑

∏

====

=−−

−==

⎟⎟⎠

⎞⎜⎜⎝

⎛+−−+==

−⎟⎟⎠

⎞⎜⎜⎝

⎛=

= =

=

−

νν iii

ii

r

i

r

i

r

i iii

r

i

xnx

ii

rnx

rnrx

p

xnp

xpdp

dll

xn

xnppxLl

ppxn

pxL ii

11

0)(1

11'

ln)()1ln(lnln

)1(),(

1 1

1

=1

36

(frequenza relativa media)

Distribuzione di Poisson: stima di λ Sia λ il parametro stimatore del valore medio della distribuzione di Poisson:

!),(

xexf

x λλλ−

=

In n prove otteniamo { x1, x2, …, xn}, con ii x±=σ e ∑ = Nxi . La funzione di verosimiglianza per il dato campione e’:

∏=

−

=n

i i

x

xeL

i

1 !

λλ

( ){ }∑ −−== λλ !lnlnln ii xxLl

∑ ∑ −=⎭⎬⎫

⎩⎨⎧ −== nxx

ddll i

i

λλλ11'

La stima di verosimiglianza di λ si ottiene risolvendo: l’=0

xn

xx

n i

i

==⇒=⇒ ∑∑

λλ1

x e’ uno stimatore corretto e ha varianza minima: nx

x =2σ

( ) nx

xxnxl

xixx ==⎟

⎟⎠

⎞⎜⎜⎝

⎛−=⎟

⎠⎞

⎜⎝⎛−=

∑2

22 1

/1

"1

λσ

Quindi la stima di massima verosimiglianza del valore medio di una variabile di Poisson e’ data da:

nxx == λσλ ˆ

ˆ

Nxnxxn

x

i

111ˆ

ˆ ====∑λ

σ λ

In una sola prova: iii xxx === 2ˆˆ

ˆλλ

σσλ Se gli intervalli di tempo ti in cui si effettuano i conteggi xi non sono uguali:

NTN

tx

xetxP

i

i

i

txi

i

ii 1ˆ

ˆ!

)()( ˆ ====∑∑−

λ

σλλ λ

λ

37

Stima. Stimatori e loro proprieta’ Uno degli scopi della statistica inferenziale e’ quello di ottenere informazioni circa i parametri della popolazione, che devono essere considerati fissi, a partire dai valori determinati in base al campione, che sono invece variabili casuali. I parametri, infatti, quali μ e σ, sono delle costanti numeriche, mentre i corrispondenti stimatori x e sono variabili casuali che seguono una distribuzione di probabilita’.

s

Il fine e’ quello di ottenere dai valori campionari indicazioni quanto piu’ precise possibile circa il valore vero delle quantita’ ignote, stime quanto piu’ possibile vicine ai parametri cercati. La metodologia adatta a raggiungere questo scopo costituisce una procedura che viene detta stima; si parla di stima puntuale quando fornisce un singolo valore del parametro in studio, oppure di stima per intervallo se consente di costruire un intervallo (fornisce due numeri) entro cui si puo’ supporre che il parametro sia compreso. La stima dei parametri di una popolazione consiste nel determinare uno stimatore, ossia una funzione t(x1, x2, …, xN) delle N determinazioni sperimentali xi della grandezza x che costituiscono il campione, che fornisce un valore “approssimato” del parametro. Nel caso della media, ad

esempio, la funzione t vale:N

xx i∑= . Il valore di uno stimatore per un dato campione e’ detto

stima. Uno stimatore e’ una funzione di variabili casuali e, pertanto, una variabile casuale esso stesso; si puo’ parlare di valore medio e varianza di uno stimatore riferendoci alla popolazione dei possibili valori della stima in corrispondenza di tutti i possibili campioni. Per derivare uno stimatore puntuale, i criteri di stima piu’ usati sono: il metodo di massima verosimiglianza e il metodo dei minimi quadrati. Proprieta’ degli stimatori Ad uno stimatore si possono associare diverse caratteristiche che ne individuano la “bonta’”. Un buon stimatore deve essere:

- consistente - corretto - efficiente

Indichiamo con a la quantita’ da stimare e con â lo stimatore. Ad es.: a≡μ; â= x L’applicazione di uno stimatore â al campione di dati di N misure porta alla stima di a. Questa potra’ variare dal valore vero, a causa di fluttuazioni statistiche del campione. Pero’ se le misure sono indipendenti e non ci sono errori sistematici, per la legge dei grandi numeri questi effetti diventano sempre piu’ piccoli per N → ∞. Sembra ragionevole richiedere che per un buon stimatore la differenza fra stima e valore vero → 0 per N → ∞. Uno stimatore e’ consistente quando converge (in probabilita’) al valore vero del parametro:

∞→Nlim â = a

P(â=a) → 1: a mano a mano che la dimensione del campione aumenta, la stima ottenuta tende al valore vero. Condizione sufficiente e’ che la varianza dello stimatore → 0 per N → ∞. Esempio: la media x e’ uno stimatore consistente, infatti:

11lim1lim)(lim22

=⎟⎟⎠

⎞⎜⎜⎝

⎛−=⎟⎟

⎠

⎞⎜⎜⎝

⎛−≥<−

∞→∞→∞→ εσ

εσεμ

nxP

N

x

NN

38

(disuguaglianza di Cebycev) La media, il valore medio di un campione, converge in probabilita’ alla media della popolazione:

μ⎯→⎯Px Per N finito non possiamo sperare che per un particolare campione di dati â abbia lo stesso valore di a; puo’ essere piu’ grande o piu’ piccolo. Possiamo richiedere che la probabilita’ di sovrastima bilanci quella di sottostima e in media coincida con il valore vero. Lo stimatore e’ corretto, cioe’ non distorto, senza “bias” se: E[â]=a ovvero se mediamente coincide con il valore vero di a. Esempio: la media x e’ uno stimatore corretto, poiche’:

μ=)(xE (la media di tutte le medie campionarie e’ uguale a μ)

Il valore di â dipende dal campione, per cui â variera’ da campione a campione. Se la stima deve essere una buona misura del valore vero a, la dispersione dei suoi possibili valori deve essere la piu’ piccola possibile. Uno stimatore e’ detto efficiente quando ha una piccola dispersione misurata dalla σâ

2 (piccola varianza). Se â1 e â2 sono ambedue stimatori non distanti di a, ma vale σ1

2< σ22, e’ da considerarsi preferibile

â1 che viene definito piu’ efficiente o piu’ preciso. Esempio:

NxE x

xσσμ ==][ ; m=mediana μ=][mE

⇒> 22xm σσ il valore medio e’ piu’ efficiente di m

Approfondimento E’ possibile dimostrare che per ogni stimatore â di a esiste un limite inferiore della varianza dello stimatore σâ

2 e quindi un limite superiore per la sua efficienza (teorema di Cramer-Rao). Per uno stimatore corretto non distorto:

)(ln

12

2ˆ ak

aLE

a =

⎥⎥⎦

⎤

⎢⎢⎣

⎡⎟⎠⎞

⎜⎝⎛

∂∂

≥σ

dove L e’ la funzione di verosimiglianza: ∏== ),(),()...,(),(),...,,( 2121 axPaxPaxPaxPxxxL inn

Il teorema puo’ essere anche riscritto come:

⎥⎦

⎤⎢⎣

⎡⎟⎟⎠

⎞⎜⎜⎝

⎛∂

∂−≥

2

22ˆ

ln1

aLE

aσ

Nota su: 2222 ,,, xxxx ssσσ Supponiamo che siano ottenute da un campione di n {x1} normali.

)1(21

)1(2)1(2

)(1

1 2

−≈

−≈

−≈

=−−

= ∑

nsns

n

nssxx

ns

sxxs

xxix

σσσ

39

40

Si voglia misurare σ. A livello di progetto si voglia valutare quante misure occorrono per ottenere una data precisione di σ. Se si vuole raggiungere un errore di circa il 10%; se prevediamo n=50 misure di xi:

%10)150(2

1=

−=

ssσ

se σ=6 e’ una ragionevole assunzione:

6.0)150(2

6≈

−≈sσ

A livello di analisi, se non conosciamo σ ma vogliamo stimarla:)1(2 −

≈nsx

sxσ

6.00.66.0506 ±==== xsx snsx

σ Vi e’ differenza tra un errore ottenuto dal campione in questo modo e una conoscenza a priori di σx (s → ∞ per n → ∞). Vi e’ differenza tra i due risultati:

1) 1.00.10 ±=μ dove 2.0=xσ e’ noto, n=4 misure, 0.10=x e 1.022.0

===nx

xσσ

2) 1.00.10 ±=μ dove xσ non e’ noto e viene stimato sui 4 valori {xi}:

∑ =−−

= (1

12 xxn

s ix 2.0)2 1.022.0

===n

ss xx 0.10=x

Tale differenza e’ importante per piccoli n (piccoli campioni):

xsxx ±= richiede l’uso di Student xs

xt μ−=

Per grandi campioni (n grande) la stima di σ migliora e la differenza e’ meno importante:

xxx σ±= richiede x

xzσ

μ−=

Metodo dei Minimi Quadrati . Principio di Massima ... · Questo metodo e’ noto come . Metoto dei...

Documents

Transcript of Metodo dei Minimi Quadrati . Principio di Massima ... · Questo metodo e’ noto come . Metoto dei...