Download - Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Transcript
Page 1: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Stima di parametri

I parametri di una densita di probabilita sono delle costanti che necaratterizzano la forma funzionale:

f (x ; θ) =1

θe−x/θ (56)

con x=variabile casuale e θ parametro.Dato un insieme di dati sperimentali ~x = (x1, ..., xn), si vuole determinareuna funzione dei dati che stimi i parametri:

θ(~x) (57)

La funzione viene detta un estimatore del parametro per il particolareinsieme di dati considerato. Esempio: valore medio di una distribuzionegaussiana.

Page 2: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Proprieta di un estimatore

Ripetendo la misura piu volte, l’ estimatore trovato in ogni misura sidistribuisce secondo una pdf. Questa puo essere di diverso tipo:Un buon estimatore ha un piccolo errore sistematico (bias)

b = E [θ]− θ

Questo corrisponde al fatto che il valor medio di misure ripetute tende alvalore vero del parametro.Inoltre un buon estimatore ha un piccolo errore statistico (varianza)

V [θ]

Questi due requisiti sono in genere in conflitto tra loro.

Page 3: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Proprieta estimatori

Page 4: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Estimatore per la media

Estimatore per il valore di aspettazione.Parametro: µ = E [x ]Estimatore: µ = 1

n

∑ni=1 xi = x

Si trova:

b = E [µ]− µ = 0 (58)

V [µ] =σ2

n(59)

σµ =σ√n

(60)

Page 5: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Estimatore per la varianza

Estimatore per la varianza.Parametro: σ2 = V [x ]Estimatore: σ2 = 1

n−1

∑ni=1(xi − x)2 = s2 detto anche varianza

campionaria.Si trova (grazie al fattore n-1 a denominatore):

b = E [σ2]− σ2 = 0 (61)

V [σ2] =1

n(µ4 −

n − 3

n − 1µ2) (62)

con

µk =

∫(x − µ)k f (x)dx

Page 6: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Funzione di verosimiglianza

Supponiamo che il risultato di un esperimento sia un set di dati x1, ..., xn

che sia un campione proveniente da una popolazione descritta da una pdfcongiunta dipendente da un parametro θ:

f (x1, ..., xn; θ)

Valutiamo ora questa funzione utilizzando i dati sperimentali econsideriamola una funzione del parametro θ. Questa funzione vienedefinita funzione di verosimiglianza:

L(θ) = f (x1, ..., xn; θ)

con gli xi costanti. Se gli xi sono osservazioni indipendenti di x, la pdfcongiunta e data dal prodotto delle singole pdf:

L(θ) =n∏

i=1

f (xi ; θ)

Page 7: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Estimatori di massima verosimiglianza

In questo modo, se il valore di θ ipotizzato e prossimo al valore vero delparametro, si ha un alto valore della probabilita di ottenere il set di datieffettivamente ottenuto.Quindi si definisce un estimatore di massima verosimiglianza il valore delparametro che massimizza la funzione di verosiiglianza. Spesso si usa illogaritmo della funzione di verosimiglianza, in modo da avere sommatorieinvece di produttorie.Un estimatore ML non ha sempre proprieta ottimali (piccolo bias epiccola varianza), ma in genere va bene.

Page 8: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Esempio: parametro di pdf esponenziale

Consideriamo una pdf esponenziale: f (t; τ) = 1τ e−t/τ e supponiamo di

avere i dati t1, ..., tn.Costruiamo la funzione di verosimiglianza

L(τ) =n∏

i=1

1

τe−tu/τ

Il valore di τ per cui L(τ) e massima fornisce anche il valore massimo delsuo logaritmo:

lnL(τ) =n∑

i=1

lnf (ti ; τ) =n∑

i=1

(ln1

τ− tiτ

)

Page 9: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Esempio: parametro di pdf esponenziale

Si trova il massimo di lnL(θ) ponendo ∂lnL(τ)∂τ = 0.

Il risultato e: τ = 1n

∑ni=1 ti .

Facendo un test MC, si possono generare 50 valori da una pdf con τ = 1.

La stima ML di questo parametro e quindi: τ = 1.062.

Page 10: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Varianza di un estimatore: metodo MC

E’ necessario stimare anche l’ errore statistico sul valore del parametrodeterminato dal metodo di massima verosimiglianza: questo fornisce unastima di quanto ulterori stime, ottenute con misure successive, sarannodistribuite attorno al valore medio.Il modo piu diretto e di simulare molte volte con un programmaMontecarlo, basato cioe sulla generazione di numeri pseudocasuali.Nel caso dell’ esempio con la pdf esponenziale si trova il valoreστ = 1.141.

Si noti come la distribuzione dell’ estimatore sia approssimativamentegaussiana: questo e sempre vero per estimatori ML nel limite di grandicampioni.

Page 11: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Varianza di un estimatore: Cramers-Rao

Un altro metodo e dato dalla Teoria dell’Informazione attraverso ladisuguaglianza di Cramers-Rao che fornisce un limite inferiore per lavarianze di un qualunque estimatore (non solo ML):

V [θ] >= (1 +∂b

∂θ)2/E [−∂

2lnL

∂θ2]

con b = E [θ]− θ.Spesso il bias e trascurabile e l’ uguaglianza sussiste in modo quasi esattonel caso di grandi campioni. In questo caso si puo scrivere:

V [θ] ≈ −1/E [−∂2lnL

∂θ2]

E’ possibile stimare questa varianza calcolandola derivat seconda di ln Lal valore massimo:

V [θ] = −∂2lnL

∂θ2|θ=θ

Page 12: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Varianza di un estimatore: metodo grafico

Esiste un terzo metodo grafico. Si espande in serie di Taylor ln L attornoal valore massimo fino al secondo ordine:

lnL(θ) = lnL(θ) +∂lnL

∂θ|θ=θ(θ − θ) +

1

2!

∂2lnL

∂θ2

−1

|θ=θ(θ − θ)2

Il primo termine e il valore al massimo, il secondo e nullo e il terzo puoessere stimato usando la disuguaglianza di Cramers-Rao assumendouguaglianza:

lnL(θ) ≈ lnLmax −(θ − θ)2

2σ2θ

cioe:

lnL(θ ± σθ) ≈ lnLmax −1

2

In altri termini, per calcolare σθ si varia θ a partire da θ finche ln Ldiminuisce di 1/2.

Page 13: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Esempio: varianza per pdf esponenziale

Si e trovata la stima ML del parametro τ :τ = 1.042

Con il metodo grafico, si determina un errore asimmetrico:

∆τ− = 0.134 (63)

∆τ+ = 0.163 (64)

στ− ≈ ∆τ− ≈ ∆τ+ ≈ 0.15 (65)

La funzione ln L non e veramente parabolica a causa della dimensionefinita del campione (n=50).

Page 14: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Metodo dei minimi quadrati

Supponendo di misurare N valori sperimentali y1, ..., yN che si assumonoindipendenti e di tipo gaussiano con valore di aspettazione:

E [yi ] = λ(xi ; θ)

Se i valori delle variabili di controllo x1, ..., xN sono noti e anche levarianze sperimentali sono note:

V [yi ] = σ2i

e possibile stimare θ dai dati, cioe interpolare (fittare) i punti con unacurva. La funzione di verosimiglianza e data da:

L(τ) =n∏

i=1

f (yi ; θ) =n∏

i=1

1√2πσi

exp[− (yi − λ(xi ; θ))2

2σ2i

]

Page 15: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Metodo dei minimi quadrati

Il logaritmo della funzione di massima verosimiglianza e quindi:

lnL(τ) = −1

2

n∑i=1

(yi − λ(xi ; θ))2

2σ2i

+ termini non dipendenti da θ

Allora, massimizzare ln L e equivalente a minimizzare il seguente χ2:

χ2(θ) =n∑

i=1

(yi − λ(xi ; θ))2

2σ2i

Questo definisce il valore di θ che costituisce lo stimatore di minimiquadrati del parametro. La minimizzazione del χ2 si ottiene per vianumerica attraverso appositi programmi (MINUIT e ROOFIT).

Page 16: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Varianza di un estimatore minimi quadrati

La varianza si puo ottenere con tecniche analoghe a quelle utilizzate peril caso ML. In particolare per dati di tipo gaussiano si ha:

χ2(θ) = −2lnL(θ)

e quindi:

σ2θ

= 2[∂2χ2

∂θ2]−1

|θ=θ

Nel caso del metodo grafico, si cercano i valori di θ per cui:χ2

min(θ) = χ2min + 1.

Page 17: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Fit di minimi quadrati: caso lineare

Nel caso di dipendenza lineare, cioe λ(xi ; θ) = a + bxi con θ = a, b, ilproblema puo essere risolto in modo esatto per via analitica. Infatti il χ2

risulta:

χ2(a, b) =n∑

i=1

(yi − a− bxi )2

σ2i

La soluzione di best-fit corrisponde ai valori dei parametri a e b cherendono minimo il valore di χ2. Questo valore e essenzialmentedeterminato da 4 fattori:

1 fluttuazioni nei valori misurati yi (si ricordi che si tratta di uncampione casuale estratto da una popolazione caratterizzata da unvalor medio e da una varianza);

2 valori degli errori sperimentali σi (una sbagliata assegnazione puoportare a valori di χ2 non corretti);

3 scelta della forma funzionale (se la vera relazione non e lineare, adesempio, il χ2 assume valori non corretti);

4 valori dei parametri a e b. Obiettivo della minimizzazione di χ2 etrovare i valori ottimali per questi parametri.

Page 18: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Parametri di minimo

Si minimizza il χ2 ponendo le derivate parziali rispetto ai parametriuguali a zero:

∂aχ2 =

∂a

n∑i=1

(yi − a− bxi )2

σ2i

= 0 (66)

∂bχ2 =

∂b

n∑i=1

(yi − a− bxi )2

σ2i

= 0 (67)

Si ottengono le due equazioni lineari accoppiate:

n∑i=1

yi

σ2i

= an∑

i=1

1

σ2i

+ bn∑

i=1

xi

σ2i

(68)

n∑i=1

xiyi

σ2i

= an∑

i=1

xi

σ2i

+ bn∑

i=1

x2i

σ2i

(69)

Page 19: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Parametri di minimo (cont.)

con soluzioni:

a =1

∆(

n∑i=1

x2i

σ2i

n∑i=1

yi

σ2i

−n∑

i=1

xi

σ2i

n∑i=1

xiyi

σ2i

) (70)

b =1

∆(

n∑i=1

1

σ2i

n∑i=1

xiyi

σ2i

−n∑

i=1

xi

σ2i

n∑i=1

yi

σ2i

) (71)

∆ =n∑

i=1

1

σ2i

n∑i=1

x2i

σ2i

− (n∑

i=1

xi

σ2i

)2 (72)

Page 20: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Errori sui parametri

Utilizzando la formula di propagazione degli errori σ2z =

∑σ2

i (∂z∂yi

)2 ecalcolando le derivate parziali

∂a

∂yj=

1

∆(

1

σ2j

n∑i=1

x2i

σ2i

− xj

σ2j

n∑i=1

xi

σ2i

) (73)

∂b

∂yj=

1

∆(xj

σ2j

n∑i=1

1

σ2i

− 1

σ2j

n∑i=1

xi

σ2i

) (74)

si ottiene:

σ2a =

1

n∑i=1

x2i

σ2i

(75)

σ2b =

1

n∑i=1

1

σ2i

(76)

Page 21: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Errori iniziali comuni

Le formule si semplificano se tutti i punti sperimentali hanno le stesseincertezze iniziali. Per i parametri si ha:

a =1

∆′ (∑

x2i

∑yi −

∑xi

∑xiyi ) (77)

b =1

∆′ (n∑

xiyi −∑

xi

∑yi ) (78)

∆′ = n∑

x2i − (

∑xi )

2 (79)

mentre per gli errori:

σ2a =

σ2

∆′

∑x2i (80)

σ2b = n

σ2

∆′ (81)

Page 22: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Fit di minimi quadrati: caso lineare 1

Esempio: determinazione della dipendenza lineare della differenza dipotenziale lungo un filo conduttore collegato ad un generatore di d.d.p.

Si cerca una relazione del tipo:

y(x) = a + b(x)

Page 23: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Fit di minimi quadrati: caso lineare 1

I dati:

Posizione (cm) Tensione reale (V) Tensione di best-fit (V)10 0.37 0.33355620 0.58 0.59572230 0.83 0.85788940 1.15 1.1200650 1.36 1.3822260 1.62 1.6443970 1.9 1.9065680 2.18 2.1687290 2.45 2.43089

Incertezza su tensione: 0.05 VIncertezza su posizione: < 1 mm, trascurabile

Page 24: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Fit di minimi quadrati: caso lineare 1

Il risultato ottenuto con MINUIT:

a = 0.0713889 σa = 0.0363242 (82)

b = 0.0262167 σb = 0.000645497 (83)

Il risultato ottenuto con le espressioni analitiche qui ricavate:

a = 0.0713889 σa = 0.0363242 (84)

b = 0.0262167 σb = 0.000645497 (85)

Assolutamente identico! Da verificare con ROOT per credere...

Page 25: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Fit di minimi quadrati: caso lineare 1

Visualizziamo la retta di best-fit!

Page 26: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Fit di minimi quadrati: caso polinomiale

Un polinomio e definito come una funzione del tipo:

y(x) =m∑

k=1

akxk−1

o piu in generale:

y(x) =m∑

k=1

ak f )k(x)

dove a1,a2,...,am sono i parametri da determinare. Con questa definizione,l’ espressione per il χ2 nel metodo dei minimi quadrati diventa:

χ2(a, b) =n∑

i=1

[1

σ2i

(yi −m∑

k=1

ak f )k(xi ))]2

Il valore minimo si ottiene ponendo a zero le derivate parziali rispetto aiparametri. Questo conduce ad un set di m equazioni lineari accoppiate(con l compreso tra 1 e m):∑

yifl(xi )

σ2i

=m∑

k=1

ak

∑[

1

σ2i

fl(xi )fk(xi )]

Page 27: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Soluzione matriciale

Il sistema di equazioni lineari accoppiate si puo scrivere in formamatriciale:

β = aα

con gli elementi del vettore riga β definiti come:

βk =∑

yifk(xi )

σ2i

la matrice α definita come:

αlk =∑

[1

σ2i

fl(xi )fk(xi )]

e gli elementi del vettore riga a come parametri incogniti del fit.

Page 28: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Soluzione matriciale (cont)

La soluzione comporta il calcolo dell’ inversa della matrice α:

a = βα−1

che, in termini espliciti, diventa:

al =m∑

k=1

εkl∑

[1

σ2i

yi fk(xi )]

dove ε e la matrice inversa di α. La matrice α e simmetrica e prende ilnome di matrice di curvatura a causa della sua connessione con lacurvatura della funzione χ2 nello spazio dei parametri. La matrice εprende invece il nome di matrice degli errori, perche i suoi elementi sonole varianze e le covarianze dei parametri di best-fit. Infatti:

σ2ajal

=∑

σ2i

∂aj

∂yi

∂al

∂yi= εjl

Page 29: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Fit di minimi quadrati: caso polinomiale

Esempio: studio delle variazioni di tensione ai capi di una termocoppiaposta a diverse temperature.Si attende una legge del tipo:

V = a1 + a2T + a3T2

Page 30: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Fit di minimi quadrati: caso polinomiale

I dati:

Temperatura (C) Tensione reale (V) Tensione di best-fit (V)

0 -0.849 -0.9181045 -0.738 -0.7284610 -0.537 -0.53607115 -0.354 -0.34093620 -0.196 -0.14305725 -0.019 0.057567330 0.262 0.26093735 0.413 0.46705140 0.734 0.67591145 0.882 0.88751550 1.258 1.1018655 1.305 1.3189660 1.541 1.538865 1.768 1.7613870 1.935 1.9867175 2.147 2.2147980 2.456 2.4456185 2.676 2.6791790 2.994 2.9154895 3.2 3.15454100 3.318 3.39634

Page 31: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Fit di minimi quadrati: caso polinomiale

Il risultato:

Verificare confronto tra metodo numerico (MINUIT) e metodo matriciale.

Page 32: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Fit di minimi quadrati: caso di funzione arbitraria

Tecniche di ricerca del minimo di una funzione. Molti algoritmi inletteratura. Le tecniche principali sono i seguenti:

1 Metodo della griglia;

2 Metodo Montecarlo;

3 Metodo del gradiente;

4 Metodo di espansione;

5 Metodo di Marquardt.

Strumenti molto usati in Fisica:

• MINUIT (PAW, Fortran, Cern)

• ROOT (evoluzione di PAW, C++, Cern)

• ROOFIT (pacchetto per ROOT, C++, SLAC)

Page 33: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Fit di minimi quadrati: caso di funzione arbitraria

Esempio: studio del decadimento beta di due diversi isotopi caratterizzatida due vite medie diverse. A causa della presenza di un fondo, si attendeuna legge del tipo:

y(xi ) = a1 + a2e−t/a4 + a3e

−t/a5

Page 34: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Fit di minimi quadrati: caso di funzione arbitraria

I dati:

Page 35: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Fit di minimi quadrati: caso di funzione arbitraria

Il risultato:

Confrontare i risultati ottenuti con i diversi metodi.

Page 36: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Metodo dei Minimi Quadrati

Nel Metodo dei Minimi Quadrati, valido per distribuzioni gaussiane, sivuole massimizzare la funzione di verosimiglianza:

P(a1, ..., am) =∏ 1

σi

√2π

exp[−1

2

∑[yi − y(xi )

σi]2]

in funzione dei parametri aj e quindi minimizzare l’ esponente, chedefinisce il χ2:

χ2 =∑ 1

σ2i

[yi − y(xi )]2

dove xi e yi sono le variabili misurate, σi e l’ errore su y e y(xi ) sono ivalori della funzione di best-fit in xi . Il valore ottimale dei parametri sitrova minimizzando il χ2 simultaneamente rispetto a ciascun parametro:

∂χ2

∂aj= 0

Si ottiene un sistema di equazioni non lineari in m incognite.

Page 37: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Tecniche risolutive

In generale sono possibili due tecniche risolutive:

• si tratta il χ2 come funzione continua degli m parametri e se necerca il minimo (assoluto) su una iper-superficie definita in unospazio a m dimensioni;

• si cerca di risolvere il sistema di equazioni con metodi approssimatiper trovare le radici di equazioni non lineari accoppiate.

Qui esamineremo le tecniche connesse con il primo punto.

Page 38: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Tecniche di minimizzazione

Il Metodo della Massima Verosimiglianza e il Metodo dei MinimiQuadrati richiedono la minimizzazione di -ln L o di χ2. In generale questesono funzioni complesse dei parametri da determinare e non semplicifunzioni lineari o polinomiali.Si richiede pertanto di trovare il minimo si una iper-superficie in unspazio a piu dimensioni. Si tratta di un problema molto complesso,descritto a volte piu come un’ arte che come una scienza, o meglio comeuna combinazione delle due.Varie tecniche, che vedremo nel seguito, sono possibili (spesso usate insequenza):

• metodo della griglia;

• metodo MC;

• metodo del gradiente;

• metodo dello sviluppo lineare;

• metodo di Marquardt;

• metodo del simplesso;

• ...

Page 39: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

esempio di iper-superficie in 3D

Page 40: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Il problema generale della minimizzazione

Data una funzione F(x) si cerca il valore della variabile x per cui lafunzione F(x) assume il suo valore minimo. Le ”regole del gioco” sono:

1 la funzione F(x) non e nota analiticamente, ma viene specificata perogni x;

2 i valori assunti dalla variabile x appartengono ad un intervallo, manon vi sono restrizioni a causa di questo (minimizzazione senzaconstraints);

3 in alcuni casi sono disponibili informazioni addizionali, come i valorinumerici della derivata di F(x) per ogni x;

4 la funzione F(x) viene valutata ripetutamente in vari punti x finchenon assume il valore minimo.

Vari metodi sono possibili per risolvere queso problema: il metodo che,entro una certa tolleranza, trova il minimo con il minor numero divalutazioni della funzione e il migliore. Altri fattori possono essereimportanti, come l’ occupazione di memoria, ma in genere il criteriodominante e il fattore tempo.La tecnica vincente e ottimale nel senso MINIMAX: cioe minimizza ilnumero massimo di valutazioni della funzione necessario per ottenere unacerta accuratezza.

Page 41: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Definizione di minimo

I teoremi elementari dell’ Analisi Matematica affermano che una funzioneF(x) raggiunge il valore minimo se:

1 per tutte le derivate ∂F/∂x = 0 (punto stazionario);

2 alcune derivate ∂F/∂x non esistono (cuspide);

3 il punto x si trova ai limiti dell’ intervallo di definizione (puntolimite).

In pratica, si utilizza un diverso approccio: non si cerca il minimo globale,ma un minimo locale in un certo intervallo, che puo essere trovato pervalutazioni successive della funzione.

Page 42: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Criteri di ricerca

Il processo di minimizzazione e la velocita di convergenza dei diversimetodi verso la soluzione di minimo dipendono in modo critico da alcunifattori:

• valori iniziali dei parametri;

• limiti sui parametri;

• dimensione dei passi con cui i valori dei parametri vengoni variati;

• esistenza di minimi relativi;

• il criterio di convergenza e

• il metodo scelto.

Page 43: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Metodo della griglia

Applicabile nei casi in cui la variazione del χ2 per ogni parametro aj einsensibile ai valori degli altri parametri: il minimo viene ottenutominimizzando il χ2 rispetto ad ognuno dei parametri, separatamente.Procedimento:

1 Per ogni parametro aj si scelgono il valore iniziale e il passo ∆aj e sicalcola il χ2 iniziale;

2 Si incrementa il parametro aj con ±∆aj e si calcola χ2, scegliendo ilsegno in modo che χ2 diminuisca;

3 Si ripete il passo 2 finche il χ2 diminuisce ed inizia ad aumentare;

4 Si usano le ultime 3 valutazioni di aj e del χ2 per stimare i valori diminimo;

5 Si ripete a turno per ogni parametro, per minimizzare il χ2;

6 Si continua finche le variazioni di χ2 diventano trascurabili, inrelazione al criterio di convergenza scelto.

Page 44: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Metodo della griglia (cont.)

Vantaggi del metodo: semplicita e a priori capacita di determinare ilminimo con ogni precisione voluta, ma...Svantaggi del metodo: se le variazioni del ch-quadro sono correlate allevariazioni dei parametri la convergenza e estremamente lenta. Esempiocon 2 parametri: le variazioni del χ2 vicino al minimo sonoapprosimativamente ellittiche. Il grado di correlazione dei parametri vieneindicato dall’ inclinazione dell’ ellisse: se due parametri sono scorrelati,cioe se le variazioni del χ2 per ognuno dei parametri sono indipendentidagli altri, gli assi dell’ ellisse sono paralleli agli assi coordinati. Se i valoriiniziali sono vicino ad un’ estremo dell’ ellisse, si ha un tipico cammino diricerca del minimo a zig-zag che risulta essere molto inefficiente.

Page 45: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Metodo della griglia (cont.)

Page 46: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Metodo MC

Una variante del metodo di griglia si ottiene con una tecnica Monte Carlo:

Valori di tentativo per i parametri vengono generati casualmente conestrazione da distribuzione uniforme, entro intervalli dotati di significatofisico, e per ogni tentativo viene calcolato il valore di χ2.

Dopo N tentativi, si sceglie la soluzione che ha fornito il valore di χ2

minimo che puo eventualmente essere utilizzato come valore iniziale perun metodo piu sofisticato.

Page 47: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Metodo del gradiente

Obiettivo: migliorare la modalita di convergenza verso il minimo,sostituendo l’ andamento a zig-zag del metodo della griglia con unvettore diretto verso il minimo.

Nel metodo del gradiente tutti i parametri vengono incrementatisimultaneamente con grandezze relative che vengono ”aggiustate” inmodo da definire una direzione risultante per il χ2 che sia lungo ilgradiente di quest’ ultimo. Il gradiente, ovviamente, individua la direzionedi massima variazione del χ2:

∇χ2 =n∑

j=1

[∂χ2

∂ajaj ]

dove aj indica il versore dell’ asse coordinato aj nello spazio dei parametri.

Page 48: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Metodo del gradiente (cont.)

Le componenti del gradiente vengono calcolate con la derivata discreta:

(∇χ2)j =∂χ2

∂aj≈ χ2(aj + f ∆aj)− χ2(aj)

f ∆aj

dove f indica la frazione di passo ∆aj di cui aj viene variato nel calcolodel rapporto incrementale. Poiche il gradiente e i parametri hanno ingenerale dimensioni fisiche diverse, si preferisce riscalare i parametri inmodo che tutte le quantita siano adimensionali intrucendo i parametri:

bj =aj

∆aj

Le derivate rispetto a bj diventano:

∂χ2

∂bj=∂χ2

∂aj∆aj ≈

χ2(aj + f ∆aj)− χ2(aj)

f

e si puo quindi definire un gradiente adimensionale γj , di modulo unitarioe componenti:

γj =

∂χ2

∂bj∑mj=1(

∂χ2

∂bj)2

Page 49: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Metodo del gradiente (cont.)

Questo vettore γj indica la direzione verso cui i parametri vengono fattovariare nello spazio dei parametri: direzione di discesa piu ripida (steepestdescent). La ricerca del minimo inizia incrementando tutti i parametrisimultaneamente di ∆aj e stimando gli incrementi che individuano unadiminuzione del χ2 lungo la direzione di discesa piu ripida:

δaj = γj∆aj

Dopo il primo passo, sono possibili diverse strategie per compensare gliinconvenienti del metodo:

• difficolta ad avvicinarsi al fondo della valle di minimo, poiche ilgradiente tende a zero al minimo;

• lentezza di calcolo del gradiente ad ogni passo per piccole dimensionidel passo

Page 50: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Metodo del gradiente (cont.)

Possibile soluzione alternativa: si cerca lungo una direzione (gradienteiniziale) a piccoli passi calcolando il χ2 fino a quando diminuisce.Quando inizia ad aumentare si ricalcola il gradiente e si procede la ricercanella nuova direzione trovata: si procede cosı fino alla determinazione delminimo.

Approccio piu sofisticato: si calcolano le derivate seconde del chi-quadroin modo da verificare levariazioni del gradiente lungo il cammino didiscesa:

∂χ2

∂aj|aj+δaj ≈

∂χ2

∂aj|aj +

m∑k=1

(∂2χ2

∂aj∂akδak)

Se si e vicino al minimo, questo comporta una riduzione dei passi perarrivarvi, ma cio non e vero se il punto e ancora distante dal minimo. Ilmetodo del gradiente e piu veloce del metodo della griglia, ma piuesposto alla ”trappola” dei minimi relativi.

Page 51: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Metodo dello sviluppo lineare

Tecnica molto diversa dalle precedenti: invece di cercare il minimo di χ2

mappandone la funzione su una iper-superficie multidimensionale, si trovauna funzione analitica che approssimi il χ e si usa questa funzione pertrovare il minimo attraverso il metodo dei minimi quadrati lineari.Data l’ approssimazione quadratica:

χ2 = χ20 +

m∑j=1

∂χ20

∂aj(aj − a′j) +

1

2

m∑k=1

m∑j=1

∂2χ20

∂ak∂aj(ak − a′k)(aj − a′j)

si introducono gli incrementi δaj = aj − a′j e si minimizza il chi-quadrorispetto agli incrementi nei parametri δaj attraverso il metodo dei minimiquadrati lineari;

∂χ2

∂(δaj)= 0 , k = 1,m

Page 52: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Metodo dello sviluppo lineare (cont.)

Questo porta ad un sistema di m equazioni lineari in δaj :

βk −m∑

j=1

(δajαjk) = 0

con

βk = −1

2

∂χ20

∂ak(143)

αjk =1

2

∂2χ20

∂aj∂ak(144)

Come nel caso polinomiale l’ equazione puo essere scritta e risolta informa matriciale:

β = δaα

con α matrice di curvatura.

Page 53: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Metodo dello sviluppo lineare (cont.)

La soluzione si ottiene invertendo la matrice di curvatura α:

δa = βε

con ε = α−1 matrice degli errori. Questa operazione, viste le ipotesi diapplicabilita di questo metodo, fornisce i valori degli incrementi δaj taliche il χ2 viene minimizzato per a′j + δaj , ma non ha sempre buon esito:

• se il punto iniziale e sufficientemente vicino al minimo, il metodo eaccurato e preciso;

• se il punto non e vicino al minimo, lo sviluppo al secondo ordine none valido e il risultato non e corretto.

Si puo dimostrare che si perviene agli stessi risultati se, invece disviluppare il χ2 per avere una descrizione analitica della iper-superficie, sisviluppa la funzione di best-fit nei parametri aj e si usa il metodo deiminimi quadrati per trovare i valori ottimali degli incrementi δaj .

Page 54: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Metodo dello sviluppo lineare (cont.)

In conclusione, con il metodo dello sviluppo lineare (del chi-quadro odella funzione) si trovano gli incrementi ottimali e gli errori su di essivengono calcolati prendendo la radice quadrata degli elementi diagonalidella matrice degli errori ε.Vantaggi: sono necessarie meno valutazioni della funzione rispetto aimetodi della griglia e del gradiente, ma il calcolo richiest e in generale piucomplicato.

Svantaggi: il metodo funziona solo per valori iniziali prossimi a quelli diminimo.

Page 55: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Convergenza

Riassumiamo i risultati ottenuti in una tabella:

Metodo Pro ConsGRIGLIA CONVERGE SEMPRE LENTEZZAGRADIENTE RAPIDITA’/FAR GOOD MINIMI RELATIVI/NEAR BADSVILUPPO RAPIDITA’/NEAR GOOD FAR BAD

Due osservazioni emergono:

• il metodo dello sviluppo lineare funziona bene in prossimita delminimo e male per punti iniziali molto lontani dalla soluzione;

• il metodo del gradiente funziona bene anche per punti inizialilontani, ma non converge rapidamente in prossimita del minimo.

Perche non integrare i due metodi?

Page 56: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Metodo di Marquardt

E’ questo lo spirito dell’ idea di Marquardt (1963) che sviluppo unalgoritmo che si comporta come la ricerca con il gradiente nella primafase della minimizzazione e come la soluzione analitica man mano che laricerca converge verso una soluzione di minimo.

Si puo anche dimostrare (Marquardt) che i cammini di convergenza nellospazio dei parametri per i metodi del gradiente e dello sviluppo linearesono tra loro quasi perpendicolari e che la direzione ottimale diminimizzazione si trova lungo una direzione intermedia. Da qui lapotenza del metodo!

Page 57: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Metodo di Marquardt

L’ algoritmo si ottiene incrementando i termini diagonali della matrice dicurvatura α di un fattore 1 + λ che serve a controllare il comportamentodell’ algoritmo tra due estremi (gradiente e sviluppo analitico):

β = δaα′

con α′jk = αjk(1 + λ) per j = k e α′jk = αjk per j 6= k.

• per λ molto piccolo si e nel caso del comportamento analitico;

• per λ molto grande i termini diagonali della matrice dominano e l’equazione matriciale si riduce alle m equazioni

βj ≈ λδajαjj

che forniscono un vettore δa nella direzione di discesa piu ripida(opposta al gradiente).

Page 58: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

La ”ricetta” di Marquardt

Per ottenere la convergenza e necessario che il valore di λ siasufficientemente piccolo per andare in regime di sviluppo analitico, masufficientemente grande affinche il χ2 diminuisca. Poiche l’ algoritmoapprossima il metodo del gradiente al crescere di λ deve esistere unvalore di λ tale che χ2(a + δa) < χ2(a).La ricetta di Marquardt:

1 Calcolare χ2(a);

2 Iniziare con λ=0.001;

3 Calcolare δa e χ2(a + δa) con questo λ;

4 Se χ2(a + δa) > χ2(a) incrementare λ di un fattore 10 e ripetere ilpunto 3;

5 Se χ2(a + δa) < χ2(a) diminuire λ di un fattore 10, considerarea′ = a + δa come nuovo punto iniziale e ripetere il punto 3sostituendo a con a′;

Ilmetodo fornisce i parametri di minimo e gli errori nella matrice α.

Page 59: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Metodo del simplesso

Introdotto da Nelder e Mead nel 1965, e un interessante metodogeometrico, basato sulla nozione di simplesso. Un simplesso e una figuran-dimensionale specificata fornendone i suoi n+1 vertici: e un triangoloin due dimensioni, un tetraedro in tre e cosı via. L’ algoritmo deve ilnome al fatto che ad ogni passo l’ informazione sulla funzione consistenei suoi valori in n+1 punti.Visualizziamo il metodo nel caso bidimensionale.

Page 60: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Metodo del simplesso (cont.)

• Vengono scelti (anche a caso) tre punti di simplesso iniziali e lafunzione viene valutata in ognuno di essi;

• Sia PH il punto in cui la funzione al il valore maggiore (Highest) ePL il punto di valore minore (Lowest) fra i tre. Sia poi P il centro dimassa di tutti i punti del simplesso tranne PH :

P =1

n(n+1∑i=1

Pi − PH)

• A partire dal simplesso originario, si costruisce un nuovo simplessosostituendo PH con un punto migliore;

• Si riflette PH rispetto a P trovando P∗ = P + (P − PH). SeF (P∗) < F (PL) si prova un nuovo punto P∗∗ = P + 2(P − PH). SeF (P∗) > F (PH) si prova un nuovo punto P∗∗ = P − 1/2(P − PH).

• Il migliore di questi due punti rimpiazza PH nel nuovo simplesso,tranne nel caso in cui nessuno dei due sia migliore.

• in questo ultimo caso, si costruisce un nuovo simplesso attorno a PL

con le dimensioni ridotte di un fattore 0.5.

Page 61: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Metodo del simplesso (cont.)

Variazioni del metodo del simplesso sono possibili, usando diversi fattoridi espansione o di contrazione alla ricerca di un nuovo punto lungo lacongiungente PH − P.Vantaggi: metodo poco sensibile alla presenza di minimi locali, richiedeanche poche valutazioni della funzione. La direzione del prossimo stepviene trovata in modo ”intelligente” puntando dal valore maggiore allamedia dei valori minori.

Page 62: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Analisi di alcuni esempi di minimizzazione

Esaminiamo due esempi numerici per iniziare a vedere il comportamentodi alcuni algoritmi. Schema dell’ esercizio:

1 Si generano coppie di punti secondo una relazione y=f(x;a,b) con 2parametri;

2 Si perturba il valore di y introducendo un piccolo errore casuale(distribuito uniformemente)

3 Si scelgono due valori iniziali per a e b e si cercano i valori originalidella funzione generatrice a partire dai dati minimizzando il χ2.

4 Si studiano 3 tra gli algoritmi di MINUIT in ROOT: MIGRAD(gradiente), SIMPLEX (simplesso) e SEEK (MC).

Due funzioni esaminate:

• lineare: y = ax + b;

• quartica: y = ax4 + b;

Page 63: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Mappa del χ2 per diversi valori dei parametri a e b

Chi-quadro per il problema lineare.

Page 64: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Migrad (1/3)

Gradiente per il problema lineare.

Page 65: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Migrad (2/3)

Page 66: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Migrad (3/3)

MIGRAD MINIMIZATION HAS CONVERGED.

MIGRAD WILL VERIFY CONVERGENCE AND ERROR MATRIX.

COVARIANCE MATRIX CALCULATED SUCCESSFULLY

FCN=40.0664 FROM MIGRAD STATUS=CONVERGED 31 CALLS 32 TOTAL

EDM=2.56091e-20 STRATEGY= 1 ERROR MATRIX ACCURATE

EXT PARAMETER STEP FIRST

NO. NAME VALUE ERROR SIZE DERIVATIVE

1 a 1.64932e+00 1.70783e-01 2.47374e-04 7.18087e-10

2 b 1.89476e+00 2.75241e-02 3.98679e-05 -4.01005e-09

EXTERNAL ERROR MATRIX. NDIM= 25 NPAR= 2 ERR DEF=1

2.917e-02 -4.167e-03

-4.167e-03 7.576e-04

PARAMETER CORRELATION COEFFICIENTS

NO. GLOBAL 1 2

1 0.88641 1.000 -0.886

2 0.88641 -0.886 1.000

FCN=40.0664 FROM MIGRAD STATUS=CONVERGED 31 CALLS 32 TOTAL

EDM=2.56091e-20 STRATEGY= 1 ERROR MATRIX ACCURATE

EXT PARAMETER STEP FIRST

NO. NAME VALUE ERROR SIZE DERIVATIVE

1 a 1.64932e+00 1.70783e-01 2.47374e-04 7.18087e-10

2 b 1.89476e+00 2.75241e-02 3.98679e-05 -4.01005e-09

Page 67: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Simplex (1/3)

Simplesso per il problema lineare.

Page 68: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Simplex (2/3)

Page 69: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Simplex (3/3)

FIRST CALL TO USER FUNCTION AT NEW START POINT, WITH IFLAG=4.

START SIMPLEX MINIMIZATION. CONVERGENCE WHEN EDM .LT. 1

FCN=4745.82 FROM SIMPLEX STATUS=PROGRESS 12 CALLS 13 TOTAL

EDM=5521.04 STRATEGY= 1 NO ERROR MATRIX

EXT PARAMETER CURRENT GUESS PHYSICAL LIMITS

NO. NAME VALUE ERROR NEGATIVE POSITIVE

1 a -6.36000e-01 1.00000e-03

2 b 1.36400e+00 1.00000e-03

SIMPLEX MINIMIZATION HAS CONVERGED.

FCN=40.0868 FROM SIMPLEX STATUS=PROGRESS 52 CALLS 53 TOTAL

EDM=0.176492 STRATEGY= 1 NO ERROR MATRIX

EXT PARAMETER CURRENT GUESS PHYSICAL LIMITS

NO. NAME VALUE ERROR NEGATIVE POSITIVE

1 a 1.64753e+00 1.00000e-03

2 b 1.89683e+00 1.00000e-03

FCN=40.0868 FROM SIMPLEX STATUS=PROGRESS 52 CALLS 53 TOTAL

EDM=0.176492 STRATEGY= 1 NO ERROR MATRIX

EXT PARAMETER CURRENT GUESS STEP FIRST

NO. NAME VALUE ERROR SIZE DERIVATIVE

1 a 1.64753e+00 1.00000e-03 8.64992e-02 2.00000e+03

2 b 1.89683e+00 1.00000e-03 1.78194e-02 2.00000e+03

Page 70: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Seek (1/3)

MC per il problema lineare.

Page 71: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Seek (2/3)

Page 72: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Seek (3/3)

FIRST CALL TO USER FUNCTION AT NEW START POINT, WITH IFLAG=4.

MNSEEK: MONTE CARLO MINIMIZATION USING METROPOLIS ALGORITHM

TO STOP AFTER 5000 SUCCESSIVE FAILURES, OR 50000 STEPS

MAXIMUM STEP SIZE IS 1.000 ERROR BARS.

FCN=83.5359 FROM SEEk STATUS=IMPROVEMNT 50001 CALLS 50001 TOTAL

EDM= unknown STRATEGY= 1 NO ERROR MATRIX

EXT PARAMETER CURRENT GUESS INTERNAL INTERNAL

NO. NAME VALUE ERROR STEP SIZE VALUE

1 a 5.23375e-01 1.00000e-03 2.00000e-03 5.23375e-01

2 b 2.05640e+00 1.00000e-03 2.00000e-03 2.05640e+00

FCN=83.5359 FROM SEEk STATUS=IMPROVEMNT 50001 CALLS 50001 TOTAL

EDM= unknown STRATEGY= 1 NO ERROR MATRIX

EXT PARAMETER CURRENT GUESS STEP FIRST

NO. NAME VALUE ERROR SIZE DERIVATIVE

1 a 5.23375e-01 1.00000e-03 2.00000e-03 2.00000e+03

2 b 2.05640e+00 1.00000e-03 2.00000e-03 2.00000e+03

Page 73: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Mappa del χ2 per diversi valori dei parametri a e b

Chi-quadro per il problema quartico.

Page 74: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Migrad (1/3)

Gradiente per il problema quartico.

Page 75: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Migrad (2/3)

Page 76: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Migrad (3/3)

MIGRAD MINIMIZATION HAS CONVERGED.

MIGRAD WILL VERIFY CONVERGENCE AND ERROR MATRIX.

COVARIANCE MATRIX CALCULATED SUCCESSFULLY

FCN=45.2377 FROM MIGRAD STATUS=CONVERGED 36 CALLS 37 TOTAL

EDM=2.42758e-15 STRATEGY= 1 ERROR MATRIX ACCURATE

EXT PARAMETER STEP FIRST

NO. NAME VALUE ERROR SIZE DERIVATIVE

1 a 1.26178e+00 1.00615e-01 6.62740e-03 2.28181e-07

2 b 1.99992e+00 2.45671e-05 1.61834e-06 3.31762e-03

EXTERNAL ERROR MATRIX. NDIM= 25 NPAR= 2 ERR DEF=1

1.012e-02 -1.529e-06

-1.529e-06 6.035e-10

PARAMETER CORRELATION COEFFICIENTS

NO. GLOBAL 1 2

1 0.61856 1.000 -0.619

2 0.61856 -0.619 1.000

FCN=45.2377 FROM MIGRAD STATUS=CONVERGED 36 CALLS 37 TOTAL

EDM=2.42758e-15 STRATEGY= 1 ERROR MATRIX ACCURATE

EXT PARAMETER STEP FIRST

NO. NAME VALUE ERROR SIZE DERIVATIVE

1 a 1.26178e+00 1.00615e-01 6.62740e-03 2.28181e-07

2 b 1.99992e+00 2.45671e-05 1.61834e-06 3.31762e-03

Page 77: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Simplex (1/3)

Simplesso per il problema quartico.

Page 78: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Simplex (2/3)

Page 79: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Simplex (3/3)

FIRST CALL TO USER FUNCTION AT NEW START POINT, WITH IFLAG=4.

START SIMPLEX MINIMIZATION. CONVERGENCE WHEN EDM .LT. 1

FCN=1.08627e+09 FROM SIMPLEX STATUS=PROGRESS 12 CALLS 13 TOTAL

EDM=1.59886e+09 STRATEGY= 1 NO ERROR MATRIX

EXT PARAMETER CURRENT GUESS PHYSICAL LIMITS

NO. NAME VALUE ERROR NEGATIVE POSITIVE

1 a -6.36000e-01 1.00000e-03

2 b 1.36400e+00 1.00000e-03

SIMPLEX MINIMIZATION HAS CONVERGED.

FCN=45.4238 FROM SIMPLEX STATUS=PROGRESS 85 CALLS 86 TOTAL

EDM=0.481684 STRATEGY= 1 NO ERROR MATRIX

EXT PARAMETER CURRENT GUESS PHYSICAL LIMITS

NO. NAME VALUE ERROR NEGATIVE POSITIVE

1 a 1.24186e+00 1.00000e-03

2 b 1.99993e+00 1.00000e-03

FCN=45.4238 FROM SIMPLEX STATUS=PROGRESS 85 CALLS 86 TOTAL

EDM=0.481684 STRATEGY= 1 NO ERROR MATRIX

EXT PARAMETER CURRENT GUESS STEP FIRST

NO. NAME VALUE ERROR SIZE DERIVATIVE

1 a 1.24186e+00 1.00000e-03 1.16606e-01 2.00000e+03

2 b 1.99993e+00 1.00000e-03 1.25307e-05 2.00000e+03

Page 80: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Seek (1/3)

MC per il problema quartico.

Page 81: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Seek (2/3)

Page 82: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Seek (3/3)

FIRST CALL TO USER FUNCTION AT NEW START POINT, WITH IFLAG=4.

MNSEEK: MONTE CARLO MINIMIZATION USING METROPOLIS ALGORITHM

TO STOP AFTER 5000 SUCCESSIVE FAILURES, OR 50000 STEPS

MAXIMUM STEP SIZE IS 1.000 ERROR BARS.

FCN=516.32 FROM SEEk STATUS=IMPROVEMNT 50001 CALLS 50001 TOTAL

EDM= unknown STRATEGY= 1 NO ERROR MATRIX

EXT PARAMETER CURRENT GUESS INTERNAL INTERNAL

NO. NAME VALUE ERROR STEP SIZE VALUE

1 a -9.20861e-01 1.00000e-03 2.00000e-03 -9.20861e-01

2 b 2.00027e+00 1.00000e-03 2.00000e-03 2.00027e+00

FCN=516.32 FROM SEEk STATUS=IMPROVEMNT 50001 CALLS 50001 TOTAL

EDM= unknown STRATEGY= 1 NO ERROR MATRIX

EXT PARAMETER CURRENT GUESS STEP FIRST

NO. NAME VALUE ERROR SIZE DERIVATIVE

1 a -9.20861e-01 1.00000e-03 2.00000e-03 2.00000e+03

2 b 2.00027e+00 1.00000e-03 2.00000e-03 2.00000e+03

Page 83: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Rosenbrock function

f(x) = 100*(y - x*x)*(y - x*x) + (1 - x)*(1 - x)

Global minimum at where

Page 84: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Himmelblau function

f(x) = (x*x + y - 11)2 + (x + y*y -7)2

Page 85: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Griewank function

f(x) = 1-cos(x)+x*x/4000.

Page 86: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

R.Brun LCG ROOT corses 4

Fitting

TVirtualFitter

TFitter

TMinuit

TH1::Fit bin chisquare bin likelihood

TGraph::Fit unbinned chisquare

User

TTree::Fit unbinned likelihood

TFumili

Page 87: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

R.Brun LCG ROOT corses 5

Fitting histograms

• Histograms (1-D,2-D,3-D and Profiles) can be fitted with a user specified function via TH1::Fit. Two Fitting algorithms are supported: Chisquare method and Log Likelihood

• The user functions may be of the following types:

– standard functions: gaus, landau, expo, poln

– combination of standard functions; poln + gaus

– A C++ interpreted function or a C++ precompiled function

• An option is provided to compute the integral of the function bin by bin instead of simply compute the function value at the center of the bin.

• When an histogram is fitted, the resulting function with its parameters is added to the list of functions of this histogram. If the histogram is made persistent, the list of associated functions is also persistent.

• One can retrieve the function/fit parameters with calls such as:

– Double_t chi2 = myfunc->GetChisquare();

– Double_t par0 = myfunc->GetParameter(0); //value of 1st parameter

– Double_t err0 = myfunc->GetParError(0); //error on first parameter

Page 88: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

R.Brun LCG ROOT corses 6

Associated functions

• One or more object (typically a TF1*) can be added to the list of functions associated to each histogram.

• When TF1::Fit is invoked, the fitted function is added to this list.

• Given an histogram h, one can retrieve an associated function with:

– TF1 *myfunc = h->GetFunction("myfunc");

Page 89: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Minuit2 Package Minuit2 is a new object-oriented implementation, written in C++, of the popular MINUIT minimization package. Compared with the TMinuit class, which is a direct conversion from FORTRAN to C++, Minuit2 is a complete redesign and re-implementation of the package. This new version provides all the functionality present in the old FORTRAN version, with almost equivalent numerical accuracy and computational performances. Furthermore, it contains new functionality, like the possibility to set single side parameter limits or the FUMILI algorithm (see “FUMILI Minimization Package” in “Fitting Histograms” chapter), which is an optimized method for least square and log likelihood minimizations. Minuit2 has been originally developed by M. Winkler and F. James in the SEAL project. More information can be found on the MINUIT Web Site and in particular at the following documentation page at http://www.cern.ch/minuit/doc/doc.html. The API has been then changed in this new version to follow the ROOT coding convention (function names starting with capital letters) and the classes have been moved inside the namespace ROOT::Minuit2. In addition, the ROOT distribution contains classes needed to integrate Minuit2 in the ROOT framework, like TFitterMinuit and TFitterFumili. Minuit2 can be used in ROOT as another fitter plug-in.

Page 90: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

For example for using it in histogram fitting, one only needs to do: TVirtualFitter::SetDefaultFitter("Minuit2");

For minimization problem, providing an FCN function to minimize, one can do: TVirtualFitter::SetDefaultFitter("Minuit2");

TVirtualFitter * minuit2 = TVirtualFitter::Fitter(0,2);

Then set the parameters, the FCN and minimize using the TVirtualFitter methods: SetParameter, SetFCN and ExecuteCommand. The FCN function can also be given to Minuit2 as an instance of a class implementing the ROOT::Minuit2::FCNBase interface. In this case one must use directly the TFitterMinuit class via the method SetMinuitFCN. Examples on how to use the Minuit2 and Fumili2 plug-ins are provided in the tutorials’ directory. More information on the classes and functions present in Minuit2 is available at online reference documentation. In addition, the C++ MINUIT User Guide provides all the information needed for using directly the package without TVirtualFitter interface (seehttp://seal.cern.ch/documents/minuit/mnusersguide.pdf).

Page 91: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

ROOT courses

9

RooFit A general purpose tool kit for data

modeling Wouter Verkerke (UC Santa Barbara) David Kirkby (UC Irvine)

ftp://root.cern.ch/root/R2002/verkerke.ppt

Page 92: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

A brief description of MINUIT functionality

• MIGRAD

– Find function minimum. Calculates function gradient, follow to (local) minimum, recalculate gradient, iterate until minimum found

• To see what MIGRAD does, it is very instructive to do RooMinuit::setVerbose(1). It will print a line for each step through parameter space

– Number of function calls required depends greatly on number of floating parameters, distance from function minimum and shape of function

• HESSE

– Calculation of error matrix from 2nd derivatives at minimum

– Gives symmetric error. Valid in assumption that likelihood is (locally parabolic)

– Requires roughly N2 likelihood evaluations (with N = number of floating parameters)

1

2

22 ln

)(ˆ)(ˆ

pd

LdpVp

Page 93: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

A brief description of MINUIT functionality

• MINOS

– Calculate errors by explicit finding points (or contour for >1D) where D-log(L)=0.5

– Reported errors can be asymmetric

– Can be very expensive in with large number of floating parameters

• CONTOUR

– Find contours of equal D-log(L) in two parameters and draw corresponding shape

– Mostly an interactive analysis tool

Page 94: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Note of MIGRAD function minimization

• For all but the most trivial scenarios it is not possible to automatically find reasonable starting values of parameters

– So you need to supply ‘reasonable’ starting values for your parameters

– You may also need to supply ‘reasonable’ initial step size in parameters. (A step size 10x the range of the above plot is clearly unhelpful)

– Using RooMinuit, the initial step size is the value of RooRealVar::getError(), so you can control this by supplying

initial error values

Reason: There may exist multiple (local) minimain the likelihood or c2

p

-lo

g(L)

Local minimum

True minimum

Page 95: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Minuit function MIGRAD

• Purpose: find minimum

**********

** 13 **MIGRAD 1000 1

**********

(some output omitted)

MIGRAD MINIMIZATION HAS CONVERGED.

MIGRAD WILL VERIFY CONVERGENCE AND ERROR MATRIX.

COVARIANCE MATRIX CALCULATED SUCCESSFULLY

FCN=257.304 FROM MIGRAD STATUS=CONVERGED 31 CALLS 32 TOTAL

EDM=2.36773e-06 STRATEGY= 1 ERROR MATRIX ACCURATE

EXT PARAMETER STEP FIRST

NO. NAME VALUE ERROR SIZE DERIVATIVE

1 mean 8.84225e-02 3.23862e-01 3.58344e-04 -2.24755e-02

2 sigma 3.20763e+00 2.39540e-01 2.78628e-04 -5.34724e-02

ERR DEF= 0.5

EXTERNAL ERROR MATRIX. NDIM= 25 NPAR= 2 ERR DEF=0.5

1.049e-01 3.338e-04

3.338e-04 5.739e-02

PARAMETER CORRELATION COEFFICIENTS

NO. GLOBAL 1 2

1 0.00430 1.000 0.004

2 0.00430 0.004 1.000

Parameter values and approximate errors reported by MINUIT

Error definition (in this case 0.5 for a likelihood fit)

Progress information,watch for errors here

Page 96: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Minuit function MIGRAD

• Purpose: find minimum

**********

** 13 **MIGRAD 1000 1

**********

(some output omitted)

MIGRAD MINIMIZATION HAS CONVERGED.

MIGRAD WILL VERIFY CONVERGENCE AND ERROR MATRIX.

COVARIANCE MATRIX CALCULATED SUCCESSFULLY

FCN=257.304 FROM MIGRAD STATUS=CONVERGED 31 CALLS 32 TOTAL

EDM=2.36773e-06 STRATEGY= 1 ERROR MATRIX ACCURATE

EXT PARAMETER STEP FIRST

NO. NAME VALUE ERROR SIZE DERIVATIVE

1 mean 8.84225e-02 3.23862e-01 3.58344e-04 -2.24755e-02

2 sigma 3.20763e+00 2.39540e-01 2.78628e-04 -5.34724e-02

ERR DEF= 0.5

EXTERNAL ERROR MATRIX. NDIM= 25 NPAR= 2 ERR DEF=0.5

1.049e-01 3.338e-04

3.338e-04 5.739e-02

PARAMETER CORRELATION COEFFICIENTS

NO. GLOBAL 1 2

1 0.00430 1.000 0.004

2 0.00430 0.004 1.000

Approximate Error matrix

And covariance matrix

Value of c2 or likelihood at minimum

(NB: c2 values are not divided by Nd.o.f)

Page 97: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Minuit function MIGRAD

• Purpose: find minimum

**********

** 13 **MIGRAD 1000 1

**********

(some output omitted)

MIGRAD MINIMIZATION HAS CONVERGED.

MIGRAD WILL VERIFY CONVERGENCE AND ERROR MATRIX.

COVARIANCE MATRIX CALCULATED SUCCESSFULLY

FCN=257.304 FROM MIGRAD STATUS=CONVERGED 31 CALLS 32 TOTAL

EDM=2.36773e-06 STRATEGY= 1 ERROR MATRIX ACCURATE

EXT PARAMETER STEP FIRST

NO. NAME VALUE ERROR SIZE DERIVATIVE

1 mean 8.84225e-02 3.23862e-01 3.58344e-04 -2.24755e-02

2 sigma 3.20763e+00 2.39540e-01 2.78628e-04 -5.34724e-02

ERR DEF= 0.5

EXTERNAL ERROR MATRIX. NDIM= 25 NPAR= 2 ERR DEF=0.5

1.049e-01 3.338e-04

3.338e-04 5.739e-02

PARAMETER CORRELATION COEFFICIENTS

NO. GLOBAL 1 2

1 0.00430 1.000 0.004

2 0.00430 0.004 1.000

Status: Should be ‘converged’ but can be ‘failed’

Estimated Distance to Minimumshould be small O(10-6)

Error Matrix Qualityshould be ‘accurate’, but can be ‘approximate’ in case of trouble

Page 98: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Minuit function HESSE

• Purpose: calculate error matrix from 2

2

dp

Ld

**********

** 18 **HESSE 1000

**********

COVARIANCE MATRIX CALCULATED SUCCESSFULLY

FCN=257.304 FROM HESSE STATUS=OK 10 CALLS 42 TOTAL

EDM=2.36534e-06 STRATEGY= 1 ERROR MATRIX ACCURATE

EXT PARAMETER INTERNAL INTERNAL

NO. NAME VALUE ERROR STEP SIZE VALUE

1 mean 8.84225e-02 3.23861e-01 7.16689e-05 8.84237e-03

2 sigma 3.20763e+00 2.39539e-01 5.57256e-05 3.26535e-01

ERR DEF= 0.5

EXTERNAL ERROR MATRIX. NDIM= 25 NPAR= 2 ERR DEF=0.5

1.049e-01 2.780e-04

2.780e-04 5.739e-02

PARAMETER CORRELATION COEFFICIENTS

NO. GLOBAL 1 2

1 0.00358 1.000 0.004

2 0.00358 0.004 1.000

Error matrix (Covariance Matrix)

calculated from1

2 )ln(

ji

ijdpdp

LdV

Page 99: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Minuit function HESSE

• Purpose: calculate error matrix from 2

2

dp

Ld

**********

** 18 **HESSE 1000

**********

COVARIANCE MATRIX CALCULATED SUCCESSFULLY

FCN=257.304 FROM HESSE STATUS=OK 10 CALLS 42 TOTAL

EDM=2.36534e-06 STRATEGY= 1 ERROR MATRIX ACCURATE

EXT PARAMETER INTERNAL INTERNAL

NO. NAME VALUE ERROR STEP SIZE VALUE

1 mean 8.84225e-02 3.23861e-01 7.16689e-05 8.84237e-03

2 sigma 3.20763e+00 2.39539e-01 5.57256e-05 3.26535e-01

ERR DEF= 0.5

EXTERNAL ERROR MATRIX. NDIM= 25 NPAR= 2 ERR DEF=0.5

1.049e-01 2.780e-04

2.780e-04 5.739e-02

PARAMETER CORRELATION COEFFICIENTS

NO. GLOBAL 1 2

1 0.00358 1.000 0.004

2 0.00358 0.004 1.000

Correlation matrix rij

calculated from

ijjiijV r

Page 100: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Minuit function HESSE

• Purpose: calculate error matrix from 2

2

dp

Ld

**********

** 18 **HESSE 1000

**********

COVARIANCE MATRIX CALCULATED SUCCESSFULLY

FCN=257.304 FROM HESSE STATUS=OK 10 CALLS 42 TOTAL

EDM=2.36534e-06 STRATEGY= 1 ERROR MATRIX ACCURATE

EXT PARAMETER INTERNAL INTERNAL

NO. NAME VALUE ERROR STEP SIZE VALUE

1 mean 8.84225e-02 3.23861e-01 7.16689e-05 8.84237e-03

2 sigma 3.20763e+00 2.39539e-01 5.57256e-05 3.26535e-01

ERR DEF= 0.5

EXTERNAL ERROR MATRIX. NDIM= 25 NPAR= 2 ERR DEF=0.5

1.049e-01 2.780e-04

2.780e-04 5.739e-02

PARAMETER CORRELATION COEFFICIENTS

NO. GLOBAL 1 2

1 0.00358 1.000 0.004

2 0.00358 0.004 1.000

Global correlation vector:correlation of each parameter

with all other parameters

Page 101: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Wouter Verkerke, NIKHEF

Minuit function MINOS

• Error analysis through Dnll contour finding

**********

** 23 **MINOS 1000

**********

FCN=257.304 FROM MINOS STATUS=SUCCESSFUL 52 CALLS 94 TOTAL

EDM=2.36534e-06 STRATEGY= 1 ERROR MATRIX ACCURATE

EXT PARAMETER PARABOLIC MINOS ERRORS

NO. NAME VALUE ERROR NEGATIVE POSITIVE

1 mean 8.84225e-02 3.23861e-01 -3.24688e-01 3.25391e-01

2 sigma 3.20763e+00 2.39539e-01 -2.23321e-01 2.58893e-01

ERR DEF= 0.5

Symmetric error

(repeated result from HESSE)

MINOS errorCan be asymmetric

(in this example the ‘sigma’ error is slightly asymmetric)

Page 102: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Illustration of difference between HESSE and MINOS errors

• ‘Pathological’ example likelihood with multiple minima and non-parabolic behavior

MINOS error

HESSE error

Extrapolationof parabolicapproximationat minimum

Page 103: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Practical estimation – Fit converge problems

• Sometimes fits don’t converge because, e.g.

– MIGRAD unable to find minimum

– HESSE finds negative second derivatives (which would imply negative errors)

• Reason is usually numerical precision and stability problems, but

– The underlying cause of fit stability problems is usually by highly correlated parameters in fit

• HESSE correlation matrix in primary investigative tool

– In limit of 100% correlation, the usual point solution becomes a line solution (or surface solution) in parameter space. Minimization problem is no longer well defined

PARAMETER CORRELATION COEFFICIENTS

NO. GLOBAL 1 2

1 0.99835 1.000 0.998

2 0.99835 0.998 1.000

Signs of trouble…

Page 104: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Mitigating fit stability problems

• Strategy I – More orthogonal choice of parameters

– Example: fitting sum of 2 Gaussians of similar width

),;()1(),;(),,,;( 221121 msxGfmsxfGssmfxF

PARAMETER CORRELATION COEFFICIENTS

NO. GLOBAL [ f] [ m] [s1] [s2]

[ f] 0.96973 1.000 -0.135 0.918 0.915

[ m] 0.14407 -0.135 1.000 -0.144 -0.114

[s1] 0.92762 0.918 -0.144 1.000 0.786

[s2] 0.92486 0.915 -0.114 0.786 1.000

HESSE correlation matrix

Widths s1,s2

strongly correlatedfraction f

Page 105: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Mitigating fit stability problems

– Different parameterization:

– Correlation of width s2 and fraction f reduced from 0.92 to 0.68

– Choice of parameterization matters!

• Strategy II – Fix all but one of the correlated parameters

– If floating parameters are highly correlated, some of them may be redundant and not contribute to additional degrees of freedom in your model

),;()1(),;( 2212111 mssxGfmsxfG

PARAMETER CORRELATION COEFFICIENTS

NO. GLOBAL [f] [m] [s1] [s2]

[ f] 0.96951 1.000 -0.134 0.917 -0.681

[ m] 0.14312 -0.134 1.000 -0.143 0.127

[s1] 0.98879 0.917 -0.143 1.000 -0.895

[s2] 0.96156 -0.681 0.127 -0.895 1.000

Page 106: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Mitigating fit stability problems -- Polynomials

• Warning: Regular parameterization of polynomials a0+a1x+a2x2+a3x

3

nearly always results in strong correlations between the coefficients ai.

– Fit stability problems, inability to find right solution common at higher orders

• Solution: Use existing parameterizations of polynomials that have (mostly) uncorrelated variables

– Example: Chebychev polynomials

Page 107: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Minuit CONTOUR tool also useful to examine ‘bad’ correlations

• Example of 1,2 sigma contour of two uncorrelated variables

– Elliptical shape. In this example parameters are uncorrelation

• Example of 1,2 sigma contourof two variables with problematic correlation

– Pdf = fG1(x,0,3)+(1-f)G2(x,0,s) with s=4 in data

Page 108: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Practical estimation – Bounding fit parameters

• Sometimes is it desirable to bound the allowed range of parameters in a fit

– Example: a fraction parameter is only defined in the range [0,1]

– MINUIT option ‘B’ maps finite range parameter to an internal infinite range using an arcsin(x) transformation:

Bou

nd

ed

Param

ete

r s

pace

MINUIT internal parameter space (-∞,+∞)

Internal Error

Exte

rn

al Error

Page 109: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Minuit, ROOT and GSL: the frontierAlternative minimization algorithms: integration of ROOT and GSL

• GNU scientific library (GSL)• Genetic algorithms (GA)• External libraries:

• aplcon (free)• pikaia (free)• nlopt (free)• NAG (commercial)

Constrained minimization: beyond Minuit• Substitution method• Lagrange multipliers• Method of augmented lagrangian

General integration of ROOT and GSL: libraries MathCore and MathMore• Peak finder• Root finder• Numerical integration• Numerical derivation

Page 110: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

http://www.gnu.org/software/gsl/

The GNU Scientific Library

Page 111: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Interactive approach: Fit PanelRequires explicit installation with ROOT

./configure --enable-minuit2 --enable-sharedgsl

Page 112: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2
Page 113: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

List of Minimization Algorithms

The following is the list of avaiable libraries and algorithms for minimization. These algorithms can be selected through the static method in ROOT::Math::MinimizerOptions::SetDefaultMinimizer(), that receives two strings with the name of the library and the specific algorithm to be used in the next fitting. The strings needed to select a particular algorithm are specified after each name.

• Minuit Library:• Migrad Algorithm ("Minuit", "Migrad"),• Simplex Algorithm ("Minuit", "Simplex")• Minimize Algorithm ("Minuit", "Minimize")• Scan Algorithm ("Minuit", "Scan")• Seek Algorithm ("Minuit", "Seek")

• Fumili Library:• Fumili Algorithm

• Minuit2 Library:• Migrad Algorithm ("Minuit2", "Migrad")• Simplex Algorithm ("Minuit2", "Simplex")• Minimize Algorithm ("Minuit2", "Minimize")• Scan Algorithm ("Minuit2", "Scan")• Fumili2 Algorithm ("Minuit2", "Fumili2")

• GSL Library: (Only available if GSL and MathMore are available too)• Fletcher-Reeves Conjugate Gradient Algorithm ("GSLMultiMin", "conjugatefr")• Polak-Ribiere Conjugate Gradient Algorithm ("GSLMultiMin", "conjugatepr")• BFGS Conjugate Gradient Algorithm ("GSLMultiMin", "bfgs2")• Levenberg-Marquardt Algorithm ("GSLMultiFit", "")• Simulated Annealing Algorithm ("GSLSimAn", "")

For a particular example of use with the plug-in manager, see Creating a Minimizer via the Plug-In Manager.

Page 114: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Example macros:

rosegene.Chimmelgene.CNumericalMinimization.C

Page 115: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Simulated Annealing

Page 116: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Genetic Algorithms:inspired by natural evolution

Page 117: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

JEG SNAKKER BARE LITT NORSKThis sentence is 27 characters long including blank spaces and is made up of an alphabet of 30 letters if a blank character and scandinavian letters are included.

process of producing 27 character long sentences by randomly selecting letters from the 30 available characters of the alphabet. Here is an example:

GE YT AUMNBGH JH A QMWCXNES

The total number of distinct 27 character long sentences that can be made out of a 30 character alphabet is 3027=7.63x1039.The corresponding probability of generating our first target sentence by this random process on the first trial is then 30-27

Page 118: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

JEG SNAKKER BARE LITT NORSK

Consider the following procedure:

Page 119: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

JEG SNAKKER BARE LITT NORSK

Page 120: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2
Page 121: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2
Page 122: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2
Page 123: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2
Page 124: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2
Page 125: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2
Page 126: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2
Page 127: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2
Page 128: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2
Page 129: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2
Page 130: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

See pikaia code, by Paul Charbonneau, Montreal University

Page 131: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

GA in ROOT: TMVA packagehttp://tmva.sourceforge.net/

Page 132: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Constrained OptimizationSo far we have discussed optimizing functions without placing restrictions upon the values that the independent variables can assume. Such problems are often referred to as free maxima and minima or free optima.

However, in the real world, often restrictions or constraints are placed upon values of the independent variables.

These problems are referred to as constrained optima or constrained optimization.

Page 133: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Constrained Optimization

constraint

Constrained maximum

Freemaximum

Graphically, the difference between the free optima and the constrained optima can be shown as:

Page 134: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

• The free optima occurs at the peak of the surface.

• If we specify a specific relationship between variables and (a constraint) then the search for an optimum is restricted to a slice of the surface. The constrained maximum occurs at the peak of the slice.

constraint

Constrained maximum

Freemaximum

Page 135: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Constrained Optimization• Since economists deal with the allocation of

scarce resources among alternative uses, the concept of constraints or restrictions is important.

• There are two approaches to solving constrained optima problems:

(i) substitution method

(ii) Lagrange multipliers

Page 136: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Substitution Method

With variable substitution substitution, the constrained maxima problem is reduced to a free maxima problem with one independent variable.

The method of substitution is one way to solve constrained optima problems. This is manageable in some cases. In others, the constraint may be very complicated and substitution becomes complex.

Page 137: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Lagrange Multipliers

Converting constrained problem to an unconstrained problem with help of certain unspecified parameters known as

Lagrange Multipliers

Page 138: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Lagrange Multipliers

Lagrange function

Page 139: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Lagrange Multipliers

Lagrange multiplier

Page 140: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Example

Page 141: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2
Page 142: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Test whether the stationary point corresponds to a minimum

positive definite

Page 143: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2
Page 144: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2
Page 145: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2
Page 146: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Constrained minimization

• Attempt to solve the problem with Minuit: extreme point is different from minimum! Saddle point: derivative will not work…

Example: minimize x2 for x=±1

• Examples with roofit: rf_lagrange.C rf604_constraints

Page 147: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2
Page 148: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2
Page 149: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2
Page 150: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2
Page 151: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2
Page 152: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2
Page 153: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2
Page 154: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2
Page 155: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2
Page 156: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2
Page 157: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Augmented lagrangian method

Page 158: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

External libraries• aplcon (free)

http://www.desy.de/~blobel/wwwcondl.html

Constrained fits are an alternative to the standard chi-square minimization methods, used in particle physics. The construction of the chi-square function in complex cases with correlated data and systematic uncertainties becomes difficult, if the bias of the fit should be small. A more general alternative are least squares fits with equality constraints, where the relations between the data, their uncertainties, and the model expectation are simple and clear.

• pikaia (free)http://www.hao.ucar.edu/modeling/pikaia/pikaia.php

PIKAIA (pronounced "pee-kah-yah") is a general purpose function optimization FORTRAN-77 subroutine based on a genetic algorithm.

• nlopt (free)http://ab-initio.mit.edu/wiki/index.php/NLopt

• NAG (commercial)

Page 159: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

aplcon

Page 160: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2
Page 161: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2
Page 162: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2
Page 163: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2
Page 164: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2
Page 165: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2
Page 166: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

ROOT-GSL integrationIn the new organization for the Math Libraries in ROOT we have two new libraries: MathCore and MathMore MathCore contains the basic Math functionality and has no dependency on any external libraries or any other ROOT libraries. In the current release 5.0.4 it contains the physics and geometry vector package plus some basic mathematical functions. MathMore is a package with some extra functionality typically less used than those in MathCore. The current implementation in MathMore is based on GSL which is built inside the library to avoid having an external dependency. Both MathCore and MathMore can be built and used as external package outside the ROOT framework.

Page 167: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2
Page 168: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2
Page 169: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2
Page 170: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2
Page 171: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2
Page 172: Stima di parametri - pv.infn.itfontana/ · Metodo dei minimi quadrati Il logaritmo della funzione di massima verosimiglianza `e quindi: lnL(τ) = − 1 2 Xn i=1 (y i −λ(x i;θ))2

Peak finding algorithmsTspectrum class

Example macros:

peaks.Cpeaks2.C