Stima di parametri - pv.infn.it fontana/ · PDF file Metodo dei minimi quadrati Il logaritmo...

Click here to load reader

  • date post

    26-Sep-2020
  • Category

    Documents

  • view

    1
  • download

    0

Embed Size (px)

Transcript of Stima di parametri - pv.infn.it fontana/ · PDF file Metodo dei minimi quadrati Il logaritmo...

  • Stima di parametri

    I parametri di una densità di probabilità sono delle costanti che ne caratterizzano la forma funzionale:

    f (x ; θ) = 1

    θ e−x/θ (56)

    con x=variabile casuale e θ parametro. Dato un insieme di dati sperimentali ~x = (x1, ..., xn), si vuole determinare una funzione dei dati che stimi i parametri:

    θ̂(~x) (57)

    La funzione viene detta un estimatore del parametro per il particolare insieme di dati considerato. Esempio: valore medio di una distribuzione gaussiana.

  • Proprietà di un estimatore

    Ripetendo la misura più volte, l’ estimatore trovato in ogni misura si distribuisce secondo una pdf. Questa può essere di diverso tipo: Un buon estimatore ha un piccolo errore sistematico (bias)

    b = E [θ̂]− θ

    Questo corrisponde al fatto che il valor medio di misure ripetute tende al valore vero del parametro. Inoltre un buon estimatore ha un piccolo errore statistico (varianza)

    V [θ̂]

    Questi due requisiti sono in genere in conflitto tra loro.

  • Proprietà estimatori

  • Estimatore per la media

    Estimatore per il valore di aspettazione. Parametro: µ = E [x ] Estimatore: µ̂ = 1n

    ∑n i=1 xi = x

    Si trova:

    b = E [µ̂]− µ = 0 (58)

    V [µ̂] = σ2

    n (59)

    σµ = σ√ n

    (60)

  • Estimatore per la varianza

    Estimatore per la varianza. Parametro: σ2 = V [x ] Estimatore: σ̂2 = 1n−1

    ∑n i=1(xi − x)2 = s2 detto anche varianza

    campionaria. Si trova (grazie al fattore n-1 a denominatore):

    b = E [σ̂2]− σ2 = 0 (61)

    V [σ̂2] = 1

    n (µ4 −

    n − 3 n − 1

    µ2) (62)

    con

    µk =

    ∫ (x − µ)k f (x)dx

  • Funzione di verosimiglianza

    Supponiamo che il risultato di un esperimento sia un set di dati x1, ..., xn che sia un campione proveniente da una popolazione descritta da una pdf congiunta dipendente da un parametro θ:

    f (x1, ..., xn; θ)

    Valutiamo ora questa funzione utilizzando i dati sperimentali e consideriamola una funzione del parametro θ. Questa funzione viene definita funzione di verosimiglianza:

    L(θ) = f (x1, ..., xn; θ)

    con gli xi costanti. Se gli xi sono osservazioni indipendenti di x, la pdf congiunta è data dal prodotto delle singole pdf:

    L(θ) = n∏

    i=1

    f (xi ; θ)

  • Estimatori di massima verosimiglianza

    In questo modo, se il valore di θ ipotizzato è prossimo al valore vero del parametro, si ha un alto valore della probabilità di ottenere il set di dati effettivamente ottenuto. Quindi si definisce un estimatore di massima verosimiglianza il valore del parametro che massimizza la funzione di verosiiglianza. Spesso si usa il logaritmo della funzione di verosimiglianza, in modo da avere sommatorie invece di produttorie. Un estimatore ML non ha sempre proprietà ottimali (piccolo bias e piccola varianza), ma in genere va bene.

  • Esempio: parametro di pdf esponenziale

    Consideriamo una pdf esponenziale: f (t; τ) = 1τ e −t/τ e supponiamo di

    avere i dati t1, ..., tn. Costruiamo la funzione di verosimiglianza

    L(τ) = n∏

    i=1

    1

    τ e−tu/τ

    Il valore di τ per cui L(τ) è massima fornisce anche il valore massimo del suo logaritmo:

    lnL(τ) = n∑

    i=1

    lnf (ti ; τ) = n∑

    i=1

    (ln 1

    τ − ti τ

    )

  • Esempio: parametro di pdf esponenziale

    Si trova il massimo di lnL(θ) ponendo ∂lnL(τ)∂τ = 0. Il risultato è: τ̂ = 1n

    ∑n i=1 ti .

    Facendo un test MC, si possono generare 50 valori da una pdf con τ = 1.

    La stima ML di questo parametro è quindi: τ̂ = 1.062.

  • Varianza di un estimatore: metodo MC

    E’ necessario stimare anche l’ errore statistico sul valore del parametro determinato dal metodo di massima verosimiglianza: questo fornisce una stima di quanto ulterori stime, ottenute con misure successive, saranno distribuite attorno al valore medio. Il modo più diretto è di simulare molte volte con un programma Montecarlo, basato cioè sulla generazione di numeri pseudocasuali. Nel caso dell’ esempio con la pdf esponenziale si trova il valore σ̂τ = 1.141.

    Si noti come la distribuzione dell’ estimatore sia approssimativamente gaussiana: questo è sempre vero per estimatori ML nel limite di grandi campioni.

  • Varianza di un estimatore: Cramers-Rao

    Un altro metodo è dato dalla Teoria dell’Informazione attraverso la disuguaglianza di Cramers-Rao che fornisce un limite inferiore per la varianze di un qualunque estimatore (non solo ML):

    V [θ̂] >= (1 + ∂b

    ∂θ )2/E [−∂

    2lnL

    ∂θ2 ]

    con b = E [θ̂]− θ. Spesso il bias è trascurabile e l’ uguaglianza sussiste in modo quasi esatto nel caso di grandi campioni. In questo caso si può scrivere:

    V [θ̂] ≈ −1/E [−∂ 2lnL

    ∂θ2 ]

    E’ possibile stimare questa varianza calcolandola derivat seconda di ln L al valore massimo:

    V [θ̂] = −∂ 2lnL

    ∂θ2 |θ=θ̂

  • Varianza di un estimatore: metodo grafico

    Esiste un terzo metodo grafico. Si espande in serie di Taylor ln L attorno al valore massimo fino al secondo ordine:

    lnL(θ) = lnL(θ̂) + ∂lnL

    ∂θ |θ=θ̂(θ − θ̂) +

    1

    2!

    ∂2lnL

    ∂θ2

    −1

    |θ=θ̂(θ − θ̂) 2

    Il primo termine è il valore al massimo, il secondo è nullo e il terzo può essere stimato usando la disuguaglianza di Cramers-Rao assumendo uguaglianza:

    lnL(θ) ≈ lnLmax − (θ − θ̂)2

    2σ̂2 θ̂

    cioè:

    lnL(θ̂ ± σ̂θ̂) ≈ lnLmax − 1

    2

    In altri termini, per calcolare σθ̂ si varia θ a partire da θ̂ finchè ln L diminuisce di 1/2.

  • Esempio: varianza per pdf esponenziale

    Si è trovata la stima ML del parametro τ : τ̂ = 1.042

    Con il metodo grafico, si determina un errore asimmetrico:

    ∆τ̂− = 0.134 (63)

    ∆τ̂+ = 0.163 (64)

    σ̂τ̂− ≈ ∆τ̂− ≈ ∆τ̂+ ≈ 0.15 (65)

    La funzione ln L non è veramente parabolica a causa della dimensione finita del campione (n=50).

  • Metodo dei minimi quadrati

    Supponendo di misurare N valori sperimentali y1, ..., yN che si assumono indipendenti e di tipo gaussiano con valore di aspettazione:

    E [yi ] = λ(xi ; θ)

    Se i valori delle variabili di controllo x1, ..., xN sono noti e anche le varianze sperimentali sono note:

    V [yi ] = σ 2 i

    è possibile stimare θ dai dati, cioè interpolare (fittare) i punti con una curva. La funzione di verosimiglianza è data da:

    L(τ) = n∏

    i=1

    f (yi ; θ) = n∏

    i=1

    1√ 2πσi

    exp[− (yi − λ(xi ; θ)) 2

    2σ2i ]

  • Metodo dei minimi quadrati

    Il logaritmo della funzione di massima verosimiglianza è quindi:

    lnL(τ) = −1 2

    n∑ i=1

    (yi − λ(xi ; θ))2

    2σ2i + termini non dipendenti da θ

    Allora, massimizzare ln L è equivalente a minimizzare il seguente χ2:

    χ2(θ) = n∑

    i=1

    (yi − λ(xi ; θ))2

    2σ2i

    Questo definisce il valore di θ̂ che costituisce lo stimatore di minimi quadrati del parametro. La minimizzazione del χ2 si ottiene per via numerica attraverso appositi programmi (MINUIT e ROOFIT).

  • Varianza di un estimatore minimi quadrati

    La varianza si può ottenere con tecniche analoghe a quelle utilizzate per il caso ML. In particolare per dati di tipo gaussiano si ha:

    χ2(θ) = −2lnL(θ)

    e quindi:

    σ̂2 θ̂

    = 2[ ∂2χ2

    ∂θ2 ]−1|θ=θ̂

    Nel caso del metodo grafico, si cercano i valori di θ per cui: χ2min(θ) = χ

    2 min + 1.

  • Fit di minimi quadrati: caso lineare

    Nel caso di dipendenza lineare, cioè λ(xi ; θ̂) = a + bxi con θ = a, b, il problema può essere risolto in modo esatto per via analitica. Infatti il χ2

    risulta:

    χ2(a, b) = n∑

    i=1

    (yi − a− bxi )2

    σ2i

    La soluzione di best-fit corrisponde ai valori dei parametri a e b che rendono minimo il valore di χ2. Questo valore è essenzialmente determinato da 4 fattori:

    1 fluttuazioni nei valori misurati yi (si ricordi che si tratta di un campione casuale estratto da una popolazione caratterizzata da un valor medio e da una varianza);

    2 valori degli errori sperimentali σi (una sbagliata assegnazione può portare a valori di χ2 non corretti);

    3 scelta della forma funzionale (se la vera relazione non è lineare, ad esempio, il χ2 assume valori non corretti);

    4 valori dei parametri a e b. Obiettivo della minimizzazione di χ2 è trovare i valori ottimali per questi parametri.

  • Parametri di minimo

    Si minimizza il χ2 ponendo le derivate parziali rispetto ai parametri uguali a zero:

    ∂a χ2 =

    ∂a

    n∑ i=1

    (yi − a− bxi )2

    σ2i = 0 (66)

    ∂b χ2 =

    ∂b

    n∑ i=1

    (yi − a− bxi )2

    σ2i = 0 (67)

    Si ottengono le due equazioni lineari accoppiate:

    n∑ i=1

    yi σ2i

    = a n∑

    i=1

    1

    σ2i + b

    n∑ i=1