Modelado de datos Tema 4 Itziar Aretxaga. Ajuste de modelos: estimación de parámetros Dado un...

25
Modelado de datos Tema 4 Itziar Aretxaga

Transcript of Modelado de datos Tema 4 Itziar Aretxaga. Ajuste de modelos: estimación de parámetros Dado un...

Page 1: Modelado de datos Tema 4 Itziar Aretxaga. Ajuste de modelos: estimación de parámetros Dado un conjunto de medidas {x i }, i=1,...,N donde x i puede ser.

Modelado de datos

Tema 4

Itziar Aretxaga

Page 2: Modelado de datos Tema 4 Itziar Aretxaga. Ajuste de modelos: estimación de parámetros Dado un conjunto de medidas {x i }, i=1,...,N donde x i puede ser.

)(

)()()(

XP

HPHXPXHP

0)(ln

L

Ajuste de modelos: estimación de parámetros

Dado un conjunto de medidas {xi}, i=1,...,N donde xi puede ser tanto escalar como vector, los pasos a seguir en el ajuste de un modelo son:

1. Formular un modelo F=F(xi, θ) que describa la distribución de {xi} en función de una familia de parámetros θ, escalar o vector.

2. Estimar los valores de los parámetros θ.3. Estimar el error asociado a los parámetros, σθ.4. Calcular los residuos del ajuste del modelo a los datos.5. Calcular la significancia o bondad del ajuste realizado.

Filosofías:♦ Bayesiana: calcula la probabilidad de que un modelo sea correcto basado

en información previa sobre el modelo, a través del teorema de Bayes

♦ Frecuentista: dado un modelo con un particular conjunto de parámetros, se calcula la probabilidad de que el conjunto de observaciones se produzca

Page 3: Modelado de datos Tema 4 Itziar Aretxaga. Ajuste de modelos: estimación de parámetros Dado un conjunto de medidas {x i }, i=1,...,N donde x i puede ser.

Método de máxima probabilidad

Sea la función de densidad de probabilidad F=F(x;θ) y {xi}i=1,…,N una muestra derivada de la población x. La función de densidad de probabilidad conjunta viene dada por

El estimador de máxima probabilidad del parámetro θ es

Características: el método encuentra la solución cuyos residuos tienen la variancia más pequeña, pero no está siempre libre de sesgos.

Ejemplo: estimación de la ley de potencias que describe el número de objetos en el cielo

N(>S)=kS−α (Jauncey 1967). Si se sabe que existen M fuentes con flujos entre S0 y Sm, es decir

M=N(>S0)−N(>Sm), entonces

La función de probabilidad es

Entonces y para encontrar su máximo

de donde se deduce

0

0

1)(

S

SbS

b

MSSN m

con

0ln

L

01 1 S

Ss

b

MsL i

iMi

con

)1ln(lnlnln bMsMMLi

i

0ln1

lnln

bb

Mbs

L

ii

b

sbMi i

ln

)ln/ln1ln(

(Wall JV, 1996, QJRastrS, 37, 519)

);(),...,( 11 iNiN xFxxL

Page 4: Modelado de datos Tema 4 Itziar Aretxaga. Ajuste de modelos: estimación de parámetros Dado un conjunto de medidas {x i }, i=1,...,N donde x i puede ser.

Ejemplo de ajuste al número de fuentes (Gardner et al. 1993 MNRAS, 415, L9).

Page 5: Modelado de datos Tema 4 Itziar Aretxaga. Ajuste de modelos: estimación de parámetros Dado un conjunto de medidas {x i }, i=1,...,N donde x i puede ser.

Método de mínimos cuadrados

Está basado en el método de máxima probabilidad para el caso en el que los errores de la variable dependiente sean gaussianos con variancia σ2.Sean {xi ,yi }, i=1,...,N y un modelo Y(X), la probabilidad conjunta de que los datos se deriven del modelo viene dada por

yxYy

L iiN

i

2

1

)(

2

1exp

N

i

ii xYyPL

1

2)(

2

1min)lnmin()max(ln

Page 6: Modelado de datos Tema 4 Itziar Aretxaga. Ajuste de modelos: estimación de parámetros Dado un conjunto de medidas {x i }, i=1,...,N donde x i puede ser.

Método de mínimos cuadrados: ajuste lineal

Sea el modelo Y=a+bX

Modelos que pueden ser reducidos a modelos lineales: Y=beX Y=b+aXn

22

1

2

1

0)(

0)(

0

0

xbxaxy

xbay

xbxay

bxay

bxay

b

bxay

a

ii ii

i ii

N

iii

N

iii

N

i

ii xYy

1

2)(

2

1min

2222

2

xx

yxxyb

xx

xxyxya

)(

)( 22

222

22

22

xxNxxN

xba

(Wall JV, 1996, QJRastrS, 37, 519)

Page 7: Modelado de datos Tema 4 Itziar Aretxaga. Ajuste de modelos: estimación de parámetros Dado un conjunto de medidas {x i }, i=1,...,N donde x i puede ser.

Método de mínimos cuadrados: ajuste lineal

Cinco métodos diferentes de calcular la regresión lineal por mínimos cuadrados, que no son cinco estimaciones de la misma regresión (Isobe et al. 1990, ApJ, 364, 104)

RMA=reduced mayor axis=Stromgren methodOLS(Y|X)

OLS(X|Y)=ordinary least squares

OR=orthogonal regression

Page 8: Modelado de datos Tema 4 Itziar Aretxaga. Ajuste de modelos: estimación de parámetros Dado un conjunto de medidas {x i }, i=1,...,N donde x i puede ser.
Page 9: Modelado de datos Tema 4 Itziar Aretxaga. Ajuste de modelos: estimación de parámetros Dado un conjunto de medidas {x i }, i=1,...,N donde x i puede ser.

El parámetro de corte y su variancia (donde j recorre los 5 modelos de regresión lineal) vienen dados por

Ajuste lineal: cinco métodos diferentes(Isobe et al. 1990, ApJ, 364, 104)

Page 10: Modelado de datos Tema 4 Itziar Aretxaga. Ajuste de modelos: estimación de parámetros Dado un conjunto de medidas {x i }, i=1,...,N donde x i puede ser.

Minimización de χ2

Está basado en el método de máxima probabilidad para el caso en el que los errores de la variable dependiente sean gaussianos con variancia σi

2, diferente entre los diferentes i puntos medidos.Sean {xi ,yi }, i=1,...,N y un modelo Y(X;θ), la probabilidad conjunta es

donde

Si el modelo es lineal en sus M parámetros θ, la significancia del ajuste viene dada por la distribución Q de χ2 con ν=N−M grados de libertad. Aún cuando esta condición no se cumple, se sigue utilizando esta distribución como aproximación de la significancia.

yxYy

Li

iiN

i

2

1

)(

2

1exp

2min)lnmin()max(ln LL

N

i i

ii xYy

1

2

2 )(

dtteQ t 12

2

2

2)2/(

1

2,

2

(Fig. © Univ. of Arkansas, Community College at Hope)

Page 11: Modelado de datos Tema 4 Itziar Aretxaga. Ajuste de modelos: estimación de parámetros Dado un conjunto de medidas {x i }, i=1,...,N donde x i puede ser.

Ejemplo: Modelo de deflexiones del fondo radio (Wall JV, 1996, QJRastrS, 37, 519): N=KS−γ

Minimización de χ2

Page 12: Modelado de datos Tema 4 Itziar Aretxaga. Ajuste de modelos: estimación de parámetros Dado un conjunto de medidas {x i }, i=1,...,N donde x i puede ser.

Ejemplo (Cid Fernandes et al. 1996, MNRAS, 282, 1191)

Minimización de χ2

Page 13: Modelado de datos Tema 4 Itziar Aretxaga. Ajuste de modelos: estimación de parámetros Dado un conjunto de medidas {x i }, i=1,...,N donde x i puede ser.

Críticas al método de minimización de 2

(Babu & Feigelson, 1996, `Astrostatistics’, Chapman; Feigelson & Babu 1997, en `Data Analysis in Astronomy’, Ed. Gesú et al., World Scientific)

♦ La variable independiente se suele discretizar con un tamaño de casilla y origen arbitrario (ejem. (L), N(>S), ...). ♦ Las casillas con un número de cuentas pequeño, o se suelen omitir del análisis, o se les asigna un error ad hoc. ♦ Si a la variable independiente se le ha substraido un fondo y, o bien la fuente o el fondo tienen pocas cuentas, entonces el error resultante no es ni gaussiano ni poissoniano (ejem. detecciones en rayos-X). ♦ Algunas veces, varios grados de libertad se agrupan en un solo parámetro (ejem. Z). ♦ No está claro si los intervalos de confianza del 2 mínimo reducido, cuando éste es mucho menor que la unidad, son realmente significativos.

Se recomienda explorar el espacio de parámetros, con tests de similitud cumulativos y no paramétricos: • Kolmogorov-Smirnov: es especialmente sensible a los parámetros que producen diferencias de gran escala; • von Mises: mide la suma de las desviaciones cuadráticas entre las distribuciones acumuladas del modelo y de los datos, y es sensible a los parámetros que producen diferencias a pequeña escala; • Anderson-Darling: versión modificada de von Mises, que pesa con más significancia desviaciones en las alas de las distribuciones; o recurriendo a un estimador de máxima probabilidad. Se recomienda además utilizar un bootstrap para constatar la estabilidad de la solución.

Page 14: Modelado de datos Tema 4 Itziar Aretxaga. Ajuste de modelos: estimación de parámetros Dado un conjunto de medidas {x i }, i=1,...,N donde x i puede ser.

Minimización de χ2: ajuste lineal

N

i i

ii bxay

1

2

2

Sean {xi ,yi ±σi }, i=1,...,N y un modelo Y=a+bX ,

Estimación de los parámetros

2

22

2

2

2

222

1

xxx

ii

iixyi

i

iyyi

i

ixx

ii

iyi

i

ixi

i

SSS

yxSySxS

ySxSS

donde

xyxy

xxyyxx

SSSSb

SSSSa

1

)(20

)(20

22

2

2

222

1 2

2

1 2

2

ii

iii

i

ii

i

i

ii

ii

i

ii

i

N

ii

iii

N

ii

ii

yxxbxa

yxba

bxayx

b

bxay

a

Estimación de los errores de los parámetros

1 1

2

2

22

2

2

2

2

1 1

2

2

22

2

2

2

2

N

i

N

i ii

xix

ii

ib

N

i

N

i ii

xixxx

ii

ia

SSx

x

b

y

b

SxS

x

a

y

a

i

i

2

2

S

S

b

xxa

Page 15: Modelado de datos Tema 4 Itziar Aretxaga. Ajuste de modelos: estimación de parámetros Dado un conjunto de medidas {x i }, i=1,...,N donde x i puede ser.

Minimización de χ2: ajuste lineal

Se describe la bondad del ajuste lineal por la distribución .

Si Q es mayor que 0.1, el modelo es plausible; si Q es mayor que 0.001 puede que los errores estén subestimados, y todavía el ajuste sea bueno; y si Q es menor que 0.001, los datos probablemente no se puedan describir con el modelo sugerido.

La bondad del ajuste también se puede describir por el coeficiente de regresión que está relacionado con la función χ2 mediante

22

2 2χ,

NQ

xx

xab

SS

Sr

222 )()1( yyr iiab

(Press et al., “Numerical Recipes”)

Page 16: Modelado de datos Tema 4 Itziar Aretxaga. Ajuste de modelos: estimación de parámetros Dado un conjunto de medidas {x i }, i=1,...,N donde x i puede ser.

Minimización de χ2: límites de confianza

En el caso general de M parámetros en el modelo:• sea ν ≤ M el número de parámetros que queremos dibujar (ejem. ν=2);• sea p el límite de confianza considerado (ejem. p=0.68);• búsquese Δχ2 tal que la probabilidad de que la variable χ2 con ν grados de libertad sea menor que Δχ2 venga dada por p:

• calcúlese la sección ν×ν de la matriz de covariancia que involucra los ν parámetros:

ejem. C=1/Δ

• la ecuación de la línea iso−χ2 en el subespacio ν-dimensional es

ejem. 2.30 = S(a´−a)2 − 2Sx (a´−a) (b´−b) + Sxx (b´−b)2

pQ

12,2

2

8.123.1170.9

6.1024.978.7

04.789.572.4

654

02.817.600.4%4.95

25.661.471.2%90

53.330.200.1%3.68

321νp

i

lkikl

yyC

21 1

/

[ ]Sxx −Sx

−Sx S

12 C

(Press et al., “Numerical Recipes”)

Page 17: Modelado de datos Tema 4 Itziar Aretxaga. Ajuste de modelos: estimación de parámetros Dado un conjunto de medidas {x i }, i=1,...,N donde x i puede ser.

(Press et al., “Numerical Recipes”)

Page 18: Modelado de datos Tema 4 Itziar Aretxaga. Ajuste de modelos: estimación de parámetros Dado un conjunto de medidas {x i }, i=1,...,N donde x i puede ser.

Métodos de remuestreo: bootstrap

Ejemplo: cálculo del error en los parámetros derivados del ajuste de un modelo por la minimización de χ2, y elipsoides de confianza asociados al cálculo.

(Numerical Recipes, Press et al.)

Page 19: Modelado de datos Tema 4 Itziar Aretxaga. Ajuste de modelos: estimación de parámetros Dado un conjunto de medidas {x i }, i=1,...,N donde x i puede ser.

Minimización de χ2: ajuste lineal con errores en x e y

N

i xy

iiN

i ii

ii

iib

bxay

bxay

bxay

1222

2

1

22 )(

)var(

)(

Sean {xi±σxi ,yi ±σyi }, i=1,...,N y un modelo Y=a+bX ,

Estimación de los parámetros

Estrategia: se minimiza χ2= χ2(b) numéricamente con la condición a=a(b)

0

1)()(20

2

222222

2

lineal es no

donde

b

bw

w

bxywa

b

bxay

a ixy

i

i i

i iii

xy

ii

iiii

(Press et al., “Numerical Recipes”)

Page 20: Modelado de datos Tema 4 Itziar Aretxaga. Ajuste de modelos: estimación de parámetros Dado un conjunto de medidas {x i }, i=1,...,N donde x i puede ser.

Sean {xi ,yi ±σi }, i=1,...,N y un modelo lineal en los parámetros {ak }, k=1,...,M , donde Xk(x) es una base de funciones de x.

Definimos la matriz de diseño A cuyas N×M componentes vienen dados por la evaluación de las M funciones de base Xk en las N abscisas xi

y los vectores b (bi=yi/σi , i=1,...,N) y a (aj, j=1,...,M) de parámetros.

La minimización de χ2 da el sistema de ecuaciones normales

o en forma matricial , dondeLos errores σ(aj) vienen dados por la matriz de covariancia σ2(aj)=Cjj donde

C=α−1=(ATA)−1, y el resto de los elementos no diagonales dan los coeficientes de la elipse de significancia en el plano i,j

Minimización de χ2: método lineal general

N

i i

M

k ikki xay

1

2

12)(

)(),(1

M

i kk xaaxy

i

ijij

xA

)(

N

iik

M

k ikkii

Mkxxay1

12,...,1 , )()(

10

bAaAA TT

)( bAAA TT

)(

(Press et al., “Numerical Recipes”)

Page 21: Modelado de datos Tema 4 Itziar Aretxaga. Ajuste de modelos: estimación de parámetros Dado un conjunto de medidas {x i }, i=1,...,N donde x i puede ser.

El sistema de ecuaciones normales puede ser indeterminado si existe una combinación ambigua de parámetros ak, y que las funciones Xj no se distingan entre sí. Esto ocurre bastante frecuentemente. En estos casos se recomienda utilizar la descomposición singular de valores.Descomposición singular de valoresEn forma matricial χ2 se puede escribir comoEl problema de encontrar su mínimo es análogo a un problema de cálculo matricial en el que se encuentra la descomposición singular de valores.Se quiere encontrar las matrices U,V,W en las que se descompone la matriz N×M A, A=UWVT , donde U es una matriz N×M, V es una matriz M×M y W es una matriz diagonal, que cumplen UTU=VTV=1.Una vez que se han encontrado:

Minimización de χ2: método lineal general

),cov(

)(

1 2

1

2

2

1

M

ii

kijikjjk

M

ii

ijj

M

i ii

i

W

VVaaC

W

Va

VW

bUa

(Press et al., “Numerical Recipes”)

22 baA

si Wi<<<< 1 ó O, se hace 1/Wi=0

Page 22: Modelado de datos Tema 4 Itziar Aretxaga. Ajuste de modelos: estimación de parámetros Dado un conjunto de medidas {x i }, i=1,...,N donde x i puede ser.

Sean {xi ,yi ±σi }, i=1,...,N y un modelo no lineal y=y(x,a) en los parámetros a´ =(a1, ...,aM ) .

Suficientemente cerca del mínimo, χ2 puede aproximarse por una función cuadrática y entonces

Donde D es la matriz hessiana

el gradiente lo denotamos

y se definen

Si nos encontramos lejos del mínimo, se puede recurrir a un método iterativo, siguiendo el gradiente χ2

Minimización de χ2: método no lineal

(Press et al., “Numerical Recipes”)

2

1

2 ),()(

N

ii

ii axyya

aDaada 2

1)(2

)( aprox21

aproxmin aDaa

N

i lki

lkilkkl aa

yyy

a

y

a

y

aaD

1

2

2

22

)(1

k

N

i i

ii

kk a

yaxyy

a

1

2

22 ),(

2

curvatura de matriz la de elementos los son quey 2

1

2

1 22

lkkl

kk aaa

)( cte 21 iii aaa

Page 23: Modelado de datos Tema 4 Itziar Aretxaga. Ajuste de modelos: estimación de parámetros Dado un conjunto de medidas {x i }, i=1,...,N donde x i puede ser.

El método de Lavenberg-Marquardt para alternar entre ambos sistemas de ecuaciones, redefine el factor de escala cte≡1/(λαll) y los coeficientes α´ de forma que los dos sistemas de ecuaciones se pueden expresar como uno solo:Cuando λ es muy pequeño, nos encontramos con el primero de los sistemas de ecuaciones, y cuando λ es grande con el segundo. Receta iterativa: 1.Calcular , para un aproximado.2.Escoger un valor de λ modesto (λ ≈ 0.001).3.Resolver el sistema de ecuaciones para encontrar y evaluar4.Si , incrementar λ por un factor 10 y recalcular .5.Si , disminuir λ por un factor 10 y recalcular .

cerca del mínimo

Minimización de χ2: método no lineal

(Press et al., “Numerical Recipes”)

jkjkjjjj , )1(

2

2

cte

a

aD

lejos del mínimoll

k

M

l lkl

βa

a

cte1

Sistemas de ecuaciones alternativos a resolver de forma iterativa

k

M

l lkl a 1

a

a)()( 22 aaa

)()( 22 aaa

a )(2 aa

)(2 a a

Page 24: Modelado de datos Tema 4 Itziar Aretxaga. Ajuste de modelos: estimación de parámetros Dado un conjunto de medidas {x i }, i=1,...,N donde x i puede ser.

Ajustes robustos

En el caso de que las distribuciones de errores sean muy diferentes de las distribuciones gaussianas, se recomienda utilizar el estimador M.Estimador M:Sea el logaritmo negativo de la densidad de probabilidad de que salga yi de la relación . La probabilidad de obtener {xi,yi}viene dada por

y cumple

Se suele reemplazar esta condición por

Denotando la minimización queda

Casos particulares:• errores exponenciales ρ(z)=|z| Ψ(z)=signo(z)

• errores lorencianos ρ(z)=(1+z2/2)−1 Ψ(z)=z/(1+z2/2)

}),{,( axyy ii

(Press et al., “Numerical Recipes”)

},{ axyy i

yaxyyPi

ii }),{,(exp

N

iii axyyPP

1

}),{,(min)lnmin(max

N

i i

ii axyy

1

},{min

dz

zdz

axyyz

i

ii )()( ,

},{

Mka

axyz

k

ii

i

,...,1 ),(

)(1

0

i

iiii

xyyaxyy

)(

exp}),{,(prob

1

)(exp

2

11}),{,(prob

i

iiii

xyyaxyy

Page 25: Modelado de datos Tema 4 Itziar Aretxaga. Ajuste de modelos: estimación de parámetros Dado un conjunto de medidas {x i }, i=1,...,N donde x i puede ser.

Ajustes robustos

Recetario para el ajuste:1. Decide qué tipo de errores representan mejor los datos: ρ(z), Ψ(z).

2. Ajusta χ2 para tener una idea del orden de magnitud de los parámetros.3. Minimiza la función escalar Σi ρ(zi) con un algoritmo que resista los

valores absolutos y no requiera continuidad, como amoeba.4. Alternativamente se puede resolver el sistema de ecuaciones no

lineales

Ajuste de una recta:

se puede demostrar que

y b viene dado por

a resolver iterativamente

bxaaxy i },{

i

min ii bxay

)(median ii bxya

0)sgn( iii i bxayx

(Press et al., “Numerical Recipes”)