Método de máxima verosimilitud -...

of 20 /20
Método de máxima verosimilitud Curso de Estadística TAE,2005 J.J. Gómez Cadenas

Embed Size (px)

Transcript of Método de máxima verosimilitud -...

  • Mtodo de mxima verosimilitud

    Curso de EstadsticaTAE,2005

    J.J. Gmez Cadenas

  • MuestrasConsiderar una variable aleatoria x descrita por la pdf f(x).

    El espacio de muestras est constituido por todos los posibles valoresde x.

    Un conjunto de n observaciones independientes de x se llama unamuestra de tamao n.

    Es posible definir un nuevo espacio de muestras constituido por todos losposibles valores del vector x =(x1,...,xn). Es decir, la muestra se consideraformada por una sola medida aleatoria, caracterizada por las cantidades(x1,...,xn).

    Las n medidas son independientes

    La pdf es la misma para cada medida

    fmuestra (x1,...xn ) = f (x1) f (x2 )... f (xn )

  • EstimadoresConsiderar la situacin donde se han realizado n medidas de una variablealeatoria cuya pdf se desconoce.

    El problema central de la estadstica es inferir las propiedades de f(x)basndose en las observaciones x1,...,xn).

    Especficamente, deseamos construir funciones de los xi para estimar laspropiedades de f(x).

    A menudo se tiene una hiptesis para la pfd f(x;) de un parmetrodesconocido (o ms generalmente de un vector de parmetros =(1,...,n)).

    El objetivo es entonces construir funciones de los xi que permitan estimar losparmetros .

    Una funcin de x1,...,xn que no contiene parmetros desconocidos sedenomina estadstica.

    Una estadstica que se utiliza para estimar una propiedad de una pdf (media,varianza, etc.) se llama un estimador.

  • Notacin: El estimador de un parmetro (cuyo valor exacto no se conoceni es obvio que pueda, en general conocerse) se suele notar como

    Decimos que un estimador es consistente si converge al valor autntico delparmetro en el lmite de alto n: (lmite de muestra grande o lmiteasinttico).

    limn

    P > ( ) = 0

    El procedimiento por el cual estimamos el valor de un parmetro a partirde los datos x1,...,xn se denomina ajuste (de los datos al parmetro).

    Puesto que un estimador (x1,...,xn ) es una funcin de variables aleatorias,en en s mismo una variable aleatoria. Es decir, si el experimento se remitemuchas veces, para cada muestra x=(x1,...,xn ) el estimador tomarvalores diferentes, distribuidos de acuerdo a cierta pdf g( ; ) que dependedel autntico valor de parmetro. Esta pdf se denomina distribucin demuestreo.

  • SesgoEl valor esperado de un estimador con pdf g( ; ) es:

    E[ (x)] = g( ; )d = (x) f (x1; ) f (xn; )dx1dxn

    Definimos el sesgo del estimador como:

    b = E[ (x)]

    NB: El sesgo no depende de los valores x1,...,xn de la muestra, sino deltamao de sta, de la forma funcional del estimador y de la pdf conjunta(que en general no se conoce).

    Decimos que un parmetro no tiene sesgo si b=0 independientemente deltamao de la muestra.

    Decimos que un parmetro no tiene sesgo en el lmite asinttico si b=0cuando n tiene a infinito.

    Un parmetro consistente pede sin embargo estar sesgado (n finito)

  • Estimadores para la media: Media aritmtica

    Media aritmtica omuestral:

    Ley (dbil) de los nmeros grandes: Si existe la varianza de x entoces x esun estimador consistente de la media poblacional .

    x =1n

    xii=1

    n

    limn

    x =

    Valor esperado de x:

    E[x ] = E 1n

    xii=1

    n

    =1n

    E[xi ]i=1

    n

    = 1n ii=1n

    =

    Por lo tanto la media muestral x es un estimador sin sesgo de la mediapoblacional .

  • Estimadores para la varianza y covarianzaVarianza muestral:

    s2 =1

    n 1(xi x )

    2

    i=1

    n

    = nn 1 x2 x 2 donde x= x

    Al igual que para la media, puede demostrarse que la varianza muestral esun estimador sin sesgo de la varianza poblacional 2 . Si la media seconoce entonces tambin es un estimador sin sesgo la cantidad S2.

    S2 =1

    n 1(xi )

    2 =i=1

    n

    x2 2

    Anlogamente, un estimador sin sesgo para la covarianza es:

    Vxy1

    n 1(xi x )

    i=1

    n

    (yi y ) = nn 1 xy x y

  • Varianza de la media

    Dado un estimador, su varianza se define como:

    Varianza de la media aritmtica:

    V[ ] = E[ 2 ] (E[ ])2

    V[x ] = E[x 2 ] (E[x ])2 = E 1n

    xii=1

    n

    1n

    x jj=1

    n

    2

    = 1n2

    E[xix ji , j=1

    n

    ] 2 = 1n2 (n2 n) 2 + n( 2 + 2 )

    2 = 2

    n

    (NB : E[xixj ] = 2 i j, E[xi

    2 ] = 2 + 2 )

    Es decir: la desviacin estndar de la media de n medidas de x es igual a ladesviacin estndar de f(x) dividida por n.

  • Varianza de s2

    V[s2 ] = 1n(4

    n 3n 1

    23)

    (n = (x )n

    +

    f (x)dx)

    Un estimador del momento central de orden n es:

    mk =1

    n 1(xi x )

    k

    i=1

    n

  • Mtodo de de mxima verosimilitud

    Considerar x distribuida de acuerdo a f(x;q) donde q es un parmetro (o vectorde parmetros) desconocido.

    El mtodo de mxima verosimilitud es una tcnica para estimar los valores de dada una muestra finita de datos.

    Supongamos n medidas de x, x1,...,xn. Puesto que las medidas sonindependientes, la probabilidad de que x1 est en [x1,x1+dx1], x2 en[x2,x2+dx2], es:

    probabilidad de que xi est en [xi , xi + dxi ]para todo i= f(xii=1

    n

    ; )dxi

    Si la la pdf y el (los) parmetro(s) describen realmente los datos, esperamosalta probabilidad para los datos que hemos medido. Anlogamente unparmetro cuyo valor se desve mucho del autntico resultar en bajaprobabilidad para las medidas observadas.

  • Funcin de verosimilitudP(todo xi en [xi , xi + dxi ])= f(xi

    i=1

    n

    ; )dxi

    Probabilidad mxima para la pdf y parmetros correctos. Por tanto la funcin:

    L( ) = f(xii=1

    n

    ; )

    Ser mxima para la pdf y parmetros correctos. En estadstica clsica L() noes la pdf de sino la pdf conjunta de los x donde:

    q se trata como un parmetro (del que la pdf depende)

    los xi estn fijados (los datos ya han sido adquiridos)

    En estadstica Bayesiana, podemos tratar L()=L(x|) como la pdf de x dado y a usar el teorema de Bayes para calcular la probabilidad posterior p(|x).

  • Estimadores de mxima verosimilitud

    Se definen los estimadores de mxima verosimilitud de los parmetros comoaquellos que maximizan la funcin de verosimilitud:

    Li

    = 0, i = 1,2,...m

    NB: La definicin no garantiza que los estimadores MV sean ptimos enabsoluto! En general, sin embargo, suelen ser la aproximacin ms aceptableal problema de estimar parmetros.

  • Ejemplo: Distribucin exponencialSuponer que se han medido los tiempos de desintegracin (propios) de unamuestra de leptones tau, obtenindose un conjunto de valores t1,t2,...tn.

    Escogemos como HIPTESIS para la distribucin de los ti una pdfexponencial con media .

    f (t; ) = 1e t /

    Nuestro objetivo es estimar el valor del parmetro . Para ello usamos lafuncin de verosimilitud (de hecho, su logaritmo, ms fcil de manejar)

    logL( ) = log f (ti; ) =i=1

    n

    (log 1 ti

    )i=1

    n

    log L( )

    = 0 ( 1

    2)

    i=1

    n

    + (ti )( 1 2 ) =

    = 1 2

    i=1

    n

    ti = 0

    =1n

    tii=1

    n

  • Valor esperado: = 1n

    tii=1

    n

    E[ ] = = 1n i=1n

    inmediato de calcular, puesto que el estimador es la media muestral, cuyo valoresperado coincide con la media poblacional, esto es con . Por lo tanto elestimador no tiene sesgo.

    Supongamos que en lugar de la vida media queremos calcular la constante dedesintegracin = 1/ :

    = ( )L

    =L

    L

    = 0 L

    = 0 siempre que

    0

    = 1= n

    tii=1

    n

    E[] = nn 1

    = 1

    nn 1

    = 1/ slo es un estimador sinsesgo de en el lmite de alto n!

    Es decir: El estimador MV de unafuncin del parmetro , a=a() no esms que a=a().

    Pero si es un estimador sin sesgode no necesariamente a es unestimador sin sesgo de a()

  • Ejemplo: Estimadores MV de una gausiana

    Considerar n medidas de x que asumimos distribuidas de acuerdo a una pdfgausiana. La funcin de verosimilitud es:

    logL(, 2 ) = log f (x;i=1

    n

    , 2 ) = log 12 2

    exp (x )2

    2 2

    i=1

    n

    = log 12i=1

    n

    + 12 log1 2

    (x )2

    2 2

    log L

    = 0 1 2

    (x )i=1

    n

    = 0 = 1n xii=1n

    E[] = no tiene sesgo log L 2

    = 0 2 = 1n

    (xii=1

    n

    )2

    E[ 2 ] = n 1n

    2 2 no tiene sesgo en el lmite asinttico

    NB la varianza muestral es siempre un estimador sin sesgopero no es un estimador MV!

    s2 =1

    n 1(xi

    i=1

    n

    )2

  • Varianza de los estimadores MVLa varianza de un estimador nos proporciona una medida de laincertidumbre estadstica en el conocimiento de dicho estimador. Esto es:

    Si repetimos muchas veces el experimento (con n medidas en cada caso)y obtenemos cada vez, cunto se esparcen sus valores --entorno alvalor medio, si no hay sesgo--?

    Para ello, calculamos la varianza de .

    Tcnicas para calcular la varianza :

    Analtica (slo en algunos casos sencillos)

    Monte Carlo

    Mtodos numricos

  • Analtica para elcaso de la pdfexponencial

    Monte Carlo: Muchosexperimentos, cada unocon n fijo. La varianzaviene dada por ladispersin del estimadorentorno al valor medio

  • Desigualdad RCF

    Rao-Cramr-Frechet: Para un estimador arbitrario se verifica que:

    V[] (1+ b

    )2

    E[ 2 logL 2

    ]

    Decimos que un estimador es eficiente (y sin sesgo) cuando se verifica laigualdad estricta. Este es el caso, a menudo con estimadores MV (aveces en el lmite asinttico). Otras veces se utiliza la igualdad como unaaproximacin. En estos casos:

    V[]1 = E[ 2 log L 2

    ], Vij1 = E[

    2 logLi j

    ]

  • Mtodo numrico para calcular la varianza de un estimadorMVConsideremos el parmetro : Expandiendo log (L) en serie de Taylor entornoal estimador

    logL( ) = logL( ) + logL

    =

    ( ) + 12!

    2 logL 2

    =

    ( )2 + ...

    Alrededor de logL es mxima ypor tanto la primera derivada secancela. Utilizando RCF(asumiendo que el estimador eseficiente y sin sesgo)

    logL( ) = logLmax ( )2

    2 2

    logL( ) = logLmax 12

    Para obtener cambiamos alejndonos de q hasta que log Ldisminuye en 1/2