6.3. Estimadores Insesgados de Varianza … · alcanza la CICR, entonces si logramos obtener una...

6

Click here to load reader

Transcript of 6.3. Estimadores Insesgados de Varianza … · alcanza la CICR, entonces si logramos obtener una...

Page 1: 6.3. Estimadores Insesgados de Varianza … · alcanza la CICR, entonces si logramos obtener una factorizacio´n como la que muestra 6.3 para nuestro τ(θ) de

6.3. ESTIMADORES INSESGADOS DE

VARIANZA UNIFORMEMENTE MINIMA Carlos Erwin Rodrıguez

6.3. Estimadores Insesgados de

Varianza Uniformemente Mınima

El objetivo en esta parte sera encontrar al mejor estimador de τ(θ), bajo algun criterio. Primero que nadapodrıamos pensar en encontrar al estimador T (X) = T (X1,X2, . . . ,Xn) que tenga el menor error cuadraticomedio(ECMτ(θ)(T (X))) para estimar τ(θ), sin embargo aquı surgen dos problemas, el primero es que tenemosun espacio muy grande de estimadores para τ(θ) y el segundo es que

ECMτ(θ)(T (X)) = V ar(T (X)) + (E(T (X)) − τ(θ))2 (6.1)

y por lo tanto tendrıamos que encontrar estimadores que controlen su sesgo y su varianza, lo cual resulta muydifıcil. Entonces lo que se decide hacer es limitar la busqueda de estimadores para τ(θ), solo a los que soninsesgados para τ(θ) y dentro de esta clase, de 6.1, podemos ver que lo que tenemos que hacer es encontrar alestimador que tenga la menor varianza, formalmente lo que buscamos es:

Definicion (UMVUE)

Sea X1,X2, . . . ,Xn una m.a. de fX(x|θ). Un estimador insesgado T (X) =T (X1,X2, . . . ,Xn) de τ(θ) es un UMVUE para τ(θ) si y solo si

1. E(T (X)) = τ(θ) (T (X) es un estimador insesgado para τ(θ))

2. V ar(T (X)) ≤ V ar(W (X)) para cualquier otro estimador W (X) de τ(θ)que cumpla que E(W (X)) = τ(θ)

A los estimadores que cumplan con la definicion anterior les llamaremos estimadores insesgados de varianzauniformemente mınima, en ingles esto suele abreviarse como UMVUE (uniformly minimum-variance unbiasedestimator) y a lo largo de estas notas nos referiremos a ellos con esta abreviacion. Es claro que si buscamos elmejor estimador insesgado para τ(θ), el UMVUE es lo que debemos encontrar. Entonces lo que haremos enesta seccion sera dirigir nuestros esfuerzos para encontrar UMVUE’s.

Observacion: A lo largo de estas notas X = (X1,X2, . . . ,Xn) sera un vector de variables aleatorias y x =(x1, x2, . . . , xn) seran los valores observados para esas variables aleatorias. Es importante hacer enfasis en estepunto pues es facil perderse y no saber con respecto a quien hay que calcular una probabilidad, una esperanzao varianza.

6.3.1. Cota Inferior de Cramer-Rao

Encontrar UMVUE’s no es facil, sin embargo tendremos varias herramientas a nuestra disposicion para talempresa, la primera de ellas es el siguiente

Teorema 1 (Cota Inferior de Cramer-Rao)Sea X1,X2, . . . ,Xn una m.a. de fX(x|θ) y sea T (X) = T (X1,X2, . . . ,Xn) cualquier estimador insesgado deτ(θ), si se cumplen ciertas condiciones de regularidad (las veremos mas adelante), entonces

V ar(T (X)) ≥

(∂τ(θ)

∂θ

)2

−nE

(∂2

∂θ2log fX(X|θ)

) (6.2)

y la igualdad se da si y solo si existe una funcion k(θ, n) tal que

1

Page 2: 6.3. Estimadores Insesgados de Varianza … · alcanza la CICR, entonces si logramos obtener una factorizacio´n como la que muestra 6.3 para nuestro τ(θ) de

6.3. ESTIMADORES INSESGADOS DE

VARIANZA UNIFORMEMENTE MINIMA Carlos Erwin Rodrıguez

∂θlog L(θ|x) = k(θ, n)(T (x) − τ(θ)) (6.3)

Observacion: La notacion en el Teorema 1 juega un papel importante, hay que poner atencion en que X

siempre representa una v.a. de esta forma no debe quedar ninguna duda sobre respecto a quien calcular

E

(∂2

∂θ2log fX(X|θ)

)

.

A la cantidad que esta del lado derecho de la desigualdad 6.2 se le conoce como cota inferior de Cramer-Rao(CICR).

Este teorema nos sera util en dos sentidos. Primero, mediante 6.2 tenemos una cota inferior para la varianza decualquier estimador insesgado de τ(θ), entonces si estamos buscando el UMVUE para τ(θ) y encontramos unestimador insesgado de τ(θ) cuya varianza coincida con la CICR, hemos encontrado lo que estabamos buscan-do. Segundo, mediante 6.3 tambien tenemos condiciones claras sobre las cuales la varianza del estimador T (X)alcanza la CICR, entonces si logramos obtener una factorizacion como la que muestra 6.3 para nuestro τ(θ) deinteres, tambien habremos encontrado el UMVUE para τ(θ).

Las condiciones de regularidad para poder aplicar el Teorema 1 son las siguientes:

∂E(T (X))

∂θ= E

(∂T (X)

∂θ

)

V ar(T (X)) < ∞

∂θE

(∂

∂θlog L(θ|X)

)

=

Ω

∂θ

[(∂

∂θlog fX(x|θ)

)

fX(x|θ)

]

dx

Es claro que verificar las condiciones anteriores puede resultar muy difıcil, sin embargo, podemos decir que estassiempre se cumpliran para una familia muy amplıa de distribuciones; la familia exponencial, que describiremosal final de la parte de estimacion puntual, pero por el momento diremos que incluye a las distribuciones: bino-mial, exponencial, gamma, poisson, normal y muchas otras. Otro comentario importante es cuando no se puedeaplicar el Teorema 1, en general no sera aplicable cuando el dominio de fX(x|θ) dependa de θ, por ejemplo paralas variables uniformes continuas la cota inferior de Cramer-Rao no se podra aplicar.

Ejemplo: Sea X1,X2, . . . ,Xn una m.a. de fX(x|λ) =e−λλx

x!con x = 0, 1, 2, . . . Supongamos que nos interesa

encontrar el UMVUE para τ(λ) = λ. Primero encontraremos la CICR utilizando la ecuacion 6.2 y luego uti-lizaremos la ecuacion 6.3 para tratar de encontrar el estimador insesgado cuya varianza alcanza la CICR.

Se puede ver facilmente que∂τ(λ)

∂λ= 1 y que

log fX(X|λ) = −λ + X log(λ) − log(X!)

⇒∂

∂λlog fX(X|λ) = −1 +

X

λ

⇒∂2

∂λ2log fX(X|λ) = −

X

λ2

⇒ E

(∂2

∂λ2log fX(X|λ)

)

= −1

λ2E(X) = −

λ

λ2= −

1

λ

Entonces para cualquier estimador insesgado T (X) de τ(λ) se tiene que

V ar(T (X)) ≥

(∂τ(λ)

∂λ

)2

−nE

(∂2

∂λ2log fX(X|λ)

) =1n

λ

n

2

Page 3: 6.3. Estimadores Insesgados de Varianza … · alcanza la CICR, entonces si logramos obtener una factorizacio´n como la que muestra 6.3 para nuestro τ(θ) de

6.3. ESTIMADORES INSESGADOS DE

VARIANZA UNIFORMEMENTE MINIMA Carlos Erwin Rodrıguez

Ahora vamos a utilizar la ecuacion 6.3

L(λ|x) =

n∏

i=1

e−λλxi

xi!

⇒e−nλλ

∑n

i=1 xi

n∏

i=1

xi!

⇒ log L(λ|x) = −nλ +

n∑

i=1

xi log λ − log

n∏

i=1

xi!

Entonces para este problema la ecuacion 6.3 queda como

∂λlog L(λ|x) = −n +

∑n

i=1 xi

λ=

n

λ(x − λ)

En donde k(λ, n) =n

λ, T (x) = x y τ(λ) = λ, por lo tanto el estimador insesgado que alcanza la varianza

establecida por la CICR serıa T (X) = X. Entonces T (X) = X es el UMVUE para τ(λ) = λ

6.3.2. Estadısticas Suficientes y Completas

La cota inferior de Cramer-Rao es una herramienta poderosa para encontrar UMVUE’s, sin embargo, haymuchos casos en los que el UMVUE de τ(θ) existe y sin embargo su varianza es estrictamente mayor quela cota inferior de Cramer-Rao. Ademas, existen varias funciones de distribucion para las cuales no podemosaplicar la cota inferior de Cramer-Rao pues no cumplen las condiciones de regularidad, en particular tenemosla distribucion uniforme continua. Entonces necesitamos desarrollar metodos mas robustas y generales paraencontrar UMVUE’s, la herramienta de mas alcance para este fin sera el teorema de Lehmann-Scheffe queenunciaremos en esta seccion, sin embargo, antes de este teorema necesitamos la siguiente:

Definicion (estadıstica completa)

Sea X1,X2, . . . ,Xn una m.a. de fX(x|θ) y sea T (X) = T (X1,X2, . . . ,Xn) unaestadıstica, entonces diremos que T (X) es completa si y solo si

E(g(T (X)) = 0 ⇒ P (g(T (X)) = 0) = 1 ∀ θ (6.4)

en donde g(T (X)) es cualquier funcion de T (X).

Esta definicion puede parecer irrelevante y fuera de lugar, pero mas adelante explicaremos su importancia,primero vamos a entender lo que dice. La definicion establece que una estadıstica T (X) es llamada completa sipara cualquier funcion de T (X) denotada como g(T (X)) se tiene que su valor esperado es cero (E(g(T (X)) = 0)entonces con probabilidad uno y para cualquier valor del parametro θ esa funcion tiene que ser cero, g(T (X)) = 0.

Observacion: Para saber que forma tiene E(g(T (X)) e igualar a cero, necesitamos conocer la distribucion deT (X), pues recordemos que

E(g(Y )) =

y

g(y)PY (Y = y) si Y es una v.a. discreta

∫ ∞

−∞

g(y)fY (y)dy si Y es una v.a. continua

3

Page 4: 6.3. Estimadores Insesgados de Varianza … · alcanza la CICR, entonces si logramos obtener una factorizacio´n como la que muestra 6.3 para nuestro τ(θ) de

6.3. ESTIMADORES INSESGADOS DE

VARIANZA UNIFORMEMENTE MINIMA Carlos Erwin Rodrıguez

Para la definicion de estadıstica completa se tiene que Y = T (X) ⇒ g(Y ) = g(T (X)).

Ejemplo: Sea X1,X2, . . . ,Xn una m.a. de una Bernoulli(p) con 0 < p < 1, entonces sabemos que

T (X) =

n∑

i=1

Xi ∼ Bin(n, p)

vamos a probar que T (X) =∑n

i=1 Xi es una estadıstica completa y para hacer las cosas mas sencillas, renom-braremos a la variable aleatoria como en la observacion anterior, entonces sea

Y = T (X) =

n∑

i=1

Xi ⇒ Y ∼ Bin(n, p)

ası hay que probar que si E(g(Y )) = 0 entonces P (g(Y ) = 0) = 1 para 0 < p < 1 y cualquier funcion g.

E(g(Y )) = 0

n∑

y=0

g(y)

(n

y

)

py(1 − p)n−y = 0

⇔ (1 − p)n

n∑

y=0

g(y)

(n

y

) (p

1 − p

)y

= 0

⇔n∑

y=0

g(y)

(n

y

)

ry = 0

en la ultima igualdad r = p1−p

para cualquier p en (0, 1) entonces 0 < r < ∞. Para ver esto piensen a r

como funcion de p en (0, 1), entonces r(p) es una funcion continua en (0, 1), y si p −→ 0 ⇒ r −→ 0 y sip −→ 1 ⇒ r −→ ∞. Entonces tenemos un polinomio de grado n con variable r > 0 y coeficientes g(y)

(ny

)

para y = 0, 1, . . . , n que siempre es igual a cero, sin importar el grado del polinomio ni el valor de r. Como

claramente para cualquier y tenemos que(ny

)≥ 1 entonces se tiene que tener g(y) = 0 para y = 0, 1, . . . , n, de

donde P (g(Y ) = 0) = 1 para cualquier p en (0, 1). Podrıa pensarse que puede haber una combinacion de g(y)para y = 0, 1, . . . , n positivos y negativos de forma que

∑n

y=0 g(y)(ny

)ry = 0 sin embargo esto podrıa ser posible

para cierta r fija pero el hecho de que se cumpla para cualquier r con r > 0 asegura la afirmacion anterioracerca de g(Y )

Teorema 2 (Lehmann-Scheffe)Sea X1,X2, . . . ,Xn una m.a. de fX(x|θ) si

1. S(X) es una estadıstica suficiente para θ y completa.

2. Sea T ∗(X) = T ∗(S(X)) otra estadıstica que es funcion de S(X) y tal que E(T ∗(X)) = τ(θ)

⇒ T ∗(X) es un UMVUE para τ(θ) y es unico

Ejemplo:(Importante) Sea X1,X2, . . . ,Xn una m.a. de fX(x|θ) =1

θ1(0,θ)(x) con θ > 0. Vamos a encontrar un

UMVUE para τ(θ) = θ.

El dominio de fX(x|θ) depende de θ por lo que no podemos aplicar la cota inferior de Cramer-Rao, entoncesvamos a emplear el Teorema 2.

Utilizando el teorema de factorizacion encontraremos una estadıstica suficiente.

4

Page 5: 6.3. Estimadores Insesgados de Varianza … · alcanza la CICR, entonces si logramos obtener una factorizacio´n como la que muestra 6.3 para nuestro τ(θ) de

6.3. ESTIMADORES INSESGADOS DE

VARIANZA UNIFORMEMENTE MINIMA Carlos Erwin Rodrıguez

L(θ|x) =n∏

i=1

fXi(xi|θ) =

n∏

i=1

1

θ1(0,θ)(xi) (6.5)

=1

θn

n∏

i=1

1(0,θ)(xi) (6.6)

=1

θn1(0,θ)(x(n))

︸ ︷︷ ︸

g(x(n)|θ)

1(0,x(n))(x(1))︸ ︷︷ ︸

h(x1,x2,...,xn)

(6.7)

Entonces ya tenemos g(x(n)|θ) y h(x1, x2, . . . , xn) de donde, por el teorema de factorizacion, la estadıstica sufi-ciente para θ es S(X) = X(n). Ahora la pregunta es ¿como llegamos de 6.6 a 6.7?

Estamos obteniendo una m.a. de una distribucion uniforme continua (0, θ) pensemos que n > 1

⇒ xi ∈ (0, θ) ∀ i = 1, 2, . . . , n

⇔ 0 < x(1) < x(n) y 0 < x(n) < θ

En donde x(1) y x(n) son la observacion mas chica y mas grande respectivamente de la muestra observada.

Ahora necesitamos saber si S(X) = X(n) es una estadıstica completa. Para esto necesitamos conocer la fdp deX(n), que viene dada por

fX(n)(x) = nFX(x)n−1fX(x) = n

(x

θ

)n−1(

1

θ1(0,θ)(x)

)

Entonces si

E(g(X(n))) = 0 (6.8)

∫ θ

0

g(x)nxn−1

(1

θ

)n

dx = 0 (6.9)

∫ θ

0

g(x)xn−1dx = 0 (6.10)

⇔∂

∂θ

∫ θ

0

g(x)xn−1dx =∂

∂θ0 = 0 (6.11)

⇔ g(θ)θn−1 = 0 ∀ θ > 0 (6.12)

En 6.9 simplemente ocupamos la formula para el calculo de la esperanza de g(X(n)) e igualamos a cero, puesqueremos saber si X(n) es una estadıstica completa. Como tenemos una expresion igualada a cero y la integral

es respecto a x, entonces(

)ny n salen de la integral y despejamos, esto es lo que sucede de 6.9 a 6.10. De

6.11 a 6.12 derivamos con respecto a θ de los dos lados de la igualdad, y ocupamos el Teorema Fundamentaldel Calculo. Todos los pasos han sido validos y llegamos a que g(θ)θn−1 = 0 ∀ θ > 0, pero esto sucede si y solosi g(θ) = 0 ∀ θ > 0, de donde obtenemos que P (g(X(n)) = 0) = 1 ∀ θ > 0, por lo que X(n) es una estadısticacompleta.

Hemos encontrado que X(n) es una estadıstica suficiente para θ y completa entonces estamos a un paso deencontrar el UMVUE de τ(θ) = θ, solo tenemos que encontrar una funcion de X(n) que sea insesgada paraτ(θ). Esta es la parte mas sencilla, observemos que

E(X(n)) =

∫ θ

0

x

(

nxn−1

(1

θ

)n)

dx

5

Page 6: 6.3. Estimadores Insesgados de Varianza … · alcanza la CICR, entonces si logramos obtener una factorizacio´n como la que muestra 6.3 para nuestro τ(θ) de

6.3. ESTIMADORES INSESGADOS DE

VARIANZA UNIFORMEMENTE MINIMA Carlos Erwin Rodrıguez

=n

θn

∫ θ

0

xndx

=n

n + 1θ

De donde n+1n

X(n) es un estimador insesgado de τ(θ) = θ que es funcion de una estadıstica suficiente para θ ycompleta, entonces por el teorema 2 es un UMVUE para τ(θ) = θ

El ejemplo anterior es clasico para mostrar como se aplica el teorema de Lehmann-Scheffe, un ejercicio extra quevale la pena realizar es calcular V ar(n+1

nX(n)) y encontrar la cota inferior de Cramer-Rao (que por supuesto

sabemos que no es aplicable en este caso) y compararlas.

Observacion: Demostrar que se tiene una estadıstica completa para poder usar el teorema 2 no es nada facil,pero es un paso muy importante como se vera a continuacion.

Supongamos que tenemos una estadıstica T (X) insesgada para τ(θ) y quisieramos saber si es un UMVUE deτ(θ). Bajo ciertas condiciones, de forma muy sencilla, podemos construir un estimador φa(X) insesgado de τ(θ)tal que

V ar(φa(X)) < V ar(T (X))

esto por supuesto acabarıa con nuestras esperanzas de encontrar el UMVUE de τ(θ). Vamos a mostrar comoa partir de T (X) podemos hallar φa(X). Sea T (X) un estimador insesgado de τ(θ) y sea W (X) un estimadortal que E(W (X)) = 0, entonces hagamos

φa(X) = T (X) − aW (X) con a ∈ R (6.13)

De la construccion anterior es inmediato que E(φa(X)) = τ(θ) y

V ar(φa(X)) = V ar(T (X)) + a2V ar(W (X)) + 2aCov(T (X),W (X)) (6.14)

Para ciertos valores de τ(θ) y la eleccion indicada de a, podemos hacer que

a2V ar(W (X)) + 2aCov(T (X),W (X)) < 0

entonces de 6.14 se tiene que

V ar(φa(X)) < V ar(T (X))

Esta posibilidad para cada estimador T (X) insesgado de τ(θ) acabarıa con nuestras esperanzas de encontrarun UMVUE, la forma de evitar este problema es pedir que la estadıstica T (X) sea completa. Vamos a vercomo funciona la completes, supongamos que T (X) es una estadıstica completa, entonces por definicion, paracualquier funcion g tal que se cumpla E(g(T (X))) = 0 va a implicar que con probabilidad uno g(T (X)) = 0 paracualquier valor de θ. Si observamos detenidamente 6.13 nos daremos cuenta que el estadıstico W (X) tal queE(W (X)) = 0 necesariamente tiene que ser funcion de T (X), pero como T (X) es completa entonces W (X) = 0con probabilidad uno para cualquier valor de θ, de donde en 6.14, Cov(T (X), 0) = 0. En resumen si la estadısticaes completa, la posibilidad de que el problema anterior sucede es eliminada y por lo tanto estaremos un pasomas cerca de encontrar el UMVUE para τ(θ).

6