Download - Análisis estadístico de datos simulados Estimadores …jgimenez/Modelos_y... · Estimación de parámetros Dada una muestra de n datos observados, se llamaestimador ^ del parámetro

Transcript

Análisis estadístico de datos simuladosEstimadores puntuales

Georgina Flesia

FaMAF

2 de mayo, 2013

Análisis estadístico

Modelización estadística:I Elegir una distribución en base a los datos observados.I Estimar los parámetros de la distribución (EMV).I Pruebas de bondad de ajuste.

Estimación de parámetrosI Estimador puntual.I Varianza del estimador. Var(θ).I Error cuadrático medio del estimador. E [(θ − θ)2].I Estimadores por intervalo e intervalos de confianza.

Estimación de parámetros

Dada una muestra de n datos observados, se llama estimador θ delparámetro θ a cualquier función de los datos observados.Propiedades de un buen estimador puntual

I Insesgabilidad: se dice que el estimador es insesgado siE [θ] = θ.

I Consistencia: si al aumentar la muestra, el estimador seaproxima al parámetro.

I Eficiencia: se calcula comparando su varianza con la de otroestimador.

I Suficiencia: utiliza toda la información obtenida de la muestra.

Media muestral

Dadas n observaciones: X1,X2, . . . ,Xn, con una misma distribución,la media muestral se define por

X (n) =X1 + X2 + · · ·+ Xn

n.

La media muestral se utiliza como un estimador de la media θ, esdecir, de θ = E [Xi ], si la media es finita.Estimador insesgado.

E [X (n)] = E

[n∑

i=1

Xi

n

]=

n∑i=1

E [Xi ]

n=

nθn

= θ.

Media muestral

Dadas n observaciones: X1,X2, . . . ,Xn, con una misma distribucióncon media finita θ,

X (n) =X1 + X2 + · · ·+ Xn

n.

Estimador consistente.

limn→∞

[X (n)] = θ.

por la ley de los grandes números.

Media muestral

Dadas n observaciones: X1,X2, . . . ,Xn, con una misma distribucióncon media finita y varianza finita

X (n) =X1 + X2 + · · ·+ Xn

n.

Z =√

n(X (n)− θ)/σ.

Estimador asintóticamente normal.

limn→∞

[FZ (n)(x)] = Φ(x).

por el teorema central del límite.

Métodos de estimación mas comunes

I Estimador de máxima verosimilitud

I Estimador de momentos

Estimador de máxima verosimilitud

Si la distribución supuesta es discreta para los datos observados, yse desconoce un parámetro θ.Sea pθ(x) la probabilidad de masa para dicha distribución.

Dado que se han observado datos X1,X2, . . . ,Xn, se define la funciónde máxima verosimilitud L(θ) como sigue:

L(θ) = pθ(X1) · pθ(X2) · · · pθ(Xn).

El estimador de máxima verosimilitud es el valor θ que maximiza L(θ):

L(θ) ≥ L(θ), θ valor posible.

Estimador de máxima verosimilitud

Si la distribución supuesta es continua, y fθ(x) es la densidad paradicha distribución.

Dado que se han observado datos X1,X2, . . . ,Xn, se define la funciónde máxima verosimilitud L(θ) como sigue:

L(θ) = fθ(X1) · fθ(X2) · · · fθ(Xn).

El estimador de máxima verosimilitud es el valor θ que maximiza L(θ):

L(θ) ≥ L(θ), θ valor posible.

Estimador de máxima verosimilitud

El estimador de máxima verosimilitud tiene, en general, lassiguientes propiedades:

1. Es único: L(θ) > L(θ) para cualquier otro valor de θ.2. La distribución asintótica de θ tiene media θ.3. Es invariante: φ = h(θ), entonces φ = h(θ).4. La distribución asintótica es la normal.5. Es fuertemente consistente: limn→∞ θ = θ.

Distribución exponencial

EjemploPara la distribución exponencial, θ = 1/λ (λ > 0) y fλ(x) = λe−xλ

para x ≥ 0.

L(λ) =(λe−X1λ

) (λe−X2λ

)· · ·(λe−Xnλ

)= λn exp

(−λ

n∑i=1

Xi

)

Distribución exponencial

ln(L(λ)) = ln(λn exp

(−λ

n∑i=1

Xi

))

= n ln(λ)− λn∑

i=1

Xi

ddλ

ln(L(λ)) =nλ−

n∑i=1

Xi

= 0

λ =1

1n

∑ni=1 Xi

=1

X (n)=

1Media muestral.

θ =1λ

=1n

n∑i=1

Xi = X (n) = Media muestral.

Distribución geométricaEjemploPara la distribución geométrica, θ = p y pp(x) = p(1− p)x−1 parax = 1,2, . . . .

L(p) = p(1− p)X1−1 . . . p(1− p)Xn−1

= pn(1− p)∑n

i=1(Xi−1)

= pn(1− p)∑n

i=1 Xi (1− p)−n

=

(p

1− p

)n

(1− p)∑n

i=1 Xi

ln(L(p)) = n ln(p

1− p) + ln(1− p)

n∑i=1

Xi

= n ln(p)− n ln(1− p) + ln(1− p)n∑

i=1

Xi

Distribución geométrica

ddp

ln(L(p)) =ddp

[n ln(p) + ln(1− p)[n∑

i=1

Xi − n]]

=np− 1

1− p(

n∑i=1

Xi − n) = 0

np

=1

1− p(

n∑i=1

Xi )− n

1− p = p(1n

∑Xi − 1)

1 = p + p(1n

∑Xi )− p

p =

(1n

∑Xi

)−1

Estimadores de máxima verosimilitud:

Distribuciones continuas:I Uniforme: a = min{Xi}, b = max{Xi}.I Exponencial: θ = X (n).I Gamma, Weibull: α y β se resuelven numéricamente.I Normal:

µ = X (n), σ =

[n − 1

nS2(n)

]1/2

=

[1n

n∑i=1

(Xi − X )2

]1/2

.

I Lognormal:

µ =

∑ni=1 log(Xi )

n, σ =

[∑ni=1(log(Xi )− µ)2

n

]1/2

.

Estimadores de máxima verosimilitud

Distribuciones discretas:I Binomial (t ,p): si t es conocido, p = X (n)/t .I Bernoulli: Caso binomial con t = 1 e igual p.I Geométrica: p = 1

X(n).

I Binomial negativa (s,p): número de ensayos hasta el s-ésimoéxito. Si s es conocido: p = s

X(n).

I Poisson: λ = X (n).

Error cuadrático medio

I θ: estimador del parámetro θ de una distribución FI Se define el error cuadrático medio (ECM) de θ con respecto al

parámetro θ como

ECM(θ, θ) = E [(θ − θ)2].

E [(θ − θ)2] = E [(θ − E [θ] + E [θ]− θ)2]

= E [(θ − E [θ])2] + (E [θ]− θ)2

= Var(θ) + (E(θ)− θ)2

I El error cuadrático medio de un estimador es igual a su varianzamás el sesgo al cuadrado.

I Si el estimador es insesgado, su ECM es igual a la varianza.

ECM de la media muestral respecto de la mediaMuestra de X : X1,X2, . . . ,Xn, E [Xi ] = θ

ECM(X (n), θ) = E [(X (n)− θ)2]

= Var(X (n)) =1n2

n∑i=1

Var(Xi ) =σ2

n

La media muestral es un buen estimador de E [X ] si σ/√

n espequeño.

I El ECM depende de la distribución de Xi y del tamaño de lamuestra.

I Teorema central del límite. Si Z ∼ N(0,1) y n es grande:

P

(|X (n)− θ|σ/√

n> c

)≈ P{|Z | > c}.

Varianza muestral

El indicadorσ2

ncomo estimación del error en la media muestral, tiene

el inconveniente que σ es en general desconocida.

Para estimar la varianza se utiliza el estimador

S2(n) =

∑ni=1(Xi − X (n))2

n − 1.

I Estimador insesgado de la varianzaI Fórmula a utilizar:

E[S2(n)

]= Var(X )

n∑i=1

(Xi − X (n))2 =n∑

i=1

X 2i − nX

2(n)

Varianza muestral

E [X 2i ] = Var(Xi ) + (E [Xi ])

2 = σ2 + θ2.

E [X2(n)] =

σ2

n+ θ2.

(n − 1)E [S2(n)] = nE [X 21 ]− nE [X

2(n)] = n(σ2 + θ2)− n(

σ2

n+ θ2)

E [S2(n)] = σ2

Utilizaremos S(n) =√

S2(n) como estimador de la desviaciónestándar.

I Error del estimador X (n): σ2/n.I Simulación de datos: Si el objetivo es estimar la media, para

disminuir el error deben generarse muestras de tamaño n, ngrande.

Media muestral

I Elegir un valor aceptable d para la desviación estándar delestimador.

I Generar (n) datos hasta que σ/√

n < d . (S/√

n < d)I Conviene generar al menos 100 datos para:

I asegurar normalidad de la distribución de X (n).I para disminuir la varianza de S.

I La estimación de θ estará dada por el último valor de X (n).I El algoritmo implica calcular en cada paso X (n) y S(n).I Es posible calcularlo recursivamente.

Media muestral

Cálculo recursivo de X (n) y S2(n)

I X (1) = X1,I S2(1) = 0.

X (j + 1) = X (j) +Xj+1 − X (j)

j + 1

S2(j + 1) =

(1− 1

j

)S2(j) + (j + 1)(X (j + 1)− X (j))2

Estimación de una proporción

El estimador X (n) puede utilizarse también para estimar laproporción de casos en una población.

Xi =

{1 probabilidad p0 probabilidad 1− p.

I X (n) es un estimador insesgado de p.

I E [(X (n)− p)2] = Var(X (n)) =p(1− p)

nI En este caso, se estima la varianza del estimador X (n) por:

X (n)(1− X (n))

n.

Algoritmo: Cálculo de E [X ]

Algorithm 1: Estimación de la media M de X con error d

Generar X , M ← X M = X (1) = X1;S2 ← 0 S2 = S2(1) = 0;for 1 < j ≤ 100 do

Generar X ; A← M;M ← M + (X −M)/j ;S2 ← (1− 1/(j − 1))S2 + j(M − A)2

endj ← 100;while

√S2/j > d do

j ← j + 1;Generar X ;A← M;M ← M + (X −M)/j ;S2 ← (1− 1/(j − 1))S2 + j(M − A)2

endreturn M

Algoritmo: Cálculo de una probabilidad

Algorithm 2: Estimación de la probabilidad p de X con error dGenerar X X es 0 o 1;p ← X ;for 1 < j ≤ 100 do

Generar X ;p ← p + (X − p)/j

endj ← 100;while

√p(1− p)/j > d do

j ← j + 1;Generar X ;p ← p + (X − p)/j ;

endreturn p