M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 ·...

51
etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos basado en B. Efron, R. Tibshirani (1993). An Introduction to the bootstrap. O. Kirchkamp (2017). Resampling methods. Curso 2018/19 1/51

Transcript of M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 ·...

Page 1: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

Metodos de RemuestreoTema 6. Intervalos de confianza basados en

remuestreos

basado enB. Efron, R. Tibshirani (1993). An Introduction to the bootstrap.

O. Kirchkamp (2017). Resampling methods.

Curso 2018/19

1/51

Page 2: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

Introduccion

I Los errores estandar se usan a menudo para calcular intervalos deconfianza aproximados para los parametros que se estudian.

I Dado un estimador θ y un error estandar se, el intervalo deconfianza al 95 % habitual es

θ ± 1,96 · se

donde z0,025 = 1,96 procede de una distribucion normal estandar.

I En el campo de los intervalos de confianza existen diferentes tecnicasbootstrap y es un area de desarrollo teorico en evolucion constante.

2/51

Page 3: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

Introduccion

I Supongamos que los datos x = (x1, x2, . . . , xn) proceden de unadistribucion desconocida F .

I Si el tamano muestral n es grande la distribucion de θ converge auna normal de media θ y varianza se2, es decir

θ − θse ∼ N(0, 1)

I De este modo, se obtiene un intervalo de confianza estandar conprobabilidad de recubrimiento igual a 1− α[

θ + z1− α2

se; θ + z α2

se]

3/51

Page 4: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

Introduccion

I La propiedad de recubrimiento implica que aproximadamente en el(1− α) · 100 % de las ocasiones este intervalo contiene el verdaderovalor de θ.

I El bootstrap se puede usar para mejorar los intervalos de confianza;de hecho, cuando n es muy grande los intervalos bootstrap y losaproximados convergen a los mismos valores.

I Se puede calcular el estimador plug-in θ = t(F ) del estadıstico deinteres θ = t(F ) tambien, a su vez, un error estandar se basado enun metodo bootstrap o en un jackknife.

4/51

Page 5: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

Ejemplo

I Ejemplo: Datos sobre la fiabilidad de aparatos de aire acondicionado(tiempos de fallo).

I Los datos no parecen distribuirse como una normal.

data(aircondit , package ="boot")

plot(ecdf( aircondit $ hours ),main="",xlab=" tiempos entre fallos ")

qqnorm ( aircondit $ hours )qqline ( aircondit $hours , col="blue")

5/51

Page 6: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

6/51

Page 7: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

7/51

Page 8: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

Ejemplo

I Se podrıa usar un enfoque exacto para los intervalos de confianza:

1. Funciona incluso con muestras pequenas.

2. Pero requiere el conocimiento de la verdadera distribucion.

3. Para aplicarse a veces hay que hacer transformaciones de los datos.

I En el caso del ejemplo de aires acondicionados, si el numero de fallossigue una distribucion de Poisson, entonces los tiempos entre fallossiguen una distribucion exponencial.

8/51

Page 9: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

Ejemplo

I Supongamos que la funcion de densidad es

f (x ;λ) ={

λe−λx x ≥ 00 x < 0

I Para estimar λ se puede usar el estimador de maxima verosimilitud(MLE):

λ = n∑i xi

= 1x

9/51

Page 10: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

Ejemplo

I En este caso,

n = length ( aircondit $ hours )lambda = length ( aircondit $ hours )/sum( aircondit $ hours )

plot(ecdf( aircondit $ hours ),main="",xlab=" tiempos entre fallos ")with(list(x=seq (0 ,500 ,10)) ,lines (1- exp(- lambda *x) ∼ x,lty=" dotted "))

10/51

Page 11: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

11/51

Page 12: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

EjemploI Al asumir una distribucion exponencial, se puede calcular el intervalo

de confianza exacto para el parametro (o para la media). Ver:

en.wikipedia.org /wiki/ Exponential _ distribution

IC 1λ

=[

x · 2nχ2

2n,1− α2

; x · 2nχ2

2n,α2

]I De este modo

n = length ( aircondit $ hours )media = sum( aircondit $ hours )/ length ( aircondit $ hours )alfa = 0.05

sapply (c(1- alfa/2, alfa/2),function (alfa) (2*n* media )/ qchisq (alfa ,2*n))

[1] 65 .89765 209 .17415

12/51

Page 13: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

Aproximacion a la normal

I La aproximacion a la normal se puede hacer cuando la muestra esgrande.

I Ası, la media muestral se distribuye asintoticamente como unanormal aplicando el TCL (teorema Central del Lımite).

I Aproximacion normal basada en estimadores parametricos de σ:

confint (lm( hours ∼ 1, data= aircondit ))

2.5 % 97 .5 %( Intercept ) 21 .52561 194 .6411

13/51

Page 14: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

Aproximacion a la normal

I Aproximacion normal basada en estimadores bootstrap de µ y σ.

mediasdboot = with(aircondit , replicate (5000 ,{guy = sample (hours , replace =TRUE );c( media =mean(guy), sdev=sd(guy ))}))

mean( mediasdboot [" media " ,]) +c(1 , -1)* qnorm (alfa/2)*sd( mediasdboot [" media " ,])

[1] 34 .83928 182 .09636

I Comprobamos el ajuste de la distribucion de la media a la normal.Tampoco funciona bien.

qqnorm ( mediasdboot )qqline ( mediasdboot )

14/51

Page 15: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

15/51

Page 16: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

Intervalos t de StudentI Una manera de mejorar los intervalos asintoticos, cuando las

muestras son pequenas, es usar intervalos t de Student.

I En 1908 Gosset (the Student) calculo la distribucion de:

t = θ − θse ∼ tn−1

donde tn−1 es una distribucion t de Student.

I Mediante esta aproximacion el intervalo queda como[θ − tn−1,1− α

2se; θ + tn−1,α

2se]

I Pero no tiene en cuenta el ajuste necesario de los intervalos deconfianza cuando aparece asimetrıa.

I Se puede mejorar esta aproximacion mediante los intervalosbootstrap t.

16/51

Page 17: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

Intervalos bootstrap t

I Usando el bootstrap se pueden obtener intervalos ajustados sinnecesidad de asumir normalidad en los datos.

I Los intervalos que se construyen reciben el nombre de aproximacionbootstrap-t.

I En este metodo se calcula una tabla de cuantiles de t directamentea partir de los datos que se tienen.

I Esta tabla se usa entonces para construir intervalos de confianza dela misma manera que en el caso de los intervalos clasicos.

I La tabla de valores remuestreados se construye generando Bmuestras bootstrap y luego calculando la version bootstrap delestadıstico t para cada uno de ellos.

17/51

Page 18: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

Intervalos bootstrap t

I El metodo consiste en generar B muestras bootstrapx∗1, x∗2, . . . , x∗B . A continuacion, para cada una de ellas se calcula

Z ∗(b) = θ∗(b)− θse∗(b)

I donde θ∗(b) = s(x∗b) es el valor de θ para la muestra bootstrap x∗b

y se∗(b) es el valor estimado del error estandar de θ∗ para lamuestra bootstrap x∗b.

I El α-esimo percentil de Z ∗(b) se estima mediante el valor tα tal que

#{

Z ∗(b) ≤ tα}

B = α

18/51

Page 19: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

Intervalos bootstrap t

I Por ejemplo, si B = 1000 el estimador del punto 5 % es el 50-esimovalor mayor de los Z ∗(b) ordenados y el estimador del punto 95 % esel 950-esimo valor mayor de los Z ∗(b) ordenados.

I De este modo, el estimador bootstrap-t que queda es[θ − t1−α · se; θ − tα · se

]I Es necesario considerar un numero de replicas B mayor que en el

caso del calculo de los errores estandar bootstrap.

I Por otro lado, los percentiles bootstrap-t pueden diferir bastante delos percentiles t de Student habituales.

19/51

Page 20: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

Ejemplo

I En el ejemplo del aire acondicionado:

N = dim( aircondit )[1]

thetaHat = mean( aircondit [[" hours "]])bT = ( mediasdboot ["mean" ,]- thetaHat )/

( mediasdboot ["sd" ,]/sqrt(N))

library ( latticeExtra )

ecdfplot (bT ,xlim=c(-3,3), xlab="t",key= simpleKey (c("bootstrap -t",expression (t[11])) ,points =FALSE , lines =FALSE , columns =2))+layer ( panel.curve (pt(x,N -1) , col=’red ’,lty =2, lwd =3))

20/51

Page 21: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

21/51

Page 22: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

EjemploI Se puede observar que se necesitan extraer muchas muestras

bootstrap para obtener unos resultados ajustados.

I Si comparamos ahora los cuantiles de la distribucion original t deStudent con los cuantiles bootstrap se obtienen resultados muydiferentes.

alfa = 0.05( extremos = quantile (bT , c(1- alfa/2, alfa/2)))

2.5 % 97.5 %-2 .869611 3 .610294

( t.standard = qt(c(1- alfa/2, alfa/2),N -1))

[1] 2 .200985 -2 .200985

22/51

Page 23: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

Ejemplo

# Intervalo bootstrap -tmean( mediasdboot [" media " ,]) -extremos *sd( mediasdboot [" media " ,])

97.5 % 2.5 %50 .44279 285 .69572

# Intervalo t Student originalmean( mediasdboot [" media " ,]) -t.standard *sd( mediasdboot [" media " ,])

[1] 25 .58384 190 .23446

23/51

Page 24: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

Ejemplo

I Si se usa la librerıa bootstrap:

# Con la libreria bootstraplibrary ( bootstrap )

lamedia = function (x){ mean(x)}resulta = boott ( aircondit [[" hours "]], lamedia ,VS=TRUE , perc=c(0 .025 , 0.975 ))

resulta $ confpoints

0.025 0.97562 .41809 258 .1767

24/51

Page 25: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

Caracterısticas de los intervalos bootstrap-t

I Los valores de la t de Student o de la normal son simetricosalrededor del cero. De este modo se obtienen intervalos simetricosalrededor del estimador del parametro θ.

I Por el contrario, los percentiles bootstrap-t pueden ser asimetricoscon respeto al estimador, lo que lleva a obtener intervalos que sonmas largos o cortos a la derecha o la izquierda.

I Esta asimetrıa representa una mejora en el recubrimiento que tienenestos intervalos.

I El procedimiento bootstrap-t es una buena opcion particularmenteen estadısticos de localizacion como la media muestral, la mediana olos percentiles muestrales.

25/51

Page 26: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

Desventajas de los intervalos bootstrap-t

I Pero hay problemas computacionales y de interpretacion en losintervalos bootstrap-t.

I En el denominador del estadıstico Z ∗(b) se necesita conocer se∗(b),es decir, la desviacion estandar de θ∗ para cada muestra bootstrapx∗b.

I En el caso de la media, existe una expresion explıcita para calcularlo,pero para muchos estadısticos no se tiene una expresion formal paraello.

I La unica opcion serıa calcular un estimador bootstrap del errorestandar para cada muestra bootstrap lo cual no es muy operativo.

26/51

Page 27: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

Desventajas de los intervalos bootstrap-t

I Otro problema que se presenta en los intervalos bootstrap-t es quese puede comportar de manera erratica con muestras pequenas.

I Tambien los intervalos bootstrap-t no son invariantes cuando seaplican transformaciones al parametro original que se estima.

I A veces, interesa transformar los datos para encontrar mejoresestimadores de θ. Por ejemplo, cambiando la escala de lasobservaciones.

I Pero a menudo no se sabe cual es la mejor transformacion paraaplicar a los datos.

27/51

Page 28: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

Intervalos basicos

I Otra opcion para intervalos bootstrap, son los intervalos basicos

I Si se asume que θ − θ tiene la misma distribucion que θ∗ − θ,entonces, el intervalo basico se define como

ICbas =[2θ − θ∗

1− α2

; 2θ − θ∗α2

]I Propiedades de los intervalos basicos:

1. No son invariantes mediante transformaciones.

2. Corrigen el sesgo siempre que θ − θ tenga la misma distribucion queθ∗ − θ.

28/51

Page 29: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

Intervalos tipo percentil

I Se pueden considerar otro tipo de intervalos basados en lospercentiles.

I Supongamos que se obtiene una muestra x∗ a partir de P → x∗ y secalculan luego los estadısticos θ∗ = s(x∗).

I Si se denomina G la funcion de distribucion acumulada de θ∗,entonces, el intervalo percentil de nivel 1− α se define como lospercentiles α

2 y 1− α2 de G :[

θ%low ; θ%up

]=[G−1

(α2

); G−1

(1− α

2

)]

29/51

Page 30: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

Intervalos tipo percentil

I Como por definicion G−1(α) = θ∗(α) se puede reescribir tambien el

intervalo como [θ%low ; θ%up

]=[θ∗

( α2 ); θ∗

(1− α2 )

]I La expresion anterior se refiere a una situacion ideal donde hay

infinitas replicas bootstrap. En la practica se toma un numero finitoB de ellas.

I Se generan B conjuntos de datos bootstrap independientesx∗1, x∗2, . . . , x∗B y se calculan los respectivos estimadoresθ∗(b) = s(x∗b), donde b = 1, . . . ,B.

30/51

Page 31: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

Intervalos tipo percentil

I Se denomina como θ∗B(α) el precentil α-esimo de los valores θ∗(b), es

decir, el B ·α-esimo valor en la lista ordenada de las B replicas de θ∗.

I Por ejemplo, si B = 2000 y α = 0,05 entonces θ∗B(α) es el valor

100-esimo en la lista ordenada de replicas.

I Del mismo modo, se razonarıa con θ∗B(1−α), el precentil 1− α-esimo

de los valores.

31/51

Page 32: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

Intervalos tipo percentilI De este modo, el intervalo percentil 1− α se define como[

θ%low ; θ%up

]≈[θ∗

B( α2 ); θ∗

B(1− α2 )

]I Si la distribucion de θ∗ es aproximadamente normal, entonces los

intervalos precentil y normal estandar coinciden.data(aircondit , package ="boot")

alfa = 0.05meansdboot = with(aircondit , replicate (5000 ,c(mean=mean( sample (hours , replace =TRUE )),sd=sd( sample (hours , replace =TRUE )))))

quantile ( meansdboot ["mean" ,], c(alfa/2, 1-alfa/2))

2.5 % 97.5 %48 .6625 190 .7583

32/51

Page 33: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

Intervalos tipo percentil

I Para mejorar los intervalos de confianza es necesario realizar a vecestransformaciones distintas a la clasica del logaritmo.

I El metodo del percentil permite incorporar de manera automaticadicho tipo de transformaciones.

I El siguiente lema formaliza el hecho de que el metodo del percentilsiempre descubre cual es la transformacion correcta.

33/51

Page 34: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

Intervalos tipo percentil

I Lema del intervalo del percentil:Supongamos que existe una funcion o transformacion m delparametro tal que convierte en normal a la distribucion de θ, es decirφ = m(θ)

φ ∼ N(φ, c2)

con una desviacion estandar dada c.

I Entonces el intervalo del percentil basado en θ se obtiene como latransformacion inversa[

m−1(φ− z1−α · c

); m−1

(φ− zα · c

)]

34/51

Page 35: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

Intervalos tipo percentil

I Supongamos un ejemplo donde se genera una muestra de tamano 10de una distribucion normal estandar.

I El parametro de interes que se trata de estimar es θ = eµ donde µes la media poblacional.

I El verdadero valor de θ es e0 = 1 y el estimador muestral es θ = ex .

I Si se generan muestras bootstrap θ∗ se obtiene una distribucionbastante asimetrica y los intervalos percentil al 95 % resultan ser[

θ%low ; θ%up

]= [0,75; 2,07]

I Si se calculan los intervalos estandar normales basados en un errorestandar se = 0,34, se obtiene 1,25± 1,96 · 0,34 = [0,59; 1,92] queson muy diferentes a los anteriores.

35/51

Page 36: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

Intervalos tipo percentil

I Sin embargo esta aproximacion no es muy buena dado que ladistribucion del estadıstico no es normal.

I Si se toma la transformacion logaritmo sobre los datos y se considerael parametro µ = log(θ) entonces se obtiene un intervalo estandarnormal igual a [−0,28; 0,73]

I La distribucion de los datos transformados es mas simetrica y elintervalo estandar normal es mas ajustado.

I Si se toma el antilogaritmo de los extremos de este intervalo, seobtiene [0,76; 2,08] que es casi identico al obtenido mediante elpercentil bootstrap.

I Es decir, el intervalo percentil encuentra de manera automatica latransformacion adecuada para los datos.

36/51

Page 37: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

Intervalo de sesgo-corregido y acelerado BCa

I Los intervalos bootstrap-t y el percentil pueden conducir aestimaciones del intervalo de confianza algo erraticas, especialmenteel intervalo percentil cuando el estimador es sesgado respecto alparametro cuyo intervalo de confianza queremos aproximar.

I Se puede considerar una version mejorada del intervalo percentilllamada BCa, abreviatura que procede de sesgo-corregido(bias-corrected) y acelerado (accelerated).

I En la determination del intervalo BCa utilizaremos dos cantidades,z0 y a.

I La primera, z0, se introduce para corregir el sesgo del estimador θ.

37/51

Page 38: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

Intervalo de sesgo-corregido y acelerado BCa

I z0 se define como

z0 = Φ−1

#{θ∗(b) < θ

}B

I Representa el sesgo mediano de la estimation dada por las B replicas

bootstrap del estimador.

I Es decir, la discrepancia entre la mediana de dicha distribution defrecuencias y θ, en unidades normales.

I Obtenemos el valor z0 = 0, cuando exactamente la mitad de lasobservaciones son menores que θ.

38/51

Page 39: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

Intervalo de sesgo-corregido y acelerado BCa

I La segunda cantidad, a, denominada aceleracion, corrige para elcaso en que el error estandar se(θ) no sea constante, y se define enterminos de los valores jackknife, como

a =

∑ni=1

(θ(·) − θ(i)

)3

6[∑n

i=1

(θ(·) − θ(i)

)2]3/2

I donde θ(i) es la i-esima replica jackknife del estimador tal que

θ(i) = s(x(i))

θ(·) = 1n

n∑i=1

θ(i)

39/51

Page 40: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

Intervalo de sesgo-corregido y acelerado BCa

I El intervalo de sesgo-corregido y acelerado (intervalo BCa) decoeficiente de confianza 1− α se define igual que el intervalopercentil con unos valores particulares α1 y α2[

θ∗α1

; θ∗α2

]I tal que

α1 = Φ(

z0 +z0 + z1− α

2

1− a(z0 + z1− α

2

))

α2 = Φ(

z0 +z0 + z α

2

1− a(z0 + z α

2

))I siendo z α

2y z1− α

2los cuantiles habituales de la normal estandar y Φ

la funcion de distribucion de una normal estandar.

40/51

Page 41: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

Intervalo de sesgo-corregido y acelerado BCa

I Se puede observar que si z0 = a = 0 queda

α1 = Φ(z1− α

2

)= α

2α2 = Φ

(z α

2

)= 1− α

2

de forma que el intervalo BCa coincide con el intervalo percentil.

I El valor de z0 translada el intervalo a la derecha o la izquierda y ahace que el intervalo sea mas ancho o mas estrecho.

I En las aplicaciones de este intervalo se recomienda utilizar, al menosB = 1000 muestras bootstrap.

I Al igual que el intervalo percentil, el BCa tambien adivina lastransformaciones del parametro.

41/51

Page 42: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

Intervalo BCa con R

boot.BCa =function (x, th0 , th , stat , conf =0 .95) {

# bootstrap con intervalos de confianza BCa# th0 es el estadistico observado# th es el vector de replicas bootstrap# stat es la funcion que calcula el estadistico

x = as.matrix (x)n = nrow(x) # observaciones en filasN = 1:nalfa = (1 + c(-conf , conf ))/2zalfa = qnorm (alfa)

# Factor de correccion del sesgoz0 = qnorm (sum(th < th0) / length (th ))

42/51

Page 43: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

Intervalo BCa con R

# factor de aceleracion (est. jackknife )th.jack = numeric (n)for (i in 1:n) {

J = N[1:(n -1)]th.jack [i] = stat(x[-i, ], J)

}L = mean( th.jack ) - th.jacka = sum(Lˆ3)/(6 * sum(L ˆ2)ˆ1 .5)

# limites confianza BCaadj.alfa = pnorm (z0 + (z0+ zalfa )/(1-a*(z0+ zalfa )))limits = quantile (th , adj.alfa , type =6)return (list("est"=th0 , "BCa"= limits ))}

43/51

Page 44: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

Intervalo BCa con R

data(patch , package =" bootstrap ")n = nrow( patch )B = 2000x = cbind ( patch $y, patch $z)theta.b = numeric (B)theta.hat = mean( patch $y) / mean( patch $z)

for (b in 1:B) {i = sample (1:n, size=n, replace =TRUE)y = patch $y[i]z = patch $z[i]theta.b [b] = mean(y)/mean(z)

}

estadis = function (dat , index ) {mean(dat[index , 1])/mean(dat[index , 2])}

44/51

Page 45: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

Intervalo BCa con R

I Se obtiene como resultado

boot.BCa (x, th0=theta.hat , th=theta.b , stat= estadis )

$est[1] -0 .0713061

$BCa3.671113 % 98 .40853 %

-0 .2183023 0 .1910999

45/51

Page 46: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

Ejemplos de intervalo BCaI Con la librerıa bootstrap:

library ( bootstrap )

xdata = matrix ( rnorm (30) , ncol =2)n = 15

theta = function (ind , xdata ){cor( xdata [ind , 1], xdata [ind , 2])}

bcanon (1:n, 100 , theta , xdata ,alpha =c(0 .025 , 0.975 ))$ confpoints

alpha bca point[1 ,] 0.025 -0 .5110059[2 ,] 0.975 0 .5230146

46/51

Page 47: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

Ejemplos de intervalo BCa

I Con la librerıa boot:

x = c(10 , 27, 30, 40, 46, 51, 52, 104 , 146)

library (boot)

mean.boot = function (x,ind ){return (c(mean(x[ind ]), var(x[ind ])/ length (ind )))}

eso = boot(x, mean.boot , 1000)

47/51

Page 48: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

Ejemplos de intervalo BCa

I Se obtienen como resultados

boot.ci (eso , index =1)

BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONSBased on 1000 bootstrap replicates

CALL :boot.ci ( boot.out = eso , index = 1)

Intervals :Level Normal Basic95 % (31 .70 , 81 .81 ) (28 .67 , 78 .66 )

Level Percentile BCa95 % (33 .78 , 83 .78 ) (37 .67 , 92 .03 )

48/51

Page 49: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

Ejemplos de intervalo BCa

boot.ci (eso , index =2)

BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONSBased on 1000 bootstrap replicates

CALL :boot.ci ( boot.out = eso , index = 2)

Intervals :Level Normal Basic95 % ( 46.0 , 405 .5 ) ( 43.9 , 384 .1 )

Level Percentile BCa95 % ( 16.8 , 357 .1 ) ( 71.5 , 434 .2 )

49/51

Page 50: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

Ejemplos de intervalo BCaI Con la librerıa boot y regresion:

d = data.frame (x=1:20 , y= runif (20))m1 = lm(y∼x, data=d)

lmcoef = function (data , i){d = data[i, ]d.reg = lm(y∼x, d)c(coef( d.reg )) }

m1

Call:lm( formula = y ∼ x, data = d)

Coefficients :( Intercept ) x

0 .566358 -0 .009771

50/51

Page 51: M´etodos de Remuestreohalweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Boots/... · 2018-11-22 · M´etodos de Remuestreo Tema 6. Intervalos de confianza basados en remuestreos

Ejemplos de intervalo BCa

I Se obtiene como resultado

lmboot = boot(d, lmcoef , R =1000)boot.ci (lmboot , index =2)

BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONSBased on 1000 bootstrap replicates

CALL :boot.ci ( boot.out = lmboot , index = 2)

Intervals :Level Normal Basic95 % (-0.0267 , 0 .0053 ) (-0.0270 , 0 .0048 )

Level Percentile BCa95 % (-0.0243 , 0 .0075 ) (-0.0259 , 0 .0046 )

51/51