ESTIMA‡ƒO INTERVALAR VIA .© uma estimativa de uma quantidade pertinente a uma...

download ESTIMA‡ƒO INTERVALAR VIA .© uma estimativa de uma quantidade pertinente a uma popula§£o, mas

of 35

  • date post

    12-Dec-2018
  • Category

    Documents

  • view

    212
  • download

    0

Embed Size (px)

Transcript of ESTIMA‡ƒO INTERVALAR VIA .© uma estimativa de uma quantidade pertinente a uma...

Rev. Mat. Estat., So Paulo, 19: 217-251, 2001 217

ESTIMAO INTERVALAR VIA BOOTSTRAP

Edson Zangiacomi MARTINEZ1 Francisco LOUZADA-NETO2

RESUMO: Em inferncia estatstica, tem-se interesse na quantificao do

erro cometido ao se estimar um parmetro de interesse atravs de . Uma estratgia usual para a busca de medidas de incerteza, que expressem este

erro, a estimao do erro padro de . Entretanto, mtodos analticos para a obteno destas medidas nem sempre so disponveis, ou constituem processos altamente complexos, enquanto mtodos assintticos, nos quais a construo de intervalos de confiana baseada, dependem de aproximaes nem sempre alcanadas. Neste contexto, o mtodo bootstrap constitui uma

eficiente alternativa, fornecendo estimativas do erro padro de livres de complexidades algbricas e possibilitando a obteno de intervalos de con-fiana sem a necessidade de pressupostos sobre a distribuio do estimador. Neste artigo, apresentamos de forma concisa a obteno do erro padro de

atravs do mtodo bootstrap, bem como uma discusso dos diferentes tipos de intervalos de confiana bootstrap descritos na literatura. Uma aplicao em dados de um estudo real em oncologia ilustra a utilizao do mtodo.

PALAVRAS-CHAVE: Bootstrap, Erro Padro, Intervalos de Confiana, Tcnicas de Simulao

1 Centro de Ateno Integral Sade da Mulher, CAISM/UNICAMP, CEP 13083-970,

Campinas SP. 2 Departamento de Estatstica, Universidade Federal de So Carlos, Caixa Postal 676,

CEP 13565-905, So Carlos SP.

218 Rev. Mat. Estat., So Paulo, 19: 217-251, 2001

1 Introduo

Neste artigo, o bootstrap e os diferentes tipos de intervalos de

confiana construdos atravs deste mtodo, descritos pela literatura, so apresentados de forma concisa.

Uma breve reviso sobre estimao intervalar e motivaes para a utilizao de mtodos de simulao para a obteno do erro padro so apresentadas na Seo 2. O estimador bootstrap do erro padro descrito na Seo 3, enquanto a Seo 4 descreve uma outra ferramenta empregada para estimar esta medida, o mtodo jackknife. Comparaes entre estes mtodos so consideradas na Seo 5. Diferentes tipos de intervalos de confiana bootstrap so apresentados na Seo 6. Na Seo 7, a metodologia ilustrada atravs de uma aplicao em dados de um estudo real em oncologia. O artigo finalizado com alguns comentrios, na Seo 8.

2 Uma breve reviso sobre estimao intervalar

Ao usurio de um processo de inferncia estatstica, uma simples

estimativa pontual de um parmetro de seu interesse pode no ser suficiente para fornecer evidncias que, de fato, auxiliem em suas dedues. So necessrias tambm medidas da preciso desta estima-tiva, que possibilitem ao pesquisador, frente aos enunciados conjeturais de seu estudo, tecer concluses baseadas em suas observaes. As medidas de preciso aqui descritas so o erro padro e intervalos de confiana.

O erro padro tem sua definio no desvio padro de uma esta-tstica, e, conseqentemente, traduz-se em uma medida da incerteza da estimao baseada nesta estatstica. Intervalos de confiana tambm fornecem uma avaliao do erro que se comete na estimao pontual, sob um outro ponto de vista. De posse de uma amostra aleatria x = (x1, x2, ..., xn) composta por n observaes, de uma distribuio F, tais intervalos so escritos na forma

( LI (x) ; LS (x) ) (1)

onde LI (x) e LS (x) so chamados, respectivamente, limites inferior e superior do intervalo. Sendo X uma varivel aleatria e x uma obser-

Rev. Mat. Estat., So Paulo, 19: 217-251, 2001 219

vao amostral de X, a interpretao de (1) torna-se clara na com-preenso da expresso

PF [LI (X) LS (X) ] = 1 , 0 1, (2)

ou seja, dentre um grande nmero de possveis realizaes de um experimento que objetiva gerar uma estimativa de , todas consi-derando amostras de tamanho n, de cada 100, 100(1) produziro intervalos de confiana que vo conter , o verdadeiro valor do par-metro.

Ao usurio de inferncia estatstica, compete o entendimento de que a amostra obtida em seu experimento apenas uma dentre vrias ou infinitas possibilidades. A estimativa de obtida em sua amostra, poderia ser diferente em alguma outra amostra obtida da mesma populao, atravs do mesmo processo de amostragem. Realizado o experimento uma nica vez, o pesquisador tem em mos apenas uma destas possveis estimativas , e da, naturalmente, surge a indagao: Qual a confiana que podemos depositar nesta estimativa? A quanti-dade 1 dita coeficiente de confiana, e auxilia o pesquisador a responder a esta questo. O lado esquerdo de (2) chamado de pro-babilidade de cobertura, onde 0 1.

Geralmente, intervalos de confiana so construdos com reas iguais sob as caudas, ou seja, satisfazendo a

PF [ LI (X)] = 2

e PF [ LS (X)] = 2

. (3) Verifica-se que (3) implica (2), mas nem sempre o contrrio

verdadeiro. Intervalos de confiana como o descrito em (2) so chamados

exatos, quando a probabilidade em questo igual a 1 , e no uma aproximao. Entretanto, nem sempre possvel construir intervalos com esta propriedade. Os intervalos de confiana mais utilizados so os chamados aproximados, que satisfazem a

PF [LI (X) LS (X) ] 1 . (4) A ferramenta essencial para a construo de intervalos como o

descrito em (4) a teoria assinttica. Sua principal limitao o fato do pesquisador necessitar de uma amostra grande o suficiente para garantir a validade das aproximaes em questo, caso contrrio, a eficcia do mtodo est seriamente comprometida.

220 Rev. Mat. Estat., So Paulo, 19: 217-251, 2001

Intervalos de confiana exatos muitas vezes so construdos atra-vs de solues analticas nem sempre simples, enquanto intervalos aproximados, como foi dito, dependem de aproximaes assintticas nem sempre alcanadas. Uma ferramenta alternativa, eficiente no s para a construo de intervalos de confiana mas tambm para esta-belecer erros padro de estimadores de interesse, so os mtodos computacionalmente intensivos. Livre de complexidades analticas, surge neste mbito o bootstrap.

O mtodo bootstrap foi proposto por Efron (1979), como uma ferramenta para estimar o erro padro da estimativa de um parmetro. Se comparado a outras tcnicas estatsticas, o mtodo teve uma gnese um tanto tardia, devido sua dependncia do uso de computadores. Os progressos da informtica experimentados nas ltimas dcadas do s-culo XX possibilitaram a popularizao do uso do computador e incre-mentaram o surgimento e acesso a softwares matemticos e estatsticos. Conseqentemente, as aplicaes de mtodos bootstrap nas mais diferentes reas da estatstica se intensificaram.

3 O estimador bootstrap do erro padro

Seja uma amostra aleatria baseada em n observaes

independentes x1 , x2, ..., xn. O erro padro de uma mdia x baseada nesta amostra estimado pela expresso,

ns

)x(ep2

=

, (5)

onde

( )1

1

22

= =n

xxs

n

i i (6)

o estimador no viciado da varincia. Nota-se que o erro padro no uma estimativa de uma quantidade pertinente a uma populao, mas uma medida da incerteza da mdia amostral vista como uma estimativa da mdia populacional (Altman, 1991, p.160). A expresso (5) deixa claro que a magnitude desta incerteza diminui conforme o tamanho da amostra, n, aumenta.

Rev. Mat. Estat., So Paulo, 19: 217-251, 2001 221

Vamos agora generalizar este conceito. Seja X uma varivel aleatria com distribuio F, sendo sua esperana denotada por F e sua varincia denotada por 2F. Usaremos a notao X ~ (F, 2F) e escreveremos nF (x1 , x2, ..., xn) para indicar que x = (x1 , x2, ..., xn) uma amostra aleatria de tamanho n obtida de uma populao com funo de probabilidade F. A mdia X tambm uma varivel aleatria e tem esperana F e varincia 2F / n, ou seja, X ~ (F,2F / n) . Nota-se ento que X e X tm a mesma esperana, entretanto, a varincia de X n-1 vezes a varincia de X. Define-se ento o erro padro de x como a raiz quadrada da varincia de X , ou seja,

n)X(var)x(ep FFF

== . (7)

A expresso (5) fornece um estimador para (7). Entretanto, nem

todos os estimadores tm expresses de fcil manejo para seu res-pectivo erro padro, como (5). Isto significa que o trabalho de encon-trar medidas de preciso para outros estimadores =s(X), que no a mdia, pode ser algo bastante complicado.

Sob certas condies, o teorema central do limite diz que a dis-tribuio de X aproximadamente normal quando n grande (Leite & Singer, 1990, p.77), ou seja,

( )n;N~X 2FF , (8)

e, conseqentemente,

)1 ; 0(N~n

X

F

F

. (9)

Usando uma tabela da distribuio normal padro, de (9) pode-

mos escrever, por exemplo, a probabilidade

954,0n

2XP FF =

222 Rev. Mat. Estat., So Paulo, 19: 217-251, 2001

Uma vantagem do bootstrap que esta tcnica no depende inteiramente do teorema central do limite, j que, em suas aplicaes, medidas de preciso so obtidas diretamente dos dados (Efron & Tibshirani, 1993, p.40).

Observada uma amostra aleatria de tamanho n, oriunda de uma distribuio F, define-se uma funo distribuio emprica nF como uma distribuio discreta, que atribui probabilidade n1 a cada valor xi , i = 1,...,n. Uma amostra bootstrap x* = (x1* , x2*, ..., xn*) obtida reamostrando aleatoriamente n vezes, com reposio, as observaes x = (x1 , x2, ..., xn), onde verifica-se que nF (x1

* , x2

*, ..., xn*).

Pelo teorema de Glivenko-Cantelli (Rohatgi, 1976, p.300), nF converge uniformemente para F, isto , para qualquer > 0,

0)t(F)t(FsupPlim ntn

=

>

Rev.