ESTIMAÇÃO INTERVALAR VIA BOOTSTRAPjaguar.fcav.unesp.br/RME/fasciculos/v19/A12_Artigo.pdf · é...

of 35 /35
Rev. Mat. Estat., São Paulo, 19: 217-251, 2001 217 ESTIMAÇÃO INTERVALAR VIA BOOTSTRAP Edson Zangiacomi MARTINEZ 1 Francisco LOUZADA-NETO 2 RESUMO: Em inferência estatística, tem-se interesse na quantificação do erro cometido ao se estimar um parâmetro de interesse θ através de ˆ . Uma estratégia usual para a busca de medidas de incerteza, que expressem este erro, é a estimação do erro padrão de ˆ . Entretanto, métodos analíticos para a obtenção destas medidas nem sempre são disponíveis, ou constituem processos altamente complexos, enquanto métodos assintóticos, nos quais a construção de intervalos de confiança é baseada, dependem de aproximações nem sempre alcançadas. Neste contexto, o método bootstrap constitui uma eficiente alternativa, fornecendo estimativas do erro padrão de ˆ livres de complexidades algébricas e possibilitando a obtenção de intervalos de con- fiança sem a necessidade de pressupostos sobre a distribuição do estimador. Neste artigo, apresentamos de forma concisa a obtenção do erro padrão de ˆ através do método bootstrap, bem como uma discussão dos diferentes tipos de intervalos de confiança bootstrap descritos na literatura. Uma aplicação em dados de um estudo real em oncologia ilustra a utilização do método. PALAVRAS-CHAVE: Bootstrap, Erro Padrão, Intervalos de Confiança, Técnicas de Simulação 1 Centro de Atenção Integral à Saúde da Mulher, CAISM/UNICAMP, CEP 13083-970, Campinas – SP. 2 Departamento de Estatística, Universidade Federal de São Carlos, Caixa Postal 676, CEP 13565-905, São Carlos – SP.

Embed Size (px)

Transcript of ESTIMAÇÃO INTERVALAR VIA BOOTSTRAPjaguar.fcav.unesp.br/RME/fasciculos/v19/A12_Artigo.pdf · é...

Rev. Mat. Estat., So Paulo, 19: 217-251, 2001 217

ESTIMAO INTERVALAR VIA BOOTSTRAP

Edson Zangiacomi MARTINEZ1 Francisco LOUZADA-NETO2

RESUMO: Em inferncia estatstica, tem-se interesse na quantificao do

erro cometido ao se estimar um parmetro de interesse atravs de . Uma estratgia usual para a busca de medidas de incerteza, que expressem este

erro, a estimao do erro padro de . Entretanto, mtodos analticos para a obteno destas medidas nem sempre so disponveis, ou constituem processos altamente complexos, enquanto mtodos assintticos, nos quais a construo de intervalos de confiana baseada, dependem de aproximaes nem sempre alcanadas. Neste contexto, o mtodo bootstrap constitui uma

eficiente alternativa, fornecendo estimativas do erro padro de livres de complexidades algbricas e possibilitando a obteno de intervalos de con-fiana sem a necessidade de pressupostos sobre a distribuio do estimador. Neste artigo, apresentamos de forma concisa a obteno do erro padro de

atravs do mtodo bootstrap, bem como uma discusso dos diferentes tipos de intervalos de confiana bootstrap descritos na literatura. Uma aplicao em dados de um estudo real em oncologia ilustra a utilizao do mtodo.

PALAVRAS-CHAVE: Bootstrap, Erro Padro, Intervalos de Confiana, Tcnicas de Simulao

1 Centro de Ateno Integral Sade da Mulher, CAISM/UNICAMP, CEP 13083-970,

Campinas SP. 2 Departamento de Estatstica, Universidade Federal de So Carlos, Caixa Postal 676,

CEP 13565-905, So Carlos SP.

218 Rev. Mat. Estat., So Paulo, 19: 217-251, 2001

1 Introduo

Neste artigo, o bootstrap e os diferentes tipos de intervalos de

confiana construdos atravs deste mtodo, descritos pela literatura, so apresentados de forma concisa.

Uma breve reviso sobre estimao intervalar e motivaes para a utilizao de mtodos de simulao para a obteno do erro padro so apresentadas na Seo 2. O estimador bootstrap do erro padro descrito na Seo 3, enquanto a Seo 4 descreve uma outra ferramenta empregada para estimar esta medida, o mtodo jackknife. Comparaes entre estes mtodos so consideradas na Seo 5. Diferentes tipos de intervalos de confiana bootstrap so apresentados na Seo 6. Na Seo 7, a metodologia ilustrada atravs de uma aplicao em dados de um estudo real em oncologia. O artigo finalizado com alguns comentrios, na Seo 8.

2 Uma breve reviso sobre estimao intervalar

Ao usurio de um processo de inferncia estatstica, uma simples

estimativa pontual de um parmetro de seu interesse pode no ser suficiente para fornecer evidncias que, de fato, auxiliem em suas dedues. So necessrias tambm medidas da preciso desta estima-tiva, que possibilitem ao pesquisador, frente aos enunciados conjeturais de seu estudo, tecer concluses baseadas em suas observaes. As medidas de preciso aqui descritas so o erro padro e intervalos de confiana.

O erro padro tem sua definio no desvio padro de uma esta-tstica, e, conseqentemente, traduz-se em uma medida da incerteza da estimao baseada nesta estatstica. Intervalos de confiana tambm fornecem uma avaliao do erro que se comete na estimao pontual, sob um outro ponto de vista. De posse de uma amostra aleatria x = (x1, x2, ..., xn) composta por n observaes, de uma distribuio F, tais intervalos so escritos na forma

( LI (x) ; LS (x) ) (1)

onde LI (x) e LS (x) so chamados, respectivamente, limites inferior e superior do intervalo. Sendo X uma varivel aleatria e x uma obser-

Rev. Mat. Estat., So Paulo, 19: 217-251, 2001 219

vao amostral de X, a interpretao de (1) torna-se clara na com-preenso da expresso

PF [LI (X) LS (X) ] = 1 , 0 1, (2)

ou seja, dentre um grande nmero de possveis realizaes de um experimento que objetiva gerar uma estimativa de , todas consi-derando amostras de tamanho n, de cada 100, 100(1) produziro intervalos de confiana que vo conter , o verdadeiro valor do par-metro.

Ao usurio de inferncia estatstica, compete o entendimento de que a amostra obtida em seu experimento apenas uma dentre vrias ou infinitas possibilidades. A estimativa de obtida em sua amostra, poderia ser diferente em alguma outra amostra obtida da mesma populao, atravs do mesmo processo de amostragem. Realizado o experimento uma nica vez, o pesquisador tem em mos apenas uma destas possveis estimativas , e da, naturalmente, surge a indagao: Qual a confiana que podemos depositar nesta estimativa? A quanti-dade 1 dita coeficiente de confiana, e auxilia o pesquisador a responder a esta questo. O lado esquerdo de (2) chamado de pro-babilidade de cobertura, onde 0 1.

Geralmente, intervalos de confiana so construdos com reas iguais sob as caudas, ou seja, satisfazendo a

PF [ LI (X)] = 2

e PF [ LS (X)] = 2

. (3) Verifica-se que (3) implica (2), mas nem sempre o contrrio

verdadeiro. Intervalos de confiana como o descrito em (2) so chamados

exatos, quando a probabilidade em questo igual a 1 , e no uma aproximao. Entretanto, nem sempre possvel construir intervalos com esta propriedade. Os intervalos de confiana mais utilizados so os chamados aproximados, que satisfazem a

PF [LI (X) LS (X) ] 1 . (4) A ferramenta essencial para a construo de intervalos como o

descrito em (4) a teoria assinttica. Sua principal limitao o fato do pesquisador necessitar de uma amostra grande o suficiente para garantir a validade das aproximaes em questo, caso contrrio, a eficcia do mtodo est seriamente comprometida.

220 Rev. Mat. Estat., So Paulo, 19: 217-251, 2001

Intervalos de confiana exatos muitas vezes so construdos atra-vs de solues analticas nem sempre simples, enquanto intervalos aproximados, como foi dito, dependem de aproximaes assintticas nem sempre alcanadas. Uma ferramenta alternativa, eficiente no s para a construo de intervalos de confiana mas tambm para esta-belecer erros padro de estimadores de interesse, so os mtodos computacionalmente intensivos. Livre de complexidades analticas, surge neste mbito o bootstrap.

O mtodo bootstrap foi proposto por Efron (1979), como uma ferramenta para estimar o erro padro da estimativa de um parmetro. Se comparado a outras tcnicas estatsticas, o mtodo teve uma gnese um tanto tardia, devido sua dependncia do uso de computadores. Os progressos da informtica experimentados nas ltimas dcadas do s-culo XX possibilitaram a popularizao do uso do computador e incre-mentaram o surgimento e acesso a softwares matemticos e estatsticos. Conseqentemente, as aplicaes de mtodos bootstrap nas mais diferentes reas da estatstica se intensificaram.

3 O estimador bootstrap do erro padro

Seja uma amostra aleatria baseada em n observaes

independentes x1 , x2, ..., xn. O erro padro de uma mdia x baseada nesta amostra estimado pela expresso,

ns

)x(ep2

=

, (5)

onde

( )1

1

22

= =n

xxs

n

i i (6)

o estimador no viciado da varincia. Nota-se que o erro padro no uma estimativa de uma quantidade pertinente a uma populao, mas uma medida da incerteza da mdia amostral vista como uma estimativa da mdia populacional (Altman, 1991, p.160). A expresso (5) deixa claro que a magnitude desta incerteza diminui conforme o tamanho da amostra, n, aumenta.

Rev. Mat. Estat., So Paulo, 19: 217-251, 2001 221

Vamos agora generalizar este conceito. Seja X uma varivel aleatria com distribuio F, sendo sua esperana denotada por F e sua varincia denotada por 2F. Usaremos a notao X ~ (F, 2F) e escreveremos nF (x1 , x2, ..., xn) para indicar que x = (x1 , x2, ..., xn) uma amostra aleatria de tamanho n obtida de uma populao com funo de probabilidade F. A mdia X tambm uma varivel aleatria e tem esperana F e varincia 2F / n, ou seja, X ~ (F,2F / n) . Nota-se ento que X e X tm a mesma esperana, entretanto, a varincia de X n-1 vezes a varincia de X. Define-se ento o erro padro de x como a raiz quadrada da varincia de X , ou seja,

n)X(var)x(ep FFF

== . (7)

A expresso (5) fornece um estimador para (7). Entretanto, nem

todos os estimadores tm expresses de fcil manejo para seu res-pectivo erro padro, como (5). Isto significa que o trabalho de encon-trar medidas de preciso para outros estimadores =s(X), que no a mdia, pode ser algo bastante complicado.

Sob certas condies, o teorema central do limite diz que a dis-tribuio de X aproximadamente normal quando n grande (Leite & Singer, 1990, p.77), ou seja,

( )n;N~X 2FF , (8)

e, conseqentemente,

)1 ; 0(N~n

X

F

F

. (9)

Usando uma tabela da distribuio normal padro, de (9) pode-

mos escrever, por exemplo, a probabilidade

954,0n

2XP FF =

222 Rev. Mat. Estat., So Paulo, 19: 217-251, 2001

Uma vantagem do bootstrap que esta tcnica no depende inteiramente do teorema central do limite, j que, em suas aplicaes, medidas de preciso so obtidas diretamente dos dados (Efron & Tibshirani, 1993, p.40).

Observada uma amostra aleatria de tamanho n, oriunda de uma distribuio F, define-se uma funo distribuio emprica nF como uma distribuio discreta, que atribui probabilidade n1 a cada valor xi , i = 1,...,n. Uma amostra bootstrap x* = (x1* , x2*, ..., xn*) obtida reamostrando aleatoriamente n vezes, com reposio, as observaes x = (x1 , x2, ..., xn), onde verifica-se que nF (x1

* , x2

*, ..., xn*).

Pelo teorema de Glivenko-Cantelli (Rohatgi, 1976, p.300), nF converge uniformemente para F, isto , para qualquer > 0,

0)t(F)t(FsupPlim ntn

=

>

Rev. Mat. Estat., So Paulo, 19: 217-251, 2001 223

onde

B)(s

)(sB

1bb*= =

x . (16) Efron & Tibshirani (1993, p.47) chamam de estimador bootstrap

ideal de epF ( ) o limite de bootep

quando B vai para o infinito, ou

seja,

)(epeplim *FbootB=

. (17)

O estimador bootstrap ideal e sua aproximao (15) so

chamados estimadores bootstrap no paramtricos, j que se baseiam em F , um estimador no paramtrico de F. Um estimador bootstrap paramtrico do erro padro baseado em um estimador F de F deri-vado de um modelo paramtrico. Por exemplo, ao invs de estimarmos F pela funo distribuio emprica F , podemos assumir que a populao tem distribuio normal.

4 Jackknife: um outro mtodo para estimar o erro padro

O jackknife um mtodo computacionalmente intensivo pioneiro

para a estimao de tendenciosidades e erros padro, introduzido por volta de 1950, por Maurice Quenouille, e mais tarde aprimorado por Tukey (Miller, 1974). Observada uma amostra de tamanho n, o mtodo jackknife consiste em gerar outras n amostras de tamanho n1, sendo a i-sima nova amostra ( i = 1,..., n ) composta pelas observaes que compem a amostra original, com a exceo da i-sima observao. Assim, sendo x = (x1 , x2, ..., xn) a amostra observada, so geradas as amostras x (1) = (x2 , x3, ..., xn), x(2) = (x1 , x3, ..., xn), x(3) = (x1, x2 , x4, ..., xn),..., x(n-1) = (x1, x2 ,..., xn-2, xn), x(n) = (x1, x2 ,..., xn-1). Em cada uma destas amostras geradas, estima-se (i) = s(x(i)), i=1,2,...,n, as replicaes jackknife da estatstica s() de interesse. Da amostra original x, estima-se =s(x). Sendo

n

n1i )i(

)(

= =

, (18)

224 Rev. Mat. Estat., So Paulo, 19: 217-251, 2001

o estimador jackknife da tendenciosidade definido por

))(1n(tend )(JACK =

(19)

e o estimador jackknife do erro padro dado por

( ) = = n 1i 2)()i(JACK n1n

ep . (20)

Considerando, por exemplo, = s(x) = x , obtemos a mdia amostral, sem considerar a i-sima observao, dada pela expresso

1n

x

1nxxn

x iji

i)i(

=

= , i = 1, ..., n . (21) Nota-se que a mdia (.)x das n mdias dadas por (21) igual

mdia amostral, ou seja, conforme (18),

( )x

)1n(nxxn

n

xn

1i in

1i )i()( =

=

= == . (22)

E, segundo (20), o estimador jackknife do erro padro de = x , dado por

( ) ( ) ==

n

1i

2)i(JACK xxn

1nxep . (23)

Substituindo (21) em (23) e desenvolvendo o resultado encon-

trado, verifica-se que a expresso (23) igual a

( )( )

)1n(n

xxxep

n

1i

2i

JACK

= =

, (24)

que idntica expresso (5), o que ilustra uma motivao para o termo (n1)/n, que aparece em (20). Nota-se que este termo pode ser interpretado como uma correo, para que a expresso (23) seja um estimador no viciado de .

Seja, por exemplo, uma amostra aleatria tamanho n = 10, sendo observados os valores expostos na Tabela 1.

Rev. Mat. Estat., So Paulo, 19: 217-251, 2001 225

Tabela 1 Amostra aleatria, n = 10.

555 558 576 578 580

605 635 651 661 666 Podero assim ser estimadas dez mdias )i(x conforme (21),

apresentadas na Tabela 2. A mdia amostral de 606,5, cujo erro padro estimado em 13,644. Uma estimativa jacknife deste erro padro dada por

644,13846,206109

ep JACK ==

,

ou seja, igual ao erro padro da mdia estimado por (5).

Tabela 2 Construo do erro padro jackknife da mdia.

i x(i) )i(x ( )2(.))i( xx 1 555 612,22 32,744

2 558 611,89 29,040

3 576 609,89 11,485

4 578 609,67 10,028

5 580 609,44 8,670

6 605 606,67 0,028

7 635 603,33 10,028

8 651 601,56 24,448

9 661 600,44 36,670

10 666 599,89 43,707

x = 606,5 )(

= 606,5 soma = 206,846

5 Jackknife e bootstrap: uma comparao O jackknife pode ser visto como uma aproximao do bootstrap

conforme demonstrado por Efron & Tibshirani (1993, p.287). Seja, por exemplo, = s(x) = x , novamente. Quando B , atravs da lei fraca dos grandes nmeros mostra-se que

226 Rev. Mat. Estat., So Paulo, 19: 217-251, 2001

( ) ( )2

2n1i i

boot n

xxxep

= =

. (25)

Vejamos, empiricamente, no que se traduz esta afirmao. A

Figura 1 mostra estimativas bootstrap para o erro padro da mdia amostral dos dados da Tabela 1. Foram considerados valores de B entre 5 e 3.500, com incrementos de 5 unidades. Conforme B cresce, observa-se uma maior estabilizao da variabilidade das estimativas do erro padro, que se aproximam do valor estimado por (25).

Generalizando o exemplo anterior, seja uma estatstica linear

( )+== =n 1i ixn1

)(s x , (26)

onde uma constante e () uma funo. A mdia amostral um caso particular de (26), onde = 0 e (xi)

= xi. De acordo com a notao i = (xi), quando B a estimativa bootstrap do erro padro de = s(x) definido pela expresso (26) dada por

( ) ( )2

2n1i i

boot n)(sep

= =

x (27)

e a estimativa jackknife do erro padro deste estimador dada por

( ) ( )( )1nn)(sep2n

1i iJACK

= =

x . (28)

Nota-se que as expresses (27) e (28), e, conseqentemente, (24)

e (25) so iguais, a no ser pelo fator de correo n/)1n( , que desaparece quando n .

6 Intervalos de confiana baseados no mtodo bootstrap

Baseado em seu erro padro estimado

ep , usualmente escre-vemos intervalos de confiana para um parmetro de interesse, na forma

Rev. Mat. Estat., So Paulo, 19: 217-251, 2001 227

ep z , (29)

onde z o 100-simo percentil de uma distribuio normal padro.

B

estim

ativ

a bo

otst

rap

do

erro

pad

ro

7

8

9

10

11

12

13

14

15

16

0 500 1000 1500 2000 2500 3000 3500 4000

FIGURA 1 Estimativas bootstrap do erro padro da mdia amostral x , onde B varia de 5 a 3.500, com incremento de 5 unidades. A linha horizontal indica a estimativa do

erro padro dada por (25), ou seja, ( )xepboot

= 12,9439.

Dado que, por construo, LI (x) LS (x), intervalos de con-fiana como (29) so ditos simtricos, pois neste caso, LI (x) igual a LS (x) , ou seja, a estimativa dada por o ponto mdio entre LI (x) e LS (x), segundo a notao introduzida na expresso (1). Assim, diz-se que um intervalo de confiana simtrico quando a quantidade

( )( ) L

L )(S

S

I

=

x

xx (30)

igual a 1. Denominaremos S(x) de ndice de simetria de um intervalo de confiana.

A motivao de (29) est na propriedade de ter, assintoti-

camente, distribuio normal, ou seja, ) ep;(N~ 2

. Desta proprie-dade, segue que

228 Rev. Mat. Estat., So Paulo, 19: 217-251, 2001

)1 ; 0(N~ep

Z

= , (31)

e da podemos escrever a probabilidade

=+

1)]ep z;ep z([P

2121F (32)

sendo os dados amostrados procedentes de uma distribuio F, F X = (X1 , X2, ..., Xn).

De (32), definimos a expresso

)ep z ; ep z( 2121

+ (33)

como o intervalo de confiana padro com probabilidade de cobertura 1, ou nvel de confiana 100(1)%.

Quando a mdia amostral, Gosset mostrou que a expresso (31) tem uma melhor aproximao em

1nt~ep

Z

=

, (34)

onde tn1 se refere distribuio t de Student com n1 graus de liberdade. Baseado neste fato, o intervalo de confiana descrito em (33) seria melhor escrito

( ) ( ) )ept ; ept( 1n ,211n ,21

+ , (35)

sendo t() , n1 o -simo percentil da distribuio t com n1 graus de liberdade.

Intervalos de confiana da forma (33) ou (35) so aproximados, dado que a probabilidade de cobertura no ser exatamente igual a 1, conforme seria o desejado. Segundo Efron & Tibshirani (1993, p.154), intervalos bootstrap tambm so aproximados, entretanto, ofe-recem melhor aproximao que os intervalos de confiana padro.

Podemos obter intervalos de confiana bootstrap para de diver-sas maneiras, como atravs do mtodo percentil ou do mtodo percentil t. O mtodo percentil tem por base unicamente os quantis e outras medidas da distribuio emprica nF do estimador (Souza, 1998, p.452), enquanto o mtodo percentil t, que ser descrito adiante, gene-

Rev. Mat. Estat., So Paulo, 19: 217-251, 2001 229

raliza o intervalo de confiana produzido por (35), permitindo escrever intervalos da forma

)ep t ; ep t( 21

, (36)

onde as quantidades t1 e t2, obtidas atravs da estimao de nF , substituem t(1/2) , n1 nas expresses que geram os limites inferior e superior.

6.1 Propriedades desejveis de um intervalo de confiana Uma propriedade desejada para intervalos de confiana a da

preservao de amplitude. Seja um parmetro , que assume valores em um conjunto , de forma que = [a ; b] , a b. Diz-se que um intervalo de confiana para possui a propriedade de preservao de amplitude se seus limites inferior e superior esto contidos em (Silva, 1995, p.46). Por exemplo, desde que o coeficiente de correlao sempre assume valores no intervalo = [1 ; 1], deseja-se que um intervalo de confiana para construdo atravs de uma amostra aleatria tenha limite inferior no menor que 1 e limite superior no maior que 1.

Outra propriedade desejvel a acurcia. Seja, por simplicidade, um intervalo de confiana unilateral para um parmetro de interesse , cujo nico limite de confiana dado por (), onde a probabi-lidade de cobertura deste intervalo. Assim,

P [ () ] . (37)

Um limite de confiana () dito acurado de primeira ordem se

P [ () ] = + O(n 1/2), (38)

e, dito acurado de segunda ordem se

P [ () ] = + O(n 1). (39)

Em outras palavras, se () acurado de primeira ordem, a probabilidade de cobertura P [ () ] ser igual a a no ser por

230 Rev. Mat. Estat., So Paulo, 19: 217-251, 2001

um termo cuja ordem de magnitude , no mximo, igual de n 1/2, para todo n suficientemente grande.

Por outro lado, quando EXATO () um limite de confiana exato, satisfazendo a

P [ EXATO () ] = , (40)

diz-se que () correto de primeira ordem se

() = EXATO () + Op(n 1) , (41)

e correto de segunda ordem se

() = EXATO () + Op(n 3/2) . (42)

Se Xn = Op(an) e Yn = Op(bn), onde{an}n1 e {bn}n1 so duas

seqncias de nmeros reais (ou variveis aleatrias), ento XnYn = Op(anbn), conforme demonstrado em Leite & Singer (1990, p.41). Assim, as expresses (41) e (42) eqivalem a dizer que () correto de primeira ordem se

() = EXATO () + Op(n 1/2) , (43)

e correto de segunda ordem se

() = EXATO () + Op(n 1) , (44)

dado que , um plausvel estimador do erro padro de , usual-mente de ordem n 1/2.

Estes conceitos, acurcia e corretividade, so descritos por Efron & Tibshirani (1993, p.321). Segundo estes autores, corretividade em dada ordem implica acurcia naquela mesma ordem.

Maiores detalhes sobre as definies das ordens de magnitude O() e Op() encontram-se no Apndice 1.

6.2 Intervalo bootstrap padro

Sendo )(epboot

, = s(x), a estimativa bootstrap do erro padro

de , definida em (15), o intervalo de confiana bootstrap padro para , com probabilidade de cobertura de aproximadamente 1, dado por

Rev. Mat. Estat., So Paulo, 19: 217-251, 2001 231

)(ep z boot21

. (45) A maior vantagem deste mtodo reside na sua simplicidade alg-

brica de encontrar um intervalo de confiana para . Entretanto, sendo a equao (45) uma conseqncia de

)1 ; 0(N~)(ep

Z

boot

= , (46)

o fato desta aproximao assinttica estar condicionada ao tamanho da amostra n implica que o intervalo assim encontrado pode ser impreciso. Alm disto, caractersticas como assimetria e tendenciosidades podem estar presentes na distribuio de Z, podendo prejudicar o desempenho do intervalo de confiana. Uma soluo para contornar este problema buscar uma transformao montona g(), tal que, segundo Silva(1995, p.54), a distribuio de )(g = esteja mais prxima da distribuio

normal do que a distribuio de . De qualquer forma, o intervalo de confiana bootstrap padro nem sempre satisfaz propriedade de preservao de amplitude.

Tratando-se de amostras pequenas, pelo menos no caso em que = s(x) = x (Silva, 1995, p.57), uma melhor aproximao para (46) encontra-se na distribuio t de Student, ou seja,

1n

boot

t~)(ep

T

=

. (47)

6.3 O mtodo t-bootstrap

O procedimento t-bootstrap, tambm conhecido como mtodo

pivotal, segundo Efron & Tibshirani (1993, p.161) uma generalizao do usual mtodo t de Student, sendo particularmente aplicvel a estatsticas de locao, como a mdia amostral, a mediana, ou percentis amostrais. Estes autores citam que, pelo menos em sua forma tradi-cional, o mtodo t-bootstrap no bom para a construo de intervalos para outras estatsticas, como por exemplo, o coeficiente de correlao. Nestes casos, necessrio o uso de transformaes.

232 Rev. Mat. Estat., So Paulo, 19: 217-251, 2001

Enquanto em (34) Z tem distribuio t de Student, a essncia do mtodo est na estimao da distribuio de Z diretamente dos dados amostrados. Geradas B amostras bootstrap x*1, x*2,..., x*B, indepen-dentes, estima-se em cada uma destas amostras * b= s(x*b), b=1,2,...,B, e da encontra-se

)(ep

Z

b*

b*b*

= , (48)

onde )(ep b*

o erro padro estimado de * b , b=1,2,...,B (Efron

& Tibshirani, 1993, p.160). O -simo percentil de b*Z estimado por )(t tal que

{ }

= =

B

B1b tZ )(

b*I. (49)

O intervalo de confiana construdo por este mtodo ento

)ep t ; ep t( )()1(

. (50) Nota-se que o lado direito da expresso (48), interpretada como

uma quantidade pivotal aproximada, contm em seu denominador um estimador do desvio padro de * para a amostra x*b. Isto significa que,

quando no estiver disponvel um plausvel estimador )(ep b*

, um novo esquema de reamostragem necessrio para estimar-se este erro padro, para cada uma das B amostras bootstrap. Desta forma, o nmero de amostras bootstrap necessrias para a construo do intervalo de confiana t-bootstrap dado pelo produto de B pelo nmero de novas amostras bootstrap requerida para cada estimao de

)(ep b*

, o que, em muitos casos, pode representar um custo compu-tacional muito grande.

Karlsson & Lthgren (2000) chamam este processo de double

bootstrap, e propem um novo estimador de )(ep b*

que elimina o trabalho de extrair-se novas amostras bootstrap alm das B amostras iniciais. Atravs de simulaes, os autores mostram que o intervalo de confiana proposto por eles similar ao intervalo t-bootstrap, em sua

Rev. Mat. Estat., So Paulo, 19: 217-251, 2001 233

cobertura. Entretanto, o trabalho destes autores no ser discutido aqui com detalhes.

6.4 O mtodo percentil Encontradas replicaes x* de x = (x1, x2, ..., xn), e, conseqentemente

estimadas replicaes bootstrap da estatstica de interesse * = s(x*), o intervalo de confiana de probabilidade de cobertura 1 construdo pelo mtodo percentil obtido pelos (/2)-simo e (1/2)-simo percentis de G , a funo distribuio acumulada de * (Efron, 1982, p.78). Uma expresso para tal intervalo dada por

( LI (x*) ; LS (x*) ) = ( ))21(1)2(1 G ; G . (51)

Como G -1( ) = * () , o 100-simo percentil de * , esta ex-presso pode ser reescrita da forma (Efron & Tibshirani, 1993, p.170)

( LI (x*) ; LS (x*) ) = ( ))21(*)2(* ; . (52) Desta forma, este intervalo consiste na poro central de tamanho 1

da distribuio de * . As expresses (51) e (52), segundo Efron & Tibshirani (1993,

p.170), referem-se situao ideal, onde o nmero de replicaes bootstrap infinita. Na prtica, utiliza-se um nmero finito B de replicaes, onde so obtidas as amostras x*1, x*2,..., x*B, e, a partir destas,

b* = s(x*b), b=1,2,...,B. O intervalo de confiana ser ento obtido por

( LI (x*) ; LS (x*) ) ( ))21(B*)2(B* ; , (53)

sendo )2(B* o 100/2-simo percentil dos valores empricos b* , ou seja, o B/2-simo valor de uma ordenao das B replicaes de b* . Se B./2 no for um nmero inteiro, Efron & Tibshirani (1993, p.170) recomendam tomar k = int((B+1)/2), o maior inteiro menor ou igual a (B+1)/2, e da os quantis empricos /2 e 1/2 so obtidos pelo k-simo e (B+1k)-simo maiores valores de b* .

Uma boa propriedade do intervalo de confiana construdo pelo mtodo percentil a invarincia a transformaes montonas. Seja o

234 Rev. Mat. Estat., So Paulo, 19: 217-251, 2001

parmetro = g(), estimado pela estatstica =g( ), onde g() uma funo montona. O intervalo de confiana para ser dado por

( LI (x*) ; LS (x*) ) = ( )) (g ; )(g )21(*)2(* (54)

se g() uma funo montona crescente, e

( LI (x*) ; LS (x*) ) = ( )) (g ; )(g )2(*)21(* (55)

se g() uma funo montona decrescente. As figuras 2 e 3 mostram, respectivamente, os limites inferior e su-

perior para intervalos de confiana 90% para a mdia dos dados da Ta-bela 1, estimados segundo o mtodo percentil, para um nmero B de amostras bootstrap, onde B varia de 100 a 7.000. De 100 a 2.500, o incremento de 5 unidades, e de 2.500 a 7.000, usa-se incremento de 50 unidades.

B

limite

infe

rior d

o in

terv

alo

perc

entil

581

582

583

584

585

586

587

588

589

590

0 1000 2000 3000 4000 5000 6000 7000

FIGURA 2 Limite inferior do intervalo de confiana 90% percentil para a mdia dos dados da Tabela 1, em funo do nmero de amostras bootstrap B, onde B varia de 100 a 7.000.

6.5 O mtodo BCa O mtodo BCa tambm utiliza os percentis da distribuio boot-

strap para a construo dos intervalos de confiana para parmetros de

Rev. Mat. Estat., So Paulo, 19: 217-251, 2001 235

interesse. Descrito por Efron (1987), DiCiccio & Tibshirani (1987) e Efron & Tibshirani (1986 e 1993, p.184-8), este mtodo utiliza per-centis que dependem de duas constantes, 0z e , denominadas correo para tendncia e acelerao, respectivamente. Do nome original destas quantidades, bias-corrected e acceleration, vem a abreviatura BCa.

B

limite

sup

erio

r do

inte

rval

o pe

rcen

til

624

625

626

627

628

629

630

631

632

633

0 1000 2000 3000 4000 5000 6000 7000

FIGURA 3 Limite superior do intervalo de confiana 90% percentil para a mdia dos dados da Tabela 1, em funo do nmero B de amostras bootstrap, onde B varia de 100 a 7.000.

Sendo * )( i

, i = 1,2, o 100i-simo percentil das B estimativas

da estatstica de interesse, geradas por B amostras bootstrap, o inter-valo de confiana BCa, de desejada probabilidade de cobertura 1 , dado por

BCa : ( ) ( )* )(* )(LL 21SI ;; = , (56)

onde

( )

++

+=20

2001 zz1

zzz

( )

++

+=

210

21002 zz1

zzz

. (57)

236 Rev. Mat. Estat., So Paulo, 19: 217-251, 2001

Em (57), () a funo distribuio acumulada de uma normal padro e z() o 100-simo percentil de uma distribuio normal padro. Se e 0z so iguais a zero, (56) similar a (52).

A constante de correo para tendncia, 0z , obtida da propor-

o de replicaes bootstrap cujas estimativas b* so menores que a estimativa original , da seguinte maneira:

{ }

=

=

Rev. Mat. Estat., So Paulo, 19: 217-251, 2001 237

) ; z (N~ 2

0

, (61)

onde uma constante que expressa o erro padro de (Efron, 1987). Ainda em (61), temos que = 1 + a , ou seja, o mtodo BCa admite que o desvio padro de tenha uma variao linear conforme, a uma taxa expressa por a. Em outras palavras, Silva (1995, p.91) explica que a constante a mede a taxa de mudana do desvio padro de sobre a escala da distribuio normal padro, o que motiva a denominao constante de acelerao. A construo de um intervalo de confiana BCa no exige o conhecimento de g(), o que torna este mtodo atraente (DiCiccio & Tibshirani, 1987).

Uma vantagem do mtodo BCa , apontada por Efron & Tibshirani (1993, p.187), est no fato dele gerar limites de confiana acurados de segunda ordem. Isto significa que, para um intervalo de confiana BCa , dado por ( )

SI LL; , com probabilidade de cobertura 1 , observa-se

( )ncP IL 2I

+< e ( )n

cP SL 2S+> , (62)

para cI e cS constantes. Estas probabilidades so, portanto, iguais a a no ser por um termo que se aproxima de zero medida que n cresce, a uma razo n1.

Intervalos gerados pelo mtodo t-bootstrap tambm so acurados de segunda ordem, entretanto, no possuem a propriedade de invarin-cia a transformaes montonas, que os intervalos gerados pelo mtodo BCa possuem.

O mtodo percentil, alm de possuir a propriedade de invarincia a transformaes montonas, gera limites de confiana acurados de primeira ordem, ou seja, com uma maior ordem de magnitude.

O coeficiente de acelerao , para os dados da Tabela 1, esti-mado em 0,0125. Para a mdia destes dados, intervalos de confiana de 90% foram gerados atravs do mtodo BCa, sendo os limites inferior e superior mostrados nas Figuras 4 e 5, respectivamente, segundo valores de B. Nota-se nestas Figuras que as estimativas dos limites inferior e superior do intervalo convergem a um determinado ponto, conforme B cresce. Neste estudo, B variou de 100 a 6.800, com incremento de 5 unidades.

A Figura 6 mostra as estimativas de 0z utilizadas na construo destes intervalos, segundo B. Nota-se que, medida que B cresce, 0z

238 Rev. Mat. Estat., So Paulo, 19: 217-251, 2001

tende a convergir para um valor maior que zero, o que, associado ao fato de ser diferente de zero, sugere que as correes para tendncia e acelerao proporcionada pelo mtodo BCa sejam importantes.

B

limite

infe

rior

do in

terv

alo

de c

onfia

na

BC a

578

580

582

584

586

588

590

592

0 1000 2000 3000 4000 5000 6000 7000

FIGURA 4 Limite inferior do intervalo de confiana 90% BCa para a mdia dos dados da Tabela 1, em funo do nmero de amostras bootstrap B, onde B varia de 100 a 6.800, com incremento de 5 unidades.

B

limite

sup

erio

r do

inte

rval

o de

con

fian

a B

C a

622

624

626

628

630

632

634

636

0 1000 2000 3000 4000 5000 6000 7000

FIGURA 5 Limite superior do intervalo de confiana 90% BCa para a mdia dos dados da Tabela 1, em funo do nmero de amostras bootstrap B, onde B varia de 100 a 6.800, com incremento de 5 unidades.

Rev. Mat. Estat., So Paulo, 19: 217-251, 2001 239

B

-0,20

-0,15

-0,10

-0,05

0,00

0,05

0,10

0,15

0,20

0 1000 2000 3000 4000 5000 6000 7000

0z

FIGURA 6 Estimativas de 0z utilizadas na construo de intervalos de confiana 90% para a mdia dos dados da Tabela 1, segundo o nmero de amostras bootstrap B, onde B varia de 100 a 6.800, com incremento de 5 unidades. 0z dado por (58).

7 Um exemplo numrico

Em oncologia, define-se um marcador como qualquer substncia

que pode constituir um sinal da presena e do desenvolvimento de um tumor (Farante & Chacn, 1990). O CA125 (Cancer Antigen 125) um marcador tumoral usado em larga escala no diagnstico e segui-mento do cncer de ovrio. Pacientes que apresentam concentraes sricas elevadas de CA125 (mensurado em unidades/ml) no sangue perifrico teriam uma chance maior de serem portadoras de um tumor maligno (Ward & Shepherd, 1986).

Em um estudo, dentre 158 pacientes portadoras de tumores plvicos, um exame histopatolgico indicou que 67 destas pacientes eram portadoras de tumores malignos, enquanto outras 91 pacientes eram portadoras de processos benignos (Torres, 1998). A Tabela 3 mostra a mdia amostral para as concentraes sricas de CA125 (em ln unidades/ml), para as amostras de pacientes portadoras de processos benignos e portadores de tumores malignos, o erro padro destas mdias medido pela equao (7) e segundo o mtodo bootstrap, e

240 Rev. Mat. Estat., So Paulo, 19: 217-251, 2001

intervalos de confiana 90% para as mdias, estimados segundo os diversos mtodos apresentados. Nas estimativas dos intervalos de confiana bootstrap, foram utilizadas B = 10.000 amostras. O uso do logaritmo da concentrao srica do CA125, e no sua mensurao original em unidades/ml, justificado pelo fato da distribuio das observaes possuir uma grande assimetria.

Como esperado, a mdia amostral 2x para a concentrao srica de CA125 mensurada na amostra composta por pacientes com tumores malignos maior que aquela mensurada na amostra composta por pacientes portadores de processos benignos, 1x .

A Figura 7 mostra box plots comparativos para as concentraes sricas de CA125, evidenciando que nas amostra das mulheres com tumores malignos esto presentes algumas observaes atpicas (out-liers).

conc

entra

o

sric

a do

CA

125

(ln U

/ml)

0

2

4

6

8

10

processos benignos tumores malignos FIGURA 7 Box plots para o logaritmo das concentraes sricas do CA125 (ln U/ml).

Sejam 21 e

22 estimadores no viciados para as varincias das

concentraes sricas de CA125, medidas em ambas amostras. O inter-

Rev. Mat. Estat., So Paulo, 19: 217-251, 2001 241

valo de confiana assinttico para a diferena entre as mdias, com probabilidade de cobertura 1, dado por

( 2x 1x t(1/2)

ep ( 2x 1x ) ; 2x 1x + t(1/2)

ep ( 2x 1x ) ), (63)

onde t(1/2) o (1/2)-simo percentil de uma distribuio t de

Student com n1+n2 2 graus de liberdade e

ep ( 2x 1x ) o erro padro da diferena entre as mdias, estimado por

2112 n

1n1 )xx(ep +=

, (64)

(Altman & Gardner, 1989, p.21) sendo a raiz quadrada da

mdia ponderada

2nn

)1n()1n(21

222

211

++

=

. (65)

Tabela 3 Mdias amostrais da concentrao srica de CA125 (em ln U/ml), com seus respectivos erros padro e intervalos de confiana 90%, para as amostras de 91 pacientes portadoras de processos benignos e 67 pacientes portadoras de tumores malignos.

processos benignos

tumores malignos

diferena entre as mdias

mdia amostral (ln U/ml) 2,8259 4,5477 1,7218

erro padro 0,1028 0,2096 0,2160 (a)

0,2334 (b)

erro padro bootstrap 0,1022 0,2094 0,2357

Intervalo assinttico (t de Student)

( 2,655 a 2,997 ) ( 4,198 a 4,897 ) ( 1,364 a 2,079 ) (a)

( 1,334 a 2,109 ) (b)

Intervalo bootstrap padro ( 2,656 a 2,996 ) ( 4,198 a 4,897 ) ( 1,331 a 2,112 )

Intervalo percentil ( 2,661 a 2,996 ) ( 4,212 a 4,890 ) ( 1,343 a 2,104 )

Intervalo BCa ( 2,662 a 2,997 ) ( 4,219 a 4,897 ) -

(a) considerando igualdade de varincias (b) considerando varincias diferentes

242 Rev. Mat. Estat., So Paulo, 19: 217-251, 2001

O intervalo de confiana apresentado em (63) similar quele

descrito em (35), onde o estimador da diferena entre as mdias. Algumas propriedades deste intervalo, quando usadas pequenas amos-tras, so discutidas por Berengut (1981).

Estimados 21 =0,9613 e 22 =2,9430, encontrou-se o intervalo de

confiana de 90% assinttico para a diferena entre as mdias, conforme (63), mostrado na Tabela 3. Entretanto, este mtodo tem como limitao o fato de considerar varincias iguais, o que nem sempre um pressuposto verdadeiro. Uma alternativa, assumindo varincias diferentes, considera em (63) a quantidade t1/2 como o (1/2)-simo percentil de uma distribuio t de Student com graus de liberdade, onde dado por

2

2

2

22

2

1

1

21

2

2

22

1

21

1n

n

1n

n

n

n

v

+

+

=

, (66)

e

2

22

1

21

12 n

n

)xx(ep

+=

. (67)

Verificou-se que os erros padro das mdias, estimados segundo

a equao (7), so bastante prximos daqueles estimados pelo mtodo bootstrap, utilizadas B=10.000 amostras. Conseqentemente, os inter-valos de confiana 90% estimados pelo mtodo assinttico (utilizando percentis de uma distribuio t de Student) so similares queles estimados pelo mtodo bootstrap padro. Por construo, estes dois intervalos de confiana so simtricos.

O erro padro bootstrap para a diferena entre as mdias foi estimado segundo a equao (15), onde

b*

1b*

2b* xx)(s =x (68)

e

Rev. Mat. Estat., So Paulo, 19: 217-251, 2001 243

( )B

xx)(s

B1b

b*1

b*2 = = , (69)

sendo b*2x e b*

1x , b=1,2,...,B, as mdias das mensuraes do CA125 (em ln U/ml) baseadas em B=10.000 amostras bootstrap independentes, estimadas respectivamente sobre as amostras de mulheres portadoras de tumores malignos e processos benignos.

As Figuras 8 e 9 mostram grficos de probabilidade normal e histogramas para as mdias geradas em cada uma das B=10.000 amos-tras bootstrap extradas, respectivamente, das amostras de pacientes com processos benignos e tumores malignos. As curvas que se sobre-pem aos histogramas referem-se a curvas gaussianas com mdias e varincias iguais s calculadas sobre as distribuies amostrais das mdias b*1x e

b*2x , b = 1,...,10.000. Observa-se que ambas figuras

sugerem distribuies satisfatoriamente simtricas para as mdias, o que tem por conseqncia intervalos bootstrap estimados pelo mtodo per-centil, para as mdias, relativamente simtricos (Tabela 4).

FIGURA 8 Grfico de probabilidade normal e histograma para as mdias b*1x das concentraes sricas do CA125 (em ln U/ml), para as pacientes portadoras de processos benignos, estimadas em B=10.000 amostras bootstrap

Na construo dos intervalos BCa, estimou-se em 0,0015 e

0,0150 para, respectivamente, as amostras de pacientes portadoras de

observaes empricas

valo

r no

rmal

esp

erad

o

-4

-2

0

2

4

2,3 2,5 2,7 2,9 3,1 3,3mdias

obse

rva

es

0

150

300

450

600

750

900

1050

1200

1350

1500

1650

2,446 2,636 2,826 3,016 3,206

244 Rev. Mat. Estat., So Paulo, 19: 217-251, 2001

processos benignos e tumores malignos. As constantes de correo para tendncia, 0z , foram estimadas em, respectivamente, 0,0055 e -0,0023, para estas amostras, baseado nas B=10.000 amostras bootstrap. As quantidades 1 e 2, de acordo com as equaes apresentadas em (57), so dadas respectivamente por 0,0516 e 0,9515, para a amostra de pacientes portadoras de processos benignos e por 0,0537 e 0,9537, para a amostra de pacientes portadoras de tumores malignos. Dado que 1, em ambos casos, maior que /2 =0,05, os limites inferiores dos intervalos de confiana 90% BCa para as respectivas mdias refletem valores maiores que aqueles produzidos pelo mtodo percentil. Ana-logamente, sendo 2 maior que 1/2 =0,95 tambm em ambos casos, os limites superiores produzidos pelo mtodo BCa tambm so maiores. Entretanto, as amplitudes (LS(x) LI (x)) dos intervalos produzidos pelo mtodo percentil so ligeiramente menores que aquelas produzidas pelos intervalos BCa.

FIGURA 9 Grfico de probabilidade normal e histograma para as mdias b*

2x das concentraes sricas do CA125 (em ln U/ml), para as pacientes portadoras de tumores malignos, estimadas em B=10.000 amostras bootstrap.

A construo de um intervalo de confiana para a diferena entre

as mdias, atravs do mtodo BCa, foi desconsiderada, devido grande dificuldade de se obter uma estimativa de .

mdias

obse

rva

es

0

150

300

450

600

750

900

1050

1200

1350

1500

1650

3,921 4,235 4,548 4,861 5,175

observaes empricas

valo

r no

rmal

esp

erad

o

-4

-2

0

2

4

3,6 4,0 4,4 4,8 5,2 5,6

Rev. Mat. Estat., So Paulo, 19: 217-251, 2001 245

Na Tabela 4, observa-se que os intervalos BCa no so to sim-tricos quanto os intervalos estimados pelo mtodo percentil, o que conseqncia das correes para tendncia e acelerao. Os intervalos de confiana assintticos e estimados pelo mtodo bootstrap padro, por construo, so simtricos.

Tabela 4 ndices de simetria, conforme (30), para os intervalos de

confiana apresentados na Tabela 3.

processos benignos

tumores malignos

diferena entre as mdias

intervalos assintticos 1,000 1,000 1,000

intervalo bootstrap padro 1,000 1,000 1,000

intervalo percentil 0,969 0,981 0,991

intervalo BCa 0,958 0,941 - O grfico de probabilidade normal apresentado na Figura 9 ilustra o

efeito que os outliers verificados na Figura 7, para as concentraes sricas do CA125 (em ln U/ml) medidas em pacientes portadoras de tumores malignos, exercem sobre a distribuio das mdias b*2x ,

b=1,2,...,B. O mesmo fenmeno no ocorre para a distribuio de b*1x , b=1,2,...,B (Figura 8).

observaes empricas

valo

r no

rmal

esp

erad

o

-4

-2

0

2

4

0,8 1,2 1,6 2,0 2,4 2,8

diferenas entre mdias

obse

rva

es

0

150

300

450

600

750

900

1050

1200

1350

1500

1650

0,981 1,351 1,722 2,092 2,463

246 Rev. Mat. Estat., So Paulo, 19: 217-251, 2001

FIGURA 10 Grfico de probabilidade normal e histograma para a diferena entre as

mdias b*2x b*

1x ,das concentraes sricas do CA125 (em ln U/ml), estimadas em B=10.000 amostras bootstrap.

8 Comentrios finais O mtodo bootstrap constitui uma eficiente alternativa para a

teoria usual de obteno de estimativas do erro padro de . Livre de complexidades algbricas, possibilita a obteno de intervalos de con-fiana sem a necessidade de pressupostos sobre a distribuio do estima-dor. Vrios tipos de intervalos de confiana bootstrap podem ser consi-derados, com variado custo computacional.

Os mtodos aqui descritos para estimar erros padro e gerar intervalos de confiana consideram parmetros vindos de populaes de tamanho infinito ou grandes o suficiente para que possam ser trata-das como de tamanho infinito. Mtodos bootstrap adequados popula-es finitas so apresentados por Booth et al.(1994).

O problema de determinar quantas replicaes B so necessrias para a obteno de boas estimativas dos limites inferior e superior de intervalos de confiana construdos pelo mtodo bootstrap discutido por Efron & Tibshirani (1986). Efron (1987) aborda este problema em relao construo de intervalos BCa. O trabalho de Hall (1986) explora a questo da determinao tima de B com maior profundidade. Uma forma simples de determinar o nmero necessrio de replicaes B, consiste em conduzir um estudo emprico, replicando a aplicao do mtodo bootstrap para diversos valores de B. A construo de grficos como os apresentados nas Figuras 2 a 5 ilustra este procedimento. Observando o comportamento das estimativas bootstrap representadas nestes grficos, regies onde estas estimativas sugerem visualmente uma boa convergncia fornecem uma boa aproximao do nmero ideal de replicaes B. Entretanto, este mtodo tem por limitao o fato de poder exigir um intenso esforo computacional.

Dentre os mtodos Bayesianos, o bootstrap tem sua forma an-loga discutida por Rubin (1981) e Davison & Hinkley (1997, p.512). Ao invs de simular a distribuio amostral da estatstica utilizada para estimar , o bootstrap Bayesiano simula a distribuio a posteriori deste parmetro.

Agradecimentos

Rev. Mat. Estat., So Paulo, 19: 217-251, 2001 247

Os autores agradecem a Jos Carlos Campos Torres, mdico oncologista da Universidade Estadual de Campinas UNICAMP, pela concesso dos dados utilizados no exemplo numrico, e a dois referees pelos comentrios e sugestes apresentadas. A pesquisa de Francisco Louzada-Neto financiada parcialmente pelo CNPq.

MARTINEZ, E. Z., LOUZADA-NETO, F. Bootstrap confidence inter-val estimation. Rev. Mat. Estat. (So Paulo), v.19, p.217-251, 2001.

SUMMARY: Quantifying the error on parameter estimation is one of the

major worries on statistical inference. Usually we focus on the estimation of

the standard error of , the estimate of a parameter of interest . The problem is that analytical methods are not always feasible. In this context, bootstrap methods are an efficient alternative, presenting estimates of the standard error free of algebraic expressions. Also, the confidence intervals can be obtained without presuppositions about the distribution of the estimator. In this article we present the bootstrap method with its several different types of confidence intervals in a concise way. The methodology is illustrated by a real numerical example on a cancer study.

KEYWORDS: Bootstrap, Confidence Intervals, Standard Deviation, Simulation, Biostatistics.

Referncias bibliogrficas

ALTMAN, D. G. Practical statistics for medical research. London: Chapman & Hall, 1991. 611p. ALTMAN, D. G., GARDNER, M. J. Calculating confidence intervals for means and their differences. In: GARDNER, M. J., ALTMAN, D. G. Statistics with confidence: confidence intervals and statistical guidelines. London: British Medical Journal, 1989. p.20-7. BOOTH, J. G., BUTLER, R. W., HALL, P. Bootstrap methods for finite populations. J. Am. Statist. Assoc., v.89, n.428, p.1282-9, 1994. BICKEL, P. J., DOKSUM, K. A. Mathematical statistics: basics ideas and selected topics. San Francisco: Holden Day, 1977. 493p. DAVISON, P. J., HINKLEY, D. V. Bootstrap methods and their application. Cambridge: Cambridge University Press, 1977. 582p.

248 Rev. Mat. Estat., So Paulo, 19: 217-251, 2001

EFRON, B. Bootstrap methods: another look at the jacknife. Ann. Stat. v.7, n.1, p.1-26, 1979. EFRON, B. Better bootstrap confidence intervals. J. Am. Stat. Assoc., v.82, n.397, p.171-200, 1987. Com comentrios. EFRON, B., LEPAGE, R. Introduction to bootstrap. In: LEPAGE, R., BILLARD, L. Exploring the limits of bootstrap. New York: John Wiley, 1992. p.3-10. EFRON, B., TIBSHIRANI, R. Bootstrap methods for standard errors, confidence intervals, and other measures of statistical accuracy. Stat. Sci., v.1, n.1, p.54-77, 1986. EFRON, B., TIBSHIRANI, R. An introduction to the bootstrap. New York: Chapman & Hall, 1993. 436p. FARANTE, G., CHACN, R. Utilidad de los marcadores tumorales en oncologa. In: CHACN, R., FARANTE, G. Oncologa Mdica. Milano: European School of Oncology, 1990. p.49-68. FELLER, W. An introduction to probability theory and its applica-tions. 2.ed. New York: John Wiley, 1971. v.2, 669p. HALL, P. On the number of bootstrap simulations required to construct a confidence interval. Ann. Stat., v.14, p.1453-62, 1986. KARLSSON, S., LTHGREN, M. Computationally efficient double bootstrap variance estimation. Comput. Stat. Data Anal., v.33, p.237-47, 2000. LEITE, J. G., SINGER, J. M. Mtodos assintticos em estatstica: fundamentos e aplicaes. In: SIMPSIO NACIONAL DE PRO-BABILIDADE E ESTATSTICA, 9., 1990, So Paulo. Anais... So Paulo: IME/USP, 1990. 130p. MILLER, R. G. The jacknife a review. Biometrika, v.61, n.1, p.1-15, 1974. MOOD, A. M., GRAYBILL, F. A., BOES, D. C. Introduction to the theory of statistics. 3.ed. New York: McGraw-Hill, 1974. 564p. ROHATGI, V. K. An introduction to probability theory and math-ematical statistics. New York: John Wiley, 1976. 684p. RUBIN, D. B. The Bayesian bootstrap. Ann. Stat. v.9, n.1, p.130-4, 1981. SILVA, D. N. O mtodo bootstrap e aplicaes regresso mltipla. 1995. 158f. Dissertao (Mestrado em Estatstica) Instituto de Mate-

Rev. Mat. Estat., So Paulo, 19: 217-251, 2001 249

mtica, Estatstica e Cincia da Computao, Universidade Estadual de Campinas, Campinas, 1995. SOUZA, G. S. Mtodos Empricos. In: SOUZA, G. S. Introduo aos modelos de regresso linear e no-linear. Braslia: Embrapa, 1998. p.445-83. TORRES, J. C. C. ndice de risco de malignidade associando CA125, ultra-sonografia e estado menstrual no diagnstico pr-operatrio de tumores plvicos. 1998. 113f. Dissertao (Mestrado em Medicina) Faculdade de Cincias Mdicas, Universidade Estadual de Campinas, Campinas, 1998. WARD, B. G., SHEPHERD, J. H., The role of monoclonal antibodies in the diagnosis and investigation of ovarian cancer. In: BLACK-LEDGE, G., CHAN, K. K. Management of ovarian cancer. London: Butterworths, 1986. p.46-59.

Recebido em 16.8.2000.

Apndice 1

Ordens de magnitude O termo O() denota a ordem de magnitude de uma seqncia

{an}n1 de nmeros reais, sendo que an = O( bn ) indica existir um nmero real K > 0 e um nmero inteiro positivo n0 = n0 (K), tal que | an / bn | K, para todo n n0 , e {bn}n1 tambm uma seqncia de nmeros reais (Leite & Singer, 1990, p.9).

A notao Op() indica a ordem de magnitude de uma seqncia estocstica. Segundo Leite & Singer (1990, p.39), se {Xn}n1 uma seqncia de variveis aleatrias e {bn}n1 uma seqncia de nmeros reais (ou variveis aleatrias), ento Xn = Op(bn) se, para qualquer nmero real > 0 existir um nmero real positivo K = K() e um nmero inteiro positivo n0 = n0(), tais que

K

bX

Pn

n , n n0 . (70)

250 Rev. Mat. Estat., So Paulo, 19: 217-251, 2001

Assim, Xn igual a Op(bn) se a seqncia {Xn / bn}n1 for limitada em probabilidade, para todo n suficientemente grande (Leite & Singer, 1990, p.39). Apndice 2

Expanses de Edgeworth

Segundo Efron & LePage (1992), um grande avano na teoria do

mtodo bootstrap foi obtido em 1981, por Singh, que demonstrou que o mtodo pivotal ou t-bootstrap, em muitos casos, acompanha a correo de Edgeworth. Estimando um ponto da distribuio amostral da estatstica estudentizada, o mtodo bootstrap automaticamente produz respostas to boas quanto expanses de Edgeworth com um termo, sem a necessidade de clculos tericos especiais.

Um exemplo simples para a expanso de Edgeworth dado por Bickel & Doksum (1977, p.33). A aproximao da mdia X para a distribuio normal utiliza apenas os dois primeiros momentos desta estatstica. Uma melhor aproximao, atravs da expanso de Edge-worth, encontrada utilizando-se tambm o terceiro e quarto momen-tos. Seja Fn a distribuio de

( )

nXTn

= , (71)

e sejam 1n e 2n, respectivamente, os coeficientes de assimetria e curtose de Tn. Sob certas condies,

( ) ( ) ( ) ( ) ( ) ( ) ( )152n13n22n1n nOxH721

xH241

xH61

xxxF +

++=

, (72)

onde (x) e (x) so, respectivamente, a funo distribuio acumulada e a densidade de uma varivel aleatria normal padro, e H2, H3 e H5 so polinmios definidos por

H2(x) = x

2 1, H3(x) = x3 3x e H5(x) = x

5 10x3 + 15x . (73) Feller (1971, p.532) mostra que Hk(x) denominado polinmio

de Hermite de grau k, definido por

Rev. Mat. Estat., So Paulo, 19: 217-251, 2001 251

)x()x(H)1()x(dx

dk

kkk

k

= . (74)

Vamos agora buscar uma forma genrica para a expanso de

Edgeworth. Seja X uma varivel aleatria com distribuio de proba-bilidade F. Para um real , a funo caracterstica de F (ou, de X) uma funo , conforme definido por Feller (1971, p.499). Supondo que os momentos 3,..., r existem, e que | | integrvel para algum 1, ento fn existe para n e, quando n ,

( ) ( ) ( ) ( ) ( )1)2/r(r 3k k1)2/k(n nOxPnxxxf += + = , (75)

uniformemente em x. Esta expanso a chamada expanso de Edge-worth para fn , sendo que Pk so polinmios que dependem apenas de 3,..., r, mas no de n e r. Uma demonstrao para (75) encontrada em Feller (1971, p.535).

Sendo Rk polinmios obtidos pela relao

( ) ( ) ( ) ( )xRxdxd

xPx kk = , (76)

e aplicando integrais, a expresso (75) pode ser reescrita da forma

( ) ( ) ( ) ( ) ( )1)2/r(r 3k k1)2/k(n nOxRnxxxF += + = . (77) Nota-se que Rk tambm so polinmios que dependem apenas de

3,..., r, mas no de n e r (Feller, 1971, p.541).