Taxas em pequenas áreas : uma abordagem bayesiana Análise Espacial - INPE Ilka Afonso Reis.
Transcript of Taxas em pequenas áreas : uma abordagem bayesiana Análise Espacial - INPE Ilka Afonso Reis.
Taxas em pequenas áreas : uma abordagem bayesiana
Análise Espacial - INPE
Ilka Afonso Reis
Taxas em pequenas áreas
yi é o número de casos da “doença” na área i ;
ei é o número esperado de casos da “doença” na área i ; ρi é o risco relativo (desconhecido) da “doença” em
relação à taxa de referência ; (padronização)
Taxa bruta :
Quanto menor o no. esperado de casos, maior a variabilidade na estimação
ey
pi
i
i 2e
ypVar
i
i
i
Qual é o problema com taxas brutas ?
• Suponha uma “doença” com r = 0,10 e acontece um caso em cada área (y = 1)
•Se Pop1 = 10000, e1 = 0,10 x 10000 = 1000
•Se Pop2 = 1000, e2 = 0,10 x 1000 = 100
•Se Pop3 = 100, e3 = 0,10 x 100 = 10p1=1/10000 = 0,0001 e Var(p1) = 1/100002 = 1 x 10-8
p2=1/1000 = 0,001 e Var(p2) = 1/10002 = 1 x 10-6
p3=1/100 = 0,01 e Var(p3) = 1/1002 = 1 x 10-4
Qual é o problema com taxas brutas ?
Taxa bruta
Taxa suavizada
Solução para o problema das taxas brutas
Suavizar as taxas Como ?
Estimadores Bayesianos
• Empíricos
• Completos
Uma Breve Introdução à Inferência Bayesiana
Probabilidade Condicional
Teorema de Bayes
Verossimilhança
Probabilidade a priori
Probabilidade a posteriori
Um exemplo : medidas de qualidade de testes diagnósticos
Doente (D)
Positivo (+|D)
Negativo (-|D)
Sadio (S)Positivo (+|S)
Negativo (-|S)
Avaliação da qualidade do teste
)(
)()|(
DP
DPDP
Acertos :
• Entre os doentes
• Entre os sadios
Sensibilidade (s)
)(
)()|(
SP
SPSP
Especificidade (e)
Avaliação da qualidade do teste
Resultado do teste
Padrão-ouroTotalDoente Não
Doente
Positivo 265 47 312
Negativo 11 50 61
Total 276 97 373
96%ou0,96276
265D)|P(s
50
e P( | S) 0,515 ou 51,5%97
Avaliação da qualidade do diagnóstico
Acertos :
• Entre os positivos
• Entre os negativos
Valor de Predição Positiva (VPP)
)P() P(D
)|P(D
)P()P(S
)|P(S
Valor de Predição Negativa (VPN)
Avaliação da qualidade do diagnóstico
S)](D)P[(D)|P(P(D)
)P()P(D
)|P(D
S)|P(P(S) D)|P(P(D)D)|P(P(D)
)|P(D
Regra de Bayes
Enfim ...
D)|P(-P(D) S)|P(-P(S)S)|P(- P(S)
-)|P(S
Probabilidade a priori
Probabilidade a posteriori
“Verossimilhança”
Conceitos Básicos e Notação
Dados : provenientes de uma amostra da população de interessey = (y1, y2, ..., yn)P(y), distribuição de probabilidade conjunta de y.
Parâmetros: quantidades, em geral desconhecidas, que estão presentes nos modelos probabilísticos para y e serão representadas por .P(y|), função de verossimilhança de y.
Exemplo : estimação de taxas yi , casos da “doença” na área i ei , número de casos esperados na área i segunda a taxa de
referência
Parâmetros a serem estimados ρi : o risco relativo (desconhecido) da “doença” em relação à
taxa de referência
eiρi representa o número de casos esperados (média) na área i
Na inferência clássica, boas estimativas para ρi são os valores que maximizam a função de verossimilhança P(y|ρi ).
Estes valores são a estimativa de máxima verossimilhança O modelo para os dados é a função de verossimilhança P(y|). Modelo : yi ∼ Poisson(eiρi)
O Método da Máxima Verossimilhança
Na inferência clássica, os parâmetros de um modelo são tratados como quantidades fixas (não aleatórias), porém desconhecidas.
O método da máxima verossimilhança é considerado bom em muitos casos.
Porém, quando a forma de P(y|) é complexa e/ou quando o número de parâmetros envolvidos é grande, este método torna-se difícil de implementar.
A abordagem Bayesiana
Na inferência Bayesiana, os parâmetros são tratados como quantidades aleatórias.
O modelo estatístico não é mais somente P(y|) e sim P(y,), a distribuição conjunta dos dados y e dos parâmetros .
As estimativas para não serão somente valores, mas sim uma distribuição de probabilidades.
P(|y) é a distribuição de probabilidades dos parâmetros “ à luz” dos dados y.
A abordagem Bayesiana
Como obter P(|y) ? P(θ,y)P(θ|y) =
P(y)
Probabilidade a priori
Probabilidade a posteriori
Verossimilhança
P(θ,y) P(y|θ) P(θ)P(θ|y) = =
P(y) P(y)
Pela Regra de Bayes
P() expressa a incerteza sobre antes de observarmos os dados y que dependem dele (a priori) .
P(|y) expressa a incerteza sobre depois de observarmos os dados y que dependem dele (a posteriori).
De posse de P(|y), podemos examinar qualquer aspecto de (média, variância, percentis, probabilidade de assumir determinados valores, etc.) (“Full Posterior Distribution”)
A abordagem Bayesiana
Passos para obtenção de P(|y)
1. Escolher um modelo probabilístico para P(y|) – a função de verossimilhança;
2. Escolher um modelo probabilístico para P() – a distribuição a priori ;
3. Aplicar a regra de Bayes e calcular P(|y).
Exemplo : modelo Gamma-Poisson
y é o número de casos da “doença” em certa área ; e é o número esperado de casos da “doença” em
certa área; ρ é o risco relativo (desconhecido) da “doença” em
relação à taxa de referência nesta área;
Modelo para P(y|) : y ~ Poisson (e )
!y
e ey
e
)|P(y
Exemplo : modelo Gamma-Poisson
Modelo para P() : ~ Gamma (,)
1
0
1
0)P( )|P(y
)P( )|P(y)P( )|P(y
P(y)
)P( )|P(yy)|P(
ddyP ),(
Cálculo da posteriori P(|y)hiperparâmetros
|y ~ Gamma ( + y , + e )
0 e1 ,)(
)()|( )()(
)(ye
e
e
yyP
Exemplo : modelo Gamma-Poisson
Priori´s : Gamma (0.5 , 0.5), Gamma (1,1) e Gamma (10,10)
Suponha que y = 4 e e = 6.5
Posteriori´s : Gamma (4.5 , 7.0), Gamma (5,7.5) e Gamma(14,16.5)
Exemplo : modelo Gamma-Poisson
PrioriQuantis a posteriori Média a
posteriori0.025 0.500 0.975
Gamma (0.5,0.5) 0.421 0.596 0.813 0.643
Gamma (1 , 1) 0.449 0.623 0.837 0.673
Gamma (10 , 10) 0.687 0.828 0.988 0.855
Intervalo de Credibilidade de 95%
Modelo espacial bayesiano para taxas em pequenas
áreas
Modelo espacial bayesiano para taxas em pequenas áreas Modelo geral yi ∼ Poisson(µi) = Poisson(eiρi)
yi é o número de casos da “doença” na área i ;
ei é o número esperado de casos da “doença” na área i ; ρi é o risco relativo (desconhecido) da “doença” em
relação à taxa de referência ; (padronização)
log µi = log ei + θi ; θi denota o log do risco relativo (θi = log ρi , ou
seja, ρi = exp(θi) ) Modelo de efeitos fixos (máxima
verossimilhança) Quanto menor o no. esperado de casos, maior a variabilidade na estimação
ey
pi
i
i 2e
ypVar
i
i
i
Qual é o problema com taxas brutas ?
Taxa bruta
Taxa suavizada
Qual é o problema com taxas brutas ?
Taxa bruta
Taxa suavizada
Qual é o problema com taxas brutas ?
Taxa bruta
Taxa suavizada
Modelo de efeitos aleatórios ρi ∼ Gamma(ψi, i) µρ = ψi/i e σ2
ρ = ψi/i2 ;
Gamma “+” Poisson “=” Gamma ; P(ρi|y) ∼ Gamma(ψi + yi, i + ei).
• Quanto maior o número de dados, mais próximo de yi/ei estará a estimativa do risco relativo ;
• Quanto menor o número de dados, mais próximo de ψi/i estará a estimativa de risco relativo.
Modelo espacial bayesiano para taxas em pequenas áreas
ii
iii e
y
Modelo espacial bayesiano para taxas em pequenas áreas
Os parâmetros ψi e i são os hiperparâmetros.
Como saber quem ψi e i ? Podem ser estimados (Bayes empírico) ;
Exemplo: Mersey
priori hiperprioris
P(ρ, ψ, |y) ∝ P(y|ρ)P(ρ|ψ, )P(ψ)P()
Pode-se estabelecer uma distribuição a priori para ψ e φ (hiperprioris).
Modelo espacial bayesiano para taxas em pequenas áreas
Modelo espacialmente estruturado (abordagem completa)
yi ∼ Poisson(µi) = Poisson(eiρi)
log µi = log ei + θi ; θi = log ρi
θi = α + i + i , onde α é o log do risco relativo médio sobre todas
as áreas ; i é a parte não-espacialmente estruturada
do log do risco relativo da área i ; (média zero)
i é a parte espacialmente estruturada do log do risco relativo da área i;
Modelo espacial bayesiano para taxas em pequenas áreas Prioris :
α ~ Uniforme [- ; ] (“flat”) i ~ Normal (0 ; 2)
A priori para νi é um modelo autoregressivo condicional Gaussiano (CAR)
wij são pesos representando a adjacência das áreas. A definição mais comum para wij são valores binários :
wij = 1, se as áreas i e j são adjacentes; wij = 0, caso contrário.
ij ijij ij
ij jijiji ww
wN
2
,~|
Modelo espacial bayesiano para taxas em pequenas áreas
Modelo completo yi ∼ Poisson(µi) = Poisson(eiρi)
log µi = log ei + α + i + i
α ~ Uniforme [- ; ] i ~ Normal (0 ; 2
)
νi ~ CAR(2) Hiperprioris Gamma para τ = 1/ 2
e
para τ = 1/2 (τ e τ representam a precisão)
Exemplo: leishmaniose visceral (leish_inpe_spatial)
Modelo espacial bayesiano para taxas em pequenas áreas
Leishmaniose Visceral Humana (BH – 1994/95)
Taxa bruta Taxa suavizada
Taxa bruta Taxa suavizada
Taxa bruta Taxa suavizada
Modelo espacial bayesiano para taxas em pequenas áreas
taxa[29] sample: 11001
0.0 10.0 20.0 30.0
0.0
0.05
0.1
0.15
taxa[39] sample: 11001
0.0 5.0 10.0
0.0 1.0 2.0 3.0 4.0
Modelo espacial bayesiano para taxas em pequenas áreas
Modelo espaço-temporal
yi ∼ Poisson(µi) = Poisson(eiρi)
log µi = log ei + θi ; θi = log ρi
θi = α + i + i + 0t + it, onde
• α , i e i são definidos como antes ;
• 0 ~ Uniforme [- ; ] e i ~ CAR(2)
representam a parte temporal do modelo
Exemplo: leishmaniose visceral (leish_inpe_spatial_temporal)
Modelo espacial bayesiano para taxas em pequenas áreas
Previsão para o quarto período
Modelo:
No. de parâmetros : 365
Tempo de simulação de 10000 iterações:
112 segundos
AMD Athlon XP2000 1.67 GHz 512 Mb RAM
Modelo espacial bayesiano para taxas em pequenas áreas
Modelo espaço-temporal (alternativo)
yi ∼ Poisson(µi) = Poisson(eiρi)
log µi = log ei + θi ; θi = log ρi
• Modelo linear para θi
θi = α0 + αi + i (t-1), onde
• α0 ~ Uniforme [- ; ]
• αi ~ CAR(2α) e i ~ CAR(2
β) são parâmetros de uma equação de regressão ;
Exemplo: leishmaniose visceral (leish_inpe_dissert)
Modelo espacial bayesiano para taxas em pequenas áreas
Previsão para o quarto período
Modelo linear
No. de parâmetros : 243
Tempo de simulação de 10000 iterações:
51 segundos
Modelo espacial bayesiano para taxas em pequenas áreas
Modelo espaço-temporal (alternativo)
yi ∼ Poisson(µi) = Poisson(eiρi)
log µi = log ei + θi ; θi = log ρi
θi = α0 + αi + i (t-1) + i (t-1)2 , onde
• α0 , αi e i são definidos como antes ;
• i ~ CAR(2) ;
Exemplo: leishmaniose visceral (leish_inpe_dissert)
Modelo espacial bayesiano para taxas em pequenas áreas
Previsão para o quarto período
Modelo quadrático
No. de parâmetros : 364
Tempo de simulação de 10000 iterações:
69 segundos
Referências Bibliográficas
Assunção, R. M. ; Reis, I. A. ; Oliveira, C. L. Diffusion and Prediction of Leishmaniasis in a Large Metropolitan Area in Brasil with a Space-Time Model. Statistics in Medicine (2001), 20 : pp. 2319- 2335
Spiegelhalter, D. ; Thomas, A. ;Best, N. ;Lunn, D. WinBUGS User Manual , (References), version 1.4, (2003)
Back-up slides
Bayes Empírico yi ∼ Poisson(µi) = Poisson(eiρi)
ρi ∼ Gamma(ψi, i) E[ρi] = ψi/i e Var[ρi] = ψi/i2
2
2 1s e
i
i
i
ii
i
ii
eeey
ˆˆˆ
ˆˆ
E[yi] = Eρ[Ey[yi| ρi]] = Eρ[eiρi] = ei ψi/i
Var [yi] = Eρ[Vary[yi| ρi]] + Varρ[Ey[ yi| ρi]]
= ei ψi/i + (ei)2 ψi/i2
2 e syVaryyE ii
Pelo Método dos Momentos
Então
O que nos leva a
Igualando (1) e (2), temos
Bayes Empírico
(2) s
e (1) 22
ii
i
ii
i
ii
eee
y
ˆ
ˆˆ
ˆˆ
(2) s
e (1) s 2
2
2 y
y
y
yei
ii
ˆˆ
s
Var e 2
2
2ii
ii
ii
ii e
y
e
yE
ˆ
ˆˆˆ
Padronização direta das taxas
r é taxa de referência da “doença”; Popi é a população sob risco da área i ; ei = r x Popi , é o número esperado de casos
na área i ;
i é o risco da “doença” na área i ; ρi = i / r é o risco relativo (desconhecido) da
“doença” em relação à taxa de referência ; ei x ρi = (r x Popi) x (i / r) = Popi x i ;
Cálculo da posteriori P(|y)
ddyP )P( )|P(y
)P( )|P(y
),(
)P( )|P(y
P(y)
)P( )|P(yy)|P(
Distribuição Gaussiana (Normal)
21 1
( ) exp22
ii
yf y
n
i
in
yyP
1
2
2
1exp
2
1),|(
- < yi < , - < <
> 0
, y = (y1, y2, ..., yn)
y1, y2, ..., yn i.i.d
Distribuição Beta
0 ; 0
1 0 , )()(
)()( )1( 11
xxf xx
Distribuição Gamma (, )
0 e 0
0 1
xexxf x ,)(
)(