Análise de dados sob normalidade

25
Modelo Normal An´ alise de dados sob normalidade Prof. Caio Azevedo Prof. Caio Azevedo An´ alise de dados sob normalidade

Transcript of Análise de dados sob normalidade

Page 1: Análise de dados sob normalidade

Modelo Normal

Analise de dados sob normalidade

Prof. Caio Azevedo

Prof. Caio Azevedo

Analise de dados sob normalidade

Page 2: Análise de dados sob normalidade

Modelo Normal

Resultados probabilısticos importantes

Se Y |x ∼ N(x , σ2) e X ∼ N(a, b), entao Y ∼ N(a, σ2 + b).

Se X |y ∼ N(µ, y/ν) e y ∼ IG (a, b), entao

(X ,Y ) ∼ NIG (µ, ν, a, b)

e

X ∼ t(2a)

(µ,

√b

νa

).

Prof. Caio Azevedo

Analise de dados sob normalidade

Page 3: Análise de dados sob normalidade

Modelo Normal

Variancia conhecida

Seja X1|θ, ...,Xn|θ,θ = (µ, σ2) uma amostra aleatoria de

X |θ ∼ N(µ, σ2).

Se σ2 conhecido, e µ ∼ N(a, b), (famılia conjugada) entao

µ|x ∼ N(λ, ψ), em que

ψ =σ2b

nb + σ2;λ = ψ

(a

b+

nx

σ2

)Distribuicao preditiva a posteriori de uma unica observacao

Xn+1|x ∼ N(λ, ψ + σ2).

Prof. Caio Azevedo

Analise de dados sob normalidade

Page 4: Análise de dados sob normalidade

Modelo Normal

Media conhecida

Seja X1|θ, ...,Xn|θ,θ = (µ, σ2) uma amostra aleatoria de

X |θ ∼ N(µ, σ2).

Se µ conhecido, e σ2 ∼ IG (a, b), (famılia conjugada) entao

σ2|x ∼ IG (a∗, b∗), em que

a∗ =n

2+ a; b∗ =

1

2

n∑i=1

(xi − µ)2 + b

Distribuicao preditiva a posteriori para uma unica observacao

Xn+1|x ∼ t(2a∗)

(µ,√

b∗

a∗

)

Prof. Caio Azevedo

Analise de dados sob normalidade

Page 5: Análise de dados sob normalidade

Modelo Normal

Ambos os parametros desconhecidos

Famılia conjugada (normal inversa gama)

µ|σ2 ∼ N(λ, σ2/ν)

σ2 ∼ IG(a, b)

Posteriori conjunta

µ|x, σ2 ∼ N(c , σ2/ν∗)

σ2|x ∼ IG(a∗, b∗)

em que c = nx+νλn+ν , ν∗ = ν + n,

b∗ = 12

[nνn+ν (x − λ)2 + (n − 1)s2

]+ b, a∗ = n

2 + a e

s2 = 1n−1

∑ni=1 (xi − x)2.

Prof. Caio Azevedo

Analise de dados sob normalidade

Page 6: Análise de dados sob normalidade

Modelo Normal

Cont.

Alem disso, µ|x ∼ t(2a∗)

(c ,√

b∗

ν∗a∗

).

Distribuicao preditiva a posteriori para uma unica observacao

Xn+1|x ∼ t(2a∗)

(c ,√

b∗

a∗ν∗∗

), em que ν∗∗ = ν∗

1+ν∗ .

Prof. Caio Azevedo

Analise de dados sob normalidade

Page 7: Análise de dados sob normalidade

Modelo Normal

Exemplo 11: Distribuicoes normais com variancias

desconhecidas porem iguais

Xi |θ ∼ N(µ1, σ2), i = 1, 2, ..., n.

Yj |θ ∼ N(µ2, σ2), i = 1, 2, ....,m.

Xi |θ⊥Yj |θ,∀i , j e θ = (µ1, µ2, σ2).

(Exercıcio) Priori de Jeffreys sob independencia:

p(θ) = (σ2)−111Θ(θ), em que

11Θ(θ) = 11R(µ1)11R(µ2)11R+ (σ2)

Prof. Caio Azevedo

Analise de dados sob normalidade

Page 8: Análise de dados sob normalidade

Modelo Normal

Exemplo 11 (cont.)

Pode-se provar que

p(θ|x, y) ∝ e{−nσ2 (µ1−x)2}(σ2)−1/2e{−

mσ2 (µ2−y)2}(σ2)−1/2

× (σ2)−(k/2+1)e−ks2

2σ2 11Θ(θ)

em que k = n + m − 2, s2 = 1k

[∑ni=1 (xi − x)2 +

∑mj=1 (yj − y)2

]Ou seja,

µ1|(σ2, x, y) ∼ N(x , σ2/n), µ2|(σ2, x, y) ∼ N(y , σ2/m) e

σ2|(x, y) ∼ IG (k/2, ks2/2)

Prof. Caio Azevedo

Analise de dados sob normalidade

Page 9: Análise de dados sob normalidade

Modelo Normal

Exemplo 11 (cont.)

Assim, se λ = µ1 − µ2, entao λ|(σ2, x, y) ∼ N(x − y , σ2

(1n + 1

m

)).

Logo, λ|(x, y) ∼ t(k)

(x − y , s

√(1n + 1

m

))Logo, podemos utilizar a distribuicao a posteriori acima para

verificar se µ1 = µ2.

Se X ∼ tν(0, 1) entao Y = δX + µ ∼ tν(µ, δ), logo

pY (y |µ, δ, ν) = 1δpX ((x − µ)/δ|ν)

Alem disso,

λ−(x−y)

s√

( 1n + 1

m )|(x, y) ∼ t(k)(0, 1)

Prof. Caio Azevedo

Analise de dados sob normalidade

Page 10: Análise de dados sob normalidade

Modelo Normal

Exemplo 12: Distribuicoes normais com variancias

desconhecidas e diferentes

Xi |θ ∼ N(µ1, σ21), i = 1, 2, ..., n.

Yj |θ ∼ N(µ2, σ22), i = 1, 2, ....,m.

Xi |θ⊥Yj |θ,∀i , j e θ = (µ1, µ2, σ21 , σ

22).

(Exercıcio) Priori de Jeffreys sob independencia:

p(θ) = (σ21)−1(σ2

2)−111Θ(θ), em que

11Θ(θ) = 11R(µ1)11R(µ2)11R+ (σ21)11R+ (σ2

2)

Prof. Caio Azevedo

Analise de dados sob normalidade

Page 11: Análise de dados sob normalidade

Modelo Normal

Exemplo 12 (cont.)

Pode-se provar que:

µ1|(x, y) ∼ tk1 (x , s1/√n)

µ2|(x, y) ∼ tk2 (y , s2/√m)

σ21 |(x, y) ∼ IG (k1/2, k1s

21/2)

σ22 |(x, y) ∼ IG (k2/2, k2s

22/2)

em que k1 = n − 1, k2 = m − 1, s21 = 1

n−1

∑ni=1(xi − x)2,

s22 = 1

m−1

∑nj=1(yj − y)2, si =

√s2i , i = 1, 2.

Prof. Caio Azevedo

Analise de dados sob normalidade

Page 12: Análise de dados sob normalidade

Modelo Normal

Exemplo 12 (cont.)

Definindo-se λ = µ1 − µ2 e τ = λ−(x−y)√s21n +

s22m

, podemos provar que

τ |(x, y) ≈ t(b)(0, a)

em que a =√

(b − 2)c1/b, b = 4 + c21/c2,

c1 = k1

k1−2 sin2u + k2

k2−2cos2u,

c2 =k2

1

(k1−2)2(k1−4) sin4u +

k22

(k2−2)2(k2−4)cos4u

Por outro lado podemos, simplesmente, obter uma aproximacao

numerica para a distribuicao de λ|(x, y).

Prof. Caio Azevedo

Analise de dados sob normalidade

Page 13: Análise de dados sob normalidade

Modelo Normal

Exemplo 12 (cont.)

Uma vez que µ1|(x, y) ∼ tk1 (x , s1/√n)⊥µ2|(x, y) ∼ tk2 (y , s2/

√m),

podemos simular R variaveis aleatorias, mutuamente independentes,

com distribuicoes t especıficas, e obter λ para cada par, ou seja

Simular (µ(r)1 , µ

(r)2 ), r = 1, ....,R (das respectivas distribuicoes) e

calcular λ(r) = µ(r)1 − µ

(r)2 .

Prof. Caio Azevedo

Analise de dados sob normalidade

Page 14: Análise de dados sob normalidade

Modelo Normal

Exemplo 12 (cont.)

Para comparar as variancias, basta notar que

k1s21

σ21|(x, y) ∼ χ2

(k1)⊥k2s

22

σ22|(x, y) ∼ χ2

(k2) e, assim

s22

s21

ψ|(x, y) ∼ F(k2,k1)

em que ψ =σ2

1

σ22.

Prof. Caio Azevedo

Analise de dados sob normalidade

Page 15: Análise de dados sob normalidade

Modelo Normal

Dados

O conjunto de dados se refere a n = m = 30 observacoes

correspondentes as larguras maximas de cranios humanos, datadas

do perıodo pre-dinastico (grupo 1) e romano (grupo 2),

respectivamente.

Objetivo principal: comparar as medias populacionais das larguras

maximas entre os tipos de cranios (origem).

Prof. Caio Azevedo

Analise de dados sob normalidade

Page 16: Análise de dados sob normalidade

Modelo Normal

Medidas resumo

Origem media var. dp cv(%) min. med. max.

pre-dinastico 131,37 26,31 5,13 3,90 119,00 131,00 141,00

romano 136,17 28,63 5,35 3,93 126,00 137,00 147,00

Prof. Caio Azevedo

Analise de dados sob normalidade

Page 17: Análise de dados sob normalidade

Modelo Normal

Histogramas

pré−dinástico

largura máxima dos crânios

de

nsi

da

de

115 120 125 130 135 140 145

0.0

00

.02

0.0

40

.06

0.0

8

romano

largura maxima dos cranios

de

nsi

da

de

125 130 135 140 145 150

0.0

00

.02

0.0

40

.06

0.0

8

Prof. Caio Azevedo

Analise de dados sob normalidade

Page 18: Análise de dados sob normalidade

Modelo Normal

Boxplots

pré−dinástico romano

12

01

25

13

01

35

14

01

45

boxplot

larg

ura

xim

a d

os

crâ

nio

s

Prof. Caio Azevedo

Analise de dados sob normalidade

Page 19: Análise de dados sob normalidade

Modelo Normal

Graficos de Quantis-quantis N(0,1)

●●

●●

●●

−2 −1 0 1 2

−2

02

Período pré−dinástico

Percentil da N(0,1)

qu

an

til d

os

da

do

s p

ad

ron

iza

do

s

●●

●●

−2 −1 0 1 2

−2

02

Período romano

Percentil da N(0,1)

qu

an

til d

os

da

do

s p

ad

ron

iza

do

s

Prof. Caio Azevedo

Analise de dados sob normalidade

Page 20: Análise de dados sob normalidade

Modelo Normal

Posteriori de ψ

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.0

0.2

0.4

0.6

0.8

1.0

Posteriori de psi

ψ

de

nsi

da

de

Prof. Caio Azevedo

Analise de dados sob normalidade

Page 21: Análise de dados sob normalidade

Modelo Normal

Comparacao das variancias

ICB(ψ; 0, 95) = [0, 437; 1, 931].

HPD(ψ; 0, 95) = [0, 360; 1, 757].

Neste caso, como a transformacao que associa ψ a distribuicao F e

linear, podemos obter o intervalo HPD para transformacao e depois

para ψ, atraves da transformacao inversa.

Os resultados acima nos levam a concluir que σ21 = σ2

2 com uma

credibilidade de 95%.

Prof. Caio Azevedo

Analise de dados sob normalidade

Page 22: Análise de dados sob normalidade

Modelo Normal

Posteriori de λ, σ21 = σ2

2

−8 −6 −4 −2 0 2 4 6 8

0.0

00

.05

0.1

00

.15

0.2

00

.25

0.3

0

Posteriori de lambda

λ

de

nsi

da

de

Prof. Caio Azevedo

Analise de dados sob normalidade

Page 23: Análise de dados sob normalidade

Modelo Normal

Comparacao das medias, supondo iguais as variancias

ICB(ψ; 0, 95) = HPD(ψ; 0, 95) = [−7, 509;−2, 091] (pois a

posteriori e simetrica e unimodal).

P(λ < 0|x) = 0, 9996.

Os resultados acima nos levam a concluir que µ1 < µ2 com uma

credibilidade de 95%.

Prof. Caio Azevedo

Analise de dados sob normalidade

Page 24: Análise de dados sob normalidade

Modelo Normal

Posteriori de λ, σ21 6= σ2

2,R = 3000

Posteriori de lambda

λ

de

nsi

da

de

−12 −10 −8 −6 −4 −2 0

0.0

00

.05

0.1

00

.15

0.2

00

.25

Prof. Caio Azevedo

Analise de dados sob normalidade

Page 25: Análise de dados sob normalidade

Modelo Normal

Comparacao das medias, supondo as variancias diferentes

ICB(ψ; 0, 95) = HPD(ψ; 0, 95) = [7, 592;−2.106] (pois a posteriori e

simetrica e unimodal, neste caso, os resultados sao aproximados).

P(λ < 0|x) = 0, 9987.

Os resultados acima nos levam a concluir que µ1 < µ2 com uma

credibilidade de 95%.

Prof. Caio Azevedo

Analise de dados sob normalidade