Estimação de Máxima Verossimilhança · PDF file3...

3

Click here to load reader

Transcript of Estimação de Máxima Verossimilhança · PDF file3...

Page 1: Estimação de Máxima Verossimilhança · PDF file3 Estimação da matriz informação ′ ′ σ σ 2 ∑ i 4 1-E[ ]= n 2 x x 0i i H 0 Testes de Hipóteses clássicos

1

Econometria

Estimação de Máxima Verossimilhança

Estimação de Máxima

Verossimilhança

Define uma classe de estimadores com base em uma distribuição particular que por hipótese gerou as variáveis aleatórias observadas.

Principal vantagem dos estimadores de Máxima Verossimilhança: dentre os estimadores consistentes e assintoticamente normais, todos têm propriedades assintóticas ótimas.

Principal desvantagem: não são estimadores robustos a falhas nas hipóteses sobre a distribuição das variáveis aleatórias. Estimadores muito dependentes de hipóteses particulares.

EMV

A distribuição de uma variável aleatória observada é escrita como função dos parâmetros a serem estimados

P(yi|dados,β) = densidade de probabilidade| parâmetros.

A função de verossimilhança é construída com base na densidade.

Construção: Função de densidade de probabilidade conjunta da amostra observada – geralmente um produto quando os dados vêm de uma amostra aleatória.

EMV

O log da função de verossimilhança: log-L(θθθθ|dados)Equações de verossimilhanças:

(1/n)Σi ∂logf(yi| θθθθ)/∂θθθθEMV = 0.

“Condição de primeira ordem” para maximização

Uma condição de momento – seu análogo é o resultado fundamental - E[∂log-L/∂θθθθ] = 0.

Tempo médio antes da falha

Estimando o tempo médio antes da falha, θ, de lâmpadas. yi = vida útil da lâmpada.

f(yi|θ)=(1/θθθθ)exp(-yi/θ)L(θ)=Πi f(yi|θ)= θθθθ-N exp(-Σyi/θθθθ)logL (θ)=-Nlog (θ) - Σyi/θEquação de verossimilhança:

∂logL(θ)/∂θ=-N/θ + Σyi/θ2 =0Note que: ∂logf(yi|θ)/∂θ = -1/θ + yi/θ2

Como E[yi]= θ, E[∂logf(θ)/∂θ]=0.

Propriedades do EMV

Aproximação linear de taylor para a condição de primeira ordem:

g(θθθθML) = 0 ≈ g(θθθθ) + H(θθθθ) (θθθθML - θθθθ)

(sob condições de regularidade, termos de ordem superior tendem a zero quando a amostra cresce)

1) Consistência

2) Normalidade assintótica

3) Eficiência: o limite inferior de Cramer – Rao é atingido (versão assintótica de Gauss Markov)

4) Invariância. A estimação de funções não linearers dos parâmetros é relativamente fácil.

Page 2: Estimação de Máxima Verossimilhança · PDF file3 Estimação da matriz informação ′ ′ σ σ 2 ∑ i 4 1-E[ ]= n 2 x x 0i i H 0 Testes de Hipóteses clássicos

2

Modelo linear normal

Definição da função de verossimilhança – densidade conjunta dos dados observados, escrita como função dos parâmetros que gostaríamos de estimar.

Definição do estimador de máxima verossimilhança como a função dos dados observados que maximiza a função de verossimilhança ou seu logarítimo.

Para o modelo: yi = β′β′β′β′xi + εi, onde εi ~ N[0,σ2], os EMV para ββββ e σ2 são:b = (X′′′′X)-1X′′′′y e s2 = e′′′′e/n. MQO é o EMV para as inclinações, mas a estimativa da variância não faz a correção pelos gl, sendo um EMV viesado.

Modelo linear normal

Log da função de verossimilhança = Σi log f(yi|θθθθ) = soma dos logs das densidades.

Para o modelo de regressão linear com termos de erro normalmente distribuídos, temos:

log-L = Σi [ - ½log2π-½logσ2

- ½(yi – xi′β′β′β′β)2/σ2 ].

Equações de verossimilhança

O estimador é definido conforme:∂log-L/∂θθθθ to 0. (equação de verossimilhança)

O vetor de derivadas da funçao de verossimilhança é a função score. Para o modelo de regressão,

g = [∂log-L/∂ββββ , ∂log-L/∂σ2]’ = ∂log-L/∂ββββ = Σi [(1/σ2)xi(yi - xi′β′β′β′β) ]

∂log-L/∂σ2 = Σi [-1/(2σ2) + (yi - xi′β′β′β′β)2/(2σ4)]

Para o modelo de regressão linear , a primeira derivada é:

(1/σ2)X′′′′(y - Xββββ) e (1/2σ2) Σi [(yi - xi′β′β′β′β)2/σ2 - 1](K×1) (1×1)

Equações de momento

Note que g = Σi gi é um vetor aleatório e que cada termo na soma tem esperança igual a zero. Desta forma, E[(1/n)g] = 0. O estimador é encontrado se acharmos o θθθθ que torne a média amostral dos gs igual a 0.

E[gi(ββββ,σ2)] = 0.

(1/n)Σi gi(b ,s2) = 0. Exemplo:E[xi] = µE[xi - µ] = 0. Estimamos µ achando a função dos dados que dá (1/n)Σi (xi - m) = 0,

(média amostral). Condições de regularidade importantes: primeira derivada tem valor

esperado igual a 0.

Matriz informacional

O negativo da matriz de segundas derivadas da log-verossimilhança,

-H =

Matriz de informação. É uma matriz aleatória.

− −∑

∂∂ ∂

2 log

'

f i

i θθθθ θθθθ

Hessiana do modelo linear

2 2

22

2 2

2 2 2

i2i i

22

i i2 4i i

log L log L'log L

= - ' log L log L

'

1' (y ' )

1 =

1 1(y ' ) ' (y ' )

2

∂ − ∂ − ∂ ∂ ∂ ∂σ∂ − − ∂ ∂ ∂ − ∂ − ∂σ ∂ ∂σ ∂σ

− σ

σ − − σ σ

∑ ∑

∑ ∑

i i i i

i i i

x x x x

x x x

β β ββ β ββ β ββ β βθ θθ θθ θθ θ

ββββ

ββββ

β ββ ββ ββ β

Elementos fora da diagonal terão esperança igual a zero!

Page 3: Estimação de Máxima Verossimilhança · PDF file3 Estimação da matriz informação ′ ′ σ σ 2 ∑ i 4 1-E[ ]= n 2 x x 0i i H 0 Testes de Hipóteses clássicos

3

Estimação da matriz informação

′ ′ σ σ

∑2 i

4

1

-E[ ]= n

2

i ix x 0H

0

Testes de Hipóteses clássicos

Razão de verossimilhança:Baseado na proposição de que restrições podem ser “ruins”Será que a redução no critério (log da verossimilhança) é alto?

Multiplicador de Lagrange:Examinar as condições de primeira ordem.Se o gradiente é significativamente “não zero” para o estimador restrito.

Wald: já visto.