TEORIA DA ESTIMAÇÃO E ESTIMADORES DE MÁXIMA … files/ml.pdf · terá, por definição, de ser...

29
M. Mendes de Oliveira Excerto das notas pessoais sobre: TEORIA DA ESTIMAÇÃO E ESTIMADORES DE MÁXIMA VEROSIMILHANÇA Introdução Definição 1 (Estimador; estimativa) Seja Y = [Y 1 Y 2 … Y n ]' uma amostra aleatória de n realizações de uma variável aleatória Y com função de densidade de probabilidade (f.d.p.) f(Y; θ ) caracterizada pelo vector (q×1) de parâmetros θ . Chama-se estimador (pontual) de θ a qualquer função θ (Y) que faça uso da informação contida numa amostra da população f(Y; θ ) para obter um conjunto de números que se possa considerar representarem aproximadamente o valor desconhecido dos parâmetros em θ . Chama-se estimativa à concretização da função θ (Y) para uma dada amostra. Não acarreta nenhuma modificação substancial da Definição 1 a extensão ao caso em que Y é um vector p-dimensional de variáveis aleatórias. Nesse caso, a cada amostra corresponderá uma matriz (n×p), em vez de um vector (n×1). Definição 2 (Espaço da amostra e espaço dos parâmetros) Chama-se espaço da amostra ao conjunto de todas as matrizes Y possíveis (de dimensão (n×1) no caso univariado ou de dimensão (n×p) no caso multivariado). Por sua vez, designa-se por espaço dos parâmetros o conjunto de todos os vectores θ que satisfazem as restrições do modelo. Se Y é uma variável aleatória unidimensional, o espaço da amostra é, geralmente, n ou um subconjunto de n . Se Y é uma variável aleatória p- dimensional, o espaço da amostra é np ou um seu subconjunto.O espaço dos parâmetros é q , se as restrições sobre θ se limitarem à dimensão, q. Designando por A o espaço da amostra e por B o espaço dos parâmetros, um estimador é uma aplicação de A em B. Definição 3 (Identificabilidade e estimabilidade) Diz-se que um vector θ de parâmetros é identificável se θ (1) θ (2) implica f(Y; θ (1) ) f(Y; θ (2) ) para algum Y, em que θ (1) e θ (2) designam dois elementos de B. Diz-se que um vector θ de parâmetros é estimável se θ (1) θ (2) implica L(Y; θ (1) ) L(Y; θ (2) ) para quase todo o YA , em que se designou por L(Y; θ ) a família de funções de densidade de probabilidade definida sobre A × B. Exemplo 1

Transcript of TEORIA DA ESTIMAÇÃO E ESTIMADORES DE MÁXIMA … files/ml.pdf · terá, por definição, de ser...

M. Mendes de Oliveira Excerto das notas pessoais sobre:

TEORIA DA ESTIMAÇÃO E ESTIMADORES DE MÁXIMA VEROSIMILHANÇA

Introdução Definição 1 (Estimador; estimativa) Seja Y = [Y1 Y2 … Yn]' uma amostra aleatória de n realizações de uma variável aleatória Y com função de densidade de probabilidade (f.d.p.) f(Y; θθθθ ) caracterizada pelo vector (q×1) de parâmetros θθθθ . Chama-se estimador (pontual) de θθθθ a qualquer função �θθθθ (Y) que faça uso da informação contida numa amostra da população f(Y; θθθθ ) para obter um conjunto de números que se possa considerar representarem aproximadamente o valor desconhecido dos parâmetros em θθθθ . Chama-se estimativa à concretização da função �θθθθ (Y) para uma dada amostra. Não acarreta nenhuma modificação substancial da Definição 1 a extensão ao caso em que Y é um vector p-dimensional de variáveis aleatórias. Nesse caso, a cada amostra corresponderá uma matriz (n×p), em vez de um vector (n×1). Definição 2 (Espaço da amostra e espaço dos parâmetros) Chama-se espaço da amostra ao conjunto de todas as matrizes Y possíveis (de dimensão (n×1) no caso univariado ou de dimensão (n×p) no caso multivariado). Por sua vez, designa-se por espaço dos parâmetros o conjunto de todos os vectores θθθθ que satisfazem as restrições do modelo. Se Y é uma variável aleatória unidimensional, o espaço da amostra é, geralmente, ℜn ou um subconjunto de ℜn. Se Y é uma variável aleatória p-dimensional, o espaço da amostra é ℜnp ou um seu subconjunto.O espaço dos parâmetros é ℜq, se as restrições sobre θθθθ se limitarem à dimensão, q. Designando por A o espaço da amostra e por B o espaço dos parâmetros, um estimador é uma aplicação de A em B. Definição 3 (Identificabilidade e estimabilidade) Diz-se que um vector θθθθ de parâmetros é identificável se θθθθ (1) ≠ θθθθ (2) implica f(Y; θθθθ (1)) ≠ f(Y; θθθθ (2)) para algum Y, em que θθθθ (1) e θθθθ (2) designam dois elementos de B. Diz-se que um vector θθθθ de parâmetros é estimável se θθθθ (1) ≠ θθθθ (2) implica L(Y; θθθθ (1)) ≠ L(Y; θθθθ (2)) para quase todo o Y∈A , em que se designou por L(Y; θθθθ ) a família de funções de densidade de probabilidade definida sobre A × B. Exemplo 1

2

_____________________________________________________________________________________________________ Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira, 18.Ago.2000

Considere-se o modelo

Y = 1

0

,

,

se Y ,

se Y

*

*

>

��

��

γ

γ

em que Y* = β + u e u ~ N(0, σ2). Tem-se, então,

P(Y = 1) = P(Y* > γ) = P(β + u > γ) = P(uσ

> γ β

σ−

) = 1 − Φ(γ β

σ−

),

em que Φ(x) designa a função de distribuição normal reduzida,

Φ(x) = 12

2

2

π e

−∞�

tx

dt ,

e, para P(Y = 0),

P(Y = 0) = Φ(γ β

σ−

).

Então, para a função de probabilidade f(Y;β,γ,σ), tem-se

f(Y;β,γ,σ) = [1 − Φ(γ β

σ−

)]Y [Φ(γ β

σ−

)](1−Y).

Sejam θθθθ (1) e θθθθ (2), respectivamente, os vectores de componentes β, γ, σ e 2β, 2γ, 2σ, com σ > 0. Apesar de ser θθθθ (1) ≠ θθθθ (2), f(Y; θθθθ (1)) = f(Y; θθθθ (2)) e os parâmetros β, γ e σ

não são identificáveis. Contudo, é identificável o parâmetro θ = γ β

σ−

, já que, a θ(1) e

θ(2) diferentes, corresponderão, geralmente, f(Y;θ(1)) e f(Y;θ(2)) diferentes. Exemplo 2 Considere-se, agora, o modelo Y = β + u, com u ~ N(0, σ2). Vem

f(Y;β,σ) = 12

2 2

σ π

βσ e

-(Y- )2

e, para amostras aleatórias de Y de dimensão n,

L(Y;β,σ) = (2πσ2)−n/2 exp[ −1

2 2σ(Y - βi)'(Y - βi)],

em que Y é o vector de componentes Y1, Y2, …, Yn e i o vector (n×1) de componentes todas iguais a 1. Os parâmetros β e σ são identificáveis e podem, geralmente, ser

3

_____________________________________________________________________________________________________ Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira, 18.Ago.2000

estimados. Contudo, há matrizes Y com as quais não é possível estimar σ: por exemplo, todas as matrizes com uma única componente (n = 1) ou as de fórmula geral Y = ci, em que c designa uma constante qualquer. Propriedades dos estimadores Um estimador não é senão uma fórmula ou uma "receita" (Kennedy (1998), p. 4) para transformar dados em estimativas. Havendo uma infinidade de estimadores possíveis em cada situação, a escolha entre eles terá de fazer-se segundo algum critério. Um primeiro, e muitas vezes esquecido, critério é o da exequibilidade: um estimador terá de ser definido em função, apenas, de grandezas observáveis. Custo de cálculo é outro factor a ter em conta. Critérios mais exigentes a que se recorre usualmente na comparação entre estimadores são passados em revista na sequência. Definição 4 (Estimador cêntrico) Diz-se que �θθθθ (Y) é um estimador cêntrico do vector de parâmetros θθθθ se for E( �θθθθ ) = θθθθ . Um estimador cêntrico de θθθθ pode não existir, ou pode suceder que não exista o valor esperado de um "bom" estimador de θθθθ . Por outro lado, interessam-nos, geralmente, estimadores cuja distribuição de probabilidade esteja "concentrada" em torno do verdadeiro valor do parâmetro. O grau de dispersão pode ser aferido pelo erro quadrático médio, E( �θ − θ)2 para um estimador escalar, ou E[( �θθθθ − θθθθ )'( �θθθθ − θθθθ )] para um vector de estimadores. Mas não há estimadores que minimizem o erro quadrático médio para qualquer θθθθ ∈ B: o estimador �θθθθ (Y) tem erro quadrático médio nulo se for θθθθ = �θθθθ , enquanto o estimador ~θθθθ (Y) tem erro quadrático médio nulo se for θθθθ = ~θθθθ . Por outro lado, o critério de minimização do erro quadrático médio conduz frequentemente a estimadores que dependem de grandezas desconhecidas. É usual, por isso, restringir-se a selecção de estimadores com erro quadrático médio mínimo ao conjunto dos estimadores cêntricos, o que conduz à busca de estimadores cêntricos com variância mínima. Definição 5 (Estimador cêntrico de variância mínima) Diz-se que �θθθθ (Y) é o estimador cêntrico de variância mínima de θθθθ (ou estimador MVU, do inglês minimum variance unbiased) se for semi-definida positiva a matriz [Var( ~θθθθ ) − Var( �θθθθ )], qualquer que seja o estimador ~θθθθ tal que E( ~θθθθ ) = θθθθ . Há uma forma equivalente de expressar a condição referida na definição anterior que é, muitas vezes, de emprego mais prático. Considere-se uma qualquer combinação linear dos estimadores em �θθθθ , seja c �θθθθ , em que c é um vector (1×q) de constantes. Tem-se

Var(c �θθθθ ) = c Var( �θθθθ ) c' e, para um estimador alternativo, ~θθθθ ,

4

_____________________________________________________________________________________________________ Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira, 18.Ago.2000

Var(c ~θθθθ ) = c Var( ~θθθθ ) c'.

Então, a condição "[Var( ~θθθθ ) − Var( �θθθθ )] semi-definida positiva" é equivalente à condição "Var(c ~θθθθ ) ≥ Var(c �θθθθ ) para todo o c", permitindo substituir uma comparação entre matrizes por uma comparação entre escalares. Faz-se uso dessa equivalência na demonstração da proposição seguinte. Proposição 1 (Teorema da unicidade do estimador MVU) Se existir um estimador MVU, é único. Demonstração: Sejam �θθθθ (1) e �θθθθ (2) dois estimadores MVU de θθθθ , com matrizes de variâncias e covariâncias A = Var( �θθθθ (1)) e B = Var( �θθθθ (2)), respectivamente. Comece-se por estabelecer que terá de ser A = B, porquanto, sendo �θθθθ (1) MVU, terá, por definição, de ser semi-definida positiva a matriz (B − A) e, sendo �θθθθ (2) MVU, terá, também, de ser semi-definida positiva a matriz (A − B). As duas condições só são compatíveis se for A = B. Considere-se, agora, para qualquer c, o escalar Var(c �θθθθ (1) − c �θθθθ (2)) que, sendo uma variância, terá de ser necessariamente não negativo. Mas Var(c �θθθθ (1) − c �θθθθ (2)) ≥ 0 � cAc' + cBc' − 2 Cov(c �θθθθ (1), c �θθθθ (2)) ≥ 0 � 2 cAc' − 2 Cov(c �θθθθ (1), c �θθθθ (2)) ≥ 0 � cAc' ≥ Cov(c �θθθθ (1), c �θθθθ (2)) para qualquer c. Seja, por último, um terceiro estimador de θθθθ , dado por

�θθθθ (3) = 12

( �θθθθ (1) + �θθθθ (2)).

É fácil verificar que se trata de um estimador cêntrico e tem matriz de variâncias e covariâncias

Var( �θθθθ (3)) = 14

Var( �θθθθ (1)) + 14

Var( �θθθθ (2)) + 12

Cov( �θθθθ (1), �θθθθ (2)).

Para qualquer c, ter-se-á

Var(c �θθθθ (3)) = 14

Var(c �θθθθ (1)) + 14

Var(c �θθθθ (2)) + 12

Cov(c �θθθθ (1), c �θθθθ (2))

= 12

cAc' + 12

Cov(c �θθθθ (1), c �θθθθ (2))

5

_____________________________________________________________________________________________________ Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira, 18.Ago.2000

e, tendo em atenção a relação de ordem entre os escalares cAc' e Cov(c �θθθθ (1), c �θθθθ (2)) que se mostrou acima,

Var(c �θθθθ (3)) ≤ cAc' = Var(c �θθθθ (1)) = Var(c �θθθθ (2)). O resultado anterior só não será contraditório com a hipótese de serem �θθθθ (1) e �θθθθ (2) estimadores MVU se for

Var(c �θθθθ (3)) = cAc'. Mas, nesse caso, terá de ser cAc' = Cov(c �θθθθ (1), c �θθθθ (2)) e, por conseguinte, Var(c �θθθθ (1) - c �θθθθ (2)) = 0. Então, se a variância é nula, (c �θθθθ (1) − c �θθθθ (2)) é uma constante, para todo o c possível, e os estimadores �θθθθ (1) e �θθθθ (2) apenas poderão diferir por uma constante. Como têm ambos, por hipótese, o mesmo valor médio, essa constante é igual a 0. Então, terá de ser �θθθθ (1) ≡ �θθθθ (2). Quando existem estimadores cêntricos de um parâmetro, é frequente ser possível encontrar o estimador MVU. Contudo, há casos em que não se dispõe de estimadores cêntricos, ou podem não ser definidos os momentos de 1ª e 2ª ordem da distribuição de um estimador. Uma alternativa poderá ser a pesquisa de estimadores consistentes. Definição 6 (Estimador consistente) Diz-se que �θθθθ (Y) é um estimador consistente de θθθθ se, e só se, for plim( �θθθθ ) = θθθθ . A definição apresentada corresponde ao caso de consistência fraca (quando a convergência apenas se dá em probabilidade), que alguns autores distinguem da consistência forte (quando há convergência quase certa) (v.g., Davidson e MacKinnon (1993), p. 119). Há estimadores que são cêntricos e consistentes, mas conhecem-se também casos de estimadores cêntricos que não são consistentes e de estimadores consistentes que não são cêntricos. Nem sequer é verdade que um estimador consistente haja de ser, pelo menos, assimptoticamente cêntrico, expressão cujo significado, de resto, não é claro. Vejam-se as discussões em Davidson e MacKinnon (1993), p. 124, e Greene (2000), p. 121. Um estimador consistente não é único e, encontrado um estimador consistente, é frequentemente possível derivar dele uma infinidade de estimadores consistentes; são-no, por exemplo, todos os que lhe sejam proporcionais por um factor do tipo (n - a)/(n - b), com a e b constantes. Por isso, há interesse em restringir a escolha a estimadores que, de algum modo, exibam uma propriedade comparável à da variância mínima requerida dos estimadores MVU. É frequente que tal exija a consideração da distribuição-limite do estimador e, por força do teorema do limite central, os estimadores com distribuição assimptótica normal são candidatos naturais a esse papel.

6

_____________________________________________________________________________________________________ Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira, 18.Ago.2000

Definição 7 (Estimador assimptoticamente normal eficiente) Seja �θθθθ (Y) um estimador consistente de θθθθ tal que

n ( �θθθθ − θθθθ ) d

→ N(0, ΣΣΣΣ). Diz-se que �θθθθ (Y) é um estimador assimptoticamente normal eficiente de θθθθ , se for semi-definida positiva a matriz (ΛΛΛΛ − ΣΣΣΣ) para qualquer outro estimador ~θθθθ que seja

consistente e possua distribuição-limite normal tal que n ( ~θθθθ − θθθθ ) d

→ N(0, ΛΛΛΛ). O teorema seguinte tem um papel fundamental na pesquisa de estimadores que satisfaçam o requisito de eficiência assimptótica. Teorema de Cramér-Rao O teorema de Cramér-Rao considera uma amostra aleatória {Y1, Y2, ..., Yn} de uma população caracterizada pela função de densidade f(Yi; θθθθ ) e a função de densidade conjunta

L(Y; θθθθ ) = fi

n

( ; )Yi θθθθ=∏

1,

em que Yi designa a iª observação de um vector p-dimensional de variáveis aleatórias. O teorema pressupõe, relativamente às funções L(Y; θθθθ ) e ln L(Y; θθθθ ), condições habitualmente condensadas na expressão "as funções L(Y; θθθθ ) e ln L(Y; θθθθ ) são regulares". Essas condições de regularidade são complexas e, na avaliação da generalidade dos autores, raramente violadas nas aplicações de Econometria. Para uma discussão dessas condições, veja-se, por exemplo, Gouriéroux e Monfort (1995), pp. 131-132, Greene (2000), p. 127, ou Theil (1971), pp.??-??. Entre as condições de regularidade, incluem-se a de existência de derivadas parciais finitas de L(Y; θθθθ ) e de ln L(Y; θθθθ ) até à 3ª ordem e a de não dependência do espaço da amostra (o conjunto de todas as matrizes Y para as quais L(Y; θθθθ ) > 0) relativamente aos parâmetros em θθθθ . Esta última condição é violada, por exemplo, em amostragens de uma população com distribuição uniforme no intervalo [0; θ], porquanto o espaço da amostra é o conjunto dos vectores Y de componentes Y1, Y2, …, Yn tais que 0 ≤ Yi ≤ θ, i = 1, 2, …, n. Proposição 2 (Teorema de Cramér-Rao) Sob determinadas condições de regularidade, a matriz de variâncias e covariâncias de um estimador cêntrico �θθθθ (Y), seja Var( �θθθθ ), é tal que excede a matriz

EY ' 1

− ��

��

���

���

���

��

���

��

∂∂∂∂∂∂∂∂ θθθθ

∂∂∂∂ θθθθ∂∂∂∂ θθθθ

lnL( ; )

7

_____________________________________________________________________________________________________ Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira, 18.Ago.2000

por uma matriz semi-definida positiva. Demonstração: 1. Por definição de função de densidade de probabilidade, o integral de L(Y; θθθθ ) sobre todo o espaço da amostra, A, é igual a 1:

L( ; ) dY YθθθθA� = 1, onde a notação empregue deve ser entendida como uma abreviatura do integral múltiplo

... L( , ,..., ; ) d d ... dY Y Y Y Y Y1 2 n 1 2 nθθθθ��� . Diferenciando ambos os membros em ordem a θθθθ , vem

L( ; )

d

∂∂∂∂ θθθθ∂∂∂∂ θθθθY

YA� = 0;

notando que

∂∂∂∂ θθθθ∂∂∂∂ θθθθ

L( ; ) Y

= ∂∂∂∂ θθθθ

∂∂∂∂ θθθθ∂∂∂∂ θθθθ

∂∂∂∂ θθθθ L( ; )

lnL( ; ) lnL( ; )

Y

YY

= L(Y; θθθθ ) ∂∂∂∂ θθθθ

∂∂∂∂ θθθθ lnL( ; )

Y

,

o resultado anterior pode apresentar-se na forma

L( ; ) lnL( ; )

dY

YYθθθθ

∂∂∂∂ θθθθ∂∂∂∂ θθθθA� = 0.

Recordando que, se X é uma variável aleatória com função de densidade de

probabilidade f(x) e g(X) uma função de X tal que exista o integral g x( ) f(x) dx−∞

� ,

então, é E[g(x)] = g x( ) f(x) dx−∞

� , obtem-se uma primeira conclusão importante,

E[∂∂∂∂ θθθθ

∂∂∂∂ θθθθ lnL( ; )

Y

] = 0,

isto é, o vector de derivadas parciais, em ordem a θθθθ , da função ln L(Y; θθθθ ) tem valor esperado igual a um vector nulo. Diferenciando novamente em ordem a θθθθ , vem

∂∂∂∂∂∂∂∂ θθθθ

∂∂∂∂ θθθθ∂∂∂∂ θθθθ

θθθθ∂∂∂∂ θθθθ

∂∂∂∂ θθθθ∂∂∂∂ θθθθ

∂∂∂∂ θθθθ

lnL( ; )

L( ; ) + lnL( ; )

L( ; )

d

YY

Y YY

' '

���

��

���

��

���

��

���

���A = 0

8

_____________________________________________________________________________________________________ Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira, 18.Ago.2000

ou, pondo L(Y; θθθθ ) em evidência e usando equivalência justificada acima,

∂∂∂∂∂∂∂∂ θθθθ

∂∂∂∂ θθθθ∂∂∂∂ θθθθ

∂∂∂∂ θθθθ∂∂∂∂ θθθθ

∂∂∂∂ θθθθ∂∂∂∂ θθθθ

θθθθ

lnL( ; )

+ lnL( ; )

lnL( ; )

L( ; ) d

Y Y YY Y

' '

���

��

���

�����

��

���

���A = 0.

Passando a valores esperados, tem-se

EY

EY Y' '∂∂∂∂

∂∂∂∂ θθθθ∂∂∂∂ θθθθ

∂∂∂∂ θθθθ∂∂∂∂ θθθθ

∂∂∂∂ θθθθ∂∂∂∂ θθθθ

∂∂∂∂ θθθθ lnL( ; )

+

lnL( ; )

lnL( ; )

���

�����

��

���

��

���

�����

��

���

�� = 0.

Na segunda esperança matemática deve reconhecer-se a matriz de variâncias e

covariâncias Var[∂∂∂∂ θθθθ

∂∂∂∂ θθθθ lnL( ; )

Y

], uma vez que já se mostrou ser E[∂∂∂∂ θθθθ

∂∂∂∂ θθθθ lnL( ; )

Y

] = 0.

Infere-se, então, da última equação que

Var[∂∂∂∂ θθθθ

∂∂∂∂ θθθθ lnL( ; )

Y

] = − EY '∂∂∂∂

∂∂∂∂ θθθθ∂∂∂∂ θθθθ

∂∂∂∂ θθθθ lnL( ; )

���

�����

��

���

��.

2. Considere-se, agora, um estimador �θθθθ (Y). Se o seu valor esperado existir, ter-se-á

E( �θθθθ ) = �θθθθ θθθθ L( ; ) dY YA� e, diferenciando ambos os membros em ordem a θθθθ ,

[ ]∂∂∂∂ θθθθ∂∂∂∂ θθθθ

( )

E'

= L( ; )

d�θθθθ

∂∂∂∂ θθθθ∂∂∂∂ θθθθ

YY

'

���

���A =

lnL( ; )

L( ; ) d�θθθθ ∂∂∂∂ θθθθ

∂∂∂∂ θθθθθθθθ

YY Y

'

���

���A .

Se o estimador for cêntrico e, portanto, E( �θθθθ ) = θθθθ , o primeiro membro desta equação é uma matriz identidade de ordem q, supondo ser essa a dimensão de θθθθ . Por sua vez,

o integral que figura no segundo membro da equação é a matriz EY '

�θθθθ ∂∂∂∂ θθθθ

∂∂∂∂ θθθθ lnL( ; )

���

�����

��

���

��,

que é a matriz de covariâncias entre o estimador considerado e o vector de derivadas parciais de ln L(Y; θθθθ ). De facto, essa matriz de covariâncias seria, por definição,

Cov( �θθθθ , ∂∂∂∂ θθθθ

∂∂∂∂ θθθθ lnL( ; )

Y

) = [ ]E EY

EY '

� � ( )θθθθ −−−− θθθθ ∂∂∂∂ θθθθ

∂∂∂∂ θθθθ∂∂∂∂ θθθθ

∂∂∂∂ θθθθ( )

lnL( ; )

lnL( ; )

���

��

���

��

���

��

e no caso vertente, em que E( �θθθθ ) = θθθθ e E[∂∂∂∂ θθθθ

∂∂∂∂ θθθθ lnL( ; )

Y

] = 0, é fácil verificar que

9

_____________________________________________________________________________________________________ Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira, 18.Ago.2000

Cov( �θθθθ , ∂∂∂∂ θθθθ

∂∂∂∂ θθθθ lnL( ; )

Y

) = EY '

�θθθθ ∂∂∂∂ θθθθ

∂∂∂∂ θθθθ lnL( ; )

���

�����

��

���

��.

Então, concluiu-se que

Cov( �θθθθ , ∂∂∂∂ θθθθ

∂∂∂∂ θθθθ lnL( ; )

Y

) = Iq.

3. Considere-se, por último, a matriz

Var

�θθθθ

∂∂∂∂ θθθθ∂∂∂∂ θθθθ

lnL( ; ) Y

�����

�����

�����

,

que, por simplificação da notação, se designará doravante pelo símbolo ΠΠΠΠ. Coligindo resultados alcançados em passos anteriores, vem

ΠΠΠΠ = Var I

I Q

q

q1

( � )θθθθ

���

���

,

em que se fez uso de outra convenção para simplificação notacional e se designou por

Q-1 a matriz − EY '∂∂∂∂

∂∂∂∂ θθθθ∂∂∂∂ θθθθ

∂∂∂∂ θθθθ lnL( ; )

���

�����

��

���

��, já que (ver passo 1.) é

Var[∂∂∂∂ θθθθ

∂∂∂∂ θθθθ lnL( ; )

Y

] = − EY '∂∂∂∂

∂∂∂∂ θθθθ∂∂∂∂ θθθθ

∂∂∂∂ θθθθ lnL( ; )

���

�����

��

���

��.

Como matriz de variâncias e covariâncias, ΠΠΠΠ deverá ser semi-definida positiva e o escalar cΠΠΠΠc' terá de ser não-negativo, qualquer que seja o vector c de dimensão (1×2q). Seja c o vector

c = [ ]a - aQ em que a, por sua vez, é um qualquer vector (1×q). Tem-se cΠΠΠΠc' = a Var( �θθθθ ) a' − a Q Iq a' − a Iq Q' a' + a Q Q-1 Q' a' = a Var( �θθθθ ) a' − a Q a', por serem simétricos os dois últimos termos. Tendo estabelecido que

10

_____________________________________________________________________________________________________ Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira, 18.Ago.2000

a Var( �θθθθ ) a' − a Q a' ≥ 0,

qualquer que seja a, fica provado que [Var( �θθθθ ) − Q]]]] é semi-definida positiva, com

Q = EY ' 1

− ��

��

���

���

���

��

���

��

−∂∂∂∂

∂∂∂∂ θθθθ∂∂∂∂ θθθθ

∂∂∂∂ θθθθ lnL( ; )

.

Na forma como acima se enunciou e demonstrou, o teorema de Cramér-Rao teria interesse apenas para estabelecer um limite inferior à variância de qualquer estimador cêntrico. Se, relativamente a um estimador cêntrico, fosse possível verificar que era Q a sua matriz de variâncias e covariâncias, ficaria provado que esse era o (único) estimador MVU. Na verdade, o resultado de Cramér-Rao tem um alcance mais amplo. É possível mostrar que a matriz Q é ainda a "menor" variância susceptível de ser atingida pela generalidade dos estimadores consistentes com que se lida em Econometria (Davidson e MacKinnon (1993), p. 270). A essa luz, o teorema constitui um instrumento poderoso para a selecção, de entre o universo dos estimadores consistentes, daqueles que apresentem melhor comportamento quanto a eficiência. No entanto, e ao contrário do que se passa com amostras finitas e com o estimador MVU, não é necessariamente único o.estimador consistente e assimptoticamente eficiente (no sentido de ter matriz de variâncias e covariâncias dada por Q). De facto, não é raro que estimadores com comportamentos diferentes em amostras finitas tenham a mesma distribuição-limite e, sendo a eficiência assimptótica uma propriedade da distribuição-limite, se revelem todos como assimptoticamente eficientes. Estimadores de máxima verosimilhança Revistas as principais propriedades dos estimadores, passa-se agora ao estudo de métodos de estimação. Um dos métodos de aplicação mais geral e que conduz a estimadores com algumas propriedades desejáveis é o método da máxima verosimilhança. O método tem por base essencial a chamada função de verosimilhança, L(Y; θθθθ ). Antes de apresentar a definição, algumas considerações sobre a função L(Y; θθθθ ) podem ser úteis. Para a discussão seguinte, suponha-se uma variável aleatória discreta, Y, com distribuição de Bernoulli tal que P(Y = 1) = p e P(Y = 0) = q, (q = 1 - p), isto é, com função de probabilidade

f(Y;p) = pY Y q , se Y = 0 ou Y = 1,

0 , se Y 0 e Y 1.

1−

≠ ≠���

Para uma amostra aleatória de dimensão n, Y = [Y1 Y2 … Yn]', seja

11

_____________________________________________________________________________________________________ Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira, 18.Ago.2000

L(Y;p) = f Y pii

n

( ; )=∏

1= p Y Yi i� � q n- .

A função L(Y;p) pode ser "lida" de várias maneiras. Para um dado p, a função reparte a probabilidade de obtenção de Y entre todas as amostras possíveis de dimensão n. Por exemplo, para p = 0,3 e n = 2, a amostra (Y1 = 1, Y2 = 1) ocorrerá com probabilidade 0,32 (9%), o par (0, 0) com probabilidade 0,72 (49%) e cada um dos pares (1, 0) e (0, 1) com probabilidade 0,3×0,7 (21%). Nessa acepção, L(Y;p) é, para cada p, a função de probabilidade conjunta de (Y1, Y2), definida no espaço da amostra A = {(Y1, Y2): Y1 = 0 ∨ Y1 = 1, Y2 = 0 ∨ Y2 = 1}. Uma segunda perspectiva corresponde ao caso em que, para um certo Y, se vê L(Y;p) como função de p; para enfatizar esse ponto, escreve-se, por vezes, L(p|Y) ou, simplesmente, L(p). Então, L(p|Y) indica, para cada valor possível de p, a probabilidade de obtenção da particular amostra Y. Por exemplo, a amostra (Y1 = 1, Y2 = 0) ocorrerá com probabilidade 0,21 se p = 0,3, com probabilidade 0,25 se p = 0,5, com probabilidade 0,09 se p = 0,1, e assim sucessivamente. Concretizado Y, a função é definida no espaço dos parâmetros B = {p: 0 ≤ p ≤ 1} e não é uma função de probabilidade. Uma terceira acepção possível de L(Y;p) é aquela que se empregou em referências anteriores, com a função definida sobre A × B. L(Y;p) também não é, nesse caso, uma função de probabilidade, mas corresponde a uma família de funções de probabilidade, indexada pelo parâmetro p. Se, em vez de discreta, Y for uma variável aleatória contínua, é necessário adaptar alguns dos aspectos evocados na ilustração que se discutiu. Assim, L(Y; θθθθ ) não mede, para θθθθ dado, a probabilidade de ocorrência de cada amostra Y de dimensão n (em rigor, essa probabilidade é nula), mas é ainda uma função de densidade de probabilidade definida sobre A. Para cada Y, por sua vez, L(Y; θθθθ ) não mede uma probabilidade, nem é uma f.d.p.. Como se precisa na definição seguinte, no contexto da estimação por máxima verosimilhança esta última é a perspectiva a que se atribui maior realce. Frise-se, no entanto, que, apesar do ênfase colocado em θθθθ , a função de verosimilhança depende também do vector (ou matriz) Y, que tem natureza aleatória. Trata-se de procurar, no espaço dos parâmetros, B, a função �θθθθ (Y) para a qual L(Y; θθθθ ) é máxima. Definição 8 (Estimador de máxima verosimilhança) Seja a função de verosimilhança L(Y; θθθθ ). Se existir uma função �θθθθ (Y) tal que

L(Y; �θθθθ ) ≥ L(Y; θθθθ ), ∀ θθθθ ∈∈∈∈ B, �θθθθ (Y) é chamado o estimador de máxima verosimilhança (ML) de θθθθ . Notem-se os aspectos seguintes: i) O estimador ML pode não existir.

12

_____________________________________________________________________________________________________ Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira, 18.Ago.2000

ii) O estimador ML pode não ser único. Sê-lo-á se for estrita a desigualdade acima, isto é, se for L(Y; �θθθθ ) > L(Y; θθθθ ), ∀ θθθθ ∈∈∈∈ B, θθθθ ≠≠≠≠ �θθθθ . iii) O estimador ML pode não ser definido para algum Y. iv) Se L(Y; θθθθ ) tem um máximo para θθθθ = �θθθθ , a função logarítimica de verosimilhança, lnL(Y; θθθθ ), terá também um máximo para θθθθ = �θθθθ . É, frequentemente, mais fácil identificar o máximo de lnL(Y; θθθθ ) do que o da função de verosimilhança propriamente dita. Por outro lado, a definição apresentada não é, por vezes, a mais adequada para identificação concreta do estimador. Se a função de verosimilhança verificar certas condições de regularidade e o máximo ocorrer num ponto interior do espaço dos parâmetros, o sistema das chamadas equações de verosimilhança,

∂∂∂∂ θθθθ∂∂∂∂ θθθθ

lnL( ; ) Y

= 0,

fornece um indicador mais operacional para identificação do estimador ML. Alguns autores (v.g., Davidson e MacKinnon (1993)) distinguem o estimador ML conforme a definição acima, que designam por estimador de tipo 1, do estimador de tipo 2. Este seria definido como a solução das equações de verosimilhança que satisfizer, cumulativamente, duas outras condições: obedecer às condições de 2ª ordem para um

máximo e ser tal que a sucessão {1n

lnL( �θθθθ ;Y)} tenha, para essa solução �θθθθ , limite em

probabilidade não inferior ao limite em probabilidade de {1n

lnL( ~θθθθ ;Y)}, para

qualquer outra solução das equações de verosimilhança, ~θθθθ , que corresponda também a um máximo. A primeira destas duas condições tem o alcance óbvio de excluir da análise as soluções do sistema

∂∂∂∂ θθθθ∂∂∂∂ θθθθ

lnL( ; ) Y

= 0

que correspondam a mínimos ou a pontos de inflexão, enquanto a segunda visa garantir que, entre múltiplas soluções encontradas para uma amostra, seja seleccionada aquela que, na generalidade das amostras, conduz a valores mais elevados da função de verosimilhança. Embora as duas definições conduzam, muitas vezes, ao mesmo estimador, na literatura conhecem-se casos em que um estimador de tipo 2 existe, mas não o de tipo 1, ou em que existe este e não existe o primeiro (Davidson e MacKinnon (1993), pp. 249-250). Apresenta-se, a seguir, um exemplo clássico desta última situação. Exemplo 3 Seja Y uma variável aleatória com distribuição uniforme no intervalo [0, β], isto é, com f.d.p.

13

_____________________________________________________________________________________________________ Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira, 18.Ago.2000

f(Y;β) = 1

0

β

, se Y ,

0 , se Y ou Y .

≤ ≤

< >

��

��

β

β é o parâmetro a estimar; o espaço dos parâmetros é o conjunto dos números reais positivos. Considere-se uma amostra de dimensão n, Y = [Y1 Y2 … Yn]', e admita-se, sem perda de generalidade, ser Yn o maior dos valores amostrais de Y. Como se depreende da definição da f.d.p., terá de ser Yn ≤ β. Então, a função de verosimilhança é

L(Y;β) = 1

ββ

βn n

n

, se Y ,

0 , se Y ,

<

��

��

e a função logarítmica é, para β ≥ Yn,

lnL(Y;β) = -n lnβ. A condição de 1ª ordem para maximização de lnL(Y;β) requer −n/β = 0, Não existe nenhuma solução finita para β e, de resto, a função de verosimilhança não satisfaz uma das condições de regularidade. Assim sendo, o estimador ML de tipo 2 não é definido. Contudo, existe um estimador de tipo 1: a função de verosimilhança é maximizada se, dentro do intervalo de valores admissíveis para β, for seleccionado o menor de todos. O estimador ML de β é, por conseguinte,

�β ML = max(Y1, Y2, ..., Yn). Propriedades dos estimadores de máxima verosimilhança Sob condições de regularidade, os estimadores de máxima verosimilhança são, geralmente, consistentes, têm distribuição assimptótica normal, são assimptoticamente eficientes e possuem a propriedade da invariância. Proposição 3 (Consistência do estimador de máxima verosimilhança) Verificadas determinadas condições de regularidade, o estimador de máxima verosimilhança, �θθθθ ML, é tal que plim �θθθθ ML = θθθθ . (Demonstração: Davidson e MacKinnon (1993), p. 255-260). A prova original da consistência do estimador ML é devida a Wald e repousa crucialmente na existência de um estimador de tipo 2. Conhecem-se várias outras provas da consistência, supostamente mais gerais, mas todas elas pressupõem condições de difícil, senão impossível, verificação empírica. Contudo, na avaliação de muitos autores, essas condições são respeitadas na generalidade dos trabalhos econométricos.

14

_____________________________________________________________________________________________________ Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira, 18.Ago.2000

Segundo Davidson e MacKinnon (1993, p. 258), os casos de não consistência circunscrevem-se, no essencial, a duas situações: modelos em que o número de parâmetros aumenta com a dimensão da amostra e o aumento se processa a uma taxa "demasiado rápida", e modelos assimptoticamente não identificados. Um exemplo em que o número de parâmetros aumenta com a dimensão da amostra ocorre em modelos com heteroscedasticidade em que a matriz de variâncias das perturbações é uma matriz diagonal de elementos não nulos σ1

2 , σ 22 , ..., σ n

2 . Um exemplo da segunda situação é discutido a seguir: Exemplo 4 Considere-se o modelo

Yt = β 1t

+ ut, ut ∼ N(0, σ2) , ∀ t.

Designando por θθθθ o vector [β, σ2]', a função logarítmica de verosimilhança, para uma amostra de n observações, é

lnL(Y; θθθθ ) = − n2

ln(2π) − n2

ln(σ2) − 1

2 2σ ( )Y

ttt

n

−�=

β1 2

1

e o estimador ML de β é dado por

�β = ( )

( )

Yt

t

t

t

n

t

n=

=

1

21

1,

com variância

Var( �β ) = σ2

21

1( )tt

n

=�

.

Prova-se que lim ( )12

1 tt

n

=� = π2/6 (1,645, aproximadamente); por conseguinte, quando

n tende para infinito, Var( �β ) tende para um limite positivo. O limite em probabilidade

de �β , se existir, não será, portanto, uma constante. Veja-se, para exemplos de outras situações de não consistência dos estimadores ML, Gouriéroux e Monfort (1995), pp. 189-193. Segundo Davidson e MacKinnon (1993, p. 258), os casos de não consistência circunscrevem-se, no essencial, a duas situações: modelos em que o número de parâmetros aumenta com a dimensão da amostra e o aumento se processa a uma taxa "demasiado rápida", e modelos assimptoticamente não identificados. Um exemplo em que o número de parâmetros aumenta com a dimensão da amostra ocorre em modelos

15

_____________________________________________________________________________________________________ Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira, 18.Ago.2000

com heteroscedasticidade em que a matriz de variâncias das perturbações é uma matriz diagonal de elementos não nulos σ1

2 , σ22 , ..., σ n

2 . Um exemplo da segunda situação é discutido a seguir: Exemplo 4 Considere-se o modelo

Yt = β 1t

+ ut, ut ∼ N(0, σ2) , ∀ t.

Designando por θθθθ o vector [β, σ2]', a função logarítmica de verosimilhança, para uma amostra de n observações, é

lnL(Y; θθθθ ) = − n2

ln(2π) − n2

ln(σ2) − 1

2 2σ ( )Y

ttt

n

−�=

β1 2

1

e o estimador ML de β é dado por

�β = ( )

( )

Yt

t

t

t

n

t

n=

=

1

21

1,

com variância

Var( �β ) = σ2

21

1( )tt

n

=�

.

Prova-se que lim ( )12

1 tt

n

=� = π2/6 (1,645, aproximadamente); por conseguinte, quando

n tende para infinito, Var( �β ) tende para um limite positivo. O limite em probabilidade

de �β , se existir, não será, portanto, uma constante. Veja-se, para exemplos de outras situações de não consistência dos estimadores ML, Gouriéroux e Monfort (1995), pp. 189-193. Proposição 4 (Normalidade assimptótica do estimador de máxima verosimilhança) Sob condições de regularidade,

n ( �θθθθ ML − θθθθ ) d

→ N{0, [I( θθθθ )]−−−−1},

em que I( θθθθ ) = EY '

− ��

��

���

���

∂∂∂∂∂∂∂∂ θθθθ

∂∂∂∂ θθθθ∂∂∂∂ θθθθ

lnL( ; )

= − EY

'∂∂∂∂ θθθθ

∂∂∂∂ θθθθ ∂∂∂∂ θθθθ

2222 lnL( ; )

��

�� .

16

_____________________________________________________________________________________________________ Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira, 18.Ago.2000

Duas matrizes têm papel chave nesta proposição: a primeira é o vector (q×1) de derivadas parciais de 1ª ordem, em ordem a θθθθ , da função logarítmica de verosimilhança,

∂∂∂∂ θθθθ∂∂∂∂ θθθθ

lnL( ; ) Y

,

usualmente chamado o vector gradiente (gradient vector ou score vector, em inglês) da função logarítmica de verosimilhança; a segunda é a matriz (q×q) de derivadas parciais de 2ª ordem da função,

∂∂∂∂∂∂∂∂ θθθθ

∂∂∂∂ θθθθ∂∂∂∂ θθθθ

lnL( ; ) Y '

��

�� =

∂∂∂∂ θθθθ∂∂∂∂ θθθθ ∂∂∂∂ θθθθ

2222 lnL( ; )

Y' ,

a que se dá o nome de matriz Hesseana. Conforme se viu atrás, a propósito do teorema de Cramér-Rao, as duas matrizes estão relacionadas segundo as expressões

E[∂∂∂∂ θθθθ

∂∂∂∂ θθθθ lnL( ; )

Y

] = 0

e

Var[∂∂∂∂ θθθθ

∂∂∂∂ θθθθ lnL( ; )

Y

] = EY Y '∂∂∂∂ θθθθ

∂∂∂∂ θθθθ∂∂∂∂ θθθθ

∂∂∂∂ θθθθ lnL( ; )

lnL( ; )

���

��

���

�����

��

���

�� = − E

Y'

∂∂∂∂ θθθθ∂∂∂∂ θθθθ ∂∂∂∂ θθθθ

2222 lnL( ; )

��

�� .

Para uma amostra de dimensão n, sejam gn(Y; θθθθ ) e Hn(Y; θθθθ ), respectivamente, o vector gradiente e a matriz Hesseana, avaliados num qualquer ponto θθθθ do espaço dos parâmetros. Uma vez que a função logarítmica de verosimilhança é uma soma de n termos, essas derivadas são também somas de n vectores ou matrizes, um por cada observação na amostra. É que, de

L(Y; θθθθ ) = fi

n

( ; )Yi θθθθ=∏

1

e

lnL(Y; θθθθ ) = ln ( ; )fi

n

Yi θθθθ=�

1,

vem ∂∂∂∂ θθθθ

∂∂∂∂ θθθθ lnL( ; )

Y

= ∂∂∂∂ θθθθ

∂∂∂∂ θθθθ

ln ( ; )f

i

n Yi

=�

1,

expressão cujo segundo membro é uma soma de n vectores (q×1), cada um dos quais mede a chamada contribuição da iª observação para o gradiente. De modo análogo, de

∂∂∂∂ θθθθ∂∂∂∂ θθθθ ∂∂∂∂ θθθθ

2222 lnL( ; )

Y' =

∂∂∂∂∂∂∂∂ θθθθ

∂∂∂∂ θθθθ∂∂∂∂ θθθθ

ln f( Y '

i ; )i

n

=�

��

��

1 =

∂∂∂∂ θθθθ∂∂∂∂ θθθθ ∂∂∂∂ θθθθ

2222 ln ( ; )fi

n Yi' =

�1

,

17

_____________________________________________________________________________________________________ Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira, 18.Ago.2000

reconhece-se ser a matriz Hesseana a soma de n matrizes (q×q). É como se, numa amostra de dimensão n da população f(Y; θθθθ ), se dispusesse de n observações do vector gradiente e da matriz Hesseana desconhecidos. Usando o símbolo g(Yi; θθθθ ) para a contribuição da iª observação para o gradiente, isto é, para o vector aleatório

g(Yi; θθθθ ) ≡ ∂∂∂∂ θθθθ

∂∂∂∂ θθθθ

ln ( ; )f Yi ,

vem, para o vector gradiente com uma amostra de dimensão n,

gn(Y; θθθθ ) = g Yi( ; )θθθθi

n

=�

1.

O primeiro passo da demonstração da normalidade assimptótica do estimador ML consiste em aplicar um teorema do limite central às variáveis g(Y1; θθθθ ), g(Y2; θθθθ ), ..., g(Yn; θθθθ ), ... Como se viu, o vector-soma, gn(Y; θθθθ ), tem por valor esperado um vector nulo. Mas é fácil verificar, por argumento idêntico ao que se empregou para chegar a esse resultado, que cada um dos n vectores-parcelas, g(Yi; θθθθ ), tem também valor esperado dado por um vector (q×1) nulo (v.g., Davidson e MacKinnon (1993), p. 260). É, então, E[g(Yi; θθθθ )] = 0. Quanto a variâncias e covariâncias, o resultado anterior,

Var[∂∂∂∂ θθθθ

∂∂∂∂ θθθθ lnL( ; )

Y

] = − EY

'∂∂∂∂ θθθθ

∂∂∂∂ θθθθ ∂∂∂∂ θθθθ

2222 lnL( ; )

��

�� ,

implica ser

Var[g(Yi; θθθθ )] = − E[∂∂∂∂ θθθθ

∂∂∂∂ θθθθ ∂∂∂∂ θθθθ

2222 ln ( ; )f Yi'

].

Reunindo resultados com vista à invocação do teorema de Lindeberg-Feller, a média das variáveis g(Y1; θθθθ ), g(Y2; θθθθ ), ..., g(Yn; θθθθ ), para uma amostra de dimensão n, é

gn = 1n

g Yi( ; )θθθθi

n

=�

1 =

1n

gn(Y; θθθθ ),

uma variável cujo valor esperado é um vector nulo,

E( gn ) = 0, e que tem matriz de covariâncias dada por

Var( gn ) = 1

2n Var[ g Yi( ; )θθθθ

i

n

=�

1] = −

12n

E[∂∂∂∂ θθθθ

∂∂∂∂ θθθθ ∂∂∂∂ θθθθ

2222 ln ( ; )fi

n Yi' =

�1

] = − 1

2n E[Hn(Y; θθθθ )].

18

_____________________________________________________________________________________________________ Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira, 18.Ago.2000

Admitindo as condições usuais de regularidade e, em particular, a de ser

lim E[1n

Hn(Y; θθθθ )] = H( θθθθ )

uma matriz finita e definida positiva, o teorema de Lindeberg-Feller estabelece que

n gn d

→ N[0, I( θθθθ )], em que a matriz (q×q) I( θθθθ ) = − E[H( θθθθ )] é a chamada matriz de informação de Fisher. O passo seguinte na demonstração da normalidade assimptótica do estimador ML consiste em descobrir um nexo entre o vector gradiente, sobre o qual se acumulou uma profusão de resultados notável, e o vector de estimadores, �θθθθ (Y), cuja distribuição se pretende inferir. Esse nexo é estabelecido por uma expansão em série de Taylor de gn(Y; �θθθθ ) numa vizinhança do verdadeiro vector de parâmetros, θθθθ :

gn(Y; �θθθθ ) = gn(Y; θθθθ ) + Hn(Y; θθθθ *) ( �θθθθ − θθθθ ), onde, com Hn(Y; θθθθ *), se pretendeu indicar a matriz Hesseana avaliada em θθθθ *, um ponto q-dimensional correspondente a uma combinação linear convexa de �θθθθ n e θθθθ . O primeiro membro da equação supra é um vector nulo, por força das condições de 1ª ordem que caracterizam o estimador ML. Admitindo a existência da matriz inversa de Hn(Y; θθθθ *), resulta que

�θθθθ − θθθθ = − [Hn(Y; θθθθ *)]−−−−1 gn(Y; θθθθ ), multiplicando ambos os membros por n ,

n ( �θθθθ − θθθθ ) = − [Hn(Y; θθθθ *)]−−−−1 [ n gn(Y; θθθθ )], e, multiplicando e dividindo o segundo membro por n,

n ( �θθθθ − θθθθ ) = [−1n

Hn(Y; θθθθ *)]−−−−1 ( n gn ).

O passo seguinte será justificar, pelas hipóteses assumidas, que é

plim[−1n

Hn(Y; θθθθ *)]−−−−1 = {E[−H( θθθθ )]}−−−−1 = [I( θθθθ )]−−−−1

e que

n ( �θθθθ − θθθθ ) d

→ [I( θθθθ )]−−−−1 [ n gn ]. Usando agora

19

_____________________________________________________________________________________________________ Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira, 18.Ago.2000

n gn d

→ N[0, I( θθθθ )], tem-se

n ( �θθθθ − θθθθ ) d

→ [I( θθθθ )]−−−−1 N[0, I( θθθθ )]. No lado direito, figura uma variável com distribuição normal q-variada, com vector de médias [I( θθθθ )]−−−−1 0 = 0 e matriz de variâncias [I( θθθθ )]−−−−1 I( θθθθ ) [I( θθθθ )]−−−−1 = [I( θθθθ )]−−−−1, pelo que

n ( �θθθθ − θθθθ ) d

→ N{0, [I( θθθθ )]−−−−1}. O vector n ( �θθθθ − θθθθ ), em que �θθθθ é o estimador ML, tem distribuição assimptótica normal, com vector de médias nulo e matriz assimptótica de covariâncias dada pela inversa da matriz de informação. Conhecem-se casos de estimadores ML que não possuem distribuição assimptótica normal, ou em que a convergência para essa distribuição requer uma transformação de estabilização diferente da multiplicação por n (Gouriéroux e Monfort (1995), pp. 189-193). Um exemplo da segunda situação é o seguinte: Exemplo 5 Considere-se o modelo

Yi = β Xi + ui, ui ∼ N(0, 1) , ∀ i, em que X é uma variável não aleatória. Como é sabido, o estimador ML de β é dado por

�β = X Y

X

i ii

n

ii

n=

=

1

2

1

,

e tem distribuição normal com média β e variância

Var( �β ) = 1

2

1X i

i

n

=�

.

Então, tem-se, para qualquer n finito,

�β β−

�1

2X i

∼ N(0, 1),

e como uma sucessão de variáveis aleatórias normais reduzidas converge em distribuição para uma variável N(0, 1),

20

_____________________________________________________________________________________________________ Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira, 18.Ago.2000

X i2� ( �β − β)

d→ N(0, 1).

Tendo estabelecido, sob certas hipóteses, a consistência e a normalidade assimptótica dos estimadores ML e o facto de a sua matriz assimptótica de covariâncias atingir o limite de Crámer-Rao, o resultado seguinte é imediato. Proposição 5 (Eficiência assimptótica do estimador de máxima verosimilhança) Sob condições de regularidade adequadas, sendo ~θθθθ um qualquer estimador consistente de θθθθ com matriz assimptótica de covariâncias Varass.(

~θθθθ ) e �θθθθ ML o estimador de máxima verosimilhança, a matriz [Varass.(

~θθθθ ) − Varass.( �θθθθ ML)] é semi-definida positiva. Outra propriedade muito importante dos estimadores ML é a de invariância: Proposição 6 (Invariância do estimador de máxima verosimilhança) Se �θθθθ é o estimador de máxima verosimilhança de um vector de parâmetros θθθθ ∈B e g( θθθθ ) é uma função bijectiva, g: B → C, então g( �θθθθ ) é o estimador de máxima verosimilhança de g( θθθθ )∈C. A propriedade de invariância é, em muitas circunstâncias, uma propriedade desejável de um estimador. Se, por exemplo, Y é uma amostra aleatória de dimensão n de uma variável com média µ, seria natural que os estimadores da média com a amostra Y, em que as observações vêm expressas em escudos, ou com a amostra 0,001 Y (com a variável medida em contos), estivessem também entre si na relação entre µ e 0,001 µ. No exemplo dado, que configura uma simples mudança de escala, a generalidade dos estimadores mais usados daria resposta satisfatória ao princípio da invariância. Mas, para relações não lineares, como a que existe entre o desvio-padrão e a variância de uma variável, seriam menos frequentes os métodos que dêem resposta à questão da estimação da variância com uma estimativa igual ao quadrado da estimativa fornecida para o desvio-padrão. O método da máxima verosimilhança respeita o princípio da invariância, mas a algum preço. Os estimadores ML são, frequentemente, enviesados: uma vez que não é, geralmente, verdade que seja E[g( θθθθ )] = g[E( θθθθ )], um estimador invariante não pode servir para gerar, simultaneamente, estimadores cêntricos de θθθθ e de g( θθθθ ). Mas, como plim[g( θθθθ )] = g[plim( θθθθ )], um estimador invariante pode, pelo contrário, estimar consistentemente quer θθθθ , quer g( θθθθ ). Função de verosimilhança concentrada O cômputo de estimativas pelo método da máxima verosimilhança nem sempre é tarefa fácil. Um expediente que pode, por vezes, revelar-se útil é a decomposição do problema de maximização numa série de etapas sucessivas. Suponha-se uma partição do vector θθθθ ,

21

_____________________________________________________________________________________________________ Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira, 18.Ago.2000

θθθθ = θθθθθθθθ

1

2

��

�� .

É possível provar que a solução do problema da maximização de lnL(Y; θθθθ 1, θθθθ 2) em ordem a ( θθθθ 1, θθθθ 2) pode ser alcançada em duas etapas: (1) maximização da função em ordem a θθθθ 1, tomando θθθθ 2 como dado, e expressando a solução em função de θθθθ 2; (2) substituindo essa solução (que é, repita-se, função de θθθθ 2) na expressão da função logarítmica de verosimilhança, obtém-se a chamada função de verosimilhança concentrada, que é, então, maximizada em ordem a θθθθ 2. É costume usar-se um índice inferior, c, para designar a função de verosimilhança concentrada, como em lnLc(Y; θθθθ 2); diz-se que a função de verosimilhança foi concentrada sobre θθθθ 1. A técnica descrita tem especial interesse quando há vantagem em isolar os parâmetros principais de outros, irrelevantes ou menos importantes (nuisance parameters). É empregue também, muitas vezes, para separar parâmetros associados à variância dos ligados à média de uma variável, como se ilustra no exemplo seguinte. Exemplo 6 Seja Y uma amostra aleatória, de dimensão n, de uma população N(µ, σ2). A função logarítmica de verosimilhança é

lnL(Y; µ, σ2) = − n2

ln(2π) − n2

ln σ2 − � −1

2 22

σµ( )Yi

i=1

n

.

Da condição de 1ª ordem

∂ µ σ∂ σ

lnL( ; ,

2

2

Y ) = 0,

vem

�σ 2 = 1 2

nYi( )

i=1

n

� − µ .

Substituindo σ2 por �σ2 na expressão da função logarítmica de verosimilhança, tem-se a função concentrada (sobre σ2)

lnLc(Y; µ) = − n2

ln(2π) − n2

ln 1 2

nYi( )

i=1

n

� −

���

��µ −

n2

que, maximizada com respeito a µ, fornece a solução habitual,

�µ = 1n

Yii=1

n

� = Y .

22

_____________________________________________________________________________________________________ Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira, 18.Ago.2000

Mais trivial, porque o valor óptimo para µ não depende de σ2, é a função de verosimilhança concentrada sobre µ,

lnL(Y; σ2) = − n2

ln(2π) − n2

ln σ2 − � −1

2 22

σ( )Y Yi

i=1

n

.

A possibilidade de isolar, na estimação, os parâmetros principais dos restantes estende-se também à matriz de covariâncias dos estimadores. Para a função de verosimilhança lnLc(Y; θθθθ 2), concentrada sobre θθθθ 1, a matriz de covariâncias dos estimadores de θθθθ 2 pode ser encontrada na partição da inversa da matriz de informação correspondente a θθθθ 2 ou, equivalentemente, na inversa da matriz de informação associada à verosimilhança concentrada. Exemplo 7 Seja Y uma amostra aleatória de n observações do par (Y1, Y2), com função de distribuição normal bivariada f(y1, y2) =

1

22

22

1 1

1

2

1 1

1

2 2

2

2 2

2

2

π σ σ ρ ρµ

σρ

µσ

µσ

µσ (1

exp1

2(1

12 2 2

−−

−−�

�� −

−�

��

−�

�� +

−�

��

���

���

���

��

���

��) )y y y y

com −1 < ρ < 1. Designando por θθθθ o vector

θθθθ =

µµσσρ

1

2

12

22

������

������

,

a função logarítmica de verosimilhança é

ln L(Y; θθθθ ) = −n ln(2π) −n2

[ln σ12 + ln σ2

2 + ln(1−ρ2)]

−1

2 1 2( )− ρ ( )A A B Bi i i i

2 22− +� ρ ,

(convencionando representar por Ai e Bi as variáveis Y i1 1

1

− µσ

e Y i2 2

2

− µσ

,

respectivamente, e subentendendo somatórios para i = 1, 2, ..., n) e as equações de verosimilhança são

∂ µ lnL( ; )

1

Y θθθθ =

111

2σ ρ( )− ( )A Bi i−� ρ = 0,

23

_____________________________________________________________________________________________________ Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira, 18.Ago.2000

∂ µ lnL( ; )

2

Y θθθθ =

112

2σ ρ( )− ( )B Ai i−� ρ = 0,

∂ σ lnL( ; )

12

Y θθθθ = −

12 11

2 2σ ρ ( )− [ ]n A A Bi i i( ) ( )1 2 2− − −�ρ ρ = 0,

∂ σ lnL( ; )

22

Y θθθθ = −

12 12

2 2σ ρ ( )− [ ]n B A Bi i i( ) ( )1 2 2− − −�ρ ρ = 0,

∂ ρ lnL( ; )

Y θθθθ

= 1

1 2− ρ n A A B B A Bi i i i i iρ

ρρ

ρ−−

− + + ��

��

��1

222 2( ) = 0.

Os cinco elementos do vector gradiente gn(Y; θθθθ ) são os identificados implicitamente pelas equações que precedem. Para determinar a função de verosimilhança concentrada sobre os parâmetros σ1

2 , σ22 e ρ, obtém-se, da terceira, quarta e quinta equações acima,

n(1−ρ2) = ( )A A Bi i i

2 −� ρ , n(1−ρ2) = ( )B A Bi i i

2 −� ρ ,

n(1−ρ2) = ( )A A B Bi i i i2

221

−+

+�ρ

ρ.

Somando as duas primeiras equações e subtraindo a terceira à soma, vem

n(1−ρ2) = 1 2−

�ρ

ρA Bi i

e

ρ = 1n

A Bi i� .

Substituindo esta expressão por ρ nas duas primeiras equações, obtém-se

n = A i2� = Bi

2� , donde

σ12 =

11 1

2

nY i( )−� µ

e

σ 22 =

12 2

2

nY i( )−� µ .

Por último,

24

_____________________________________________________________________________________________________ Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira, 18.Ago.2000

ρ =

1

1 1

1 1 2 2

1 12

2 22

nY Y

nY

nY

i i

i i

( ) )

( ) ( )

− −�

−� × −�

µ µ

µ µ

(.

Depois de expurgada de σ1

2 , σ 22 e ρ a função logarítmica de verosimilhança, a função

concentrada vem, após simplificação, ln Lc(Y;µ1, µ2) =

= constante −n2

ln [ ] [ ] [ ]{ }( ) ( ) ( )( )Y Y Y Yi i i i1 12

2 22

1 1 2 2

2−� −� − − −�µ µ µ µ ,

onde a constante omitida é [−n ln(2π) − n + n ln n]. A maximização de ln Lc(Y;µ1, µ2) com respeito a µ1 e µ2 conduz às soluções esperadas,

�µ1 = 1

1nY i� = Y1

e

�µ 2 = 1

2nY i� = Y2 .

Bastaria agora substituir, nas equações apresentadas para as variâncias e para o coeficiente de correlação, µ1 e µ2 pelas médias amostrais de Y1 e Y2, respectivamente, para obter os estimadores ML dos outros parâmetros. É patente que esses estimadores são os momentos amostrais (ou funções deles) correspondentes aos momentos (ou funções) homólogos da população. A matriz assimptótica de covariâncias de �µ1 e �µ 2 poderia ser agora calculada a partir da função de verosimilhança concentrada, ln Lc(Y;µ1, µ2); no caso, no entanto, é consideravelmente mais simples derivá-la da função logarítmica de verosimilhança original. O tema é retomado em exemplo posterior. Estimação da matriz Varass.( �θθθθ ML) Viu-se atrás que o estimador ML �θθθθ tem distribuição assimptótica normal, com θθθθ como vector de médias e matriz assimptótica de covariâncias dada pela inversa da matriz de informação:

Varass.( �θθθθ ML) = [I( θθθθ )]−−−−1 = {E[−H( θθθθ )]}−−−−1. Como a própria notação sugere, essa matriz depende do vector θθθθ , desconhecido. Parece natural substituir θθθθ por �θθθθ ML, obtendo, dessa forma, um primeiro estimador consistente da matriz assimptótica de covariâncias do estimador:

25

_____________________________________________________________________________________________________ Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira, 18.Ago.2000

Varass. ML( � )θθθθ = [I( �θθθθ ML)]−−−−1, notação com que se pretendeu indicar a inversa da matriz de informação, avaliada no ponto θθθθ = �θθθθ ML. Embora esse seja o estimador mais óbvio e, possivelmente, o mais defensável de um ponto de vista teórico, é de cálculo extremamente pesado e nem sempre exequível. É que ele obriga à determinação dos elementos da matriz Hesseana H( θθθθ ), que são derivadas parciais de segunda ordem, frequentemente muito complexas e numerosas (um modelo modesto com 5 parâmetros, como no Exemplo 7, exige o cálculo de 15 derivadas parciais de segunda ordem). Mais grave ainda, requer, depois, a determinação da esperança matemática de cada um desses elementos. Quer uma, quer outra, dessas exigências não podem ser confiadas a meios informáticos. É, por essas razões, mais frequente recorrer-se a um segundo estimador da matriz assimptótica de covariâncias. Evita-se nele a determinação das esperanças matemáticas dos elementos da matriz Hesseana, fazendo uso do princípio segundo o qual as médias amostrais constituem, geralmente, estimadores razoáveis das médias

na população. Assim, para estimar a matriz de informação, recorre-se a −1n

Hn( �θθθθ ML)

no lugar de E[−H( �θθθθ ML)]. Esse segundo estimador pode, então, ser descrito pela fórmula

Varass. ML( � )θθθθ = [−1n

Hn( �θθθθ ML)]−−−−1.

Conquanto menos trabalhoso que o anterior, este método continua a necessitar, também ele, do cálculo da matriz Hesseana. Uma alternativa bem mais simples, proposta por Berndt, Hall, Hall e Hausman e, por isso, conhecida pela sigla BHHH, prescinde dessa derivação. Baseia-se numa igualdade que se justificou a propósito do teorema de Cramér-Rao,

EY

EY Y' '∂∂∂∂

∂∂∂∂ θθθθ∂∂∂∂ θθθθ

∂∂∂∂ θθθθ∂∂∂∂ θθθθ

∂∂∂∂ θθθθ∂∂∂∂ θθθθ

∂∂∂∂ θθθθ lnL( ; )

+

lnL( ; )

lnL( ; )

���

�����

��

���

��

���

�����

��

���

�� = 0,

segundo a qual o valor esperado da matriz Hesseana é simétrico do valor esperado do produto do vector gradiente pelo seu transposto. Como se constata, pode evitar-se o cômputo das derivadas de segunda ordem, recorrendo apenas às de primeira ordem, cujo conhecimento, de resto, é quase imprescindível para levar a cabo a estimação do próprio vector θθθθ . Um terceiro estimador da matriz assimptótica de covariâncias, o chamado estimador BHHH, repousa, portanto, na fórmula

Varass. ML( � )θθθθ = {G( �θθθθ ML) [G( �θθθθ ML)]'}−−−−1.

26

_____________________________________________________________________________________________________ Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira, 18.Ago.2000

Exemplo 8 Retome-se o exemplo anterior, em que Y é uma amostra aleatória de n observações do par (Y1, Y2), com função de distribuição normal bivariada. Dispõe-se já do vector gradiente; por nova diferenciação dos seus elementos, vem:

∂ µ

2

2

lnL( ; )

Y θθθθ

j

= −n

jσ ρ2 21( )−, j = 1 ou j = 2,

∂ µ ∂ µ

2

1 2

lnL( ; )

Y θθθθ =

nρσ σ ρ1 2

21 ( )−,

∂ µ ∂ σ

2

1

lnL( ; ) 1

2

Y θθθθ = −

−− ��

��

��

11 21

3 2σ ρρ

( )A Bi i ,

(continuando a usar Ai ≡ Y i1 1

1

− µσ

e Bi ≡ Y i2 2

2

− µσ

),

∂ µ ∂ σ

2

1

lnL( ; ) 2

2

Y θθθθ =

ρσ σ ρ2 11 2

2 2

( )−�Bi ,

∂ µ ∂ ρ

2

1

lnL( ; )

Y θθθθ = [ ]1

12 1

12 2

2

σ ρρ ρ

( )( )

−− + ��A Bi i ,

∂ µ ∂ σ

2

2

lnL( ; ) 1

2

Y θθθθ =

ρσ σ ρ2 11

22

2

( )−�A i ,

∂ µ ∂ σ

2

2

lnL( ; ) 2

2

Y θθθθ = −

−− ��

��

��

11 22

3 2σ ρρ

( )B Ai i ,

∂ µ ∂ ρ

2

2

lnL( ; )

Y θθθθ = [ ]1

12 1

22 2

2

σ ρρ ρ

( )( )

−− + ��B Ai i ,

∂ σ

2

2

lnL( ; ) ( 1

2

Y θθθθ)

= 1

2 11 2

214 2

2 2

n(

σ ρρ

ρ( )

)−

− − � + �

���

��A A Bi i i

3,

∂ σ ∂ σ

2 lnL( ; ) 1

222

Y θθθθ =

ρσ σ ρ4 11

222 2

( )−

�A Bi i ,

∂ σ ∂ ρ

2 lnL( ; ) 1

2

Y θθθθ = [ ]1

2 12 1

12 2 2

2 2

σ ρρ ρ

( )( )

−� − + �A A Bi i i ,

27

_____________________________________________________________________________________________________ Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira, 18.Ago.2000

∂ σ

2

2

lnL( ; ) ( 2

2

Y θθθθ)

= 1

2 11 2

224 2

2 2

n(

σ ρρ

ρ( )

)−

− − � + �

���

��B A Bi i i

3,

∂ σ ∂ ρ

2 lnL( ; ) 2

2

Y θθθθ = [ ]1

2 12 1

22 2 2

2 2

σ ρρ ρ

( )( )

−� − + �B A Bi i i ,

∂ ρ

2

2

lnL( ; )

Y θθθθ =

11

11 31

6 212 2

22

22 2

3

2( )( ) ( )

−+ −

+−

� + � ++−

��

��ρ

ρρρ

ρ ρρ

n A B A Bi i i i .

As expressões precedentes são as dos elementos da matriz Hesseana Hn(Y; θθθθ ). Para calcular as esperanças matemáticas desses elementos, é útil verificar os resultados seguintes:

E( A i� ) = EY i

i

n1 1

11

−��

��

=

µσ

= 0,

E( Bi� ) = EY i

i

n2 2

21

−��

��

=

µσ

= 0,

E( A i2� ) = E

Y i

i

n1 1

1

2

1

−�

���

���

���=

µσ

= n,

E( Bi2� ) = E

Y i

i

n2 2

2

2

1

−�

���

���

���=

µσ

= n,

E( A Bi i� ) = EY Yi i

i

n1 1

1

2 2

21

−�

��

−�

���

��

��

=

µσ

µσ

= nρ.

Obtém-se

1

12

22σ σ ρ (1 2− )

σ ρσ σρσ σ σ

σ ρσ

ρ ρ σ

ρ σ ρσ

ρ σ

ρ σ ρ σ σ σ ρρ

22

1 2

1 2 12

22 2

12

2 222

212 2

22

212

222 2

12

12 2

2

0 0 00 0 0

0 024 4 2

0 04

24 2

0 02 2

11

−−

−− −

−−

− −+

����������

����������

( )

( )

( )

22

28

_____________________________________________________________________________________________________ Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira, 18.Ago.2000

(...) Referências: DAVIDSON, Russell, e MACKINNON, James G. (1993), Estimation and Inference in Econometrics, Oxford University Press, New York. GOURIEROUX, Christian, e MONFORT, Alain (1995), Statistics and Econometric Models, Cambridge University Press, Cambridge. GREENE, William H. (2000), Econometric Analysis, 4ª ed., Prentice-Hall, Upper Saddle River, New Jersey. JUDGE, George G.; GRIFFITHS, W. E.; HILL, R. Carter; LUTKEPOHL, Helmut, e LEE, Tsoung-Chao (1985), The Theory and Practice of Econometrics, 2nd ed., John Wiley and Sons, New York. KENNEDY, Peter (1998), A Guide to Econometrics, 4ª ed., Blackwell, Oxford. MURTEIRA, Bento (1979), Probabilidades e Estatística, vol. I, McGraw-Hill de Portugal, Lisboa.

29

_____________________________________________________________________________________________________ Teoria da Estimação e Estimadores de Máxima Verosimilhança M. Mendes de Oliveira, 18.Ago.2000

Exercícios 1. Seja �θ um estimador de um parâmetro θ. Se se souber que θ∈[a, b], mostre que um novo estimador, ~θ , definido por

~θ = a a

bb

, �

� , �

, �

se se a se b

θθ θ

θ

<≤ ≤>

��

��

tem erro quadrático médio não superior ao de �θ . Mostre também que, se for E( �θ ) = θ, a variância de ~θ é não superior à de �θ .

(M. Kendall e A. Stuart, The Advanced Theory of Statistics, vol. 2) 2.