ESTIMACION POR MÍNIMOS CUADRADOS Y … ALGORITMO BERNDT, HALL, HALL, HAUSMAN Martha Misas Arango 2...

45
1 ESTIMACION POR MÍNIMOS CUADRADOS Y MÁXIMA VEROSIMILITUD (MODELOS INTRÍNSECAMENTE NO LINEALIZANTES) 1. INTRODUCCIÓN 2. MINIMOS CUADRADOS 2.1 GAUSS – NEWTON 2.2 NEWTON – RAPHSON 3. MÁXIMA VEROSIMILITUD 3.1 NEWTON – RAPHSON 3.2 MÉTODO DE SCORING 3.3 ALGORITMO BERNDT, HALL, HALL, HAUSMAN Martha Misas Arango

Transcript of ESTIMACION POR MÍNIMOS CUADRADOS Y … ALGORITMO BERNDT, HALL, HALL, HAUSMAN Martha Misas Arango 2...

1

ESTIMACION POR MÍNIMOS CUADRADOS Y MÁXIMA VEROSIMILITUD

(MODELOS INTRÍNSECAMENTE NO LINEALIZANTES)

1. INTRODUCCIÓN

2. MINIMOS CUADRADOS

2.1 GAUSS – NEWTON

2.2 NEWTON – RAPHSON

3. MÁXIMA VEROSIMILITUD

3.1 NEWTON – RAPHSON

3.2 MÉTODO DE SCORING

3.3 ALGORITMO BERNDT, HALL, HALL, HAUSMAN

Martha Misas Arango

2

Mínimos Cuadrados No-lineales

Modelos económicos no-lineales en los parámetros

Forma general: ( ) ttt xfy εβ += ,donde xt (N x 1) vector de variables independientes

β (K x 1) vector de parámetros

tε Error aleatorio

yt Variable dependiente

Ejemplo: Función de producción Cobb-Douglas

tttt KLQ εα ββ += 21

yt =Qt

( )( )

( ) 21,

21'

'

ββαβ

ββαβ

ttt

ttt

KLxf

KLx

=

=

=

(1)

(2)

( ) ( ) ( ) ( ) tttt uKLQ +++= lnlnlnln 21 ββα

Intrínsecamente

linealizante

3

Intrínsecamente no Linealizante

( )( )

( ) ( )t

tt

tt

xXf

xX

υλ

βββ

λβββλ

+−

+=

=

=

1,

1

21

21'

'

4

Estimación de parámetros en modelos intrísecamente no-lineales

De la misma manera que en el caso lineal la estimación se basa en la

minimización o maximización de una función objetivo.

En el caso del modelo lineal el objetivo se consigue a través de resolver

un sistema de ecuaciones normales lineales. En el caso de los modelos

no-lineales la tarea es un poco mas difícil debido a que el sistema de

ecuaciones normales es también no lineal en los parámetros.

Funciones objetivo:

- Suma de errores al cuadrado (MCO)

- Función de verosimilitud

Algoritmos

Mínimos Cuadrados OrdinariosGauss-Newton

Newton-Raphson

Máxima VerosimilitudNewton-RaphsonMétodo de ScoringAlgoritmo BHHH

5

Caso Lineal

[ ][ ] IE

EXY

2'

0,

σεε

εεβ

=

=+=

X: (TXK)

β : (KX1)Función objetivo:

Ecuaciones normales o condiciones de primer orden:

( ) ( ) ( )

( ) ( ) ( )β

βββ

ββ

ββ

ββββ

ββ

ββ

XXYXXXYXYYS

XXYXXXYXYYS

KK

KKKK

'''''''

'1

'1

1

''

1

''

1

'

1

222

222

+−=∂

∂+

∂∂−

∂∂=

∂∂

+−=∂

∂+

∂∂−

∂∂=

∂∂

M

Estimador de mínimos cuadrados ordinarios: ( ) YXXX '1'ˆ −=β

( ) ββββ XXYXYYS ''''' 2 +−=

6

[ ]

==

221

22212

12121

2

1

21

TUU

TUU

TU

TUUUUU

TUUUUU

TUU

TU

U

U

UUU T

( ) ( )( ) ( )

( ) ( )

=

221

22212

12121

TUVU

TUCOVU

TUCOV

TUUCOVUVUUCOV

TUUCOVUUCOVUV

TUUE

=

2

22

21

00

00

00

t

TUUE

σ

σ

σ

Suponiendo

No correlación Homoscedasticidad

=

100

010

001

2σTUUE

ψσ 2=

TUUE en este caso I=ψ luego ITUUE 2σ=

7

Introducción a Mínimos Cuadrados No-Lineales

Consideremos el siguiente modelo:

( )

t

ttt

ttxx

xfy

εββ

εβ

++=

+=

22

1

,

Donde tε Variables aleatorias independientes e idénticamente distribuidas

El estimador mínimo cuadrático no lineal se define como aquel valor de βque minimiza la siguiente suma de residuales al cuadrado:

( )

( )[ ]

[ ]2

12

21

2

1

1

2

,

=

=

=

−−=

−=

=

T

t

t

T

t

tt

T

t

t

ttxxy

xfy

S

ββ

β

εβ

(3)

(4)

con media 0 y varianza 2σ

8

La condición de primer orden o ecuación normal para el mínimo de esta función

está dada por:

( )[ ] ( )

( )( ) 022

,,2

211

22

1

1

=−−−−=

−−=

=

=

ttttxxxxy

d

xfdxfy

d

dS

T

t

t

tT

t

tt

βββ

ββ

ββ

Reordenando términos de (5) se tiene:

(5)

02321

11

21

21

1 121

222

3 =−

−++ ∑∑∑∑ ∑

==== =

T

t

t

T

t

t

T

t

T

t

T

t

yxyxxxxxtttttt

βββ(6)

Ecuación cúbica Tres posibles solucionesen β

9

El estimador Mínimo Cuadrático No-lineal

b

Es aquella solución que produce una suma mínima

de residuales al cuadrado: ( )βS

β

( )βS

-3 0 3

0

90

180

Figura 1

El valor más pequeño para ( )βSse define como mínimo global.

Otros mínimos se conocen

como mínimos locales

1.2

Estimador de mínimos cuadrados no lineales

-2

Máximo

-1

10

Estimación Mínimo Cuadrática No-lineal para un solo parámetro

( ) ttt xfy εβ += ,

Modelo No-lineal de un solo parámetro:

( )

( )[ ]2

1

1

2

,∑

=

=

−=

=

T

t

tt

T

t

t

xfy

S

β

εβFunción Objetivo

( )[ ] ( )0

,,2

1

=

−−= ∑

= ββ

ββ d

xfdxfy

d

dS tT

t

tt

Condición de

primer orden

(7)

(8)

(9)

En general, no es posible utilizar las condiciones de primer orden para derivar una

expresión analítica para el estimador de mínimos cuadrados no lineales.

11

El problema es encontrar el valor de β que satisfaga la ecuación (9) y conduzca a un mínimo global

Algoritmo de Gauss-Newton

El primer paso consiste en reemplazar ( )β,txf Aproximación de Taylor

de primer orden

( ) ( ) ( ) ( )111

,,, ββ

ββ

ββ β −+≅d

xdfxfxf ttt

(10)

Es decir:

( ) ( ) ( )( )1

1,,,1 ββ

ββββ

β −−

≅ ttt xfxf

d

xdf (11)

Pendiente de la tangente de la curva ( )β,txf en el punto 1β

12

Figura 2

Esta pendiente está representada por la razón BA

CB La razón de lado

derecho de (11) es una aproximación a la pendiente y en la figura 2 está dada

por Adicionalmente, el lado derecho de (11) puede ser vista como la

pendiente de una línea recta que une los puntos D y A , la cual puede ser

utilizada para aproximar la pendiente de CA

BA

DB

A

D( )β,txf

( )1,βtxf B

c

1β β

13

Si definimos:

( ) ( )ββ

βd

xfdz tt

,= (12) ( ) ( )

1

,1

βββ

βd

xfdz tt = (13)

Bajo esta notación y teniendo en cuenta la expansión de Taylor (10)

se tiene:

( ) ( ) ( )( )[ ]2

1111,∑

=

−−−=T

t

ttt zxfyS βββββ (14)

Si: ( ) ( ) ( ) 1111 ,~ ββββ tttt zxfyy +−= (15)

( ) ( ) ( )[ ]2

111

~∑=

−=T

t

tt zyS ββββ (16)

14

Pseudo modelo lineal:

( ) ( ) ttt zy εβββ += 11~ (17)

( ) ( )[ ] ( ) ( )1'1

1

1'

12~ βββββ yzzz

−= (18)

donde

( )( )

( )

=

1

11

1

β

ββ

Tz

z

z M ( )( )

( )

=

1

11

1

~

~

~

β

ββ

Ty

y

y M

MCO

Al dar un valor inicial a , como y aproximando la función por el polinomio de Taylor de primer orden

alrededor de entonces el segundo valor estimado para llamado puede ser encontrado a partir de MCO

a un nuevo pseudomodelo lineal. El proceso se continua de manera repetida hasta lograr convergencia.

β1β ( )β,txf

1β β 2β

15

El proceso puede repetirse

( ) ( ) ttt zy εβββ += 22~ (19)

MCO

( ) ( )[ ] ( ) ( )22

1

2'

23~ βββββ yzzz

−= (20)

Continuando con el proceso se obtiene una secuencia de estimaciones:

4321 ,,, ββββde tal forma que:

( ) ( )[ ] ( ) ( )( ) ( )[ ] ( ) ( ) ( )[ ]

( ) ( )[ ] ( ) ( )[ ]44444444 344444444 21

NewtonGaussdeAlgoritmo

,

,

~

'1'

'1'

'1'1

−+=

+−=

=

+

nnnnn

nnnnnn

nnnnn

xfyzzz

zxfyzzz

yzzz

βββββ

ββββββ

βββββ

(21)

16

Si dos estimaciones sucesivas son iguales:

( ) ( )[ ]4444 34444 21

ordenprimerdeCondición

' 0, =− nn xfyz ββ (22)

1+= nn ββ

De (21) se tiene que :

nβ Satisface la condición necesaria para ser

un mínimo

¿Cómo estar seguro de que el proceso conduce a un mínimo y no a un máximo?

17

En forma matricial (9) puede ser reescrita:

( ) ( )[ ]βββ

,'2 Xfyz

d

Sd−−=

( ) ( )[ ]n

d

dszz nnnn

ββββββ

1'1 2

1 −

+ −=

*1β

En 1β 0>βdSd

:

-3.0 0 3.0

*1βEn 0<

βdSd

nn ββ <⇒ +1

(23)

(24)

(25)

( ) ( )[ ]n

d

dszzt nnnnn

ββββββ

1'1

+ −=

Step length

18

Estimación Mínimo Cuadrática No-lineal para más de un parámetro

( )[ ][ ] IE

E

XfY

2'

0

,

σεε

ε

εβ

=

=

+= ( )'1 ,, kβββ L=

( ) ( )[ ] ( )[ ]ββεεβ ,, '' XfYXfYs −−==

Función objetivo:

K Condiciones de primer orden:

(26)

(27)

( ) ( )[ ] 0,,

2'

=−∂

∂−=

∂∂

βββ

βXfY

XfS (28)

Donde:( )ββ

∂∂ ',Xf Matriz de derivadas de orden KXT

El elemento (k,t)( )

k

txf

ββ

∂∂ ,

19

Siguiendo la notación del caso de un parámetro definimos:

( ) ( )

( ) ( )

( ) ( )

∂∂

∂∂

∂∂

∂∂

=∂

∂=

K

TT

K

xfxf

xfxf

XfZ

ββ

ββ

ββ

ββ

ββ

β,,

,,

,

1

1

1

1

'M

L(29)

Condición de primer orden: ( ) ( )[ ] 0,' =− ββ XfYZ

Aproximación de Taylor:

(30)

( ) ( ) ( ) ( ) ( )11

1

11

,,,, ββ

ββ

ββ

ββββ

∂∂

∂∂

+≅K

tttt

xfxfxfxf L (31)

Pseudo modelo:

( ) ( ) εβββ += 11~

ZY (32)

20

Algoritmo de Gauss Newton:

( ) ( )[ ] ( ) ( )[ ]nnnnnn XfYZZZ ββββββ ,'1'1 −+=

+

En convergencia y bajo las condiciones de primer orden, al igual que en el

caso anterior, se asegura un mínimo.

Ejemplo: Función de producción Cobb-Douglas

yt =Qt

( )( )

( ) γβαβ

γβαβ

ttt

ttt

KLxf

KLx

=

=

=

,

'

'

ttt KLQ εα γβ += tεdonde iid

[ ] ( ) 2vary0 σεε == ttE

(33)

21

( ) ( ) ( ) ( )

( ) ( )[ ]γβγβγβ αα

γβ

ββ

αβ

ββ

tttttttt

tttt

KLKKLLKL

xfxfxfxf

ln,ln,

,,

,,

,,'

=

∂∂

∂∂

∂=

∂∂

(34)

(35)( )( ) ( )

( ) ( )

=γβγβγβ

γβγβγβ

αα

ααβ

TTTTTTtT KLKKLLKL

KLKKLLKL

Z

lnln

lnln 11111111

MMM

( ) ( )

( ) ( ) ( )( ) ( ) ( ) ( ) ( )( )

( ) ( ) ( )( ) ( ) ( )

∑=

∑=

∑=

∑=

∑=

∑=

∑=

∑=

∑=

=

T

ttKtLtK

T

ttKtLtLtK

T

ttKtLtK

T

ttKtLtLtK

T

ttLtLtK

T

ttLtLtK

T

ttKtLtK

T

ttLtLtK

T

ttLtK

ZZ

1

2ln

22

1lnln

22

1ln

21

lnln22

1

2ln

22

1ln

21

ln2

1ln

2

1

2

'

γβα

γβα

γβα

γβα

γβα

γβα

γβα

γβα

γβ

ββ(36)

22

( ) ( )[ ]

( )( )

( )( )

( )( )

=−

=

=

=

T

t

tttttt

T

t

tttttt

T

t

ttttt

LKYKLK

LKYLLK

LKYLK

XfYZ

1

1

1

'

ln

ln,

γβγβ

γβγβ

γβγβ

αα

αα

α

ββ

( ) ( )[ ] ( ) ( )[ ]nnnnnn XfYZZZ ββββββ ,1'

1 −+=−

+

Algoritmo de Gauss-Newton:

Hasta alcanzar un nivel de convergencia deseado

(37)

(38)

23

Algoritmo Newton - Raphson

( ) ttt xfy εβ += ,

( )

( )[ ]2

1

1

2

,∑

=

=

−=

=

T

t

tt

T

t

t

xfy

S

β

εβFunción Objetivo

(39)

(40)

Aproximación de Taylor de segundo orden

( ) ( ) ( ) ( )212

2

11

112

1ββ

βββ

βββ

ββ

−+−+≈d

Sd

d

dSSS

(41)

Caso de un solo parámetro

( ) ( )( )

( )212

2

1

1

11 2

1ββ

βββββ

β ββ −∂

∂−

−≅

∂∂ SSSS

24

A

D( )βS

( )1βS B

c

1β β

Figura 3

Expresada así

Indica que estamos aproximando la pendiente de la tangente CA

a la pendiente de la línea que une los puntos D y A, menos la cantidad

( ) ( )( )

( )212

2

1

111 2

1ββ

βββββ

β ββ −−−−

≅d

SdSS

d

dS

( )212

2

12

1ββ

β β −d

Sd

25

( )( )111βββ

ββ β −+≅ hd

dS

d

dS

( )1

1112 βββββ

d

dSh

−−=

Y diferenciando (41) con respecto a β

Usando la notación

( )12

2

1 βββ

∂=

Sh

Igualando a 0 y resolviendo para β se obtiene un segundo valor para β

( )nd

dSh nnn βββββ 1

1−

+ −=

Y continuando este procedimiento se obtiene el valor (n+1) de β

se obtiene

(42)

(43)

(44)

(45)

26

nn ββ =+1 0ˆ =nd

dSββ

entonces

( )nd

dSht nnnn βββββ 1

1−

+ −=

(Condición necesaria para un

mínimo o máximo)

( )1βh

Sea nt una variable step length, luego

En cada iteración se encuentra un nt t.q ( ) ( )nn SS ββ <+1

(46)

El algoritmo irá en dirección correcta (hacia un mínimo) desde

si la segunda derivada es positiva. Dado que ésta siempre

es positiva en una vecindad del mínimo, se irá en una dirección

correcta si es suficientemente cercano al mínimo.

Sin embargo podría sobrepasarlo por lo cual se hace necesario

introducir:

27

( ) ( )nd

dSzz nnnn ββββββ

1

1 2

1 −

+

′−=

nd

dSPnnn ββ

ββ −=+1

Gauss - Newton

Comparando esta ecuación con

Relación entre los algoritmos Gauss – Newton y Newton - Raphson

( )nd

dSh nnn βββββ 1

1−

+ −= Newton - Raphson

Se observa que ambos algoritmos son de la forma

donde ( ) ( )

( )

=−

1

1

2

1

n

nn

n

h

zzp

β

ββ Para Gauss - Newton

Para Newton - Raphson

28

( ) ( ) ( ) 2

1

,∑=

=′ T

t

t

d

xdfzz

ββ

ββ

Recordando las definiciones de

(47)

( )βz y ( )βh se tiene que

( ) ( )[ ]

( )[ ] ( )

( ) ( )[ ] ( )

( ) ( ) ( )[ ] ( )2

2

1

12

22

1

1

2

2

2

2

2

,,22

,,

,2

,,2

,

ββ

βββ

ββ

βββ

ββ

ββ

βββ

β

d

xfdxfyzz

d

xfdxfy

d

xdf

d

xdfxfy

d

d

xfyd

d

d

Sdh

tT

t

tt

T

t

ttt

t

T

t

ttt

T

t

tt

=

=

=

=

−−′=

−−

=

−−=

−==

(48)

29

( ) ( ) ( )βββ

β zzd

SdEhE

′=

=

2

2

2

1

2

1

Luego, los dos algoritmos son idénticos, excepto por el segundo

término en la última línea de (48)

Dado que [ ] ( )β,tt xfyE = este término tiene una esperanza de 0

(49)

30

( ) ( )2

12

21∑

=

−−=T

t

ttt xxyS βββ

( )( )211

22

1 22 tt

T

t

ttt xxxxyd

dSβββ

β+−−−= ∑

=

( ) ( ) ( )[ ]∑=

−−−+==T

t

tttttt xxxyxxd

Sdh

122

21

2212

2

222 ββββ

β

( ) ( ) ( )∑=

′=+=

T

t

tt zzxxd

SdE

1

2212

2

222 ββββ

Ejemplo: Usar el algoritmo de Newton – Raphson para encontrar

el valor de β que minimiza

Nótese que

(50)

(51)

(52)

(53)

31

( )( )[ ]

( ) ( )[ ]∑

=

=+

−−−+

+−−+=

T

t

ttntnttnt

T

t

tnttntnt

nn

xxxyxx

xxxxy

122

21

221

1212

21

1

22

2

βββ

βββββ

La iteración (n+1) del proceso de Newton – Raphson puede escribirse así

(54)

32

Caso general de K parámetros

Para el modelo no lineal

( ) εβ += ,Xfy

Donde β es un vector de parámetros desconocidos de dimensión K

La n-iteración del algoritmo de Newton – Raphson diseñado para

encontrar el valor de β que minimiza ( ) εεβ ′=S está dado por

n

SH nnn

ββββ

∂∂

−= −+

11

donde

n

nK

SSSS

ββ ββββ

∂∂

∂∂

∂∂

=∂∂

,,,21

Kes el vector gradiente evaluado en nβ

(55)

(56)

(57)

33

nKK

K

n

SS

SS

SH

ββββ

βββ

ββ

∂∂

∂∂∂

∂∂∂

∂∂

=′∂∂

∂=

2

2

1

2

1

2

21

2

2

L

MOM

L

es la matriz Hessiana

de (K x K) evaluada en nβ

Un estimador de la matriz de covarianzas del vector minimizador b

es frecuentemente

b

b

S12

2ˆ2ˆ−

′∂∂

∂=∑

ββσ donde ( )

( )KT

bS

−=2σ̂

(58)

(59)

34

Los algoritmos de Gauss – Newton y Newton – Raphson son sólo dos

de un gran número de algoritmos posibles. La mayoría tiene la forma

nnnnn Pt γββ −=+1

n

Sn

ββγ

∂∂=

(60)

donde

es el vector gradiente

nP

nt

es (deseablemente) una matriz d.p llamada matriz de dirección

es un número positivo conocido como step lenght

El rasgo que diferencia algoritmos alternativos es la definición de nP

35

Estimación por Máxima Verosimilitud

( ) εβ += ,XfY

Modelo general:

donde ( )IN 2,0~ σε

Función de verosimilitud:

( )( )

( )[ ] ( )[ ]

( )( )

−=

−−−=

2

22

2

'

22

2

2exp

2

1

2

,,exp

2

1,,

σβ

πσ

σββ

πσσβ

S

XfyXfyXy

T

Tl

(61)

(62)

Logaritmo de la función de verosimilitud:

( ) ( ) ( )2

222

2ln

22ln

2,,ln,,

σβ

σπσβσβSTT

XyXyL −−−== l (63)

36

En general no es posible encontrar una expresión analítica para el

estimador máximo verosímil . β~ que sea un valor de βtal que

0=∂∂βL

donde

Es posible, sin embargo, encontrar una expresión para el máximo

estimador verosímil de :2~σ como función de β

( )T

S βσ =2~ (64)

Por consiguiente, la función Log de verosimilitud puede ser expresada en

términos de β

( ) ( )2

ln2

2ln2

,* T

T

STTXyL −−−=

βπβ (65)

El estimador de máxima verosimilitud β~ que maximiza ( )XyL ,* βes idéntico al estimador de mínimos cuadrados no lineales que minimiza a:

S(β )

37

Propiedades

Sea ( )2,σβθ ′=′

( )2~,~~σβθ ′=′Sea el estimador de máxima verosimilitud deθ ′

Bajo condiciones apropiadas de regularidad

( ) ( )[ ][ ]1/lim,~ −→− TINT d θθθ 0

donde ( )θI es la matriz de información

( )

( )

( ) ( )

=

∂′∂∂

∂∂

∂′∂∂

−=

′∂∂

∂−=

4

2

22

2

2

2

2

22

2

2/0

0

σ

ββσ

σβσ

σβββ

θθθ

T

ZZ

LL

LL

EL

EI

(66)

(67)

38

Algoritmos alternativos y matriz de covarianzas

Dado que la matriz de información (67) es diagonal y dado que a partir

de (64) puede obtenerse2σ una vez que β ha sido estimado, es

suficiente considerar cada algoritmo en términos de β

Ignorando la variable step length, una expresión general para los

tres algoritmos es:

n

LPnnn

ββββ

∂∂

−=+1

Con el algoritmo de Newton – Raphson

(68)

(69)

n

LPn

βββ

12 −

′∂∂

∂=

nn

nn

nn

SS

SS

LL

n

n

nn

ββ

ββ

ββ

ββββ

βσββσβ

βββββ

∂∂⋅

′∂∂

∂−=

∂∂−

′∂∂

∂−−=

∂∂⋅

′∂∂

∂−=

+

12

2

12

2

12

1

2

1

2

1

39

βσβ

β ββσ

ββ ~

122

~,~

12

~~2ˆ

2

−−

′∂∂

∂=

′∂∂

∂−=∑

SL

En este caso un estimador de la matriz asintótica de covarianzas para βpuede encontrarse a partir de

Mientras que el algoritmo de Newton – Raphson usa la inversa de la matriz

Hessiana de la función de log-likelihood, el método de scoring usa la inversa

del valor esperado de la Hessiana, o, la negativa de la inversa de la matriz

de información; esto es,

n

LEPn

βββ

12

′∂∂

∂=

(70)

40

En este caso se tiene que

( ) ( )

( ) ( )nn

n

nn

SZZ

SZZ

LLE

nnn

nnn

nn

ββ

β

ββ

ββββ

βσββ

σβ

βββββ

∂∂⋅

′−=

∂∂−

′−−=

∂∂⋅

′∂∂

∂−=

+

1

2

1

2

12

1

2

1

2

11

(71)

Un estimador de la matriz asintótica de covarianzas para

está dado por

β

( ) ( )1

2

~,~

12

~~~~ˆ

2

−−

=

′∂∂

∂−=∑ ββσ

ββσβ

βZZ

LE (72)

41

Para considerar el algoritmo BHHH, se requiere log-verosimilitud

para una única observación

( )( )[ ]

2

22

2

2

,ln

2

12ln

2

1

,,

σβ

σπ

σβ

tt

ttt

xfy

xyLL

−−−−=

=

(73)

Con este algoritmo nP es definida como

2~,~

1

1n

T

t

ttn

LLP

σβββ

=

′∂

∂∂

−= ∑& (74)

42

Ahora

( )[ ] ( )ββ

σβ

β ∂

∂−=

∂ ,,2

tttt xfxfyL (75)

Y el algoritmo está dado por

(76)

( )[ ] ( ) ( )

( )[ ] ( ) ( )nn

nnn

nnn

Sxfxfxfy

Sxfxfxfy

LLL

T

t

tt

ttnn

T

t

tttt

n

T

t

tt

nn

ββ

βσβ

βσβ

ββ

β

β

ββσβ

βσβ

β

β

β

σ

ββ

βββββ

∂∂⋅

′∂

∂−−=

∂∂−

′∂

∂−+=

∂∂⋅

′∂

∂+=

=

=

=+

1

1

,,2,

2

2

,

1

1

,,

4

2,

,

1

11

2

1

2

1

2

2

43

Este algoritmo no se parece a ninguno que se haya considerado hasta ahora,

Sin embargo, debe notarse que

( ) ( ) ( ) ( )ββσβ

βββ

σββZZ

xfxfLLE

T

t

ttT

t

tt ′=

′∂

∂=

′∂

∂∂

∑∑==

21

,,

21

11 (77)

Luego reemplazando∑=

′∂

∂∂T

t

tt LL

1 ββ por su esperanza, se obtiene un

algoritmo idéntico al de Gauss – Newton y al método de scoring.

Cuando se usa el algoritmo BHHH, un estimador natural para la matriz de

covarianzas asintótica de β~es

( )[ ] ( ) ( ) 1

~1

,,2,

4

~,~

1

1

~

~

ˆ

2

=

=

′∂

∂−=

′∂

∂=∑

β

σβ

β

β

β

β

ββσ

ββ

T

t

tt

tt

T

t

tt

xfxfxfy

LL

nn

(78)

44

Dado que el algoritmo BHHH no se ha simplificado a uno de los casos

especiales considerados anteriormente, será útil ilustrarlo con el modelo

simple de un parámetrotttt xxy εββ ++= 2

21

Para este modelo

( )( )[ ]

( )( )[ ]∑

=

=+

+−−

+−−+=

T

t

tnttntnt

T

t

tnttntnt

nnn

xxxxy

xxxxy

1

2212

21

1212

21

21

2

2

βββ

βββσββ (79)

Y (78) se convierte en

( )( )( )[ ]∑

=

+−−=

T

t

tnttntnt xxxxy1

2

2122

1

4

~2

~~

~~var

βββ

σβ

(80)

45

Resumen de los tres algoritmos

Los tres algoritmos pueden escribirse de la forma

2,

1

1

12

12

nn

n

n

T

t

tt

n

LL

LE

L

P

σβ

β

β

ββ

ββ

ββ

′∂

∂−

′∂∂

′∂∂

=

=

n

LPnnn

ββββ

∂∂

−=+1 (81)

Para el algoritmo Newton - Raphson

Para el método de scoring

Para el algoritmo BHHH

(82)