ESTIMACION POR MÍNIMOS CUADRADOS Y … ALGORITMO BERNDT, HALL, HALL, HAUSMAN Martha Misas Arango 2...
Transcript of ESTIMACION POR MÍNIMOS CUADRADOS Y … ALGORITMO BERNDT, HALL, HALL, HAUSMAN Martha Misas Arango 2...
1
ESTIMACION POR MÍNIMOS CUADRADOS Y MÁXIMA VEROSIMILITUD
(MODELOS INTRÍNSECAMENTE NO LINEALIZANTES)
1. INTRODUCCIÓN
2. MINIMOS CUADRADOS
2.1 GAUSS – NEWTON
2.2 NEWTON – RAPHSON
3. MÁXIMA VEROSIMILITUD
3.1 NEWTON – RAPHSON
3.2 MÉTODO DE SCORING
3.3 ALGORITMO BERNDT, HALL, HALL, HAUSMAN
Martha Misas Arango
2
Mínimos Cuadrados No-lineales
Modelos económicos no-lineales en los parámetros
Forma general: ( ) ttt xfy εβ += ,donde xt (N x 1) vector de variables independientes
β (K x 1) vector de parámetros
tε Error aleatorio
yt Variable dependiente
Ejemplo: Función de producción Cobb-Douglas
tttt KLQ εα ββ += 21
yt =Qt
( )( )
( ) 21,
21'
'
ββαβ
ββαβ
ttt
ttt
KLxf
KLx
=
=
=
(1)
(2)
( ) ( ) ( ) ( ) tttt uKLQ +++= lnlnlnln 21 ββα
Intrínsecamente
linealizante
4
Estimación de parámetros en modelos intrísecamente no-lineales
De la misma manera que en el caso lineal la estimación se basa en la
minimización o maximización de una función objetivo.
En el caso del modelo lineal el objetivo se consigue a través de resolver
un sistema de ecuaciones normales lineales. En el caso de los modelos
no-lineales la tarea es un poco mas difícil debido a que el sistema de
ecuaciones normales es también no lineal en los parámetros.
Funciones objetivo:
- Suma de errores al cuadrado (MCO)
- Función de verosimilitud
Algoritmos
Mínimos Cuadrados OrdinariosGauss-Newton
Newton-Raphson
Máxima VerosimilitudNewton-RaphsonMétodo de ScoringAlgoritmo BHHH
5
Caso Lineal
[ ][ ] IE
EXY
2'
0,
σεε
εεβ
=
=+=
X: (TXK)
β : (KX1)Función objetivo:
Ecuaciones normales o condiciones de primer orden:
( ) ( ) ( )
( ) ( ) ( )β
βββ
ββ
ββ
ββββ
ββ
ββ
XXYXXXYXYYS
XXYXXXYXYYS
KK
KKKK
'''''''
'1
'1
1
''
1
''
1
'
1
222
222
+−=∂
∂+
∂∂−
∂∂=
∂∂
+−=∂
∂+
∂∂−
∂∂=
∂∂
M
Estimador de mínimos cuadrados ordinarios: ( ) YXXX '1'ˆ −=β
( ) ββββ XXYXYYS ''''' 2 +−=
6
[ ]
==
221
22212
12121
2
1
21
TUU
TUU
TU
TUUUUU
TUUUUU
TUU
TU
U
U
UUU T
( ) ( )( ) ( )
( ) ( )
=
221
22212
12121
TUVU
TUCOVU
TUCOV
TUUCOVUVUUCOV
TUUCOVUUCOVUV
TUUE
=
2
22
21
00
00
00
t
TUUE
σ
σ
σ
Suponiendo
No correlación Homoscedasticidad
=
100
010
001
2σTUUE
ψσ 2=
TUUE en este caso I=ψ luego ITUUE 2σ=
7
Introducción a Mínimos Cuadrados No-Lineales
Consideremos el siguiente modelo:
( )
t
ttt
ttxx
xfy
εββ
εβ
++=
+=
22
1
,
Donde tε Variables aleatorias independientes e idénticamente distribuidas
El estimador mínimo cuadrático no lineal se define como aquel valor de βque minimiza la siguiente suma de residuales al cuadrado:
( )
( )[ ]
[ ]2
12
21
2
1
1
2
,
∑
∑
∑
=
=
=
−−=
−=
=
T
t
t
T
t
tt
T
t
t
ttxxy
xfy
S
ββ
β
εβ
(3)
(4)
con media 0 y varianza 2σ
8
La condición de primer orden o ecuación normal para el mínimo de esta función
está dada por:
( )[ ] ( )
( )( ) 022
,,2
211
22
1
1
=−−−−=
−−=
∑
∑
=
=
ttttxxxxy
d
xfdxfy
d
dS
T
t
t
tT
t
tt
βββ
ββ
ββ
Reordenando términos de (5) se tiene:
(5)
02321
11
21
21
1 121
222
3 =−
−++ ∑∑∑∑ ∑
==== =
T
t
t
T
t
t
T
t
T
t
T
t
yxyxxxxxtttttt
βββ(6)
Ecuación cúbica Tres posibles solucionesen β
9
El estimador Mínimo Cuadrático No-lineal
b
Es aquella solución que produce una suma mínima
de residuales al cuadrado: ( )βS
β
( )βS
-3 0 3
0
90
180
Figura 1
El valor más pequeño para ( )βSse define como mínimo global.
Otros mínimos se conocen
como mínimos locales
1.2
Estimador de mínimos cuadrados no lineales
-2
Máximo
-1
10
Estimación Mínimo Cuadrática No-lineal para un solo parámetro
( ) ttt xfy εβ += ,
Modelo No-lineal de un solo parámetro:
( )
( )[ ]2
1
1
2
,∑
∑
=
=
−=
=
T
t
tt
T
t
t
xfy
S
β
εβFunción Objetivo
( )[ ] ( )0
,,2
1
=
−−= ∑
= ββ
ββ d
xfdxfy
d
dS tT
t
tt
Condición de
primer orden
(7)
(8)
(9)
En general, no es posible utilizar las condiciones de primer orden para derivar una
expresión analítica para el estimador de mínimos cuadrados no lineales.
11
El problema es encontrar el valor de β que satisfaga la ecuación (9) y conduzca a un mínimo global
Algoritmo de Gauss-Newton
El primer paso consiste en reemplazar ( )β,txf Aproximación de Taylor
de primer orden
( ) ( ) ( ) ( )111
,,, ββ
ββ
ββ β −+≅d
xdfxfxf ttt
(10)
Es decir:
( ) ( ) ( )( )1
1,,,1 ββ
ββββ
β −−
≅ ttt xfxf
d
xdf (11)
Pendiente de la tangente de la curva ( )β,txf en el punto 1β
12
Figura 2
Esta pendiente está representada por la razón BA
CB La razón de lado
derecho de (11) es una aproximación a la pendiente y en la figura 2 está dada
por Adicionalmente, el lado derecho de (11) puede ser vista como la
pendiente de una línea recta que une los puntos D y A , la cual puede ser
utilizada para aproximar la pendiente de CA
BA
DB
A
D( )β,txf
( )1,βtxf B
c
1β β
13
Si definimos:
( ) ( )ββ
βd
xfdz tt
,= (12) ( ) ( )
1
,1
βββ
βd
xfdz tt = (13)
Bajo esta notación y teniendo en cuenta la expansión de Taylor (10)
se tiene:
( ) ( ) ( )( )[ ]2
1111,∑
=
−−−=T
t
ttt zxfyS βββββ (14)
Si: ( ) ( ) ( ) 1111 ,~ ββββ tttt zxfyy +−= (15)
( ) ( ) ( )[ ]2
111
~∑=
−=T
t
tt zyS ββββ (16)
14
Pseudo modelo lineal:
( ) ( ) ttt zy εβββ += 11~ (17)
( ) ( )[ ] ( ) ( )1'1
1
1'
12~ βββββ yzzz
−= (18)
donde
( )( )
( )
=
1
11
1
β
ββ
Tz
z
z M ( )( )
( )
=
1
11
1
~
~
~
β
ββ
Ty
y
y M
MCO
Al dar un valor inicial a , como y aproximando la función por el polinomio de Taylor de primer orden
alrededor de entonces el segundo valor estimado para llamado puede ser encontrado a partir de MCO
a un nuevo pseudomodelo lineal. El proceso se continua de manera repetida hasta lograr convergencia.
β1β ( )β,txf
1β β 2β
15
El proceso puede repetirse
( ) ( ) ttt zy εβββ += 22~ (19)
MCO
( ) ( )[ ] ( ) ( )22
1
2'
23~ βββββ yzzz
−= (20)
Continuando con el proceso se obtiene una secuencia de estimaciones:
4321 ,,, ββββde tal forma que:
( ) ( )[ ] ( ) ( )( ) ( )[ ] ( ) ( ) ( )[ ]
( ) ( )[ ] ( ) ( )[ ]44444444 344444444 21
NewtonGaussdeAlgoritmo
,
,
~
'1'
'1'
'1'1
−
−+=
+−=
=
−
−
−
+
nnnnn
nnnnnn
nnnnn
xfyzzz
zxfyzzz
yzzz
βββββ
ββββββ
βββββ
(21)
16
Si dos estimaciones sucesivas son iguales:
( ) ( )[ ]4444 34444 21
ordenprimerdeCondición
' 0, =− nn xfyz ββ (22)
1+= nn ββ
De (21) se tiene que :
nβ Satisface la condición necesaria para ser
un mínimo
¿Cómo estar seguro de que el proceso conduce a un mínimo y no a un máximo?
17
En forma matricial (9) puede ser reescrita:
( ) ( )[ ]βββ
,'2 Xfyz
d
Sd−−=
( ) ( )[ ]n
d
dszz nnnn
ββββββ
1'1 2
1 −
+ −=
1β
*1β
En 1β 0>βdSd
:
-3.0 0 3.0
*1βEn 0<
βdSd
nn ββ <⇒ +1
(23)
(24)
(25)
( ) ( )[ ]n
d
dszzt nnnnn
ββββββ
1'1
−
+ −=
Step length
18
Estimación Mínimo Cuadrática No-lineal para más de un parámetro
( )[ ][ ] IE
E
XfY
2'
0
,
σεε
ε
εβ
=
=
+= ( )'1 ,, kβββ L=
( ) ( )[ ] ( )[ ]ββεεβ ,, '' XfYXfYs −−==
Función objetivo:
K Condiciones de primer orden:
(26)
(27)
( ) ( )[ ] 0,,
2'
=−∂
∂−=
∂∂
βββ
βXfY
XfS (28)
Donde:( )ββ
∂∂ ',Xf Matriz de derivadas de orden KXT
El elemento (k,t)( )
k
txf
ββ
∂∂ ,
19
Siguiendo la notación del caso de un parámetro definimos:
( ) ( )
( ) ( )
( ) ( )
∂∂
∂∂
∂∂
∂∂
=∂
∂=
K
TT
K
xfxf
xfxf
XfZ
ββ
ββ
ββ
ββ
ββ
β,,
,,
,
1
1
1
1
'M
L(29)
Condición de primer orden: ( ) ( )[ ] 0,' =− ββ XfYZ
Aproximación de Taylor:
(30)
( ) ( ) ( ) ( ) ( )11
1
11
,,,, ββ
ββ
ββ
ββββ
−
∂∂
∂∂
+≅K
tttt
xfxfxfxf L (31)
Pseudo modelo:
( ) ( ) εβββ += 11~
ZY (32)
20
Algoritmo de Gauss Newton:
( ) ( )[ ] ( ) ( )[ ]nnnnnn XfYZZZ ββββββ ,'1'1 −+=
−
+
En convergencia y bajo las condiciones de primer orden, al igual que en el
caso anterior, se asegura un mínimo.
Ejemplo: Función de producción Cobb-Douglas
yt =Qt
( )( )
( ) γβαβ
γβαβ
ttt
ttt
KLxf
KLx
=
=
=
,
'
'
ttt KLQ εα γβ += tεdonde iid
[ ] ( ) 2vary0 σεε == ttE
(33)
21
( ) ( ) ( ) ( )
( ) ( )[ ]γβγβγβ αα
γβ
ββ
αβ
ββ
tttttttt
tttt
KLKKLLKL
xfxfxfxf
ln,ln,
,,
,,
,,'
=
∂
∂∂
∂∂
∂=
∂∂
(34)
(35)( )( ) ( )
( ) ( )
=γβγβγβ
γβγβγβ
αα
ααβ
TTTTTTtT KLKKLLKL
KLKKLLKL
Z
lnln
lnln 11111111
MMM
( ) ( )
( ) ( ) ( )( ) ( ) ( ) ( ) ( )( )
( ) ( ) ( )( ) ( ) ( )
∑=
∑=
∑=
∑=
∑=
∑=
∑=
∑=
∑=
=
T
ttKtLtK
T
ttKtLtLtK
T
ttKtLtK
T
ttKtLtLtK
T
ttLtLtK
T
ttLtLtK
T
ttKtLtK
T
ttLtLtK
T
ttLtK
ZZ
1
2ln
22
1lnln
22
1ln
21
lnln22
1
2ln
22
1ln
21
ln2
1ln
2
1
2
'
γβα
γβα
γβα
γβα
γβα
γβα
γβα
γβα
γβ
ββ(36)
22
( ) ( )[ ]
( )( )
( )( )
( )( )
−
−
−
=−
∑
∑
∑
=
=
=
T
t
tttttt
T
t
tttttt
T
t
ttttt
LKYKLK
LKYLLK
LKYLK
XfYZ
1
1
1
'
ln
ln,
γβγβ
γβγβ
γβγβ
αα
αα
α
ββ
( ) ( )[ ] ( ) ( )[ ]nnnnnn XfYZZZ ββββββ ,1'
1 −+=−
+
Algoritmo de Gauss-Newton:
Hasta alcanzar un nivel de convergencia deseado
(37)
(38)
23
Algoritmo Newton - Raphson
( ) ttt xfy εβ += ,
( )
( )[ ]2
1
1
2
,∑
∑
=
=
−=
=
T
t
tt
T
t
t
xfy
S
β
εβFunción Objetivo
(39)
(40)
Aproximación de Taylor de segundo orden
( ) ( ) ( ) ( )212
2
11
112
1ββ
βββ
βββ
ββ
−+−+≈d
Sd
d
dSSS
(41)
Caso de un solo parámetro
( ) ( )( )
( )212
2
1
1
11 2
1ββ
βββββ
β ββ −∂
∂−
−
−≅
∂∂ SSSS
24
A
D( )βS
( )1βS B
c
1β β
Figura 3
Expresada así
Indica que estamos aproximando la pendiente de la tangente CA
a la pendiente de la línea que une los puntos D y A, menos la cantidad
( ) ( )( )
( )212
2
1
111 2
1ββ
βββββ
β ββ −−−−
≅d
SdSS
d
dS
( )212
2
12
1ββ
β β −d
Sd
25
( )( )111βββ
ββ β −+≅ hd
dS
d
dS
( )1
1112 βββββ
d
dSh
−−=
Y diferenciando (41) con respecto a β
Usando la notación
( )12
2
1 βββ
∂
∂=
Sh
Igualando a 0 y resolviendo para β se obtiene un segundo valor para β
( )nd
dSh nnn βββββ 1
1−
+ −=
Y continuando este procedimiento se obtiene el valor (n+1) de β
se obtiene
(42)
(43)
(44)
(45)
26
nn ββ =+1 0ˆ =nd
dSββ
entonces
( )nd
dSht nnnn βββββ 1
1−
+ −=
(Condición necesaria para un
mínimo o máximo)
( )1βh
Sea nt una variable step length, luego
En cada iteración se encuentra un nt t.q ( ) ( )nn SS ββ <+1
(46)
El algoritmo irá en dirección correcta (hacia un mínimo) desde
si la segunda derivada es positiva. Dado que ésta siempre
es positiva en una vecindad del mínimo, se irá en una dirección
correcta si es suficientemente cercano al mínimo.
Sin embargo podría sobrepasarlo por lo cual se hace necesario
introducir:
1β
1β
27
( ) ( )nd
dSzz nnnn ββββββ
1
1 2
1 −
+
′−=
nd
dSPnnn ββ
ββ −=+1
Gauss - Newton
Comparando esta ecuación con
Relación entre los algoritmos Gauss – Newton y Newton - Raphson
( )nd
dSh nnn βββββ 1
1−
+ −= Newton - Raphson
Se observa que ambos algoritmos son de la forma
donde ( ) ( )
( )
′
=−
−
1
1
2
1
n
nn
n
h
zzp
β
ββ Para Gauss - Newton
Para Newton - Raphson
28
( ) ( ) ( ) 2
1
,∑=
=′ T
t
t
d
xdfzz
ββ
ββ
Recordando las definiciones de
(47)
( )βz y ( )βh se tiene que
( ) ( )[ ]
( )[ ] ( )
( ) ( )[ ] ( )
( ) ( ) ( )[ ] ( )2
2
1
12
22
1
1
2
2
2
2
2
,,22
,,
,2
,,2
,
ββ
βββ
ββ
βββ
ββ
ββ
βββ
β
d
xfdxfyzz
d
xfdxfy
d
xdf
d
xdfxfy
d
d
xfyd
d
d
Sdh
tT
t
tt
T
t
ttt
t
T
t
ttt
T
t
tt
∑
∑
∑
∑
=
=
=
=
−−′=
−−
=
−−=
−==
(48)
29
( ) ( ) ( )βββ
β zzd
SdEhE
′=
=
2
2
2
1
2
1
Luego, los dos algoritmos son idénticos, excepto por el segundo
término en la última línea de (48)
Dado que [ ] ( )β,tt xfyE = este término tiene una esperanza de 0
(49)
30
( ) ( )2
12
21∑
=
−−=T
t
ttt xxyS βββ
( )( )211
22
1 22 tt
T
t
ttt xxxxyd
dSβββ
β+−−−= ∑
=
( ) ( ) ( )[ ]∑=
−−−+==T
t
tttttt xxxyxxd
Sdh
122
21
2212
2
222 ββββ
β
( ) ( ) ( )∑=
′=+=
T
t
tt zzxxd
SdE
1
2212
2
222 ββββ
Ejemplo: Usar el algoritmo de Newton – Raphson para encontrar
el valor de β que minimiza
Nótese que
(50)
(51)
(52)
(53)
31
( )( )[ ]
( ) ( )[ ]∑
∑
=
=+
−−−+
+−−+=
T
t
ttntnttnt
T
t
tnttntnt
nn
xxxyxx
xxxxy
122
21
221
1212
21
1
22
2
βββ
βββββ
La iteración (n+1) del proceso de Newton – Raphson puede escribirse así
(54)
32
Caso general de K parámetros
Para el modelo no lineal
( ) εβ += ,Xfy
Donde β es un vector de parámetros desconocidos de dimensión K
La n-iteración del algoritmo de Newton – Raphson diseñado para
encontrar el valor de β que minimiza ( ) εεβ ′=S está dado por
n
SH nnn
ββββ
∂∂
−= −+
11
donde
n
nK
SSSS
ββ ββββ
′
∂∂
∂∂
∂∂
=∂∂
,,,21
Kes el vector gradiente evaluado en nβ
(55)
(56)
(57)
33
nKK
K
n
SS
SS
SH
ββββ
βββ
ββ
∂∂
∂∂∂
∂∂∂
∂∂
=′∂∂
∂=
2
2
1
2
1
2
21
2
2
L
MOM
L
es la matriz Hessiana
de (K x K) evaluada en nβ
Un estimador de la matriz de covarianzas del vector minimizador b
es frecuentemente
b
b
S12
2ˆ2ˆ−
′∂∂
∂=∑
ββσ donde ( )
( )KT
bS
−=2σ̂
(58)
(59)
34
Los algoritmos de Gauss – Newton y Newton – Raphson son sólo dos
de un gran número de algoritmos posibles. La mayoría tiene la forma
nnnnn Pt γββ −=+1
n
Sn
ββγ
∂∂=
(60)
donde
es el vector gradiente
nP
nt
es (deseablemente) una matriz d.p llamada matriz de dirección
es un número positivo conocido como step lenght
El rasgo que diferencia algoritmos alternativos es la definición de nP
35
Estimación por Máxima Verosimilitud
( ) εβ += ,XfY
Modelo general:
donde ( )IN 2,0~ σε
Función de verosimilitud:
( )( )
( )[ ] ( )[ ]
( )( )
−=
−−−=
2
22
2
'
22
2
2exp
2
1
2
,,exp
2
1,,
σβ
πσ
σββ
πσσβ
S
XfyXfyXy
T
Tl
(61)
(62)
Logaritmo de la función de verosimilitud:
( ) ( ) ( )2
222
2ln
22ln
2,,ln,,
σβ
σπσβσβSTT
XyXyL −−−== l (63)
36
En general no es posible encontrar una expresión analítica para el
estimador máximo verosímil . β~ que sea un valor de βtal que
0=∂∂βL
donde
Es posible, sin embargo, encontrar una expresión para el máximo
estimador verosímil de :2~σ como función de β
( )T
S βσ =2~ (64)
Por consiguiente, la función Log de verosimilitud puede ser expresada en
términos de β
( ) ( )2
ln2
2ln2
,* T
T
STTXyL −−−=
βπβ (65)
El estimador de máxima verosimilitud β~ que maximiza ( )XyL ,* βes idéntico al estimador de mínimos cuadrados no lineales que minimiza a:
S(β )
37
Propiedades
Sea ( )2,σβθ ′=′
( )2~,~~σβθ ′=′Sea el estimador de máxima verosimilitud deθ ′
Bajo condiciones apropiadas de regularidad
( ) ( )[ ][ ]1/lim,~ −→− TINT d θθθ 0
donde ( )θI es la matriz de información
( )
( )
( ) ( )
′
=
∂
∂′∂∂
∂
∂∂
∂′∂∂
∂
−=
′∂∂
∂−=
−
4
2
22
2
2
2
2
22
2
2/0
0
σ
ββσ
σβσ
σβββ
θθθ
T
ZZ
LL
LL
EL
EI
(66)
(67)
38
Algoritmos alternativos y matriz de covarianzas
Dado que la matriz de información (67) es diagonal y dado que a partir
de (64) puede obtenerse2σ una vez que β ha sido estimado, es
suficiente considerar cada algoritmo en términos de β
Ignorando la variable step length, una expresión general para los
tres algoritmos es:
n
LPnnn
ββββ
∂∂
−=+1
Con el algoritmo de Newton – Raphson
(68)
(69)
n
LPn
βββ
12 −
′∂∂
∂=
nn
nn
nn
SS
SS
LL
n
n
nn
ββ
ββ
ββ
ββββ
βσββσβ
βββββ
∂∂⋅
′∂∂
∂−=
∂∂−
⋅
′∂∂
∂−−=
∂∂⋅
′∂∂
∂−=
−
−
−
+
12
2
12
2
12
1
2
1
2
1
39
βσβ
β ββσ
ββ ~
122
~,~
12
~~2ˆ
2
−−
′∂∂
∂=
′∂∂
∂−=∑
SL
En este caso un estimador de la matriz asintótica de covarianzas para βpuede encontrarse a partir de
Mientras que el algoritmo de Newton – Raphson usa la inversa de la matriz
Hessiana de la función de log-likelihood, el método de scoring usa la inversa
del valor esperado de la Hessiana, o, la negativa de la inversa de la matriz
de información; esto es,
n
LEPn
βββ
12
−
′∂∂
∂=
(70)
40
En este caso se tiene que
( ) ( )
( ) ( )nn
n
nn
SZZ
SZZ
LLE
nnn
nnn
nn
ββ
β
ββ
ββββ
βσββ
σβ
βββββ
∂∂⋅
′−=
∂∂−
⋅
′−−=
∂∂⋅
′∂∂
∂−=
−
−
−
+
1
2
1
2
12
1
2
1
2
11
(71)
Un estimador de la matriz asintótica de covarianzas para
está dado por
β
( ) ( )1
2
~,~
12
~~~~ˆ
2
−−
′
=
′∂∂
∂−=∑ ββσ
ββσβ
βZZ
LE (72)
41
Para considerar el algoritmo BHHH, se requiere log-verosimilitud
para una única observación
( )( )[ ]
2
22
2
2
,ln
2
12ln
2
1
,,
σβ
σπ
σβ
tt
ttt
xfy
xyLL
−−−−=
=
(73)
Con este algoritmo nP es definida como
2~,~
1
1n
T
t
ttn
LLP
σβββ
−
=
′∂
∂
∂∂
−= ∑& (74)
42
Ahora
( )[ ] ( )ββ
σβ
β ∂
∂−=
∂
∂ ,,2
tttt xfxfyL (75)
Y el algoritmo está dado por
(76)
( )[ ] ( ) ( )
( )[ ] ( ) ( )nn
nnn
nnn
Sxfxfxfy
Sxfxfxfy
LLL
T
t
tt
ttnn
T
t
tttt
n
T
t
tt
nn
ββ
βσβ
βσβ
ββ
β
β
ββσβ
βσβ
β
β
β
σ
ββ
βββββ
∂∂⋅
′∂
∂
∂
∂−−=
∂∂−
⋅
′∂
∂
∂
∂−+=
∂∂⋅
′∂
∂
∂
∂+=
−
=
−
=
−
=+
∑
∑
∑
1
1
,,2,
2
2
,
1
1
,,
4
2,
,
1
11
2
1
2
1
2
2
43
Este algoritmo no se parece a ninguno que se haya considerado hasta ahora,
Sin embargo, debe notarse que
( ) ( ) ( ) ( )ββσβ
βββ
σββZZ
xfxfLLE
T
t
ttT
t
tt ′=
′∂
∂
∂
∂=
′∂
∂
∂∂
∑∑==
21
,,
21
11 (77)
Luego reemplazando∑=
′∂
∂
∂∂T
t
tt LL
1 ββ por su esperanza, se obtiene un
algoritmo idéntico al de Gauss – Newton y al método de scoring.
Cuando se usa el algoritmo BHHH, un estimador natural para la matriz de
covarianzas asintótica de β~es
( )[ ] ( ) ( ) 1
~1
,,2,
4
~,~
1
1
~
~
ˆ
2
−
=
−
=
′∂
∂
∂
∂−=
′∂
∂
∂
∂=∑
∑
∑
β
σβ
β
β
β
β
ββσ
ββ
T
t
tt
tt
T
t
tt
xfxfxfy
LL
nn
(78)
44
Dado que el algoritmo BHHH no se ha simplificado a uno de los casos
especiales considerados anteriormente, será útil ilustrarlo con el modelo
simple de un parámetrotttt xxy εββ ++= 2
21
Para este modelo
( )( )[ ]
( )( )[ ]∑
∑
=
=+
+−−
+−−+=
T
t
tnttntnt
T
t
tnttntnt
nnn
xxxxy
xxxxy
1
2212
21
1212
21
21
2
2
βββ
βββσββ (79)
Y (78) se convierte en
( )( )( )[ ]∑
=
+−−=
T
t
tnttntnt xxxxy1
2
2122
1
4
~2
~~
~~var
βββ
σβ
(80)