Demostraciones econometria

1 Luis Carlos Carvajal Osorio – Final Econometría 1

Generalidades de la econometría La econometría es una rama de la economía que consiste en la creación de modelos para estimar

métodos que permitan explicar fenómenos económicos.

Hay cinco elementos fundamentales en un modelo:

Parámetros: Parte de la ecuación que se pretende estimar (ejemplo: los β)

Perturbaciones estocásticas: Parte no estimable del modelo, que se explica por el azar.

Ecuaciones: Forma funcional del modelo

Datos: Conjunto de valores que servirán para la estimación

Variables: Criterio bajo el cual se agrupan los datos y cuya relación será el fin último del

modelo (ejemplo: precios, cantidades, distancias…). Según su función dentro del modelo

podrán ser endógenas (variable que se pretende explicar) o exógenas (variable que está

dada desde el principio y será contribuyente a la explicación de la variable endógena)

Los datos se pueden clasificar en:

Corte transversal o cross – section: Datos de múltiples individuos en un mismo momento

del tiempo.

Series de tiempo: Datos de un solo individuo a lo largo de diferentes momentos

Datos de panel: Datos de múltiples individuos a lo largo de varios momentos en el tiempo.

Georreferenciados: Datos organizados según su ubicación espacial.

Para crear un modelo hay diferentes pasos, a saber:

1. Especificación: Se definen las variables exógenas y endógenas, así como se formulan los

supuestos y los objetivos

2. Estimación: Se hacen los estudios y se realizan pruebas sobre los datos

3. Validación: Se revisa el modelo y se corroboran los supuestos

4. Pronóstico – Simulación: Se hacen predicciones en base a lo estimado en el modelo.

5. Análisis: Se interpretan los resultados y se confrontan con la teoría.

Los modelos pueden clasificarse según diferentes aspectos, tal y como se resume en la siguiente

tabla.

Criterio de clasificación Categoría 1 Categoría 2

Manejo del tiempo Estático Dinámico

Número de ecuaciones Uniecuacional Multiecuacional

Forma de las funciones Lineal No lineal

Rezago de los datos Interdependiente Recursivo


Generalidades del modelo de mínimos cuadrados ordinarios (MCO) El modelo de Mínimos Cuadrados Ordinarios (MCO) es un modelo de estimación lineal de una sola

ecuación, en el que una variable estará en función de diferentes variables exógenas y de una

perturbación estocástica. Lo que el modelo busca es crear una función que se acerque tanto a los

datos reales como sea posible, de forma que pueda reducir al mínimo el cuadrado de las

perturbaciones estocásticas. El cuadrado es necesario pues los errores positivos y negativos se

contrarrestan.

Matemáticamente, esto se representa así:

ikik2i21i10i μXβ...XβXββY

Para un modelo de una variable, de la forma ii10i μXββY se puede hacer una

representación gráfica. La línea es el resultado del modelo, los puntos son los datos y el espacio

entre cada punto y la línea son las perturbaciones estocásticas.

Para hallar la forma funcional de esta línea es necesario aclarar cuáles son los β. Primero se hará

una explicación para el modelo de dos β y luego se generalizará para n β.

Demostración 1: ¿De dónde salen β0 y β1 en el modelo lineal simple

de MCO? Esta demostración estará enfocada en hallar en la ecuación ii10i μXββY las variables β0 y

β1. Queremos minimizar la suma de todos los μ al cuadrado. Si despejamos μ obtenemos

i10ii XββYμ Luego la función objetivo será

N

1i

2i10i

ββ

N

1i

2

iββββ

)Xββ(YArgMínμArgMínSArgMín101010


Para minimizar, derivamos con respecto a 0β e igualamos a 0. El -2 pasa a dividir, de forma que se

elimina. Luego se reparte la sumatoria

0XββY

0)Xββ(Y

0)Xββ(Y2β

S

N

1ii1

N

1i0

N

1ii

N

1ii10i

N

1ii10i

0

ˆˆ

ˆˆ

Queremos despejar 0β . Para ello, recordemos que la suma de una constante desde 1 hasta N es

multiplicar dicha constante por N. Dicho esto, tenemos:

0

N

1ii

1

N

1ii

0

N

1ii1

N

1ii

N

1i0

N

1ii1

N

1ii

βN

Y

βN

Y

βNYβY

βYβY

ˆˆ

ˆˆ

ˆˆ

Por último, la definición de media de una variable nos dice que ésta se halla sumando todos los

valores y dividiendo por el número de datos. Entonces

Ahora derivaremos respecto a 1β . Atención a la regla de la cadena. El -2 pasa a dividir y

repartimos la sumatoria (distribuyendo la X)

0XβXβXY

0))(XXββ(Y

0))(XXββ(Y2β

S

N

1i

2

i1

N

1ii0

N

1iii

N

1iii10i

N

1iii10i

1

ˆˆ

ˆˆ

Según lo que recién hallamos, reemplazamos 0β . Distribuimos y agrupamos.

XβYβ 10ˆˆ


0)XXX(βXYXY

0XβXXβXYXY

0XβX)XβY(XY

N

1i

2

i

N

1ii1

N

1ii

N

1iii

N

1i

2

i1

N

1ii1

N

1ii

N

1iii

N

1i

2

i1

N

1ii1

N

1iii

ˆ

ˆˆ

ˆˆ

Despejando 1β

N

1i

2

i

N

1ii

N

1iii

N

1ii

1

XXX

XYXY

β

Cambiamos de signos y sumando y restando por

N

1iiYX en el numerador y por

N

1iiXX obtenemos

N

1ii

N

1ii

N

1ii

N

1i

2

i

N

1ii

N

1ii

N

1ii

N

1iii

1

N

1ii

N

1i

2

i

N

1ii

N

1iii

1

XXXXXXX

YXYXXYXY

β

XXX

XYXY

β

ˆ

ˆ

Luego, factorizamos

N

1i

2i

N

1iii

1

)X(X

)X)(XY(Y

β

Dividimos por N-1

1N

)X(X

1N

)X)(XY(Y

βN

1i

2i

N

1iii

1

ˆ


Por definiciones de varianza y covarianza, llegamos a

)Var(X

)X,Cov(Yβ

i

ii1 ˆ

Pero estas fórmulas son sólo válidas para el modelo de un solo regresor. Deberemos abordar un

enfoque matricial para generalizar esto para más de un regresor.

Demostración 2: ¿Cómo hallar los β en el modelo general de MCO?

En este caso nos ocupa la función

ikik2i21i10i μXβ...XβXββY

Despejando μ

ikik2i21i10ii μXβ...XβXββYμ

Nuestra función objetivo ahora será

N

1i

2ikik2i21i10i

β

N

1i

2

iββ

)μXβ...XβXββ(YArgMínμArgMínSArgMín

Expresemos la función matricialmente. Y es un vector N x 1 que contiene todos los valores de la

variable independiente. X es una matriz N x K (o N x (K+1), si empezamos a contar los regresores

de 0 hasta K) donde cada fila representará un individuo y cada columna el valor de cada variable

explicativa. El vector β representa los valores de los K (o K+1) parámetros. La idea es despejar este

vector. Por último, el vector μ es el vector de perturbaciones estocásticas. Este será el vector a

minimizar.


Nx1

2kNk2N21N101

2k2k22212101

2k1k21211101

Nx1

2

N

2

2

2

1

Nx1kNk

k2k

k1k

2N21N11

2221210

2121110

Nx1N

2

1

Nx1N

2

1

1)x1(kk

1

0

1)Nx(kkN

k2

k1

2N1N

2212

2111

Nx1N

2

1

Nx1N

2

1

)Xβ...XβXββ(Y

...

)Xβ...XβXββ(Y

)Xβ...XβXββ(Y

μ

...

μ

μ

Xβ

...

Xβ

Xβ

...XβXββ

............

...XβXββ

...XβXββ

Y

...

Y

Y

μ

...

μ

μ

β

...

β

β

X

...

X

X

...XX1

............

...XX1

...XX1

Y

...

Y

Y

μ

...

μ

μ

xβ -Yμ

μxβY

Procedo a derivar con respecto a cada β e igualar a 0. La única derivada distinta a las demás es la

de 0β . Las demás serán todas iguales, con la única diferencia en la X que distribuyo

0)XXβ...XXβXβXβ(2XY2β

S

0)XXβ...XXβXβXβX(Y2β

S

0))(XXβ...XβXββ(Y2β

S

0)Xβ...XβXββ(2Y2β

S

0)Xβ...XβXββ(Y2β

S

0)Xβ...XβXββ(Y2β

S

)μXβ...XβXββ(YArgMín

N

1i

N

1i1ikik1i2i2

2

1i11i01ii

1

N

1i1ikik1i2i2

2

1i11i01ii

1

N

1i1ikik2i21i10i

1

N

1ikik2i21i10

N

1ii

0

N

1ikik2i21i10i

0

N

1ikik2i21i10i

0

N

1i

2ikik2i21i10i

β

ˆˆˆˆ

ˆˆˆˆ

ˆˆˆˆ

ˆˆˆˆ

ˆˆˆˆ

ˆˆˆˆ

Esta última expresión se divide en dos sumatorias. La primera es el producto de X e Y. La segunda

es el producto de los β estimados con el producto de X1 y las otras X. La primera parte es la

segunda fila de la matriz X’Y (para el caso de X1) y la segunda parte es la segunda fila de la matriz


X’Xβ. Cada fila representa la derivada respecto a cada parámetro (la tercera fila es para X2, la

cuarta es para X3, y así sucesivamente)

1)x1(k

N

1ikii

N

1i2ii

N

1i1ii

N

1ii

Nx1N

2

1

1)xN(kkNk3k2k1

2N232221

1N131211

XY

XY

XY

Y

Y

...

Y

Y

X....XXX

..................

X...XXX

X...XXX

1...111

YX

...

1)x1(kXβ...XXβXβ

...

XXβ...XβXβ

Xβ...Xββ

1)x1(kkβ

...1

β0

β

X....XXXXX

..................

XX...XXXX

XX...XXXX

X...XXN

βXX

XX

N

1i

N

1i

2

kik

N

1iki1i1ki0

N

1i

N

1iki1ik

N

1i

2

1i11i0

N

1i

N

1ikik

N

1i1i10

N

1i

2ki

N

1iki2i

N

1iki1i

N

1iki

N

1iki2i

N

1i

22

N

1i2i1i

N

1i2i

N

1iki1i

N

1i2i1i

N

1i

21

N

1i1i

N

1iki

N

1i2i

N

1i1i

N

1i

2kiX....

N

1ikiX2iX

N

1ikiX1iX

N

1ikiX

..................

N

1ikiX2iX...

N

1i

22X

N

1i2iX1iX

N

1i2iX

N

1ikiX1iX...

N

1i2iX1iX

N

1i

21X

N

1i1iX

N

1ikiX...

N

1i2iX

N

1i1iXN

1)Nx(kkNX

...

k2X

k1X

...2NX1NX1

............

...22X12X1

...21X11X1

1)xN(kkNX....k3Xk2Xk1X

..................

2NX...23X22X21X

1NX...13X12X11X

1...111

ˆ

Lo único que falta es multiplicar por los escalares. Así, obtenemos que

βXX2YX2β

S ˆ

Ahora, 0βXX2YX2β

S

ˆ

Despejemos β


YXβXX

YX2βXX2

ˆ

ˆ

Para obtener β sola, nos “estorba” X’X. Como estas son matrices, no se pueden pasar a dividir. Por

eso, multiplicamos por su inversa (este es el equivalente a pasar a dividir en álgebra lineal). Así

llegamos a

YXX)X(βI

YXX)X(βXXX)X(

1

11

ˆ

ˆ

La matriz identidad multiplicada por cualquier matriz da como resultado dicha matriz. Así

YXX)X(β 1 ˆ

Ahora demostraremos algunas propiedades derivadas de este resultado. Antes de esto, conviene

indicar que toda variable con ^ es estimada. iY Es el valor estimado de Y. Además, el residual se

define como la diferencia entre el valor estimado y el valor real de Y. Esto es iii YYμ ˆˆ .

Demostración 3: El hiperplano de regresión pasa por el punto de

medias El enunciado anterior básicamente significa que el promedio de la variable endógena debe ser el

mismo que el promedio del estimado de dicha variable.

Partimos de YXβXX ˆ

En matrices, esto es:

1)x1(k

N

1ikii

N

1i2ii

N

1i1ii

N

1ii

1)x1(k

N

1i

N

1i

2

kik

N

1iki1i1ki0

N

1i

N

1iki1ik

N

1i

2

1i11i0

N

1i

N

1ikik

N

1i1i10

XY

...

XY

XY

Y

Xβ...XXβXβ

...

XXβ...XβXβ

Xβ...Xββ

Si tomamos la primera fila tenemos que

N

1ii

N

1i

N

1ikik

N

1i1i10 YXβ...Xββ


Dividamos todo por N, para obtener los promedios.

N

Y

N

Xβ

N

Xβ

N

βN

1ii

N

1ikik

N

1i1i1

N

1i0

YXβ...XβXββ kk22110 ˆˆˆˆ

La expresión de la izquierda es el promedio de todas las variables exógenas. Esto es lo mismo que

el promedio de Y . De ahí concluimos que YY ˆ

Demostración 4: La suma de residuales de los estimadores mínimos

cuadráticos es 0

La definición de residual es iii YYμ ˆˆ . Entonces la suma de residuales será

N

1ii

N

1ii

N

1ii YYμ ˆˆ

Si dividimos esta expresión por N, obtenemos N

Y

N

Y

N

μN

1ii

N

1ii

N

1ii

ˆˆ

. Por definición esto será

iii YYμ ˆˆ . Pero YY ˆ , por tanto 0YYμ iii ˆˆ . Esto implica dos cosas. La primera es que la

suma de residuales es 0. Además el valor medio (el valor esperado) de los residuales es cero.

Demostración 5: Los momentos de segundo orden entre cada

regresor y los residuales es 0 Deseamos ver el resultado del producto matricial entre la matriz x transpuesta y la matriz de

residuales, es decir μX ˆ . Según la definición de residual, podemos establecer que )Y(YXμX ˆˆ

Si distribuyo, tengo YXYXμX ˆˆ . Pero βXY ˆˆ , luego 0XβXYXμX ˆ , por la identidad

YXβXX ˆ

Demostración 6: Los momentos de segundo orden entre la

predicción y los residuales es 0 Ahora queremos demostrar que el producto entre la matriz de residuales y la matriz transpuesta

de predicciones es 0.


Esto es

N

1iii

Nx1N

2

1

1xNN21 μY

μ

...

μ

μ

Y...YYμY ˆˆˆˆˆˆˆ . De acuerdo a la definición de βXY ˆˆ

tenemos

N

1iikiki2i2i1i1i0

N

1iii

N

1iikik2i21i10

N

1iii

μXβ...μXβμXβμβμY

μ)Xβ...XβXββ(μY

ˆˆˆˆˆˆˆˆˆˆ

ˆˆˆˆˆˆˆ

La demostración anterior nos dice que cada uno de estos productos es 0. Además la suma de los

residuales es 0. Así: 000...0000μYN

1iii

ˆˆ

Coeficiente de determinación R2

El coeficiente de determinación R2 es una medida de bondad de ajuste lineal (es decir, busca

cuánto de la varianza muestral se define por la regresión). R2 está definido por

N

1i

2ii

N

1i

2ii

2

)Y(Y

)YY(

R

ˆˆ

.

El modelo tiene mayor capacidad predictiva a medida de que el R2 se acerque a 1. El R2 va de 0 a 1.

Este coeficiente se puede expresar de otra forma.

Primero, redefinamos el denominador. El valor poblacional de Y es el valor estimado más la

perturbación estocástica. Además, YY ˆ Si reemplazamos estos valores, obtenemos:

N

1i

2iii

N

1i

2iii

N

1i

2iii

N

1i

2ii ]μ)YY[()μYY()Y)μY(()Y(Y ˆˆˆˆˆˆ

Resolvemos el trinomio y distribuimos

N

1i

2

i

N

1iii

N

1iii

N

1i

2ii

N

1i

2ii

N

1i

2

i

N

1iiii

N

1i

2ii

N

1i

2ii

N

1i

2

iiii2

ii

N

1i

2ii

μμY2Yμ2)YY()Y(Y

μ)YY(μ2)YY()Y(Y

]μ)YY(2μ)YY[()Y(Y

ˆˆˆˆ

ˆˆˆˆ

ˆˆˆˆ


Por propiedades ya demostradas, podemos eliminar los dos términos de la mitad, pues ambos son

iguales a 0

N

1i

2

i

N

1i

2ii

N

1i

2ii μ)YY()Y(Y ˆˆ

Ahora dividamos todos por

N

1i

2ii )Y(Y y despejemos

N

1i

2ii

N

1i

2ii

2

)Y(Y

)YY(

R

ˆˆ

N

1i

2ii

N

1i

2ii

N

1i

2ii

N

1i

2

i

N

1i

2ii

N

1i

2ii

N

1i

2ii

N

1i

2

i

N

1i

2ii

N

1i

2ii

N

1i

2ii

N

1i

2ii

)Y(Y

)YY(

)Y(Y

μ

)Y(Y

)Y(Y

)Y(Y

μ

)Y(Y

)YY(

)Y(Y

)Y(Y

ˆˆ

ˆˆ

N

1i

2ii

N

1i

2

i2

)Y(Y

μ

1R

R2 también se puede definir en forma matricial. Definiremos la matriz M0 así

1xN

1xN

0

1...11

1

...

1

1

ii

1

...

1

1

i

iiN

1IM


NxN

0

NxN

NxN

NxN

NxN

N

11...

N

1

N

1............N

1...

N

11

N

1N

1...

N

1

N

11

M

N

1...

N

1

N

1............N

1...

N

1

N

1N

1...

N

1

N

1

1...00

............

0...10

0...01

iiN

1I

N

1...

N

1

N

1............N

1...

N

1

N

1N

1...

N

1

N

1

iiN

1

1...11

............

1...11

1...11

ii

Esta es una matriz idempotente. Esto significa que al multiplicarse por sí misma da la misma

matriz.

En la diagonal queda el 1-1/N al cuadrado porque se “cruzan” al hacer filas por columnas. El resto

de términos es (1/N) x (1/N), que se repite N-1 veces (el -1 es porque el término que falta es el (1-

1/N)2

En el resto de espacios va el (1-1/N) que se cruza dos veces con (-1/N) y los otros términos son

(1/N) x (1/N), que se repite N-2 veces (el -2 es porque los términos que faltan son los (-1/N) x (1-

1/N)


NxN

00

2222

2

2222

NxN222

22

2

2

222

2

00

NxNNxN

00

N

11...

N

1

N

1............N

1...

N

11

N

1N

1...

N

1

N

11

MM

N

11

N

1

N

21

N

1

N

N

N

1

N

21)

N

1N()

N

1(1

N

1

N

1

N

2

N

2

N

N

N

2

N

2

N

2N)

N

1(1

N

2

N

2N)

N

1(1

N

2...

N

2N)

N

1(1

N

2

N

2N)

N

1(1

N

2............

N

2N)

N

1(1

N

2...)

N

1N()

N

1(1

N

2N)

N

1(1

N

2N

2N)

N

1(1

N

2...

N

2N)

N

1(1

N

2)

N

1N()

N

1(1

MM

N

11...

N

1

N

1............N

1...

N

11

N

1N

1...

N

1

N

11

N

11...

N

1

N

1............N

1...

N

11

N

1N

1...

N

1

N

11

MM

Ahora haremos el producto de M0 y de Y

Nx1

N21

N2

1

N21

0

Nx1N

2

1

NxN

0

)N

1(1

N

Y...

N

Y

N

Y...

N

Y)...

N

1(1Y-

N

YN

Y...

N

Y)

N

1(1Y

YM

Y

...

Y

Y

N

11...

N

1

N

1............N

1...

N

11

N

1N

1...

N

1

N

11

YM


N

1ii0

Nx1N

2

1

0

Nx1

N

1iiN

N

1ii2

N

1ii1

0

)Y-(YYM

YY

...

YY

YY

YM

YN

1Y

...

YN

1Y

YN

1Y

YM

Ahora, elevemos este resultado al cuadrado. Aprovecharemos la idempotencia y la simetría de M0.

Tenemos que

YMY)Y-(Y

YMMY)Y-(Y

YMMY)Y-(Y

Y)(M)Y(M)Y-(Y

0

N

1i

2i

00

N

1i

2i

00

N

1i

2i

00

N

1i

2i

Haremos un proceso muy similar para hallar )Y(M)Y(M)Y-Y( 00

N

1i

2i

ˆˆˆˆ

YMY)Y-Y( 0

N

1i

2i

ˆˆˆˆ

Ahora, dada la definición de R2, reemplazaremos estos términos por los recién encontrados

N

1i

2ii

N

1i

2ii

2

)Y(Y

)YY(

R

ˆˆ


YMY

YMYR

0

02

ˆˆ

Finalmente, reemplacemos Y

βXMXβYMY

βXM)β(XYMY

βXY

00

00

ˆˆˆˆ

ˆˆˆˆ

ˆˆ

YMY

βXMXβR

0

02

ˆˆ

Ahora veremos algunas características de los diferentes componentes del modelo (X, Y, μ)

Demostración 7: μ tiene media 0 y varianza constante

Matemáticamente, esta condición se escribe como )σ(0,~μ 2

Recordemos, que dado nuestro modelo μXβY , tenemos que la matriz μ es igual a μXβY

Sacamos valor esperado a ambos lados. Es importante notar que el valor esperado de Y es Xβ.

0E

XβXβE

E(E(Y)E

XE(YE

)(μ

)(μ

)Xβ)(μ

)β)(μ

La varianza la demostraremos hallando la matriz de varianzas y covarianzas, que está determinada

por )]'E(-)][μE(-E[μμ

Dado que μXβY , )]'E(-Xβ)][YE(-XβE[Yμ

Puesto que 0E )(μ , entonces ]'X][YXE[Yμ ββ . Ambos paréntesis son μ. Luego

]'E[μ

]]'][E[[μ

Definamos la covarianza:


)Var(μ)]E(μE[μ)μCov(μ

ji)]E(μ)][μE(μE[μ)μCov(μ

i2

iiii

jjiiji

Sabiendo estas definiciones de varianza y covarianza, podremos construir la matriz, así

)Var(μ...)μCov(μ)μCov(μ)μCov(μ

...............

)μCov(μ...)Var(μ)μCov(μ)μCov(μ

)μCov(μ...)μCov(μ)Var(μ)μCov(μ

)μCov(μ...)μCov(μ)μCov(μ)Var(μ

Σμ

)]E(μE[μ)]E(μE[μ)]E(μE[μ)]E(μE[μ

)]E(μE[μ

)]E(μE[μ

)]E(μE[μ

)]E(μE[μ

NN3N2N1

N333231

N232221

N131211

NN332211

NN

33

22

11

...*

...

IσΣμ

1...000

...............

0...100

0...010

0...001

σΣμ

σ...000

...............

0...σ00

0...0σ0

0...00σ

Σμ

)Var(μ...000

...............

0...)Var(μ00

0...0)Var(μ0

0...00)Var(μ

Σμ

2

2

2

2

2

2

N

3

2

1

*

Demostración 8: Media y Varianza de Y Por definición de Y, sabemos que su valor esperado es Xβ.


Ahora, si partimos de la demostración anterior para varianza de μ, tenemos

IσY

μY

E(Y)]'E(Y)][YE[YY

E(Y)]'E(Y)][YE[Yμ

]'X][YXE[Yμ

2

ββ

En resumen I)σ,(X~Y 2

Demostración 9: Media y Varianza de β estimado

La media (el valor esperado) de β estimado se debe estimar sabiendo que YX'X)(X'β 1ˆ

Y]X'X)E[(X']βE[ 1ˆ Reemplazando Y por su definición tenemos

μ]X'X)(X'XβX'X)(X']βE[

)](XβX'X)(X']βE[

11

1

[Eˆ

[Eˆ

Distribuimos el valor esperado y operamos

)E(X'X)(X'β]βE[

μ]X'X)E[(X']E[]βE[

μ]X'X)E[(X']XX'X)E[(X']βE[

1

1

11

ˆ

ˆ

ˆ

Como E (μ)=0, deducimos

β]βE[ ˆ

Antes de hacer la varianza, hallemos otra forma de expresar β estimado, que nos será útil después.

De nuevo, partimos de la definición de Y para luego hacer la distributiva

μX'X)(X'XβX'X)(X'β

μ)(XβX'X)(X'β

YX'X)(X'β

11

1

1

ˆ

ˆ

ˆ

μX'X)(X'ββ 1ˆ


μX'X)(X'ββ 1ˆ

Para la varianza, trabajaremos con la matriz de varianzas y covarianzas

])]'βE(β)][βE(βE[[β ˆˆˆˆˆ

El valor esperado de β estimado es β poblacional. O sea que se puede expresar esto así

]μ]'X'X)μ][(X'X'X)E[[(X'β 11 ˆ

Operando (atención a la transpuesta) y repartiendo el valor esperado tenemos

11

11

X)]X(X''E[X'X)(X'β

]X)X(X'μμ'X'X)E[[(X'β

ˆ

ˆ

Este valor esperado ya lo habíamos hallado. Remplazando, la expresión se vuelve

112 X)X(X'X'X)(X'σβ ˆ

Como una matriz por su inversa es la matriz identidad, llegamos a

12 X)(X'σβ ˆ

Es decir, )X)(X'σ,(~β 12 βˆ

Demostración 10: Teorema Gauss – Markov El teorema Gauss – Markov nos indica que el estimador hallado por el método de MCO es el Mejor

Estimador Lineal insesgado (MELI, o BLUE por sus siglas en inglés). Por mejor se entenderá que es

el de menor varianza.

Expresemos entonces un Estimador lineal insesgado (β virgulilla)

Un estimador lineal está dado por una expresión así: C]YX'X)[(X'β 1 ~

Distribuimos y reemplazamos Y.


CμCXβμX'X)(X'ββ

CμCXβμX'X)(X'XβX'X)(X'β

)C(Xβ)(XβX'X)(X'β

CYYX'X)(X'β

1

11

1

1

~

~

~

~

Restemos β virgulilla menos el poblacional, por conveniencia.

CμCXβμX'X)(X'ββ 1 ~

Ahora, como deseamos obtener un estimador lineal insesgado, el valor esperado debe ser igual al

β poblacional.

CXββ)βE(

)CE(CXE(E(X'X)(X'β)βE(

)E(CE(CXX'X)E((X')E()βE(

)CCXβμX'X)(X'E(β)βE(

CμCXβμX'X)(X'ββ

1

1

1

1

~))

~))

~

~

~

βμ

βμβ

Para que este estimador sea insesgado, hay que imponer la siguiente restricción: CX = 0. Por tanto,

X’C’ = 0 también.

Ya con estas definiciones podemos demostrar lo inicial, esto es, que la varianza de β virgulilla es

menor que la de β gorro (la de MCO)

Hallemos la varianza de β virgulilla

]C''CC'X''CX)X(X''C

C''CXβC'X''CXβX)X(X''CXβ

C''X'X)(X'C'X'μβ'X'X)X'X)X(X'μμ'X'X)E[(X'β

]]'CCXβμX'X)][(X'CCXβμX'X)E[[(X'β

]β]'ββ][βE[[β

])]'βE(β)][βE(βE[[β

1

1

1111

11

(~

~

~~~

~~~~~

Como impusimos la restricción de que CX = 0, la expresión anterior se reduce a

]C''E[CX)X(X''E[C]C'μ'X'X)E[(X'X)X(X''X'X)E[(X'β

]C''CX)X(X''CC''X'X)(X'X)X(X''X'X)E[(X'β

1111

1111

]]

~

~

]C''CE[X)]X(X''CE[]C''E[X'X)(X'X)]X(X''E[X'X)(X'β 1111

~


Ahora resolveremos el valor esperado

CC'σX)CX(X'σC'X'X)(X'σX)(X'σβ

CC'σX)CX(X'σC'X'X)(X'σX)X(X'X'X)(X'σβ

2121212

21212112

~

~

Los términos de la mitad serán 0, porque CX = 0

CC'σX)(X'σβ 212

~

Para revisar que el estimador de MCO es mejor, la diferencia de varianzas entre β virgulilla y β

gorro debe ser positiva. Entonces

CC'σββ

X)(X'CC'-σσX)(X'σββ

2

12212

ˆ~

ˆ~

Este resultado es positivo, puesto que una varianza es siempre positiva y una matriz por su

transpuesta es semidefinida positiva, con lo cual se demuestra el teorema de Gauss – Markov

Demostración 11: Un estimador insesgado para la varianza Esta demostración inicia con establecer la varianza poblacional total. Lo que haremos es hallar la

sumatoria de todas las varianzas. Esto es lo mismo que multiplicar la transpuesta de μ por μ

2

2222

2N

23

22

21

N

3

2

1

N321

NσE

σσσσE

]E[μ...]E[μ]E[μ]E[μE

]E[μ

]E[μ

]E[μ

]E[μ

]E[μ]E[μ]E[μ]E[μE

)'

...)'

)'

...

...)'

(μ

(μ

(μ

(μ

Ahora, vamos a calcular la matriz de residuales en función de la varianza. Remplazamos β

estimado

YX'X)X(X'Yμ

Y]X'X)X[(X'Yμ

βXYμ

1

1

ˆ

ˆ

ˆˆ

Si sacamos factor común Y a la derecha y remplazamos Y por Xβ+μ, tenemos


)](XβX'X)X(X'Iμ

]YX'X)X(X'Iμ1

1

[ˆ

[ˆ

μX'X)X(X'μXβ-Xβμ

μX'X)X(X'XβX'X)X(X'-μXβμ1

11

ˆ

ˆ

Factor común μ a la derecha. Sea ]X'X)X(X'IM 1 [

Mμμ

]μX'X)X(X'Iμ 1

ˆ

[ˆ

La matriz M es simétrica porque MX'X)X(X'I'M'

]'X'X)X(X'IM'1

1

[

Y también es idempotente ya que

MX'X)X(X'IMM

X'X)X(X'X'X)X(X'X'X)X(X'IMM

X'X)X(X'X'X)X(X'X'X)X(X'X'X)X(X'IMM

]X'X)X(X'I]X'X)X(X'IMM

1

111

1111

11

[[

Ahora, hallemos el valor de la varianza de los residuales

]ME[)μ'μE(

]MME[)μ'μE(

(M)'E[(M)μ'μE(

'ˆˆ

'ˆˆ

)]ˆˆ

Esta matriz es un escalar, porque μ’ es de tamaño (1 x N) M es de tamaño (N x N) y μ es de tamaño

(N x 1). Por tanto, si sacamos la traza (suma de la diagonal), tendremos la misma matriz. Traza se

representa por tr. La traza y el valor esperado pueden alternar de posición. Además el valor de la

varianza también puede estar dentro y fuera del valor esperado.

tr(M)σM}tr{σ

M}tr{σM]}tr{E[

M]}tr{E[M]}E{tr[]}ME{tr[

]}ME{tr[]}Mtr{E[

]}Mtr{E[]ME[

22

2

]'

'''

''

''

Ahora remplazamos M. Por propiedades de la traza, puedo cambiar el orden de las matrices y

puedo distribuir el operador traza. Así


]X)X(X'tr[X'σtr[I]σtr(M)σ

]X'X)tr[X(X'σtr[I]σtr(M)σ

]X'X)X(X'tr[Iσtr(M)σ

1222

1222

122

La matriz de la derecha es una identidad de tamaño K. La traza de la matriz identidad es el tamaño

de la misma.

K)(Nσ)μ'μE(

]tr[Iσ]tr[Iσ)μ'μE(2

K2

N2

ˆˆ

ˆˆ

Despejando σ2

K)(N

])βX[Y]'βXE([Y

K)(N

)μ'μE(σ2

ˆˆˆˆˆ

Método de la Máxima Verosimilitud (Maximum Likelihood) bajo el

supuesto de normalidad

Al estimar por el método de MCO la Y, con los X que se tienen y los β y μ estimados, hay una

probabilidad de obtener los datos reales, es decir, de obtener los Y (que Y sea igual a Y estimado).

Esta probabilidad es el producto de la probabilidad de que el Y poblacional y el estimado de cada

observación sean idénticos.

El método de Máxima Verosimilitud sugiere que debemos elegir un conjunto de β y de μ tal que

maximicemos la probabilidad de obtener los datos reales (X e Y).

Vamos a suponer que la función de probabilidad conjunta (probabilidad de hallar los X e Y reales

dados los β los μ) es una función normal. Una función normal está dada por

)}x(Y)'x(Y2σ

1exp{

)(2

12N/22

Esta función exponencial se puede volver lineal vía logaritmos. Queda así

)X(Y)'X(Y2σ

1)ln(σ

2

N )ln(2

2

Nln

)X(Y)'X(Y2σ

1)ln(σ

2

N )ln(2

2

Nln1ln

)x(Y)'x(Y2σ

1)ln(2πln1ln

2

2

2

2

2

N/22

Para maximizar esta función, derivamos respecto a β y a σ2


YX'X)(X'ββ

ln 1

Obtenemos el mismo resultado que en MCO.

Para obtener la varianza, derivamos respecto a σ2

2

2

2

2

2

2

2

2222

Nσ)X(Y)'X(Yσ

ln

0Nσ-)X(Y)'X(Yσ

ln

02(σ

Nσ-)X(Y)'X(Y

σ

ln

0)X(Y)'X(Y)2(σ

1

2σ

N

σ

ln

2)

N

)X(Y)'X(Yσ2

Este estimador es sesgado, pero cumple con el criterio de consistencia (La varianza tiende a 0 a

medida que N tiende a infinito)

Demostración 12: β estimado y μ estimado son independientes

La independencia implica que la matriz de varianzas y covarianzas debe ser 0.


0βμ

[0σβμ

X)X(X'X)(X'[X'σβμ

X)X(X'X'X)X(X'X)(X'[X'σβμ

X)}X(X'X'X)X(X'[{Iσβμ

X)MX(X'σβμ

X)X(X'ME[βμ

]X)X(X'E[Mβμ

]]'X'X)[(X'E[Mβμ

]β)'β(μE[βμ

]β]'β0][μE[[βμ

])]'βE(β)][μE(μE[[βμ

2

112

1112

112

12

1

1

1

ˆˆ

]ˆˆ

]ˆˆ

]ˆˆ

]ˆˆ

ˆˆ

]'ˆˆ

'ˆˆ

ˆˆ

ˆˆˆˆ

ˆˆˆˆ

ˆˆˆˆˆˆ

Mínimos Cuadrados Restringidos

En muchas ocasiones, los problemas económicos contienen restricciones lineales derivadas de

información no muestral.

En este caso nos enfrentamos a un problema del tipo

N

1iii

β

N

1i

2

iββ

μμArgMínμArgMínSArgMín ' sujeto a RB = r, donde R es la matriz de

restricciones. Resolveremos una optimización de Lagrange, dada por:

)λR'β'2(r')X(Y)'X(Y β (El dos está por facilidad matemática)

Las condiciones de primer orden serán:

0r)β2(Rλ

0λ2R'-βXX2YX2β

r

rr

ˆ

ˆˆ

De la primera condición

rr λR'YXβXX ˆˆ

Definición de Σ

Valores esperados respectivos

Simplificación

Remplazo por definición

Multiplicación. Ojo con la transpuesta

Lo único estocástico es μ

Valor esperado de μμ’

Definición de M

Distributiva

Matriz por su inversa = Identidad

Se cancelan términos semejantes


r11r λR'X)X(YXX)X(β ˆˆ

r1r λR'X)X(ββ ˆˆˆ

Multiplicamos por R y obtenemos

r1r λR'X)XR(βRβR ˆˆˆ

De 2 deducimos que

rβR r ˆ

Es decir,

r1-1

r1

r1

λ]βR[r]R'X)X[R(

λR'X)XR(βRr

λR'X)XR(βRr

ˆˆ

ˆˆ

ˆˆ

Reemplazando:

]βR[r]R'X)X[R(R'X)X(ββ -111r ˆˆˆ

Demostración 13: El estimador de Mínimos Cuadrados Restringidos

es mejor que el de Mínimos Cuadrados Ordinarios

Tener esta proposición implica que Cββr

ˆˆ donde c es una matriz constante

semidefinida positiva.

Recordando que 12 X)(X'σβ ˆ , que μX'X)(X'ββ 1ˆ

Y que )βR(r]R'X)[R(X'R'X)(X'ββ 111r ˆˆ

)R(r]R'X)[R(X'R'X)(X'ββE[ 111r ]ˆ

β]βE[

δ]R'X)[R(X'R'X)(X'β]βE[

μ)X'X)R(X'Rβ(r]R'X)[R(X'R'X)(X'β]βE[

r

111r

1111r

ˆ

ˆ

ˆ

Hallemos rβ para la restricción verdadera

Remplazo β restringido

Sea δ= μX'X)R(X'Rβr 1 . Restricción falsa

Si la restricción es cierta, δ=0


μX'X)(X'*Mββ

μX'X)(X'*Mββ

μX'X)R](X']R'X)[R(X'R'X)(X'[Iββ

μX'X)R(X']R'X)[R(X'R'X)(X'μX'X)(X'ββ

μ)X'X)(R(X']R'X)[R(X'R'X)(X'ββ

μ)X'X)R(X'Rβ(r]R'X)[R(X'R'X)(X'ββ

1-r

1-r

1111r

11111r

1111r

1111r

ˆ

ˆ

ˆ

ˆ

ˆˆ

ˆˆ

M*'X)X(X'X'X)(X'*Mσβ

M*'X)X(X'σX'X)(X'*Mβ

M*'X)]X(X''E[X'X)(X'*Mβ

]μ]'X'X)(X'*μ][MX'X)(X'*E[[Mβ

β]'ββ][βE[[β


1-1-2r

1-21-r

1-1-r

1-1-r

rrr

rrrrr

ˆ

ˆ

ˆ

ˆ

ˆˆˆ

ˆˆˆˆˆ

M*'X)(X'*Mσβ 1-2r

ˆ

Ahora, si la restricción es falsa:

μX'X)(X'*Mδ]R'X)[R(X'R'X)(X'ββ

δ]R'X)[R(X'R'X)(X'μX'X)R](X']R'X)[R(X'R'X)(X'ββ

δ]R'X)[R(X'R'X)(X'μX'X)R(X']R'X)[R(X'R'X)(X'μX'X)(X'ββ

μX'X)R(X']R'X)[R(X'R'X)(X'δ]R'X)[R(X'R'X)(X'μX'X)(X'ββ

μX'X)R(X']R'X)[R(X'R'X)(X')R(r]R'X)[R(X'R'X)(X'ββ

μ)X'X)R(X'Rβ(r]R'X)[R(X'R'X)(X'ββ

1111r

1111111r

11111111r

11111111r

1111111r

1111r

ˆ

[ˆ

ˆ

ˆ

ˆˆ

ˆˆ

I

Por definición

Definición de β restringido

Rβ=r si la restricción es verdadera

Distributiva

Factor común a la derecha

Sea R]]R'X)[R(X'R'X)(X'[IM* 111

Hacemos la resta por conveniencia


Reorganización

Definición de δ y de β MCO

Distributiva

Factor común

Definición de M*

Definición de matriz varianzas y covarianzas

Valor esperado de β restringido

Remplazo de la diferencia

Distributiva

Valor esperado de μμ’

Reorganización

Una matriz por su inversa da identidad


M*'X)X(X'X'X)(X'*Mσβ

M*'X)X(X'σX'X)(X'*Mβ

M*'X)]X(X''E[X'X)(X'*Mβ

]μ]'X'X)(X'*μ][MX'X)(X'*E[[Mβ

]'δ]]R'X)[R(X'R'X)(X'βμX'X)(X'*Mδ]R'X)[R(X'R'X)(X'[β

δ]]R'X)[R(X'R'X)(X'βμX'X)(X'*Mδ]R'X)[R(X'R'X)(X'[βE[β


1-1-2r

1-21-r

1-1-r

1-1-r

1111111

1111111r

rrrrr

ˆ

ˆ

ˆ

ˆ

ˆ

ˆˆˆˆˆ

Σ

M*'X)(X'*Mσβ 1-2r

ˆ

Como podemos observar, la matriz de varianzas y covarianzas en ambos casos es igual.

Analicemos en detalle este resultado:

]

[(][

]}'}{[{][

]}'{}[{][

1111-1111-111

1-1111-21-2

1111-1111-21-2

111-11112-12

X)R(X']R'X)[R(X'R'X)(X'R']R'X)[R(X'R'X)(X'X)R(X']R'X)[R(X'R'X)(X'

X)R(X']R'X)[R(X'R'X)(X'X)X'σM*'X)(X'*Mσ

R]]R'X)[R(X'R'X)(X'[IX)R(X']R'X)[R(X'R'X)(X'X)(X'σM*'X)(X'*Mσ

R]]R'X)[R(X'R'X)(X'[IX)(X'R]]R'X)[R(X'R'X)(X'[IσM*'X)(X'*Mσ

1-11121-21-2

1-1111-21-2

1111-111

1-1111-21-2

X)R(X']R'X)[R(X'R'X)(X'σX)X'σM*'X)(X'*Mσ

X)R(X']R'X)[R(X'R'X)(X'X)X'σM*'X)(X'*Mσ

X)R(X']R'X)[R(X'R'X)(X'R']R'X)[R(X'R'X)(X'

X)R(X']R'X)[R(X'R'X)2(X'X)X'σM*'X)(X'*Mσ

(][

][(][

]

[(][

1-11121-21-2r

X)R(X']R'X)[R(X'R'X)(X'σX)X'σM*'X)(X'*Mσβ (ˆ

Vamos entonces a hacer la resta r

ββ ˆˆ

1-1112r

1-11121-21-2r

X)R(X']R'X)[R(X'R'X)(X'σββ

X)R(X']R'X)[R(X'R'X)(X'σX)X'σ-X)X'σββ

ˆˆ

((ˆˆ

][ M*'X)(X'*MσM*'X)(X'*Mσ -12-12

Definición de Σ


Términos semejantes se

cancelan

Lo único estocástico es μ

Valor esperado

Matriz por su inversa


Este resultado es una matriz semidefinida positiva. Las matrices semidefinidas positivas sólo se

obtienen en caso de que el término con signo positivo sea mayor al que tiene signo negativo, o lo

que es lo mismo, que el de signo negativo sea menor. En este caso, el signo negativo está en el

estimador de Mínimos Cuadrados Ordinarios Restringidos y dado que tenemos la matriz

semidefinida positiva, dicho estimador debe ser menor que el de MCO

Intervalos de confianza

Intervalo de confianza para β

A diferencia de la estimación puntual, que es la que se desarrolla habitualmente (ejemplo

YX'X)(X'β 1ˆ ; KN

μ'μσ2

ˆˆˆ ) la estimación por intervalos plantea que el valor poblacional de la

varianza a estimar se encuentra entre ciertos números (los límites del intervalo) en el 1 – α por

ciento de los casos, donde α es el nivel de significancia. Esto sólo se da en muestreo repetido. Para

un solo intervalo, la estimación sólo tiene dos probabilidades: el valor poblacional está (1) o no

está (0). La probabilidad significa que dado una cantidad de muestras (con X e Y diferentes en cada

muestreo), el (1-α) % de los casos obtendré un intervalo que incluya al valor poblacional.

Para obtener el intervalo de confianza para β, partiremos del supuesto de que ]X)(X'σ,[~β 12 ˆ

Por ende, si tenemos un modelo de mínimos cuadrados restringidos:

]R'X)R(X'σ,[R~βR 12 ˆ

La matriz R será una matriz de ceros y unos con tamaño (1 x k) con k siendo el número de β,

incluyendo el intercepto, en la que habrá un 1 por cada β al que le quiera hallar el intervalo de

confianza. Por ejemplo, si deseo estimar β3 en un modelo con 4 variables (matriz β de 5 x 1)

tendría una matriz R así:

3

5

4

3

2

1

β

β

β

β

β

β

00100Rβ

00100R

Definiremos una variable Z como una normal estándar, que se halla restando por la media y

dividiendo por la desviación estándar. Esto es:


N(0,1)~R'X)R(X'σ

Rβ-βRZ

1

ˆ.

Definimos además que

2KN2

2

2χ~

σ

σK)-(N

σ

μ'μ

ˆˆˆ

Si dividimos la variable Z sobre la raíz de la anterior, tendremos una variable que distribuye t de

Student, con lo cual podremos hallar los límites del intervalo.

kn1/211/2

2

2

1/21

t~]R'X)[R(X'σ

Rβ-βR

]σ

σK)-(N[

]R'X)σ[R(X'

Rβ-βR

t

ˆ

ˆ

ˆ

ˆ

Para armar el intervalo, diremos que el valor de la distribución quedará entre los valores negativo

y positivo de knt que generan una probabilidad de α/2, porque debemos repartir entre ambas

colas de la distribución el valor de significancia.

α-1)]R'X)[R(X'σtβR-Rβ]R'X)[R(X'σtβP(-R

α-1)]R'X)[R(X'σtβR-Rβ]R'X)[R(X'σtβP(-R

α-1)]R'X)[R(X'σtRβ-βR]R'X)[R(X'σtP(

α-1)t]R'X)[R(X'σ

Rβ-βRtP(

1/21kn

α/21/21kn

α/2

1/21kn

α/21/21kn

α/2

1/21kn

α/21/21kn

α/2

knα/2

1/21kn

α/2

ˆˆˆˆ

ˆˆˆˆ

ˆˆˆ

ˆ

ˆ

α-1)]R'X)[R(X'σtβRRβ]R'X)[R(X'σtβP(R 1/21kn

α/21/21kn

α/2

ˆˆˆˆ

Región de confianza para dos o más β

Es posible extender este modelo para hacer regiones de confianza, que estarán definidas cuando

queremos hallar intervalos de confianza simultáneamente para dos o más variables. Si tenemos en

cuenta que multiplicar la variable Z varias veces nos da como resultado una χ2 con los grados de

libertad determinados por el número de veces que haga la multiplicación. Entonces, si tenemos j

restricciones, tendremos esto (hay inversa porque no existe la división de matrices)

2-112 χ~Rβ-βR])R'X)[R(X'(σ)'R-β(R j)ˆ(ˆ


Siguiendo la misma lógica que con una sola restricción, definiremos λ como la división de las dos χ2

mencionadas, que a su vez están divididas por sus grados de libertad. Por definición, esta variable

distribuye F con j y N-K grados de libertad

knj,2

1-1

knj,

2

2

-112

F~σj

Rβ-βR])R'X)([R(X')'R-β(Rλ

F~

K-Nσ

σK)-(N

j

Rβ-βR])R'X)[R(X'(σ)'R-β(R

λ

ˆ

)ˆ(ˆ

ˆ

)ˆ(ˆ

Sin embargo, esta vez no tendremos una desigualdad doble, sino una sencilla puesto que estamos

delimitando una región. Dicha desigualdad estará definida por:

α1)Fσj

Rβ-βR])R'X)([R(X')'R-β(RP()FP(λ knj,2

-11

knj,

ˆ

)ˆ(ˆ

Intervalo de confianza para σ2

Para definir un intervalo de confianza para σ2, recordemos esta variable:

2KN2

2

2χ~

σ

σK)-(N

σ

μ'μ

ˆˆˆ

También recordemos que la variable χ2 tiene la siguiente forma:


Teniendo esto en cuenta y partiendo de la variable mencionada, el intervalo de confianza quedará

definido así:

2α/2 K,N2

22

α/2-1 K,N χσ

σK)-(Nχ

ˆ

Despejamos para la varianza. Hay que tener en cuenta que si invertimos numerador y

denominador, la desigualdad cambiará de sentido. Luego de invertir, obtenemos

2α/2-1 K,N

22

2α/2 K,N

2

2α/2-1 K,N

2

2

2α/2 K,N

χ

σK)-(Nσ

χ

σK)-(N

χ

1

σK)-(N

σ

χ

1

ˆˆ

ˆ

Ejemplo ilustrativo

Dado el modelo

2i21i10i XβXββY

Con 32 observaciones se obtuvieron estos resultados:

2i1ii 2.8X0.7X-4.3Y

0.611.6

10.50.3

1.60.30.4

1.8X)(X'σβ 12ˆ


Calculemos el intervalo de confianza con un nivel de significancia de 5% (1-α=95%) para β1

y β2 individualmente

Para β1, la matriz de restricciones será 010R

R(X’X)-1R’ va a ser entonces 0.5

0

1

0

0.611.6

10.50.3

1.60.30.4

010R'X)R(X' 1

N – K = 32 – 3 = 29. Además, el valor de la distribución t con 29 grados de libertad con una

probabilidad de 0.025 es 2.045

El intervalo de confianza, según nuestra fórmula es:

α-1)]R'X)[R(X'σtβRRβ]R'X)[R(X'σtβP(R 1/21kn

α/21/21kn

α/2

ˆˆˆˆ

Ajustando los datos del ejercicio, tenemos:

0.951.24)Rβ2.64P(

0.95)3416)[0.5](2.045)(1.-0.7Rβ3416)[0.5](2.045)(1.P(-0.7

0.95)3416)[0.5](2.045)(1.βRβ3416)[0.5](2.045)(1.βP(1/21/2

1/21

1/21

ˆˆ

Nuestro intervalo de confianza para β1 es [-2.64; 1.24]

Por el mismo método aplicado, podemos demostrar que el intervalo de confianza para β2 es [1.76,

3.84]

Calculemos la región de confianza de β1 y β2

La matriz de restricciones será

100

010R

R(X’X)-1R’ va a ser entonces

0.61

10.5

10

01

00

0.611.6

10.50.3

1.60.30.4

100

010R'X)R(X' 1

Como nos toca hallar la inversa de esta matriz, repasemos cómo se hace:

Hallamos la matriz adjunta que es la matriz de cofactores transpuesta. Atención con los cambios

de signos.

0.51-

1-0.6

0.61

10.5Adj


Además, hallamos el determinante de la matriz original, que es el producto de la diagonal principal

menos el producto de la diagonal secundaria. En este caso es -0.7

Luego dividimos todos los términos por el determinante y el resultado es la matriz inversa.

0.714-1.428

1.4280.857-

0.7

0.5

0.7

10.7

1

0.7

0.6

Ya tenemos todos los elementos necesarios para remplazar en la fórmula. Aclaremos que F de 2 y

29 es igual a 3.33.

α1)F2(1.8)

)ββ

ββ))()ββ0.714()ββ(1.428())ββ1.428()ββ(-0.857(

P(

α1)F2(1.8)

ββ

ββ)

0.714-1.428

1.4280.857-)(ββββ(

P(

α1)Fσj

Rβ-βR])R'X)([R(X')'R-β(RP()FP(λ

knj,22

1122221111

knj,22

112211

knj,2

-11

knj,

ˆ

ˆˆˆˆˆ

)ˆ

ˆ(ˆˆ

ˆ

)ˆ(ˆ

0.9511.988)2)2

β0.714(2.8)2

β)(2.81

β2.857(-0.72)1

β0.7P(-0.857(-

0.953.33)3.6

2)2

β0.714(2.8)2

β)(2.81

β2.857(-0.72)1

β0.857(-0.7-P(

0.953.33)2(1.8)

2)2

β2

β0.714()2

β2

β)(1

β1

β1.428()2

β2

β)(1

β1

β1.428(2)1

β1

β0.857(-P(

ˆˆˆˆˆˆ

Estimador puntual e intervalo de confianza para Y

La idea es que tenemos un cierto nivel de X, que vamos a llamar X0. Dado este nivel, ¿Qué valor de

Y esperamos obtener, es decir, cuál es el valor de Y estimado?

Sabemos que Y0=X’0β + μ0. Entonces βXY 00ˆˆ Con este valor podremos hacer la estimación

puntual de Y.

La diferencia entre el valor estimado y el valor real será 000000 μ-)-βXμ-βX-βXYY ˆ(ˆˆ


La varianza de esta diferencia será el valor esperado al cuadrado. Recordemos que una matriz por

su transpuesta es el equivalente a elevar al cuadrado cada término de la matriz.

]E[μ]β)μ-β(X2E[]Xβ)'-ββ)(-β(XE[]μ-β)-β(XE[ 02

00002

00 ˆˆˆˆ

Vamos a simplificar esta expresión. Para ello, definimos 20

2 σ]E[μ

Luego, la expresión ]β)μ-β(XE[ 00ˆ por la independencia de β y μ se puede escribir como

]β)]E[μ-β(XE[ 00ˆ . Como el valor esperado de μ es 0, toda esta expresión es igual a cero.

Finalmente, dentro del primer término, tenemos ]Xβ)'-ββ)(-β(XE[ 00ˆˆ . La expresión

]β)'-ββ)(-βE[( ˆˆ es la matriz de varianzas y covarianzas de β estimado, que es igual a

12 X)(X'σ]β)'-ββ)(-βE[( ˆˆ . Reemplazando este valor, tenemos que el primer término es igual a

]XX)(X'X[σ 01

02

Dado todo lo anterior, tenemos:

1]XX)(X'X[σ

σ]XX)(X'X[σ

]E[μ]β)μ-β(X2E[]Xβ)'-ββ)(-β(XE[]μ-β)-β(XE[

01

02

20

10

2

02

00002

00

ˆˆˆˆ

La desviación estándar de esta expresión es la raíz cuadrada de la varianza y es igual a

1/20

10 1]XX)(X'Xσ[

El siguiente paso es estandarizar la distribución normal de Y estimado. Esto es, debemos restar por

el valor esperado y dividir por su desviación estándar. Sabiendo que Y estimado es igual a

βXY 00ˆˆ , esta distribución queda así

N(0,1)~1]XX)(X'Xσ[

Y-βXZ

1/20

10

00

ˆ

Nos encontramos de nuevo con el problema de desconocer la desviación estándar poblacional.

Haremos un procedimiento similar al de β para obtener una distribución t.

2KN2

2

2χ~

σ

σK)-(N

σ

μ'μ

ˆˆˆ

Dividimos la distribución normal sobre la raíz cuadrada del cociente de la χ2 y sus grados de

libertad. Entonces


kn1/20

10

00

1/2

2

2

1/20

10

00

t~1]XX)(X'X[σ

Y-βX

]σ

σK)-(N[

1]XX)(X'Xσ[

Y-βX

t

ˆ

ˆ

ˆ

ˆ

Por último, el intervalo de confianza lo armaremos de una forma parecida a la hecha con β.

α-1))1]XX)(X'X[σ(tβX-Y1]XX)(X'X[σtβXP(-

α-1))1]XX)(X'X[σ(tY-βX1]XX)(X'X[σtP(

α-1)t1]XX)(X'X[σ

Y-βXtP(

1/20

10kn

α/200

1/20

10kn

α/20

1/20

10kn

α/200

1/20

10kn

α/2

knα/2

1/20

10

00kn

α/2

ˆˆ)ˆ(ˆ

ˆˆ)ˆ(

ˆ

ˆ

α-1))1]XX)(X'X[σ(tβXY1]XX)(X'X[σtβXP( 1/20

10kn

α/200

1/20

10kn

α/20

ˆˆ)ˆ(ˆ

Pruebas de Hipótesis

Pruebas de hipótesis para β

Una prueba de hipótesis pretende demostrar o desmentir una afirmación hecha a priori acerca de

una variable. SIEMPRE debe haber estos cuatro elementos en una prueba de hipótesis

Hipótesis Nula (H0), también llamada hipótesis de investigación. Lo que queremos probar

Hipótesis Alterna (H1), justo lo contrario a la hipótesis nula

Estadístico de prueba, un valor con el cual se demostrará la hipótesis

Región de rechazo: Conjunto de puntos que rechazan la hipótesis nula.

Lo primero que uno debe hacer es definir las hipótesis. La hipótesis debe estar en términos

poblacionales. Luego, se define el estadístico de prueba conveniente (hay que conocer su

distribución y establecer un nivel de significancia, que es el máximo error tipo I permisible. El error

tipo I es rechazar la hipótesis nula siendo ésta verdadera). Se elige la región de rechazo de acuerdo

a las hipótesis planteadas.

Para una sola β, el estadístico de prueba será la distribución t usada para el intervalo de confianza

kn1/21t~

]R'X)[R(X'σ

Rβ-βRˆ

ˆ

Definiremos la región de rechazo según esta tabla

Hipótesis Nula Hipótesis Alterna ¿Cuándo rechazo H0?

β=β0 β≠ β0 t<-tα/2 o tα/2

β≥β0 β< β0 t<tα


β≤β0 β> β0 t>tα

Ahora, si queremos hacer una prueba conjunta, para más de una β definiremos el estadístico de

prueba con la distribución F, exactamente el mismo usado para la región de confianza.

2

-11

σj

Rβ-βR])R'X)([R(X')'R-β(Rλ

ˆ

)ˆ(ˆ

Este valor se rechaza si λ> knj,F

Pero esta forma puede ser inconveniente. Se pueden usar entonces otras formas de expresar λ

SRCR = Suma de los residuales al cuadrado del modelo restringido

SRC = Suma de los residuales al cuadrado

Rr2= Coeficiente de determinación del modelo restringido

R2 = Coeficiente de determinación

Pruebas de hipótesis para σ2

Usaremos el estadístico de prueba 2KN2

2

χ~σ

σK)-(N

ˆ

Los criterios para elegir rechazar o no la variable estarán dados por:

Hipótesis Nula Hipótesis Alterna ¿Cuándo rechazo H0?

σ2=σ02 σ2≠σ0

2 2α/2-1 K,N2

χσ

K)-(N

0

o 2α/2 K,N2

χσ

K)-(N

0

σ2=σ02 σ2<σ0

2 2α-1 K,N2

χσ

K)-(N

0

σ2=σ02 σ2>σ0

2 2α K,N2

χσ

K)-(N

0

Multicolinealidad: Cómo se expresa y se detecta

K-N

R-1

j

RR

K-N

SRCj

SRCSRCR

λ2

r22


La multicolinealidad es un problema que consiste en la existencia de una relación lineal entre los

regresores. Idealmente, los regresores deber ser independientes entre sí, pero este no es siempre

el caso. Este problema sucede porque el determinante de la matriz X’X es 0, por lo cual no hay

inversa. Vamos a demostrar una forma de revisar su existencia.

Primero que todo, recordemos:

YX'X)(X'β 1ˆ

En forma matricial expresamos como hallar los dos primeros β

n

2

1

2n2221

1n1211

1

2n1n

2221

2111

2n2221

1n1211

2

1

Y

...

Y

Y

X...XX

X...XX

XX

......

XX

XX

X...XX

X...XX

β

βˆ

ˆ

Resolviendo las multiplicaciones tenemos

i2i

i1i

1

22i2i1i

2i1i21i

2

1

YX

YX

XXX

XXX

β

βˆ

ˆ

Antes de seguir aclaremos la definición del coeficiente de correlación

2

22i

21i

2i1i

21

21x,x

1)(N

)X(X)X(X

1N

)X)(XX(X

))Var(xVar(x

)x,Cov(xρ

21

Elevamos este valor al cuadrado y descubrimos que es igual al coeficiente de determinación de X1

y X2.

21,22

2i2

1i

2

2i1ir

)(X)(X

))X(X(

Sabiendo este resultado, podremos seguir. La inversa de una matriz es el inverso multiplicativo de

su determinante por la matriz adjunta. Para nuestro caso, será

i2i

i1i

21i2i1i

2i1i22i

22i1i

22i

21i2

1

YX

YX

XXX

XXX

)XX()(X)(X

1

β

βˆ

ˆ


Dividimos la expresión por 2

2i2

1i )(X)(X . Para que se mantenga la igualdad, dividimos cada

término de la matriz por 2

2i2

1i )(X)(X

i2i

i1i

22i2

2i2

1i

1,2

22i

21i

1,221i

21,22

1

i2i

i1i

22i

21i

21i

22i

21i

2i1i

22i

21i

2i1i

22i

21i

22i

22i

21i

22i1i

22i

21i

22i

21i2

1

YX

YX

X)(X)(X

r

)(X)(X

rX

r

1

β

β

YX

YX

)(X)(X

X

)(X)(X

XX

)(X)(X

XX

)(X)(X

X

)(X)(X

)XX(

)(X)(X

)(X)(X

1

β

β

1

1

)(

)(

1ˆ

ˆ

ˆ

ˆ

Ahora, la matriz de varianzas y covarianzas es

12

2i22i

21i

1,2

22i

21i

1,2121i

21,2

212

)X()(X)(X

r

)(X)(X

r)X(

r1

σX)(X'σβ

La expresión 2

1,2r

1

1 se conoce como factor de aumento de la varianza. Hay problemas de

multicolinealidad si este valor es mayor a 10.

Variables Dummies, Dicótomas o Ficticias

Son variables que toman el valor de 0 o de 1 según si los individuos cumplen o no ciertas

características, por ejemplo hombre – mujer; sí o no… Las variables dummies son propensas a la

multicolinealidad porque si se toma un exceso de variables dummies, estas no serán

independientes. Por ejemplo, si tomo una variable para hombres y otra para mujeres, estas

estarán profundamente relacionadas.

Otro problema que presentan las dummies es que no necesariamente expresan un valor

cuantitativo real. Por ejemplo, una persona estrato 2 no es el doble de rica que una persona

estrato 1.

¿Qué pasa si no se cumplen los supuestos de MCO?


El modelo de MCO es el mejor modelo que se puede utilizar sólo si todos sus supuestos se

cumplen. Lastimosamente, dichos supuestos son muy restrictivos. La siguiente tabla resumirá los

diferentes supuestos incumplidos, las pruebas de detección y la solución para estas violaciones.

¿Cuál es el problema? ¿Cómo se detecta? ¿Cómo se soluciona?

Multicolinealidad Factor de Aumento de Varianza, Número de Condición, Correlación entre regresores

Eliminación de variables, uso de información extra, mayor tamaño muestral, Regresiones tipo Ridge,

Endogeneidad Prueba de Hausman Variable Instrumental

Error en la especificación del modelo

Prueba Ramsey RESET Mínimos Cuadrados No Lineales

Heteroscedasticidad Prueba de White, Prueba de Goldfeld – Quandt, Prueba de Breusch – Pagan,

Mínimos Cuadrados Generalizados Factibles

Autocorrelación Prueba de Durbin – Watson

Normalidad de μ Prueba Jarque - Bera

Mínimos cuadrados generalizados

Este modelo plantea la existencia de una matriz Ω, cuya inversa se puede descomponer así

PP'Ω 1 Donde P es una matriz triangular superior. Esta matriz aparecerá en la matriz de

varianzas y covarianzas de μ. Antes de seguir, definamos la notación a usar. X*=PX. Y*=PY y μ*=Pμ.

El método de Mínimos Cuadrados Generalizados (MCG) se utiliza para resolver casos de

heteroscedasticidad o de autocorrelación. La estimación de los β se hará así:

*Y*XX*)*(Xβ 1MCG

ˆ

Reemplazamos de acuerdo a las definiciones anteriores y tenemos

PYPXPX)PX(β

(PY))(PX(PX)))((PXβ

1MCG

1MCG

ˆ

ˆ

Recordando que PP'Ω 1

YΩXX)ΩX(β 111MCG

ˆ

Además, la matriz de varianzas y covarianzas estará dada por


112MCG

12MCG

12MCG

12MCG

X)ΩX(σβ

PX)PX(σβ

(PX)))((PXσβ

X*)*(Xσβ

ˆ

ˆ

ˆ

ˆ

Finalmente, hallemos un estimador para la varianza

KN

)PX-(PY)'PX-(PYσ

KN

)*X-(Y)'*X-(Y

KN

μ'μσ

MCGMCG2

MCG

MCGMCG2

MCG

ˆˆˆ

ˆˆˆˆˆ

Por propiedades de la transpuesta, si sacamos factor común P en el paréntesis de la izquierda, éste

quedará (como P’) a la derecha, pero si lo sacamos en el paréntesis de la derecha, se ubicará en la

izquierda. Esto es

KN

)X-P(YP')'X-(Yσ MCGMCG2

MCG

ˆˆ

ˆ

Luego, sólo reemplazamos Ω

KN

)X-(YΩ)'X-(Yσ MCG

1MCG2

MCG

ˆˆ

ˆ

Es posible obtener estos estimadores a través del método de máxima verosimilitud. En este caso,

la función estará dada por

Expresemos la fórmula anterior en logaritmos:

)

)

X(YΩ)'X(Y2σ

1Ωln

2

1-)ln(σ

2

N )ln(2

2

Nln

X(YΩ)'X(Y2σ

1Ωln

2

1-)ln(σ

2

N )ln(2

2

Nln1ln

1-

2

2

1-

2

2

La derivada respecto a β será muy similar a la presentada en la Demostración 2: ¿Cómo hallar los β

en el modelo general de MCO?. Quedará exactamente igual. ( YΩXX)ΩX(β 111MCG

ˆ )

Ahora, si derivamos respecto a σ2 tenemos:

)}x(YΩ)'x(Y2σ

1exp{

Ω)(2π

1 1

21/2N/22


0)X(YΩ)'X(Y-Nσσ

ln

0)2(σ

)X(YΩ)'X(YNσ-

σ

ln

0)X(YΩ)'X(Y)2(σ

1

2σ

N

σ

ln

1-2

2

22

1-2

2

1-

2222

21-

2

21-

2

σN

)X(YΩ)'X(Y

σ

ln

Nσ)X(YΩ)'X(Yσ

ln

Este es un estimador sesgado, pero consistente de σ2

Heteroscedasticidad

La Heteroscedasticidad es la situación en la que hay varias varianzas distintas al interior del

modelo. Esto es, la matriz de varianzas y covarianzas estará dada por

)Var(μ...000

...............

0...)Var(μ00

0...0)Var(μ0

0...00)Var(μ

Σμ

N

3

2

1

Normalmente asumiríamos que estas varianzas son todas idénticas, pero este no es el caso. Para

solucionar el problema usamos MCG, como ya se mencionó. Así nuestros β serán

YΩXX)ΩX(β 111MCG

ˆ . Pero hay un problema, ¿Qué es Ω? Al estimar Ω tenemos Mínimos

Cuadrados Generalizados Factibles (MCGF) YΩXX)ΩX(β 111MCGF

ˆˆˆ .

Para asumir Ω, definiremos P como una matriz diagonal con el inverso de las desviaciones

estándar.


N

3

2

1

σ

1...000

...............

0...σ

100

0...0σ

10

0...00σ

1

P

La matriz Y* será entonces

Nx1N

N

2

2

1

1

σ

Y...σ

Yσ

Y

Y*

Este método se conoce como Mínimos Cuadrados Ponderados. Este método resulta

muy impráctico, por lo cual no tiene mucho uso. Sin embargo, se puede asumir una matriz con dos

varianzas distintas (divido la muestra en dos partes, no necesariamente iguales).

2

2

1

1

σ...000

...σ.........

0......00

0...0σ0

0...00σ

Σμ

Revisemos mediante una prueba de hipótesis que en efecto exista heteroscedasticidad. La

hipótesis nula será que ambas varianzas son iguales. La hipótesis alterna es que son diferentes.

Esto es

211

210

σσH

σσH

Construyamos el estadístico de prueba. Sabemos que 2KN2

2

χ~σ

σK)-(N

ˆy además, sabemos que

una distribución F es el cociente de dos distribuciones chi cuadrado divididas por sus grados de


libertad. Esto implica que K-N2K,-N1

2

2

1

2

22

1

2

1

2

11

F~

K)-(N

σ

σK)-(N

K)-(N

σ

σK)-(N

ˆ

ˆ

. Simplificando esta expresión llegamos a

K-N2K,-N12

2

2

1 F~σ

σ

ˆ

ˆ. La región de rechazo se determinará de acuerdo a K-N2K,-N12

2

2

1 Fσ

σ

ˆ

ˆ

Los pasos para solucionar la heteroscedasticidad son:

1. Implementar MCO

2. Obtener los residuales al cuadrado

3. Realizar mediante MCO la regresión εZα...ZαZααμ ln kik2i21i10i2 ˆ

4. K

5. Construir

6. Aplicar MCGF

7. Repetir hasta llegar a la convergencia.

FIN

Demostraciones econometria

Documents

Transcript of Demostraciones econometria