Regresi on multiple - Gabriel Montes
of 35
/35
Embed Size (px)
Transcript of Regresi on multiple - Gabriel Montes
Regresion multiple
Tomemos el ejemplo de retornos a la educacion en una ecuacion de Mincer. Como se imaginan, la educacion no es el unico determinante de los salarios. Otras variables que pueden afectar salarios son:
Edad
Experiencia
Por ejemplo, un modelo mas cercano a la realidad es:
wage = β0 + β1educ + β2exper + u
¿Cambia la interpretacion de los coeficientes? Ahora β1 es el efecto de educ sobre salarios, manteniendo exper constante.
Gabriel Montes-Rojas Regresion multiple
En el modelo
wage = γ0 + γ1educ + e,
si omitimos exper , y si educ y exper estan relacionadas, o sea exper(educ), entonces,
γ1 = ∂E [wage|educ ]
∂educ
¿Cual es el problema? Si no controlamos por exper, estaramos estimando un efecto de educ que no es el que queremos. Es el problema de variables omitidas que veremos mas adelante. Aparece el problema de la causalidad.
Gabriel Montes-Rojas Regresion multiple
wage = β0 + β1educ + β2exper + u
β1 = ∂E [wage|educ, exper ]
∂educ
Ahora β1 es el efecto de educ sobre wage, manteniendo exper constante. Incluyendo exper en el modelo, podemos medir el efecto de educ sin confundirlo con el efecto de exper.
Nota: En Economa esto se usa mucho: ceteris paribus, dejando todo lo demas constante.
Gabriel Montes-Rojas Regresion multiple
Regresion multiple
y = β0 + β1x1 + β2x2 + ... + βK xK + u
Tenemos K + 1 variables explicativas, incluyendo una constante, es decir, siempre con valor 1.
En notacion matricial tenemos x = (1, x1, x2, ..., xK ) que es un vector 1× (K + 1) y β = (β0, β1, ..., βK )
′ es un vector (K + 1)× 1, entonces
y = xβ + u
yi = x i β + ui
Gabriel Montes-Rojas Regresion multiple
Algebra de MCO El estimador de MCO es
βMCO = argmin b∈RK+1
N
(yi − b0 − b1x1i − ...− bK xKi ) 2
Para la minimizacion tomamos derivadas con respecto a b = (b0, b1, ..., bK ), lo cual nos da las siguientes condiciones de primer orden:
N
∑ i=1
xji (yi − β0 − β1x1i − ...− βK xKi ) = 0, j = 0, 1, 2, ...,K .
Al igual que con la regresion simple podemos pensar la solucion como un metodo de momentos:
Momentos en la poblacion E [xju] = E [xj (y − β0 − β1x1 − ...− βK xK )] = 0
j = 0, 1, 2, ...,K (donde x0 = 1 es una constante)
Momentos en la muestra (CPO de la minimizacion)
N−1 ∑N i=1 xji (yi − β0 − β1x1i − ...− βK xKi ) = 0
j = 0, 1, 2, ...,K
En ambos casos tenemos un sistema de ecuaciones con K + 1 ecuaciones y K + 1 parametros.
Gabriel Montes-Rojas Regresion multiple
Algebra de MCO
donde:
X es una matriz N × (K + 1), que contiene en cada una de las N filas la observacion i y en cada una de las (K + 1) columnas los parametros. Nota: x0i = 1 para todo i = 1, 2, ...,N;
y es un vector N × 1, que contiene la variable dependiente;
... as (X ′X ) es una matriz (K + 1)× (K + 1); ′ representa la transpuesta de una matriz;
... (X ′X )−1 es una matriz (K + 1)× (K + 1), la inversa de (X ′X );
... (X ′X )−1X ′y es un vector (K + 1)× 1.
Gabriel Montes-Rojas Regresion multiple
Algebra de MCO
X =
∑N i=1 x1i ∑N
i=1 x 2 1i . . . ∑N
i=1 x1ixKi ...
i=1 xKix1i . . . ∑N i=1 x
2 Ki
, X ′y =
.
La expresion para (X ′X )−1 requiere repasar como se calcula la inversa de una matriz.
MCO como ratio de sumatorias: Tambien se puede llegar a la siguiente expresion
muy util βMCO = (
)−1 ( ∑N
.
Ejercicio: Resolver analticamente para K = 1 (regresion simple) y K = 2 usando algebra matricial y luego resolviendo las condiciones de primer orden.
Gabriel Montes-Rojas Regresion multiple
Algebra de MCO
Prueba: Planteemos el problema de minimizacion como
βMCO = argmin b∈RK+1
u(b)′u(b) = argmin b∈RK+1)
(y −Xb)′(y −Xb)
] .
Estamos definiendo u(b) ≡ y −Xb. Tenemos que tomar derivadas con respecto a b ∈ RK+1, un vector (K + 1)× 1. La solucion es un vector (K + 1)× 1 de condiciones de primer orden (hay reglas especficas para derivar vectores y matrices). Entonces, 2X ′Xb− 2X ′y = 0K+1, donde 0K+1 es un vector (K + 1)× 1 de ceros. Finalmente, X ′y = X ′Xb,⇒ βMCO = (X ′X )−1X ′y . Hay que chequear tambien las condiciones de segundo orden (para mnimo). Tomando la segunda derivada tenemos, 2X ′X que es una matriz positiva semidefinida (chequear).
Gabriel Montes-Rojas Regresion multiple
Algebra de MCO
Otra forma de verlo es que las condiciones de momento se pueden expresar como:
X ′u(βMCO ) = X ′(y −X βMCO ) = 0K+1.
Entonces, X ′y = X ′X βMCO . Este es un sistema de ecuaciones lineales, no homogeneo. Para que tenga solucion los coeficientes de las ecuaciones, dados por X ′X , no pueden ser linealmente dependientes. O sea el determinante no puede ser cero. Entonces,
⇒ βMCO = (X ′X )−1X ′y .
Gabriel Montes-Rojas Regresion multiple
Teorema Gauss-Markov
Supuesto 1: Lineal en parametros La variable dependiente y se relaciona con x por una funcion lineal, y = β0 + β1x1 + ... + βK xK + u.
Supuesto 2: Muestreo aleatorio {(yi , x1i , ..., xKi )}, i = 1, 2, ...N es una muestra aleatoria del modelo del Supuesto 1.
Supuesto 3: Ausencia de colinealidad perfecta en X Para esto necesitamos que (X ′X ) sea no singular o rango(X ′X ) = K + 1 (notar que esto implica que (K + 1) ≤ N). Condicion necesaria y suficiente para esto es que no haya una relacion lineal exacta entre los regresores (no confundir con multicolinealidad en general).
Supuesto 4: Media condicional cero E [u|x ] = 0.
MCO es insesgado E [βj |x ] = βj , j = 0, 1, 2, ...,K o E [β|x ] = β donde β es el vector de todos los parametros. Prueba: E [βMCO |x ] = E [(X ′X )−1X ′y |x ] = E [(X ′X )−1X ′ (X β + u) |x ] = E [(X ′X )−1(X ′X )β|x ] + E [(X ′X )−1X ′u|x ] = β + (X ′X )−1X ′E [u|x ] = β. Especificar donde se usa cada supuesto explcitamente.
Gabriel Montes-Rojas Regresion multiple
Teorema Gauss-Markov
Supuesto 5: Homocedasticidad Var [u|x ] = σ2IN
Teorema Gauss-Markov: Bajo los Supuestos 1-5, los estimadores MCO (β0, β1, ..., βK ) son los mejores estimadores lineales insesgados (MELI) de (β0, β1, ..., βK ). Note: MEJOR significa mnima varianza dentro de la familia de estimadores lineales insesgados. En ingles es BLUE, best linear unbiased estimator.
Gabriel Montes-Rojas Regresion multiple
Varianza de MCO
En notacion matricial tenemos Var (β|x) = σ2(X ′X )−1
Prueba: Var (β|x) = Var [(X ′X )−1X ′y |x ] = (X ′X )−1X ′Var [y |x ]X (X ′X )−1 = (X ′X )−1X ′σ2X (X ′X )−1 = σ2(X ′X )−1X ′X (X ′X )−1 = σ2(X ′X )−1
Notar que Var (y |x) = Var (X β + u|x) = Var (y |x) = σ2IN por el supuesto de homocedasticidad. Definamos la matriz N ×N de varianzas y covarianzas de los errores como = Var (u|x) = E [uu ′ |x ] + E [u|x ]E [u ′ |X ] = E [uu ′ |x ] (¿por que?). juega un rol central para analizar la varianza. Con los supuestos de Gauss-Markov,
= E [uu ′ |x ] = E
u2
2 . . . u2uN . . .
.
.
.
.
.
. . . .
.
.
= σ2IN .
En general, para los estimadores MCO podemos escribir la varianza como una forma sandwich,
Var (β|x) = Var ((X ′X )−1X ′u|x) = E [(X ′X )−1X ′uu ′X (X ′X )−1 |x ]
= (X ′X )−1E [X ′uu ′X |x ](X ′X )−1 = (X ′X )−1X ′Var (u|x)X (X ′X )−1
Gabriel Montes-Rojas Regresion multiple
Regresion multiple Estimacion Teorema Gauss-Markov Inferencia
Teorema Gauss-Markov Ahora podemos probar el Teorema de Gauss-Markov. Un estimador lineal requiere que sea una combinacion lineal de los elementos de y . Esta restriccion no es necesaria de acuerdo al nuevo paper de Hansen (2022). Sin embargo, todos los estimadores
que podemos derivar facilmente cumplen con esta propiedad y no nos estamos perdiendo nada.
Definamos C = (X ′X )−1X ′ +D donde D es una matriz no nula (K + 1)×N, no estocastica (puede depender de x). Ahora definamos β = Cy como otro estimador (no necesariamente MCO, pero lineal).
E [β|x ] = E [Cy |x ] = E [C (X β + u)|x ] = β + E [DX β|x ] + E [Cu|x ]
= (IK+1 +DX )β.
Para que sea insesgado debemos tener DX = 0(K+1)×(K+1). Notar que
E [Cu|x ] = 0K×1. Ahora calculemos la varianza, siempre condicional en x ,
Var [β|x ] = Var [Cy |x ] = CVar (y |X )C ′ = σ2CC ′ = σ2((X ′X )−1X ′+D)((X ′X )−1X ′+D)′
= σ2(X ′X )−1 + σ2DD ′ = Var [βMCO |x ] + σ2DD ′.
Dado que DD ′ es una matriz positiva semidefinida, tenemos el resultado: Var [β|x ]−Var [βMCO |x ] es una matriz positiva semidefinida. Notar que solo MCO no tiene forma sandwich: (X ′X )−1 ×ALGO × (X ′X )−1. Esto es un punto central para detectar eficiencia.
Gabriel Montes-Rojas Regresion multiple
Teorema Gauss-Markov
Podemos plantear tambien una prueba constructiva. Ver Johnston y DiNardo (1996).
Gabriel Montes-Rojas Regresion multiple
Teorema Gauss-Markov
Teorema Gauss-Markov
Teorema Gauss-Markov
Bruce Hansen (2022) “A Modern Gauss-Markov Theorem”:
“The development of least squares and the Gauss-Markov Theorem involved a series of contributions from some of the most influential probabilists of the nineteenth thru early twentieth centuries. The method of least squares was introduced by Adrien Marie Legendre (1805) as essentially an algorithmic solution to the problem of fitting coefficients when there are more equations than unknowns. This was quickly followed by Carl Friedrich Gauss (1809), who provided a probabilistic foundation. Gauss proposed that the equation errors be treated as random variables, and showed that if their density takes the form we now call “normal” or “Gaussian” then the maximum likelihood estimator of the coefficient equals the least squares estimator. Shortly afterward, Pierre Simon Laplace (1811) justified this choice of density function by showing that his central limit theorem implied that linear estimators are approximately normally distributed in large samples, and that in this context the lowest variance estimator is the least squares estimator. Gauss (1823) synthesized these results and showed that the core result only relies on the first and second moments of the observations and holds in finite samples. Andrei Andreevich Markov (1912) provided a textbook treatment of the theorem, and clarified the central role of unbiasedness, which Gauss had only assumed implicitly. Finally, Alexander Aitken (1935) generalized the theorem to cover the case of arbitrary but known covariance matrices. This history, and other details, are documented in Plackett (1949) and Stigler (1986).”
Gabriel Montes-Rojas Regresion multiple
Teorema Gauss-Markov
Bruce Hansen (2022) “A Modern Gauss-Markov Theorem”: Un nuevo resultado en la econometra determina que MCO no solo es MELI (BLUE), sino tambien MEI (BUE). Es decir, no es necesario que sea “lineal”.
Gabriel Montes-Rojas Regresion multiple
Analisis de varianza
i=1(yi − y )2
⇒ Variacion total en y ; Var (y ) = N−1 ∑N i=1(yi − y )2
Suma de Cuadrados Explicados (SCE): ∑N i=1(yi − y )2
⇒ Variacion en y explicada por el modelo
Suma de Cuadrados Residuales (SCR): ∑N i=1(yi − yi )
2 = ∑N i=1 u
2 i
Gabriel Montes-Rojas Regresion multiple
R2
Definicion: El R − cuadrado o R2 de una regresion es la fraccion de la variacion en y que es explicada por X , el modelo lineal propuesto.
R2 = ∑N
= SCE/SCT = 1− SCR/SCT
0 ≤ R2 ≤ 1
Precaucion
Cuantas mas variables explicativas se usan en el modelo, mayor va ser el R2. ¿Por que? Las X s ayudan a explicar la variacion en y siempre, aun cuando sean irrelevantes.
Nunca hay que juzgar un modelo en base al R2.
Los valores de R2 dependen del tipo de problema y de la experiencia...
Gabriel Montes-Rojas Regresion multiple
R2 ajustado
Definicion: R2 o R2 ajustado es un estadstico como el R2 pero donde se penaliza por la inclusion de variables.
R2 = 1− SCR/(N −K − 1)
SCT/(N − 1)
¡Ahora perdemos la interpretacion de 0 ≤ R2 ≤ 1!
Nota: R2 se incrementa solo si la variable adicional tiene un valor t mayor a uno en valor absoluto. Se puede usar como criterio de seleccion.
Gabriel Montes-Rojas Regresion multiple
Varianza de MCO
Var (βj |x) = σ2
SCTj (1− R2 j )
donde SCTj = ∑N i=1(xji − xj )
2 es la variacion total en xj y R2 j es el R-cuadrado de una
regresion de xj en todas las otras variables (inluyendo el intercepto) {1, x1, ..., xj−1, xj+1, ..., xK }.
Gabriel Montes-Rojas Regresion multiple
Gabriel Montes-Rojas Regresion multiple
Contrastes de hipotesis simples
Tomemos la hipotesis nula H0 : βj = βj0, j = 0, 1, ...,K contra la hipotesis alternativa HA : βj 6= βj0
(si H0 : βj = 0 es verdad entonces no hay relacion lineal entre y con xj , luego de controlar por el efecto de las otras variables.)
Gabriel Montes-Rojas Regresion multiple
Contrastes de hipotesis simples
Bajo H0 : βj = βj0 y asumiendo que u ∼ Normal(0, σ2), tiene distribucion normal estandar, tenemos que
(βj − βj0)/se(βj ) ∼ tN−K
donde se(.) es error estandar (raz cuadrada de la varianza) y tN−K−1 es una distribucion t con grados de libertad N −K − 1.
¿De donde viene N −K − 1? De que tenemos N observaciones y estimamos K + 1 parametros. La variable aleatoria t − Student tiene colas mas anchas cuanto menos grados de libertad tiene. Por otro lado cuando los grados de libertad tienden a infinito, la distribucion t se vuelve igual a la normal/gaussiana.
Para obtener Var (β|X ) necesitamos un estimador de σ2, la varianza del error, la cual tambien necesita ser estimada.
σ2 = ∑N
N −K − 1
Gabriel Montes-Rojas Regresion multiple
Contrastes de hipotesis multiples
Se pueden contrastar hipotesis como H0 : β1 = 0, β2 = 0,
o como H0 : β1 = β2.
Estas hipotesis se contrastan con test F.
Gabriel Montes-Rojas Regresion multiple
Contrastes de hipotesis multiples
En general, si tenemos un modelo con K variables independientes (mas una constante), pero queremos testear por Q restricciones lineales (no perfectamente colineales entre s), se define ur (unrestricted model) modelo sin restricciones (K variables) r (restricted model) modelo con las restricciones (el modelo estimado satisfaciendo todas las Q restricciones) Entonces:
F = (R2
∼ F (Q,N −K − 1)
Gabriel Montes-Rojas Regresion multiple
Regresion multiple Estimacion Teorema Gauss-Markov Inferencia
Contraste para la significancia del modelo
Supongamos que nos interesa: H0 : β1 = ... = βK = 0 En este caso Q = K , el numero de restricciones es igual al numero de variables explicativas (excepto la constante). Entonces el estadstico F es:
F = R2/K
Gabriel Montes-Rojas Regresion multiple
Regresion multiple Estimacion Teorema Gauss-Markov Inferencia
Ejemplo: Efecto de fumar sobre el peso de los recien nacidos
Consideremos la siguiente regresion:
+β4motheduc+ β5fatheduc+ u
donde bwght: birth weight, in pounds; cigs: average number of cigarettes the mother smoked per day during pregnancy; parity: birth order of the child; faminc: annual family income; motheduc: years of schooling of the mother; fatheduc: years of schooling of the father.
Gabriel Montes-Rojas Regresion multiple
Regresion multiple Estimacion Teorema Gauss-Markov Inferencia
Ejemplo: Efecto de fumar sobre el peso de los recien nacidos
use http://fmwww.bc.edu/ec-p/data/wooldridge/bwght, clear
reg bwght cigs parity faminc motheduc fatheduc
STATA bwght Coef. Std. Err. t P > |t| cigs -.5959362 .1103479 -5.401 0.000
parity 1.787603 .6594055 2.711 0.007 faminc .0560414 .0365616 1.533 0.126
motheduc -.3704503 .3198551 -1.158 0.247 fatheduc .4723944 .2826433 1.671 0.095
cons 114.5243 3.728453 30.716 0.000
http://fmwww.bc.edu/gstat/examples/wooldridge/wooldridge4.html
Regresion multiple Estimacion Teorema Gauss-Markov Inferencia
Ejemplo: Efecto de fumar sobre el peso de los recien nacidos
Si quisieramos hacer un contraste de H0 : β4 = 0, β5 = 0
test motheduc fatheduc
F( 2, 1185) = 1.44 Prob > F = 0.2380
Gabriel Montes-Rojas Regresion multiple
Regresion multiple Estimacion Teorema Gauss-Markov Inferencia
Ejemplo: Efecto de fumar sobre el peso de los recien nacidos
El estadstico F se puede construir a mano:
reg bwght cigs parity faminc motheduc fatheduc
scalar R2ur=e(r2) (guarda R2 ur )
reg bwght cigs parity faminc if fatheduc∼=. scalar R2r=e(r2) (guarda R2
r )
∼ F (Q,N −K − 1)
display "p-value : " pvalueF
Regresion multiple Estimacion Teorema Gauss-Markov Inferencia
Ejemplo: Efecto de fumar sobre el peso de los recien nacidos
Supongamos que queremos testear la siguiente hipotesis: H0 : β4 = β5
test motheduc=fatheduc
scalar R2ur=e(r2) (guarda R2 ur )
gen mfeduc=matheduc+fatheduc
scalar F=(R2ur-R2r)/1/(1-R2ur)∗(e(N)-5-1) (estadstico F)
scalar pvalueF=Ftail(2,e(N)-5-1,F)(obtiene el p-valor) display "F statistic : " F
display "p-value : " pvalueF
Tomemos el ejemplo de retornos a la educacion en una ecuacion de Mincer. Como se imaginan, la educacion no es el unico determinante de los salarios. Otras variables que pueden afectar salarios son:
Edad
Experiencia
Por ejemplo, un modelo mas cercano a la realidad es:
wage = β0 + β1educ + β2exper + u
¿Cambia la interpretacion de los coeficientes? Ahora β1 es el efecto de educ sobre salarios, manteniendo exper constante.
Gabriel Montes-Rojas Regresion multiple
En el modelo
wage = γ0 + γ1educ + e,
si omitimos exper , y si educ y exper estan relacionadas, o sea exper(educ), entonces,
γ1 = ∂E [wage|educ ]
∂educ
¿Cual es el problema? Si no controlamos por exper, estaramos estimando un efecto de educ que no es el que queremos. Es el problema de variables omitidas que veremos mas adelante. Aparece el problema de la causalidad.
Gabriel Montes-Rojas Regresion multiple
wage = β0 + β1educ + β2exper + u
β1 = ∂E [wage|educ, exper ]
∂educ
Ahora β1 es el efecto de educ sobre wage, manteniendo exper constante. Incluyendo exper en el modelo, podemos medir el efecto de educ sin confundirlo con el efecto de exper.
Nota: En Economa esto se usa mucho: ceteris paribus, dejando todo lo demas constante.
Gabriel Montes-Rojas Regresion multiple
Regresion multiple
y = β0 + β1x1 + β2x2 + ... + βK xK + u
Tenemos K + 1 variables explicativas, incluyendo una constante, es decir, siempre con valor 1.
En notacion matricial tenemos x = (1, x1, x2, ..., xK ) que es un vector 1× (K + 1) y β = (β0, β1, ..., βK )
′ es un vector (K + 1)× 1, entonces
y = xβ + u
yi = x i β + ui
Gabriel Montes-Rojas Regresion multiple
Algebra de MCO El estimador de MCO es
βMCO = argmin b∈RK+1
N
(yi − b0 − b1x1i − ...− bK xKi ) 2
Para la minimizacion tomamos derivadas con respecto a b = (b0, b1, ..., bK ), lo cual nos da las siguientes condiciones de primer orden:
N
∑ i=1
xji (yi − β0 − β1x1i − ...− βK xKi ) = 0, j = 0, 1, 2, ...,K .
Al igual que con la regresion simple podemos pensar la solucion como un metodo de momentos:
Momentos en la poblacion E [xju] = E [xj (y − β0 − β1x1 − ...− βK xK )] = 0
j = 0, 1, 2, ...,K (donde x0 = 1 es una constante)
Momentos en la muestra (CPO de la minimizacion)
N−1 ∑N i=1 xji (yi − β0 − β1x1i − ...− βK xKi ) = 0
j = 0, 1, 2, ...,K
En ambos casos tenemos un sistema de ecuaciones con K + 1 ecuaciones y K + 1 parametros.
Gabriel Montes-Rojas Regresion multiple
Algebra de MCO
donde:
X es una matriz N × (K + 1), que contiene en cada una de las N filas la observacion i y en cada una de las (K + 1) columnas los parametros. Nota: x0i = 1 para todo i = 1, 2, ...,N;
y es un vector N × 1, que contiene la variable dependiente;
... as (X ′X ) es una matriz (K + 1)× (K + 1); ′ representa la transpuesta de una matriz;
... (X ′X )−1 es una matriz (K + 1)× (K + 1), la inversa de (X ′X );
... (X ′X )−1X ′y es un vector (K + 1)× 1.
Gabriel Montes-Rojas Regresion multiple
Algebra de MCO
X =
∑N i=1 x1i ∑N
i=1 x 2 1i . . . ∑N
i=1 x1ixKi ...
i=1 xKix1i . . . ∑N i=1 x
2 Ki
, X ′y =
.
La expresion para (X ′X )−1 requiere repasar como se calcula la inversa de una matriz.
MCO como ratio de sumatorias: Tambien se puede llegar a la siguiente expresion
muy util βMCO = (
)−1 ( ∑N
.
Ejercicio: Resolver analticamente para K = 1 (regresion simple) y K = 2 usando algebra matricial y luego resolviendo las condiciones de primer orden.
Gabriel Montes-Rojas Regresion multiple
Algebra de MCO
Prueba: Planteemos el problema de minimizacion como
βMCO = argmin b∈RK+1
u(b)′u(b) = argmin b∈RK+1)
(y −Xb)′(y −Xb)
] .
Estamos definiendo u(b) ≡ y −Xb. Tenemos que tomar derivadas con respecto a b ∈ RK+1, un vector (K + 1)× 1. La solucion es un vector (K + 1)× 1 de condiciones de primer orden (hay reglas especficas para derivar vectores y matrices). Entonces, 2X ′Xb− 2X ′y = 0K+1, donde 0K+1 es un vector (K + 1)× 1 de ceros. Finalmente, X ′y = X ′Xb,⇒ βMCO = (X ′X )−1X ′y . Hay que chequear tambien las condiciones de segundo orden (para mnimo). Tomando la segunda derivada tenemos, 2X ′X que es una matriz positiva semidefinida (chequear).
Gabriel Montes-Rojas Regresion multiple
Algebra de MCO
Otra forma de verlo es que las condiciones de momento se pueden expresar como:
X ′u(βMCO ) = X ′(y −X βMCO ) = 0K+1.
Entonces, X ′y = X ′X βMCO . Este es un sistema de ecuaciones lineales, no homogeneo. Para que tenga solucion los coeficientes de las ecuaciones, dados por X ′X , no pueden ser linealmente dependientes. O sea el determinante no puede ser cero. Entonces,
⇒ βMCO = (X ′X )−1X ′y .
Gabriel Montes-Rojas Regresion multiple
Teorema Gauss-Markov
Supuesto 1: Lineal en parametros La variable dependiente y se relaciona con x por una funcion lineal, y = β0 + β1x1 + ... + βK xK + u.
Supuesto 2: Muestreo aleatorio {(yi , x1i , ..., xKi )}, i = 1, 2, ...N es una muestra aleatoria del modelo del Supuesto 1.
Supuesto 3: Ausencia de colinealidad perfecta en X Para esto necesitamos que (X ′X ) sea no singular o rango(X ′X ) = K + 1 (notar que esto implica que (K + 1) ≤ N). Condicion necesaria y suficiente para esto es que no haya una relacion lineal exacta entre los regresores (no confundir con multicolinealidad en general).
Supuesto 4: Media condicional cero E [u|x ] = 0.
MCO es insesgado E [βj |x ] = βj , j = 0, 1, 2, ...,K o E [β|x ] = β donde β es el vector de todos los parametros. Prueba: E [βMCO |x ] = E [(X ′X )−1X ′y |x ] = E [(X ′X )−1X ′ (X β + u) |x ] = E [(X ′X )−1(X ′X )β|x ] + E [(X ′X )−1X ′u|x ] = β + (X ′X )−1X ′E [u|x ] = β. Especificar donde se usa cada supuesto explcitamente.
Gabriel Montes-Rojas Regresion multiple
Teorema Gauss-Markov
Supuesto 5: Homocedasticidad Var [u|x ] = σ2IN
Teorema Gauss-Markov: Bajo los Supuestos 1-5, los estimadores MCO (β0, β1, ..., βK ) son los mejores estimadores lineales insesgados (MELI) de (β0, β1, ..., βK ). Note: MEJOR significa mnima varianza dentro de la familia de estimadores lineales insesgados. En ingles es BLUE, best linear unbiased estimator.
Gabriel Montes-Rojas Regresion multiple
Varianza de MCO
En notacion matricial tenemos Var (β|x) = σ2(X ′X )−1
Prueba: Var (β|x) = Var [(X ′X )−1X ′y |x ] = (X ′X )−1X ′Var [y |x ]X (X ′X )−1 = (X ′X )−1X ′σ2X (X ′X )−1 = σ2(X ′X )−1X ′X (X ′X )−1 = σ2(X ′X )−1
Notar que Var (y |x) = Var (X β + u|x) = Var (y |x) = σ2IN por el supuesto de homocedasticidad. Definamos la matriz N ×N de varianzas y covarianzas de los errores como = Var (u|x) = E [uu ′ |x ] + E [u|x ]E [u ′ |X ] = E [uu ′ |x ] (¿por que?). juega un rol central para analizar la varianza. Con los supuestos de Gauss-Markov,
= E [uu ′ |x ] = E
u2
2 . . . u2uN . . .
.
.
.
.
.
. . . .
.
.
= σ2IN .
En general, para los estimadores MCO podemos escribir la varianza como una forma sandwich,
Var (β|x) = Var ((X ′X )−1X ′u|x) = E [(X ′X )−1X ′uu ′X (X ′X )−1 |x ]
= (X ′X )−1E [X ′uu ′X |x ](X ′X )−1 = (X ′X )−1X ′Var (u|x)X (X ′X )−1
Gabriel Montes-Rojas Regresion multiple
Regresion multiple Estimacion Teorema Gauss-Markov Inferencia
Teorema Gauss-Markov Ahora podemos probar el Teorema de Gauss-Markov. Un estimador lineal requiere que sea una combinacion lineal de los elementos de y . Esta restriccion no es necesaria de acuerdo al nuevo paper de Hansen (2022). Sin embargo, todos los estimadores
que podemos derivar facilmente cumplen con esta propiedad y no nos estamos perdiendo nada.
Definamos C = (X ′X )−1X ′ +D donde D es una matriz no nula (K + 1)×N, no estocastica (puede depender de x). Ahora definamos β = Cy como otro estimador (no necesariamente MCO, pero lineal).
E [β|x ] = E [Cy |x ] = E [C (X β + u)|x ] = β + E [DX β|x ] + E [Cu|x ]
= (IK+1 +DX )β.
Para que sea insesgado debemos tener DX = 0(K+1)×(K+1). Notar que
E [Cu|x ] = 0K×1. Ahora calculemos la varianza, siempre condicional en x ,
Var [β|x ] = Var [Cy |x ] = CVar (y |X )C ′ = σ2CC ′ = σ2((X ′X )−1X ′+D)((X ′X )−1X ′+D)′
= σ2(X ′X )−1 + σ2DD ′ = Var [βMCO |x ] + σ2DD ′.
Dado que DD ′ es una matriz positiva semidefinida, tenemos el resultado: Var [β|x ]−Var [βMCO |x ] es una matriz positiva semidefinida. Notar que solo MCO no tiene forma sandwich: (X ′X )−1 ×ALGO × (X ′X )−1. Esto es un punto central para detectar eficiencia.
Gabriel Montes-Rojas Regresion multiple
Teorema Gauss-Markov
Podemos plantear tambien una prueba constructiva. Ver Johnston y DiNardo (1996).
Gabriel Montes-Rojas Regresion multiple
Teorema Gauss-Markov
Teorema Gauss-Markov
Teorema Gauss-Markov
Bruce Hansen (2022) “A Modern Gauss-Markov Theorem”:
“The development of least squares and the Gauss-Markov Theorem involved a series of contributions from some of the most influential probabilists of the nineteenth thru early twentieth centuries. The method of least squares was introduced by Adrien Marie Legendre (1805) as essentially an algorithmic solution to the problem of fitting coefficients when there are more equations than unknowns. This was quickly followed by Carl Friedrich Gauss (1809), who provided a probabilistic foundation. Gauss proposed that the equation errors be treated as random variables, and showed that if their density takes the form we now call “normal” or “Gaussian” then the maximum likelihood estimator of the coefficient equals the least squares estimator. Shortly afterward, Pierre Simon Laplace (1811) justified this choice of density function by showing that his central limit theorem implied that linear estimators are approximately normally distributed in large samples, and that in this context the lowest variance estimator is the least squares estimator. Gauss (1823) synthesized these results and showed that the core result only relies on the first and second moments of the observations and holds in finite samples. Andrei Andreevich Markov (1912) provided a textbook treatment of the theorem, and clarified the central role of unbiasedness, which Gauss had only assumed implicitly. Finally, Alexander Aitken (1935) generalized the theorem to cover the case of arbitrary but known covariance matrices. This history, and other details, are documented in Plackett (1949) and Stigler (1986).”
Gabriel Montes-Rojas Regresion multiple
Teorema Gauss-Markov
Bruce Hansen (2022) “A Modern Gauss-Markov Theorem”: Un nuevo resultado en la econometra determina que MCO no solo es MELI (BLUE), sino tambien MEI (BUE). Es decir, no es necesario que sea “lineal”.
Gabriel Montes-Rojas Regresion multiple
Analisis de varianza
i=1(yi − y )2
⇒ Variacion total en y ; Var (y ) = N−1 ∑N i=1(yi − y )2
Suma de Cuadrados Explicados (SCE): ∑N i=1(yi − y )2
⇒ Variacion en y explicada por el modelo
Suma de Cuadrados Residuales (SCR): ∑N i=1(yi − yi )
2 = ∑N i=1 u
2 i
Gabriel Montes-Rojas Regresion multiple
R2
Definicion: El R − cuadrado o R2 de una regresion es la fraccion de la variacion en y que es explicada por X , el modelo lineal propuesto.
R2 = ∑N
= SCE/SCT = 1− SCR/SCT
0 ≤ R2 ≤ 1
Precaucion
Cuantas mas variables explicativas se usan en el modelo, mayor va ser el R2. ¿Por que? Las X s ayudan a explicar la variacion en y siempre, aun cuando sean irrelevantes.
Nunca hay que juzgar un modelo en base al R2.
Los valores de R2 dependen del tipo de problema y de la experiencia...
Gabriel Montes-Rojas Regresion multiple
R2 ajustado
Definicion: R2 o R2 ajustado es un estadstico como el R2 pero donde se penaliza por la inclusion de variables.
R2 = 1− SCR/(N −K − 1)
SCT/(N − 1)
¡Ahora perdemos la interpretacion de 0 ≤ R2 ≤ 1!
Nota: R2 se incrementa solo si la variable adicional tiene un valor t mayor a uno en valor absoluto. Se puede usar como criterio de seleccion.
Gabriel Montes-Rojas Regresion multiple
Varianza de MCO
Var (βj |x) = σ2
SCTj (1− R2 j )
donde SCTj = ∑N i=1(xji − xj )
2 es la variacion total en xj y R2 j es el R-cuadrado de una
regresion de xj en todas las otras variables (inluyendo el intercepto) {1, x1, ..., xj−1, xj+1, ..., xK }.
Gabriel Montes-Rojas Regresion multiple
Gabriel Montes-Rojas Regresion multiple
Contrastes de hipotesis simples
Tomemos la hipotesis nula H0 : βj = βj0, j = 0, 1, ...,K contra la hipotesis alternativa HA : βj 6= βj0
(si H0 : βj = 0 es verdad entonces no hay relacion lineal entre y con xj , luego de controlar por el efecto de las otras variables.)
Gabriel Montes-Rojas Regresion multiple
Contrastes de hipotesis simples
Bajo H0 : βj = βj0 y asumiendo que u ∼ Normal(0, σ2), tiene distribucion normal estandar, tenemos que
(βj − βj0)/se(βj ) ∼ tN−K
donde se(.) es error estandar (raz cuadrada de la varianza) y tN−K−1 es una distribucion t con grados de libertad N −K − 1.
¿De donde viene N −K − 1? De que tenemos N observaciones y estimamos K + 1 parametros. La variable aleatoria t − Student tiene colas mas anchas cuanto menos grados de libertad tiene. Por otro lado cuando los grados de libertad tienden a infinito, la distribucion t se vuelve igual a la normal/gaussiana.
Para obtener Var (β|X ) necesitamos un estimador de σ2, la varianza del error, la cual tambien necesita ser estimada.
σ2 = ∑N
N −K − 1
Gabriel Montes-Rojas Regresion multiple
Contrastes de hipotesis multiples
Se pueden contrastar hipotesis como H0 : β1 = 0, β2 = 0,
o como H0 : β1 = β2.
Estas hipotesis se contrastan con test F.
Gabriel Montes-Rojas Regresion multiple
Contrastes de hipotesis multiples
En general, si tenemos un modelo con K variables independientes (mas una constante), pero queremos testear por Q restricciones lineales (no perfectamente colineales entre s), se define ur (unrestricted model) modelo sin restricciones (K variables) r (restricted model) modelo con las restricciones (el modelo estimado satisfaciendo todas las Q restricciones) Entonces:
F = (R2
∼ F (Q,N −K − 1)
Gabriel Montes-Rojas Regresion multiple
Regresion multiple Estimacion Teorema Gauss-Markov Inferencia
Contraste para la significancia del modelo
Supongamos que nos interesa: H0 : β1 = ... = βK = 0 En este caso Q = K , el numero de restricciones es igual al numero de variables explicativas (excepto la constante). Entonces el estadstico F es:
F = R2/K
Gabriel Montes-Rojas Regresion multiple
Regresion multiple Estimacion Teorema Gauss-Markov Inferencia
Ejemplo: Efecto de fumar sobre el peso de los recien nacidos
Consideremos la siguiente regresion:
+β4motheduc+ β5fatheduc+ u
donde bwght: birth weight, in pounds; cigs: average number of cigarettes the mother smoked per day during pregnancy; parity: birth order of the child; faminc: annual family income; motheduc: years of schooling of the mother; fatheduc: years of schooling of the father.
Gabriel Montes-Rojas Regresion multiple
Regresion multiple Estimacion Teorema Gauss-Markov Inferencia
Ejemplo: Efecto de fumar sobre el peso de los recien nacidos
use http://fmwww.bc.edu/ec-p/data/wooldridge/bwght, clear
reg bwght cigs parity faminc motheduc fatheduc
STATA bwght Coef. Std. Err. t P > |t| cigs -.5959362 .1103479 -5.401 0.000
parity 1.787603 .6594055 2.711 0.007 faminc .0560414 .0365616 1.533 0.126
motheduc -.3704503 .3198551 -1.158 0.247 fatheduc .4723944 .2826433 1.671 0.095
cons 114.5243 3.728453 30.716 0.000
http://fmwww.bc.edu/gstat/examples/wooldridge/wooldridge4.html
Regresion multiple Estimacion Teorema Gauss-Markov Inferencia
Ejemplo: Efecto de fumar sobre el peso de los recien nacidos
Si quisieramos hacer un contraste de H0 : β4 = 0, β5 = 0
test motheduc fatheduc
F( 2, 1185) = 1.44 Prob > F = 0.2380
Gabriel Montes-Rojas Regresion multiple
Regresion multiple Estimacion Teorema Gauss-Markov Inferencia
Ejemplo: Efecto de fumar sobre el peso de los recien nacidos
El estadstico F se puede construir a mano:
reg bwght cigs parity faminc motheduc fatheduc
scalar R2ur=e(r2) (guarda R2 ur )
reg bwght cigs parity faminc if fatheduc∼=. scalar R2r=e(r2) (guarda R2
r )
∼ F (Q,N −K − 1)
display "p-value : " pvalueF
Regresion multiple Estimacion Teorema Gauss-Markov Inferencia
Ejemplo: Efecto de fumar sobre el peso de los recien nacidos
Supongamos que queremos testear la siguiente hipotesis: H0 : β4 = β5
test motheduc=fatheduc
scalar R2ur=e(r2) (guarda R2 ur )
gen mfeduc=matheduc+fatheduc
scalar F=(R2ur-R2r)/1/(1-R2ur)∗(e(N)-5-1) (estadstico F)
scalar pvalueF=Ftail(2,e(N)-5-1,F)(obtiene el p-valor) display "F statistic : " F
display "p-value : " pvalueF