Regresión múltiple - UC3Mhalweb.uc3m.es/.../emolanes/esp/archivos/EstII/Reg-multiple.pdfAjuste por...

24
Regresión múltiple Demostraciones Elisa Mª Molanes López

Transcript of Regresión múltiple - UC3Mhalweb.uc3m.es/.../emolanes/esp/archivos/EstII/Reg-multiple.pdfAjuste por...

Page 1: Regresión múltiple - UC3Mhalweb.uc3m.es/.../emolanes/esp/archivos/EstII/Reg-multiple.pdfAjuste por mínimos cuadrados e i = y i −yˆ i = y i −(βˆ0 +βˆ1x1i +βˆ2x2i +...βˆ

Regresión múltiple

Demostraciones

Elisa Mª Molanes López

Page 2: Regresión múltiple - UC3Mhalweb.uc3m.es/.../emolanes/esp/archivos/EstII/Reg-multiple.pdfAjuste por mínimos cuadrados e i = y i −yˆ i = y i −(βˆ0 +βˆ1x1i +βˆ2x2i +...βˆ

El modelo de regresión múltipleEl modelo que se plantea en regresión múltiple es el siguiente:

donde son las variables independientes o explicativas.

La variable respuesta depende de las variables explicativas y de unacomponente de error que se distribuye según una normal:

El ajuste del modelo se realiza por el método de máxima verosimilitud o el método de mínimos cuadrados. En el caso de distribución normal de errores, ambos métodos coinciden, como ya se vió en regresión simple.

yi = β0 + β1x1i + β2x2i + . . .+ βkxki + ui

x1, x2, . . . , xk

ui = N(0,σ2)

Page 3: Regresión múltiple - UC3Mhalweb.uc3m.es/.../emolanes/esp/archivos/EstII/Reg-multiple.pdfAjuste por mínimos cuadrados e i = y i −yˆ i = y i −(βˆ0 +βˆ1x1i +βˆ2x2i +...βˆ

El modelo de regresión múltipleEl valor que el modelo estimado predice para la observación i-ésima es:

yi = β0 + β1x1i + β2x2i + . . .+ βkxki

y el error cometido en esa predicción es:

ei = yi − yi = yi − (β0 + β1x1i + β2x2i + . . . βkxki)

donde son los valores estimados del modelo.β0, β1, . . . , βk

El criterio de mínimos cuadrados asigna a el valor queminimiza la suma de errores al cuadrado de todas las observaciones.

β0, β1, . . . , βk

Page 4: Regresión múltiple - UC3Mhalweb.uc3m.es/.../emolanes/esp/archivos/EstII/Reg-multiple.pdfAjuste por mínimos cuadrados e i = y i −yˆ i = y i −(βˆ0 +βˆ1x1i +βˆ2x2i +...βˆ

Notación

Y =

⎛⎜⎜⎜⎝y1y2...yn

⎞⎟⎟⎟⎠Y =

⎛⎜⎜⎜⎝y1y2...yn

⎞⎟⎟⎟⎠ e =

⎛⎜⎜⎜⎝e1e2...en

⎞⎟⎟⎟⎠

X es la denominada matriz de diseño, de dimensión n x (k+1)

X =

⎛⎜⎜⎜⎝1 x11 x21 · · · xk11 x12 x22 · · · xk2...

......

. . ....

1 x1n x2n · · · xkn

⎞⎟⎟⎟⎠=³~1, ~X1, ~X2, . . . , ~Xk , siendo ~Xj =

⎛⎜⎜⎜⎝xj1xj2...xjn

⎞⎟⎟⎟⎠

β =

⎛⎜⎜⎜⎝β0β1...βk

⎞⎟⎟⎟⎠ β =

⎛⎜⎜⎜⎝β0β1...

βk

⎞⎟⎟⎟⎠

Page 5: Regresión múltiple - UC3Mhalweb.uc3m.es/.../emolanes/esp/archivos/EstII/Reg-multiple.pdfAjuste por mínimos cuadrados e i = y i −yˆ i = y i −(βˆ0 +βˆ1x1i +βˆ2x2i +...βˆ

Forma matricial del modelo

La expresión matricial del modelo de regresión múltiple es la siguiente:

El modelo estimado también puede expresarse en forma matricial:

Y = Xβ + U

Y = Xβ

Y − Y = e

Page 6: Regresión múltiple - UC3Mhalweb.uc3m.es/.../emolanes/esp/archivos/EstII/Reg-multiple.pdfAjuste por mínimos cuadrados e i = y i −yˆ i = y i −(βˆ0 +βˆ1x1i +βˆ2x2i +...βˆ

Ajuste por mínimos cuadradosei = yi − yi = yi − (β0 + β1x1i + β2x2i + . . . βkxki)

Son los parámetros estimados del modelo

Como en regresión simple, el criterio de mínimos cuadrados asigna a los parámetros del modelo el valor que minimiza la suma de errores al cuadrado de todas las observaciones.

La suma de errores al cuadrado es S:

S =Pn

i=1 e2i =

Pni=1

³yi − (β0 + β1x1i + β2x2i + . . .+ βkxki)

´2

Page 7: Regresión múltiple - UC3Mhalweb.uc3m.es/.../emolanes/esp/archivos/EstII/Reg-multiple.pdfAjuste por mínimos cuadrados e i = y i −yˆ i = y i −(βˆ0 +βˆ1x1i +βˆ2x2i +...βˆ

∂S∂β = −XTY −XTY + 2(XTX)β

→XTY = (XTX)β

Ajuste por mínimos cuadradosAl igual que en regresión simple, la estrategia que seguimos paracalcular el mínimo de S es:

• derivar S con respecto a los parámetros,

• igualar a cero cada derivada,

• y resolver el sistema de ecuaciones que resulta (y en el que lasincógnitas vienen dadas por los k+1 parámetros que queremos estimar).

En términos matriciales, resulta que:

Así que, β = (XTX)−1XTY

Es una matriz simétrica, de dimensión (k+1)x(k+1)

Su rango debe ser máximopara ser invertible, es decir:

rango(XTX) = k + 1

Den

ota

trasp

uest

ade

una

mat

riz

Teniendo en cuenta que: ∂xT a∂a = x ∂aTXa

∂a = 2Xa

Page 8: Regresión múltiple - UC3Mhalweb.uc3m.es/.../emolanes/esp/archivos/EstII/Reg-multiple.pdfAjuste por mínimos cuadrados e i = y i −yˆ i = y i −(βˆ0 +βˆ1x1i +βˆ2x2i +...βˆ

Que el es equivalente a pedir que ninguna de lasvariables explicativas se pueda escribir como combinación lineal de las demás.

Ajuste por mínimos cuadradosrango(XTX) = k + 1

Son las ecuaciones normales de la regresión

De ellas se deduce que:

Los errores de predicciónsuman cero

Pni=1 ei = 0

La covarianza entre los erroresde predicción y cada variable explicativa es cero

Pni=1 eixij = 0, j = 1, . . . , k

∂S∂β = −2XTY + 2(XTX)β = ~0

Page 9: Regresión múltiple - UC3Mhalweb.uc3m.es/.../emolanes/esp/archivos/EstII/Reg-multiple.pdfAjuste por mínimos cuadrados e i = y i −yˆ i = y i −(βˆ0 +βˆ1x1i +βˆ2x2i +...βˆ

Ajuste por mínimos cuadrados

Un estimador razonable es, en principio, la varianza de los errores de predicción(también conocidos con el nombre de residuos del modelo):

Al igual que en regresión simple, ahora necesitamos estimar la varianza, , del error aleatorio U

σ2

σ2 = 1ne

T e = 1n

Pni=1 e

2i

Sin embargo, este estimador es sesgado para , lo que significa que: σ2

El sesgo se define como la diferencia entre la media del estimadory el verdadero valor del parámetro que se quiere estimar.

Usaremos, por tanto, la varianza residual para estimar , que sí es un estimadorinsesgado de , es decir, centrado en torno a

σ2

σ2 σ2

s2R =1

n−(k+1)Pni=1 e

2i

E(σ2) = σ2

Page 10: Regresión múltiple - UC3Mhalweb.uc3m.es/.../emolanes/esp/archivos/EstII/Reg-multiple.pdfAjuste por mínimos cuadrados e i = y i −yˆ i = y i −(βˆ0 +βˆ1x1i +βˆ2x2i +...βˆ

Relaciones entre las variablesβ = (XTX)−1XTY

Y = Xβ = X(XTX)−1XTY = HY

A esta matriz le vamos a llamar H y se le conoce con el nombre de matriz de proyección.

Este nombre quedará justificado una vez veamos la interpretación geométricade la estimación.

Las propiedades de la matriz H son las siguientes:

• Es idempotente: HH = H

• Es simétrica: HT = H

• Tiene el mismo rango que X: (k+1)

Page 11: Regresión múltiple - UC3Mhalweb.uc3m.es/.../emolanes/esp/archivos/EstII/Reg-multiple.pdfAjuste por mínimos cuadrados e i = y i −yˆ i = y i −(βˆ0 +βˆ1x1i +βˆ2x2i +...βˆ

Relaciones entre las variablesEs sencillo ver que el error de predicción se puede escribir en forma matricial en términos de H

e = Y − Y = Y −HY = (I −H)Y

La expresión , indica que la matriz (la cual es idempotente), transforma el vector de observaciones en el vector de valores ajustados(o predicciones)

HY

Y

Y = HY

Una matriz idempotente realiza una proyección, por lo que la regresión va a ser una proyección.Para entender mejor cómo es esa proyección, vamos a estudiar lasrelaciones existentes entre e .e, Y Y

Page 12: Regresión múltiple - UC3Mhalweb.uc3m.es/.../emolanes/esp/archivos/EstII/Reg-multiple.pdfAjuste por mínimos cuadrados e i = y i −yˆ i = y i −(βˆ0 +βˆ1x1i +βˆ2x2i +...βˆ

Relaciones entre las variablesEl vector de residuos es perpendicular al vector de valores ajustados y a la matriz de diseño. Veámoslo:

e⊥Y

e⊥X

eT Y = [(I −H)Y ]THY = Y T (I −H)HY = Y THY − Y THHY = 0

eTX = [(I −H)Y ]TX = Y T (I −H)X = Y T (X −X(XTX)−1XTX) = 0

Así que el modelo de regresión proyecta el vector de observaciones sobreel subespacio vectorial de las columnas de la matriz (es decir el subespacio de lasvariables independientes).

El vector de residuos es perpendicular a cada columna de y al vector de predicción

Y = HYX

X Y

Page 13: Regresión múltiple - UC3Mhalweb.uc3m.es/.../emolanes/esp/archivos/EstII/Reg-multiple.pdfAjuste por mínimos cuadrados e i = y i −yˆ i = y i −(βˆ0 +βˆ1x1i +βˆ2x2i +...βˆ

Interpretación geométricaEn el espacio formado por las variables, el método de mínimos cuadrados equivale a encontrar un vector en dicho espacio que esté lo más próximo posible al vector deobservaciones.

Subespacio vectorial generado por la columnas de X.

Es decir, por los vectores columna de las variables explicativas

Vector de observaciones Y e Vector de residuos

Esp(X) Vector de valores ajustados. Está en Esp(X)

Y

es la proyección ortogonal de sobre dicho espacioY Y

Page 14: Regresión múltiple - UC3Mhalweb.uc3m.es/.../emolanes/esp/archivos/EstII/Reg-multiple.pdfAjuste por mínimos cuadrados e i = y i −yˆ i = y i −(βˆ0 +βˆ1x1i +βˆ2x2i +...βˆ

Distribución de ββ = (XTX)−1XTY

Le llamaremos matriz

Sabemos que el vector de observaciones se distribuye según una normal multivariante de media

y de matriz de varianzas covarianzas

σ2In

A

Y

Y ∼ Nn(Xβ,σ2In)β es una combinación lineal de las componentes del vector , así que

también se distribuye según una variable aleatoria normal.

Y

β

A continuación, calcularemos su media y matriz de varianzas y covarianzas

Page 15: Regresión múltiple - UC3Mhalweb.uc3m.es/.../emolanes/esp/archivos/EstII/Reg-multiple.pdfAjuste por mínimos cuadrados e i = y i −yˆ i = y i −(βˆ0 +βˆ1x1i +βˆ2x2i +...βˆ

Distribución de βE³β´= E

¡(XTX)−1XTY

¢= (XTX)−1XTE(Y ) = (XTX)−1XTXβ = β

β es un estimador centrado de β

V ar(β) = V ar(AY ) = A · V ar(Y ) ·AT = (XTX)−1XTV ar(Y )X(XTX)−1

= (XTX)−1XTσ2X(XTX)−1 = σ2(XTX)−1

β ∼ Nk+1(β,σ2(XTX)−1)

βi ∼ N(βi,σ2qii)qii es el elemento i-ésimo de la diagonal de la matriz (XTX)−1

Page 16: Regresión múltiple - UC3Mhalweb.uc3m.es/.../emolanes/esp/archivos/EstII/Reg-multiple.pdfAjuste por mínimos cuadrados e i = y i −yˆ i = y i −(βˆ0 +βˆ1x1i +βˆ2x2i +...βˆ

βDistribución de La estimación de la hacíamos a través de la varianza residual σ2

De manera que, estimaremos la varianza de medianteβi ∼ N(βi,σ2qii)

s2R =1

n−(k+1)Pni=1 e

2i

s2Rqii

La raíz cuadrada de nos da el error estándar de s2Rqii βi

Se puede demostrar que: (n−k−1)s2Rσ2 ∼ χ2n−k−1

SE(βi) =ps2Rqii = sR

√qii

Page 17: Regresión múltiple - UC3Mhalweb.uc3m.es/.../emolanes/esp/archivos/EstII/Reg-multiple.pdfAjuste por mínimos cuadrados e i = y i −yˆ i = y i −(βˆ0 +βˆ1x1i +βˆ2x2i +...βˆ

El valor de t va a contrastar si , (hipóteis nula, H0) frente a la hipótesisalternativa ( ), es decir si el valor de este parámetro en la población esrealmente cero o no.

Contraste tHemos visto que: βi ∼ N(βi,σ2qii). Por tanto, estandarizando, se obtiene que:

βi−βiσ√qii∼ N(0, 1)

Una variable t de Student con k grados de libertad se define así: tk =N(0,1)√

1kχ

2k

βi = 0

De ser cierta esta hipótesis, entonces la variable Xi no influiría sobra la variable respuesta Y.

βi = 0

t =βi−βiσ√qiir

1n−k−1

(n−k−1)s2R

σ2

= βi−βisR√qii∼ tn−k−1

Page 18: Regresión múltiple - UC3Mhalweb.uc3m.es/.../emolanes/esp/archivos/EstII/Reg-multiple.pdfAjuste por mínimos cuadrados e i = y i −yˆ i = y i −(βˆ0 +βˆ1x1i +βˆ2x2i +...βˆ

Contraste tSabemos que:

Ahora, bajo la hipótesis nula (H0), sabemos que βi = 0

bajo H0t = βisR√qii= βi

SE(β1)∼ tn−k−1

Así que, si se cumple H0, el valor de t debe provenir de una tn-k-1.

Para n>30 la distribución tn-k-1 deja una probabilidad del 95% en el intervalo [-2,2].

Si |t|>2, se rechaza la hipótesis nula y diremos que la variable i-ésima influye en la respuesta.

t = βi−βisR√qii∼ tn−k−1

Page 19: Regresión múltiple - UC3Mhalweb.uc3m.es/.../emolanes/esp/archivos/EstII/Reg-multiple.pdfAjuste por mínimos cuadrados e i = y i −yˆ i = y i −(βˆ0 +βˆ1x1i +βˆ2x2i +...βˆ

Intervalos de confianzaSabemos que:

Así que, podemos afirmar que:

P (−tα/2 ≤ βi−βiSE(βi)

≤ tα/2) = 1− α

P (βi − tα/2SE(βi) ≤ βi ≤ βi + tα/2SE(βi)) = 1− α

Con confianza ,1− α βi ∈ βi ± tα/2SE(βi)Cuando n>30 y el intervalo se convierte en: α = 0.05 βi ∈ βi ± 2SE(βi)

t = βi−βiSE(βi)

∼ tn−k−1

Page 20: Regresión múltiple - UC3Mhalweb.uc3m.es/.../emolanes/esp/archivos/EstII/Reg-multiple.pdfAjuste por mínimos cuadrados e i = y i −yˆ i = y i −(βˆ0 +βˆ1x1i +βˆ2x2i +...βˆ

Descomposición de variabilidadVamos a comenzar descomponiendo la variabilidad total de Y:

V T =Pn

i=1(yi − y)2

V T =Pn

i=1(yi − y)2 =Pn

i=1(yi − y)2 +Pn

i=1 e2i +

Pni=1 2(yi − y)ei

V T = V E + V NE Por las ecuaciones normales, este término vale cero.

yi = yi + ei → (yi − y)2 = ((yi − y) + ei)2 = (yi − y)2 + e2i + 2(yi − y)ei

Page 21: Regresión múltiple - UC3Mhalweb.uc3m.es/.../emolanes/esp/archivos/EstII/Reg-multiple.pdfAjuste por mínimos cuadrados e i = y i −yˆ i = y i −(βˆ0 +βˆ1x1i +βˆ2x2i +...βˆ

Definimos, el coef. de determinación corregido por grados de libertad para evitareste problema

Coef. de determinación y coef. de determinación corregido por g.l.

R2 x100 proporciona el porcentaje de variabilidad de Y queexplica el modelo de regresión ajustado.

El coef. de determinación así definido presenta el inconveniente de que al incluir nuevas variables en el modelo aumenta su valor, incluso cuando éstasno resultan significativas.

Este problema hace que R2 no sea un válido como criterio para decidir quévariables explicativas deben ser incluidas o excluidas en el modelo final.

R2 = V EV T

R2 = 1− (1−R2) n−1n−k−1 = 1− (V NEV T ) n−1

n−k−1 = 1− V NE/(n−k−1)V T/(n−1)

Page 22: Regresión múltiple - UC3Mhalweb.uc3m.es/.../emolanes/esp/archivos/EstII/Reg-multiple.pdfAjuste por mínimos cuadrados e i = y i −yˆ i = y i −(βˆ0 +βˆ1x1i +βˆ2x2i +...βˆ

Contraste de regresión FEste contraste, sirve en regresión múltiple para comprobar si el modelo explicauna parte significativa de la variabilidad de Y

Se puede demostrar que si β1 = β2 = . . . = βk = 0 el cociente

se distribuye según una distribución F de Snedecor con (k, n-k-1) g.l.

V E/kV NE/n−k−1 =

Pni=1(yi−y)2

kPni=1

e2i

n−k−1∼ Fk,n−k−1

Page 23: Regresión múltiple - UC3Mhalweb.uc3m.es/.../emolanes/esp/archivos/EstII/Reg-multiple.pdfAjuste por mínimos cuadrados e i = y i −yˆ i = y i −(βˆ0 +βˆ1x1i +βˆ2x2i +...βˆ

Tabla ANOVA

n-1Total

n-k-1ResidualVNE

kExplicada por los regresores VE

Test FVarianza

(cuadrado medio)

Grados deLibertad

(g.l)

Suma deCuadrados

(SC)

Fuentes devariación

En dicha tabla se descompone la variabilidad de la respuesta en función de la variabilidad explicada y no explicada por la regresión ajustada.

También se obtiene el valor del estadístico de contraste F

Pni=1(yi − y)2

Pni=1(yi − yi)2

Pni=1(yi − y)2

s2es2R

s2e

s2R

S2y

Cuadrado medio = SC/g.l.

Page 24: Regresión múltiple - UC3Mhalweb.uc3m.es/.../emolanes/esp/archivos/EstII/Reg-multiple.pdfAjuste por mínimos cuadrados e i = y i −yˆ i = y i −(βˆ0 +βˆ1x1i +βˆ2x2i +...βˆ

Contraste de regresión FH0 : β1 = β2 = . . . = βk = 0

para al menos un jH1 : βj = 0

s2es2R

Fk,n−k−1 =Rechazo

No rechazo