Regresión Lineal Verificación de Supuestos Análisis de residuales.
Modelo de Regresión Lineal - Supuestos del modelo...hallagos y conclusiones obtenidas, dependen de...
Transcript of Modelo de Regresión Lineal - Supuestos del modelo...hallagos y conclusiones obtenidas, dependen de...
Modelo de Regresión LinealSupuestos del modelo
Álvaro José Flórez
1Escuela de EstadísticaFacultad de Ingenierías
Febrero - Junio 2012
Introducción
Y = β0 + β1X + εSupuestos:• Correcta especificación del modelo E(ε) = 0
E(Yj) = β0 + β1X
• Homogeneidad de varianza en los errores V ar(εj) = σ2
V ar(Yj) = σ2; j = 1, 2, ..., n
• No correlación de los errores
Cov(εi, εj) = 0 ∀i 6= j
• Distribución normal de los errores
ε ∼ Normal(0, σ2)
Introducción
El éxito en del ajuste de un modelo de regresión y la validez de loshallagos y conclusiones obtenidas, dependen de lo razonable de lassimplificaciones asociadas con los modelos usados, es decir, de lossupuestos del modelo.
La importancia de realizar procedimientos conducentes a validarlos supuestos, radica fundamentalmente en que ellos inciden en lascualidades de los estimadores de mínimos cuadrados (Behar, 2003).
Para esto hay dos enfoques:
• Enfoque Gráfico• Enfoque pruebas formales (pruebas de hipótesis)
Correcta especificación del modelo
E(εj) 6= 0 E(Y ) 6= β0 + β1X
Razones:1 Planteamiento equivocado de la relación entre Y y X (tratar
un modelo no lineal como si fuera lineal)2 Omisión de variables relevantes
Nota: La suma de los residuales siempre es igual a cero; sin importarsi el modelo está bien o mal especificado.
Correcta especificación del modelo
Caso donde se cumple el supuesto:
Figura: Gráfico de y vs x
●●
●●
●
●
●●
●
●
●●●
●
●●
●
●
●
●●●●
●●
●
●
●
●
●●●
●●
●●●
●●
●
●
●●
●
●
●
●●●
●●
●●
●●
●
●●
●●●
●
●
●
●
●
●
●●
●
●●
●
●●
●
●●
●
●●
●●
●
●
●
●
●
●
●●●●
●●
●
●●●
●
0 2 4 6 8 10
510
1520
2530
35
x
y
Figura: Gráfico de residuales vs yajustados
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
5 10 15 20 25 30 35
−4
−2
02
4
y
Res
idua
les
Correcta especificación del modelo
Caso donde no se cumple el supuesto:
Figura: Gráfico de y vs x
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
1 2 3 4 5
24
68
1012
x
y
Figura: Gráfico de residuales vs yajustados
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
3 4 5 6 7 8 9
−4
−2
02
4
y
Res
idua
les
Homogeneidad de varianza en los errores
Homocedasticidad se refiere al supuesto de que la variabledependiente (Y ) presenta una distribución con igual varianza en todoel rango de valores de la variable independiente (X).
Figura: Homocedasticidad vs Heterocedasticidad
Si no se cumple este supuesto los estimadores dejan de ser óptimos ylas pruebas estadísticas (ANOVA, pruebas t) e intervalos de confianzapierden validez (altera el nivel de confianza)
Homogeneidad de varianza en los errores
Homocedasticidad se refiere al supuesto de que la variabledependiente (Y ) presenta una distribución con igual varianza en todoel rango de valores de la variable independiente (X).
Figura: Homocedasticidad vs Heterocedasticidad
Si no se cumple este supuesto los estimadores dejan de ser óptimos ylas pruebas estadísticas (ANOVA, pruebas t) e intervalos de confianzapierden validez (altera el nivel de confianza)
Homogeneidad de varianza en los errores
Caso donde se cumple el supuesto:
Figura: Gráfico de y vs x
●●
●●
●
●
●●
●
●
●●●
●
●●
●
●
●
●●●●
●●
●
●
●
●
●●●
●●
●●●
●●
●
●
●●
●
●
●
●●●
●●
●●
●●
●
●●
●●●
●
●
●
●
●
●
●●
●
●●
●
●●
●
●●
●
●●
●●
●
●
●
●
●
●
●●●●
●●
●
●●●
●
0 2 4 6 8 10
510
1520
2530
35
x
y
Figura: Gráfico de residuales vs yajustados
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
5 10 15 20 25 30 35
−4
−2
02
4
y
Res
idua
les
Homogeneidad de varianza en los errores
Caso donde no se cumple el supuesto:
Figura: Gráfico de y vs x
●●●●●
●●
●
●●●●●●●●●
●
●●
●
●
●●●
●●●●
●
●
●
●
●
●
●
●●
●
●●●●●●●
●
●●●●
●
●
●
●
●
●
●●●
●●●●
●●
●
●
●
●
●
●
●●●●●●
●
●●
●●●
●●
●●
●
●
●●●
●
●
●
●●
●
●●
●
●●●
●
●●
●●●●
●
●
●
●●
●
●●●
●
●●●●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●●●
●
●●
●●
●
●
●●
●
●
●
●●●
●●
●●
●
●●
●
●●
●
●●●●
●●
●●●
●
●
●
●
●●
●●●●●●●●
●●
●●
●●●●
●
●
●●
●
●
●●
●●●●●
●
●
●
●●●
●●●●
●●
●●
●
●
●
●
●
●
●
●●
●●●●●
●
●
●
●
●●●●●●●●
●●●
●●
●
●●
●●
●
●●●
●
●
●●
●●
●
●
●●●
●
●●●
●
●●
●
●
●●
●
●●●●
●
●
●
●
●●
●●●
●
●●
●
●
●
●
●
●
●
●●●●
●
●
●●●●●
●●
●●
●
●
●●●
●●●
●
●●
●
●●
●
●
●
●
●●
●
●●
●
●
●●
●
●
●●●●●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●●
●
●
●
●
●●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●●
●
●
●●
●
●●
●
●●
●
●
●
●
●●
●●
●
●
●
●
●●
●
●
●
●
●●
●
●
●●
●●
●
●
●
●●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●●●●
●
●●
●
●
●●
●
●
●●
●
●●
●
●
●
●
●●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●●●
●●
●
●
●
●●●
●●
●
●
●
●●
●
●
●
●●
●●
●
●
●
●●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●●
●●
●●
●
●●
●●
●
●
●
●
●●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●●●
●●●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●●●●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●●●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●●
●●
●
●●●
●
●●
●●
●
●
●
●●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●●
●●
●
●
●
●●
●●
●
●
●
●●
●
●
●
●
●
●●●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●●
●
●
●
●
●
●
●
●●●
●
●●●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●●
●
●●●
●
●
●
●
●
●
●
●
●
1 2 3 4 5
1020
3040
5060
x
y
Figura: Gráfico de residuales vs yajustados
●
●
●
●●
●●
●
●
●●●
●
●●
●●
●
●●
●
●
●
●●
●●
●●
●
●
●
●
●
●
●
●
●
●
●●●
●
●●
●
●
●●●●
●
●
●
●
●
●
●
●●
●●●
●
●●
●
●
●
●
●
●
●●
●
●
●●
●
●●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●●
●
●●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●●
●
●●
●●
●
●
●●
●
●
●
●●●
●
●
●●
●
●●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●●
●●
●●
●
●
●●
●
●
●●
●●
●
●
●
●
●
●
●
●
●●
●
●●●●
●
●
●
●●●
●●●
●
●●
●●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●●●
●
●
●
●●
●●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●●
●
●
●
●●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●●
●
●
●●
●
●
●
●
●
●●
●
●
●●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●●
●
●
●●
●●
●
●
●
●●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●●
●
●
●●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
10 20 30 40 50
−10
−5
05
10
y
Res
idua
les
No correlación de los errores
Cov(εi, εj) 6= 0
Si no se cumple este supuesto los estimadores dejan de ser óptimos ylas pruebas estadísticas (ANOVA, pruebas t) e intervalos de confianzapierden validez (altera el nivel de confianza).
En las situaciones en las que se pueda garantizar que lasobservaciones yi, constituyen una muestra aleatoria (independientese idénticamente distribuidas), no existirá correlación de los errores, esdecir, que es posible controlar este aspecto, algunas ocasiones, conbase en el procedimiento de selección de la muestra (Behar, 2003).
El incumplimiento de este supuesto puede ocurrir cuando lasobservaciones se toman como se secuencia en el tiempo.
No correlación de los errores
Para observar si hay problemas de correlación de los errores se haceun gráfico de residuales vs tiempo de medición.
Figura: Correlación positiva
● ●
●
●
●●
●
●
●
●
●
●
●
● ● ●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●● ●
●
●
●
●
●
●
●●
●●
●
●
●
●
0 2 4 6 8 10
−2
−1
01
2
Tiempo
Res
idua
les
Figura: Correlación negativa
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
0 2 4 6 8 10
−2
−1
01
23
Tiempo
Res
idua
les
Normalidad de los errores
Se supone que cada observación viene de una distribución normalcentrada verticalmente en cada nivel (xi) del modelo asumido. (σ2)se asume igual para cada distribución normal
Y |X = x ∼ N(xβ, σ2) β ∼ N(β, σ2(X ′X)−1)
La normalidad de los errores permite la estimación por intervalos deconfianza no sólo para los coeficientes de regresión, sino también parala predicción. Permite el planteamiento de pruebas de hipótesis sobrelos parámetros del modelo. Cuando los errores no son normales, losintervalos y las pruebas de hipótesis no son exactas y pueden llegara ser inválidas (Behar, 2003).
Normalidad de los errores
Caso donde se cumple el supuesto:
Figura: Histograma de los residuales
residuales
dens
idad
−2 −1 0 1 2
0.0
0.1
0.2
0.3
0.4
Figura: qq-plot de los residuales
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
−2 −1 0 1 2
−1
01
2
Normal Q−Q Plot
Theoretical Quantiles
Sam
ple
Qua
ntile
s
Normalidad de los errores
Caso donde no se cumple el supuesto:
Figura: Histograma de los residuales
residuales
dens
idad
−4 −2 0 2 4 6
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
Figura: qq-plot de los residuales
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●●
●
●
●
−2 −1 0 1 2
−4
−2
02
4
Normal Q−Q Plot
Theoretical Quantiles
Sam
ple
Qua
ntile
s
Algunas pruebas formales
Homocedasticidad:Prueba de Goldfeld-Quant, prueba de White.
Incorrelación de los errores: (correlación temporal)Prueba de Durbin-Watson, prueba de rachas.
Normalidad de los errores:Prueba de Shapiro-Wilks, prueba de Anderson-Darling.
Algunos de estos supuestos se pueden corregir por medio detransformaciones en algunas de las variables (y o x). Otras soluciónal incumplimiento de los supuestos es el uso de mínimos cuadradosgeneralizados.
Bibliografía
Behar, R. (2003). Validación de supuestos en el modelo de regresión.Serie Monografías, Universidad del Valle, Cali, vol. 1 edition.
Draper, N. and Smith, H. (1998). Applied regression analysis. JohnWiley & Sons, New York, 3 edition.
Montgomery, D.C. Peck, E. and Vinning, G. (2002). Introducción alanálisis de regresión lineal. CECSA, Mexico, 3 edition.
Rawlings, J. O., Pantula, S., and Dickey, D. (1998). AppliedRegression Analyisis: A Research Tool. Springer-Verlag, New York,2 edition.