Modelo de Regresión Lineal - Supuestos del modelo...hallagos y conclusiones obtenidas, dependen de...

17
Modelo de Regresión Lineal Supuestos del modelo Álvaro José Flórez 1 Escuela de Estadística Facultad de Ingenierías Febrero - Junio 2012

Transcript of Modelo de Regresión Lineal - Supuestos del modelo...hallagos y conclusiones obtenidas, dependen de...

Page 1: Modelo de Regresión Lineal - Supuestos del modelo...hallagos y conclusiones obtenidas, dependen de lo razonable de las simplificaciones asociadas con los modelos usados, es decir,

Modelo de Regresión LinealSupuestos del modelo

Álvaro José Flórez

1Escuela de EstadísticaFacultad de Ingenierías

Febrero - Junio 2012

Page 2: Modelo de Regresión Lineal - Supuestos del modelo...hallagos y conclusiones obtenidas, dependen de lo razonable de las simplificaciones asociadas con los modelos usados, es decir,

Introducción

Y = β0 + β1X + εSupuestos:• Correcta especificación del modelo E(ε) = 0

E(Yj) = β0 + β1X

• Homogeneidad de varianza en los errores V ar(εj) = σ2

V ar(Yj) = σ2; j = 1, 2, ..., n

• No correlación de los errores

Cov(εi, εj) = 0 ∀i 6= j

• Distribución normal de los errores

ε ∼ Normal(0, σ2)

Page 3: Modelo de Regresión Lineal - Supuestos del modelo...hallagos y conclusiones obtenidas, dependen de lo razonable de las simplificaciones asociadas con los modelos usados, es decir,

Introducción

El éxito en del ajuste de un modelo de regresión y la validez de loshallagos y conclusiones obtenidas, dependen de lo razonable de lassimplificaciones asociadas con los modelos usados, es decir, de lossupuestos del modelo.

La importancia de realizar procedimientos conducentes a validarlos supuestos, radica fundamentalmente en que ellos inciden en lascualidades de los estimadores de mínimos cuadrados (Behar, 2003).

Para esto hay dos enfoques:

• Enfoque Gráfico• Enfoque pruebas formales (pruebas de hipótesis)

Page 4: Modelo de Regresión Lineal - Supuestos del modelo...hallagos y conclusiones obtenidas, dependen de lo razonable de las simplificaciones asociadas con los modelos usados, es decir,

Correcta especificación del modelo

E(εj) 6= 0 E(Y ) 6= β0 + β1X

Razones:1 Planteamiento equivocado de la relación entre Y y X (tratar

un modelo no lineal como si fuera lineal)2 Omisión de variables relevantes

Nota: La suma de los residuales siempre es igual a cero; sin importarsi el modelo está bien o mal especificado.

Page 5: Modelo de Regresión Lineal - Supuestos del modelo...hallagos y conclusiones obtenidas, dependen de lo razonable de las simplificaciones asociadas con los modelos usados, es decir,

Correcta especificación del modelo

Caso donde se cumple el supuesto:

Figura: Gráfico de y vs x

●●

●●

●●

●●●

●●

●●●●

●●

●●●

●●

●●●

●●

●●

●●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●●●

●●

●●●

0 2 4 6 8 10

510

1520

2530

35

x

y

Figura: Gráfico de residuales vs yajustados

●●

●●

●●

●●●

●●●

●●

●●

●●●

5 10 15 20 25 30 35

−4

−2

02

4

y

Res

idua

les

Page 6: Modelo de Regresión Lineal - Supuestos del modelo...hallagos y conclusiones obtenidas, dependen de lo razonable de las simplificaciones asociadas con los modelos usados, es decir,

Correcta especificación del modelo

Caso donde no se cumple el supuesto:

Figura: Gráfico de y vs x

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

1 2 3 4 5

24

68

1012

x

y

Figura: Gráfico de residuales vs yajustados

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

3 4 5 6 7 8 9

−4

−2

02

4

y

Res

idua

les

Page 7: Modelo de Regresión Lineal - Supuestos del modelo...hallagos y conclusiones obtenidas, dependen de lo razonable de las simplificaciones asociadas con los modelos usados, es decir,

Homogeneidad de varianza en los errores

Homocedasticidad se refiere al supuesto de que la variabledependiente (Y ) presenta una distribución con igual varianza en todoel rango de valores de la variable independiente (X).

Figura: Homocedasticidad vs Heterocedasticidad

Si no se cumple este supuesto los estimadores dejan de ser óptimos ylas pruebas estadísticas (ANOVA, pruebas t) e intervalos de confianzapierden validez (altera el nivel de confianza)

Page 8: Modelo de Regresión Lineal - Supuestos del modelo...hallagos y conclusiones obtenidas, dependen de lo razonable de las simplificaciones asociadas con los modelos usados, es decir,

Homogeneidad de varianza en los errores

Homocedasticidad se refiere al supuesto de que la variabledependiente (Y ) presenta una distribución con igual varianza en todoel rango de valores de la variable independiente (X).

Figura: Homocedasticidad vs Heterocedasticidad

Si no se cumple este supuesto los estimadores dejan de ser óptimos ylas pruebas estadísticas (ANOVA, pruebas t) e intervalos de confianzapierden validez (altera el nivel de confianza)

Page 9: Modelo de Regresión Lineal - Supuestos del modelo...hallagos y conclusiones obtenidas, dependen de lo razonable de las simplificaciones asociadas con los modelos usados, es decir,

Homogeneidad de varianza en los errores

Caso donde se cumple el supuesto:

Figura: Gráfico de y vs x

●●

●●

●●

●●●

●●

●●●●

●●

●●●

●●

●●●

●●

●●

●●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●●●

●●

●●●

0 2 4 6 8 10

510

1520

2530

35

x

y

Figura: Gráfico de residuales vs yajustados

●●

●●

●●

●●●

●●●

●●

●●

●●●

5 10 15 20 25 30 35

−4

−2

02

4

y

Res

idua

les

Page 10: Modelo de Regresión Lineal - Supuestos del modelo...hallagos y conclusiones obtenidas, dependen de lo razonable de las simplificaciones asociadas con los modelos usados, es decir,

Homogeneidad de varianza en los errores

Caso donde no se cumple el supuesto:

Figura: Gráfico de y vs x

●●●●●

●●

●●●●●●●●●

●●

●●●

●●●●

●●

●●●●●●●

●●●●

●●●

●●●●

●●

●●●●●●

●●

●●●

●●

●●

●●●

●●

●●

●●●

●●

●●●●

●●

●●●

●●●●

●●

●●

●●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●●●

●●

●●●

●●

●●●●●●●●

●●

●●

●●●●

●●

●●

●●●●●

●●●

●●●●

●●

●●

●●

●●●●●

●●●●●●●●

●●●

●●

●●

●●

●●●

●●

●●

●●●

●●●

●●

●●

●●●●

●●

●●●

●●

●●●●

●●●●●

●●

●●

●●●

●●●

●●

●●

●●

●●

●●

●●●●●

●●●

●●

●●●

●●

●●

●●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●●

●●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●●●

●●

●●

●●●

●●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●●

●●

●●

●●

●●●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●●

●●●

●●

●●●

●●●●

●●

●●

●●

●●

●●●

1 2 3 4 5

1020

3040

5060

x

y

Figura: Gráfico de residuales vs yajustados

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●●

●●●

●●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●●●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

10 20 30 40 50

−10

−5

05

10

y

Res

idua

les

Page 11: Modelo de Regresión Lineal - Supuestos del modelo...hallagos y conclusiones obtenidas, dependen de lo razonable de las simplificaciones asociadas con los modelos usados, es decir,

No correlación de los errores

Cov(εi, εj) 6= 0

Si no se cumple este supuesto los estimadores dejan de ser óptimos ylas pruebas estadísticas (ANOVA, pruebas t) e intervalos de confianzapierden validez (altera el nivel de confianza).

En las situaciones en las que se pueda garantizar que lasobservaciones yi, constituyen una muestra aleatoria (independientese idénticamente distribuidas), no existirá correlación de los errores, esdecir, que es posible controlar este aspecto, algunas ocasiones, conbase en el procedimiento de selección de la muestra (Behar, 2003).

El incumplimiento de este supuesto puede ocurrir cuando lasobservaciones se toman como se secuencia en el tiempo.

Page 12: Modelo de Regresión Lineal - Supuestos del modelo...hallagos y conclusiones obtenidas, dependen de lo razonable de las simplificaciones asociadas con los modelos usados, es decir,

No correlación de los errores

Para observar si hay problemas de correlación de los errores se haceun gráfico de residuales vs tiempo de medición.

Figura: Correlación positiva

● ●

●●

● ● ●

●●

●● ●

●●

●●

0 2 4 6 8 10

−2

−1

01

2

Tiempo

Res

idua

les

Figura: Correlación negativa

●●

0 2 4 6 8 10

−2

−1

01

23

Tiempo

Res

idua

les

Page 13: Modelo de Regresión Lineal - Supuestos del modelo...hallagos y conclusiones obtenidas, dependen de lo razonable de las simplificaciones asociadas con los modelos usados, es decir,

Normalidad de los errores

Se supone que cada observación viene de una distribución normalcentrada verticalmente en cada nivel (xi) del modelo asumido. (σ2)se asume igual para cada distribución normal

Y |X = x ∼ N(xβ, σ2) β ∼ N(β, σ2(X ′X)−1)

La normalidad de los errores permite la estimación por intervalos deconfianza no sólo para los coeficientes de regresión, sino también parala predicción. Permite el planteamiento de pruebas de hipótesis sobrelos parámetros del modelo. Cuando los errores no son normales, losintervalos y las pruebas de hipótesis no son exactas y pueden llegara ser inválidas (Behar, 2003).

Page 14: Modelo de Regresión Lineal - Supuestos del modelo...hallagos y conclusiones obtenidas, dependen de lo razonable de las simplificaciones asociadas con los modelos usados, es decir,

Normalidad de los errores

Caso donde se cumple el supuesto:

Figura: Histograma de los residuales

residuales

dens

idad

−2 −1 0 1 2

0.0

0.1

0.2

0.3

0.4

Figura: qq-plot de los residuales

●●

●●

●●

●●

●●

●●

●●

●●

●●

−2 −1 0 1 2

−1

01

2

Normal Q−Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

Page 15: Modelo de Regresión Lineal - Supuestos del modelo...hallagos y conclusiones obtenidas, dependen de lo razonable de las simplificaciones asociadas con los modelos usados, es decir,

Normalidad de los errores

Caso donde no se cumple el supuesto:

Figura: Histograma de los residuales

residuales

dens

idad

−4 −2 0 2 4 6

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

Figura: qq-plot de los residuales

●●

●●

●●

●●

●●

●●●

−2 −1 0 1 2

−4

−2

02

4

Normal Q−Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

Page 16: Modelo de Regresión Lineal - Supuestos del modelo...hallagos y conclusiones obtenidas, dependen de lo razonable de las simplificaciones asociadas con los modelos usados, es decir,

Algunas pruebas formales

Homocedasticidad:Prueba de Goldfeld-Quant, prueba de White.

Incorrelación de los errores: (correlación temporal)Prueba de Durbin-Watson, prueba de rachas.

Normalidad de los errores:Prueba de Shapiro-Wilks, prueba de Anderson-Darling.

Algunos de estos supuestos se pueden corregir por medio detransformaciones en algunas de las variables (y o x). Otras soluciónal incumplimiento de los supuestos es el uso de mínimos cuadradosgeneralizados.

Page 17: Modelo de Regresión Lineal - Supuestos del modelo...hallagos y conclusiones obtenidas, dependen de lo razonable de las simplificaciones asociadas con los modelos usados, es decir,

Bibliografía

Behar, R. (2003). Validación de supuestos en el modelo de regresión.Serie Monografías, Universidad del Valle, Cali, vol. 1 edition.

Draper, N. and Smith, H. (1998). Applied regression analysis. JohnWiley & Sons, New York, 3 edition.

Montgomery, D.C. Peck, E. and Vinning, G. (2002). Introducción alanálisis de regresión lineal. CECSA, Mexico, 3 edition.

Rawlings, J. O., Pantula, S., and Dickey, D. (1998). AppliedRegression Analyisis: A Research Tool. Springer-Verlag, New York,2 edition.