Regresión Lineal Verificación de Supuestos Análisis de residuales.

24
Regresión Lineal Verificación de Supuestos Análisis de residuales

Transcript of Regresión Lineal Verificación de Supuestos Análisis de residuales.

Page 1: Regresión Lineal Verificación de Supuestos Análisis de residuales.

Regresión LinealVerificación de Supuestos

Análisis de residuales

Page 2: Regresión Lineal Verificación de Supuestos Análisis de residuales.
Page 3: Regresión Lineal Verificación de Supuestos Análisis de residuales.
Page 4: Regresión Lineal Verificación de Supuestos Análisis de residuales.

Modelos de la regresión de p variables

β0 - Intercepto

β1 βp- Coeficientes de pendiente parciales de la regresión

ei - Término residual asociado con Ia ‘i’ observación

Yi = β0 + β1xi1 + β2xi2 + … + βpxip+ ei

Page 5: Regresión Lineal Verificación de Supuestos Análisis de residuales.

Supuestos del modelo de la regresión

NormalidadLinealidadHomoscedasticidadLa no multicolinealidad o tolerancia entre

las variables independientes

Page 6: Regresión Lineal Verificación de Supuestos Análisis de residuales.

Representación del modelo en forma compacta

Y1 = b0 + b1X11 + e1

Y2 = b0 + b1X21 + e2

...............................

Yn = b0 + b1Xn1 + en

y = Xβ + ε (forma matricial

compacta)

Page 7: Regresión Lineal Verificación de Supuestos Análisis de residuales.

Modelo de la regresión simple(en términos de estimadores)

Y = b0 + b1X1 + e

Observación

Parte fija Parte aleatoria (determinista) (error)

Page 8: Regresión Lineal Verificación de Supuestos Análisis de residuales.

Normalidad

En principio, cabe pensar que los datos tienen una distribución normal. Es posible verificar este supuesto, construyendo histogramas y comprobando la distribución de los datos. A veces, en los histogramas se incluye una línea que representa la forma de la distribución con la que es posible comprobar si la distribución de los datos de desvía de esta línea.

Page 9: Regresión Lineal Verificación de Supuestos Análisis de residuales.

En otras palabras…

Los valores de la variable dependiente son normalmente distribuidos para cada posible combinación de los niveles de las variables X.

Page 10: Regresión Lineal Verificación de Supuestos Análisis de residuales.

Distribución normal de la variable edad.

Page 11: Regresión Lineal Verificación de Supuestos Análisis de residuales.

Linealidad

Se asume una relación lineal recta entre las variables independientes y la dependiente. En la práctica, este supuesto no suele verificarse, dado que los procedimientos de regresión múltiple no suelen ser gravemente afectados por leves desviaciones de este supuesto. Si la curvatura de la relación es evidente, se pueden transformar las variables o recurrir de forma explícita a componentes no lineales.

Page 12: Regresión Lineal Verificación de Supuestos Análisis de residuales.

sigue…

En otras palabras, la linealidad implica que las medias de las distribuciones de la variable dependiente deben situarse en una línea recta para cada variable independiente y que, para cada combinación de valores de las variables independientes, la distribución de la variable dependiente es normal con variancia constante.

Page 13: Regresión Lineal Verificación de Supuestos Análisis de residuales.

Definición de modelo lineal

Los modelos en que todos los parámetros (b0,b1,…,bp) tienen exponentes de uno se denominan modelos lineales.

Los modelos cuyos los parámetros (b0,b1,…,bp) tienen de exponentes otros valores distintos de la unidad se denominan modelos no-lineales.

Page 14: Regresión Lineal Verificación de Supuestos Análisis de residuales.

Homoscedasticidad

Las variancias de los valores de la variable dependiente (datos del estudio), para cada posible combinación de niveles de la variable X, son iguales; es decir, la variancia de los residuales es constante.

Page 15: Regresión Lineal Verificación de Supuestos Análisis de residuales.

Los supuestos de normalidad, linealidad y homoscedasticidad se pueden verificar mediante el gráfico de dispersión. En este gráfico, los valores predichos de Y (Ŷ) se trasladan al eje X y los residuales (Y-Ŷ) al eje Y.

Page 16: Regresión Lineal Verificación de Supuestos Análisis de residuales.

Multicolinealidad

Multicolinealidad implica que las variables independientes están correlacionadas. Supóngase que la altura de una persona tiene dos predictores: peso en libras y peso en kilos. Estos dos predictores son redundantes, ya que el peso es único independientemente de si se mide con libras o kilos. ..//..

Page 17: Regresión Lineal Verificación de Supuestos Análisis de residuales.

Cuando esto ocurre, significa que al menos una de las variables predictoras es totalmente redundante con otras variables del modelo. El indicador estadístico de este fenómeno es conocido por tolerancia.

Page 18: Regresión Lineal Verificación de Supuestos Análisis de residuales.

Regresión múltiple

Modelos de la

Regresión múltiple

Lineal No Lineal

Lineal V. Dummy

Polinó-mica.

Interac.

Raíz Cuadrada

Log-lineal

Recípro-ca

Expo-nencial

Page 19: Regresión Lineal Verificación de Supuestos Análisis de residuales.

SUPUESTOS EN LA REGRESIÓN MÚLTIPLE

NORMALIDAD

El perfil de la distribución de los datos se corresponde con una distribución normal. Si la variación respecto de la distribución normal es amplia, los tests estadísticos resultantes no son válidos,

dado que se requiere la normalidad para el uso de los estadísticos de la t y de la F.

La normalidad univariante ayuda a obtener normalidad multivariante, pero no la garantiza. La normalidad multivariante implica que las variables individuales son normales.

¿cómo evaluarla?

1. Gráfico de probabilidad normal de los residuos 2. Test de Kolmogorov-Smirnov sobre los residuos estandarizados

LINEALIDAD

Supuesto implícito en todas las técnicas multivariantes basadas en medidas de correlación. Resulta necesario identificar cualquier desplazamiento de la linealidad que pueda impactar la

correlación. ¿cómo evaluarla? Examen visual de los residuos y Gráfico de regresión parcial

HOMOSCEDASTICIDAD

Varianza constante del término de error. Se refiere al supuesto de que las variables dependientes exhiban iguales niveles de varianza a lo largo del rango de los valores de las variables

independientes. ¿cómo evaluarla?

1. Examen visual de los residuos 2. Test de Levene

Page 20: Regresión Lineal Verificación de Supuestos Análisis de residuales.

ANALISIS GRAFICO DE LOS RESIDUALES

No Correlación Heterocedasticidad

Dependencia de evento

HeterocedasticidadDependencia temporal

Preparado por León Darío Bello P.

No linealidad

0

0

Page 21: Regresión Lineal Verificación de Supuestos Análisis de residuales.

EVALUACIÓN DE LA MULTICOLINEALIDAD

Situación ideal: Tener una cantidad de variables independientes altamente correlacionadas con la variable dependiente, pero con poca correlación entre sí

Multicolinealidad: correlación entre tres o más variables independientes

La multicolinealidad reduce el poder predictivo de cualquier variable independiente individual, en la medida en que está asociado con las otras variables independientes

A mayor colinealidad, la varianza única explicada por cada variable independiente se reduce y el porcentaje de predicción compartida aumenta

¿Cómo detectar la existencia de multicolinealidad?

1. Examen de la matriz de correlación de las variables independientes (altas correlaciones indican elevada colinealidad)

2. Estadísticos de colinealidad: valor de tolerancia (TOL) y factor de inflación de la varianza (FIV) (valores de TOL próximos a 0 y elevados valores de FIV, superiores a 4, denotan multicolinealidad)

Efecto

Page 22: Regresión Lineal Verificación de Supuestos Análisis de residuales.

IDENTIFICACION DE LA MULTICOLINEALIDA

Preparado por León Darío Bello P.

•Matriz de correlación•Valor de la tolerancia•Factor de Inflación de la varianza (VIF)•Indice de condición (30 o más).

Miden el grado en el que cada variable Xi se explica por otras variables independientes.

Es la cantidad de variabilidad de las Xi seleccionadas no explicadas por el resto de las Xi. Tolerancia reducida, elevada colinealidad (Valores cercanos a cero).

Page 23: Regresión Lineal Verificación de Supuestos Análisis de residuales.

REMEDIOS PARA LA MULTICOLINEALIDAD

1. Omitir una o varias Xi correlacionadas e identificar otras variables independientes. (Error de especificación)

2. Utilizar el modelo sólo para predecir. (No interpretar coeficientes).

3. Utilizar las correlaciones simples entre Y vs Xi para entender la relación de cada variable X con Y.

4. Métodos más sofisticados (Regresión Bayesiana, Componentes principales)

VALIDACION DE RESULTADOSPreparado por León Darío Bello P.

Columna 1 Columna 2 Columna 3Columna 1 1Columna 2 0.89079913 1Columna 3 0.81364675 0.62506587 1

Columna 1 Columna 2 Columna 3

Page 24: Regresión Lineal Verificación de Supuestos Análisis de residuales.

Variables DummySon aquellas que por ser cualitativas requieren una codificación especial, también son llamadas: Artificiales o internas o indicadoras. Si se tienen las siguientes opciones: Nunca fumó, Ex-fumador, Actualmente fuma menos de 10 cigarrillos diarios, Actualmente fuma 10 o más cigarrillos diarios, se tienen 4 posibles respuestas por lo que construiremos 3 variables internas dicotómicas (valores 0,1), existiendo diferentes posibilidades de codificación, que conducen a diferentes interpretaciones, y siendo la más habitual la siguiente:

I1 I2 I3

Nunca fumó 0 0 0

Ex- fumador 1 0 0

Menos de 10 cigarrillos diarios 0 1 0

10 o más cigarrillos diarios 0 0 1

Preparado por León Darío Bello P.