Regresión Lineal Verificación de Supuestos Análisis de residuales.

Post on 13-Feb-2015

71 views 0 download

Transcript of Regresión Lineal Verificación de Supuestos Análisis de residuales.

Regresión LinealVerificación de Supuestos

Análisis de residuales

Modelos de la regresión de p variables

β0 - Intercepto

β1 βp- Coeficientes de pendiente parciales de la regresión

ei - Término residual asociado con Ia ‘i’ observación

Yi = β0 + β1xi1 + β2xi2 + … + βpxip+ ei

Supuestos del modelo de la regresión

NormalidadLinealidadHomoscedasticidadLa no multicolinealidad o tolerancia entre

las variables independientes

Representación del modelo en forma compacta

Y1 = b0 + b1X11 + e1

Y2 = b0 + b1X21 + e2

...............................

Yn = b0 + b1Xn1 + en

y = Xβ + ε (forma matricial

compacta)

Modelo de la regresión simple(en términos de estimadores)

Y = b0 + b1X1 + e

Observación

Parte fija Parte aleatoria (determinista) (error)

Normalidad

En principio, cabe pensar que los datos tienen una distribución normal. Es posible verificar este supuesto, construyendo histogramas y comprobando la distribución de los datos. A veces, en los histogramas se incluye una línea que representa la forma de la distribución con la que es posible comprobar si la distribución de los datos de desvía de esta línea.

En otras palabras…

Los valores de la variable dependiente son normalmente distribuidos para cada posible combinación de los niveles de las variables X.

Distribución normal de la variable edad.

Linealidad

Se asume una relación lineal recta entre las variables independientes y la dependiente. En la práctica, este supuesto no suele verificarse, dado que los procedimientos de regresión múltiple no suelen ser gravemente afectados por leves desviaciones de este supuesto. Si la curvatura de la relación es evidente, se pueden transformar las variables o recurrir de forma explícita a componentes no lineales.

sigue…

En otras palabras, la linealidad implica que las medias de las distribuciones de la variable dependiente deben situarse en una línea recta para cada variable independiente y que, para cada combinación de valores de las variables independientes, la distribución de la variable dependiente es normal con variancia constante.

Definición de modelo lineal

Los modelos en que todos los parámetros (b0,b1,…,bp) tienen exponentes de uno se denominan modelos lineales.

Los modelos cuyos los parámetros (b0,b1,…,bp) tienen de exponentes otros valores distintos de la unidad se denominan modelos no-lineales.

Homoscedasticidad

Las variancias de los valores de la variable dependiente (datos del estudio), para cada posible combinación de niveles de la variable X, son iguales; es decir, la variancia de los residuales es constante.

Los supuestos de normalidad, linealidad y homoscedasticidad se pueden verificar mediante el gráfico de dispersión. En este gráfico, los valores predichos de Y (Ŷ) se trasladan al eje X y los residuales (Y-Ŷ) al eje Y.

Multicolinealidad

Multicolinealidad implica que las variables independientes están correlacionadas. Supóngase que la altura de una persona tiene dos predictores: peso en libras y peso en kilos. Estos dos predictores son redundantes, ya que el peso es único independientemente de si se mide con libras o kilos. ..//..

Cuando esto ocurre, significa que al menos una de las variables predictoras es totalmente redundante con otras variables del modelo. El indicador estadístico de este fenómeno es conocido por tolerancia.

Regresión múltiple

Modelos de la

Regresión múltiple

Lineal No Lineal

Lineal V. Dummy

Polinó-mica.

Interac.

Raíz Cuadrada

Log-lineal

Recípro-ca

Expo-nencial

SUPUESTOS EN LA REGRESIÓN MÚLTIPLE

NORMALIDAD

El perfil de la distribución de los datos se corresponde con una distribución normal. Si la variación respecto de la distribución normal es amplia, los tests estadísticos resultantes no son válidos,

dado que se requiere la normalidad para el uso de los estadísticos de la t y de la F.

La normalidad univariante ayuda a obtener normalidad multivariante, pero no la garantiza. La normalidad multivariante implica que las variables individuales son normales.

¿cómo evaluarla?

1. Gráfico de probabilidad normal de los residuos 2. Test de Kolmogorov-Smirnov sobre los residuos estandarizados

LINEALIDAD

Supuesto implícito en todas las técnicas multivariantes basadas en medidas de correlación. Resulta necesario identificar cualquier desplazamiento de la linealidad que pueda impactar la

correlación. ¿cómo evaluarla? Examen visual de los residuos y Gráfico de regresión parcial

HOMOSCEDASTICIDAD

Varianza constante del término de error. Se refiere al supuesto de que las variables dependientes exhiban iguales niveles de varianza a lo largo del rango de los valores de las variables

independientes. ¿cómo evaluarla?

1. Examen visual de los residuos 2. Test de Levene

ANALISIS GRAFICO DE LOS RESIDUALES

No Correlación Heterocedasticidad

Dependencia de evento

HeterocedasticidadDependencia temporal

Preparado por León Darío Bello P.

No linealidad

0

0

EVALUACIÓN DE LA MULTICOLINEALIDAD

Situación ideal: Tener una cantidad de variables independientes altamente correlacionadas con la variable dependiente, pero con poca correlación entre sí

Multicolinealidad: correlación entre tres o más variables independientes

La multicolinealidad reduce el poder predictivo de cualquier variable independiente individual, en la medida en que está asociado con las otras variables independientes

A mayor colinealidad, la varianza única explicada por cada variable independiente se reduce y el porcentaje de predicción compartida aumenta

¿Cómo detectar la existencia de multicolinealidad?

1. Examen de la matriz de correlación de las variables independientes (altas correlaciones indican elevada colinealidad)

2. Estadísticos de colinealidad: valor de tolerancia (TOL) y factor de inflación de la varianza (FIV) (valores de TOL próximos a 0 y elevados valores de FIV, superiores a 4, denotan multicolinealidad)

Efecto

IDENTIFICACION DE LA MULTICOLINEALIDA

Preparado por León Darío Bello P.

•Matriz de correlación•Valor de la tolerancia•Factor de Inflación de la varianza (VIF)•Indice de condición (30 o más).

Miden el grado en el que cada variable Xi se explica por otras variables independientes.

Es la cantidad de variabilidad de las Xi seleccionadas no explicadas por el resto de las Xi. Tolerancia reducida, elevada colinealidad (Valores cercanos a cero).

REMEDIOS PARA LA MULTICOLINEALIDAD

1. Omitir una o varias Xi correlacionadas e identificar otras variables independientes. (Error de especificación)

2. Utilizar el modelo sólo para predecir. (No interpretar coeficientes).

3. Utilizar las correlaciones simples entre Y vs Xi para entender la relación de cada variable X con Y.

4. Métodos más sofisticados (Regresión Bayesiana, Componentes principales)

VALIDACION DE RESULTADOSPreparado por León Darío Bello P.

Columna 1 Columna 2 Columna 3Columna 1 1Columna 2 0.89079913 1Columna 3 0.81364675 0.62506587 1

Columna 1 Columna 2 Columna 3

Variables DummySon aquellas que por ser cualitativas requieren una codificación especial, también son llamadas: Artificiales o internas o indicadoras. Si se tienen las siguientes opciones: Nunca fumó, Ex-fumador, Actualmente fuma menos de 10 cigarrillos diarios, Actualmente fuma 10 o más cigarrillos diarios, se tienen 4 posibles respuestas por lo que construiremos 3 variables internas dicotómicas (valores 0,1), existiendo diferentes posibilidades de codificación, que conducen a diferentes interpretaciones, y siendo la más habitual la siguiente:

I1 I2 I3

Nunca fumó 0 0 0

Ex- fumador 1 0 0

Menos de 10 cigarrillos diarios 0 1 0

10 o más cigarrillos diarios 0 0 1

Preparado por León Darío Bello P.