Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de...

57
Análisis de Regresión Múltiple Dr. Elio Riera

Transcript of Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de...

Page 1: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

Análisis de Regresión Múltiple

Dr. Elio Riera

Page 2: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

Precio de la casa = β0 + β1(Área de la casa) + ε

Pero en general, una variable dependiente depende de más de

una variable independiente:

Precio de la casa puede depender de:

Área

Antigüedad

Número de baños

Área del garaje

Etc.

Se ha visto el tema del análisis de

regresión simple:

Page 3: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

y = β0 + β1x1 + ε

Regresión Lineal Simple

Regresión Lineal Múltiple

y = β0 + β1x1 + β2x2 + ……… + βpxp + ε

Para tratar este tipo de problemas se

requiere expandir el análisis de regresión:

Page 4: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

Modelo de Regresión Múltiple

Vamos a examinar la relación lineal entre una variable

dependiente (y) y dos o más variables independientes (xi)

εxβxβxββy kk22110

ie kik2i21i10i xbxbxbby

Modelo poblacional:

Y-intercepto Pendientes Error aleatorio

Valor de y Pendientes estimadas

Modelo de regresión múltiple muestral:

y-intercepto

estimado Error muestral

Page 5: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

Modelo de Regresión Múltiple

kk22110 xbxbxbby

Valor estimado o

predecido de ŷ Pendientes estimadas

Modelo de regresión múltiple estimado:

Page 6: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

15-6

Modelo de Regresión Múltiple

Modelo de dos variables:

y

x1

x2

22110 xbxbby

Llamado hiperplano de regresión

Page 7: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

y

x1

x2

22110 xbxbby yi

yi

<

e = (y – y)

<

x2i

x1i La ecuación de mejor ajuste,

y, es hallada minimizando la

suma de cuadrados del error,

e2

<

Observación

muestral

Modelo de Regresión Múltiple

Modelo de dos variables:

(continuación)

Page 8: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

Modelo de Regresión Múltiple Poblacional

Los términos de error (ε) son realizaciones estadísticamente

independientes de una variable aleatoria para cada nivel de x.

Para un valor dado de x, pueden existir muchos valores de y, por lo

tanto muchos valores posibles para e. La distribución de los posibles

errores del modelo para cualquier nivel de x es normal.

Las distribuciones de los posibles valores de los errores e tienen igual

varianza en cada nivel de x.

Las medias de la variable dependiente y, para todos los valores

especificados de x, pueden ser conectados con una línea la cual es el

componente lineal del modelo de regresión poblacional.

Supuestos:

Page 9: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

Conceptos Básicos para la Construcción de

Modelos

Los modelos son usados para evaluar cambios sin

implementarlos en el sistema real.

Los modelos pueden ser usados para predecir

“outputs” basados en “inputs” específicos.

El proceso de construcción de modelos consiste de 3

etapas:

Page 10: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

Especificación del modelo

Especificación del modelo de regresión poblacional.

Recolección de la data muestral.

Formulación o construcción del modelo

Cálculo de los coeficientes de correlación entre las distintas

variables, dependientes e independientes.

Ajuste del modelo a la data. Estimación de la ecuación de

regresión múltiple.

Diagnóstico del modelo

Pruebas estadísticas para determinar la bondad de ajuste del

modelo a la data.

Verificación de los supuestos de regresión múltiple.

Etapas

Page 11: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

Especificación del Modelo

A veces referido como identificación del modelo

Es un proceso para establecer la estructura del modelo

Decidir qué se quiere hacer y seleccionar la variable

dependiente (y).

Determinar las potenciales variables independientes (x) para

el modelo.

Recolectar los datos muestrales (observaciones) para todas

las variables. Sugerencia: Tamaño muestral de al menos 4

veces el número de variables independientes.

Page 12: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

Construcción del Modelo

Es el proceso de construir la ecuación para los datos.

Puede incluir todas o algunas de las variables

independientes (x).

El objetivo es explicar la variación en la variable

dependiente (y) a través de la relación lineal con las

variables independientes seleccionadas (x).

Page 13: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

Diagnóstico del Modelo

Analizar la calidad del modelo (efectuar las pruebas de diagnóstico).

Evaluar el grado en que los supuestos se satisfacen.

Si el modelo es inaceptable, iniciar el proceso de construcción del modelo nuevamente.

Usar el modelo más simple que satisfaga las necesidades.

El objetivo es ayudar a tomar mejores decisiones.

Page 14: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

Ejemplo

Un distribuidor de pies (postres) desea

evaluar los factores que se cree influyen

en la demanda

Page 15: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

Diagramas de Dispersión

Page 16: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

Ejemplo:Especificación del Modelo

Un distribuidor de pies (postres) desea evaluar los factores

que se cree influyen en la demanda

Variable dependiente: Ventas (unidades / semana)

Variables independientes: Precio ($) y Publicidad ($100)

Modelo de Regresión múltiple Poblacional:

Ventas = β0 + β1(Precio) + β2(Publicidad) + ε

Page 17: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

Ejemplo: Construcción o Formulación del Modelo

Modelo de Regresión Múltiple (Muestral):

Ventasj = b0 + b1(Precioj) + b2(Publicidadj) + errorj

Modelo de Regresión Múltiple Lineal

Ventas = b0 + b1(Precio) + b2(Publicidad)

Page 18: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

Interpretación de los Coeficientes Estimados

Pendientes (bi)

Estiman el cambio en el valor promedio de “y” como bi unidades por

cada unidad de incremento en xi manteniendo las otras variables

constantes.

Ejemplo: Si b1 = -20, entonces se espera que las ventas promedio (y)

se reduzcan en 20 pies por semana por cada $1 en que se incremente el

precio (x1), manteniendo constante la variable publicidad (x2).

y-intercepto (b0)

Estima el valor promedio de y cuando todas las variables xi son

iguales a cero (suponiendo que el valor cero está dentro de los rangos

de valores que pueden tomar los xi).

Page 19: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

Formulación del Modelo

Los datos que se presentan fueron

recolectados durante 5 semanas de

observación y registro.

Page 20: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

Formulación del Modelo

Ventas = b0 + b1 (Precio)

+ b2 (Publicidad)

Semana

Venta de

pies

Precio

($)

Publicidad

($100s)

1 350 5.50 3.3

2 460 7.50 3.3

3 350 8.00 3.0

4 430 8.00 4.5

5 350 6.80 3.0

6 380 7.50 4.0

7 430 4.50 3.0

8 470 6.40 3.7

9 450 7.00 3.5

10 490 5.00 4.0

11 340 7.20 3.5

12 300 7.90 3.2

13 440 5.90 4.0

14 450 5.00 3.5

15 300 7.00 2.7

Modelo de Regresión Múltiple:

Page 21: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

Matriz de Correlación

Las correlaciones entre la variable dependiente y las

variables independientes seleccionadas pueden obtenerse

usando Excel:

Datos / Análisis de datos / Coeficiente de correlation

Puede evaluar la significancia estadística de la correlación

con una prueba t

Page 22: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

Matriz de Correlación: Ventas de Pies

Ventas vs. Precio : r = -0.44327

Hay una asociación lineal negativa entre las

ventas y el precio

Ventas vs. Publicidad : r = 0.55632

Hay una asociación lineal positiva entre las

ventas y la publicidad

Ventas de

pies Precio Publicidad

Ventas de pies 1

Precio -0.44327 1

Publicidad 0.55632 0.03044 1

Page 23: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

Estimación de la Ecuación de Regresión Lineal Múltiple

Programas estadísticos (computadora) son

generalmente usados para generar estimados

de los coeficientes y medidas de bondad de

ajuste de la regresión múltiple

Excel: Datos / Análisis de datos / Regresión

Page 24: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

Excel:

Datos / Análisis de datos / Regresión

Estimación de la Ecuación de Regresión Lineal Multiple

(continuación)

Page 25: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

Regresión Múltiple: Excel (Resultado)

licidad)74.131(Pub cio)24.975(Pre - 306.526 Ventas

Page 26: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

b1 = -24.975: Las

ventas decrecerán en

promedio 24.975 pies

por semana por cada

$1 incrementado en el

precio, manteniendo

constante la publici-

dad

b2 = 74.131: Las

ventas crecerán en

promedio 74.131 pies

por semana por cada

$100 incrementado

en publicidad,

manteniendo cons-

tante el precio

Donde:

Ventas (número de pies por semana)

Precio ($)

Publicidad ($100’s)

licidad)74.131(Pub cio)24.975(Pre - 306.526 Ventas

Regresión Múltiple: Excel (Resultado)

(continuación)

Ecuación estimada de regresión múltiple:

Page 27: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

Usando el Modelo para hacer Predicciones

Predecir las ventas de una semana en la cual

el precio es $5.50 y la publicidad es $350.

La venta predecida es

428.62 pies

Nota: La publicidad

está en $100’s,

entonces x2 = 3.5

significa $350

licidad)74.131(Pub cio)24.975(Pre - 306.526 Ventas

428.62

(3.5) 74.131 (5.50) 24.975 - 306.526

Page 28: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

Coeficiente de Determinación Múltiple (R2)

Reporta la proporción de la variación total en y que

es explicada por todas las variables (juntas) x

consideradas en el modelo

cuadrados de totalSuma

regresión de cuadrados de Suma

SST

SSRR 2

Page 29: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

.52148056493.3

29460.0

SST

SSRR 2

El 52.1% de la variación en las ventas es

explicada por la variación en los precios y

la publicidad

(continuación)

Coeficiente de Determinación Múltiple (R2)

Page 30: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

R2 Ajustado

R2 nunca decrece cuando una nueva variable x es

añadida al modelo

Esto puede ser una desventaja cuando se compara

modelos

¿Cuál es el efecto neto de agregar una nueva

variable?

Se pierde un grado de libertad cuando una nueva

variable x es añadida

¿La nueva variable x aporta suficiente poder

explicativo para compensar la pérdida de un grado

de libertad?

Page 31: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

Muestra la proporción explicada de la variación en y por las variables x’s tomando en cuenta la relación entre el tamaño de muestra y el número de variables independientes (k)

(Donde n = Tamaño muestral, k = Número de variables independientes)

Penaliza el uso excesivo de variables independientes no importantes

Es más pequeña que el R2

Útil en la comparación entre modelos

(continuación)

1kn

1n)R1(1R 22

A

R2 Ajustado

Page 32: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

.441720R 2

A

El 44.2% de la variación en las ventas es

explicada por la variación en los precios y

la publicidad, tomando en cuenta la

relación entre el tamaño de muestra y el

número de variables independientes

Coeficiente de Determinación Múltiple: Excel (Resultado)

Page 33: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

Diagnóstico del Modelo: Prueba F

(Significancia General)

Prueba F para la significancia del modelo (general)

Muestra sí hay una relación lineal entre todas las

variables x (consideradas en forma conjunta) e y

Usa el estadístico de prueba F

Hipótesis:

H0: β1 = β2 = … = βk = 0 (No hay relación lineal)

HA: Al menos un βi ≠ 0 (Existe relación lineal entre (y)

y al menos un xi)

Page 34: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

Estadístico de prueba:

Donde: Los grados de libertad de F son:

glnumerador = k

gldenominador = (n – k – 1)

(continuación)

MSE

MSR

1kn

SSEk

SSR

F

Diagnóstico del Modelo: Prueba F

(Significancia General)

Page 35: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

6.53862252.8

14730.0

MSE

MSRF

(continuación)

Con 2 y 12 grados de

libertad Valor P para

la prueba

Diagnóstico del Modelo: Prueba F

(Significancia General)

Page 36: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

H0: β1 = β2 = 0; HA: β1 o β2 es diferente de cero

Conclusión: Hay suficiente evidencia para concluir que el modelo de regresión

explica parte de la variación en la venta de pies

(al menos una de las pendientes de regresión no es cero)

0

= 0.05

Rechazar H0 No rechazar H0

6.5386F MSE

MSR

Valor crítico:

F0.05 = 3.885

F

(continuación)

Diagnóstico del Modelo: Prueba F

(Significancia General)

= 0.05

glnumerador= 2

gldenominador = 12

Estadístico de prueba:

Decisión: Como F = 6.53 > 3.89 = F0.05 , entonces se rechaza H0

Page 37: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

Diagnóstico del Modelo: ¿Las Variables Individuales son Significativas?

Usar la prueba t para evaluar la significancia de cada

pendiente

Muestra si hay una relación lineal entre la variable xi e

y

Hipótesis:

H0: βi = 0 (No hay relación lineal)

HA: βi ≠ 0 (Existe relación lineal entre xi e y)

Page 38: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

H0: βi = 0 (No hay relación lineal)

HA: βi ≠ 0 (Existe relación lineal entre xi e y) Estadístico de prueba: (gl = n – k – 1)

ib

i

s

0bt

(continuación)

Diagnóstico del Modelo: ¿Las Variables Individuales son Significativas?

Page 39: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

El estadístico de prueba t para el

Precio es -2.306 (valor p = 0.0398)

El estadístico de prueba t para la

Publicidad es 2.855 (valor p = 0.0145)

(continuación)

Diagnóstico del Modelo: ¿Las Variables Individuales son Significativas?

Page 40: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

g.l. = 15-2-1 = 12

= 0.05

t/2 = 2.1788

H0: βi = 0; HA: βi 0

Excel (Resultado):

Coeficientes Error típico Estadístico t Valor p

Precio -24.97509 10.83213 -2.30565 0.03979

Publicidad 74.13096 25.96732 2.85478 0.01449

Decisión: Para cada variable se rechaza H0

Rechazar H0 Rechazar H0

/2=0.025

-tα/2

No rechazar H0

0 tα/2

/2=0.025

-2.1788

(continuación)

Diagnóstico del Modelo: ¿Las Variables Individuales son Significativas?

2.1788

Conclusión: Hay evidencia suficiente para concluir que cada variable in-

dividual (Precio y Publicidad) afecta a la venta de pies, dada

la presencia de la otra para =0.05

Page 41: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

Intervalo de Confianza para las Pendientes

El intervalo de confianza para la pendiente poblacional β1

(efecto sobre las ventas de pie respecto a cambios en el

precio):

Ejemplo: Las ventas semanales de pies se reducirán entre

1.37 a 48.58 pies por cada incremento de $1 en el precio

ib2/i stb Donde t tiene (n – k – 1) g.l.

Page 42: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

Desviación Estándar del Modelo de Regresión

La estimación de la desviación estándar del modelo de

regresión está dada por:

MSEkn

SSEs

1

¿Este valor es grande o pequeño? Para evaluarlo se

debe comparar con el promedio de y.

Page 43: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

La desviación estándar del

modelo de regresión es 47.46

(continuación)

Desviación Estándar del Modelo de Regresión

Page 44: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

La desviación estándar del modelo de regresión es

47.46

Un rango de predicción para las ventas de pies en una

semana se puede aproximar por

Considerando que el promedio muestral de pies por

semana es 399.3, un error de ±94.2 pies es

problablemente grande para ser aceptado. El

distribuidor podría querer buscar variables adicionales

que puedan explicar más de la variación en las ventas.

94.22(47.46)

(continuación)

Desviación Estándar del Modelo de Regresión

Page 45: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

Diagnóstico del Modelo:

Multicolinealidad

Multicolinealidad: Es la presencia de correlación entre dos

variables independientes y, por lo tanto, se traslapan.

Es decir, las dos variables contribuyen con información

redundante al modelo de regresión múltiple.

Page 46: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

Incluir dos variables independientes altamente

correlacionadas puede afectar adversamente los resultados de

regresión:

No proporciona nueva información.

Puede llevar a coeficientes inestables (error estándar

grande y valores t bajos).

Los signos de los coeficientes podrían no ser coherentes

con nuestras expectativas iniciales y con la matriz de

correlación.

(continuación)

Diagnóstico del Modelo:

Multicolinealidad

Page 47: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

Problemas e Indicios de Multicolinealidad Severa

Signos incorrectos en los coeficientes.

Cambio grande en el valor de un coeficiente como resultado

de agregar una nueva variable al modelo.

Una variable anteriormente significativa se vuelve no

significativa cuando una nueva variable independiente es

agregada.

El estimado de la desviación estándar del modelo se

incrementa cuando una variable es agregada al modelo.

Page 48: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

Detección de Multicolinealidad (Factor de Inflación de Varianza)

VIFj es usado para medir la colinealidad:

Si VIFj ≥ 5, entonces xj está altamente

correlacionado con las otras variables

explicativas

R2j es el coeficiente de determinación de la

regresión de la jma variable independiente contra

las restantes k – 1 variables independientes

21

1

j

jR

VIF

Page 49: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

Variables Dummy

El modelo de regresión requiere el uso de variables cuantitativas

de ratio (medida de relación entre dos variables cualitativas)

¿Cómo manejar posibles variables categóricas que

frecuentemente se presentan en la explicación de una variable

dependiente?

Ejemplo: Género, estado civil, grado de instrucción, tipo de

vecindario, etc.

Variables Dummy

Page 50: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

Variables Dummies

Son usadas para incorporar variables explicativas

categóricas al modelo de regresión:

Si o no, masculino o femenino, etc.(variable dummy: 0, 1)

Casado o divorciado o viudo o soltero (variables dummies: 0, 0, 1; 0, 1, 0; 1, 0, 0)

Page 51: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

15-51

Variables Dummies

El número de variables dummies requerido es (categorías – 1) por cada variable cualitativa.

A veces llamadas variables indicadoras.

Los interceptos de regresión son diferentes si la variable es significativa.

Asume igual pendiente para las otras variables.

Page 52: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

Variable Dummy (Dos Niveles) en un Modelo de Regresión: Ejemplo

Sea:

ŷ = Ventas de pies

x1 = Precio

x2 = Feriado (X2 = 1 si hay feriado en una semana)

(X2 = 0 si no hay feriado en una semana)

210 xbxbby21

Page 53: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

Misma

pendiente

(continuación)

x1 (Precio)

y (Ventas)

b0 + b2

b0

1010

12010

xb b (0)bxbby

xb)b(b(1)bxbby

121

121

Feriado

No Feriado

Interceptos

diferentes

Si H0: β2 = 0 es

rechazada, entonces

Feriado tiene un

efecto significativo

sobre las ventas

Variable Dummy (Dos Niveles) en un Modelo de Regresión: Ejemplo

Page 54: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

Ventas: Número de pies vendidos por semana

Precio: Precio del pie en dólares

Feriado:

Regresión, Variable Dummy (Dos Niveles): Interpretación de Coeficientes

Ejemplo:

1 Si hay feriado en una semana

0 Si no hay feriado en una semana

b2 = 15: En promedio, las ventas en una

semana con feriado son de 15 pies más que

en una sin feriado, manteniendo el mismo

precio

)15(Feriado 30(Precio) - 300 Ventas

Page 55: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

El número de variables dummies es una unidad

menos que el número de categorías

Ejemplo:

y = Precio de casa ; x1 = Área (pies cuadrados)

El estilo de la casa se cree que debe ser conside-

rado:

Estilo = Rancho, condominio, dos niveles

Tres categorías, entonces se

requiere dos variables dummies

Regresión, Variables Dummies (Más de Dos Niveles)

Page 56: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

es lo no Si 0

niveles dos es Si 1x

es lo no Si 0

rancho es Si 132x

3210 xbxbxbby321

b2 muestra el impacto sobre el precio si el estilo de

la casa es rancho, comparado a un condominio

b3 muestra el impacto sobre el precio si el estilo de

la casa es dos niveles, comparado a un condominio

(continuación) Asumamos que la categoría por defecto sea

“condominio”

Regresión, Variables Dummies (Más de Dos Niveles)

Page 57: Análisis de Regresión Múltiple · Especificación del modelo Especificación del modelo de regresión poblacional. Recolección de la data muestral. Formulación o construcción

Con la misma área, se estima

que un rancho tendrá un

precio promedio de $23.53

(miles) más que un

condominio.

Con la misma área, se estima

que un dos niveles tendrá un

precio promedio de $18.84

(miles) más que un

condominio.

Supongamos que la ecuación estimada es:

321 18.84x23.53x0.045x20.43y

18.840.045x20.43y 1

23.530.045x20.43y 1

10.045x20.43y

Para un condominio: x2 = x3 = 0

Para un rancho: x3 = 0

Para un dos niveles: x2 = 0

Regresión, Variables Dummies (Más de Dos Niveles): Interpretación de Coeficientes