CAPÍTULO 5 REGRESIÓN CON VARIABLES …academic.uprm.edu/eacuna/cap5sl.pdf · 11X+ ε ii) Y=β...

27
Edgar Acuña Analisis de Regresion 1 CAPÍTULO 5 REGRESIÓN CON VARIABLES CUALITATIVAS Edgar Acuña Fernández Departamento de Matemáticas Universidad de Puerto Rico Recinto Universitario de Mayagüez

Transcript of CAPÍTULO 5 REGRESIÓN CON VARIABLES …academic.uprm.edu/eacuna/cap5sl.pdf · 11X+ ε ii) Y=β...

Edgar Acuña Analisis de Regresion 1

CAPÍTULO 5REGRESIÓN CON VARIABLES

CUALITATIVAS

Edgar Acuña Fernández

Departamento de MatemáticasUniversidad de Puerto Rico

Recinto Universitario de Mayagüez

Edgar Acuña Analisis de Regresion 2

Regresión con variables predictoras cualitativas

• A veces algunas de las variables predictoras a considerar son cuantitativas y otras cualitativas.

• Ejemplos de variables cuantitativas son: años de experiencia, años de educación, edad, etc.

• Ejemplos de variables cualitativas son:sexo del empleado, estado civil, jerarquía del empleado, etc.

Edgar Acuña Analisis de Regresion 3

Tipos de Variables cualitativas

Variable “dummy” o variable binaria • Variables nominales • Variables ordinales

Edgar Acuña Analisis de Regresion 4

Nota:

En un problema de regresión debe haber por lo menos una variable predictora cuantitativa. Si todas las variables predictoras fueran cualitativas entonces el problema se convierte en uno de diseños experimentales.

Edgar Acuña Analisis de Regresion 5

Regresión con una sola variable “Dummy”• Consideremos un modelo de regresión con una sola

variable cualitativa A y una variable cuantitativa X. Es decir,

Y=β0+β1X+β2A + ε (*)Consideremos los casos:

Si A=0, Y= β0 + β1X + εSi A=1, Y= (β0 + β2) + β1X + ε

Es decir que el modelo (*) considera que las pendientes de ambas lineas son iguales.

El valor estimado de β2 representa el cambio promedio en lavariable de respuesta al cambiar el valor de la variable “dummy”.

Edgar Acuña Analisis de Regresion 6

Si se desea comparar las pendientes de las línea de regresión de los dos grupos se puede usar una prueba de t similar a la prueba de comparación de dos medias y asumiendo que hay homogeneidad de varianza. También se puede usar una prueba de F parcial o probando la hipótesis Ho: β3=0 en el siguiente modelo

Y=β0+β1A+β2X+β3AX +e

Cuando la hipótesis nula no es rechazada se concluye que la pendiente de regresion de ambos grupos son iguales. Si no hubiera igualdad de varianza de los dos grupos, habria que usar una prueba de t aproximada similar al problema de Behrens-Fisher. Aquí se usa una t con grados de libertad aproximados

Edgar Acuña Analisis de Regresion 7

Comparar Lineas de Regresión para Varios Grupos

Supongamos que se tiene una variable predictoracontinua X para explicar el comportamiento de Y entres grupos. Surgen tres modelos de regresión:

i) Y= β01+β11X+ εii) Y=β02+β12X+ ε

iii) Y=β03+β13X+ ε

Para relacionar las lineas de regresión hay que introducir 3variables “dummy” para identificar los grupos G1, G2, y G3 y 3variables adicionales Z1=G1X, Z2=G2X, y Z3=G3X.

Edgar Acuña Analisis de Regresion 8

Posibles modelos

a) Las lineas se intersecten en un punto cualquiera, ya que tendrían diferente intersecto y pendiente.

b) Las lineas sean paralelas (homogeneidad de pendientes).

c) Las lineas tengan el mismo intercepto pero distinta pendientes (homogeneidad de interceptos).

d) Las tres lineas coincidan.

Edgar Acuña Analisis de Regresion 9

Prueba de hipótesis

Ho: el modelo satisface b ) o c) o d) versusHa: el modelo satisface a)Se usa una prueba de F parcial dada por

Fm=[(SSEm-SSEa)/(glm-gla)]/[SSEa/gla]Donde m, representa los modelos b,c, o d. grados de libertad.La F parcial se distribuye como una F con (glm-gla, gla)

Edgar Acuña Analisis de Regresion 10

Regresión Logística

La variable de respuesta Y es una del tipo binario y que se tiene p variables predictoras x’s (aleatorias)

Se tiene una muestra de tamaño n=n1+n2 , con n1 observaciones de la clase C1 y n2 observaciones de la clase C2 .

La variable predictora Y se define como 0 y 1 para cada clase.

Edgar Acuña Analisis de Regresion 11

La Curva Logística

Funcion de distribución logística

)1(1)( xe

xF−+

=

Edgar Acuña Analisis de Regresion 12

Suposición en el Modelo Logístico

• Sea f(x/Ci) (i=1,2) la función de densidad del vector aleatorio p-dimensional x en la clase Ci, en el modelo logístico se asume que:

Donde, β es un vector de p parámetros y αrepresenta el intercepto.

xβ'xx

+=α))/(

)/(log(

2

1CfCf

Edgar Acuña Analisis de Regresion 13

Odds RatioSea p=P(Y=1/x) la probabilidad a posteriori de que Y sea igual a 1 para un valor observado de x

Se define la razón de apuestas (odds ratio) como:

Donde: πi representa la probabilidad a priori de que Y pertenezca a la clase Ci.

)/()/(

)()0/(}0{

)()1/(}1{

1 22

11

CfCf

fyfYP

fyfYP

pp

xx

xx

xx

ππ

===

==

=−

Edgar Acuña Analisis de Regresion 14

Transformación logit• Tomando logaritmos se tiene

• Luego con la suposicion se tiene que:

• Equivalentemente,

)/()/(

log)log()1

log(2

1

2

1

CfCf

pp

xx

+=− π

π

x')1

log( βα +=− pp

)'exp(1)'exp(x

xβα

βα++

+=p

Edgar Acuña Analisis de Regresion 15

Cumplimiento de la suposicion del modeloSi las variables x en cada clase se distribuyen normalmente con medias u1, u2 y matríz de covarianza Σ entonces se satisface la suposición dado que:

(u1-u2 )' Σ-1(x-1/2(u1+u2))

Donde

La suposición también para otros tipos de distribuciones distintas de la normal multivariada tales como distribuciones de Bernoulli, y mezclas de éstas.

=))/()/(log(

2

1CfCf

xx

2/' )u(uΣ)u(u 211

21 +−−= −α 121 Σ)u(uβ −−= '

Edgar Acuña Analisis de Regresion 16

Estimación del modelo logísticoMétodo de Máxima Verosimilitud Dada una observación x, las probabilidades de que éstapertenezca a las clases C1 y C2 son :

Considerando una muestra de tamaño n=n1+n2 y un parámetrobinomial p igual a la función deverosimilitud es de la forma

)'exp(1)'exp()/( 1 x

xxβα

βα++

+=CP )'exp(1

1)/(1)/( 12 xxx

βα ++=−= CPCP

∏++

⋅∏++

+=

+==

n

nj

n

i

aL

11 1

1

)exp(11

)exp(1)exp(

),(β'xβ'x

β'xβ

ji

iαα

α

)exp(1/()exp( xβ'xβ' +++ αα

La solucion de la equacion de verosimilitud es solo numerica

Edgar Acuña Analisis de Regresion 17

Otra forma de estimar los parámetros α y β

Consideramos la regresión lineal múltiple delogit( ) versus x1,x2,…,xpluego su varianza será aproximadamente:

Asi se llega a un problema donde la varianza no esconstante y se puede usar mínimos cuadradosponderados con pesos wi(x) = n1 (x)(1- (x))para estimar los parámetros α y β delmodelo logístico.

)1(1)1(]

)1(1[]

ˆ1ˆ

[ln(11

2ppnn

ppppp

pVar−

=−

−≅

p̂ p̂

Edgar Acuña Analisis de Regresion 18

Medidas de Confiabilidad del Modelo

Cuantifican el nivel de ajuste del modelo al conjunto dedatos:• La Devianza• El Pseudo-R2

• El Criterio de Información de Akaike (AIC) • La Prueba de Bondad de Ajuste de Hosmer-

Lemeshov.

Edgar Acuña Analisis de Regresion 19

La Devianza

Es similar a la suma de cuadrados del error de la regresión lineal. Si la variable de respuesta Y no está grupada se tiene que:

D tiene una distribución Ji-Cuadrado con (n-p-1)gl. Si D es mayor que una Ji-Cuadrado con (n-p-1)glpara un nivel de significación dado entonces el modelo logísticono es confiable.

: 1 : 0

ˆ2{ log( ) log(1 )}i i

n n

i ii y i y

D p p= =

= − + −∑ ∑ )

Edgar Acuña Analisis de Regresion 20

El Pseudo-R2

• Es similar al R2 de la regresión lineal se define por:

Donde la DevianzaNula es la devianza considerando solamenteel intercepto y se distribuye como una Ji-Cuadrado con (n-1)gl.Para hallar la DevianzaNula se hace una regresión logísticaconsiderando que hay una sola variable predictora cuyos valoresson todos unos.

%100).

1(2NulaDevianza

DevianzaRPseudo −=−

Edgar Acuña Analisis de Regresion 21

El Criterio de Información de Akaike (AIC)

Determina si un modelo es mejor que otro. Esta dado por:

AIC=D+2(p+1)

Donde, p es el número de variables predictoras.

Un modelo es mejor que otro si su AIC es más pequeño.

Edgar Acuña Analisis de Regresion 22

La Prueba de Bondad de Ajuste de Hosmer-Lemeshov.

Se aplica cuando los datos son dados en forma agrupada y sedefine por

Donde g es el número de grupos, es el número de observacionesen el i-ésimo grupoOi es la suma de las y’s en el i-ésimo grupo y es el promedio delas pi en el i-ésimo grupo.

∑= −

−=

g

i iii

iii

ppnpnO

C1

2

)1(')'(

in'

ip

Edgar Acuña Analisis de Regresion 23

Estadisticas Influenciales para regresión logística

• Residuales de Pearson es similar al residual estudentizado usado en regresión lineal

yi representa el número de veces que y=1 entre las mirepeticiones de Xi , de lo contrario mi=1 para todo i.

• Residuales de Devianza Esta dado por:si yi=0 y si yi=1

Una observación será anormal si el residual de devianza esmayor que 2 en valor absoluto, entonces la observación

correspondiente es anormal.

)ˆ1(ˆˆ

iii

iiii ppm

pmyr

−=

|)ˆ1log(|2 ii pD −−= |)ˆlog(|2 ii pD =

Edgar Acuña Analisis de Regresion 24

Uso de la regresión logística en Clasificación:

La forma mas facil de discriminar es considerar que si p>0.5 la obervación pertenece a la clase que uno está interesado.

Otros metodos son:i) Plotear el porcentaje de obervaciones que poseen el eventoque han sido correctamente clasificadas (Sensitividad) versusdistintos niveles de probabilidad y el porcentajes deobservaciones de la otra clase que han sido correctamenteclasificadas (especifidad) versus los mismos niveles deprobabilidad anteriormente usados, en la misma gráfica. La probabilidad que se usará para clasificar las observaciones seobtienen intersectando las dos curvas.

Edgar Acuña Analisis de Regresion 25

Las gráficas de los dos métodos aparecen en la siguiente figuras yembos caso el p-óptimo a usarse es p=0.3

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

0

50

100

Especificidad

Sen

sitiv

idad

p-optimoEste es el

hallar el p-optimoInterseccion de las curvas de sensitividad y de especificidad para

Ejemplo

Edgar Acuña Analisis de Regresion 26

La curva ROC

ii) Usar la curva ROC (Receiver OperatingCharacteristic Curva). En este caso se grafica la sensitividad versus (1-especifidad)100%, y se coge como el p ideal aquel que está más cerca a laesquina superior izquierda, osea al punto (100,0).

Edgar Acuña Analisis de Regresion 27

Ejemplo de curva ROC