Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo...

87
Universidade de Vigo Diagnosis en el modelo de Diagnosis en el modelo de Diagnosis en el modelo de Diagnosis en el modelo de regresión lineal normal regresión lineal normal regresión lineal normal regresión lineal normal Log L ) Elementos de diagnosis, interpretación y análisis θ Log L Log L ) Log L A B 0 ) Log L 0 ) ) Β Α θ θ 0

Transcript of Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo...

Page 1: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Diagnosis en el modelo de Diagnosis en el modelo de Diagnosis en el modelo de Diagnosis en el modelo de

regresión lineal normalregresión lineal normalregresión lineal normalregresión lineal normal

Log L (θ )

Elementos de diagnosis, interpretación y análisis

θ

Log L (θ

Log L (θ ∗)

Log L

A

B(θ0)

Log L (θ0

)

) Β

Α

θ ∗θ 0

Page 2: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de VigoJustificación del temaJustificación del temaJustificación del temaJustificación del tema

� Hasta ahora hemos considerado que las principales suposiciones del modelo se verificaban, y en consecuencia, los estimadores MCO eran los más eficientes.

� Sin embargo, cuando trabajamos con datos reales, no siempre es � Sin embargo, cuando trabajamos con datos reales, no siempre es esto cierto, y necesitamos algún instrumento que nos permita ver que suposiciones son válidas y cuales no.

Page 3: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de VigoFuentes de Fuentes de Fuentes de Fuentes de elaboraciónelaboraciónelaboraciónelaboración de modelosde modelosde modelosde modelos

� La fundamentación teórica, esto es, de la teoríaeconómica o de la empresa.�Depende de cada problema concreto

� El análisis de datos o elementos estadísticos dediagnosis.� Común a muchos problemas

Page 4: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de VigoFallos en el modeloFallos en el modeloFallos en el modeloFallos en el modelo

� Un modelo puede fallar por dos tipos de causas:� El modelo está mal especificado, es decir alguna suposición de partida no se verifica.

� Existen datos que provienen de otra población y contaminan el modelo.

� Cuando el modelo obtenido no se ve afectado por cambios en � Cuando el modelo obtenido no se ve afectado por cambios en las suposiciones o los datos se dice que es robusto.

� La diagnosis nos permite determinar el grado de robustez del modelo.

Page 5: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de VigoNecesidad de la diagnosisNecesidad de la diagnosisNecesidad de la diagnosisNecesidad de la diagnosis

� A continuación se van a exponer de modo gráfico cuatro modelos cuyos resultados de la regresión son casi equivalentes aparentemente.

� El coeficiente de determinación vale en todos los casos 0,985 y los coeficientes estimados son muy similares.los coeficientes estimados son muy similares.

�Variable Name

Estimated

Coefficient

Caso1 X 0.84

CONSTANT 19.15

Caso2 X 0.80

CONSTANT 19.87

Caso3 X 0.90

CONSTANT 18.08

Caso4 X 0.80

CONSTANT 20.00

Page 6: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de Vigo

Ejemplo del efecto de la forma de la Ejemplo del efecto de la forma de la Ejemplo del efecto de la forma de la Ejemplo del efecto de la forma de la

nube de puntosnube de puntosnube de puntosnube de puntos

1 2

3

4

Page 7: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

ResiduosResiduosResiduosResiduos

Page 8: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de Vigo

InterpretaciónInterpretaciónInterpretaciónInterpretación

� (1) modelo bien especificado

� (2) forma funcional mal especificada: imponemos una relación lineal que en la realidad no existe

� (3) hay un valor influyente que cambia la dirección � (3) hay un valor influyente que cambia la dirección de la recta y que, además, es atípico

� (4) tenemos un valor de comportamiento influyente, pero no atípico

Page 9: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de Vigo

Elementos para analizar en un Elementos para analizar en un Elementos para analizar en un Elementos para analizar en un

modelomodelomodelomodelo

� Eso nos indica que no solo se deben examinar la salida sino también diagnosticar el modelo.

� Los elementos que se deben tener en cuenta a la hora de la

17/12/2007

� Los elementos que se deben tener en cuenta a la hora de la diagnosis son:1º El comportamiento de los datos.2º El efecto de ese comportamiento sobre las suposiciones.

Page 10: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de VigoEl comportamiento de los datosEl comportamiento de los datosEl comportamiento de los datosEl comportamiento de los datos

� Los datos marcan si el modelo con el que se trabaja es válido o no.

� De modo complementario, el modelo ayuda a ver si los datos son coherentes con el son coherentes con el comportamiento esperado o no, existe por tanto un proceso de retroalimentación entre datos y modelo, por lo que en la practica hay que buscar un equilibrio entre ambos.

DatosModelo

Page 11: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de VigoProceso de diagnosis de un modeloProceso de diagnosis de un modeloProceso de diagnosis de un modeloProceso de diagnosis de un modelo

1. Se empieza con un modelo, se estima y se analiza si existen datos extraños al modelo, suponiendo válidas todas las suposiciones.

2. En caso de datos extraños se eliminan esos (o se corrigen) y se revisa el modelo de nuevo.

3. Si alguna suposición falla, se corrige y se vuelve a revisar el 3. Si alguna suposición falla, se corrige y se vuelve a revisar el modelo corregido.

4. Ese proceso se repite hasta que haya una adecuación conveniente entre modelo y datos.

Eso exige analizar los factores que afectan al Eso exige analizar los factores que afectan al

comportamiento de los datoscomportamiento de los datos

Page 12: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de VigoFactores que afectan a los datosFactores que afectan a los datosFactores que afectan a los datosFactores que afectan a los datos

� A los datos que tengan un comportamiento muy distinto del resto se les conoce como valores atípicos o anómalos. Un valor no es atípico siempre, sino que depende del entorno donde se estudie:

17/12/2007

donde se estudie:

� 1. El contexto del análisis

� 2. La muestra considerada

� 3. La forma funcional del modelo

� 4. Las variables incluidas en el modelo

Page 13: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de VigoValores atípicos o anómalosValores atípicos o anómalosValores atípicos o anómalosValores atípicos o anómalos

*

Rregresióncurvilinea

Valor atípico bajo la regresión lineal pero no en la curvilinea

A

17/12/2007

X

Y*

*

*

*

*

*

* *

*

Regresión lineal

A

B

Page 14: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de VigoElementos de DiagnosisElementos de DiagnosisElementos de DiagnosisElementos de Diagnosis

� Medidas basadas en los residuos

� Gráficos

� Estadísticos y test de hipótesisEstadísticos y test de hipótesis

El orden de análisis es1. Gráficos

2. Estadísticos y análisis de los residuos

3. Test de hipótesis

Se vieron en la asignatura de

estadística y sólo los

comentaremos a medida que

los utilicemos

Page 15: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Instrumentos gráficos que permiten evaluar la

Gráficos para la diagnosisGráficos para la diagnosisGráficos para la diagnosisGráficos para la diagnosis

Instrumentos gráficos que permiten evaluar la calidad del modelo

Page 16: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de VigoRuido BlancoRuido BlancoRuido BlancoRuido Blanco

� Sucesión de variables aleatorias

++

* ** *

El modelo bien especificado tiene residuos que se comportan El modelo bien especificado tiene residuos que se comportan como un ruido blanco.como un ruido blanco.

aleatorias independientes:� Media cero � Varianza constante� Simétrica

0

-

ei

0

-

e

*

*

**

*

*

*

*

*

*

**

*

*

*

**

*

* *

*

**

X

Page 17: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de VigoComportamiento de los residuosComportamiento de los residuosComportamiento de los residuosComportamiento de los residuos

� Las perturbaciones del MRLN deberían comportarse como un ruido blanco, puesto que son independientes e igualmente distribuidas con media 0 y simétricas.

� Los residuos de la regresión son aproximaciones a las perturbaciones y aunque no son independientes ni con varianza constante son bastante cercanos a ese comportamiento, por lo que constante son bastante cercanos a ese comportamiento, por lo que suponemos que bajo todas las suposiciones del modelo deberían comportarse casi como ruido blanco.

� En todos los gráficos donde se representen los residuos respecto a alguna variable, estos deben verificar que bajo las suposiciones del MRLN debería ser cercanos a un ruido blanco.

Page 18: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de Vigo

Gráficos de residuosGráficos de residuosGráficos de residuosGráficos de residuos

� Por tanto, los residuos debe verificar:� E(e)=0;

� los residuos deben oscilar alrededor del 0, no deben presentar ninguna forma funcional

� Var(e)= constante aproximadamente.� Los residuos deben dispersarse de forma homogénea, estar comprendidos entre dos bandas

� Independencia:� Los residuos no deben presentar relaciones entre ellos, formas graficas encadenadas.

� Normalidad� Los residuos deben estar cercanos al 0, simétricos a cada lado y las bandas no muy alejadas

del 0 (alrededor de dos veces la desviación estándar).

� Eso significa que cualquier forma en que se aleje de esas características existe un fallo de alguna suposición.

� La variable independiente nos dice algo sobre ese fallo.

Page 19: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Gráfico resumen de calidad del Gráfico resumen de calidad del Gráfico resumen de calidad del Gráfico resumen de calidad del

modelomodelomodelomodelo

E

0.5

0.9 *

*

*

*

Residuos respecto a valores estimados

5.8 6.6 7.3 8.02 8.77 .9.4

E

-0.5

0

*

*

*

*

*

*

*

*

*

*

*

*

*

*

Y ^

Page 20: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de VigoConceptos asociados al gráficoConceptos asociados al gráficoConceptos asociados al gráficoConceptos asociados al gráfico

� Este gráfico representa los residuos frente a los valores estimados de la variable dependiente.

� Los residuos deben verificar las condiciones del ruido blanco.

� La variable independiente en este caso es el valor estimado de la dependiente, por tanto recoge los posibles efectos de esta variable sobre el dependiente, por tanto recoge los posibles efectos de esta variable sobre el comportamiento de los residuos. � Esa variable contiene información sobre:

� La variable dependiente, puesto que es la mejor aproximación lineal en función de las independientes

� Las variables independientes, puesto que todas intervienen en la estimación.

� Eso significa que nos da información sobre como influyen tanto la variable dependiente como las independientes sobre los residuos. En ese sentido se habla de resumen de la calidad del modelo puesto que integra todos los componentes de este.

Page 21: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de VigoInterpretación del gráficoInterpretación del gráficoInterpretación del gráficoInterpretación del gráfico

Se observa si existe:

� Linealidad, � no se debe observar ninguna forma funcional. La media es constante e igual a

cero en todos los casos

� Normalidad� Los datos se distribuyen de forma simétrica y más concentrados alrededor del

0.0.

� Homocedasticidad� La varianza es constante, dispersión igual para todos la serie.

� Estabilidad� No se producen cambios repentinos de la serie de residuos

� Independencia� No se observan relaciones entre residuos o grupos de residuos en la evolución

de los datos

Page 22: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Gráfico de residuos respecto a valores Gráfico de residuos respecto a valores Gráfico de residuos respecto a valores Gráfico de residuos respecto a valores

predichos en la empresa XUMApredichos en la empresa XUMApredichos en la empresa XUMApredichos en la empresa XUMA

0.4

0.6

0.8

SHAZAM PLOTE

Valor atípico

-0.4

-0.2

0

0.2

0.4

11.5 12 12.5 13 13.5 14 14.5 15 15.5 16 16.5

E

YE

atípico

Page 23: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de VigoTipos de GráficosTipos de GráficosTipos de GráficosTipos de Gráficos

� De los residuos � Se representan los residuos respecto a algunas variables que dan información

especifica del fallo de alguna suposición. Cada tipo específico se estudiará en la correspondiente suposición.

� De los residuos al cuadrado� Se representan los residuos al cuadrado respecto a algunas variables que dan � Se representan los residuos al cuadrado respecto a algunas variables que dan

información especifica del fallo la heterocedasticidad. Se estudiarán en esa suposición.

� Gráficos de regresión parcial� Miden el efecto que tendría en la regresión el añadir una nueva variable

independiente. Se estudiarán a continuación.

� Gráficos de probabilidad y de distribución� Miden la forma de la distribución de los residuos. Se estudiarán con la normalidad.

Page 24: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de VigoEjemplos de Gráficos de los residuosEjemplos de Gráficos de los residuosEjemplos de Gráficos de los residuosEjemplos de Gráficos de los residuos

Y^

0

+

^0

+

et

**

** *

**

**

* * **

**

* **

*

**

*

**

*

* *

*

*

*

**

**

*E

.

.0

.

.

-0.5

0,5

1

Respecto a la variable

estimada

Respecto a variables

exógenas

Y^

-

^t

-

**

**

LA 6. 7 8 9. 10

***

*

*.-0.5

Respecto a

residuos

retardados0

+

-

et

e t-1

**

* ***

*

**

**

***

****

***

Page 25: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Ejemplos de Ejemplos de Ejemplos de Ejemplos de Gráficos de los residuos Gráficos de los residuos Gráficos de los residuos Gráficos de los residuos

al cuadradoal cuadradoal cuadradoal cuadrado

Respecto a la variable estimada Respecto a variables exógenas

++

**

2

*

* *.

.

0,5

1

Y^

0

-

^

t

0

-

et

*

*** *

*

*

*

**

* * *

*

*

*

**

*

2

LA

6. 7 8 9. 10

*

*

*

*

*

*

*

*

*

*

**

*

**E2

.

.0

-0.5

Page 26: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Ejemplos de Ejemplos de Ejemplos de Ejemplos de Gráficos de Gráficos de Gráficos de Gráficos de probabilidad probabilidad probabilidad probabilidad

y distribucionesy distribucionesy distribucionesy distribuciones

Grafico de probabilidad

respecto a una normalHistograma

Page 27: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de VigoGráficos de regresión parcialGráficos de regresión parcialGráficos de regresión parcialGráficos de regresión parcial

5

114

**

*

*

**

Este gráfico nos indica el efecto que tendría en la regresión el añadir la variable Xj la última.

EA -1. 7 -.9 -.2 .5 1.3 2. 5

E

-12 2.

- 6

-4

* *

**

**

*

**

*

*

* *** * **

variable Xj la última. La pendiente de la línea de regresión en el gráfico nos da el coeficiente de regresión parcial.

Page 28: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de Vigo

Método de construcciónMétodo de construcciónMétodo de construcciónMétodo de construcción

� Trata de medir el efecto directo de una variable independiente sobre la dependiente una vez eliminado el efecto de todas las demás variables independientes, es decir su coeficiente de regresión parcial.

� De ahí que primero haya que quitar los efectos de todas las independientes tanto sobre la dependiente como sobre la otra independientes tanto sobre la dependiente como sobre la otra independiente.

� Por lo tanto el método de construcción es el siguiente:1. Se calcula e(j) el residuo de la regresión de y respecto a todas las

variables menos Xj;

2. Se calcula u(j) el residuo de la regresión de Xj respecto a las otrasindependientes.

3. Se representa e(j) respecto a u(j).

Page 29: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Gráfico de regresión parcial en XUMA Gráfico de regresión parcial en XUMA Gráfico de regresión parcial en XUMA Gráfico de regresión parcial en XUMA

de VAB sobre inversionesde VAB sobre inversionesde VAB sobre inversionesde VAB sobre inversiones

0.4

0.6

0.8

SHAZAM PLOTE1

-0.6

-0.4

-0.2

0

0.2

0.4

-4 -3 -2 -1 0 1 2 3 4 5

E1

E21

Corte en la pendiente y un valor extraño

Page 30: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Gráfico de regresión parcial en la Gráfico de regresión parcial en la Gráfico de regresión parcial en la Gráfico de regresión parcial en la

relación desigualdad de la renta relación desigualdad de la renta relación desigualdad de la renta relación desigualdad de la renta

respecto a democratizaciónrespecto a democratizaciónrespecto a democratizaciónrespecto a democratización

7

8

9

10

INEQ

Valor especial. Posible

influyente

Pendiente que mide el efecto directo de la democratización

1

2

3

4

5

6

7

10 20 30 40 50 60 70 80 90

INEQ

TURNOUT

influyente

Forma no lineal posiblemente por el valor influyente

sobre la desigualdad

Page 31: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Análisis de residuosAnálisis de residuosAnálisis de residuosAnálisis de residuos

El conocimiento de los residuos para evaluar gráficos y elementos de diagnosis

Page 32: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de Vigo

Residuos de Mínimos Cuadrados Residuos de Mínimos Cuadrados Residuos de Mínimos Cuadrados Residuos de Mínimos Cuadrados

OrdinariosOrdinariosOrdinariosOrdinarios

� Definición

e=Y-Xb

� Propiedades� e=My� e=My

� Siguen leyes normales N(0,σ2M)

� Son ortogonales a los regresores Xe=0

� (T-k-1)S2/σ2 sigue una χ2 con T-k-1 grados de libertad

Page 33: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de Vigo

Efecto de una suposición sobre el Efecto de una suposición sobre el Efecto de una suposición sobre el Efecto de una suposición sobre el

modelo estimadomodelo estimadomodelo estimadomodelo estimado

� Un modelo mal especificado no verifica alguna de las suposiciones de partida.� Por ejemplo si el modelo es cuadrático en vez de lineal, los residuos dependerán de la variable independiente al cuadrado, en vez de tener media 0.

� Los residuos siguen leyes normales N(αx2,σ2M)� Los residuos siguen leyes normales N(αx2,σ2M)� Por tanto su forma no será centrada en el 0

Page 34: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Efectos de una observación sobre el Efectos de una observación sobre el Efectos de una observación sobre el Efectos de una observación sobre el

modelo estimadomodelo estimadomodelo estimadomodelo estimado

� Todo valor tiene un efecto sobre la estimación del modelo:

� Unos afectan más y otros menos.

� Los que cambian mucho el modelo se denominan

regresión sin i

i cambia

algo la

y

modelo se denominan influyentes

� Esa influencia puede deberse a las variables independientes o a la dependiente

� Las diferentes medias de influencia buscan también la causa

17/12/2007

regresión con i

algo la

recta de

regresión

x

Page 35: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de VigoEfecto de un en puntoEfecto de un en puntoEfecto de un en puntoEfecto de un en punto

regresión sin i

y

La distancia a la recta afecta en la

variable dependiente

regresión con i

x

y

Cuanto mas cerca del centro esta el punto menos efecto tiene

La distancia la centro afecta

en la variable independiente

Page 36: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de VigoMedidas basadas en los residuosMedidas basadas en los residuosMedidas basadas en los residuosMedidas basadas en los residuos

� Medidas de influencia debidas a las variables independientes� Distancia de Mahalanobis� Niveles de influencia

� Medidas de influencia debidas a la variable dependiente:� Residuos estandarizados

Valores Valores Valores Valores potencialmente potencialmente potencialmente potencialmente influyentesinfluyentesinfluyentesinfluyentes

� Residuos estandarizados� Residuos estudentizados-Valores

atípicos� Residuos predichos

� Medidas de influencia conjunta� DFFIT� DFBETAS� COVRATIO

Valores Valores Valores Valores atípicosatípicosatípicosatípicos

Valores Valores Valores Valores influyentesinfluyentesinfluyentesinfluyentes

Page 37: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de Vigo

Efectos de los diferentes tipos de Efectos de los diferentes tipos de Efectos de los diferentes tipos de Efectos de los diferentes tipos de

puntos sobre la regresiónpuntos sobre la regresiónpuntos sobre la regresiónpuntos sobre la regresión

� Se va a analizar el efecto de los valores potencialmente influyentes según su distancia a la media en el espacio de variables independientes:

1. Valores cercanos a la media

2. Valores intermedios2. Valores intermedios

3. Valores alejados de la media

Page 38: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de Vigo

Observaciones no alejadas de la Observaciones no alejadas de la Observaciones no alejadas de la Observaciones no alejadas de la

mediamediamediamedia

y yregresión con i

regresión sin i

regresión con i

regresión sin i

"i"

17/12/2007

x"i" no atipico

x"i" atipico

regresión sin i regresión sin i

Difícilmente son influyentes

Page 39: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de VigoObservaciones intermediasObservaciones intermediasObservaciones intermediasObservaciones intermedias

y yregresión con i

regresión sin i

regresión con i

regresión sin i

"i"

17/12/2007

x

"i" no atipico,

no influyente

x

"i" atipico

influyente

regresión sin i

Son influyentes si son atípicos

Page 40: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de Vigo

Observaciones alejadas de la Observaciones alejadas de la Observaciones alejadas de la Observaciones alejadas de la mediamediamediamedia

regresión sin i

i no influyente

y regresión sin i

regresión con i

y

17/12/2007

regresión con i

x

"i" no influyente

x

"i" influyente

i

influyente

Normalmente son influyentes aunque no sean atípicos

Page 41: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de VigoPlan de trabajoPlan de trabajoPlan de trabajoPlan de trabajo

� Definir cada una de las medidas utilizadas indicando sus propiedades, sus ventajas y sus inconvenientes y la necesidad de hacer uso de cada uno de ellos.

� Grupo 1 : Medidas de influencia a priori

� Grupo 2 : Medidas de extrañeza� Grupo 2 : Medidas de extrañeza

� Grupo 3 : Medidas de influencia a posteriori

Page 42: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Medidas de influencia a prioriMedidas de influencia a prioriMedidas de influencia a prioriMedidas de influencia a priori

Page 43: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de VigoDistancia de Distancia de Distancia de Distancia de MahalanobisMahalanobisMahalanobisMahalanobis

� Mide la distancia en un espacio multidimensional entre un punto cualquiera y el centro. Para facilitar los cálculos utilizo la distancia al cuadrado

� Tiene en cuenta las posibles interrelaciones y la diferente dispersión de la variables del espacio.

� Se define como� Se define como

� Siendo x la media y S la matriz de varianzas covarianzas de todas las variables x que intervienen en el espacio.

)()'(),( 12 xxSxxxxDDM tttt −−== −

Page 44: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Interpretación geométrica

Centro del espacio

Espacio bidimensional originalEspacio bidimensional originalEspacio bidimensional originalEspacio bidimensional original Espacio bidimensional transformadoEspacio bidimensional transformadoEspacio bidimensional transformadoEspacio bidimensional transformado

Centro del espacio

Distancia euclidea

Distancia de Mahalanobis

Punto del que se quiere

conocer la distancia

Punto del que se quiere

conocer la distancia

Page 45: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de VigoEjemploEjemploEjemploEjemplo

� Sea el centro en el (1,1); el punto que se busca el (3,3) y la matriz de covarianzas

� La distancia euclidea es

=

15

52A

� La distancia de Mahalanobis es

15

541)1

1

3

2()'

1

1

3

2(1 =+=

=tD

4782609,0)1

1

3

2(

15

52)'

1

1

3

2(2

1

=

=

tD

Page 46: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de VigoPropiedadesPropiedadesPropiedadesPropiedades

1. Tiene en cuenta no sólo el valor medio sino también su discrepancia y la covarianza de las variables midieron

2. Representa (explica) las gamas de aceptabilidad (la discrepancia) entre variables

3. Compensa interacciones (la covarianza) entre variables 4. Es sin dimensiones 4. Es sin dimensiones 5. Si las variables son distribuidas normalmente puede ser convertida a

probabilidades que usan la función de densidad χ2.

Esto nos permite aproximar su media por el número de dimensiones y su varianza por dos veces ese numero.

Page 47: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de VigoNiveles de influenciaNiveles de influenciaNiveles de influenciaNiveles de influencia

• Estudian el efecto de la variable dependiente sobre su predicción, diciéndonos el grado de influencia que tiene sobre ésta.

ˆ Y t = htss=1

T

∑ Ys

• Miden el efecto que la observación Yt tiene sobre su predicción

s=1

∂ ˆ Y t∂Yt

= h tt = h t

Page 48: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de VigoPropiedadesPropiedadesPropiedadesPropiedades

� El valor predicho se puede descomponer como un promedio ponderado de esa observación y del valor predicho sin ella.

� Si el número total de observaciones es T, el nivel de influencia está acotado por los valores 1/T y 1

Page 49: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de VigoPropiedades (2)Propiedades (2)Propiedades (2)Propiedades (2)

� Si DMt nos mide la distancia de Mahalanobis de la observación t-ésima, entonces

h t =1+ DM th t =

t

T

� Al aumentar el nivel de influencia disminuye la varianza del error

Page 50: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de Vigo

Ley de distribución de los Ley de distribución de los Ley de distribución de los Ley de distribución de los niveles niveles niveles niveles de de de de

InfluenciaInfluenciaInfluenciaInfluencia

� El valor medio de los niveles de influencia será:

kh

h

T

t

tt11 +

==∑=

T

k

Th t 11 +

== =

∑=

−=T

1t

2

t

2

h )hh(T

1S

� Su varianza viene dada por

� que coincide con la varianza de la distancia de Mahalanobis.

Page 51: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Medidas de extrañezaMedidas de extrañezaMedidas de extrañezaMedidas de extrañeza

Medidas que indican si un punto tiene un comportamiento muy diferente del resto

Page 52: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de Vigo

EstudentizadosEstudentizadosEstudentizadosEstudentizados(externamente(externamente(externamente(externamente estudentizadosestudentizadosestudentizadosestudentizados))))

• Se definen como los residuos divididos, cada uno, por su desviación estándar eliminada la observación correspondiente

tes =

� se les denomina externamente estudentizados porque no incluyen el propio valor al hacer la estimación de la varianza residual.

• siendo

ttR

tt

hss

−=

1)(

∑≠−−

=ts

stR ekT

s 22

)(2

1

Page 53: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de Vigo

Propiedades de los residuos Propiedades de los residuos Propiedades de los residuos Propiedades de los residuos

estudentizadosestudentizadosestudentizadosestudentizados

� Los residuos estudentizados siguen aproximadamente una t de Student con T-k-2 grados de libertad

� Miden el error de cada observación independientemente de las unidades de medida de las variablesde las unidades de medida de las variables

Page 54: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de Vigo

EstandarizadosEstandarizadosEstandarizadosEstandarizados(internamente(internamente(internamente(internamente eeeestudentizadosstudentizadosstudentizadosstudentizados))))

=et

• Se definen como los residuos divididos, cada uno, por su desviación estándar

� se les denomina internamente estudentizados porque incluyen el propio valor al hacer la estimación de la varianza residual.

tr =

et

RS 1− th

Page 55: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de Vigo

Propiedades de los residuos Propiedades de los residuos Propiedades de los residuos Propiedades de los residuos

estandarizadosestandarizadosestandarizadosestandarizados

� Los residuos estandarizados son asintóticamente normales tipificados AN(0,1)

� No se conoce su ley de distribución exacta, pues falla la independenciala independencia

� Miden el error de cada observación independientemente de las unidades de medida de las variables

Page 56: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de VigoResiduos predichosResiduos predichosResiduos predichosResiduos predichos

� Se definen como la distancia entre el valor observado y el valor estimado haciendo uso de todas las observaciones menos la que corresponde a ese residuo.

e = Y − Y

ˆ Y t( t ) = ′ X t( t )b( t )

e t( t) = Y t − Y t( t)

donde

Page 57: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de VigoPropiedades Residuos Predichos (1)Propiedades Residuos Predichos (1)Propiedades Residuos Predichos (1)Propiedades Residuos Predichos (1)

1. El residuo predicho también se puede escribir como

e t ( t ) =e t

1− ht

2. El residuo predicho siempre es mayor que el residuo, porque ht es siempre positiva.

3. Si el residuo es alto quiere decir que el valor se estimaría mal a partir de las demás observaciones, y por lo tanto, el residuo predicho sería alto. En otro caso sería una buena estimación.

1− ht

Page 58: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de VigoPropiedades Residuos Predichos (2)Propiedades Residuos Predichos (2)Propiedades Residuos Predichos (2)Propiedades Residuos Predichos (2)

4. Cuanto mayor sea el valor ht mayor es el residuo predicho. Como ht nos mide el nivel de influencia de Yt sobre su predicción entonces cuanta más influencia tenga una observación más difícil es predecirla a partir del resto de los observación más difícil es predecirla a partir del resto de los valores de la muestra.

5. Si todos los residuos de predicción son pequeños entonces su suma también lo será y por tanto nos servirá de ayuda para hacer una validación de la calidad del modelo.

Page 59: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de Vigo

Comparación entre los distintos tipos Comparación entre los distintos tipos Comparación entre los distintos tipos Comparación entre los distintos tipos

de medidasde medidasde medidasde medidas

� Existe una relación directa entre los distintos tipos de residuos, de tal forma que todos ellos dan una información complementaria.

� Cuanto mayor es uno de ellos mayor son los demás, aunque la influencia de los puntos afecta a su definición.la influencia de los puntos afecta a su definición.

Page 60: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de Vigo

Residuos Residuos Residuos Residuos estudentizadosestudentizadosestudentizadosestudentizados respecto a respecto a respecto a respecto a

residuos predichos estandarizadosresiduos predichos estandarizadosresiduos predichos estandarizadosresiduos predichos estandarizados

e t∗ = te

S 1 −=e t ( t ) 1− th

Se t =

SR (t ) 1 − th=

SR (t)

Depende de la varianza residual

estimada sin la observación y del

nivel de influencia

Page 61: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Residuos estandarizados respecto a Residuos estandarizados respecto a Residuos estandarizados respecto a Residuos estandarizados respecto a

residuos predichos estandarizadosresiduos predichos estandarizadosresiduos predichos estandarizadosresiduos predichos estandarizados

r t =te

S 1 − h= t ( t )e 1 − th

Sr t =

SR 1 − th=

SR

Depende de la varianza residual

estimada y del nivel de influencia

Page 62: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Los residuos Los residuos Los residuos Los residuos estudentizadosestudentizadosestudentizadosestudentizados respecto respecto respecto respecto

a residuos estandarizados.a residuos estandarizados.a residuos estandarizados.a residuos estandarizados.

e∗ =

RSre t =

R (t )Sr t

Depende de la varianza residual

estimada sin la observación y con

ella

Page 63: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Medidas de influencia a posterioriMedidas de influencia a posterioriMedidas de influencia a posterioriMedidas de influencia a posteriori

Indican si un valor afecta a la estimación del modelo

Page 64: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de Vigo

Medidas de la robustez del modelo a Medidas de la robustez del modelo a Medidas de la robustez del modelo a Medidas de la robustez del modelo a

los datoslos datoslos datoslos datos

� Existen varias medidas que nos ayudan a evaluar el grado de robustez de un modelo a los datos, o sea hasta que punto existe influencia de un dato sobre el comportamiento global del modelo.comportamiento global del modelo.

� En general nos interesa el efecto que una observación tiene sobre:� Los estimadores de los coeficientes� La predicción de la variable dependiente� Los estimadores de la varianza de las perturbaciones

� Definiremos un estadístico para cada uno de esos aspectos.

Page 65: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de Vigo

Medidas de robustez de los coeficientes Medidas de robustez de los coeficientes Medidas de robustez de los coeficientes Medidas de robustez de los coeficientes

estimadosestimadosestimadosestimados

� DFBETAS� Se define para cada uno de los coeficientes estimadosbj como la distancia entre el coeficiente calculadoincluyendo el punto y sin incluirlo estandarizado

17/12/2007

( )jjtR

tjj

tjaS

bbDFBETA

)(

)(

ˆ

−=

Page 66: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de Vigo

Medidas de robustez de los valores Medidas de robustez de los valores Medidas de robustez de los valores Medidas de robustez de los valores

estimados de la dependienteestimados de la dependienteestimados de la dependienteestimados de la dependiente

� DFFITS (Distancia al valor predicho estandarizado)

� Mide el grado de influencia sobre los valoresestimados de eliminar la observación t , y en estesentido nos da una medida global de la influencia aposteriori.

17/12/2007

ttR

ttt

tt

ttt

hS

yy

h

bXbXDFFITS

)(

)(

)(

)(

ˆ

ˆˆ

ˆ

−=

′−′=

σ

Page 67: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de Vigo

Medidas de robustez de los Medidas de robustez de los Medidas de robustez de los Medidas de robustez de los

estimadores de la varianzaestimadores de la varianzaestimadores de la varianzaestimadores de la varianza

� COVRATIO (Razón entre los determinantes de las varianzas delos estimadores)

� Mide el grado de influencia sobre la matriz devarianza-covarianza de los estimadores de loscoeficientes como consecuencia de eliminar laobservación t, y en este sentido nos da una medida de

17/12/2007

observación t, y en este sentido nos da una medida dela influencia a posteriori sobre la estimación de lavarianza.

2 1

( ) ( ) ( )

2 1

det[ ( ' ) ]

det[ ( ' ) ]

i i i

i

s X XCOVRATIO

s X X

−=

Page 68: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Valores especiales en la regresiónValores especiales en la regresiónValores especiales en la regresiónValores especiales en la regresión

Page 69: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de VigoValores especiales en la regresiónValores especiales en la regresiónValores especiales en la regresiónValores especiales en la regresión

� Existen dos tipos de valores que pueden afectar al modelo:� Los valores atípicos que afectan al comportamiento de la variable dependiente sobre la estimación

� Los valores influyentes que afectan a la estimación � Los valores influyentes que afectan a la estimación del modelo bien a los coeficientes, bien los valores estimados de la dependiente o bien a las varianzas.

Page 70: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de VigoDefinición de valor atípicoDefinición de valor atípicoDefinición de valor atípicoDefinición de valor atípico

� El concepto de valor atípico se inserta dentro del conjunto de datos con el que se trabaja:

� Se define valor atípico individual al nivel α si verifica queverifica que

� Se define valor atípico conjunto al nivel α si verifica que

2,2

t T ke t α∗

− −>

2, / 2t T k Te t α∗

− −>Principio de Bonferroni

Page 71: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de VigoValor atípico al nivel Valor atípico al nivel Valor atípico al nivel Valor atípico al nivel αααα

4

2

Residuos Estudentizados

17/12/2007

2

0

- 2

- 41 2 3 4 5 6 7 8 9 101112131415161718192021222324

Page 72: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de VigoEfectos de los valores atípicosEfectos de los valores atípicosEfectos de los valores atípicosEfectos de los valores atípicos

� Afectan a la distribución de los datos.

� En muestras pequeñas sesgan la estimación.

� Pueden generar un efecto sobre los parámetros si también son influyentes.

� Aumentan el error de la estimación, generando ineficiencia � Aumentan el error de la estimación, generando ineficiencia en los estimadores de los coeficientes y sesgo en el estimador de la varianza.

Page 73: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de VigoValores influyentesValores influyentesValores influyentesValores influyentes

� Son los que afectan a la estimación de los parámetros produciendo un importante sesgo en sus valores.

� Puede afectar a los estimadores de coeficientes, al estimador de la varianza o a ambos.

� Cuando sólo afecta a la varianza pero no a los coeficientes tiene menos importancia para la estimación del modelo.tiene menos importancia para la estimación del modelo.

� No todos los puntos influyentes son atípicos ni viceversa.

Page 74: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de Vigo

Características de un punto influyente Características de un punto influyente Características de un punto influyente Características de un punto influyente

en los coeficientesen los coeficientesen los coeficientesen los coeficientes

1.Modifica el vector b de los parámetros estimados.

2.Modifica el vector de predicción.

3.Hace que la predicción del punto influyente sea muy buena cuando se incluye en el modelo y muy mala cuando se excluye.

17/12/2007

excluye.

Page 75: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Evaluación de las medidas de Evaluación de las medidas de Evaluación de las medidas de Evaluación de las medidas de

RobustezRobustezRobustezRobustez

Medida Estadístico VC Bajo VC Alto

Influencia global DFFITS 2(p/T)

1/2 p

1/2

global

Influencia en los estimadores

DFBETAS 2/T1/2

1

Influencia en la varianza COVRATIO 3(k+1)/T

17/12/2007

Se utiliza el valor absoluto de COVRATIO-1 para realizar la comparación

Page 76: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de Vigo

Relación entre valores atípicos e Relación entre valores atípicos e Relación entre valores atípicos e Relación entre valores atípicos e

influyentesinfluyentesinfluyentesinfluyentes

� Se demuestra que existe una relación directa entre valores atípicos e influyentes, puesto que

tt

hDFFITS e∗=

−1 t

t

DFFITS eh

=−

Valor

influyente

Valor

potencial-

mente

influyente

Valor Atípico

Page 77: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de Vigo

Soluciones a posibles valores atípicos Soluciones a posibles valores atípicos Soluciones a posibles valores atípicos Soluciones a posibles valores atípicos

o influyenteso influyenteso influyenteso influyentes

� Eliminar los puntos si realmente no presentan ningún interés.

� Crear una variable ficticia (DUMMY) que trate de medir el efecto del punto sobre el modelo y que lo caracterice como punto especial proveniente de otra población.

17/12/2007

como punto especial proveniente de otra población.

� Dichas variables se explicarán en el tema siguiente.

Page 78: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Una aproximación intuitiva

Test de hipótesis Test de hipótesis Test de hipótesis Test de hipótesis

Una aproximación intuitiva

Page 79: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de VigoTest de Test de Test de Test de hipotesishipotesishipotesishipotesis

� Tratan de comprobar si una determinada hipótesis es aceptable o no por unos determinados datos bajo una serie de suposiciones previas.

� Son la clave de la demostración empírica científica y por ello son necesarios en las ciencias sociales.Nos vamos a centrar en los test de significación que son � Nos vamos a centrar en los test de significación que son aquellos en los que se define un nivel de significación, es decir una cota de la probabilidad de elegir la hipótesis alternativa cuando se supone que esa es falsa. De este modo se facilita la construcción del test (Lema de NeymanPearson).

Page 80: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de VigoTest de significaciónTest de significaciónTest de significaciónTest de significación

� En todos los test de significación se tienen en cuenta los siguientes aspectos:

1. Definir modelo de análisis e indicar suposiciones del test2. Definir hipótesis nula y alternativa 3. Fijar el nivel de significación4. Estadístico de la prueba4. Estadístico de la prueba5. Ley de distribución del estadístico6. Regla de decisión

� Comentamos cada uno de esos elementos brevemente,

Page 81: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de VigoModelo y suposicionesModelo y suposicionesModelo y suposicionesModelo y suposiciones

� Para poder contrastar una determinada hipótesis es necesario presuponer un cierto comportamiento de los datos, puesto que el proceso de generación de estos siempre esta determinado por los factores que los condicionan.� Cuando ese modelo esta determinado por un número finito de parámetros, se dice paramétrico. En otro caso es no parámetros, se dice paramétrico. En otro caso es no paramétrico.

� Estas suposiciones son previas, eso quiere decir que no se contrastan en el test y por consiguiente los resultados de ese test están condicionados a la validez de las suposiciones. � Cuando esas suposiciones inhabilitan totalmente el test se dice que es poco robusto, en otro caso se dice que es robusto.

Page 82: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de VigoHipótesisHipótesisHipótesisHipótesis

� En todos los test de significación se contrastan dos hipótesis: la nula y la alternativa.� La hipótesis nula es aquella que se presupone inicialmente y los datos deben

comprobar si se rechaza o no hay argumentos suficientes para ello. Eso indica que es una hipótesis conservadora en el sentido que se mantiene mientras nos e demuestre lo contrario.

� La hipótesis alternativa es la que tienen valor probatorio en el sentido de que dice que los datos rechazan claramente la hipótesis nula. Indica cual es la línea de fallo que los datos rechazan claramente la hipótesis nula. Indica cual es la línea de fallo de la hipótesis nula y por consiguiente la que le da capacidad de discriminación al test. Por ese motivo es importante elegir bien la hipótesis alternativa para tener mas capacidad de rechazar cuando haya que hacerlo. Esto es lo que se denomina potencia del test.

� Normalmente la hipótesis nula es un caso particular de la alternativa. En ese caso el test d se denomina anidado. En otro caso es no anidado.

� En el caso de contraste de suposiciones, la hipótesis nula siempre va a ser que las suposiciones del MRLN se verifican y la alternativa será el fallo de cada suposición.

Page 83: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de VigoEl nivel de significaciónEl nivel de significaciónEl nivel de significaciónEl nivel de significación

� Indica un limite a la probabilidad de cometer un error de tipo I. Para ello debemos definir previamente los diferentes tipos de errores, tal como se hace en la tabla siguiente, según sea cierta o no determinada hipótesis.

H0 es cierta H1 es cierta

Decido aceptar H0 BIEN ERROR II

� La idea es buscar la mínima probabilidad de cometer un error de tipo II, una vez fijado un límite a la probabilidad de cometer un error de tipo de I.

� La elección del nivel de significación es subjetiva, por lo que se suele elegir entre el 5% o el 10% en ciencias sociales, mientras que en las naturales se suele optar por el 1% o el 5%.

Decido aceptar H0 BIEN ERROR II

Decido aceptar H1 ERROR I BIEN

Page 84: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de VigoEstadístico de pruebaEstadístico de pruebaEstadístico de pruebaEstadístico de prueba

� Consiste en formalizar la idea intuitiva del test, plasmando en una función de los datos muestrales (estadístico) que nos dé información sobre como discriminar entre cada una de las hipótesis.

� Normalmente este este estadístico tiene un comportamiento bajo la hipótesis nula y otro bajo la alternativa y su resultado bajo la hipótesis nula y otro bajo la alternativa y su resultado nos va a permitir decidirnos por una u otra de las dos hipótesis según con cual sea mas coherente.

� Para definirlo es conveniente conocer cual es la idea intuitiva del test, es decir, la forma en la que comparamos las hipótesis con los datos en el test.

Page 85: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de VigoLey de distribución del estadísticoLey de distribución del estadísticoLey de distribución del estadísticoLey de distribución del estadístico

� Para elaborar las reglas de decisión del test es conveniente conocer cual es la ley que sigue el estadístico de prueba bajo la hipótesis nula.

� Dicha ley se determina a partir a de las suposiciones de partida y debe ser independiente de las hipótesis por lo menos conocida si la hipótesis nula se verifica.menos conocida si la hipótesis nula se verifica.

� A partir de esa ley de distribución se pueden definir dos regiones en el espacio muestral:� la región de aceptación que es aquella en la que se espera que caiga el estadistico cuando la hipótesis nula es cierta

� el resto de los valores muestrales que será la región de rechazo

Page 86: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de VigoRegla de decisiónRegla de decisiónRegla de decisiónRegla de decisión

� Una vez determinada la ley simplemente se construye la regla de decisión que siempre suele ser del mismo tipo:� Si el estadístico muestral cae en la región de aceptación se acepta la hipótesis nula, en caso contrario se rechaza.

� La región de rechazo nos indica aquellos valores muestrales� La región de rechazo nos indica aquellos valores muestralesque hacen improbable (con una probabilidad menor que el nivel de significación) que sea cierta la hipótesis nula. Es decir, si la hipótesis nula fuera cierta la probabilidad que ocurra lo que ocurrió o algo mas distante es prácticamente cero, por consiguiente supongo que la hipótesis nula no es consistente con los datos, esto significa que la rechazo.

Page 87: Diagnosis en el modelo de regresión lineal normal · 2007-12-17 · curvilinea Valor atípico bajo la regresión lineal pero no en la curvilinea A 17/12/2007 X Y * * * * * * * *

Universidade

de Vigo

Universidade

de VigoEjercicioEjercicioEjercicioEjercicio

� Plantear siguiendo el esquema anterior el contraste individual de los coeficientes de regresión para ver si son nulos o no.