Regresión de Poisson - uam.es · procedimiento de “jack-knife”). ... - El diagrama de...
Click here to load reader
Transcript of Regresión de Poisson - uam.es · procedimiento de “jack-knife”). ... - El diagrama de...
29
Regresión de Poisson
-- Si la estructura de los errores es realmente de Poisson, entonces:
devianza residual / grados de libertad residuales = 1
si el cociente es mayor que 1 estamos ante el fenómeno (incómodo) de la sobredispersión, que habrá que tener en cuenta
-- El cambio de devianza atribuible a un factor se distribuye asintóticamente según una χ2 (útil para selección de variables) usar test de la F con sobredispersión
-- La exploración de variables, selección de modelos y el análisis de devianza se hace como se haría en una regresión simple (mutatis mutandis).
Máster en Ecología
Métodos para el estudio de Sistemas Ecológicos: Diseño, Análisis y Modelización.
VI. Crítica de un modelo
30
Crítica de un modelo- Tras construir un modelo se debe estudiar hasta qué punto es una buena descripción de los datos.
Gráficos diagnóstico:
- se basan en los residuos del modelo:residuos = VR - valores ajustados (o predichos)
- permiten evaluar las presunciones del modelo (el ajuste a los datos ¿presenta alguna tendencia?) y si hay un grupo de datos que no se ajustan al patrón del resto (detección de valores “outlier”)
Estadísticos de influencia:
- evalúan la influencia (potencial o no) de un caso (¿cambia mucho la regresión si elimináramos ese caso?)
Evaluación (validación, calibración, valoración):(comparación de las predicciones con las observaciones)
Crítica de un modelo- Los residuos representan la diferencia entre los datos y los valores predichos por el modelo.
- Tipos de residuos (estadísticos, claro):
Errores gaussianos (normales, en LM): ε = y – µEn GLM se les conoce como residuos de la respuesta (“response residuals”)
Pero la varianza no suele ser constante en GLM y esto obliga a definir otro tipo de residuos que puedan emplearse en estos modelos:
Residuos de Pearson rP (Σ rP2=χ2)
Residuos de devianza rD (Σ rD2=devianza)
Residuos “temporales” (“working”) subproducto del algoritmo iterativo de ajuste del modelo. Normalmente inútiles.
31
Crítica de un modelo: gráficos diagnóstico
Los residuos se representan en un gráfico con:
- los valores ajustados para examinar la heterocedasticidad
- las VE para encontrar evidencias de curvatura
- los valores de una distribución normal (“standard normal deviates”) para examinar si los errores son Normales
pasamos a R
10 15 20 25 30 35
-10
-50
510
Fitted values
Res
idua
ls
-2 -1 0 1 2
-10
-50
510
Normal Q-Q Plot
Normal scores
Ord
ered
resi
dual
s
(1) “cielo estrellado”, no parece haber
patrones de ningún tipo
(2) homocedasticidad: la varianza
(dispersión) no se incrementa con la
media (con la magnitud de los
valores predichos)
el gráfico de normalidad no revela
nada extraño (los residuos se ajustan a la recta a lo largo de
su longitud)
Crítica de un modelo: gráficos diagnóstico
32
10 15 20 25 30 35 40
-10
-50
510
Fitted values
Res
idua
ls
-2 -1 0 1 2
-10
-50
510
Normal Q-Q Plot
Normal scores
Ord
ered
resi
dual
s
No se observa nada raro aquí
pero este gráfico muestra un perfil sigmoidal (en “S”)
terrible; el ajuste en el centro es adecuado, pero los residuos más altos y los más bajos son
demasiado grandes en magnitud
Errores “uniformes”
Si este residuo se distribuyera según una Normal, entonces debería tener un valor estándar más pequeño (o: su valor se corresponde con un valor estándar N propio de las colas extremas de la distribución N
Crítica de un modelo: gráficos diagnóstico
15 20 25 30 35 40
-4-2
02
46
8
Fitted values
Res
idua
ls
-2 -1 0 1 2
-4-2
02
46
8
Normal Q-Q Plot
Normal scores
Ord
ered
resi
dual
s
Quizás (1) haya demasiados residuos
negativos (en comparación con los
positivos) y(2) ojo con la
asimetría: hay algún residuo
tremendamente alto
(1) Muchos residuos grandes y negativos
sobre la línea(2) Un residuo positivo enorme sobre la línea (alejado del resto) que no puede proceder de
una distribución Normal
estos valores pueden ser muy
influyentes(3) forma de “J”
Errores binomiales negativos
Crítica de un modelo: gráficos diagnóstico
33
10 20 30 40 50 60 70
-20
020
4060
Fitted values
Res
idua
ls
-2 -1 0 1 2
-20
020
4060
Normal Q-Q Plot
Normal scores
Ord
ered
resi
dual
s
Los residuos se alejan mucho de lo que cabría esperar si
procedieran de una distribución normal
Errores gamma y heterocedasticidad
La heterocedasticidades evidente: la
dispersión de los datos se incrementa
con la magnitud de los valores ajustados.
La asimetría es exagerada.
Crítica de un modelo: gráficos diagnóstico
0 20 40 60 80
-20
-10
010
2030
40
Fitted values
Res
idua
ls
lm(cantidad ~ tiempo)
Residuals vs Fitted
1
5
30
Pronunciada curvatura: los residuos
negativos se acumulan en los valores ajustados
intermedios, mientras que los residuos
positivos se acumulan en los extremos (nada de “cielo estrellado”)
Crítica de un modelo: gráficos diagnóstico
34
-2 -1 0 1 2
-10
12
3
Theoretical Quantiles
Sta
ndar
dize
d re
sidu
als
lm(cantidad ~ tiempo)
Normal Q-Q
1
5
30
Figura de “J”: los residuos se alejan de lo que se esperaría
según una distribución Normal
Crítica de un modelo: gráficos diagnóstico
Dicho lo cual:
- El examen de la normalidad de los residuos en un modelo cuyos errores no se distribuyen según una normal (por ejemplo mediante los gráficos Q-Q)
estaría justificado porque los errores deben distribuirse como una campana (unos pocos exagerados y muchos en torno a la media)
[M.J.Crawley, L.M.Carrascal]
los residuos no tienen por qué ser normales y los gráficos Q-Q sólo sirven para detectar valores destacados (“outliers”)
[J.J.Faraway]
Crítica de un modelo: gráficos diagnóstico
35
0 5 10 15 20 25 30
2040
6080
100
120
DESCOMPOSICION$tiempo
DES
CO
MPO
SIC
ION
$can
tidad
La descomposición de la materia orgánica en el suelo (y otros procesos similares) se suele describir bien suponiendo que la fracción que se pierde anualmente es constante:
y=y0e-bt , tomando logaritmoslog(y) = log(y0) – bt, donde b es la pendiente
Luego parece que una transformación log(VR) funcionará bien
0 5 10 15 20 25 30
2040
6080
100
120
DESCOMPOSICION$tiempo
DES
CO
MPO
SIC
ION
$can
tidad
Crítica de un modelo: gráficos diagnóstico
2.5 3.0 3.5 4.0 4.5
-0.6
-0.4
-0.2
0.0
0.2
0.4
0.6
Fitted values
Res
idua
ls
Residuals vs Fitted
30
28
27
-2 -1 0 1 2
-2-1
01
2
Theoretical Quantiles
Sta
ndar
dize
d re
sidu
als
Normal Q-Q
30
28
27
Crítica de un modelo: gráficos diagnóstico
36
Crítica de un modelo: estadísticos de influencia
- Los modelos pueden estar desajustados por la existencia de valores destacados (“outliers”) que no están “en línea” con el resto cuando se ajusta el modelo.Pero estos valores pueden parecer tan fuera de línea porque el modelo no se haya especificado bien.
- Un punto influyente es aquel que modifica notablemente los parámetros del modelo Por ser tan influyente, tenderá a tirar la regresión hacia él, generando un residuo pequeño. Pero un valor destacado puede ser muy influyente.
Luego necesitamos una alternativa para estudiar la posible influencia de un caso en el modelo (que siempre es preocupante)
- Cambio en los coeficientes: La influencia de un caso en un modelo se puede estimar construyendo el modelo sin ese caso y comprobando cuál es el cambio en los coeficientes (un procedimiento de “jack-knife”).
- Apalancamiento (“leverage”). La influencia potencial de un caso crece cuanto más destaque su VE, por tanto, en proporción a (x-x)2:
pasamos a R
- Distancia de Cook. Trata de combinar los residuos y la capacidad de apalancar en una medida única
Un punto es muy influyente cuando hi>2p/n
2/1*
1|| ⎟⎟
⎠
⎞⎜⎜⎝
⎛−
•−
=i
iii h
hp
pnrC donde |ri*| es el valor absoluto de los
residuos tras eliminar el caso i
∑ −−
+= 2
2
)()(1xx
xxn
hj
ii
Crítica de un modelo: estadísticos de influencia
37
Crítica de un modelo: evaluación del modelo
- Los gráficos son difíciles de utilizar en GLM
- Desde una aproximación práctica podemos evaluar el modelo comparando sus predicciones (normalmente continuas, de 0 a 1 en regresión logística) con las observaciones (continuas o no).
- Para ello podemos construir una tabla de contingencia
+
+
-
-
a b
c d
Pre
dic
ho
Observado ¿cómo pasar de valores predichos continuos a categóricos? umbrales
(1) Si p>=0.5, entonces +si 1s y 0s son equiprobables y los errores al predecirlos son igual de costosos
(2) Selecciona el mejor umbralsi los datos son SRS de la poblacióny los
errores al predecirlos son igual de costosos
Crítica de un modelo: evaluación del modelo
+
+
-
-
a b
c d
Pre
dic
ho
Observado
Existen muchas medidas de error:
Tasa de clasificación correcta: (a+d)/N
Sensibilidad: a/(a+c)
Especificidad: d/(b+d)
Kappa: {(a+d)-[(a+c)(a+b)+(b+d)(c+d)]/N} / {N-[(a+c)(a+b)+(b+d)(c+d)]/N)}, tiene en cuenta los aciertos al azar
Aciertos: a y d
Error de omisión: c
Error de comisión: b
38
Crítica de un modelo: evaluación del modelo
- Las medidas de clasificación dependen de los umbrales
Especificidad
Sen
sibi
lidad
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0 Tomemos punto de
corte bajo (p>0.029 es +):
Para todos los fragmentos con roedores se predice su presencia (alta sensibilidad)
Para todos los fragmentos sin roedores también se predice presencia (baja especificidad)
Tomemos punto de corte alto (p>0.88 es +):
Para pocos fragmentos con roedores se predice su presencia (baja sensibilidad)
Para todos los fragmentos sin roedores se predice ausencia (alta especificidad)
Crítica de un modelo: evaluación del modelo
- Las medidas de clasificación dependen de los umbrales
Especificidad
Sen
sibi
lidad
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0 Un punto de corte
elevado es “exigente”: sólo se consideran que estarán ocupados aquellos fragmentos con las mayores probabilidades de estarlo.
Por analogía: el testclínico sólo considerará realmente enfermo a un paciente que de claras muestras de estarlo
compromiso: si mejoras determinando las presencias empeoras discriminando las ausencias
39
Crítica de un modelo: evaluación del modelo
- El diagrama de receptor-operador (ROC) considera todos los puntos de corte posibles e informa del rango de acierto del modelo
1-especificidad (o tasa de falsos positivos)
sens
ibili
dad
(o ta
sa d
e ve
rdad
eros
pos
itivo
s)
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
clasificador aleatorio
clasificador perfecto
Una medida general de acierto
AUC (“Area Underthe Curve”):
CP: AUC=1
CA: AUC=0.5
Predicted probability of occurrence
Obs
erve
d oc
curr
ence
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
333
91
52
36
20
7 11
7
5 11
Predicted number of pairs
Obs
erve
d nu
mbe
r of p
airs
0 6 10
24
68
1012
9
12
22
19
15 9
1 3
1
2
1 2
11
2 4 8 12 14 16
Ejemplo: distribución de milano real
La calibración
una cierta sobreestima: ¿problemas de conservación?