Modelo Muestra Aleatoria - uam.es · valores x 10,…, x k0 de las variables explicativas. 7 2007...
Transcript of Modelo Muestra Aleatoria - uam.es · valores x 10,…, x k0 de las variables explicativas. 7 2007...
1
2007 Estadística; 3º CC. AA. 2
Las técnicas de regresión lineal múltipleparten de k+1 variables cuantitativas:
La variable respuesta (y) Las variables explicativas (x1 ,…, xk)
Y tratan de explicar la y mediante una función
lineal de las x1 ,…, xk representada por:
y = ββββ0 0 0 0 + ββββ1111x1 +…+ ββββkxk
Debemos extender a k variables las ideas y técnicas de la regresión lineal simple
2007 Estadística; 3º CC. AA. 3
Modelo
X = matriz del diseño
Y = ββββ0 + ββββ1X1 +…+ ββββkXk + U
Muestra Aleatoria
2
2007 Estadística; 3º CC. AA. 4
Cuatro hipótesis comunes con la
regresión lineal simple
•Normalidad
•Homocedasticidad
•Linealidad
•Independencia de las observaciones Es decir, {(X1i,X2i,…,Xki,Yi): i=1,2,…,n} son vectores
aleatorios independientes
2007 Estadística; 3º CC. AA. 5
Y dos requisitos adicionales
• n > k+1
El modelo depende de k+2 parámetros. Para que la regresión
tenga sentido debemos tener un número suficiente de datos
(evidentemente, en la regresión lineal simple, también
necesitamos más de 2 datos para que tenga sentido ajustar una
recta)
• #inguna de las X es combinación lineal de las otras (no hay colinealidad)
Si alguna de las Xi es combinación lineal exacta de algunas de
las otras Xj, el modelo puede simplificarse con menos
variables explicativas. También hay que tener cuidado si
alguna de las X está fuertemente correlacionada con otras.
3
2007 Estadística; 3º CC. AA. 6
Datos y estimación de los parámetros
Geométricamente, la nube de puntos ahora está en un espacio de dimensión k+1¡Difícil de visualizar para k>2!
X es la matriz del diseño, ahora con los datos; X´ es su traspuesta.
donde:
Estimaciones:
son los residuos
2007 Estadística; 3º CC. AA. 7
Ejemplo 1Estimación del tamaño de Trilobites
En la mayoría de las condiciones de preservación, es difícil encontrar ejemplares completos de Trilobites. La cabeza (cephalon) suelta es mucho más común.
Por ello, es útil poder estimar el tamaño del cuerpo en función de medidas sobre la cabeza, estableciendo cuáles de ellas constituyen la mejor determinación del tamaño total.
El siguiente ejemplo está tomado de:Norman MacLeodKeeper of Palaeontology,
The Natural History Museum, London
4
2007 Estadística; 3º CC. AA. 8
Dibujos de Sam Gon III
2007 Estadística; 3º CC. AA. 9
5
2007 Estadística; 3º CC. AA. 10
y = ββββ0 + ββββ1x1 + ββββ2x2
2007 Estadística; 3º CC. AA. 11
Error típico de la estimación de (desviación típica estimada de )
Intervalos de confianza
6
2007 Estadística; 3º CC. AA. 12
Contrastes de hipótesis
Rechazaremos H0 , al nivel α, α, α, α, si el cero no cae en el intervalo de confianza 1- αααα para ββββi.
Lo que es equivalente al contraste de la t de Student para cada parámetro ββββi.
2007 Estadística; 3º CC. AA. 13
Estimación de la respuesta media de Y para los valores x10 ,…, xk0 de las variables explicativas
7
2007 Estadística; 3º CC. AA. 14
Predicción de un nuevo valor de Y dados los valores x10 ,…, xk0 de las variables explicativas
2007 Estadística; 3º CC. AA. 15
Coeficientes Error típico Estadístico t p-valor Inferior 95% Superior 95%
Intercepción 3,9396 4,4531 0,8847 0,3887 -5,4558 13,3349Gabella length 2,5664 0,8771 2,9259 0,0094 0,7159 4,4170Glabella width 0,9387 1,0730 0,8749 0,3938 -1,3250 3,2025
Ejemplo 1Estimación del tamaño de Trilobites
8
2007 Estadística; 3º CC. AA. 16
Análisis de la Varianza
Coeficiente de determinación
2007 Estadística; 3º CC. AA. 17
Tabla Anova
Rechazaremos H0 , al nivel α, si :
Relación entre F y R2
9
2007 Estadística; 3º CC. AA. 18
Ejemplo 1Estimación del tamaño de Trilobites
Gr. de libertad Suma de cuadrados cuadrados medios F Valor crítico de F
Regresión 2 5586'22 2793'11 40'32 0'0000004Residuos 17 1177'70 69'28Total 19 6763'92
Estadísticas de la regresión
Coeficiente de correlación múltiple 0'909
Coeficiente de determinación R2 0'826
R2 ajustado 0'805Error típico 8'323Observaciones 20
R2=0,83
2007 Estadística; 3º CC. AA. 19
Resumen de los contrastes
10
2007 Estadística; 3º CC. AA. 20
Ejemplo 2Respiración de líquenes
Se estudia la tasa de respiración (nmoles oxígeno g-1min-1) del
liquen Parmelia saxatilis en crecimiento bajo puntos de goteo
con un recubrimiento galvanizado.
El agua que cae sobre el liquen contiene Zinc y Potasio que
utilizaremos como variables explicativas.
Los datos corresponden a:
Wainwright (1993), J. Biol. Educ., 27(3), 201--204.
2007 Estadística; 3º CC. AA. 21
Respiration Rate Potassium ppm Zinc ppm
71 388 2414
53 258 10693
55 292 11682
48 205 12560
69 449 2464
84 331 2607
21 114 16205
68 580 2005
68 622 1825
Variable # MEA# MEDIA# TRMEA# STDEV SEMEA#
RespRate 9 59.67 68.00 59.67 18.8 6.06
K ppm 9 359.9 331.0 359.9 168.1 56.0
Zn ppm 9 6939 2607 6939 5742 1914
Datos
11
2007 Estadística; 3º CC. AA. 22
Plano de regresión
Tasa de respiración = ββββ0 + ββββ1Potasio + ββββ2Zinc
*
*
*
*
*
*
*
*
*
*
*
*
**Datos *
2007 Estadística; 3º CC. AA. 23
Regresión de la tasa de respiración (RespRate) sobre el Potasio(K) y el Zinc (Zn). La ecuación de regresión estimada es:
RespRate = 101 - 0.0403 K - 0.00388 Zn
Predictor Coef Stdev t-ratio p
Constant 101.09 18.87 5.36 0.002
K ppm -0.04034 0.03424 -1.18 0.283
Zn ppm -0.00387 0.001002 -3.87 0.008
12
2007 Estadística; 3º CC. AA. 24
Análisis de la varianza (tabla A#OVA)
Source df SS MS F p
Regression 2 2243.3 1121.6 16.80 0.003
Error 6 400.7 66.8
Total 8 2644.0
2007 Estadística; 3º CC. AA. 25
ANÁLISIS DE VARIANZA (sólo K)gr. Libertad Suma de cuadrados cuadrados medios F p-valor
Regresión 1 1244,51 1244,51 6,22 0,04Residuos 7 1399,49 199,93Total 8 2644
ANÁLISIS DE VARIANZA (sólo Zn)gr. Libertad Suma de cuadrados cuadrados medios F p-valor
Regresión 1 2150,58 2150,58 30,51 0,00088423Residuos 7 493,42 70,49Total 8 2644
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,90Coeficiente de determinación R 2̂ 0,81R 2̂ ajustado 0,79Error típico 8,40Observaciones 9
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,69Coeficiente de determinación R^2 0,47R^2 ajustado 0,40Error típico 14,14Observaciones 9
13
2007 Estadística; 3º CC. AA. 26
Del análisis anterior concluiríamos que el Potasio (K) no es un importante
predictor para la tasa de respiración del liquen (A pesar de que se sabe que es
significativo en ausencia de Zinc)
Sin embargo, el Análisis de la Varianza permite también estudiar interacciones
entre las variables predictoras.
Por ejemplo, podemos definir la interacción creando una nueva variable
resultante de multiplicar K por Zn (la nueva variable es K*Zn).
Los resultados de una regresión multilineal con predictores K, Zn, K*Zn son
Extensiones: 1- interacciones
Coeficientes Error típico Estadístico t Probabilidad
Intercepción 106,07 10,32 10,28 0,00015K -0,0678 0,020 -3,41 0,01898Zn -0,005999 0,00077 -7,81 0,00055K*Zn 0,00001118 2,85E-06 3,92 0,01120
2007 Estadística; 3º CC. AA. 27
Tabla ANOVA
ANÁLISIS DE VARIANZA
Grados de
libertad
Suma de
cuadrados
Promedio de
los
cuadrados F
Valor crítico
de F
Regresión 3 2545,6 848,52 43,10 0,00054Residuos 5 98,4 19,69Total 8 2644,0
14
2007 Estadística; 3º CC. AA. 28
Al poner el producto de las dos variables como tercer predictorno tenemos un plano sino una superficie curva.
Tasa de respiración = ββββ0 + ββββ1Potasio + ββββ2Zinc +ββββ3 Potasio x Zinc
Ejercicio: comentar y criticar este ejemplo
2007 Estadística; 3º CC. AA. 29
El océano, que cubre el 70% de la superficie terrestre y tiene unapermanente interacción con la atmósfera, juega un papel fundamental en el equilibrio global.
Para identificar y comprender los vínculos (pasados, presentes y futuros) del océano con el clima es importante entender el comportamiento de los ciclos nutrientes y el carbono marino. La transferencia de carbono desde la superficie del océano a las aguasprofundas puede tener una influencia importante en los nivelesatmosféricos de CO2 a largo plazo.
La siguiente diapositiva muestra un ejemplo de regresión no lineal del flujo de carbono hacia las profundidades marinas con la correspondiente profundidad del agua y la producción primaria de carbono en la superficie.
Los datos provienen de:AWI Foundation for polar and marine researchSchlüter M., Sauter E. J., Schäfer A., and Ritzrau W. (2000) Spatial budget of organic carbon flux to the seafloor of the northern #orth Atlantic (60°# - 80°#). Global Biogeochemical Cycles 14(1), 329-340.
Extensiones: 2-regresión no lineal
15
2007 Estadística; 3º CC. AA. 30
¿podemos convertirlo en una relación lineal?
2007 Estadística; 3º CC. AA. 31
Ejemplo 3Predicción de estados tormentosos en Florida
Experimental forecasting of dry season storminess over Florida and the
southeast United States from the ENSO (niño-southern oscillation) signal
using multiple linear regression techniques.
Bartlett C. Hagemeyer, National Weather Service, Melbourne, Florida
Rebecca A. Almeida, Florida Institute of Technology, Melbourne, Florida
13th Symposium on Global Change and Climate Variations and 16th
Conference on Probability and Statistics in the Atmospheric Sciences.
American Meteorological Society.
El objetivo del estudio es predecir, con la mayor anticipación posible, la aparición de temporales en Florida durante la estación seca. Para ello se proponeutilizar los valores del índice #iño 3.4 proporcionadospor el Centro de Predicción del Clima.
16
2007 Estadística; 3º CC. AA. 32
Las regiones del #IÑO
El índice #iño 3.4 representa la temperatura anómala de la superficiemarina (en grados centígrados) sobre la región limitada por120°O-170°O y 5°S- 5°#.
2007 Estadística; 3º CC. AA. 33
Se encontró que el índice #iño 3.4 podía ser un indicadorsignificativo de anomalías en el nivel de la presión media marina y estados tormentosos en la estación seca en Florida.
Entre otros resultados, el mejor pronóstico de temporalesbasado en dos índices #iño 3-4 resulta de los índices de septiembre y enero. Septiembre es el indicador principal de tormentas en noviembre y diciembre y enero confirma la tendencia durante la estación seca
(Más detalles en www.srh.noaa.gov/mlb/enso/mlb-16thstats.htm)
Storminess (#ov-Apr) = ββββ0 + ββββSep(#ino3.4Sep)+ ββββJan(#ino3.4Jan)
R= 0.74F significativo al nivel 0,01 y los contrastes de la t al nivel 0,005