Modelo Muestra Aleatoria - uam.es · valores x 10,…, x k0 de las variables explicativas. 7 2007...

16
1 2007 Estadística; 3º CC. AA. 2 Las técnicas de regresión lineal múltiple parten de k+1 variables cuantitativas: La variable respuesta (y) Las variables explicativas (x 1 ,…, x k ) Y tratan de explicar la y mediante una función lineal de las x 1 ,…, x k representada por: y = β β β 0 0 0 0 + β β β 1 1 1 x 1 +…+ β β β k x k Debemos extender a k variables las ideas y técnicas de la regresión lineal simple 2007 Estadística; 3º CC. AA. 3 Modelo X = matriz del diseño Y = β 0 + β 1 X 1 +…+ β k X k + U Muestra Aleatoria

Transcript of Modelo Muestra Aleatoria - uam.es · valores x 10,…, x k0 de las variables explicativas. 7 2007...

Page 1: Modelo Muestra Aleatoria - uam.es · valores x 10,…, x k0 de las variables explicativas. 7 2007 Estadística; 3ºCC. ... Coeficiente de correlación múltiple 0,90 Coeficiente de

1

2007 Estadística; 3º CC. AA. 2

Las técnicas de regresión lineal múltipleparten de k+1 variables cuantitativas:

La variable respuesta (y) Las variables explicativas (x1 ,…, xk)

Y tratan de explicar la y mediante una función

lineal de las x1 ,…, xk representada por:

y = ββββ0 0 0 0 + ββββ1111x1 +…+ ββββkxk

Debemos extender a k variables las ideas y técnicas de la regresión lineal simple

2007 Estadística; 3º CC. AA. 3

Modelo

X = matriz del diseño

Y = ββββ0 + ββββ1X1 +…+ ββββkXk + U

Muestra Aleatoria

Page 2: Modelo Muestra Aleatoria - uam.es · valores x 10,…, x k0 de las variables explicativas. 7 2007 Estadística; 3ºCC. ... Coeficiente de correlación múltiple 0,90 Coeficiente de

2

2007 Estadística; 3º CC. AA. 4

Cuatro hipótesis comunes con la

regresión lineal simple

•Normalidad

•Homocedasticidad

•Linealidad

•Independencia de las observaciones Es decir, {(X1i,X2i,…,Xki,Yi): i=1,2,…,n} son vectores

aleatorios independientes

2007 Estadística; 3º CC. AA. 5

Y dos requisitos adicionales

• n > k+1

El modelo depende de k+2 parámetros. Para que la regresión

tenga sentido debemos tener un número suficiente de datos

(evidentemente, en la regresión lineal simple, también

necesitamos más de 2 datos para que tenga sentido ajustar una

recta)

• #inguna de las X es combinación lineal de las otras (no hay colinealidad)

Si alguna de las Xi es combinación lineal exacta de algunas de

las otras Xj, el modelo puede simplificarse con menos

variables explicativas. También hay que tener cuidado si

alguna de las X está fuertemente correlacionada con otras.

Page 3: Modelo Muestra Aleatoria - uam.es · valores x 10,…, x k0 de las variables explicativas. 7 2007 Estadística; 3ºCC. ... Coeficiente de correlación múltiple 0,90 Coeficiente de

3

2007 Estadística; 3º CC. AA. 6

Datos y estimación de los parámetros

Geométricamente, la nube de puntos ahora está en un espacio de dimensión k+1¡Difícil de visualizar para k>2!

X es la matriz del diseño, ahora con los datos; X´ es su traspuesta.

donde:

Estimaciones:

son los residuos

2007 Estadística; 3º CC. AA. 7

Ejemplo 1Estimación del tamaño de Trilobites

En la mayoría de las condiciones de preservación, es difícil encontrar ejemplares completos de Trilobites. La cabeza (cephalon) suelta es mucho más común.

Por ello, es útil poder estimar el tamaño del cuerpo en función de medidas sobre la cabeza, estableciendo cuáles de ellas constituyen la mejor determinación del tamaño total.

El siguiente ejemplo está tomado de:Norman MacLeodKeeper of Palaeontology,

The Natural History Museum, London

Page 4: Modelo Muestra Aleatoria - uam.es · valores x 10,…, x k0 de las variables explicativas. 7 2007 Estadística; 3ºCC. ... Coeficiente de correlación múltiple 0,90 Coeficiente de

4

2007 Estadística; 3º CC. AA. 8

Dibujos de Sam Gon III

2007 Estadística; 3º CC. AA. 9

Page 5: Modelo Muestra Aleatoria - uam.es · valores x 10,…, x k0 de las variables explicativas. 7 2007 Estadística; 3ºCC. ... Coeficiente de correlación múltiple 0,90 Coeficiente de

5

2007 Estadística; 3º CC. AA. 10

y = ββββ0 + ββββ1x1 + ββββ2x2

2007 Estadística; 3º CC. AA. 11

Error típico de la estimación de (desviación típica estimada de )

Intervalos de confianza

Page 6: Modelo Muestra Aleatoria - uam.es · valores x 10,…, x k0 de las variables explicativas. 7 2007 Estadística; 3ºCC. ... Coeficiente de correlación múltiple 0,90 Coeficiente de

6

2007 Estadística; 3º CC. AA. 12

Contrastes de hipótesis

Rechazaremos H0 , al nivel α, α, α, α, si el cero no cae en el intervalo de confianza 1- αααα para ββββi.

Lo que es equivalente al contraste de la t de Student para cada parámetro ββββi.

2007 Estadística; 3º CC. AA. 13

Estimación de la respuesta media de Y para los valores x10 ,…, xk0 de las variables explicativas

Page 7: Modelo Muestra Aleatoria - uam.es · valores x 10,…, x k0 de las variables explicativas. 7 2007 Estadística; 3ºCC. ... Coeficiente de correlación múltiple 0,90 Coeficiente de

7

2007 Estadística; 3º CC. AA. 14

Predicción de un nuevo valor de Y dados los valores x10 ,…, xk0 de las variables explicativas

2007 Estadística; 3º CC. AA. 15

Coeficientes Error típico Estadístico t p-valor Inferior 95% Superior 95%

Intercepción 3,9396 4,4531 0,8847 0,3887 -5,4558 13,3349Gabella length 2,5664 0,8771 2,9259 0,0094 0,7159 4,4170Glabella width 0,9387 1,0730 0,8749 0,3938 -1,3250 3,2025

Ejemplo 1Estimación del tamaño de Trilobites

Page 8: Modelo Muestra Aleatoria - uam.es · valores x 10,…, x k0 de las variables explicativas. 7 2007 Estadística; 3ºCC. ... Coeficiente de correlación múltiple 0,90 Coeficiente de

8

2007 Estadística; 3º CC. AA. 16

Análisis de la Varianza

Coeficiente de determinación

2007 Estadística; 3º CC. AA. 17

Tabla Anova

Rechazaremos H0 , al nivel α, si :

Relación entre F y R2

Page 9: Modelo Muestra Aleatoria - uam.es · valores x 10,…, x k0 de las variables explicativas. 7 2007 Estadística; 3ºCC. ... Coeficiente de correlación múltiple 0,90 Coeficiente de

9

2007 Estadística; 3º CC. AA. 18

Ejemplo 1Estimación del tamaño de Trilobites

Gr. de libertad Suma de cuadrados cuadrados medios F Valor crítico de F

Regresión 2 5586'22 2793'11 40'32 0'0000004Residuos 17 1177'70 69'28Total 19 6763'92

Estadísticas de la regresión

Coeficiente de correlación múltiple 0'909

Coeficiente de determinación R2 0'826

R2 ajustado 0'805Error típico 8'323Observaciones 20

R2=0,83

2007 Estadística; 3º CC. AA. 19

Resumen de los contrastes

Page 10: Modelo Muestra Aleatoria - uam.es · valores x 10,…, x k0 de las variables explicativas. 7 2007 Estadística; 3ºCC. ... Coeficiente de correlación múltiple 0,90 Coeficiente de

10

2007 Estadística; 3º CC. AA. 20

Ejemplo 2Respiración de líquenes

Se estudia la tasa de respiración (nmoles oxígeno g-1min-1) del

liquen Parmelia saxatilis en crecimiento bajo puntos de goteo

con un recubrimiento galvanizado.

El agua que cae sobre el liquen contiene Zinc y Potasio que

utilizaremos como variables explicativas.

Los datos corresponden a:

Wainwright (1993), J. Biol. Educ., 27(3), 201--204.

2007 Estadística; 3º CC. AA. 21

Respiration Rate Potassium ppm Zinc ppm

71 388 2414

53 258 10693

55 292 11682

48 205 12560

69 449 2464

84 331 2607

21 114 16205

68 580 2005

68 622 1825

Variable # MEA# MEDIA# TRMEA# STDEV SEMEA#

RespRate 9 59.67 68.00 59.67 18.8 6.06

K ppm 9 359.9 331.0 359.9 168.1 56.0

Zn ppm 9 6939 2607 6939 5742 1914

Datos

Page 11: Modelo Muestra Aleatoria - uam.es · valores x 10,…, x k0 de las variables explicativas. 7 2007 Estadística; 3ºCC. ... Coeficiente de correlación múltiple 0,90 Coeficiente de

11

2007 Estadística; 3º CC. AA. 22

Plano de regresión

Tasa de respiración = ββββ0 + ββββ1Potasio + ββββ2Zinc

*

*

*

*

*

*

*

*

*

*

*

*

**Datos *

2007 Estadística; 3º CC. AA. 23

Regresión de la tasa de respiración (RespRate) sobre el Potasio(K) y el Zinc (Zn). La ecuación de regresión estimada es:

RespRate = 101 - 0.0403 K - 0.00388 Zn

Predictor Coef Stdev t-ratio p

Constant 101.09 18.87 5.36 0.002

K ppm -0.04034 0.03424 -1.18 0.283

Zn ppm -0.00387 0.001002 -3.87 0.008

Page 12: Modelo Muestra Aleatoria - uam.es · valores x 10,…, x k0 de las variables explicativas. 7 2007 Estadística; 3ºCC. ... Coeficiente de correlación múltiple 0,90 Coeficiente de

12

2007 Estadística; 3º CC. AA. 24

Análisis de la varianza (tabla A#OVA)

Source df SS MS F p

Regression 2 2243.3 1121.6 16.80 0.003

Error 6 400.7 66.8

Total 8 2644.0

2007 Estadística; 3º CC. AA. 25

ANÁLISIS DE VARIANZA (sólo K)gr. Libertad Suma de cuadrados cuadrados medios F p-valor

Regresión 1 1244,51 1244,51 6,22 0,04Residuos 7 1399,49 199,93Total 8 2644

ANÁLISIS DE VARIANZA (sólo Zn)gr. Libertad Suma de cuadrados cuadrados medios F p-valor

Regresión 1 2150,58 2150,58 30,51 0,00088423Residuos 7 493,42 70,49Total 8 2644

Estadísticas de la regresión

Coeficiente de correlación múltiple 0,90Coeficiente de determinación R 2̂ 0,81R 2̂ ajustado 0,79Error típico 8,40Observaciones 9

Estadísticas de la regresión

Coeficiente de correlación múltiple 0,69Coeficiente de determinación R^2 0,47R^2 ajustado 0,40Error típico 14,14Observaciones 9

Page 13: Modelo Muestra Aleatoria - uam.es · valores x 10,…, x k0 de las variables explicativas. 7 2007 Estadística; 3ºCC. ... Coeficiente de correlación múltiple 0,90 Coeficiente de

13

2007 Estadística; 3º CC. AA. 26

Del análisis anterior concluiríamos que el Potasio (K) no es un importante

predictor para la tasa de respiración del liquen (A pesar de que se sabe que es

significativo en ausencia de Zinc)

Sin embargo, el Análisis de la Varianza permite también estudiar interacciones

entre las variables predictoras.

Por ejemplo, podemos definir la interacción creando una nueva variable

resultante de multiplicar K por Zn (la nueva variable es K*Zn).

Los resultados de una regresión multilineal con predictores K, Zn, K*Zn son

Extensiones: 1- interacciones

Coeficientes Error típico Estadístico t Probabilidad

Intercepción 106,07 10,32 10,28 0,00015K -0,0678 0,020 -3,41 0,01898Zn -0,005999 0,00077 -7,81 0,00055K*Zn 0,00001118 2,85E-06 3,92 0,01120

2007 Estadística; 3º CC. AA. 27

Tabla ANOVA

ANÁLISIS DE VARIANZA

Grados de

libertad

Suma de

cuadrados

Promedio de

los

cuadrados F

Valor crítico

de F

Regresión 3 2545,6 848,52 43,10 0,00054Residuos 5 98,4 19,69Total 8 2644,0

Page 14: Modelo Muestra Aleatoria - uam.es · valores x 10,…, x k0 de las variables explicativas. 7 2007 Estadística; 3ºCC. ... Coeficiente de correlación múltiple 0,90 Coeficiente de

14

2007 Estadística; 3º CC. AA. 28

Al poner el producto de las dos variables como tercer predictorno tenemos un plano sino una superficie curva.

Tasa de respiración = ββββ0 + ββββ1Potasio + ββββ2Zinc +ββββ3 Potasio x Zinc

Ejercicio: comentar y criticar este ejemplo

2007 Estadística; 3º CC. AA. 29

El océano, que cubre el 70% de la superficie terrestre y tiene unapermanente interacción con la atmósfera, juega un papel fundamental en el equilibrio global.

Para identificar y comprender los vínculos (pasados, presentes y futuros) del océano con el clima es importante entender el comportamiento de los ciclos nutrientes y el carbono marino. La transferencia de carbono desde la superficie del océano a las aguasprofundas puede tener una influencia importante en los nivelesatmosféricos de CO2 a largo plazo.

La siguiente diapositiva muestra un ejemplo de regresión no lineal del flujo de carbono hacia las profundidades marinas con la correspondiente profundidad del agua y la producción primaria de carbono en la superficie.

Los datos provienen de:AWI Foundation for polar and marine researchSchlüter M., Sauter E. J., Schäfer A., and Ritzrau W. (2000) Spatial budget of organic carbon flux to the seafloor of the northern #orth Atlantic (60°# - 80°#). Global Biogeochemical Cycles 14(1), 329-340.

Extensiones: 2-regresión no lineal

Page 15: Modelo Muestra Aleatoria - uam.es · valores x 10,…, x k0 de las variables explicativas. 7 2007 Estadística; 3ºCC. ... Coeficiente de correlación múltiple 0,90 Coeficiente de

15

2007 Estadística; 3º CC. AA. 30

¿podemos convertirlo en una relación lineal?

2007 Estadística; 3º CC. AA. 31

Ejemplo 3Predicción de estados tormentosos en Florida

Experimental forecasting of dry season storminess over Florida and the

southeast United States from the ENSO (niño-southern oscillation) signal

using multiple linear regression techniques.

Bartlett C. Hagemeyer, National Weather Service, Melbourne, Florida

Rebecca A. Almeida, Florida Institute of Technology, Melbourne, Florida

13th Symposium on Global Change and Climate Variations and 16th

Conference on Probability and Statistics in the Atmospheric Sciences.

American Meteorological Society.

El objetivo del estudio es predecir, con la mayor anticipación posible, la aparición de temporales en Florida durante la estación seca. Para ello se proponeutilizar los valores del índice #iño 3.4 proporcionadospor el Centro de Predicción del Clima.

Page 16: Modelo Muestra Aleatoria - uam.es · valores x 10,…, x k0 de las variables explicativas. 7 2007 Estadística; 3ºCC. ... Coeficiente de correlación múltiple 0,90 Coeficiente de

16

2007 Estadística; 3º CC. AA. 32

Las regiones del #IÑO

El índice #iño 3.4 representa la temperatura anómala de la superficiemarina (en grados centígrados) sobre la región limitada por120°O-170°O y 5°S- 5°#.

2007 Estadística; 3º CC. AA. 33

Se encontró que el índice #iño 3.4 podía ser un indicadorsignificativo de anomalías en el nivel de la presión media marina y estados tormentosos en la estación seca en Florida.

Entre otros resultados, el mejor pronóstico de temporalesbasado en dos índices #iño 3-4 resulta de los índices de septiembre y enero. Septiembre es el indicador principal de tormentas en noviembre y diciembre y enero confirma la tendencia durante la estación seca

(Más detalles en www.srh.noaa.gov/mlb/enso/mlb-16thstats.htm)

Storminess (#ov-Apr) = ββββ0 + ββββSep(#ino3.4Sep)+ ββββJan(#ino3.4Jan)

R= 0.74F significativo al nivel 0,01 y los contrastes de la t al nivel 0,005