Regresión y correlación Tema 8 1. Regresión lineal simple · PDF...
Click here to load reader
Transcript of Regresión y correlación Tema 8 1. Regresión lineal simple · PDF...
Universidad Autónoma de Madrid
Análisis de Datos en Psicología II Tema 8
1
Regresión y correlación Tema 8
1. Regresión lineal simple
1.1 Contraste sobre β 1.2 Regresión en formato ANOVA
2. Correlación. Contraste sobre ρxy
Universidad Autónoma de Madrid
Análisis de Datos en Psicología II Tema 8
2
1. Regresión lineal simple Objetivo: predecir una variable Y (dependiente o criterio) a partir de una X (independiente o predictora). Ambas cuantitativas. Para un caso i la ecuación en la población es:
Yi = α + βXi + Ei Siendo: Parámetros:
α : Origen de la recta β : Pendiente de la recta
Ei : Error aleatorio
Universidad Autónoma de Madrid
Análisis de Datos en Psicología II Tema 8
3
En la muestra se estima α y β con A y B:
∑ ∑
∑ ∑∑
−
−=
i iii
i iii
iii
XXn
YXYXnB 2
2
XBYA −=
Con estos estimadores, la ecuación es: Yi = A +BXi + Ei Por lo que el valor predicho para cada Xi es: Y'i = A +BXi El error en el pronóstico es: Ei = Yi - Y'i Ejemplo: Se intenta predecir el absentismo laboral Y (en horas al año) a partir del salario X (en euros semanales).
Universidad Autónoma de Madrid
Análisis de Datos en Psicología II Tema 8
4
X (€) Y (horas) 150 300 200 406 175 442 160 330 210 422 895 1900
86,1895162825)5(
1900)895(344970)5(2
22
=−
−=
−
−=
∑ ∑
∑ ∑∑
i iii
i iii
iii
XXn
YXYXnB
06,47 179)86,1(380
589586,1
51900
=−=
−=
−= XBYA
Luego: Y'i = 47,06 +1,86Xi
Universidad Autónoma de Madrid
Análisis de Datos en Psicología II Tema 8
5
X Y Y' E
150 300 326,06 -26,06 200 406 419,06 -13,06 175 442 372,56 69,44 160 330 344,66 -14,66 210 422 437,66 -15,66 895 1900 0 0 =E
150 170 190 210x
320
360
400
440
y
W
W
W
W
W
Universidad Autónoma de Madrid
Análisis de Datos en Psicología II Tema 8
6
1.1 Contraste sobre β Objetivo: Comprobar si hay relación lineal, y de que tipo es esta, entre X e Y. 1. Hipótesis Bilateral:
H0: β = 0 (no hay relación lineal, son linealmente independientes)
H1: β ≠ 0 (hay relación lineal) Unilateral derecho:
H0: β ≤ 0 (no hay relación lineal) H1: β > 0 (hay relación lineal positiva)
Unilateral izquierdo:
H0: β ≥ 0 (no hay relación lineal) H1: β < 0 (hay relación lineal negativa)
2. Supuestos Independencia Normalidad Homocedasticidad
Universidad Autónoma de Madrid
Análisis de Datos en Psicología II Tema 8
7
3. Estadístico de contraste
∑
∑−−
−=
iii
ii
nYY
XXBT
)2( / )'(
)(
2
2
Cuya distribución es tn-2 4. Zona crítica
Bilateral: T ≤ α/2tn-2 y T ≥ 1-α/2tn-2 Unilateral derecho: T ≥ 1-αtn-2 Unilateral izquierdo: T ≤ αtn-2
Ejemplo: Contrastar si al aumentar el salario (X) aumenta el absentismo (Y) con α=0,01. 1. Hipótesis
H0: β ≤ 0 H1: β > 0
Universidad Autónoma de Madrid
Análisis de Datos en Psicología II Tema 8
8
2. Supuestos: normalidad, independencia, homocedasticidad. 3. Estadístico de contraste
1,23/75,6131
262086,1
)2( / )'(
)(
2
2
==
−−
−=
∑
∑
iii
ii
nYY
XXBT
Distribución tn-2 = t3 4. Zona crítica
Unilateral derecho: 0,99t3 = 4,541
5. Decisión Mantener H0
Universidad Autónoma de Madrid
Análisis de Datos en Psicología II Tema 8
9
1.2 Regresión en formato ANOVA
Combinación lineal de variables
ZkYkX 21 += Ejemplo: Un examen tiene dos partes: teórica y práctica. La parte teórica (Y) cuenta un 40% y la parte práctica (Z) un 60% de la nota final (X).
ZYX 4,00,6 += Si una persona obtiene en el teórico un 4,5 y en el práctico un 6,1 su puntuación final es:
14,51,6)4,0(0,6)4,5( =+=X
Universidad Autónoma de Madrid
Análisis de Datos en Psicología II Tema 8
10
La media y la varianza de X son:
)()()( 21 ZEkYEkXE += ),(2)()()( 21
22
21 ZYCovkkZVarkYVarkXVar ++=
Ejemplo: Si en el teórico y el práctico se obtiene los siguientes resultados:
Y Z Media 5,1 6,7 Varianza 3,8 4,2
Cov (Y, Z) = 3,1 Entonces los resultados para la nota final son:
74,57,6)4,0(1,5)6,0()( =+=XE
3,528
1,3)4,0)(6,0(2)2,4(4,0)8,3(6,0)( 22
=
++=XVar
Universidad Autónoma de Madrid
Análisis de Datos en Psicología II Tema 8
11
El modelo es: Yi = A +BXi + Ei Por lo que : Yi = Y'i + Ei De donde se deduce:
)( )(
)()'()(
i
i
iii
XBEABXAEEEYEYE
+=+=+=
222
22'
2
EX
EYY
SSB
SSS
+=
+=
Es decir: SCT = SCR + SCE Ejemplo: Vimos que 179=X y 380=Y . Se comprueba que:
E(Yi) = 47,06 + (1,86)179 = 380
Universidad Autónoma de Madrid
Análisis de Datos en Psicología II Tema 8
12
( )∑ ∑∑ −=−=i
ii
ii n
YYYYSCT
2
22)(
)()'( 22 XSCTBYYSCRi
i =−= ∑
SCRSCTYYESCEi
iii
i −=−== ∑∑ 22 )'(
Tabla de ANOVA
FV SC gl MC F
Regresión SCR 1 1SCR
MCEMCR
Error SCE n-2 2−n
SCE
Total SCT n-1 F ~ F1, n-2 H0: β = 0 (no hay relación lineal)
Universidad Autónoma de Madrid
Análisis de Datos en Psicología II Tema 8
13
Ejemplo:
( )∑ ∑ =−=−=i
ii n
YYSCT 15184
51900737184
222
75,6131)63,15()09,26( 222 =−++−== ∑ L
iiESCE
25,905275,613115184 =−=−= SCESCTSCR FV SC gl MC F R 9052,25 1 9052,25 4,429 E 6131,75 n-2=3 2043,92 T 15184 n-1=4 F ~ F1, 3 1-αF1, n-2 = 0,99F1, 3 = 34,12 Mantenemos H0. No hay relación lineal.
Universidad Autónoma de Madrid
Análisis de Datos en Psicología II Tema 8
14
2. Correlación de Pearson Objetivo: cuantificar la intensidad y sentido de la relación entre dos variables X e Y cuantitativas. Cálculo de rxy en la muestra:
∑ ∑∑ ∑
∑ ∑∑
−
−
−=
i iii
i iii
i iii
iii
xy
YYnXXn
YXYXnr
22
22
La correlación al cuadrado resulta ser:
SCTSCR
r =2
(Nota: SCT = SCR + SCE) r2 es el equivalente en regresión a las medidas de tamaño del efecto del ANOVA: η2, ε2 y ω2.
Universidad Autónoma de Madrid
Análisis de Datos en Psicología II Tema 8
15
Contraste sobre ρxy
1. Hipótesis Bilateral: H0: ρXY = 0; H1: ρXY ≠ 0 U. derecho: H0: ρXY ≤ 0 ; H1: ρXY > 0 U. izquierdo: H0: ρXY≥ 0 ; H1: ρXY < 0 2. Supuestos Independencia Normalidad 3. Estadístico de contraste
212
XY
XY
rnrT
−
−=
Cuya distribución es tn-2 4. Zona crítica
Bilateral: T ≤ α/2 t n-2 y T ≥ 1-α/2 t n-2 Unilateral derecho: T ≥ 1-α t n-2 Unilateral izquierdo: T ≤ α t n-2
Universidad Autónoma de Madrid
Análisis de Datos en Psicología II Tema 8
16
Ejemplo: Comprobar si el salario (X) correlaciona positivamente con el absentismo (Y) utilizando α=0,01. 1. Hipótesis
H0: ρXY ≤ 0 ; H1: ρXY > 0 2. Supuestos: Independencia Normalidad 3. Estadístico de contraste
772,01900737184)5(895162825)5(
1900)895(344970)5(22
22
22
=−−
−=
−
−
−=
∑ ∑∑ ∑
∑ ∑∑
i iii
i iii
i iii
iii
XY
YYnXXn
YXYXnr
Universidad Autónoma de Madrid
Análisis de Datos en Psicología II Tema 8
17
1,2772,01
3772,01
222
=−
=−
−=
XY
XY
rnrT
Distribución tn-2 = t3
4. Zona crítica: T ≥ 0,99 t 3 = 4,541 5. Decisión. Mantener H0
Universidad Autónoma de Madrid
Análisis de Datos en Psicología II Tema 8
18
Formulario del tema 8 Contraste sobre β
∑
∑−−
−=
iii
ii
nYY
XXBT
)2( / )'(
)(
2
2
T ~ tn-2
Regresión en formato ANOVA
( )∑ ∑∑ −=−=i
ii
ii n
YYYYSCT
2
22)(
)()'( 22 XSCTBYYSCRi
i =−= ∑
SCRSCTYYESCEi
iii
i −=−== ∑∑ 22 )'(
GLT = n-1 GLR = 1
GLE = n-2
Universidad Autónoma de Madrid
Análisis de Datos en Psicología II Tema 8
19
Contraste sobre ρ
212
XY
XY
rnrT
−
−=
T ~ tn-2
Universidad Autónoma de Madrid
Análisis de Datos en Psicología II Tema 8
20
Ejercicios recomendados del libro: 8.3 8.5 8.6 8.9 8.10