8. Comparación de poblaciones
Transcript of 8. Comparación de poblaciones
Informática. Universidad Carlos III de Madrid1
8. Comparación de poblaciones
Informática. Universidad Carlos III de Madrid2
Tema 8: Comparación de poblaciones
2. Comparación de dos medias usando muestras independientes
3. Comparación de dos medias usando datos emparejados
4. Comparación de dos proporciones
5. Comparación de dos varianzas en poblaciones normales
1. Introducción
Informática. Universidad Carlos III de Madrid3
1. Introducción
Población 1 Población 21X
2X
1μ 2μ
1σ 2σ
11X 12X 13X11nX... 21X 22X 23X
22nX...
1x21s
2x22s
POBLACIONES NO OBSERVABLES
1 2¿ ?μ μ=2 2
1 2¿ ?σ σ=
Informática. Universidad Carlos III de Madrid4
Ejemplo
Tomamos una muestra de rodamientos de dos fabricantes distintos y medimos su capacidad de carga (peso que admite hasta deformación)
¿Son diferentes ambos tipos de rodamientos?
Ejemplo
Se tienen dos sistemas diferentes para acceder a la red. Se toman un conjunto de tiempos de acceso para cada sistema.
¿Cuál es más rápido?
Ejemplo
Se tienen los pesos de niños y niñas recién nacidos en un hopitaldurante Semana Santa. A la vista de esos datos
¿Pesan al nacer los niños igual que las niñas?
Informática. Universidad Carlos III de Madrid5
Tema 8: Comparación de poblaciones
2. Comparación de dos medias usando muestras independientes
3. Comparación de dos medias usando datos emparejados
4. Comparación de dos proporciones
5. Comparación de dos varianzas en poblaciones normales
1. Introducción
Informática. Universidad Carlos III de Madrid6
2. Comparación de dos medias usando muestras independientes
1
11
11
n
ii
XX
n==∑ ( )
1 21 1
2 11
1
ˆ1
n
ii
X XS
n=
−=
−
∑
1 2¿ ?μ μ−
2
21
22
n
ii
XX
n==∑ ( )
2 22 2
2 12
2
ˆ1
n
ii
X XS
n=
−=
−
∑
Con poblaciones normales o muestras grandes...
21
1 11
,X Nnσμ
⎛ ⎞⎜ ⎟⎝ ⎠
∼22
2 22
,X Nnσ
μ⎛ ⎞⎜ ⎟⎝ ⎠
∼
2 21 2
1 2 1 21 2
,X X Nn nσ σμ μ
⎛ ⎞− − +⎜ ⎟
⎝ ⎠∼
Informática. Universidad Carlos III de Madrid7
2. Comparación de dos medias usando muestras independientes
1 2¿ ?μ μ−
Intervalo de confianza
2 21 2
1 2 1 2 / 21 2
(1 ) :IC x x zn nασ σα μ μ
⎧ ⎫⎪ ⎪− − ∈ − ± +⎨ ⎬⎪ ⎪⎩ ⎭
2 21 2
1 2 1 21 2
,X X Nn nσ σμ μ
⎛ ⎞− − +⎜ ⎟
⎝ ⎠∼
( ) ( )( )1 2 1 2
2 21 2
1 2
0,1X X
N
n n
μ μ
σ σ
− − −
+
∼
parámetroestimación
valor de tablas
desv. típica del estimador
Informática. Universidad Carlos III de Madrid8
2. Comparación de dos medias usando muestras independientes
1 2¿ ?μ μ−
Intervalo de confianza
2 21 2
1 2 1 2 / 21 2
(1 ) :IC x x zn nασ σα μ μ
⎧ ⎫⎪ ⎪− − ∈ − ± +⎨ ⎬⎪ ⎪⎩ ⎭
2 21 2
1 2 1 21 2
,X X Nn nσ σμ μ
⎛ ⎞− − +⎜ ⎟
⎝ ⎠∼
( ) ( )( )1 2 1 2
2 21 2
1 2
0,1X X
N
n n
μ μ
σ σ
− − −
+
∼
1 2 1 2 / 21 2
1 1(1 ) :IC x x zn nαα μ μ σ
⎧ ⎫⎪ ⎪− − ∈ − ± +⎨ ⎬⎪ ⎪⎩ ⎭
2 21 2si σ σ=
Informática. Universidad Carlos III de Madrid9
2 22 1 1 2 2
1 2
ˆ ˆ( 1) ( 1)ˆ2T
n S n SSn n
− + −=
+ −
Con muestras grandes, la aproximación a la normal sigue siendo válida si sustituimos parámetros por estimaciones
Muestras grandes
2 21 2
1 2 1 2 / 21 2
ˆ ˆ(1 ) : s sIC x x z
n nαα μ μ⎧ ⎫⎪ ⎪− − ∈ − ± +⎨ ⎬⎪ ⎪⎩ ⎭
1 2 1 2 / 21 2
1 1ˆ(1 ) : TIC x x z sn nαα μ μ
⎧ ⎫⎪ ⎪− − ∈ − ± +⎨ ⎬⎪ ⎪⎩ ⎭
Poblaciones normales (muestras pequeñas)
2 21 2
1 2 1 2 ; / 21 2
ˆ ˆ(1 ) : v
s sIC x x tn nαα μ μ
⎧ ⎫⎪ ⎪− − ∈ − ± +⎨ ⎬⎪ ⎪⎩ ⎭
1 21 2 1 2 2; / 21 2
1 1ˆ(1 ) : n n TIC x x t sn nαα μ μ + −
⎧ ⎫⎪ ⎪− − ∈ − ± +⎨ ⎬⎪ ⎪⎩ ⎭
22 21 2
1 22 22 2
1 2
1 1 2 2
ˆ ˆ
ˆ ˆ1 11 1
S Sn n
vS S
n n n n
⎛ ⎞+⎜ ⎟
⎝ ⎠⎛ ⎞ ⎛ ⎞
+⎜ ⎟ ⎜ ⎟− −⎝ ⎠ ⎝ ⎠
Informática. Universidad Carlos III de Madrid10
Se quiere elegir entre dos tipos de material textil para construir sistemas de amarre. Para ello se mide la tensión de rotura de varias cintas de prueba utilizando dos tipos de material. Se toman 24 datos usando el material M1, obteniéndose (kg/mm²) y . Se toman además 30 datos usando el material M2, obteniéndose , Se sabe que las tensiones de rotura se distribuyen como una normal. Se supondrá, además, que las varianzas de ambas poblaciones son iguales.
Ejemplo
1 87x = 1 2s =2 75x = 2ˆ 2.3s =
Si las varianzas son iguales, las muestras pequeñas, pero las poblaciones son normales
1 21 2 1 2 2; / 21 2
1 1ˆ(1 ) : n n TIC x x t sn nαα μ μ + −
⎧ ⎫⎪ ⎪− − ∈ − ± +⎨ ⎬⎪ ⎪⎩ ⎭
• Hay evidencia a favor de M1 (el intervalo no tiene al 0)
• M1 aventaja a M2 entre 10.87 y 13.13 unidades por término medio, (con una confianza del 95%)
Informática. Universidad Carlos III de Madrid11
Contrastes de hipótesis
0 1 2 1 1 2: ; :H Hμ μ μ μ≥ <
0 1 2 1 1 2: ; :H Hμ μ μ μ≤ >
0 1 2 1 1 2: ; :H Hμ μ μ μ= ≠(a)
(b)
(c)
PASO 1: PASO 2:
2 21 2σ σ≠
2 21 2σ σ=
PASO 3:
Muestras grandes
N(0,1)
Poblaciones normales
N(0,1)
N(0,1)
1 2 2n nt + −
vt22 2
1 2
1 22 22 2
1 2
1 1 2 2
ˆ ˆ
ˆ ˆ1 11 1
S Sn n
vS S
n n n n
⎛ ⎞+⎜ ⎟
⎝ ⎠⎛ ⎞ ⎛ ⎞
+⎜ ⎟ ⎜ ⎟− −⎝ ⎠ ⎝ ⎠
Informática. Universidad Carlos III de Madrid12
Contrastes de hipótesis
0 1 2 1 1 2: ; :H Hμ μ μ μ≥ <
0 1 2 1 1 2: ; :H Hμ μ μ μ≤ >
0 1 2 1 1 2: ; :H Hμ μ μ μ= ≠(a)
(b)
(c)
PASO 1:
PASO 4:Región de rechazo
Rechazo H0 Rechazo H0
Acepto H0
(a)
Rechazo H0
Acepto H0
(b)
Rechazo H0 Acepto H0
(c)
La región de rechazo está donde señala H1
α /2zα− /2zα /2tα− /2t
αzαt
α−zα−t
Informática. Universidad Carlos III de Madrid13
Ejemplo Se quiere comparar la precisión de dos calibres diferentes. Para ello se comparan las mediciones realizadas en 100 clavos procedentes del mismo lote de fabricación. Se miden 50 clavos con un calibre y los otros 50 con otro calibre distinto. ¿Cómo son las mediciones medias de cada calibre?
Los clavos son del mismo tipo. Las diferencias entre los calibres no se deben a los clavos
¿Es esa diferencia significativa?
1 2x x≠ 1 2¿ ?μ μ≠
Muestras grandes
Varianzas tal vez distintas
Informática. Universidad Carlos III de Madrid14
Ejemplo Se quiere comparar la precisión de dos calibres diferentes. Para ello se comparan las mediciones realizadas en 100 clavos procedentes del mismo lote de fabricación. Se miden 50 clavos con un calibre y los otros 50 con otro calibre distinto. ¿Cómo son las mediciones medias de cada calibre?
Los clavos son del mismo tipo. Las diferencias entre los calibres no se deben a los clavos
¿Es esa diferencia significativa?
Rechazo H0
Acepto H0
-1.96 1.96
Rechazamos H0
La diferencia entre las medias es significativa
Rechazo H0
Informática. Universidad Carlos III de Madrid15
Tema 8: Comparación de poblaciones
2. Comparación de dos medias usando muestras independientes
3. Comparación de dos medias usando datos emparejados
4. Comparación de dos proporciones
5. Comparación de dos varianzas en poblaciones normales
1. Introducción
Informática. Universidad Carlos III de Madrid16
3. Comparación de dos medias usando datos emparejados
• Antes/después de cierto cambio
• Antes/después de un tratamiento
• Con distintos aparatos de medida
De cada elemento: 2 datos
Ejemplo:
• Elemento 1
• Elemento 2
• Elemento 3
...
• Elemento n
X11
X12
X13
...
X1n
X21
X22
X23
...
X2n
X1 X2
Y1 =X11 -X21
Y2 =X12 -X22
Y3 =X13 -X23
...
Yn =X1n -X2n
Y
1μ 2μ Yμ
1 2¿ ?μ μ= ¿ 0 ?Yμ = Como en temas anteriores
Informática. Universidad Carlos III de Madrid17
Ejemplo Se quiere comparar la precisión de un calibre analógico y uno digital. Para ello mide la longitud de 95 tornillos del mismo tipo. Cada tornillo se ha medido dos veces, una vez con un calibre digital (muy preciso) y una segunda vez con un calibre analógico (menos preciso).
¿Hay diferencias?
Y=diferencia entre la medición digital y la analógica
Estadístico de contraste
Como la muestra es
grande0
0ˆ /y
yTS n
−=
Informática. Universidad Carlos III de Madrid18
Ejemplo Se quiere comparar la precisión de un calibre analógico y uno digital. Para ello mide la longitud de 95 tornillos del mismo tipo. Cada tornillo se ha medido dos veces, una vez con un calibre digital (muy preciso) y una segunda vez con un calibre analógico (menos preciso).
¿Hay diferencias?
Como |t0|>1.96 Rechazamos H0
La diferencia media observada entre ambos calibres es pequeña, pero significativa
00
ˆ /y
yTS n
−=
Informática. Universidad Carlos III de Madrid19
Tema 8: Comparación de poblaciones
2. Comparación de dos medias usando muestras independientes
3. Comparación de dos medias usando datos emparejados
4. Comparación de dos proporciones
5. Comparación de dos varianzas en poblaciones normales
1. Introducción
Informática. Universidad Carlos III de Madrid20
4. Comparación de dos proporciones poblacionales
Población 1
Proporción de individuos con cierto atributo
p1
Población 2
Proporción de individuos con cierto atributo
p2
muestra n1
1pmuestra n2
2p
¿p1=p2?
Informática. Universidad Carlos III de Madrid21
4. Comparación de dos proporciones poblacionales
Población 1
Proporción de individuos con cierto atributo
p1
Población 2
Proporción de individuos con cierto atributo
p2
muestra n1
1pmuestra n2
2p
Informática. Universidad Carlos III de Madrid22
Intervalo de confianza
Contraste de hipótesis
0 1 2 1 1 2: ; :H p p H p p≥ <
0 1 2 1 1 2: ; :H p p H p p≤ >
0 1 2 1 1 2: ; :H p p H p p= ≠
PASO 1:PASO 3:
Muestras grandes
N(0,1)
PASO 2:
conPASO 4:
La región de rechazo está donde señala H1
Informática. Universidad Carlos III de Madrid23
Ejemplo ¿Aprueban la Estadística el mismo porcentaje de chicas que de chicos en Ingeniería Industrial?
Tomamos una muestra de alumnos: examen de junio del 2003
Alumnos de 1º de I. Industrial
270 alumnos
225 chicos. 30% de aprobados
45 chicas. 42% de aprobados
1 1 2 20
1 2
ˆ ˆ 225 0.30 45 0.42ˆ 0.32225 45
n p n ppn n+ × + ×
= = =+ +
1 20
0 01 2
ˆ ˆ 0.30 0.42 1.571 11 1 0.32 0.68ˆ ˆ
225 45
p pz
p qn n
− −= = = −
⎛ ⎞ ⎛ ⎞× ++ ⎜ ⎟⎜ ⎟ ⎝ ⎠⎝ ⎠Rechazo H0 Rechazo H0
Acepto H0
-1.96 1.96
0 0.025| | 1.96z z< =Como
La diferencia encontrada en la muestra no es significativa al 5%.
No podemos rechazar que ambos tengan la misma probabilidad de aprobar
Informática. Universidad Carlos III de Madrid24
Tema 8: Comparación de poblaciones
2. Comparación de dos medias usando muestras independientes
3. Comparación de dos medias usando datos emparejados
4. Comparación de dos proporciones
5. Comparación de dos varianzas en poblaciones normales
1. Introducción
Informática. Universidad Carlos III de Madrid25
( )1 2
1 12 1
11
ˆ1
n
ii
X XS
n=
−=
−
∑
2 21 2¿ / ?σ σ
( )2 2
2 22 12
2
ˆ1
n
ii
X XS
n=
−=
−
∑
5. Comparación de dos varianzas en poblaciones normales
Con poblaciones normales
1 2
2 21 1
1, 12 22 2
ˆ /ˆ / n nSF FS
σσ − −= ∼
Distribución F de Fisher
1 2,g gF
grados de libertad del numerador
grados de libertad del denominador
Informática. Universidad Carlos III de Madrid26
5. Comparación de dos varianzas en poblaciones normales
• Perfil parecido a la chi-cuadrado
• La asimetría disminuye al aumentar los grados de libertad
• La moda está cerca del 1
Informática. Universidad Carlos III de Madrid27
5. Comparación de dos varianzas en poblaciones normales
1 2
2 21 1
1, 12 22 2
ˆ /ˆ / n nSF FS
σσ − −= ∼
Informática. Universidad Carlos III de Madrid28
5. Comparación de dos varianzas en poblaciones normales
Intervalo de confianza
Informática. Universidad Carlos III de Madrid29
Ejemplo Se quiere comparar la precisión de dos calibres diferentes. Para ello se comparan las mediciones realizadas en 100 clavos procedentes del mismo lote de fabricación. Se miden 50 clavos con un calibre y los otros 50 con otro calibre distinto. ¿Cómo son las mediciones medias de cada calibre?
21 7.4s = 2
2ˆ 21.9s =
49,49;0.975 0.57F =
49,49;0.025 1.76F =
• El intervalo está lejos de contener el 1
• Hay mucha evidencia de que las varianzas son distintas
• El calibre 1 es mucho más preciso que el 2
Informática. Universidad Carlos III de Madrid30
5. Comparación de dos varianzas en poblaciones normales
Contraste de hipótesis
1 2
2 21 1
1, 12 22 2
ˆ /ˆ / n nSF FS
σσ − −= ∼
21
0 22
ˆˆSFS
=
Estadístico de contraste Distribución de referencia
1 20 1, 1n nF F − −∼
Informática. Universidad Carlos III de Madrid31
PASO 1: PASO 2:
PASO 3:
(a)
Rechazo H0 Rechazo H0
Acepto H0
(a)
(b)
(c)
PASO 4:
La región de rechazo está donde señala H1
Rechazo H0Acepto H0
(b)
Rechazo H0Acepto H0
2 2 2 20 1 2 1 1 2: ; :H H
(c)
σ σ σ σ= ≠
2 2 2 20 1 2 1 1 2: ; :H Hσ σ σ σ≥ <
2 2 2 20 1 2 1 1 2: ; :H Hσ σ σ σ≤ >
21
0 22
ˆˆSFS
=
1 20 1, 1n nF F − −∼
1 21, 1;1 / 2n nF α− − − 1 21, 1; / 2n nF α− −
1 21, 1;1n nF α− − −
1 21, 1;n nF α− −
Informática. Universidad Carlos III de Madrid32
Ejemplo En el problema de la elección entre dos tipos de material para construir sistemas de amarre, supusimos que eran varianzas iguales. Sabiendo que las poblaciones son normales, contrastar esa igualdad
Material M1: 24 datos, 1 2s =
2ˆ 2.3s =Material M2: 30 datos,
2
0 2
2 0.762.3
f = =
2 2 2 20 1 2 1 1 2: ; :H Hσ σ σ σ= ≠
Rechazo H0 Rechazo H0
Acepto H0
23,29;0.975 0.44F = 23,29;0.025 2.17F =
Se acepta, con un nivel de significación del 5% que las varianzas son iguales
La diferencia observada en la varianza de las muestras, no
es significativa