8. Comparación de poblaciones

32
Informática. Universidad Carlos III de Madrid 1 8. Comparación de poblaciones

Transcript of 8. Comparación de poblaciones

Page 1: 8. Comparación de poblaciones

Informática. Universidad Carlos III de Madrid1

8. Comparación de poblaciones

Page 2: 8. Comparación de poblaciones

Informática. Universidad Carlos III de Madrid2

Tema 8: Comparación de poblaciones

2. Comparación de dos medias usando muestras independientes

3. Comparación de dos medias usando datos emparejados

4. Comparación de dos proporciones

5. Comparación de dos varianzas en poblaciones normales

1. Introducción

Page 3: 8. Comparación de poblaciones

Informática. Universidad Carlos III de Madrid3

1. Introducción

Población 1 Población 21X

2X

1μ 2μ

1σ 2σ

11X 12X 13X11nX... 21X 22X 23X

22nX...

1x21s

2x22s

POBLACIONES NO OBSERVABLES

1 2¿ ?μ μ=2 2

1 2¿ ?σ σ=

Page 4: 8. Comparación de poblaciones

Informática. Universidad Carlos III de Madrid4

Ejemplo

Tomamos una muestra de rodamientos de dos fabricantes distintos y medimos su capacidad de carga (peso que admite hasta deformación)

¿Son diferentes ambos tipos de rodamientos?

Ejemplo

Se tienen dos sistemas diferentes para acceder a la red. Se toman un conjunto de tiempos de acceso para cada sistema.

¿Cuál es más rápido?

Ejemplo

Se tienen los pesos de niños y niñas recién nacidos en un hopitaldurante Semana Santa. A la vista de esos datos

¿Pesan al nacer los niños igual que las niñas?

Page 5: 8. Comparación de poblaciones

Informática. Universidad Carlos III de Madrid5

Tema 8: Comparación de poblaciones

2. Comparación de dos medias usando muestras independientes

3. Comparación de dos medias usando datos emparejados

4. Comparación de dos proporciones

5. Comparación de dos varianzas en poblaciones normales

1. Introducción

Page 6: 8. Comparación de poblaciones

Informática. Universidad Carlos III de Madrid6

2. Comparación de dos medias usando muestras independientes

1

11

11

n

ii

XX

n==∑ ( )

1 21 1

2 11

1

ˆ1

n

ii

X XS

n=

−=

1 2¿ ?μ μ−

2

21

22

n

ii

XX

n==∑ ( )

2 22 2

2 12

2

ˆ1

n

ii

X XS

n=

−=

Con poblaciones normales o muestras grandes...

21

1 11

,X Nnσμ

⎛ ⎞⎜ ⎟⎝ ⎠

∼22

2 22

,X Nnσ

μ⎛ ⎞⎜ ⎟⎝ ⎠

2 21 2

1 2 1 21 2

,X X Nn nσ σμ μ

⎛ ⎞− − +⎜ ⎟

⎝ ⎠∼

Page 7: 8. Comparación de poblaciones

Informática. Universidad Carlos III de Madrid7

2. Comparación de dos medias usando muestras independientes

1 2¿ ?μ μ−

Intervalo de confianza

2 21 2

1 2 1 2 / 21 2

(1 ) :IC x x zn nασ σα μ μ

⎧ ⎫⎪ ⎪− − ∈ − ± +⎨ ⎬⎪ ⎪⎩ ⎭

2 21 2

1 2 1 21 2

,X X Nn nσ σμ μ

⎛ ⎞− − +⎜ ⎟

⎝ ⎠∼

( ) ( )( )1 2 1 2

2 21 2

1 2

0,1X X

N

n n

μ μ

σ σ

− − −

+

parámetroestimación

valor de tablas

desv. típica del estimador

Page 8: 8. Comparación de poblaciones

Informática. Universidad Carlos III de Madrid8

2. Comparación de dos medias usando muestras independientes

1 2¿ ?μ μ−

Intervalo de confianza

2 21 2

1 2 1 2 / 21 2

(1 ) :IC x x zn nασ σα μ μ

⎧ ⎫⎪ ⎪− − ∈ − ± +⎨ ⎬⎪ ⎪⎩ ⎭

2 21 2

1 2 1 21 2

,X X Nn nσ σμ μ

⎛ ⎞− − +⎜ ⎟

⎝ ⎠∼

( ) ( )( )1 2 1 2

2 21 2

1 2

0,1X X

N

n n

μ μ

σ σ

− − −

+

1 2 1 2 / 21 2

1 1(1 ) :IC x x zn nαα μ μ σ

⎧ ⎫⎪ ⎪− − ∈ − ± +⎨ ⎬⎪ ⎪⎩ ⎭

2 21 2si σ σ=

Page 9: 8. Comparación de poblaciones

Informática. Universidad Carlos III de Madrid9

2 22 1 1 2 2

1 2

ˆ ˆ( 1) ( 1)ˆ2T

n S n SSn n

− + −=

+ −

Con muestras grandes, la aproximación a la normal sigue siendo válida si sustituimos parámetros por estimaciones

Muestras grandes

2 21 2

1 2 1 2 / 21 2

ˆ ˆ(1 ) : s sIC x x z

n nαα μ μ⎧ ⎫⎪ ⎪− − ∈ − ± +⎨ ⎬⎪ ⎪⎩ ⎭

1 2 1 2 / 21 2

1 1ˆ(1 ) : TIC x x z sn nαα μ μ

⎧ ⎫⎪ ⎪− − ∈ − ± +⎨ ⎬⎪ ⎪⎩ ⎭

Poblaciones normales (muestras pequeñas)

2 21 2

1 2 1 2 ; / 21 2

ˆ ˆ(1 ) : v

s sIC x x tn nαα μ μ

⎧ ⎫⎪ ⎪− − ∈ − ± +⎨ ⎬⎪ ⎪⎩ ⎭

1 21 2 1 2 2; / 21 2

1 1ˆ(1 ) : n n TIC x x t sn nαα μ μ + −

⎧ ⎫⎪ ⎪− − ∈ − ± +⎨ ⎬⎪ ⎪⎩ ⎭

22 21 2

1 22 22 2

1 2

1 1 2 2

ˆ ˆ

ˆ ˆ1 11 1

S Sn n

vS S

n n n n

⎛ ⎞+⎜ ⎟

⎝ ⎠⎛ ⎞ ⎛ ⎞

+⎜ ⎟ ⎜ ⎟− −⎝ ⎠ ⎝ ⎠

Page 10: 8. Comparación de poblaciones

Informática. Universidad Carlos III de Madrid10

Se quiere elegir entre dos tipos de material textil para construir sistemas de amarre. Para ello se mide la tensión de rotura de varias cintas de prueba utilizando dos tipos de material. Se toman 24 datos usando el material M1, obteniéndose (kg/mm²) y . Se toman además 30 datos usando el material M2, obteniéndose , Se sabe que las tensiones de rotura se distribuyen como una normal. Se supondrá, además, que las varianzas de ambas poblaciones son iguales.

Ejemplo

1 87x = 1 2s =2 75x = 2ˆ 2.3s =

Si las varianzas son iguales, las muestras pequeñas, pero las poblaciones son normales

1 21 2 1 2 2; / 21 2

1 1ˆ(1 ) : n n TIC x x t sn nαα μ μ + −

⎧ ⎫⎪ ⎪− − ∈ − ± +⎨ ⎬⎪ ⎪⎩ ⎭

• Hay evidencia a favor de M1 (el intervalo no tiene al 0)

• M1 aventaja a M2 entre 10.87 y 13.13 unidades por término medio, (con una confianza del 95%)

Page 11: 8. Comparación de poblaciones

Informática. Universidad Carlos III de Madrid11

Contrastes de hipótesis

0 1 2 1 1 2: ; :H Hμ μ μ μ≥ <

0 1 2 1 1 2: ; :H Hμ μ μ μ≤ >

0 1 2 1 1 2: ; :H Hμ μ μ μ= ≠(a)

(b)

(c)

PASO 1: PASO 2:

2 21 2σ σ≠

2 21 2σ σ=

PASO 3:

Muestras grandes

N(0,1)

Poblaciones normales

N(0,1)

N(0,1)

1 2 2n nt + −

vt22 2

1 2

1 22 22 2

1 2

1 1 2 2

ˆ ˆ

ˆ ˆ1 11 1

S Sn n

vS S

n n n n

⎛ ⎞+⎜ ⎟

⎝ ⎠⎛ ⎞ ⎛ ⎞

+⎜ ⎟ ⎜ ⎟− −⎝ ⎠ ⎝ ⎠

Page 12: 8. Comparación de poblaciones

Informática. Universidad Carlos III de Madrid12

Contrastes de hipótesis

0 1 2 1 1 2: ; :H Hμ μ μ μ≥ <

0 1 2 1 1 2: ; :H Hμ μ μ μ≤ >

0 1 2 1 1 2: ; :H Hμ μ μ μ= ≠(a)

(b)

(c)

PASO 1:

PASO 4:Región de rechazo

Rechazo H0 Rechazo H0

Acepto H0

(a)

Rechazo H0

Acepto H0

(b)

Rechazo H0 Acepto H0

(c)

La región de rechazo está donde señala H1

α /2zα− /2zα /2tα− /2t

αzαt

α−zα−t

Page 13: 8. Comparación de poblaciones

Informática. Universidad Carlos III de Madrid13

Ejemplo Se quiere comparar la precisión de dos calibres diferentes. Para ello se comparan las mediciones realizadas en 100 clavos procedentes del mismo lote de fabricación. Se miden 50 clavos con un calibre y los otros 50 con otro calibre distinto. ¿Cómo son las mediciones medias de cada calibre?

Los clavos son del mismo tipo. Las diferencias entre los calibres no se deben a los clavos

¿Es esa diferencia significativa?

1 2x x≠ 1 2¿ ?μ μ≠

Muestras grandes

Varianzas tal vez distintas

Page 14: 8. Comparación de poblaciones

Informática. Universidad Carlos III de Madrid14

Ejemplo Se quiere comparar la precisión de dos calibres diferentes. Para ello se comparan las mediciones realizadas en 100 clavos procedentes del mismo lote de fabricación. Se miden 50 clavos con un calibre y los otros 50 con otro calibre distinto. ¿Cómo son las mediciones medias de cada calibre?

Los clavos son del mismo tipo. Las diferencias entre los calibres no se deben a los clavos

¿Es esa diferencia significativa?

Rechazo H0

Acepto H0

-1.96 1.96

Rechazamos H0

La diferencia entre las medias es significativa

Rechazo H0

Page 15: 8. Comparación de poblaciones

Informática. Universidad Carlos III de Madrid15

Tema 8: Comparación de poblaciones

2. Comparación de dos medias usando muestras independientes

3. Comparación de dos medias usando datos emparejados

4. Comparación de dos proporciones

5. Comparación de dos varianzas en poblaciones normales

1. Introducción

Page 16: 8. Comparación de poblaciones

Informática. Universidad Carlos III de Madrid16

3. Comparación de dos medias usando datos emparejados

• Antes/después de cierto cambio

• Antes/después de un tratamiento

• Con distintos aparatos de medida

De cada elemento: 2 datos

Ejemplo:

• Elemento 1

• Elemento 2

• Elemento 3

...

• Elemento n

X11

X12

X13

...

X1n

X21

X22

X23

...

X2n

X1 X2

Y1 =X11 -X21

Y2 =X12 -X22

Y3 =X13 -X23

...

Yn =X1n -X2n

Y

1μ 2μ Yμ

1 2¿ ?μ μ= ¿ 0 ?Yμ = Como en temas anteriores

Page 17: 8. Comparación de poblaciones

Informática. Universidad Carlos III de Madrid17

Ejemplo Se quiere comparar la precisión de un calibre analógico y uno digital. Para ello mide la longitud de 95 tornillos del mismo tipo. Cada tornillo se ha medido dos veces, una vez con un calibre digital (muy preciso) y una segunda vez con un calibre analógico (menos preciso).

¿Hay diferencias?

Y=diferencia entre la medición digital y la analógica

Estadístico de contraste

Como la muestra es

grande0

0ˆ /y

yTS n

−=

Page 18: 8. Comparación de poblaciones

Informática. Universidad Carlos III de Madrid18

Ejemplo Se quiere comparar la precisión de un calibre analógico y uno digital. Para ello mide la longitud de 95 tornillos del mismo tipo. Cada tornillo se ha medido dos veces, una vez con un calibre digital (muy preciso) y una segunda vez con un calibre analógico (menos preciso).

¿Hay diferencias?

Como |t0|>1.96 Rechazamos H0

La diferencia media observada entre ambos calibres es pequeña, pero significativa

00

ˆ /y

yTS n

−=

Page 19: 8. Comparación de poblaciones

Informática. Universidad Carlos III de Madrid19

Tema 8: Comparación de poblaciones

2. Comparación de dos medias usando muestras independientes

3. Comparación de dos medias usando datos emparejados

4. Comparación de dos proporciones

5. Comparación de dos varianzas en poblaciones normales

1. Introducción

Page 20: 8. Comparación de poblaciones

Informática. Universidad Carlos III de Madrid20

4. Comparación de dos proporciones poblacionales

Población 1

Proporción de individuos con cierto atributo

p1

Población 2

Proporción de individuos con cierto atributo

p2

muestra n1

1pmuestra n2

2p

¿p1=p2?

Page 21: 8. Comparación de poblaciones

Informática. Universidad Carlos III de Madrid21

4. Comparación de dos proporciones poblacionales

Población 1

Proporción de individuos con cierto atributo

p1

Población 2

Proporción de individuos con cierto atributo

p2

muestra n1

1pmuestra n2

2p

Page 22: 8. Comparación de poblaciones

Informática. Universidad Carlos III de Madrid22

Intervalo de confianza

Contraste de hipótesis

0 1 2 1 1 2: ; :H p p H p p≥ <

0 1 2 1 1 2: ; :H p p H p p≤ >

0 1 2 1 1 2: ; :H p p H p p= ≠

PASO 1:PASO 3:

Muestras grandes

N(0,1)

PASO 2:

conPASO 4:

La región de rechazo está donde señala H1

Page 23: 8. Comparación de poblaciones

Informática. Universidad Carlos III de Madrid23

Ejemplo ¿Aprueban la Estadística el mismo porcentaje de chicas que de chicos en Ingeniería Industrial?

Tomamos una muestra de alumnos: examen de junio del 2003

Alumnos de 1º de I. Industrial

270 alumnos

225 chicos. 30% de aprobados

45 chicas. 42% de aprobados

1 1 2 20

1 2

ˆ ˆ 225 0.30 45 0.42ˆ 0.32225 45

n p n ppn n+ × + ×

= = =+ +

1 20

0 01 2

ˆ ˆ 0.30 0.42 1.571 11 1 0.32 0.68ˆ ˆ

225 45

p pz

p qn n

− −= = = −

⎛ ⎞ ⎛ ⎞× ++ ⎜ ⎟⎜ ⎟ ⎝ ⎠⎝ ⎠Rechazo H0 Rechazo H0

Acepto H0

-1.96 1.96

0 0.025| | 1.96z z< =Como

La diferencia encontrada en la muestra no es significativa al 5%.

No podemos rechazar que ambos tengan la misma probabilidad de aprobar

Page 24: 8. Comparación de poblaciones

Informática. Universidad Carlos III de Madrid24

Tema 8: Comparación de poblaciones

2. Comparación de dos medias usando muestras independientes

3. Comparación de dos medias usando datos emparejados

4. Comparación de dos proporciones

5. Comparación de dos varianzas en poblaciones normales

1. Introducción

Page 25: 8. Comparación de poblaciones

Informática. Universidad Carlos III de Madrid25

( )1 2

1 12 1

11

ˆ1

n

ii

X XS

n=

−=

2 21 2¿ / ?σ σ

( )2 2

2 22 12

2

ˆ1

n

ii

X XS

n=

−=

5. Comparación de dos varianzas en poblaciones normales

Con poblaciones normales

1 2

2 21 1

1, 12 22 2

ˆ /ˆ / n nSF FS

σσ − −= ∼

Distribución F de Fisher

1 2,g gF

grados de libertad del numerador

grados de libertad del denominador

Page 26: 8. Comparación de poblaciones

Informática. Universidad Carlos III de Madrid26

5. Comparación de dos varianzas en poblaciones normales

• Perfil parecido a la chi-cuadrado

• La asimetría disminuye al aumentar los grados de libertad

• La moda está cerca del 1

Page 27: 8. Comparación de poblaciones

Informática. Universidad Carlos III de Madrid27

5. Comparación de dos varianzas en poblaciones normales

1 2

2 21 1

1, 12 22 2

ˆ /ˆ / n nSF FS

σσ − −= ∼

Page 28: 8. Comparación de poblaciones

Informática. Universidad Carlos III de Madrid28

5. Comparación de dos varianzas en poblaciones normales

Intervalo de confianza

Page 29: 8. Comparación de poblaciones

Informática. Universidad Carlos III de Madrid29

Ejemplo Se quiere comparar la precisión de dos calibres diferentes. Para ello se comparan las mediciones realizadas en 100 clavos procedentes del mismo lote de fabricación. Se miden 50 clavos con un calibre y los otros 50 con otro calibre distinto. ¿Cómo son las mediciones medias de cada calibre?

21 7.4s = 2

2ˆ 21.9s =

49,49;0.975 0.57F =

49,49;0.025 1.76F =

• El intervalo está lejos de contener el 1

• Hay mucha evidencia de que las varianzas son distintas

• El calibre 1 es mucho más preciso que el 2

Page 30: 8. Comparación de poblaciones

Informática. Universidad Carlos III de Madrid30

5. Comparación de dos varianzas en poblaciones normales

Contraste de hipótesis

1 2

2 21 1

1, 12 22 2

ˆ /ˆ / n nSF FS

σσ − −= ∼

21

0 22

ˆˆSFS

=

Estadístico de contraste Distribución de referencia

1 20 1, 1n nF F − −∼

Page 31: 8. Comparación de poblaciones

Informática. Universidad Carlos III de Madrid31

PASO 1: PASO 2:

PASO 3:

(a)

Rechazo H0 Rechazo H0

Acepto H0

(a)

(b)

(c)

PASO 4:

La región de rechazo está donde señala H1

Rechazo H0Acepto H0

(b)

Rechazo H0Acepto H0

2 2 2 20 1 2 1 1 2: ; :H H

(c)

σ σ σ σ= ≠

2 2 2 20 1 2 1 1 2: ; :H Hσ σ σ σ≥ <

2 2 2 20 1 2 1 1 2: ; :H Hσ σ σ σ≤ >

21

0 22

ˆˆSFS

=

1 20 1, 1n nF F − −∼

1 21, 1;1 / 2n nF α− − − 1 21, 1; / 2n nF α− −

1 21, 1;1n nF α− − −

1 21, 1;n nF α− −

Page 32: 8. Comparación de poblaciones

Informática. Universidad Carlos III de Madrid32

Ejemplo En el problema de la elección entre dos tipos de material para construir sistemas de amarre, supusimos que eran varianzas iguales. Sabiendo que las poblaciones son normales, contrastar esa igualdad

Material M1: 24 datos, 1 2s =

2ˆ 2.3s =Material M2: 30 datos,

2

0 2

2 0.762.3

f = =

2 2 2 20 1 2 1 1 2: ; :H Hσ σ σ σ= ≠

Rechazo H0 Rechazo H0

Acepto H0

23,29;0.975 0.44F = 23,29;0.025 2.17F =

Se acepta, con un nivel de significación del 5% que las varianzas son iguales

La diferencia observada en la varianza de las muestras, no

es significativa