Tema 8 - UCMwebs.ucm.es/info/Astrof/POPIA/asignaturas/ana_dat_est/tema08.pdf · para muestras...
Embed Size (px)
Transcript of Tema 8 - UCMwebs.ucm.es/info/Astrof/POPIA/asignaturas/ana_dat_est/tema08.pdf · para muestras...
-
8. 8. Contrastes de hipContrastes de hipóótesis para varias muestrastesis para varias muestras8-1
Tema 8Tema 8Contrastes de HipContrastes de Hipóótesis para varias muestrastesis para varias muestras
Introducción. Contrastes clásicosMétodos no paramétricos
Test χ2 para varias muestrasTest exacto de FisherTest de Kolmogorov-SmirnovTest U de Wilcoxon-Mann-WhitneyTest H de Kruskal-WallisTest de rangos de Moses para la igualdad de varianzas
Métodos bayesianosEjemplo: cúmulos globulares de la Galaxia vs LMC
Introducción. Contrastes clásicosMétodos no paramétricos
Test χ2 para varias muestrasTest exacto de FisherTest de Kolmogorov-SmirnovTest U de Wilcoxon-Mann-WhitneyTest H de Kruskal-WallisTest de rangos de Moses para la igualdad de varianzas
Métodos bayesianosEjemplo: cúmulos globulares de la Galaxia vs LMC
-
8. 8. Contrastes de hipContrastes de hipóótesis para varias muestrastesis para varias muestras8-2
IntroducciIntroduccióón. Mn. Méétodos cltodos cláásicossicosQueremos saber si dos o más muestras han sido extraídas de la misma población. O, si han sido extraídas de diferentes poblaciones, en qué se diferencian éstas (¿media, dispersión?)
-
8. 8. Contrastes de hipContrastes de hipóótesis para varias muestrastesis para varias muestras8-3
Ejemplo: FunciEjemplo: Funcióón de luminosidad de cn de luminosidad de cúúmulos globulares en la mulos globulares en la Galaxia y en M31Galaxia y en M31
Variable: Var2, Distribution: Norm alChi -Square test = 3,13214, d f = 4 (ad justed) , p = 0,53596
-16 -15 -14 -13 -12 -11 -10 -9 -8 -7 -6 -5 -4
Category (upper l im i ts)
0
5
10
15
20
25
30
No.
of o
bser
vatio
ns
Variab le: Var2, Distribution: Norm alChi -Square test = 3,13214, d f = 4 (ad justed) , p = 0,53596
-16 -15 -14 -13 -12 -11 -10 -9 -8 -7 -6 -5 -4
Category (upper l im i ts)
0
5
10
15
20
25
30
No.
of o
bser
vatio
ns
DATOS: magnitudes K en:
• 81 cúmulos en la Galaxia (mag. absolutas)
• 360 cúmulos en M31 (mag. aparentes). Se asume un modulo de distancias m - M = 24.44 (calculado con cefeidas)
¿Es la función de luminosidad de cúmulos globulares universal?
Datos en: http://www.astrostatistics.psu.edu/datasets/glob_clus.html
Variable: Var2, Distribution: Norm alChi-Square test = 23,28073, df = 9 (adjusted) , p = 0,00560
10,010,5
11,011,5
12,012,5
13,013,5
14,014,5
15,015,5
16,016,5
17,017,5
18,018,5
19,0
Category (upper l im i ts)
0
10
20
30
40
50
60
70
80
No.
of o
bser
vatio
ns
Variab le: Var2, Distribution: Norm alChi-Square test = 23,28073, df = 9 (adjusted) , p = 0,00560
10,010,5
11,011,5
12,012,5
13,013,5
14,014,5
15,015,5
16,016,5
17,017,5
18,018,5
19,0
Category (upper l im i ts)
0
10
20
30
40
50
60
70
80
No.
of o
bser
vatio
ns
GALAXIA M 31
No normal
http://www.astrostatistics.psu.edu/datasets/glob_clus.html
-
8. 8. Contrastes de hipContrastes de hipóótesis para varias muestrastesis para varias muestras8-4
Ejemplo: FunciEjemplo: Funcióón de luminosidad de cn de luminosidad de cúúmulos globulares en la mulos globulares en la Galaxia y en M31Galaxia y en M31Métodos paramétricos
2: GALAXIA1: M 31Box & Whisker Plot: Var2
M ean M ean±SE M ean±1,96*SE
M 31 M W
Var3
-10,8
-10,7
-10,6
-10,5
-10,4
-10,3
-10,2
-10,1
-10,0
-9,9
-9,8
Var
2
Box & Whisker Plot: Var2
M ean M ean±SE M ean±1,96*SE
M 31 M W
Var3
-10,8
-10,7
-10,6
-10,5
-10,4
-10,3
-10,2
-10,1
-10,0
-9,9
-9,8
Var
2
Aprox. normal:
Se acepta la hipótesis nula de igualdad de medias
Se rechaza la hipótesis nula de igualdad de varianzas
-
8. 8. Contrastes de hipContrastes de hipóótesis para varias muestrastesis para varias muestras8-5
MMéétodos no todos no paramparaméétricostricos
Test para la diferencia entre varias muestras (tablas de contingencia):
Test χ2 para varias muestras (≥
2 muestras)Test exacto de Fisher (tabla 2×2)
Tests para la diferencia entre dos muestrasTest de Kolmogorov-Smirnov
Tests para la comparación de medias/medianas:Test U de Wilcoxon-Mann-Whitney (2 muestras)Test H de Kruskal-Wallis (> 2 muestras)
Test para la comparación de dispersiones:Test de rangos de Moses para la igualdad de varianzas
Test para la diferencia entre varias muestras (tablas de contingencia):
Test χ2 para varias muestras (≥
2 muestras)Test exacto de Fisher (tabla 2×2)
Tests para la diferencia entre dos muestrasTest de Kolmogorov-Smirnov
Tests para la comparación de medias/medianas:Test U de Wilcoxon-Mann-Whitney (2 muestras)Test H de Kruskal-Wallis (> 2 muestras)
Test para la comparación de dispersiones:Test de rangos de Moses para la igualdad de varianzas
-
8. 8. Contrastes de hipContrastes de hipóótesis para varias muestrastesis para varias muestras8-6
TestTest χχ2 2 para varias muestraspara varias muestrasMuestras
Cat
egor
ía
H0 se acepta si:
Hipótesis H0 : las muestras provienen de la misma población Hipótesis H0 : las muestras provienen de la misma población
Tabla de contingencia k×m
Variable discreta o continua agrupada en intervalos
Si H0 es cierta el estadístico:sigue una distribución χ2 con
(han de ser > 5)
Para una tabla 2×2:Fácil de aplicar. Test muy usado. También se puede usar para contrastar la independencia de caracteres.
Se pueden hacer tests unilaterales (dividir α
por 2)
Requiere muestras relativamente grandes (Eij > 5)
Fácil de aplicar. Test muy usado.
También se puede usar para contrastar la independencia de caracteres.
Se pueden hacer tests unilaterales (dividir α
por 2)
Requiere muestras relativamente grandes (Eij > 5)
-
8. 8. Contrastes de hipContrastes de hipóótesis para varias muestrastesis para varias muestras8-7
Ejemplo: FunciEjemplo: Funcióón de luminosidad de cn de luminosidad de cúúmulos globulares en la mulos globulares en la Galaxia y en M31Galaxia y en M31
Test χ2Test χ2
0
10
20
30
40
50
60
70
80
-14 -13 -12 -11 -10 -9 -8 -7 -6 -5
M(K)
Frec
uenc
ia
0
2
4
6
8
10
12
14
-14 -13 -12 -11 -10 -9 -8 -7 -6 -5
M(K)
Frec
uenc
ia
M 31
GALAXIA
frecuencias observadas
frecuencias esperadas
M31 MWG M31 MWG
(-14.5,-12) 22 14 36 29.39 6.61
(-11,-12) 41 14 55 44.90 10.10
(-10.5,-11) 37 13 50 40.82 9.18
(-10,-10.5) 62 10 72 58.78 13.22
(-9.5,-10) 73 4 77 62.86 14.14
(-9,-9.5) 50 8 58 47.35 10.65
(-8.5,-9) 40 5 45 36.73 8.27
(-5,-8.5) 35 13 48 39.18 8.82
360 81 441 360 81
Agrupamiento original Δ=0.5. Reagrupamiento para Ei >5
Las muestras provienen de poblaciones distintas
-
8. 8. Contrastes de hipContrastes de hipóótesis para varias muestrastesis para varias muestras8-8
TestTest exacto de exacto de FisherFisherTest para dos muestras independientes con datos binomiales
Es válido para muestras pequeñas (el test χ2 no se puede aplicar si las frecuencias esperadas son menores de 5). Es la único test exacto posible si N < 20
Requiere cálculos largos
Es válido para muestras pequeñas (el test χ2 no se puede aplicar si las frecuencias esperadas son menores de 5). Es la único test exacto posible si N < 20
Requiere cálculos largos
MuestraCategoría 1 2
1 A B
2 C D
Tabla de contingencia 2×2Hipótesis H0 : la probabilidad de éxito es la misma en ambas poblaciones (no hay relación entre la muestra y la categoría) Hipótesis H0 : la probabilidad de éxito es la misma en ambas poblaciones (no hay relación entre la muestra y la categoría)
Usando la distribución hipergeométrica, la probabilidad de obtener, bajo la hipótesis nula, esa distribución de datos es:
Para aceptar o rechazar la hipótesis nula hay que calcular y sumar las probabilidades de todas las disposiciones de datos igual o más extremas que la observada:
-
8. 8. Contrastes de hipContrastes de hipóótesis para varias muestrastesis para varias muestras8-9
TestTest de de KolmogorovKolmogorov--SmirnovSmirnov
S1 (x): distribución de frecuencias acumuladas de la primera muestraS2 (x): distribución de frecuencias acumuladas de la segunda muestra
H0 se acepta si:
Detecta variaciones globales (no restringidas a los valores medios o la dispersión)
No hay pérdida de información por agrupamiento
Muy eficiente (eficiencia > 95% respecto al test t para muestras pequeñas; siempre es más eficiente que el test χ2)
Detecta variaciones globales (no restringidas a los valores medios o la dispersión)
No hay pérdida de información por agrupamiento
Muy eficiente (eficiencia > 95% respecto al test t para muestras pequeñas; siempre es más eficiente que el test χ2)
Estudia la diferencia entre dos muestras de tamaños m y n mediante la desviación máxima entre las distribuciones de frecuencias relativas acumuladas
Hipótesis H0 : las dos muestras provienen de la misma población Hipótesis H0 : las dos muestras provienen de la misma población
Para muestras grandes:
es una χ2
con 2 g.d.l.
Unilateral: H0 se acepta si:
F1 (x), F2 (x): funciones de distribución poblacionales
-
8. 8. Contrastes de hipContrastes de hipóótesis para varias muestrastesis para varias muestras8-10
Valores crValores crííticos para el ticos para el testtest de de KolmogorovKolmogorov--SmirnovSmirnov (2 muestras)(2 muestras)
-
8. 8. Contrastes de hipContrastes de hipóótesis para varias muestrastesis para varias muestras8-11
Ejemplo: FunciEjemplo: Funcióón de luminosidad de cn de luminosidad de cúúmulos globulares en la mulos globulares en la Galaxia y en M31Galaxia y en M31
Test Kolmogorov-SmirnovTest Kolmogorov-Smirnov
Las muestras provienen de poblaciones distintas
0
0.2
0.4
0.6
0.8
1
-15 -14 -13 -12 -11 -10 -9 -8 -7 -6 -5
GALAXIA
M 31
Diagrama de frecuencias relativas acumuladas
-
8. 8. Contrastes de hipContrastes de hipóótesis para varias muestrastesis para varias muestras8-12
TestTest U U de de WilcoxonWilcoxon--MannMann--WhitneyWhitneyTest para comparar el promedio de dos muestras de tamaños n1 y n2
H0 se acepta si:
Evita la pérdida de información por agrupamiento.Aplicable a muestras pequeñas.Muy eficiente (eficiencia >95% comparado con el test t incluso para muestras de tamaño moderado)Para muestras pequeñas el test KS es más eficiente. Para muestras grandes el test U es más eficiente
Evita la pérdida de información por agrupamiento.Aplicable a muestras pequeñas.Muy eficiente (eficiencia >95% comparado con el test t incluso para muestras de tamaño moderado)Para muestras pequeñas el test KS es más eficiente. Para muestras grandes el test U es más eficiente
• Se ordenan de menor a mayor los elementos de las dos muestras combinadas, asignando rangos (si hay empates se asignan los rangos promedios)
• Se suman los rangos de cada muestra: W1 , W2
Bilateral:
Para muestras grandes: Aproximación a la normal.
Unilateral: H0 se acepta si:
-
8. 8. Contrastes de hipContrastes de hipóótesis para varias muestrastesis para varias muestras8-13
Valores crValores crííticos para el ticos para el testtest UU
Bilateral α
= 0.01 Unilateral α
= 0.01
Bilateral α
= 0.05 Unilateral α
= 0.05
-
8. 8. Contrastes de hipContrastes de hipóótesis para varias muestrastesis para varias muestras8-14
Ejemplo: FunciEjemplo: Funcióón de luminosidad de cn de luminosidad de cúúmulos globulares en la mulos globulares en la Galaxia y en M31Galaxia y en M31
Test U (Wilcoxon-Mann-Whitney) para la igualdad de mediasTest U (Wilcoxon-Mann-Whitney) para la igualdad de medias
Las medias son significativamente diferentes
NGC 6440 -14.21 MW 1
2m225 -13.69 M31 2
2m177 -13.56 M31 3
Pal 2 -13.52 MW 4
NGC 6388 -13.51 MW 5
NGC 6517 -13.34 MW 6
NGC 6441 -13.29 MW 7
037-000 -13.29 M31 8
225-280 -13.27 M31 9
353-CFA -12.95 M31 10
082-144 -12.91 M31 11
127-185 -12.82 M31 12
………….. ………. …… …….
Be42 19 -6.7 MW 439
392-329 -6.388 M31 440
Eridanus 4 -5.14 MW 441
Rango
-
8. 8. Contrastes de hipContrastes de hipóótesis para varias muestrastesis para varias muestras8-15
TestTest H H de de KruskalKruskal--WallisWallisAlternativa al análisis de varianza para contrastar la igualdad de medias de k (>2) muestras
H0 se acepta si:
Evita las suposiciones de normalidad e igualdad de varianzas del análisis de varianza.Evita las suposiciones de normalidad e igualdad de varianzas del análisis de varianza.
• Generalización del test U
• k muestras de tamaños n1 ,n2 ,…,nk• Se combinan todas las muestras y se ordenan sus elementos de
menor a mayor, asignando rangos (si hay empates se asignan los rangos promedios)
• Se suman los rangos de cada muestra: W1 , W2 ,…, Wk
Se ha de cumplir: ni≥ 5
Hipótesis H0 : todas las muestras provienen de poblaciones con la misma media Hipótesis H0 : todas las muestras provienen de poblaciones con la misma media
Si H0 es cierta, H sigue una distribución χ2 con k – 1 g.d.l.
Si se rechaza la hipótesis nula, las parejas de muestras con medias diferentes serán para las que se cumpla:
-
8. 8. Contrastes de hipContrastes de hipóótesis para varias muestrastesis para varias muestras8-16
TestTest de rangos de de rangos de MosesMoses para la igualdad para la igualdad de varianzasde varianzas
Alternativa al test F para poblaciones no normales.No es necesario que las dos poblaciones tengan la misma media.La asignación de datos a grupos debe ser aleatoria.Desventaja: depende algo del valor de k elegido (no se debe probar con varios k hasta obtener lo que se quiere!)
Alternativa al test F para poblaciones no normales.No es necesario que las dos poblaciones tengan la misma media.La asignación de datos a grupos debe ser aleatoria.Desventaja: depende algo del valor de k elegido (no se debe probar con varios k hasta obtener lo que se quiere!)
• Sean dos muestras Xi , Yi de tamaños m y n• Seleccionar un valor k ≥ 2• Crear aleatoriamente m0 y n0 subgrupos de tamaño k (descartar los datos que sobren) en cada muestra
respectivamente.Para cada subgrupo:
Se aplica el test U de Wilcoxon-Mann- Whitney a Ci , Dj
H0 se acepta si:
Se asignan rangos y se calcula: Elegir k tan grande como sea posible (pero < 10)
sin que m0
y n0
sean demasiado pequeños para aplicar el test U
(también unilateral)
-
8. 8. Contrastes de hipContrastes de hipóótesis para varias muestrastesis para varias muestras8-17
Ejemplo: FunciEjemplo: Funcióón de luminosidad de cn de luminosidad de cúúmulos globulares en la mulos globulares en la Galaxia y en M31Galaxia y en M31
Test de rangos de moses para la igualdad de varianzasTest de rangos de moses para la igualdad de varianzas
Las dispersiones son significativamente diferentes
RangoM31 -10.062 2.055 1M31 -9.525 2.101 2M31 -10.817 2.958 3M31 -9.862 2.980 4M31 -9.154 3.692 5M31 -9.089 5.195 6M31 -9.518 5.866 7M31 -10.402 6.510 8M31 -10.398 6.515 9M31 -10.285 6.772 10M31 -9.795 7.027 11M31 -10.382 7.427 12MW -10.899 7.480 13M31 -10.345 7.657 14M31 -8.550 7.767 15M31 -10.049 8.285 16M31 -10.245 8.361 17M31 -9.390 8.726 18M31 -10.172 8.934 19M31 -9.368 9.653 20M31 -10.114 9.721 21M31 -10.353 10.230 22M31 -9.561 10.798 23M31 -10.254 10.799 24
M31 -9.807 11.063 25M31 -9.772 11.097 26MW -10.649 11.209 27M31 -9.660 11.237 28M31 -10.565 11.423 29MW -10.603 11.423 30M31 -10.656 11.460 31M31 -10.124 11.575 32M31 -10.242 11.703 33M31 -9.914 12.188 34M31 -9.890 12.260 35M31 -9.880 13.827 36M31 -9.061 13.884 37MW -11.208 14.559 38M31 -10.230 15.326 39M31 -9.846 16.159 40M31 -9.859 16.557 41M31 -10.698 21.746 42M31 -10.334 23.148 43MW -9.274 26.127 44MW -9.210 33.080 45M31 -11.060 33.132 46MW -10.128 34.049 47MW -10.813 35.649 48MW -10.129 51.052 49
TEST U
-
8. 8. Contrastes de hipContrastes de hipóótesis para varias muestrastesis para varias muestras8-18
MMéétodos todos bayesianosbayesianosContraste para la diferencia de medias de dos distribuciones norContraste para la diferencia de medias de dos distribuciones normalesmales
Distribución de probabilidad posterior:
(prior de Jeffreys para σ)
marginalización
Varianzas igualesVarianzas iguales
Varianzas diferentesVarianzas diferentes(test de Behrens-
Fisher)
Tema 8Introducción. Métodos clásicosEjemplo: Función de luminosidad de cúmulos globulares en la Galaxia y en M31Ejemplo: Función de luminosidad de cúmulos globulares en la Galaxia y en M31Número de diapositiva 5Test 2 para varias muestrasEjemplo: Función de luminosidad de cúmulos globulares en la Galaxia y en M31Test exacto de FisherTest de Kolmogorov-SmirnovValores críticos para el test de Kolmogorov-Smirnov (2 muestras)Ejemplo: Función de luminosidad de cúmulos globulares en la Galaxia y en M31Test U de Wilcoxon-Mann-WhitneyValores críticos para el test UEjemplo: Función de luminosidad de cúmulos globulares en la Galaxia y en M31Test H de Kruskal-WallisTest de rangos de Moses para la igualdad de varianzasEjemplo: Función de luminosidad de cúmulos globulares en la Galaxia y en M31Métodos bayesianos