Tema 8 - UCMwebs.ucm.es/info/Astrof/POPIA/asignaturas/ana_dat_est/tema08.pdf · para muestras...

of 18 /18
8. 8. Contrastes de hip Contrastes de hip ó ó tesis para varias muestras tesis para varias muestras 8-1 Tema 8 Tema 8 Contrastes de Hip Contrastes de Hip ó ó tesis para varias muestras tesis para varias muestras Introducción. Contrastes clásicos Métodos no paramétricos Test χ 2 para varias muestras Test exacto de Fisher Test de Kolmogorov-Smirnov Test U de Wilcoxon-Mann-Whitney Test H de Kruskal-Wallis Test de rangos de Moses para la igualdad de varianzas Métodos bayesianos Ejemplo: cúmulos globulares de la Galaxia vs LMC

Embed Size (px)

Transcript of Tema 8 - UCMwebs.ucm.es/info/Astrof/POPIA/asignaturas/ana_dat_est/tema08.pdf · para muestras...

  • 8. 8. Contrastes de hipContrastes de hipóótesis para varias muestrastesis para varias muestras8-1

    Tema 8Tema 8Contrastes de HipContrastes de Hipóótesis para varias muestrastesis para varias muestras

    Introducción. Contrastes clásicosMétodos no paramétricos

    Test χ2 para varias muestrasTest exacto de FisherTest de Kolmogorov-SmirnovTest U de Wilcoxon-Mann-WhitneyTest H de Kruskal-WallisTest de rangos de Moses para la igualdad de varianzas

    Métodos bayesianosEjemplo: cúmulos globulares de la Galaxia vs LMC

    Introducción. Contrastes clásicosMétodos no paramétricos

    Test χ2 para varias muestrasTest exacto de FisherTest de Kolmogorov-SmirnovTest U de Wilcoxon-Mann-WhitneyTest H de Kruskal-WallisTest de rangos de Moses para la igualdad de varianzas

    Métodos bayesianosEjemplo: cúmulos globulares de la Galaxia vs LMC

  • 8. 8. Contrastes de hipContrastes de hipóótesis para varias muestrastesis para varias muestras8-2

    IntroducciIntroduccióón. Mn. Méétodos cltodos cláásicossicosQueremos saber si dos o más muestras han sido extraídas de la misma población. O, si han sido extraídas de diferentes poblaciones, en qué se diferencian éstas (¿media, dispersión?)

  • 8. 8. Contrastes de hipContrastes de hipóótesis para varias muestrastesis para varias muestras8-3

    Ejemplo: FunciEjemplo: Funcióón de luminosidad de cn de luminosidad de cúúmulos globulares en la mulos globulares en la Galaxia y en M31Galaxia y en M31

    Variable: Var2, Distribution: Norm alChi -Square test = 3,13214, d f = 4 (ad justed) , p = 0,53596

    -16 -15 -14 -13 -12 -11 -10 -9 -8 -7 -6 -5 -4

    Category (upper l im i ts)

    0

    5

    10

    15

    20

    25

    30

    No.

    of o

    bser

    vatio

    ns

    Variab le: Var2, Distribution: Norm alChi -Square test = 3,13214, d f = 4 (ad justed) , p = 0,53596

    -16 -15 -14 -13 -12 -11 -10 -9 -8 -7 -6 -5 -4

    Category (upper l im i ts)

    0

    5

    10

    15

    20

    25

    30

    No.

    of o

    bser

    vatio

    ns

    DATOS: magnitudes K en:

    • 81 cúmulos en la Galaxia (mag. absolutas)

    • 360 cúmulos en M31 (mag. aparentes). Se asume un modulo de distancias m - M = 24.44 (calculado con cefeidas)

    ¿Es la función de luminosidad de cúmulos globulares universal?

    Datos en: http://www.astrostatistics.psu.edu/datasets/glob_clus.html

    Variable: Var2, Distribution: Norm alChi-Square test = 23,28073, df = 9 (adjusted) , p = 0,00560

    10,010,5

    11,011,5

    12,012,5

    13,013,5

    14,014,5

    15,015,5

    16,016,5

    17,017,5

    18,018,5

    19,0

    Category (upper l im i ts)

    0

    10

    20

    30

    40

    50

    60

    70

    80

    No.

    of o

    bser

    vatio

    ns

    Variab le: Var2, Distribution: Norm alChi-Square test = 23,28073, df = 9 (adjusted) , p = 0,00560

    10,010,5

    11,011,5

    12,012,5

    13,013,5

    14,014,5

    15,015,5

    16,016,5

    17,017,5

    18,018,5

    19,0

    Category (upper l im i ts)

    0

    10

    20

    30

    40

    50

    60

    70

    80

    No.

    of o

    bser

    vatio

    ns

    GALAXIA M 31

    No normal

    http://www.astrostatistics.psu.edu/datasets/glob_clus.html

  • 8. 8. Contrastes de hipContrastes de hipóótesis para varias muestrastesis para varias muestras8-4

    Ejemplo: FunciEjemplo: Funcióón de luminosidad de cn de luminosidad de cúúmulos globulares en la mulos globulares en la Galaxia y en M31Galaxia y en M31Métodos paramétricos

    2: GALAXIA1: M 31Box & Whisker Plot: Var2

    M ean M ean±SE M ean±1,96*SE

    M 31 M W

    Var3

    -10,8

    -10,7

    -10,6

    -10,5

    -10,4

    -10,3

    -10,2

    -10,1

    -10,0

    -9,9

    -9,8

    Var

    2

    Box & Whisker Plot: Var2

    M ean M ean±SE M ean±1,96*SE

    M 31 M W

    Var3

    -10,8

    -10,7

    -10,6

    -10,5

    -10,4

    -10,3

    -10,2

    -10,1

    -10,0

    -9,9

    -9,8

    Var

    2

    Aprox. normal:

    Se acepta la hipótesis nula de igualdad de medias

    Se rechaza la hipótesis nula de igualdad de varianzas

  • 8. 8. Contrastes de hipContrastes de hipóótesis para varias muestrastesis para varias muestras8-5

    MMéétodos no todos no paramparaméétricostricos

    Test para la diferencia entre varias muestras (tablas de contingencia):

    Test χ2 para varias muestras (≥

    2 muestras)Test exacto de Fisher (tabla 2×2)

    Tests para la diferencia entre dos muestrasTest de Kolmogorov-Smirnov

    Tests para la comparación de medias/medianas:Test U de Wilcoxon-Mann-Whitney (2 muestras)Test H de Kruskal-Wallis (> 2 muestras)

    Test para la comparación de dispersiones:Test de rangos de Moses para la igualdad de varianzas

    Test para la diferencia entre varias muestras (tablas de contingencia):

    Test χ2 para varias muestras (≥

    2 muestras)Test exacto de Fisher (tabla 2×2)

    Tests para la diferencia entre dos muestrasTest de Kolmogorov-Smirnov

    Tests para la comparación de medias/medianas:Test U de Wilcoxon-Mann-Whitney (2 muestras)Test H de Kruskal-Wallis (> 2 muestras)

    Test para la comparación de dispersiones:Test de rangos de Moses para la igualdad de varianzas

  • 8. 8. Contrastes de hipContrastes de hipóótesis para varias muestrastesis para varias muestras8-6

    TestTest χχ2 2 para varias muestraspara varias muestrasMuestras

    Cat

    egor

    ía

    H0 se acepta si:

    Hipótesis H0 : las muestras provienen de la misma población Hipótesis H0 : las muestras provienen de la misma población

    Tabla de contingencia k×m

    Variable discreta o continua agrupada en intervalos

    Si H0 es cierta el estadístico:sigue una distribución χ2 con

    (han de ser > 5)

    Para una tabla 2×2:Fácil de aplicar. Test muy usado. También se puede usar para contrastar la independencia de caracteres.

    Se pueden hacer tests unilaterales (dividir α

    por 2)

    Requiere muestras relativamente grandes (Eij > 5)

    Fácil de aplicar. Test muy usado.

    También se puede usar para contrastar la independencia de caracteres.

    Se pueden hacer tests unilaterales (dividir α

    por 2)

    Requiere muestras relativamente grandes (Eij > 5)

  • 8. 8. Contrastes de hipContrastes de hipóótesis para varias muestrastesis para varias muestras8-7

    Ejemplo: FunciEjemplo: Funcióón de luminosidad de cn de luminosidad de cúúmulos globulares en la mulos globulares en la Galaxia y en M31Galaxia y en M31

    Test χ2Test χ2

    0

    10

    20

    30

    40

    50

    60

    70

    80

    -14 -13 -12 -11 -10 -9 -8 -7 -6 -5

    M(K)

    Frec

    uenc

    ia

    0

    2

    4

    6

    8

    10

    12

    14

    -14 -13 -12 -11 -10 -9 -8 -7 -6 -5

    M(K)

    Frec

    uenc

    ia

    M 31

    GALAXIA

    frecuencias observadas

    frecuencias esperadas

    M31 MWG M31 MWG

    (-14.5,-12) 22 14 36 29.39 6.61

    (-11,-12) 41 14 55 44.90 10.10

    (-10.5,-11) 37 13 50 40.82 9.18

    (-10,-10.5) 62 10 72 58.78 13.22

    (-9.5,-10) 73 4 77 62.86 14.14

    (-9,-9.5) 50 8 58 47.35 10.65

    (-8.5,-9) 40 5 45 36.73 8.27

    (-5,-8.5) 35 13 48 39.18 8.82

    360 81 441 360 81

    Agrupamiento original Δ=0.5. Reagrupamiento para Ei >5

    Las muestras provienen de poblaciones distintas

  • 8. 8. Contrastes de hipContrastes de hipóótesis para varias muestrastesis para varias muestras8-8

    TestTest exacto de exacto de FisherFisherTest para dos muestras independientes con datos binomiales

    Es válido para muestras pequeñas (el test χ2 no se puede aplicar si las frecuencias esperadas son menores de 5). Es la único test exacto posible si N < 20

    Requiere cálculos largos

    Es válido para muestras pequeñas (el test χ2 no se puede aplicar si las frecuencias esperadas son menores de 5). Es la único test exacto posible si N < 20

    Requiere cálculos largos

    MuestraCategoría 1 2

    1 A B

    2 C D

    Tabla de contingencia 2×2Hipótesis H0 : la probabilidad de éxito es la misma en ambas poblaciones (no hay relación entre la muestra y la categoría) Hipótesis H0 : la probabilidad de éxito es la misma en ambas poblaciones (no hay relación entre la muestra y la categoría)

    Usando la distribución hipergeométrica, la probabilidad de obtener, bajo la hipótesis nula, esa distribución de datos es:

    Para aceptar o rechazar la hipótesis nula hay que calcular y sumar las probabilidades de todas las disposiciones de datos igual o más extremas que la observada:

  • 8. 8. Contrastes de hipContrastes de hipóótesis para varias muestrastesis para varias muestras8-9

    TestTest de de KolmogorovKolmogorov--SmirnovSmirnov

    S1 (x): distribución de frecuencias acumuladas de la primera muestraS2 (x): distribución de frecuencias acumuladas de la segunda muestra

    H0 se acepta si:

    Detecta variaciones globales (no restringidas a los valores medios o la dispersión)

    No hay pérdida de información por agrupamiento

    Muy eficiente (eficiencia > 95% respecto al test t para muestras pequeñas; siempre es más eficiente que el test χ2)

    Detecta variaciones globales (no restringidas a los valores medios o la dispersión)

    No hay pérdida de información por agrupamiento

    Muy eficiente (eficiencia > 95% respecto al test t para muestras pequeñas; siempre es más eficiente que el test χ2)

    Estudia la diferencia entre dos muestras de tamaños m y n mediante la desviación máxima entre las distribuciones de frecuencias relativas acumuladas

    Hipótesis H0 : las dos muestras provienen de la misma población Hipótesis H0 : las dos muestras provienen de la misma población

    Para muestras grandes:

    es una χ2

    con 2 g.d.l.

    Unilateral: H0 se acepta si:

    F1 (x), F2 (x): funciones de distribución poblacionales

  • 8. 8. Contrastes de hipContrastes de hipóótesis para varias muestrastesis para varias muestras8-10

    Valores crValores crííticos para el ticos para el testtest de de KolmogorovKolmogorov--SmirnovSmirnov (2 muestras)(2 muestras)

  • 8. 8. Contrastes de hipContrastes de hipóótesis para varias muestrastesis para varias muestras8-11

    Ejemplo: FunciEjemplo: Funcióón de luminosidad de cn de luminosidad de cúúmulos globulares en la mulos globulares en la Galaxia y en M31Galaxia y en M31

    Test Kolmogorov-SmirnovTest Kolmogorov-Smirnov

    Las muestras provienen de poblaciones distintas

    0

    0.2

    0.4

    0.6

    0.8

    1

    -15 -14 -13 -12 -11 -10 -9 -8 -7 -6 -5

    GALAXIA

    M 31

    Diagrama de frecuencias relativas acumuladas

  • 8. 8. Contrastes de hipContrastes de hipóótesis para varias muestrastesis para varias muestras8-12

    TestTest U U de de WilcoxonWilcoxon--MannMann--WhitneyWhitneyTest para comparar el promedio de dos muestras de tamaños n1 y n2

    H0 se acepta si:

    Evita la pérdida de información por agrupamiento.Aplicable a muestras pequeñas.Muy eficiente (eficiencia >95% comparado con el test t incluso para muestras de tamaño moderado)Para muestras pequeñas el test KS es más eficiente. Para muestras grandes el test U es más eficiente

    Evita la pérdida de información por agrupamiento.Aplicable a muestras pequeñas.Muy eficiente (eficiencia >95% comparado con el test t incluso para muestras de tamaño moderado)Para muestras pequeñas el test KS es más eficiente. Para muestras grandes el test U es más eficiente

    • Se ordenan de menor a mayor los elementos de las dos muestras combinadas, asignando rangos (si hay empates se asignan los rangos promedios)

    • Se suman los rangos de cada muestra: W1 , W2

    Bilateral:

    Para muestras grandes: Aproximación a la normal.

    Unilateral: H0 se acepta si:

  • 8. 8. Contrastes de hipContrastes de hipóótesis para varias muestrastesis para varias muestras8-13

    Valores crValores crííticos para el ticos para el testtest UU

    Bilateral α

    = 0.01 Unilateral α

    = 0.01

    Bilateral α

    = 0.05 Unilateral α

    = 0.05

  • 8. 8. Contrastes de hipContrastes de hipóótesis para varias muestrastesis para varias muestras8-14

    Ejemplo: FunciEjemplo: Funcióón de luminosidad de cn de luminosidad de cúúmulos globulares en la mulos globulares en la Galaxia y en M31Galaxia y en M31

    Test U (Wilcoxon-Mann-Whitney) para la igualdad de mediasTest U (Wilcoxon-Mann-Whitney) para la igualdad de medias

    Las medias son significativamente diferentes

    NGC 6440 -14.21 MW 1

    2m225 -13.69 M31 2

    2m177 -13.56 M31 3

    Pal 2 -13.52 MW 4

    NGC 6388 -13.51 MW 5

    NGC 6517 -13.34 MW 6

    NGC 6441 -13.29 MW 7

    037-000 -13.29 M31 8

    225-280 -13.27 M31 9

    353-CFA -12.95 M31 10

    082-144 -12.91 M31 11

    127-185 -12.82 M31 12

    ………….. ………. …… …….

    Be42 19 -6.7 MW 439

    392-329 -6.388 M31 440

    Eridanus 4 -5.14 MW 441

    Rango

  • 8. 8. Contrastes de hipContrastes de hipóótesis para varias muestrastesis para varias muestras8-15

    TestTest H H de de KruskalKruskal--WallisWallisAlternativa al análisis de varianza para contrastar la igualdad de medias de k (>2) muestras

    H0 se acepta si:

    Evita las suposiciones de normalidad e igualdad de varianzas del análisis de varianza.Evita las suposiciones de normalidad e igualdad de varianzas del análisis de varianza.

    • Generalización del test U

    • k muestras de tamaños n1 ,n2 ,…,nk• Se combinan todas las muestras y se ordenan sus elementos de

    menor a mayor, asignando rangos (si hay empates se asignan los rangos promedios)

    • Se suman los rangos de cada muestra: W1 , W2 ,…, Wk

    Se ha de cumplir: ni≥ 5

    Hipótesis H0 : todas las muestras provienen de poblaciones con la misma media Hipótesis H0 : todas las muestras provienen de poblaciones con la misma media

    Si H0 es cierta, H sigue una distribución χ2 con k – 1 g.d.l.

    Si se rechaza la hipótesis nula, las parejas de muestras con medias diferentes serán para las que se cumpla:

  • 8. 8. Contrastes de hipContrastes de hipóótesis para varias muestrastesis para varias muestras8-16

    TestTest de rangos de de rangos de MosesMoses para la igualdad para la igualdad de varianzasde varianzas

    Alternativa al test F para poblaciones no normales.No es necesario que las dos poblaciones tengan la misma media.La asignación de datos a grupos debe ser aleatoria.Desventaja: depende algo del valor de k elegido (no se debe probar con varios k hasta obtener lo que se quiere!)

    Alternativa al test F para poblaciones no normales.No es necesario que las dos poblaciones tengan la misma media.La asignación de datos a grupos debe ser aleatoria.Desventaja: depende algo del valor de k elegido (no se debe probar con varios k hasta obtener lo que se quiere!)

    • Sean dos muestras Xi , Yi de tamaños m y n• Seleccionar un valor k ≥ 2• Crear aleatoriamente m0 y n0 subgrupos de tamaño k (descartar los datos que sobren) en cada muestra

    respectivamente.Para cada subgrupo:

    Se aplica el test U de Wilcoxon-Mann- Whitney a Ci , Dj

    H0 se acepta si:

    Se asignan rangos y se calcula: Elegir k tan grande como sea posible (pero < 10)

    sin que m0

    y n0

    sean demasiado pequeños para aplicar el test U

    (también unilateral)

  • 8. 8. Contrastes de hipContrastes de hipóótesis para varias muestrastesis para varias muestras8-17

    Ejemplo: FunciEjemplo: Funcióón de luminosidad de cn de luminosidad de cúúmulos globulares en la mulos globulares en la Galaxia y en M31Galaxia y en M31

    Test de rangos de moses para la igualdad de varianzasTest de rangos de moses para la igualdad de varianzas

    Las dispersiones son significativamente diferentes

    RangoM31 -10.062 2.055 1M31 -9.525 2.101 2M31 -10.817 2.958 3M31 -9.862 2.980 4M31 -9.154 3.692 5M31 -9.089 5.195 6M31 -9.518 5.866 7M31 -10.402 6.510 8M31 -10.398 6.515 9M31 -10.285 6.772 10M31 -9.795 7.027 11M31 -10.382 7.427 12MW -10.899 7.480 13M31 -10.345 7.657 14M31 -8.550 7.767 15M31 -10.049 8.285 16M31 -10.245 8.361 17M31 -9.390 8.726 18M31 -10.172 8.934 19M31 -9.368 9.653 20M31 -10.114 9.721 21M31 -10.353 10.230 22M31 -9.561 10.798 23M31 -10.254 10.799 24

    M31 -9.807 11.063 25M31 -9.772 11.097 26MW -10.649 11.209 27M31 -9.660 11.237 28M31 -10.565 11.423 29MW -10.603 11.423 30M31 -10.656 11.460 31M31 -10.124 11.575 32M31 -10.242 11.703 33M31 -9.914 12.188 34M31 -9.890 12.260 35M31 -9.880 13.827 36M31 -9.061 13.884 37MW -11.208 14.559 38M31 -10.230 15.326 39M31 -9.846 16.159 40M31 -9.859 16.557 41M31 -10.698 21.746 42M31 -10.334 23.148 43MW -9.274 26.127 44MW -9.210 33.080 45M31 -11.060 33.132 46MW -10.128 34.049 47MW -10.813 35.649 48MW -10.129 51.052 49

    TEST U

  • 8. 8. Contrastes de hipContrastes de hipóótesis para varias muestrastesis para varias muestras8-18

    MMéétodos todos bayesianosbayesianosContraste para la diferencia de medias de dos distribuciones norContraste para la diferencia de medias de dos distribuciones normalesmales

    Distribución de probabilidad posterior:

    (prior de Jeffreys para σ)

    marginalización

    Varianzas igualesVarianzas iguales

    Varianzas diferentesVarianzas diferentes(test de Behrens-

    Fisher)

    Tema 8Introducción. Métodos clásicosEjemplo: Función de luminosidad de cúmulos globulares en la Galaxia y en M31Ejemplo: Función de luminosidad de cúmulos globulares en la Galaxia y en M31Número de diapositiva 5Test 2 para varias muestrasEjemplo: Función de luminosidad de cúmulos globulares en la Galaxia y en M31Test exacto de FisherTest de Kolmogorov-SmirnovValores críticos para el test de Kolmogorov-Smirnov (2 muestras)Ejemplo: Función de luminosidad de cúmulos globulares en la Galaxia y en M31Test U de Wilcoxon-Mann-WhitneyValores críticos para el test UEjemplo: Función de luminosidad de cúmulos globulares en la Galaxia y en M31Test H de Kruskal-WallisTest de rangos de Moses para la igualdad de varianzasEjemplo: Función de luminosidad de cúmulos globulares en la Galaxia y en M31Métodos bayesianos