INTRODUCCION A LOS CONTRASTES DE HIPOTESISPara realizar el contraste de una hipótesis seleccionamos...

43
μ 0 x x N( μ 0 , σ n ) 1- α α μ 0 -a μ 0 +a x N( μ a , σ n ) μ a β 1-β INTRODUCCION A LOS CONTRASTES DE HIPOTESIS José Luis Vicente Villardón Departamento de Estadística Universidad de Salamanca

Transcript of INTRODUCCION A LOS CONTRASTES DE HIPOTESISPara realizar el contraste de una hipótesis seleccionamos...

  • µ0x

    x ≈ N(µ 0 ,σn

    )

    1-α

    α

    µ0-a µ0+a

    x ≈ N(µ a ,σn

    )

    µa

    β

    1−β

    INTRODUCCION A LOSCONTRASTES DE HIPOTESIS

    José Luis Vicente VillardónDepartamento de EstadísticaUniversidad de Salamanca

  • INDICE

    0.- INTRODUCCIÓN Y MOTIVACIÓN. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

    1 . - CONCEPTOS GENERALES DE CONTRASTE. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

    2 . - EL CONTRASTE PARA LA MEDIA DE UNA POBLACIÓN NORMAL... . . . . . . . . . . . 5

    2.1.- PLANTEAMIENTO GENERAL..............................................................................................52.2.- VARIANZA (DESVIACIÓN TÍPICA) CONOCIDA.......................................................................72.3.- LA POTENCIA DEL CONTRASTE.........................................................................................112.4.- EL P-VALOR DEL CONTRASTE...........................................................................................132.5.- LOS CONTRASTES UNILATERALES ....................................................................................142.6.- VARIANZA DESCONOCIDA...............................................................................................182.7.- CONTRASTES PARA MUESTRAS GRANDES..........................................................................21

    3.- EL CONTRASTE PARA LA DIFERENCIA DE MEDIAS DE DOS POBLACIONESNORMALES CON DATOS INDEPENDIENTES. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

    3.1.- PLANTEAMIENTO GENERAL.............................................................................................223.2.- VARIANZAS CONOCIDAS.................................................................................................243.3.- VARIANZAS DESCONOCIDAS PERO IGUALES.......................................................................263.4.- VARIANZAS DESCONOCIDAS Y DISTINTAS .........................................................................293.5.- CONTRASTES DE COMPARACIÓN DE MEDIAS PARA MUESTRAS GRANDES...............................303.6.- OBTENCIÓN DE DATOS PARA LA COMPARACIÓN DE MEDIAS.................................................31

    4.- EL CONTRASTE PARA LA DIFERENCIA DE MEDIAS DE DOS POBLACIONESN O R M A L E S C O N D A T O S A P A R E A D O S . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2

    5. - ARBOL DE DECISIONES PARA LA COMPARACIÓN DE MEDIAS DE DOSP O B L A C I O N E S N O R M A L E S . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 5

    6. - CONTRASTES PARA LA COMPARACIÓN DE LA TENDENCIA CENTRALCUANDO LAS POBLACIONES NO SON NORMALES. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 6

    6.1.- COMPARACIÓN DE MEDIANAS DE DOS POBLACIONES CON DATOS INDEPENDIENTES: ELCONTRASTE U DE MANN-WITHNEY ..............................................................................................376.2.- COMPARACIÓN DE MEDIANAS DE DOS POBLACIONES CON DATOS APAREADOS: EL TEST DEWILCOXON...............................................................................................................................38

    7.- COMPARACIÓN DE VARIAS POBLACIONES. INTRODUCCIÓN AL PROBLEMAD E L A S C O M P A R A C I O N E S M Ú L T I P L E S . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 9

    8. - VALIDACIÓN DE LAS HIPÓTESIS DE PARTIDA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

  • 0.- INTRODUCCIÓN Y MOTIVACIÓN

    Antes de comenzar con el desarrollo del tema se supone que el lector conoce los conceptos

    fundamentales de muestreo, los principales estimadores de los parámetros de distribuciones

    normales y sus correspondientes distribuciones muestrales.

    Trataremos de explicar alguna de las ideas generales impòrtantes para pasar despues a la

    explicación de algunos de los contrastes más habituales en la práctica. Comenzaremos

    ilustrando las ideas generales sobre el contraste más simple, el de la media de una población

    normal, para ir extendiendo progresivamente las ideas a dos poblaciones, a la comparación de

    proporciones y a las poblaciones no normales. Analizaremos la problemática de realizar un

    número elevado de contrastes sobre el mismo conjunto de datos, y extenderemos las ideas

    fundamentales al diseño de experimentos con varios grupos experimentales.

    1.- CONCEPTOS GENERALES DE CONTRASTE

    Una hipótesis estadística es una afirmación que se hace acerca de una o varias características

    de una población. Las características pueden ser los parámetros de una distribución de

    probabilidad predeterminada, seleccionada para la población. En este caso hablaremos de

    hipótesis paramétricas. En algunas situaciones las características a estudiar no son parámetros

    de una distibucion concreta y decimos que las hipótesis son no paramétricas.

    Un contraste de hipótesis es un procedimiento para decidir si una hipótesis se acepta como

    válida o se rechaza.

    Dos son las hipótesis que generalmente se contrastan, la que denominamos hipótesis nula

    (H0) que es la hipótesis en la que se basa el procedimeineto de contraste, y la que denominamos

    hipótesis alternativa (Ha) que es la hipótesis que se acepta cuando se rechaza la nula y

    viceversa. Generalmente la hipótesis nula está formada por un único valor del parámetro

    mientras que la hipótesis alternativa está formada por un conjunto de valores. A la hipótesis

    alternativa se la denomina también hipótesis de trabajo o hipótesis a investigar ya que, en la

    mayor parte de las situaciones practicas reales es la hipótesis alternativa la que se desea aceptar.

    Para realizar el contraste de una hipótesis seleccionamos una muestra aleatoria de la población y

    trataremos de tomar una decisión de acuerdo con la información que nos proporcionan los

  • valores muestrales, a través de una estimación de la característica (parámetro) a estudiar y de su

    distribución muestral. Denominaremos estadígrafo o estadistico de contraste a una variable

    aleatoria con distribución conocida cuando la hipótesis nula es cierta. La variable aletoria es una

    transformación directa de la distribución muestral.

    Obviamente, la única forma de estar seguros de cual es la hipótesis correcta sería investigar toda

    la población, cosa que no es posible ya que, en general, estamos trabajando con poblaciones

    infinitas. Como disponemos de la información limitada que nos proporciona la muestra

    podemos realizar decisiones erróneas. Dos son los tipos de errores que podemos cometer:

    Error de tipo I: Rechazar H0 cuando es verdadera.

    Error de tipo II: Aceptar H0 cuando es falsa.

    A la probabilidad de cometer un error de tipo I la denominaremos nivel de significación y la

    denotaremos con α. A la probabilidad de cometer un error de tipo II la denotaremos con β a sucomplemento 1-β lo denominamos potencia del contraste, y se define como la probabilidadde rechazar cuando es falsa. Seleccionaremos, si es posible, aquel procedimiento de contraste

    en el que los errores sean lo más pequeños posible. Desgraciadamente, ambos covarian de

    forma inversa, es decir, cuando α aumenta β disminuye y viceversa. Como no es posible fijarambos, se toma como norma fijar el nivel de significación para realizar el contraste.

    Explicaremos estos conceptos con más detalle en el capítulo siguiente. Utilizando un α fijodividimos los valores del estdígrafo de contraste en dos regiones mutuamente excluyentes:

    La región de aceptación: Conjunto de valores del estadígrafo de contraste que nos llevan a

    aceptar la hipótesis nula.

    La región crítica: Conjunto de valores del estadígrafo de contraste que nos llevan a rechazar la

    hipótesis nula (y aceptar la alternativa).

    De acuerdo con lo explicado, los pasos que se han de realizar `para llevar a cabo un contraste de

    hipótesis son los siguientes:

    - Determinar las hipótesis nula y alternativa, traduciendo hipótesis básicas de trabajo en

    hipótesis acerca de parámetros (o características) de una distribución de probabilidad asignada a

    la población.

    - Fijar un nivel de significación: Generalmente el 0.05 (5%) y 0.01 (1%).

    - Determinar cual es el estadígrafo de contraste y su distribución muestral.

    - Determinar la región crítica y la región de aceptación.

    - Seleccionar una muestra y calcular el valor experimental del estadísgrafo de contraste.

    - Tomar la decisión estadística de acuerdo con el valor experimental obtenido.

    - Sacar conclusiones de tipo no estadistico.

  • Los procedimientos de contraste pueden diseñarse tambien utilizando alguna media de la

    discrepancia o de la similitud entre el valor teórico de la hipótesis nula y el valor estimado a

    partir de la muestra, la hipótesis se rechaza cuando la discrepencia es muy grande. Este tipo de

    medida se denomina p-valor y se explicará detalladamente más adelante.

    2.- EL CONTRASTE PARA LA MEDIA DE UNAPOBLACIÓN NORMAL

    2.1.- Planteamiento general

    Consideremos un caso muy simple mediante un ejemplo concreto. Supongamos que

    pertenecemos al consejo regulador de la denominación de origen de los vinos de Ribera de

    Duero. Sabemos que los vinos jóvenes de años anteriores tienen un grado alcohólico medio de

    12.5 grados, tal y como aparece en la etiqueta. Para el año actual, el consejo regulador, de

    acuerdo con todos sus miembros, ha decidido cambiar algunos de los pasos del proceso de

    fabricación. El primer problema que se plantea es : ¿Se ha modificado el grado alcohólico al

    modificar el proceso de fabricación?.

    La definición del problema a estudiar nos permite determinar la población que queremos

    estudiar, los vinos jóvenes de ribera de Duero en el año actual; la variable que queremos medir,

    el grado alcohólico de los mismos, y la hipótesis de trabajo inicial ¿Se ha modificado el grado

    alcohólico?.

    El paso siguiente consiste en suponer un modelo de comportamiento teórico para la población

    (a priori). Suponemos que la variable que estamos midiendo en la población a estudiar sigue

    una distribución normal. La suposición de normalidad la haremos de acuerdo con el

    conocimiento previo que tengamos sobre la población objeto de estudio tratando de que las

    características de la distribución reflejen en la mayor medida posible las de la población, se trata

    simplemente de buscar un modelo probabilístico que aproxime la variable a estudiar. En el caso

    que nos ocupa, parece razonable suponer, a priori, que el grado alcohólico se concentra de forma

    simétrica alrededor de un valor medio. Si consideráramos, por ejemplo, los salarios de una

    empresa la hipótesis de normalidad no es plausible puesto que cabe esperar que la distribución

    de los mismos sea marcadamente asimétrica debido a los altos salarios de un grupo reducido de

    ejecutivos.

  • Formularemos ahora la hipótesis de trabajo en términos de los parámetros del modelo (media

    y/o desviación típica en el caso de la normal). La hipótesis principal la denominamos hipótesis

    nula (H0).

    H 0 = µ = µ 0 =12.5La hipótesis nula suele ser la de igualdad del parámetro a un único valor concreto µ 0procedente de la hipótesis de trabajo.

    Junto con la hipótesis nula planteamos la que denominamos hipótesis alternativa (Ha o H1) que

    será aceptada cuando se rechace la nula y viceversa. Por el momento tomaremos la más sencilla,

    la hipótesis e que la media es diferente de 12 que resultará en un contraste bilateral.

    H a = µ ≠ µ0 = 12.5

    Trataremos de diseñar un procedimiento para decidir entre ambas hipótesis a partir de la

    información contenida en una muestra de tamaño n, por ejemplo 14 observaciones.

    Supongamos que la muestra ha sido seleccionada al azar de la población y que se han obtenido

    los resultados siguientes.

    RIBERA DE DUERO12,8 12,8 12,5 11,9 12,5 12,1 12,2 12,6 13,0 12,4 12,6 12,2 12,8 13,0

    Tabla 1: Grado alcohólico de 14 vinos de la denominación de Ribera de Duero.

    La primera cuestión que hemos de tener en cuenta es que la decisión por una hipótesis concreta

    ha de tomarse con un cierto riesgo de equivocarse al no disponer de la información de todos los

    individuos de la población. Trabajaremos con la media muestral como estimador de la media

    poblacional desconocida. En el ejemplo la media muestral es de 12,529, que como ya sabemos

    no coincide con la media poblacional.

    Trataremos de decidir entre las dos hipótesis a partir del valor de la media muestral pero, si la

    media muestral no coincide con la media poblacional, ¿será la diferencia entre el valor observado

    y el teórico lo suficientemente grande como para rechazar la hipótesis nula? ó ¿la diferencia

    observada es lo suficientemente pequeña como para ser debida simplemente al azar o al

    desconocimiento de la población?. Daremos respuesta a ambas preguntas utilizando los

    conceptos sobre distribuciones aprendidos en temas anteriores.

  • 2.2.- Varianza (desviación típica) conocida

    Supondremos, por el momento, que la varianza de la población es σ2 = 0. 52 conocida.Sabemos que la media muestral para distintas muestras sigue una distribución normal

    N(µ, σn

    ) , luego, cuando la hipótesis nula es cierta

    x ≈ N( µ0 ,σn

    )

    En la práctica, este resultado tiene implicaciones importantes. Veámoslo con un dibujo.

    µ0 x

    x ≈ N(µ 0 ,σn

    )

    Figura 3 : Distribución de la media muestral.

    El dibujo muestra como, aunque los valores de la media muestral no coinciden con la media

    poblacional, se concentran en torno a ella y por tanto es muy probable que sean cercanos

    aunque, con el modelo supuesto puede tomar cualquier valor. Obsérvese también que cuanto

    mayor es el tamaño muestral más se concentran los valores de la media muestral en torno a la

    media poblacional.

    Intuitivamente, aceptaremos la hipótesis nula cuando la media muestral sea próxima a µ 0 y larechazaremos (aceptando la alternativa) cuando la media muestral sea muy diferente de µ 0, esdecir, utilizamos la media muestral como estadístico, o estadígrafo, de contraste. Nos queda por

    determinar cual es el criterio para decidir si la media muestral está próxima o no al valor teórico

    propuesto utilizando el concepto de riesgo tipo I definido previamente. Fijamos el riesgo tipo Y

    en α (por ejemplo en 0.05 o el 5%)

  • Nos plantearemos el contraste como un juicio en el que la media muestral es inocente (procede

    de una población con media µ 0) y no la declararemos culpable (no procede de una poblacióncon media µ 0) hasta que no se demuestre claramente lo contrario.

    Sobre la distribución de la media seleccionamos dos puntos µ 0 − a y µ 0 + a , simétricos

    alrededor de µ 0 de forma que si la hipótesis nula cierta en el (1-α)100% (por ejemplo el 95%)de las muestras la media muestral esté entre esos dos valores (figura 4).

    P( µ 0 − a ≤ x ≤ µ 0 + a) = 1 − αAceptaremos la hipótesis nula si la media muestral está dentro del intervalo seleccionado y la

    rechazaremos en caso contrario. Es claro que si la media está fuera del intervalo seleccionado

    hay una clara evidencia de que la hipótesis no es cierta ya que toma los valores correspondientes

    solo en el 5% de los casos en los que la hipótesis nula es cierta. Por supuesto, estamos

    asumiendo un riesgo del 5% de equivocarnos y rechazar indebidamente.

    Como ya es conocido, al conjunto de valores que nos llevan a aceptar la hipótesis nula lo

    denominamos Región de Aceptación, y al conjunto de valores que nos llevan a rechazarla lo

    denominaremos Región Crítica. En este caso la región crítica se ha dividido en las dos colas de

    la distribución por lo que se dice que el contraste es bilateral o de dos colas.

    µ0 x

    x ≈ N(µ 0 ,σn

    )

    1-α=0.95α/2 = 0.025

    µ0-a µ0+a

    α/2 = 0.025

    Región deAceptación

    Región crítica Región crítica

    Figura 4: Procedimiento de contraste a partir de la media muestral

  • En la práctica no se trabaja directamente con la media muestral y su distribución asociada sino

    con la distribución normal estándar. Teniendo en cuenta las propiedades de la normal podemos

    escribir

    P( µ 0 − a ≤ x ≤ µ 0 + a) = P( −z α/2 ≤x − µ 0σ

    n

    ≤ z α/2 ) = 1 − α

    de forma que el procedimiento descrito se convierte ahora en el que se muestra en la figura 5. El

    estadígrafo de contraste es ahora x − µ 0σ

    n

    y mide la discrepancia entre el valor observado de la

    media y el valor teórico de la misma, en la escala de la desviación típica. No es lo mismo una

    diferencia de una unidad en una escala de centímetros que en una escala de kilómetros.

    0

    ≈ N(0, 1)x − µ 0σ

    n

    1-α=0.95α/2 = 0.025 α/2 = 0.025

    Región deAceptación

    Región crítica Región crítica

    x − µ 0σ

    n

    -zα/2 zα/2

    Figura 4: Procedimiento de contraste a partir de la media muestral estandarizada.

    La interpretación intuitiva del nuevo procedimiento sigue siendo clara, rechazaremos la hipótesis

    nula solamente cuando la discrepancia entre la media observada y la teórica ( x − µ 0 ) sea

    grande, en relación a la variabilidad intrínseca medida por σn

    . La magnitud de la diferencia

    necesaria para rechazar se determina a través del riesgo de tipo 1 mediante la distribución

    normal estándar.

  • A los valores de zα/2 se les suele denominar valores críticos ya que determinan la frontera entre

    la región crítica y la región de aceptación.

    El cuadro siguiente muestra el procedimiento completo con los pasos que se siguen

    habitualmente en la construcción de cualquier contraste.

    Una vez que hemos determinado la forma general del contraste pasamos a aplicarlo a los datos

    del problema inicial que nos ocupa.

    Una vez que hemos tomado la decisión final, no sabemos si es correcta o no, simplemente

    HIPOTESIS: H 0 : µ = µ0H a :µ ≠ µ 0

    NIVEL DE SIGNIFICACION: α

    ESTADIGRAFO DE CONTRASTE: Z =x − µ 0σ

    n

    DISTRIBUCION DEL ESTADIGRAFO CUANDO H 0 ES CIERTA: N(0,1)

    REGION DE ACEPTACION : Z / Z ≤ zα /2{ }REGION CRITICA : Z / Z > zα /2{ }

    Cuadro 2: Contraste para la media de una población normal con varianza conocida.

    Hipótesis: H 0 : µ = 12.5H a :µ ≠ 12.5

    Nivel de significación: 5% y 1%.

    Estadígrafo de contraste: Z =x − µ 0σ

    n

    = 12.529 − 12.50.5

    14

    = 0.217

    Valores críticos : para el 5% z0.025= 1,96 para el 1% z0.005= 2,57

    Decisión estadística: El valor del estadígrafo de contraste pertenece a la región de aceptación,por tanto aceptamos la hipótesis nula.Conclusión no estadística: La modificación en el proceso de fabricación no ha modificadosignificativamente el grado alcohólico.Cuadro 3: Aplicación del contraste para la media de una población normal con varianza conocida al problema de

    la modificación en el grado alcohólico del vino de Ribera de Duero.

  • esperamos que sea del 95% de las muestras en las que aceptamos la hipótesis correctamente. Si

    aceptamos la hipótesis nula no quiere decir que sea cierta y el grado medio sea exactamente de

    12.5 grados (probablemente no lo es), sería más correcto interpretar que, con la información de

    la que disponemos no hemos encontrado evidencia suficiente de que la media sea distinta de

    12.5. Evidentemente, los valores muestrales son compatibles con muchos otros posibles valores

    teóricos.

    Si aumentamos el tamaño de muestra indefinidamente, la variabilidad de la media sería cada vez

    menor y conseguiríamos que la pequeña diferencia observada sea lo suficientemente grande

    como para considerarla significativa. Es por esto por lo que en Estadística decimos que es tan

    malo tener un tamaño de muestra demasiado alto como tenerlo demasiado bajo ya que en el

    primer caso cualquier pequeña diferencia es considerada como significativa mientras que en el

    segundo no se declara significación incluso en el caso en el que la diferencia sea elevada.

    2.3.- La potencia del contraste

    En todo el proceso descrito hasta el momento solamente se ha utilizado el riesgo de tipo I en el

    desarrollo del contraste. Sabemos que esta asociado con el riesgo de tipo II de forma que

    cuando uno aumenta, el otro disminuye. Tampoco hemos hecho ninguna afirmación acerca de

    un concepto importante como es el de potencia del contraste (probabilidad de rechazar la

    hipótesis nula cuando es falsa).

    No es posible calcular la potencia del contraste porque para ello necesitaríamos un único valor

    en la hipótesis alternativa (revísese el ejemplo de los cirróticos utilizado como aplicación de la

    distribución normal), aunque si podemos realizar el cálculo para distintos valores en la

    alternativa (función de potencia) y analizar lo que ocurre.

    Veámoslo con un ejemplo.

    Cual sería la potencia del contraste obtenido para detectar que la media no es 12.5 si en realidad

    la media fuera 13 (y suponiendo un nivel de significación del 5%).

    En términos de la media muestral el procedimiento de contraste consiste en aceptar la hipótesis

    nula si la media muestral está entre 12.238 y 12.762. La probabilidad de cometer un error de

    tipo 2 (aceptar indebidamente) si la media real fuera de 13 se podría calcular como

  • P(12.382 ≤ X ≤12.762) en una normal de media 13 y desviación típica 0.514

    . Esta

    probabilidad es 0.037 de forma que la potencia es 1 - 0.037 = 0.963. La situación

    esquematizada aparece en la figura 5.

    µ0x

    x ≈ N(µ 0 ,σn

    )

    1-α

    α

    µ0-a µ0+a

    x ≈ N(µ a ,σn

    )

    µa

    β

    1−β

    Figura 5: Cálculo de la potencia del contraste para una alternativa predeterminada.

    En la figura 6 se muestra la función de potencia para distintos valores posibles de la hipótesis

    alternativa.

    0

    ,1

    ,2

    ,3

    ,4

    ,5

    ,6

    ,7

    ,8

    ,9

    1

    1,1

    Pote

    ncia

    11,5 11,75 12 12,25 12,5 12,75 13 13,25 13,5alternativa

    Figura 6: Función de potencia para distintos valores de la alternativa.

  • El gráfico muestra como la potencia es mayor cuando los valores de la alternativa se alejan del

    valor para la hipótesis nula. En la práctica este hecho tiene una implicación obvia: es más fácil

    detectar diferencias o efectos experimentales de gran magnitud.

    Aunque no es posible un control directo de la potencia, a la vista de la figura 5 es claro que la

    potencia puede modificarse modificando el nivel de significación o el tamaño muestral ya que la

    forma de las curvas depende de éste. Cuanto mayor sea el tamaño muestral más concentrada es

    la curva normal y, por tanto, mayor es la potencia para el mismo nivel de significación.

    En la práctica suele hacerse un estudio de potencia para los contrastes no significativos,

    calculando cual sería el tamaño muestral necesario para que la diferencia observada en los datos

    sea significativa. Si este tamaño es muy grande es difícil declarar la significación por lo que

    consideraremos que estamos haciendo lo correcto, si el tamaño muestral necesario es pequeño,

    sería conveniente revisar el experimento.

    El cálculo es muy simple cuando se trabaja con distribuciones normales. La hipótesis nula se

    rechaza cuando x − µ 0σ

    n

    > z α/2 de forma que, para que la diferencia sea significativa el

    valor de n será

    n >z α/2

    2 σ2

    x − µ 0

    para el ejemplo del grado alcohólico, n> 1141,97, es decir, para que la diferencia observada fuera

    significativa tendríamos que haber recogido más de 1142 observaciones lo que da una idea de

    que la diferencia observada es muy pequeña y, por tanto es muy probable que la hipótesis nula

    sea cierta.

    2.4.- El p-valor del contraste

    Una forma habitual de medir la significación en los contrastes de hipótesis es el denominado p-

    valor del contraste. Su utilización en la investigación aplicada es debida a que es la forma de

    presentación de los resultados de un contraste usada por la mayor parte de los programas de

    ordenador.

  • Se puede definir el p-valor de un contraste como la probabilidad de obtener un valor muestral

    más extremo que el obtenido en nuestro caso particular (cuando H0 es cierta). Si el p-valor es

    muy pequeño rechazaremos la hipótesis nula ya que el valor experimental es muy extremo,

    mientras que si el p-valor es grande aceptaremos la hipótesis nula ya que el valor es compatible

    con la misma.

    De forma general, el p-valor para el contraste actual se puede calcular como

    P( Z >x − µ0σ

    n

    ) en una distribución normal estándar.

    Para el ejemplo anterior el p-valor es 1-P(-0.217 < Z < 0.217) = 2 P(Z > 0.217) = 0.8285, es

    decir el p-valor puede considerarse grande. En la práctica se suele adoptar el criterio de aceptar

    la hipótesis cuando el p-valor es mayor que el nivel de significación fijado en el procedimiento

    de contraste.

    0

    ≈ N(0, 1)x − µ 0σ

    n

    Región deAceptación

    Región crítica Región crítica

    -zα/2 zα/2± Zexp erimental

    p-valor

    Figura 7: El p-valor de un contraste bilateral.

    2.5.- Los contrastes unilaterales

    En algunas situaciones concretas no estamos interesados en todos los posibles valores de la

    hipótesis alternativa propuesta en un contraste bilateral. Supongamos, por ejemplo, que en el

    caso práctico anterior sospechamos a priori que la modificación en el procedimiento de

  • fabricación produce un incremento en el contenido alcohólico. En este caso sería conveniente

    modificar la hipótesis alternativa para que sea de la forma H a :µ > µ0 . El procedimiento decontraste es muy similar al anterior y se muestra en el cuadro siguiente.

    El contraste así obtenido se denomina contraste unilateral superior ya que solo estamos

    interesados en las desviaciones positivas. La diferencia fundamental con el contraste bilateral es

    que se produce un incremento en la potencia para detectar diferencias positivas de la hipótesis

    nula y un decremento drástico para detectar las negativas.

    El p-valor sigue teniendo la misma interpretación aunque ahora se calcula como

    P(Z >x − µ0σ

    n

    ) .

    0

    ≈ N(0, 1)x − µ 0σ

    n

    zαZexp erimental

    p-valor

    Figura 8: El p-valor de un contraste unilateral superior.

    HIPOTESIS: H 0 : µ = µ0H a :µ > µ0

    NIVEL DE SIGNIFICACION: α

    ESTADIGRAFO DE CONTRASTE: Z =x − µ 0σ

    nDISTRIBUCION DEL ESTADIGRAFO CUANDO H 0 ES CIERTA: N(0,1)

    REGION DE ACEPTACION : Z / Z ≤ zα{ }REGION CRITICA : Z / Z > zα{ }

    Cuadro 4: Contraste unilateral superior para la media de una población normal con varianza conocida.

  • De la misma manera que se ha construido el contraste unilateral superior es posible construir el

    contraste unilateral inferior si estamos interesados exclusivamente en detectar diferencias

    negativas con respecto a la hipótesis nula. La construcción del contraste es completamente

    análoga con la correspondiente modificación de la hipótesis alternativa. El contraste unilateral

    inferior incrementa la potencia para detectar diferencias negativas aunque no tiene potencia para

    detectar las positivas.

    0

    ≈ N(0, 1)x − µ 0σ

    n

    -zαZexp erimental

    p-valor

    Figura 9: El p-valor de un contraste unilateral inferior.

    La decisión por el tipo de contraste debe hacerse a priori, antes de tomar los datos.

    Supongamos, por ejemplo, que sospechamos, antes de realizar el experimento, que la

    modificación en el proceso de fabricación, aumenta el grado alcohólico. El procedimiento de

    HIPOTESIS: H 0 : µ = µ0H a :µ < µ0

    NIVEL DE SIGNIFICACION: α

    ESTADIGRAFO DE CONTRASTE: Z =x − µ 0σ

    nDISTRIBUCION DEL ESTADIGRAFO CUANDO H 0 ES CIERTA: N(0,1)

    REGION DE ACEPTACION : Z / Z ≥ zα{ }REGION CRITICA : Z / Z < zα{ }

    p-valor: P(Z <x − µ0σ

    n

    )

    Cuadro 5: Contraste unilateral inferior para la media de una población normal con varianza conocida.

  • contraste para los datos de la tabla 1 se muestra en el cuadro siguiente

    La función de potencia para distintos valores de la alternativa aparece en la figura siguiente.

    Obsérvese como el contraste no tiene ninguna potencia para detectar valores a la izquierda de la

    hipótesis nula.

    - ,2

    0

    ,2

    ,4

    ,6

    ,8

    1

    1,2

    Pote

    ncia

    (uni

    )

    11,25 11,5 11,75 12 12,25 12,5 12,75 13 13,25 13,5alternativa

    Figura 10: Función de potencia para un contraste unilateral superior.

    Hipótesis:H 0 : µ = 12. 5H a :µ >12. 5

    Nivel de significación: 5% y 1%.

    Estadígrafo de contraste: Z =x − µ 0σ

    n

    = 12. 529 − 12. 50. 5

    14

    = 0. 217

    Valores críticos : para el 5% z0.025 = 1,65 para el 1% z0.005 = 2,33p-valor: 0.4129Decisión estadística: El valor del estadígrafo de contraste pertenece a la región de aceptación,por tanto aceptamos la hipótesis nula.Conclusión no estadística: La modificación en el proceso de fabricación no ha aumentadosignificativamente el grado alcohólico.Cuadro 6: Aplicación del contraste para la media de una población normal con varianza conocida al problema de

    la modificación en el grado alcohólico del vino de Ribera de Duero

  • 2.6.- Varianza desconocida

    En la mayor parte de las aplicaciones prácticas la varianza de la distribución es también

    desconocida y ha de ser estimada a partir de los datos. El problema es que ya no es posible

    seguir utilizando la distribución normal para el procedimiento de contraste ya que es necesario

    eliminar el parámetro σ del estadígrafo de contraste.

    De acuerdo con la teoría, además de la distribución muestral de la media sabemos que

    (n − 1) ˆ S 2

    σ2 sigue una distribución ji-cuadrado con n-1 grados de libertad. Si suponemos que

    media y varianza son independientes1, es posible combinar las correspondientes distribuciones

    muestrales para obtener una distribución t de Student y eliminar el parámetro σ.

    Utilizando la definición de distribución t de Student con n-1 grados de libertad como el cociente

    entre una normal estándar y la raíz cuadrada de una ji-cuadrado con n-1 grados de libertad

    dividida por sus grados de libertad, y ambas independientes, obtenemos que la variable aleatoria

    t =

    x − µ 0σ

    n

    (n − 1) ˆ S 2

    σ2

    (n − 1)

    =x − µ 0

    ˆ S n

    sigue una distribución t de Student con n-1 grados de libertad.

    El procedimiento de contraste en este caso es análogo al anterior pero sustituyendo la

    distribución normal por la distribución t. El cuadro 6 muestra el procedimiento de contraste

    completo.

    1 La demostración completa no se realiza aquí.

  • En la práctica, la sustitución de la distribución normal por la distribución t de Student implica un

    aumento de la dispersión por lo que es más difícil detectar diferencias. La situación se muestra

    el la figura siguiente en la que se comparan la distribución normal estándar (en línea

    discontinua) y la distribución t (en línea continua).

    t =x − µ0

    Ŝn

    ≡ tn−1

    α/2α/2

    1−α

    0-t α tαFigura 11: Diferencia entra la distribución normal y la distribución t de Student.

    Es posible construir contrastes unilaterales de la misma manera que en el caso de varianza

    conocida. El cuadro 7 muestra el contraste unilateral superior, el contraste unilateral inferior se

    deja como ejercicio al lector.

    2 tn-1,α es el valor crítico de la t de Student tal que P(-tn-1,α ≤ tn-1 ≤ tn-1,α ) = 1-α. Se ha denotado con elsubíndice α porque es el que se utiliza para buscar el valor correspondiente en la tabla.

    HIPOTESIS

    H 0 : µ = µ0H a :µ ≠ µ 0

    NIVEL DE SIGNIFICACION: α

    ESTADIGRAFO DE CONTRASTE: t =x − µ0

    ˆ S n

    DISTRIBUCION DEL ESTADIGRAFO CUANDO LA HIPOTESIS NULA

    ES CIERTA: tn-1

    REGION DE ACEPTACION : t / t ≤ t n−1,α{ }REGION CRITICA : t / t > t n−1,α{ } 2

    Cuadro 6: Contraste para la media de una población normal con varianza desconocida.

  • Para el ejemplo del grado alcohólico de los vinos de la denominación de origen de Ribera de

    Duero los resultados del contraste bilateral se muestran en el cuadro 8.

    Todos los conceptos explicados para el contraste de la media de una población normal con

    varianza conocida siguen siendo válidos aquí.

    3 tn-1,2α es el valor crítico de la t de Student tal que P( tn-1 > tn-1,2α ) = α. Se ha denotado con el subíndice 2αporque es el que se utiliza para buscar el valor correspondiente en la tabla.

    HIPOTESIS: H 0 : µ = µ0H a :µ > µ0

    NIVEL DE SIGNIFICACION: α

    ESTADIGRAFO DE CONTRASTE: t =x − µ0

    ˆ S n

    DISTRIBUCION DEL ESTADIGRAFO CUANDO H 0 ES CIERTA: tn-1

    REGION DE ACEPTACION : t / t ≤ t n−1,2α{ } 3REGION CRITICA : t / t > t n−1,2α{ }

    Cuadro 7: Contraste para la media de una población normal con varianza desconocida.

    Hipótesis: H 0 : µ = 12.5H a :µ ≠ 12.5

    Nivel de significación: 5% y 1%.

    Estadígrafo de contraste: t =x − µ0

    ˆ S n

    = 12.529 − 12. 50.338

    14

    = 0.316

    Valores críticos : para el 5% t18, 0..05= 2.101 para el 1% t18, 0..01= 2.878

    p-valor : 0,7571

    Decisión estadística: El valor del estadígrafo de contraste pertenece a la región de aceptación,por tanto aceptamos la hipótesis nula.Conclusión no estadística: La modificación en el proceso de fabricación no ha modificadosignificativamente el grado alcohólico.Cuadro 8: Aplicación del contraste para la media de una población normal con varianza desconocida al problema

    de la modificación en el grado alcohólico del vino de Ribera de Duero

  • 2.7.- Contrastes para muestras grandes

    Cuando las muestras de las que se dispone son muestras grandes (aproximadamente mayores

    de 30 observaciones) es posible utilizar directamente la distribución normal ya que es muy

    similar a la t de Student. Además el teorema central del límite permite relajar la hipótesis de

    normalidad ya que la normalidad de la distribución muestral de medias está garantizada, bajo

    ciertas condiciones de regularidad, aunque la población original no sea normal. Hay que tener

    en cuenta que se trata sólo de una aproximación y, cuanto mayor es el tamaño de la muestra

    mejor es la aproximación normal obtenida. El procedimiento de contraste para muestras grandes

    se muestra en el cuadro 9. Mostramos solamente el contraste bilateral ya que los unilaterales se

    construyen exactamente de la misma manera que en los casos anteriores.

    HIPOTESIS: H 0 : µ = µ0H a :µ ≠ µ 0

    NIVEL DE SIGNIFICACION: α

    ESTADIGRAFO DE CONTRASTE: Z =x − µ 0

    ˆ S n

    DISTRIBUCION DEL ESTADIGRAFO CUANDO LA HIPOTESIS NULA

    ES CIERTA: N(0, 1)

    REGION DE ACEPTACION : Z / Z ≤ zα /2{ }REGION CRITICA : Z / Z > zα /2{ }

    Cuadro 9: Contraste para la media de una población normal con varianza desconocida cuando la muestra esgrande.

  • 3.- EL CONTRASTE PARA LA DIFERENCIA DEMEDIAS DE DOS POBLACIONES NORMALESCON DATOS INDEPENDIENTES.

    3.1.- Planteamiento general

    En la investigación aplicada la situación más habitual es aquella en la que se quieren comparar

    dos poblaciones a las que se les ha aplicado, por ejemplo, dos tratamientos diferentes.

    Pongámonos en el mismo supuesto que en el ejemplo que sirvió para ilustrar el contraste para

    una población, y supongamos que lo que deseamos es conocer si los vinos de nuestra

    denominación de origen tienen el mismo contenido alcohólico que los de otra denominación de

    origen, por ejemplo la de Toro. Se trata de saber si existe una clara diferenciación en los mismos

    ya que, debido a la proximidad geográfica de ambas regiones, es posible que haya fraudes y se

    intercambien vinos de ambas dependiendo del mercado de los mismos. La hipótesis de trabajo

    inicial es entonces ¿Existen diferencias en el grado alcohólico de ambas denominaciones?.

    Procediendo de la misma manera que en el caso de una población, suponemos una distribución

    de probabilidad para la población que es la distribución normal. En la primera población (Ribera

    de Duero) el grado alcohólico sigue una distribución normal N(µ1, σ1); en la segunda

    población (Toro) el grado alcohólico sigue una distribución normal N(µ2, σ2).

    Formulamos a continuación las hipótesis de trabajo en términos de los parámetros de los

    modelos. Las hipótesis nula y alternativa son ahora

    H 0 : µ1 = µ 2 (µ1 − µ2 = 0)H a :µ1 ≠ µ 2 (µ1 − µ 2 ≠ 0)

    para el contraste bilateral. Vemos como el contraste de que las medias son iguales es equivalente

    al contraste de que la diferencia de medias vale 0.

    Supongamos que los datos obtenidos son los siguientes para muestras aleatorias de tamaño

    n1 = 14 y n2 = 6.

  • Ribera de Duero

    12,8 12,8 12,5 11,9 12,5 12,1 12,2 12,6 13,0 12,4 12,6 12,2 12,8 13,0

    Toro

    13,0 14,0 13,2 13,4 13,2 13,9Tabla 2: Grado alcohólico de 20 vinos de las denominaciones de origen de Ribera y Toro.

    Se supone que las muestras se han obtenido de forma independiente en ambas denominaciones.

    La estadística descriptiva básica para ambos grupos aparece en la tabla siguiente.

    12,805

    ,557

    ,124

    20

    11,900

    14,000

    12,529

    ,338

    ,090

    14

    11,900

    13,000

    13,450

    ,409

    ,167

    6

    13,000

    14,000

    Media

    Desv. Tip.

    Error Estd.

    n

    Minim0

    Maximo

    grado, Total grado, Ribera grado, Toro

    Descriptiva básica

    Tabla 3: Descriptiva básica del grado alcohólico.

    Una primera aproximación a las diferencias entre los dos grupos sería la construcción de

    gráficos comparativos que muestren la estructura de los mismos, por ejemplo, un Box-Plot con

    los grupos separados.

    Toro

    Ribera

    11,75

    12

    12,25

    12,5

    12,75

    13

    13,25

    13,5

    13,75

    14

    14,25

    grado

    Box Plot

    Figura 12: Box plot para la comparación del grado alcohólico de las denominaciones de Ribera y Toro.

  • Una simple inspección visual del gráfico nos muestra que hay una clara diferencia entre los

    grados de ambas denominaciones, a pesar de que la diferencia muestral es muy evidente

    necesitamos un procedimiento más formal para establecer si las diferencias observadas pueden

    ser consideradas estadísticamente significativas. Construiremos el procedimiento de contraste en

    varios supuestos comenzando desde el más sencillo hasta los más complejos.

    3.2.- Varianzas conocidas

    Supongamos, para simplificar que las desviaciones típicas son conocidas, por ejemplo σ1= 0.5 y σ2 = 0.6 para las denominaciones de Ribera de Duero y Toro respectivamente.Desarrollaremos el procedimiento general para después aplicarlo a los datos de los que

    disponemos.

    Conocemos la distribución de la media muestral en ambas poblaciones.

    x 1 ≈ N(µ1 ,σ1n1

    )

    x 2 ≈ N(µ 2 ,σ2n2

    )

    y ambas distribuciones son independientes. El estimador de la diferencia de medias

    poblacionales será la diferencia de medias muestrales y, como la diferencia de normales

    independientes es también una distribución normal, tenemos que

    x 1 − x 2 ≈ N( µ1 − µ2 ,σ1

    2

    n1+

    σ22

    n 2)

    Estandarizando se obtiene que

    Z =( x 1 − x 2 ) − (µ1 − µ 2 )

    σ12

    n1+

    σ22

    n 2

    ≈ N(0,1)

    Cuando la hipótesis nula es cierta µ1 − µ 2 = 0 y se tiene que

  • Z =( x 1 − x 2 )

    σ12

    n1+

    σ22

    n 2

    ≈ N(0,1)

    luego Z será el estadígrafo de contraste que utilizaremos.

    El procedimiento de contraste completo se muestra el cuadro 9. Solo se incluye el contraste

    bilateral ya que la construcción de los correspondientes unilaterales es la misma que en los

    casos previos y se deja como ejercicio al lector.

    HIPOTESIS: H 0 : µ1 = µ 2 (µ1 − µ2 = 0)H a :µ1 ≠ µ 2 (µ1 − µ 2 ≠ 0)

    NIVEL DE SIGNIFICACION: α

    ESTADIGRAFO DE CONTRASTE: Z =( x 1 − x 2 )

    σ12

    n1+

    σ22

    n 2DISTRIBUCION DEL ESTADIGRAFO CUANDO H 0 ES CIERTA: N(0, 1)

    REGION DE ACEPTACION : Z / Z ≤ zα /2{ }REGION CRITICA : Z / Z > zα /2{ }

    Cuadro 10: Contraste para la diferencia de medias de dos poblaciones normales con varianza conocida.

    Si aplicamos el contraste a los datos del ejemplo, obtenemos los resultados del cuadro 10.

    HIPOTESIS: H 0 : µ1 = µ 2 (µ1 − µ2 = 0)H a :µ1 ≠ µ 2 (µ1 − µ 2 ≠ 0)

    NIVEL DE SIGNIFICACION: α= 0.05 (5%) ó 0.01 (1%)

    ESTADIGRAFO DE CONTRASTE: Z =(12.529 − 13. 450)

    0.2514

    + 0.366

    = −10.829

    Valores críticos : para el 5% z0.025= 1,96 para el 1% z0.005= 2,57

    Decisión estadística: El valor del estadígrafo de contraste pertenece a la región crítica, portanto rechazamos la hipótesis nula.Conclusión no estadística: Los grados alcohólicos medios de las dos denominaciones sondiferentes.Cuadro 11: Contraste para la diferencia de medias de dos poblaciones normales con varianza desconocida aplicadoal ejemplo de la comparación del grado alcohólico en dos denominaciones de origen.

  • 3.3.- Varianzas desconocidas pero iguales

    Supongamos ahora que las varianzas son desconocidas pero iguales (σ1 = σ2 = σ). Ladistribución de la diferencia de medias muestrales es ahora

    Z =( x 1 − x 2 ) − (µ1 − µ 2 )

    σ 1n1

    + 1n2

    ≈ N(0,1)

    Tenemos que eliminar el parámetro σ, para lo cual utilizaremos las distribuciones muestralesasociadas a las cuasi-varianzas muestrales

    (n 1 − 1) ˆ S 12

    σ2≈ χn1−1

    2 y (n 2 − 1) ˆ S 2

    2

    σ2≈ χn2 −1

    2

    La suma de dos ji-cuadrado es también una ji-cuadrado, sumando las dos anteriores

    (n 1 − 1) ˆ S 12

    σ2+

    (n 2 − 1) ˆ S 22

    σ2=

    (n 1 − 1) ˆ S 12 + (n 2 − 1) ˆ S 2

    2

    σ2≈ χn1+n2 −2

    2

    Suponiendo que ambas distribuciones son independientes4, podemos combinarlas para obtener

    una distribución t de Student. La variable aleatoria

    t =

    (x 1 − x 2 ) − (µ1 − µ2 )

    σ 1n1

    + 1n 2

    (n 1 − 1)ˆ S 12 + (n 2 − 1) ˆ S 2

    2

    σ2n1 + n2 − 2

    =(x 1 − x 2 ) − (µ1 − µ2 )

    ˆ S 1

    n1+ 1

    n2

    con ˆ S =(n 1 − 1) ˆ S 1

    2 + (n 2 − 1) ˆ S 22

    n1 + n 2 − 2 sigue una t de Student con n1 + n2 -2 grados de

  • libertad.

    Si la hipótesis nula es cierta, el estadígrafo de contraste que utilizaremos es

    t =(x 1 − x 2 )

    ˆ S 1

    n1+ 1

    n2

    = t n1+n2 −2

    Es posible considerar un estadígrafo de contraste alternativo si se utilizan las varianzas

    muestrales en lugar de las cuasi-varianzas. Para ello basta tener en cuenta que las distribuciones

    muestrales asociadas a las varianzas son

    n1 S12

    σ2≈ χn1−1

    2 y n 2 S2

    2

    σ2≈ χn2 −1

    2

    El nuevo estadígrafo de contraste es de la forma

    t =(x 1 − x 2 )

    S1

    n1+ 1

    n2

    = t n1+n2 −2

    con S =n1 ˆ S 1

    2 + n2 ˆ S 22

    n1 + n2 − 2. Los dos estadísticos toman exactamente el mismo valor por lo

    que pueden utilizarse indistintamente. Usaremos el calculado a partir de las cuasi-varianzas

    porque son estimadores insesgados de la varianza poblacional.

    En ambos casos lo que se ha hecho es estimar la varianza común de ambas poblaciones

    mediante una media ponderada de las varianzas estimadas en cada población, y se ha cambiado

    la distribución normal por la t de Student con el correspondiente aumento en la dispersión que

    hace que sea más difícil encontrar diferencias.

    En este caso es necesario que las varianzas sean iguales para poder despejarlas y eliminarlas en

    el cálculo del estadígrafo de contraste. La comprobación de la igualdad de varianzas se hará

    4 La demostración puede encontrarse en cualquier libro de Estadística Matemática. No se ha incluido aquí porquesupera los propósitos de este trabajo.

  • posteriormente aunque sea un paso previo a la decisión del tipo de contraste.

    Las cuestiones relacionadas con la potencia del contraste se interpretan de la misma manera que

    en todos los casos anteriores. Cuanto mayor sea la diferencia que queremos detectar mayor será

    la potencia para detectarla. Cuanto más pequeño sea el efecto que queremos detectar mayor será

    el tamaño de muestra necesario para hacerlo. Si aumentamos indefinidamente el tamaño

    muestral conseguiremos que la diferencia muestral sea siempre estadísticamente significativa por

    pequeña que sea.

    El contraste completo se muestra en el cuadro siguiente.

    HIPOTESIS: H 0 : µ1 = µ 2 (µ1 − µ2 = 0)H a :µ1 ≠ µ 2 (µ1 − µ 2 ≠ 0)

    NIVEL DE SIGNIFICACION: α

    ESTADIGRAFO DE CONTRASTE: t =(x 1 − x 2 )

    ˆ S 1

    n1+ 1

    n2

    ó t =(x 1 − x 2 )

    S1

    n1+ 1

    n 2

    con ˆ S =(n 1 − 1) ˆ S 1

    2 + (n 2 − 1) ˆ S 22

    n1 + n 2 − 2 ó S =

    n1 ˆ S 12 + n2 ˆ S 2

    2

    n1 + n2 − 2

    DISTRIBUCION DEL ESTADIGRAFO CUANDO LA HIPOTESIS NULA

    ES CIERTA: t de Student t n1+n2−2

    REGION DE ACEPTACION : t / t ≤ t n1+n2 −2,α{ }REGION CRITICA : t / t > t n1+n2 −2,α{ }

    Cuadro 10: Contraste para la diferencia de medias de dos poblaciones normales con varianzas desconocidas pero

    iguales.

    El contraste se ha aplicado a los datos del ejemplo inicial y se han obtenido los siguientes

    resultados.

  • HIPOTESIS: H 0 : µ1 = µ 2 (µ1 − µ2 = 0)H a :µ1 ≠ µ 2 (µ1 − µ 2 ≠ 0)

    NIVEL DE SIGNIFICACION: α= 0.05 (5%) ó 0.01 (1%)

    ESTADIGRAFO DE CONTRASTE: t =(12.529 − 13.450)

    0.3591

    14+ 1

    6

    = −5.256

    Valores críticos : para el 5% t18,0.025= 2.101 para el 1% t18,0.005= 2.878

    Decisión estadística: El valor del estadígrafo de contraste pertenece a la región crítica, por

    tanto rechazamos la hipótesis nula.

    Conclusión no estadística: El grado alcohólico es significativamente diferente en Ribera de

    Duero y Toro.

    Cuadro 11: Contraste para la diferencia de medias de dos poblaciones normales con varianzas desconocidas pero

    iguales, aplicado a los datos sobre el grado alcohólico.

    3.4.- Varianzas desconocidas y distintas

    Supongamos ahora que las varianzas son desconocidas y distintas (σ1 ≠ σ2) de forma que yano es posible eliminar el parámetro en el cálculo de la t de Student. Se han propuesto diversas

    aproximaciones para la aproximación de la distribución del estadígrafo de contraste.

    Describiremos aquí la aproximación de Welch. La demostración completa está fuera de los

    propósitos de este trabajo.

  • HIPOTESIS: H 0 : µ1 = µ 2 (µ1 − µ2 = 0)H a :µ1 ≠ µ 2 (µ1 − µ 2 ≠ 0)

    NIVEL DE SIGNIFICACION: α

    ESTADIGRAFO DE CONTRASTE: t =(x 1 − x 2 )

    ˆ S 12

    n1+

    ˆ S 22

    n2

    DISTRIBUCION DEL ESTADIGRAFO CUANDO LA HIPOTESIS NULAES CIERTA: t de Student t f donde f es el entero más próximo a

    f =

    ˆ S 12

    n1+

    ˆ S 22

    n2

    2

    ˆ S 12

    n1

    2

    n1 + 1+

    ˆ S 22

    n2

    2

    n2 + 1

    − 2

    REGION DE ACEPTACION : t / t ≤ t f,α{ }REGION CRITICA : t / t > t f,α{ }

    Cuadro 11: Contraste para la diferencia de medias de dos poblaciones normales con varianzas desconocidas y

    distintas.

    3.5.- Contrastes de comparación de medias para muestras grandes.

    Como ya se comentó para el caso de una única población, el teorema central del límite permite

    asignar distribuciones normales a las medias muestrales aunque la distribución en la población

    no sea normal. Si disponemos de una muestra de tamaño grande y estimamos la varianza

    poblacional a través de la cuasivarianza muestral, podemos construir un contraste aproximado de

    comparación de medias utilizando la distribución normal.

  • HIPOTESIS: H 0 : µ1 = µ 2 (µ1 − µ2 = 0)H a :µ1 ≠ µ 2 (µ1 − µ 2 ≠ 0)

    NIVEL DE SIGNIFICACION: α

    ESTADIGRAFO DE CONTRASTE: t =(x 1 − x 2 )

    ˆ S 12

    n1+

    ˆ S 22

    n2

    DISTRIBUCION DEL ESTADIGRAFO CUANDO LA HIPOTESIS NULA

    ES CIERTA: N(0,1)

    REGION DE ACEPTACION : Z / Z ≤ zα /2{ }REGION CRITICA : Z / Z > zα /2{ }

    Cuadro 12: Contraste para la diferencia de medias de dos poblaciones normales con varianzas desconocidas y

    tamaños muestrales grandes.

    Obsérvese que estamos suponiendo implícitamente que la cuasi-varianza muestral es un buen

    estimador de la varianza poblacional, próximo al verdadero valor.

    3.6.- Obtención de datos para la comparación de medias.

    Dos son los tipos de datos de los que es posible disponer para la comparación de las medias

    - Datos procedentes de estudios observacionales.

    - Datos procedentes de estudios experimentales.

    En el primer caso se toman muestras aleatorias en dos poblaciones. La muestra aleatoria

    garantiza la representatividad . A este tipo de datos corresponde el ejemplo que hemos utilizado

    como guía para la explicación.

    Los datos experimentales se corresponden con experimentos planificados en los que se asignan

    dos tratamientos distintos a un grupo de individuos. En este tipo de diseños es necesario que

    todas las características que no intervienen en el diseño y puedan modificar la respuesta, estén

    controlados y sean similares en los dos grupos a comparar. Por ejemplo, si se desea hacer un

    ensayo clínico en el que se dispone de un grupo de pacientes de forma que a un subconjunto se

    le aplicará el tratamiento a comparar y el resto será utilizado como control sobre el que se

    utilizará un placebo (substancia no activa) con la misma apariencia que el tratamiento, los

    pacientes de ambos grupos han de ser similares en composición con respecto a características

  • como la edad peso u otros factores que pudieran alterar la respuesta y que no intervienen

    directamente en el diseño. Se tratará de evitar sesgos de forma que los efectos puedan ser

    asignados a los tratamientos, por ejemplo, en un experimento con ratones de laboratorio en el

    que se dispone de dos camadas distintas, no sería correcto asignar un tratamiento diferente a

    cada una de las camadas ya que sería imposible separar los efectos del tratamiento y de la

    camada. En Estadística decimos que los tratamientos están confundidos.

    La forma de asignar tratamientos a individuos para que no existan errores sistemáticos es

    hacerlo al azar, por ejemplo, sorteando cual es el tratamiento que se aplica a cada individuo. A

    este procedimiento se le denomina aleatorización, y juega un papel fundamental en el diseño de

    experimentos planificados. Hay que hacer notar que al azar no significa “de cualquier manera”

    o “cualquiera de los tratamientos”, para conseguir una verdadera aleatorización es necesario

    utilizar la probabilidad.

    En los experimentos diseñados es muy importante realizar estudios previos sobre el tamaño de

    muestra necesario para detectar un determinado efecto. Este problema está fuera del alcance de

    un curso introductorio aunque las ideas básicas fueron expuestas cuando se trató con los

    intervalos de confianza.

    Este tipo de experimentos se comenzó en Agricultura para extenderse después a otras

    aplicaciones como la Industria o la Medicina. Actualmente los ensayos clínicos controlados,

    basados fundamentalmente en conceptos de Estadística, forman una parte importante de la

    investigación médica. Todo el mundo ha oído alguna vez en las noticias los resultados de

    ensayos clínicos controlados antes de lanzar al mercado un nuevo medicamento.

    4.- EL CONTRASTE PARA LA DIFERENCIA DEMEDIAS DE DOS POBLACIONES NORMALESCON DATOS APAREADOS.

    En el caso de datos independientes en el punto anterior, se dispone de dos conjuntos distintos

    de individuos para cada una de las situaciones experimentales que se quiere compara. Una

    forma de controlar la variabilidad debida a los propios sujetos consiste en aplicar todos los

    tratamientos en estudio a todos los individuos de la muestra en dos ocasiones diferentes. A este

    tipo de datos lo denominaremos datos apareados, relacionados, o ligados y consisten en dos

    mediadas tomadas sobre el mismo conjunto d individuos en dos ocasiones diferentes.

    Para ilustrar los procedimientos utilizaremos datos tomados de MARTIN ANDRES y LUNA

  • CASTILLO (1990).

    Supongamos que deseamos saber si la presión sistólica de personas alcohólicas se modifica

    cuando dejan el hábito de beber, para ello se toma una muestra de 10 personas que ingresan en

    en el hospital para tratar su alcoholismo y se toma una medida de la presión sistólica antes y

    después de dos meses de haber dejado de beber. El experimento fue diseñado de esta manera ya

    que aunque se espera una reducción en la presión sanguínea, esta depende del valor inicial en

    cada individuo.

    Los resultados obtenidos para la presión sistólica mediada en milímetros de mercurio fueron los

    siguientes:

    Individuo 1 2 3 4 5 6 7 8 9 10

    Antes 140 165 160 160 175 190 170 175 155 160

    Después 145 150 150 160 170 175 160 165 145 170

    Reducción -5 15 10 0 5 15 10 10 10 -10

    Como las variables están relacionadas, todos los cálculos que realizamos en el caso de datos

    independientes ya no son válidos. Para evitar este problema nos centraremos en una sola

    variable aleatoria que es la diferencia entre los dos valores obtenidos para cada uno de los

    individuos estudiados que mide el efecto del tratamiento aplicado. Tenemos ahora una nueva

    variable D que suponemos que tiene una distribución normal de media µd desviación típica σd.La hipótesis de interés es ahora que, en promedio, el tratamiento aplicado a los individuos es 0,

    es decir, µd = 0. El contraste es ahora exactamente igual que el descrito para la media de unapoblación normal (ahora la población de las diferencias.

    Describimos a continuación el contraste para muestras pequeñas y varianza desconocida para

    datos apareados. Llamaremos d , a la media muestral de las diferencias y ˆ S d a la cuasi

    desviación típica. El contraste se muestra en el cuadro ??.

  • HIPOTESIS: H 0 : µd = 0H a :µ d ≠ 0

    NIVEL DE SIGNIFICACION: α

    ESTADIGRAFO DE CONTRASTE: t =d

    ˆ S dn

    DISTRIBUCION DEL ESTADIGRAFO CUANDO H 0 ES CIERTA: tn-1

    REGION DE ACEPTACION : t / t ≤ t n−1,α{ }REGION CRITICA : t / t > t n−1,α{ }

    Cuadro 6: Contraste para la diferencia de medias de dos poblaciones normales con datos apareados.

    El resto de los contrastes se construye de la misma manera que en el caso de una sola

    población. El cuadro ?? muestra ejemplo.

    HIPOTESIS: H 0 : µd = 0H a :µ d ≠ 0

    Nivel de significación: 5% y 1%

    ESTADIGRAFO DE CONTRASTE: t =6

    8. 43310

    = 2.250

    DISTRIBUCION DEL ESTADIGRAFO CUANDO H 0 ES CIERTA: t9

    Valores críticos : para el 5% t9, 0.05= 2,262 para el 1% t9, 0.01= 3,250

    p-valor : 0,0510

    Decisión estadística: El valor del estadígrafo de contraste pertenece a la región de aceptación,

    por tanto aceptamos la hipótesis nula.

    Conclusión no estadística: Con los datos de los que disponemos no existe una evidencia

    significativa de que exista una diferencia entre la presión sistólica antes y después de haber

    dejado de beber.

    Cuadro 6: Contraste para la diferencia de medias de dos poblaciones normales con datos apareados aplicado al

    ejemplo de la reducción de la tensión arterial en alcohólicos.

  • 5.- ARBOL DE DECISIONES PARA LACOMPARACIÓN DE MEDIAS DE DOSPOBLACIONES NORMALES.

    La figura siguiente muestra de forma esquemática el proceso de decisión por el tipo de contraste

    a utilizar en poblaciones normales.

    NORMALES

    INDEPEND.

    M. GRANDESVARIANZA

    CONOCIDA ODESCONOCIDA

    test Z

    M. PEQUEÑAS

    VARIANZACONOCIDA test Z

    VARIANZASDESCONOCIDAS

    IGUALES

    DISTINTAS

    test t(Welch)

    test U

    APAREADOS

    M. GRANDES test Z

    M. PEQUEÑAS test t

    Z =(x 1 − x 2 )

    σ12

    n1

    22

    n2

    = N(0,1)

    test tC

    22

    1 2

    t c =(x1 − x 2 )

    s 1n1

    + 1n2

    s =(n1 − 1)s1

    2 + (n2 − 1)sn + n − 2

    n +n -21 2

    =t

    t w =(x1 − x 2 )

    s12

    n1

    +s

    22

    n2

    f =

    s12

    n1

    +s

    22

    n2

    2

    s12

    n1

    2

    (n1+1) +

    s22

    n2

    2

    (n2

    +1)

    − 2

    = t f

    a

    a

    d =media de las diferencias

    σd = desviación de las diferencias

    Z a =dσdn

    ≡ N(0,1)

    t a =dS

    d

    n−1

    ≡ t n−1

    d =media de las diferencias

    Sd = desviación de las diferencias

    Z =(x 1 − x 2 )

    σ12

    n1

    22

    n2

    = N(0,1)

    2

    Figura : Arbol de de decisiónes para el contraste de comparación de las medias de dos poblaciones normales.

  • 6.- CONTRASTES PARA LA COMPARACIÓN DE LATENDENCIA CENTRAL CUANDO LASPOBLACIONES NO SON NORMALES.

    En muchas situaciones prácticas es difícil aceptar la hipótesis previa de que los datos son

    normales al disponerse, por ejemplo, de distribuciones muy asimétricas. En estos casos los

    contrastes anteriores no detectan claras diferencias en el comportamiento de las poblaciones,

    debido a que la dispersión es muy grande o debido a que la medida de tendencia central

    utilizada (la media) no es la correcta porque está afectada por los valores extremos. Los

    contrastes paramétricos descritos antes son especialmente sensibles a valores extremos de la

    variable.

    Para solucionar el problema se utiliza la mediana en lugar de la media construyéndose los que

    se denominan contrastes no paramétricos al no referirse ya a parámetros de una distribución

    concreta.

    x1 x2Me1 Me2

    En la figura se muestra como para distribuciones asimétricas es mucho más intuitiva la

    comparación de las medianas que la comparación de las medias, ya que estas están afectadas por

    los valores muy extremos de la distribución. La situación del esquema es muy típica, por

    ejemplo, en problamas médicos en los que la mayoría de los controles (curva de la izquierda)

    presentan valores normales de la variable, y solamente algunos de ellos presentan valores

    elevados, en el grupo de los pacientes enfremos, la mayoría presenta valores elevados y

    solamente alguno presenta valores normales. El problema es particularmente crítico cuando el

    tamaño de muestra es pequeño pero, incluso cuando el tamaño de muestra es grande y se utiliza

  • erróneamente el contraste paramétrico correspondiente, se subestima el tamaño del efecto a

    pesar de que la distribución normal esté correctamente utilizada aplicando el Teorema Central

    del límite. La práctica habitual, especialmente en el ámbito médico, de aplicar contrastes no

    paramétricos cuando la muestra es pequeña y paramétricos cuando es grande es claramente

    errónea y puede llevar a no encontrar efectos experimentales que aparecen claramente definidos

    en los datos.

    Para la comparación de medianas de dos poblaciones con datos independientes el contraste más

    utilizado es el conocido como U de Mann-Withney, está basado en la suma de los rangos de

    orden de las observaciones de las dos poblaciones consideradas conjuntamente y consiste

    básicamente en calcular todas las ordenaciones posibles con muestras de los mismos tamaños

    en el caso de que las medianas fueran iguales, para comprobar el percentil en el que se encuentra

    nuestro caso particular. Cabe esperar que si las medianas de las dos poblaciones son iguales los

    datos estén mezclados y las sumas de rangos de orden sean similares en amos grupos. El resto

    del razonamiento es similar al de cualquier contraste, si el valor muestral obtenido es muy

    probable aceptamos la hipótesis nula y si no la rechazamos.

    Para el caso de datos apareados se utiliza el test de Wilcoxon que contrasta la hipótesis de que

    la mediana de las diferencias es cero. La base del contraste es similar al caso de muestras

    independientes.

    6.1.- Comparación de medianas de dos poblaciones con datosindependientes: el contraste U de Mann-Withney

    Está basado en la suma de los rangos de orden de las observaciones de las dos poblaciones

    consideradas conjuntamente y consiste básicamente en calcular la distribución muestral a partir

    de todas las ordenaciones posibles con muestras de los mismos tamaños en el caso de que las

    medianas fueran iguales. Cabe esperar que si las medianas de las dos poblaciones son iguales

    los datos estén mezclados y las sumas de rangos de orden sean similares en ambos grupos.

    HIPOTESIS: H 0 : Me1 = Me2 (Me1 − Me2 = 0)H a :Me1 ≠ Me 2 (Me1 − Me2 ≠ 0)

    ESTADIGRAFO DE CONTRASTE: Ordenar las observaciones, asignar el rango

    correspondiente y calcular las sumas de rangos de las observaciones de cada grupo.(R1 y R2)

    U = min(U 1 ,U 2 ) U i = n1n 2 +ni (n i + 1)

    2− R i

  • Para muestras grandes: Z =U −

    n1n22

    n1n2 (n1 + n2 + 1)12

    DISTRIBUCION DEL ESTADIGRAFO CUANDO H 0 ES CIERTA:

    Distribución empírica o N(0,1) para muestras grandes.

    REG. DE ACEP. : U / Uα;n1 ,n2inf ≤ U ≤ Uα;n1,n2

    sup{ } Z / Z ≤ zα /2{ }REGION CRITICA : U / U ∉[U α;n1 ,n2

    inf ;U α;n1 ,n2sup

    ]{ } Z / Z > zα /2{ }

    6.2.- Comparación de medianas de dos poblaciones con datos apareados:el test de Wilcoxon

    Contrasta la hipótesis de que la mediana de las diferencias es cero. La base del contraste es

    similar al caso de muestras independientes.

    HIPOTESIS: H 0 : Med = 0H a :Me d ≠ 0

    ESTADIGRAFO DE CONTRASTE: Calcular las diferencias entre los valores de ambos

    grupos, Suprimir las observaciones nulas, Ordenar las observaciones en valor absoluto, asignar

    el rango correspondiente y calcular las sumas de rangos de las observaciones positivas y

    negativas.(T+ y T-)

    T = min(T+ , T− )

    Para muestras grandes: Z =T − n(n + 1)

    4n(n + 1)(2n + 1)

    24

    DISTRIBUCION DEL ESTADIGRAFO CUANDO H 0 ES CIERTA:

    Distribución empírica o N(0,1) para muestras grandes.

    REG. DE ACEP. : T / Tα;ninf ≤ T ≤ Tα;n

    sup{ } Z / Z ≤ zα /2{ }

  • REGION CRITICA : T / T ∉[Tα;ninf ;Tα;n

    sup]{ } Z / Z > zα /2{ }

    7.- COMPARACIÓN DE VARIAS POBLACIONES.INTRODUCCIÓN AL PROBLEMA DE LASCOMPARACIONES MÚLTIPLES.

    En muchas situaciones experimentales se dispone de r >2 poblaciones a comparar. La primera

    aproximación al problema es la comparación de todas la parejas de medias, sin embargo, la

    propia construcción del procedimiento de contraste hace que la probabilidad de error no se

    mantenga al realizar todas las comparaciones por parejas.

    Supongamos que disponemos de r poblaciones y queremos contrastar la hipótesis de que todas

    las medias son iguales

    H 0 : µ1 = K = µ i =K = µ r

    La hipótesis es cierta si y solo si las hipótesis por parejas H 0i,j

    :µ i = µ j para todas las

    k =r

    2

    =

    r(r − 1)2

    combinaciones posibles de i y de j.

    Si contrastamos la hipótesis por separado a un nivel de significación α, tenemos

    P(Aceptar H 0i,j

    / H0i,j

    cierta ) = 1 − αSi las comparaciones fueran independientes

    P(Aceptar H 0 / H0 cierta) = P( Aceptar H0i,j

    i≠ jI / H 0 cierta ) =

    P(Aceptar H0i,j

    / H 0i,j

    cierta )i≠ j∏ = (1 − α)k

    es decir, la probabilidad de cometer un error tipo I es

    P(Re chazar H 0 / H0 cierta ) =

    =1 − P(Aceptar H 0 / H0 cierta ) = 1 − (1 − α)k ≥ α

  • Por ejemplo, para tres poblaciones en las que se realizan comparaciones individuales al 5%, hay

    una probabilidad de 1 − 0.953 = 1 − 0.8574 = 0.1426 de rechazar la hipótesis nula

    indebidamente. Con 5 poblaciones la probabilidad sería 1 − 0.9510 = 1 − 0.5987 = 0.4013 .

    Con 10 poblaciones 1 − 0.95 45 = 1 − 0.0994 = 0.9006 , es decir, con 10 poblaciones, aunquetodas las medias fueran iguales tendríamos una probabilidad del 90% de encontrar diferencias

    en alguna de las parejas.

    Este problema es importante no solo en la comparación de medias por parejas sino también

    cuando se quieren realizar muchas comparaciones sobre el mismo conjunto de datos.

    Supongamos, por ejemplo, que un investigador desea demostrar que es capaz de encontrar

    diferencias entre personas convictas por algún tipo de delito y personas que no. A tal fin realiza

    100 medidas biométricas como el perímetro torácico, el perímetro craneal, etc ... que compara en

    los dos grupos. En cada comparación tiene una probabilidad del 5% de rechazar indebidamente,

    sin embargo (si las medidas fueran independientes) tendría una probabilidad del 99,41% de

    encontrar diferencias en alguna de las variables. El número esperado de contrastes significativos

    sería de 5.

    El problema de mantener el nivel de significación global en la comparación de las medias de

    varios grupos se soluciona mediante la técnica denominada Análisis de la varianza seguido de

    las comparaciones por parejas en las que se hace algún tipo de corrección en el nivel de

    significación individual.

    El Análisis de la Varianza se menciona aquí simplemente para alertar al lector de que existen

    muchos problemas abiertos que pueden ser objeto de estudio posterior.

    8.- VALIDACIÓN DE LAS HIPÓTESIS DE PARTIDA.

    A lo largo de los distintos puntos de la descripción de los contrastes básicos hemos ido

    haciendo una serie de suposiciones que no hemos verificado como son las hipótesis de

    normalidad o de igualdad de varianzas (homocedasticidad) de las poblaciones. La validación de

    estos supuestos se ha dejado para el final aunque debe realizarse previamente a la aplicación de

    los procedimientos de contraste.

    Existen muchos métodos que permiten la validación de la hipótesis de normalidad, desde los

    más formales consistentes en nuevos contrastes cuya hipótesis nula es la hipótesis de que los

    datos proceden de una distribución normal, hasta simples procedimientos descriptivos como el

  • histograma o el Box-Plot que nos permiten decidir si la distribución es aproximadamente

    simétrica o normal y si la dispersión de los grupos en estudio es aproximadamente la misma.

    Los procedimientos de contraste de comparación de medias suelen ser robustos con respecto a

    la hipótesis de normalidad aunque muy sensibles a la presencia de outliers (datos anormalmente

    grandes o pequeños). En las representaciones Box-plot de los grupos a comparar buscaremos la

    simetría de lo grupos y, sobre todo, la presencia de observaciones extrañas en los extremos de la

    distribución.

    La figura siguiente muestra el gráfico con los Box-Plots correspondientes al ejemplo de las

    denominaciones de origen.

    Toro

    Ribera

    11,75

    12

    12,25

    12,5

    12,75

    13

    13,25

    13,5

    13,75

    14

    14,25

    grado

    Box Plot

    Figura 12: Box plot para la comparación del grado alcohólico de las denominaciones de Ribera y Toro.

    El gráfico muestra como no hay observaciones muy extremas, las dos distribuciones tienen

    aproximadamente la misma dispersión y la correspondiente a la denominación de origen de

    Toro parece más asimétrica. La asimetría podría ser debida simplemente a que el tamaño

    muestral es muy pequeño en este grupo.

    En líneas generales parece que las hipótesis se verifican y es posible aplicar el contraste par la

    igualdad de medias de dos poblaciones normales con varianzas desconocidas pero iguales.

    Para contrastar más formalmente que las varianzas son iguales se puede construir un contraste

    muy simple teniendo en cuenta la distribución del cociente de varianzas basado en el cociente de

    las distribuciones ji-cuadrado asociadas.

  • El cociente

    F ==

    (n 1 − 1)σ1

    2

    (n 1 − 1)

    (n 2 − 1) ˆ S 22

    σ22

    (n 2 − 1)

    =ˆ S 1

    2σ22

    ˆ S 22σ1

    2

    sigue una distribución F de Snedecor con n1-1 y n2-1 grados de libertad.

    Si la hipótesis nula H 0 : σ12 = σ2

    2es cierta, el cociente de cuasi-varianzas muestrales

    F =ˆ S 1

    2

    ˆ S 22

    sigue una distribución F de Snedecor con n1-1 y n2-1 grados de libertad.

    El contraste completo aparece en el cuadro siguiente.

    HIPOTESIS: H 0 : σ1

    2 = σ22

    H a :σ12 ≠ σ2

    2

    NIVEL DE SIGNIFICACION: α

    ESTADIGRAFO DE CONTRASTE: F =ˆ S 1

    2

    ˆ S 22

    DISTRIBUCION DEL ESTADIGRAFO CUANDO H 0 ES CIERTA:

    F n1−1, n2 −1

    REGION DE ACEPTACION :

    F / F ∈[F n1−1,n2−1, 1−α /2 ,F n1−1,n2 −1, 1−α/2 ]{ }

  • REGION CRITICA : F / F ∉[F n1−1,n2−1, 1−α /2 ,F n1−1,n2 −1, 1−α/2 ]{ } 5Cuadro 6: Contraste de comparación de las varianzas de dos poblaciones normales.

    Para el ejemplo de la comparación del grado alcohólico en las dos denominaciones de origen

    consideradas el contraste de comparación de varianzas se muestra en el cuadro siguiente.

    HIPOTESIS: H 0 : σ1

    2 = σ22

    H a :σ12 ≠ σ2

    2

    NIVEL DE SIGNIFICACION: α = 5% y 1%

    ESTADIGRAFO DE CONTRASTE: F =ˆ S 1

    2

    ˆ S 22

    = 0.686

    DISTRIBUCION DEL ESTADIGRAFO CUANDO H 0 ES CIERTA:

    F n1−1, n2 −1

    p-valor : 0.6261

    Conclusión : Se acepta la hipótesis nula.

    Cuadro 7: Contraste de comparación de las varianzas de dos poblaciones normales aplicado ala comparación de la

    variabilidad del grado alcohólico.

    Como se acepta la hipótesis de igualdad de varianzas, la comparación de medias ha de hacerse

    en el supuesto de que las varianzas son iguales.

    5 El valor F n1−1,n2−1, 1−α /2 es el valor crítico que deja a la derecha un área de 1 − α / 2 . En la práctica

    puede calcularse como F n1−1,n2−1, 1−α /2 =1

    F n2 −1,n1−1, α /2