INTRODUCCION A LOS CONTRASTES DE HIPOTESIS

43
μ 0 x x N( μ 0 , σ n ) 1- α α μ 0 -a μ 0 +a x N( μ a , σ n ) μ a β 1-β INTRODUCCION A LOS CONTRASTES DE HIPOTESIS José Luis Vicente Villardón Departamento de Estadística Universidad de Salamanca

Transcript of INTRODUCCION A LOS CONTRASTES DE HIPOTESIS

Page 1: INTRODUCCION A LOS CONTRASTES DE HIPOTESIS

µ0x

x ≈ N(µ 0, σ

n)

1-α

α

µ0-a µ0+a

x ≈ N(µ a, σ

n)

µa

β

1−β

INTRODUCCION A LOSCONTRASTES DE HIPOTESIS

José Luis Vicente VillardónDepartamento de EstadísticaUniversidad de Salamanca

Page 2: INTRODUCCION A LOS CONTRASTES DE HIPOTESIS

INDICE

0.- INTRODUCCIÓN Y MOTIVACIÓN. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1 . - CONCEPTOS GENERALES DE CONTRASTE. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2 . - EL CONTRASTE PARA LA MEDIA DE UNA POBLACIÓN NORMAL... . . . . . . . . . . . 5

2.1.- PLANTEAMIENTO GENERAL..............................................................................................52.2.- VARIANZA (DESVIACIÓN TÍPICA) CONOCIDA.......................................................................72.3.- LA POTENCIA DEL CONTRASTE.........................................................................................112.4.- EL P-VALOR DEL CONTRASTE...........................................................................................132.5.- LOS CONTRASTES UNILATERALES ....................................................................................142.6.- VARIANZA DESCONOCIDA...............................................................................................182.7.- CONTRASTES PARA MUESTRAS GRANDES..........................................................................21

3.- EL CONTRASTE PARA LA DIFERENCIA DE MEDIAS DE DOS POBLACIONESNORMALES CON DATOS INDEPENDIENTES. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3.1.- PLANTEAMIENTO GENERAL.............................................................................................223.2.- VARIANZAS CONOCIDAS.................................................................................................243.3.- VARIANZAS DESCONOCIDAS PERO IGUALES.......................................................................263.4.- VARIANZAS DESCONOCIDAS Y DISTINTAS .........................................................................293.5.- CONTRASTES DE COMPARACIÓN DE MEDIAS PARA MUESTRAS GRANDES...............................303.6.- OBTENCIÓN DE DATOS PARA LA COMPARACIÓN DE MEDIAS.................................................31

4.- EL CONTRASTE PARA LA DIFERENCIA DE MEDIAS DE DOS POBLACIONESN O R M A L E S C O N D A T O S A P A R E A D O S . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2

5. - ARBOL DE DECISIONES PARA LA COMPARACIÓN DE MEDIAS DE DOSP O B L A C I O N E S N O R M A L E S . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 5

6. - CONTRASTES PARA LA COMPARACIÓN DE LA TENDENCIA CENTRALCUANDO LAS POBLACIONES NO SON NORMALES. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 6

6.1.- COMPARACIÓN DE MEDIANAS DE DOS POBLACIONES CON DATOS INDEPENDIENTES: ELCONTRASTE U DE MANN-WITHNEY ..............................................................................................376.2.- COMPARACIÓN DE MEDIANAS DE DOS POBLACIONES CON DATOS APAREADOS: EL TEST DEWILCOXON...............................................................................................................................38

7.- COMPARACIÓN DE VARIAS POBLACIONES. INTRODUCCIÓN AL PROBLEMAD E L A S C O M P A R A C I O N E S M Ú L T I P L E S . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 9

8. - VALIDACIÓN DE LAS HIPÓTESIS DE PARTIDA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

Page 3: INTRODUCCION A LOS CONTRASTES DE HIPOTESIS

0.- INTRODUCCIÓN Y MOTIVACIÓN

Antes de comenzar con el desarrollo del tema se supone que el lector conoce los conceptos

fundamentales de muestreo, los principales estimadores de los parámetros de distribuciones

normales y sus correspondientes distribuciones muestrales.

Trataremos de explicar alguna de las ideas generales impòrtantes para pasar despues a la

explicación de algunos de los contrastes más habituales en la práctica. Comenzaremos

ilustrando las ideas generales sobre el contraste más simple, el de la media de una población

normal, para ir extendiendo progresivamente las ideas a dos poblaciones, a la comparación de

proporciones y a las poblaciones no normales. Analizaremos la problemática de realizar un

número elevado de contrastes sobre el mismo conjunto de datos, y extenderemos las ideas

fundamentales al diseño de experimentos con varios grupos experimentales.

1.- CONCEPTOS GENERALES DE CONTRASTE

Una hipótesis estadística es una afirmación que se hace acerca de una o varias características

de una población. Las características pueden ser los parámetros de una distribución de

probabilidad predeterminada, seleccionada para la población. En este caso hablaremos de

hipótesis paramétricas. En algunas situaciones las características a estudiar no son parámetros

de una distibucion concreta y decimos que las hipótesis son no paramétricas.

Un contraste de hipótesis es un procedimiento para decidir si una hipótesis se acepta como

válida o se rechaza.

Dos son las hipótesis que generalmente se contrastan, la que denominamos hipótesis nula

(H0) que es la hipótesis en la que se basa el procedimeineto de contraste, y la que denominamos

hipótesis alternativa (Ha) que es la hipótesis que se acepta cuando se rechaza la nula y

viceversa. Generalmente la hipótesis nula está formada por un único valor del parámetro

mientras que la hipótesis alternativa está formada por un conjunto de valores. A la hipótesis

alternativa se la denomina también hipótesis de trabajo o hipótesis a investigar ya que, en la

mayor parte de las situaciones practicas reales es la hipótesis alternativa la que se desea aceptar.

Para realizar el contraste de una hipótesis seleccionamos una muestra aleatoria de la población y

trataremos de tomar una decisión de acuerdo con la información que nos proporcionan los

Page 4: INTRODUCCION A LOS CONTRASTES DE HIPOTESIS

valores muestrales, a través de una estimación de la característica (parámetro) a estudiar y de su

distribución muestral. Denominaremos estadígrafo o estadistico de contraste a una variable

aleatoria con distribución conocida cuando la hipótesis nula es cierta. La variable aletoria es una

transformación directa de la distribución muestral.

Obviamente, la única forma de estar seguros de cual es la hipótesis correcta sería investigar toda

la población, cosa que no es posible ya que, en general, estamos trabajando con poblaciones

infinitas. Como disponemos de la información limitada que nos proporciona la muestra

podemos realizar decisiones erróneas. Dos son los tipos de errores que podemos cometer:

Error de tipo I: Rechazar H0 cuando es verdadera.

Error de tipo II: Aceptar H0 cuando es falsa.

A la probabilidad de cometer un error de tipo I la denominaremos nivel de significación y la

denotaremos con α. A la probabilidad de cometer un error de tipo II la denotaremos con β a su

complemento 1-β lo denominamos potencia del contraste, y se define como la probabilidad

de rechazar cuando es falsa. Seleccionaremos, si es posible, aquel procedimiento de contraste

en el que los errores sean lo más pequeños posible. Desgraciadamente, ambos covarian de

forma inversa, es decir, cuando α aumenta β disminuye y viceversa. Como no es posible fijar

ambos, se toma como norma fijar el nivel de significación para realizar el contraste.

Explicaremos estos conceptos con más detalle en el capítulo siguiente. Utilizando un α fijodividimos los valores del estdígrafo de contraste en dos regiones mutuamente excluyentes:

La región de aceptación: Conjunto de valores del estadígrafo de contraste que nos llevan a

aceptar la hipótesis nula.

La región crítica: Conjunto de valores del estadígrafo de contraste que nos llevan a rechazar la

hipótesis nula (y aceptar la alternativa).

De acuerdo con lo explicado, los pasos que se han de realizar `para llevar a cabo un contraste de

hipótesis son los siguientes:

- Determinar las hipótesis nula y alternativa, traduciendo hipótesis básicas de trabajo en

hipótesis acerca de parámetros (o características) de una distribución de probabilidad asignada a

la población.

- Fijar un nivel de significación: Generalmente el 0.05 (5%) y 0.01 (1%).

- Determinar cual es el estadígrafo de contraste y su distribución muestral.

- Determinar la región crítica y la región de aceptación.

- Seleccionar una muestra y calcular el valor experimental del estadísgrafo de contraste.

- Tomar la decisión estadística de acuerdo con el valor experimental obtenido.

- Sacar conclusiones de tipo no estadistico.

Page 5: INTRODUCCION A LOS CONTRASTES DE HIPOTESIS

Los procedimientos de contraste pueden diseñarse tambien utilizando alguna media de la

discrepancia o de la similitud entre el valor teórico de la hipótesis nula y el valor estimado a

partir de la muestra, la hipótesis se rechaza cuando la discrepencia es muy grande. Este tipo de

medida se denomina p-valor y se explicará detalladamente más adelante.

2.- EL CONTRASTE PARA LA MEDIA DE UNAPOBLACIÓN NORMAL

2.1.- Planteamiento general

Consideremos un caso muy simple mediante un ejemplo concreto. Supongamos que

pertenecemos al consejo regulador de la denominación de origen de los vinos de Ribera de

Duero. Sabemos que los vinos jóvenes de años anteriores tienen un grado alcohólico medio de

12.5 grados, tal y como aparece en la etiqueta. Para el año actual, el consejo regulador, de

acuerdo con todos sus miembros, ha decidido cambiar algunos de los pasos del proceso de

fabricación. El primer problema que se plantea es : ¿Se ha modificado el grado alcohólico al

modificar el proceso de fabricación?.

La definición del problema a estudiar nos permite determinar la población que queremos

estudiar, los vinos jóvenes de ribera de Duero en el año actual; la variable que queremos medir,

el grado alcohólico de los mismos, y la hipótesis de trabajo inicial ¿Se ha modificado el grado

alcohólico?.

El paso siguiente consiste en suponer un modelo de comportamiento teórico para la población

(a priori). Suponemos que la variable que estamos midiendo en la población a estudiar sigue

una distribución normal. La suposición de normalidad la haremos de acuerdo con el

conocimiento previo que tengamos sobre la población objeto de estudio tratando de que las

características de la distribución reflejen en la mayor medida posible las de la población, se trata

simplemente de buscar un modelo probabilístico que aproxime la variable a estudiar. En el caso

que nos ocupa, parece razonable suponer, a priori, que el grado alcohólico se concentra de forma

simétrica alrededor de un valor medio. Si consideráramos, por ejemplo, los salarios de una

empresa la hipótesis de normalidad no es plausible puesto que cabe esperar que la distribución

de los mismos sea marcadamente asimétrica debido a los altos salarios de un grupo reducido de

ejecutivos.

Page 6: INTRODUCCION A LOS CONTRASTES DE HIPOTESIS

Formularemos ahora la hipótesis de trabajo en términos de los parámetros del modelo (media

y/o desviación típica en el caso de la normal). La hipótesis principal la denominamos hipótesis

nula (H0).

H 0 = µ = µ 0 =12.5

La hipótesis nula suele ser la de igualdad del parámetro a un único valor concreto µ 0

procedente de la hipótesis de trabajo.

Junto con la hipótesis nula planteamos la que denominamos hipótesis alternativa (Ha o H1) que

será aceptada cuando se rechace la nula y viceversa. Por el momento tomaremos la más sencilla,

la hipótesis e que la media es diferente de 12 que resultará en un contraste bilateral.

H a = µ ≠ µ0 = 12.5

Trataremos de diseñar un procedimiento para decidir entre ambas hipótesis a partir de la

información contenida en una muestra de tamaño n, por ejemplo 14 observaciones.

Supongamos que la muestra ha sido seleccionada al azar de la población y que se han obtenido

los resultados siguientes.

RIBERA DE DUERO12,8 12,8 12,5 11,9 12,5 12,1 12,2 12,6 13,0 12,4 12,6 12,2 12,8 13,0

Tabla 1: Grado alcohólico de 14 vinos de la denominación de Ribera de Duero.

La primera cuestión que hemos de tener en cuenta es que la decisión por una hipótesis concreta

ha de tomarse con un cierto riesgo de equivocarse al no disponer de la información de todos los

individuos de la población. Trabajaremos con la media muestral como estimador de la media

poblacional desconocida. En el ejemplo la media muestral es de 12,529, que como ya sabemos

no coincide con la media poblacional.

Trataremos de decidir entre las dos hipótesis a partir del valor de la media muestral pero, si la

media muestral no coincide con la media poblacional, ¿será la diferencia entre el valor observado

y el teórico lo suficientemente grande como para rechazar la hipótesis nula? ó ¿la diferencia

observada es lo suficientemente pequeña como para ser debida simplemente al azar o al

desconocimiento de la población?. Daremos respuesta a ambas preguntas utilizando los

conceptos sobre distribuciones aprendidos en temas anteriores.

Page 7: INTRODUCCION A LOS CONTRASTES DE HIPOTESIS

2.2.- Varianza (desviación típica) conocida

Supondremos, por el momento, que la varianza de la población es σ2 = 0. 52 conocida.

Sabemos que la media muestral para distintas muestras sigue una distribución normal

N(µ,σn

) , luego, cuando la hipótesis nula es cierta

x ≈ N( µ0 ,σn

)

En la práctica, este resultado tiene implicaciones importantes. Veámoslo con un dibujo.

µ0 x

x ≈ N(µ 0, σ

n)

Figura 3 : Distribución de la media muestral.

El dibujo muestra como, aunque los valores de la media muestral no coinciden con la media

poblacional, se concentran en torno a ella y por tanto es muy probable que sean cercanos

aunque, con el modelo supuesto puede tomar cualquier valor. Obsérvese también que cuanto

mayor es el tamaño muestral más se concentran los valores de la media muestral en torno a la

media poblacional.

Intuitivamente, aceptaremos la hipótesis nula cuando la media muestral sea próxima a µ 0 y la

rechazaremos (aceptando la alternativa) cuando la media muestral sea muy diferente de µ 0, es

decir, utilizamos la media muestral como estadístico, o estadígrafo, de contraste. Nos queda por

determinar cual es el criterio para decidir si la media muestral está próxima o no al valor teórico

propuesto utilizando el concepto de riesgo tipo I definido previamente. Fijamos el riesgo tipo Y

en α (por ejemplo en 0.05 o el 5%)

Page 8: INTRODUCCION A LOS CONTRASTES DE HIPOTESIS

Nos plantearemos el contraste como un juicio en el que la media muestral es inocente (procede

de una población con media µ 0) y no la declararemos culpable (no procede de una población

con media µ 0) hasta que no se demuestre claramente lo contrario.

Sobre la distribución de la media seleccionamos dos puntos µ 0 − a y µ 0 + a , simétricos

alrededor de µ 0 de forma que si la hipótesis nula cierta en el (1-α)100% (por ejemplo el 95%)

de las muestras la media muestral esté entre esos dos valores (figura 4).

P( µ 0 − a ≤ x ≤ µ 0 + a) = 1 − αAceptaremos la hipótesis nula si la media muestral está dentro del intervalo seleccionado y la

rechazaremos en caso contrario. Es claro que si la media está fuera del intervalo seleccionado

hay una clara evidencia de que la hipótesis no es cierta ya que toma los valores correspondientes

solo en el 5% de los casos en los que la hipótesis nula es cierta. Por supuesto, estamos

asumiendo un riesgo del 5% de equivocarnos y rechazar indebidamente.

Como ya es conocido, al conjunto de valores que nos llevan a aceptar la hipótesis nula lo

denominamos Región de Aceptación, y al conjunto de valores que nos llevan a rechazarla lo

denominaremos Región Crítica. En este caso la región crítica se ha dividido en las dos colas de

la distribución por lo que se dice que el contraste es bilateral o de dos colas.

µ0 x

x ≈ N(µ 0, σ

n)

1-α=0.95α/2 = 0.025

µ0-a µ0+a

α/2 = 0.025

Región deAceptación

Región crítica Región crítica

Figura 4: Procedimiento de contraste a partir de la media muestral

Page 9: INTRODUCCION A LOS CONTRASTES DE HIPOTESIS

En la práctica no se trabaja directamente con la media muestral y su distribución asociada sino

con la distribución normal estándar. Teniendo en cuenta las propiedades de la normal podemos

escribir

P( µ 0 − a ≤ x ≤ µ 0 + a) = P( −z α/2 ≤x − µ 0σ

n

≤ z α/2 ) = 1 − α

de forma que el procedimiento descrito se convierte ahora en el que se muestra en la figura 5. El

estadígrafo de contraste es ahora x − µ 0σ

n

y mide la discrepancia entre el valor observado de la

media y el valor teórico de la misma, en la escala de la desviación típica. No es lo mismo una

diferencia de una unidad en una escala de centímetros que en una escala de kilómetros.

0

≈ N(0, 1)x − µ 0σ

n

1-α=0.95α/2 = 0.025 α/2 = 0.025

Región deAceptación

Región crítica Región crítica

x − µ 0σ

n

-zα/2 zα/2

Figura 4: Procedimiento de contraste a partir de la media muestral estandarizada.

La interpretación intuitiva del nuevo procedimiento sigue siendo clara, rechazaremos la hipótesis

nula solamente cuando la discrepancia entre la media observada y la teórica ( x − µ 0 ) sea

grande, en relación a la variabilidad intrínseca medida por σn

. La magnitud de la diferencia

necesaria para rechazar se determina a través del riesgo de tipo 1 mediante la distribución

normal estándar.

Page 10: INTRODUCCION A LOS CONTRASTES DE HIPOTESIS

A los valores de zα/2 se les suele denominar valores críticos ya que determinan la frontera entre

la región crítica y la región de aceptación.

El cuadro siguiente muestra el procedimiento completo con los pasos que se siguen

habitualmente en la construcción de cualquier contraste.

Una vez que hemos determinado la forma general del contraste pasamos a aplicarlo a los datos

del problema inicial que nos ocupa.

Una vez que hemos tomado la decisión final, no sabemos si es correcta o no, simplemente

HIPOTESIS: H 0 : µ = µ0

H a :µ ≠ µ 0

NIVEL DE SIGNIFICACION: α

ESTADIGRAFO DE CONTRASTE: Z =x − µ 0σ

n

DISTRIBUCION DEL ESTADIGRAFO CUANDO H 0 ES CIERTA: N(0,1)

REGION DE ACEPTACION : Z / Z ≤ zα /2{ }REGION CRITICA : Z / Z > zα /2{ }

Cuadro 2: Contraste para la media de una población normal con varianza conocida.

Hipótesis: H 0 : µ = 12.5

H a :µ ≠ 12.5

Nivel de significación: 5% y 1%.

Estadígrafo de contraste: Z =x − µ 0σ

n

= 12.529 − 12.50.5

14

= 0.217

Valores críticos : para el 5% z0.025= 1,96 para el 1% z0.005= 2,57

Decisión estadística: El valor del estadígrafo de contraste pertenece a la región de aceptación,por tanto aceptamos la hipótesis nula.Conclusión no estadística: La modificación en el proceso de fabricación no ha modificadosignificativamente el grado alcohólico.Cuadro 3: Aplicación del contraste para la media de una población normal con varianza conocida al problema de

la modificación en el grado alcohólico del vino de Ribera de Duero.

Page 11: INTRODUCCION A LOS CONTRASTES DE HIPOTESIS

esperamos que sea del 95% de las muestras en las que aceptamos la hipótesis correctamente. Si

aceptamos la hipótesis nula no quiere decir que sea cierta y el grado medio sea exactamente de

12.5 grados (probablemente no lo es), sería más correcto interpretar que, con la información de

la que disponemos no hemos encontrado evidencia suficiente de que la media sea distinta de

12.5. Evidentemente, los valores muestrales son compatibles con muchos otros posibles valores

teóricos.

Si aumentamos el tamaño de muestra indefinidamente, la variabilidad de la media sería cada vez

menor y conseguiríamos que la pequeña diferencia observada sea lo suficientemente grande

como para considerarla significativa. Es por esto por lo que en Estadística decimos que es tan

malo tener un tamaño de muestra demasiado alto como tenerlo demasiado bajo ya que en el

primer caso cualquier pequeña diferencia es considerada como significativa mientras que en el

segundo no se declara significación incluso en el caso en el que la diferencia sea elevada.

2.3.- La potencia del contraste

En todo el proceso descrito hasta el momento solamente se ha utilizado el riesgo de tipo I en el

desarrollo del contraste. Sabemos que esta asociado con el riesgo de tipo II de forma que

cuando uno aumenta, el otro disminuye. Tampoco hemos hecho ninguna afirmación acerca de

un concepto importante como es el de potencia del contraste (probabilidad de rechazar la

hipótesis nula cuando es falsa).

No es posible calcular la potencia del contraste porque para ello necesitaríamos un único valor

en la hipótesis alternativa (revísese el ejemplo de los cirróticos utilizado como aplicación de la

distribución normal), aunque si podemos realizar el cálculo para distintos valores en la

alternativa (función de potencia) y analizar lo que ocurre.

Veámoslo con un ejemplo.

Cual sería la potencia del contraste obtenido para detectar que la media no es 12.5 si en realidad

la media fuera 13 (y suponiendo un nivel de significación del 5%).

En términos de la media muestral el procedimiento de contraste consiste en aceptar la hipótesis

nula si la media muestral está entre 12.238 y 12.762. La probabilidad de cometer un error de

tipo 2 (aceptar indebidamente) si la media real fuera de 13 se podría calcular como

Page 12: INTRODUCCION A LOS CONTRASTES DE HIPOTESIS

P(12.382 ≤ X ≤12.762) en una normal de media 13 y desviación típica 0.514

. Esta

probabilidad es 0.037 de forma que la potencia es 1 - 0.037 = 0.963. La situación

esquematizada aparece en la figura 5.

µ0x

x ≈ N(µ 0, σ

n)

1-α

α

µ0-a µ0+a

x ≈ N(µ a, σ

n)

µa

β

1−β

Figura 5: Cálculo de la potencia del contraste para una alternativa predeterminada.

En la figura 6 se muestra la función de potencia para distintos valores posibles de la hipótesis

alternativa.

0

,1

,2

,3

,4

,5

,6

,7

,8

,9

1

1,1

Pote

ncia

11,5 11,75 12 12,25 12,5 12,75 13 13,25 13,5alternativa

Figura 6: Función de potencia para distintos valores de la alternativa.

Page 13: INTRODUCCION A LOS CONTRASTES DE HIPOTESIS

El gráfico muestra como la potencia es mayor cuando los valores de la alternativa se alejan del

valor para la hipótesis nula. En la práctica este hecho tiene una implicación obvia: es más fácil

detectar diferencias o efectos experimentales de gran magnitud.

Aunque no es posible un control directo de la potencia, a la vista de la figura 5 es claro que la

potencia puede modificarse modificando el nivel de significación o el tamaño muestral ya que la

forma de las curvas depende de éste. Cuanto mayor sea el tamaño muestral más concentrada es

la curva normal y, por tanto, mayor es la potencia para el mismo nivel de significación.

En la práctica suele hacerse un estudio de potencia para los contrastes no significativos,

calculando cual sería el tamaño muestral necesario para que la diferencia observada en los datos

sea significativa. Si este tamaño es muy grande es difícil declarar la significación por lo que

consideraremos que estamos haciendo lo correcto, si el tamaño muestral necesario es pequeño,

sería conveniente revisar el experimento.

El cálculo es muy simple cuando se trabaja con distribuciones normales. La hipótesis nula se

rechaza cuando x − µ 0σ

n

> z α/2 de forma que, para que la diferencia sea significativa el

valor de n será

n >z α/2

2 σ2

x − µ 0

para el ejemplo del grado alcohólico, n> 1141,97, es decir, para que la diferencia observada fuera

significativa tendríamos que haber recogido más de 1142 observaciones lo que da una idea de

que la diferencia observada es muy pequeña y, por tanto es muy probable que la hipótesis nula

sea cierta.

2.4.- El p-valor del contraste

Una forma habitual de medir la significación en los contrastes de hipótesis es el denominado p-

valor del contraste. Su utilización en la investigación aplicada es debida a que es la forma de

presentación de los resultados de un contraste usada por la mayor parte de los programas de

ordenador.

Page 14: INTRODUCCION A LOS CONTRASTES DE HIPOTESIS

Se puede definir el p-valor de un contraste como la probabilidad de obtener un valor muestral

más extremo que el obtenido en nuestro caso particular (cuando H0 es cierta). Si el p-valor es

muy pequeño rechazaremos la hipótesis nula ya que el valor experimental es muy extremo,

mientras que si el p-valor es grande aceptaremos la hipótesis nula ya que el valor es compatible

con la misma.

De forma general, el p-valor para el contraste actual se puede calcular como

P( Z >x − µ0σ

n

) en una distribución normal estándar.

Para el ejemplo anterior el p-valor es 1-P(-0.217 < Z < 0.217) = 2 P(Z > 0.217) = 0.8285, es

decir el p-valor puede considerarse grande. En la práctica se suele adoptar el criterio de aceptar

la hipótesis cuando el p-valor es mayor que el nivel de significación fijado en el procedimiento

de contraste.

0

≈ N(0, 1)x − µ 0σ

n

Región deAceptación

Región crítica Región crítica

-zα/2 zα/2± Zexp erimental

p-valor

Figura 7: El p-valor de un contraste bilateral.

2.5.- Los contrastes unilaterales

En algunas situaciones concretas no estamos interesados en todos los posibles valores de la

hipótesis alternativa propuesta en un contraste bilateral. Supongamos, por ejemplo, que en el

caso práctico anterior sospechamos a priori que la modificación en el procedimiento de

Page 15: INTRODUCCION A LOS CONTRASTES DE HIPOTESIS

fabricación produce un incremento en el contenido alcohólico. En este caso sería conveniente

modificar la hipótesis alternativa para que sea de la forma H a :µ > µ0 . El procedimiento de

contraste es muy similar al anterior y se muestra en el cuadro siguiente.

El contraste así obtenido se denomina contraste unilateral superior ya que solo estamos

interesados en las desviaciones positivas. La diferencia fundamental con el contraste bilateral es

que se produce un incremento en la potencia para detectar diferencias positivas de la hipótesis

nula y un decremento drástico para detectar las negativas.

El p-valor sigue teniendo la misma interpretación aunque ahora se calcula como

P(Z >x − µ0σ

n

) .

0

≈ N(0, 1)x − µ 0σ

n

zαZexp erimental

p-valor

Figura 8: El p-valor de un contraste unilateral superior.

HIPOTESIS: H 0 : µ = µ0

H a :µ > µ0NIVEL DE SIGNIFICACION: α

ESTADIGRAFO DE CONTRASTE: Z =x − µ 0σ

nDISTRIBUCION DEL ESTADIGRAFO CUANDO H 0 ES CIERTA: N(0,1)

REGION DE ACEPTACION : Z / Z ≤ zα{ }REGION CRITICA : Z / Z > zα{ }

Cuadro 4: Contraste unilateral superior para la media de una población normal con varianza conocida.

Page 16: INTRODUCCION A LOS CONTRASTES DE HIPOTESIS

De la misma manera que se ha construido el contraste unilateral superior es posible construir el

contraste unilateral inferior si estamos interesados exclusivamente en detectar diferencias

negativas con respecto a la hipótesis nula. La construcción del contraste es completamente

análoga con la correspondiente modificación de la hipótesis alternativa. El contraste unilateral

inferior incrementa la potencia para detectar diferencias negativas aunque no tiene potencia para

detectar las positivas.

0

≈ N(0, 1)x − µ 0σ

n

-zαZexp erimental

p-valor

Figura 9: El p-valor de un contraste unilateral inferior.

La decisión por el tipo de contraste debe hacerse a priori, antes de tomar los datos.

Supongamos, por ejemplo, que sospechamos, antes de realizar el experimento, que la

modificación en el proceso de fabricación, aumenta el grado alcohólico. El procedimiento de

HIPOTESIS: H 0 : µ = µ0

H a :µ < µ0NIVEL DE SIGNIFICACION: α

ESTADIGRAFO DE CONTRASTE: Z =x − µ 0σ

nDISTRIBUCION DEL ESTADIGRAFO CUANDO H 0 ES CIERTA: N(0,1)

REGION DE ACEPTACION : Z / Z ≥ zα{ }REGION CRITICA : Z / Z < zα{ }

p-valor: P(Z <x − µ0σ

n

)

Cuadro 5: Contraste unilateral inferior para la media de una población normal con varianza conocida.

Page 17: INTRODUCCION A LOS CONTRASTES DE HIPOTESIS

contraste para los datos de la tabla 1 se muestra en el cuadro siguiente

La función de potencia para distintos valores de la alternativa aparece en la figura siguiente.

Obsérvese como el contraste no tiene ninguna potencia para detectar valores a la izquierda de la

hipótesis nula.

- ,2

0

,2

,4

,6

,8

1

1,2

Pote

ncia

(uni

)

11,25 11,5 11,75 12 12,25 12,5 12,75 13 13,25 13,5alternativa

Figura 10: Función de potencia para un contraste unilateral superior.

Hipótesis:H 0 : µ = 12. 5

H a :µ >12. 5

Nivel de significación: 5% y 1%.

Estadígrafo de contraste: Z =x − µ 0σ

n

= 12. 529 − 12. 50. 5

14

= 0. 217

Valores críticos : para el 5% z0.025 = 1,65 para el 1% z0.005 = 2,33p-valor: 0.4129Decisión estadística: El valor del estadígrafo de contraste pertenece a la región de aceptación,por tanto aceptamos la hipótesis nula.Conclusión no estadística: La modificación en el proceso de fabricación no ha aumentadosignificativamente el grado alcohólico.Cuadro 6: Aplicación del contraste para la media de una población normal con varianza conocida al problema de

la modificación en el grado alcohólico del vino de Ribera de Duero

Page 18: INTRODUCCION A LOS CONTRASTES DE HIPOTESIS

2.6.- Varianza desconocida

En la mayor parte de las aplicaciones prácticas la varianza de la distribución es también

desconocida y ha de ser estimada a partir de los datos. El problema es que ya no es posible

seguir utilizando la distribución normal para el procedimiento de contraste ya que es necesario

eliminar el parámetro σ del estadígrafo de contraste.

De acuerdo con la teoría, además de la distribución muestral de la media sabemos que

(n − 1) ˆ S 2

σ2 sigue una distribución ji-cuadrado con n-1 grados de libertad. Si suponemos que

media y varianza son independientes1, es posible combinar las correspondientes distribuciones

muestrales para obtener una distribución t de Student y eliminar el parámetro σ.

Utilizando la definición de distribución t de Student con n-1 grados de libertad como el cociente

entre una normal estándar y la raíz cuadrada de una ji-cuadrado con n-1 grados de libertad

dividida por sus grados de libertad, y ambas independientes, obtenemos que la variable aleatoria

t =

x − µ 0σ

n

(n − 1) ˆ S 2

σ2

(n − 1)

=x − µ 0

ˆ S n

sigue una distribución t de Student con n-1 grados de libertad.

El procedimiento de contraste en este caso es análogo al anterior pero sustituyendo la

distribución normal por la distribución t. El cuadro 6 muestra el procedimiento de contraste

completo.

1 La demostración completa no se realiza aquí.

Page 19: INTRODUCCION A LOS CONTRASTES DE HIPOTESIS

En la práctica, la sustitución de la distribución normal por la distribución t de Student implica un

aumento de la dispersión por lo que es más difícil detectar diferencias. La situación se muestra

el la figura siguiente en la que se comparan la distribución normal estándar (en línea

discontinua) y la distribución t (en línea continua).

t =x − µ0

Sn

≡ tn−1

α/2α/2

1−α

0-t α tαFigura 11: Diferencia entra la distribución normal y la distribución t de Student.

Es posible construir contrastes unilaterales de la misma manera que en el caso de varianza

conocida. El cuadro 7 muestra el contraste unilateral superior, el contraste unilateral inferior se

deja como ejercicio al lector.

2 tn-1,α es el valor crítico de la t de Student tal que P(-tn-1,α ≤ tn-1 ≤ tn-1,α ) = 1-α. Se ha denotado con elsubíndice α porque es el que se utiliza para buscar el valor correspondiente en la tabla.

HIPOTESIS

H 0 : µ = µ0

H a :µ ≠ µ 0

NIVEL DE SIGNIFICACION: α

ESTADIGRAFO DE CONTRASTE: t =x − µ0

ˆ S n

DISTRIBUCION DEL ESTADIGRAFO CUANDO LA HIPOTESIS NULA

ES CIERTA: tn-1

REGION DE ACEPTACION : t / t ≤ t n−1,α{ }REGION CRITICA : t / t > t n−1,α{ } 2

Cuadro 6: Contraste para la media de una población normal con varianza desconocida.

Page 20: INTRODUCCION A LOS CONTRASTES DE HIPOTESIS

Para el ejemplo del grado alcohólico de los vinos de la denominación de origen de Ribera de

Duero los resultados del contraste bilateral se muestran en el cuadro 8.

Todos los conceptos explicados para el contraste de la media de una población normal con

varianza conocida siguen siendo válidos aquí.

3 tn-1,2α es el valor crítico de la t de Student tal que P( tn-1 > tn-1,2α ) = α. Se ha denotado con el subíndice 2αporque es el que se utiliza para buscar el valor correspondiente en la tabla.

HIPOTESIS: H 0 : µ = µ0

H a :µ > µ0NIVEL DE SIGNIFICACION: α

ESTADIGRAFO DE CONTRASTE: t =x − µ0

ˆ S n

DISTRIBUCION DEL ESTADIGRAFO CUANDO H 0 ES CIERTA: tn-1

REGION DE ACEPTACION : t / t ≤ t n−1,2α{ } 3

REGION CRITICA : t / t > t n−1,2α{ }Cuadro 7: Contraste para la media de una población normal con varianza desconocida.

Hipótesis: H 0 : µ = 12.5

H a :µ ≠ 12.5

Nivel de significación: 5% y 1%.

Estadígrafo de contraste: t =x − µ0

ˆ S n

= 12.529 − 12. 50.338

14

= 0.316

Valores críticos : para el 5% t18, 0..05= 2.101 para el 1% t18, 0..01= 2.878

p-valor : 0,7571

Decisión estadística: El valor del estadígrafo de contraste pertenece a la región de aceptación,por tanto aceptamos la hipótesis nula.Conclusión no estadística: La modificación en el proceso de fabricación no ha modificadosignificativamente el grado alcohólico.Cuadro 8: Aplicación del contraste para la media de una población normal con varianza desconocida al problema

de la modificación en el grado alcohólico del vino de Ribera de Duero

Page 21: INTRODUCCION A LOS CONTRASTES DE HIPOTESIS

2.7.- Contrastes para muestras grandes

Cuando las muestras de las que se dispone son muestras grandes (aproximadamente mayores

de 30 observaciones) es posible utilizar directamente la distribución normal ya que es muy

similar a la t de Student. Además el teorema central del límite permite relajar la hipótesis de

normalidad ya que la normalidad de la distribución muestral de medias está garantizada, bajo

ciertas condiciones de regularidad, aunque la población original no sea normal. Hay que tener

en cuenta que se trata sólo de una aproximación y, cuanto mayor es el tamaño de la muestra

mejor es la aproximación normal obtenida. El procedimiento de contraste para muestras grandes

se muestra en el cuadro 9. Mostramos solamente el contraste bilateral ya que los unilaterales se

construyen exactamente de la misma manera que en los casos anteriores.

HIPOTESIS: H 0 : µ = µ0

H a :µ ≠ µ 0

NIVEL DE SIGNIFICACION: α

ESTADIGRAFO DE CONTRASTE: Z =x − µ 0

ˆ S n

DISTRIBUCION DEL ESTADIGRAFO CUANDO LA HIPOTESIS NULA

ES CIERTA: N(0, 1)

REGION DE ACEPTACION : Z / Z ≤ zα /2{ }REGION CRITICA : Z / Z > zα /2{ }

Cuadro 9: Contraste para la media de una población normal con varianza desconocida cuando la muestra esgrande.

Page 22: INTRODUCCION A LOS CONTRASTES DE HIPOTESIS

3.- EL CONTRASTE PARA LA DIFERENCIA DEMEDIAS DE DOS POBLACIONES NORMALESCON DATOS INDEPENDIENTES.

3.1.- Planteamiento general

En la investigación aplicada la situación más habitual es aquella en la que se quieren comparar

dos poblaciones a las que se les ha aplicado, por ejemplo, dos tratamientos diferentes.

Pongámonos en el mismo supuesto que en el ejemplo que sirvió para ilustrar el contraste para

una población, y supongamos que lo que deseamos es conocer si los vinos de nuestra

denominación de origen tienen el mismo contenido alcohólico que los de otra denominación de

origen, por ejemplo la de Toro. Se trata de saber si existe una clara diferenciación en los mismos

ya que, debido a la proximidad geográfica de ambas regiones, es posible que haya fraudes y se

intercambien vinos de ambas dependiendo del mercado de los mismos. La hipótesis de trabajo

inicial es entonces ¿Existen diferencias en el grado alcohólico de ambas denominaciones?.

Procediendo de la misma manera que en el caso de una población, suponemos una distribución

de probabilidad para la población que es la distribución normal. En la primera población (Ribera

de Duero) el grado alcohólico sigue una distribución normal N(µ1, σ1); en la segunda

población (Toro) el grado alcohólico sigue una distribución normal N(µ2, σ2).

Formulamos a continuación las hipótesis de trabajo en términos de los parámetros de los

modelos. Las hipótesis nula y alternativa son ahora

H 0 : µ1 = µ 2 (µ1 − µ2 = 0)

H a :µ1 ≠ µ 2 (µ1 − µ 2 ≠ 0)

para el contraste bilateral. Vemos como el contraste de que las medias son iguales es equivalente

al contraste de que la diferencia de medias vale 0.

Supongamos que los datos obtenidos son los siguientes para muestras aleatorias de tamaño

n1 = 14 y n2 = 6.

Page 23: INTRODUCCION A LOS CONTRASTES DE HIPOTESIS

Ribera de Duero

12,8 12,8 12,5 11,9 12,5 12,1 12,2 12,6 13,0 12,4 12,6 12,2 12,8 13,0

Toro

13,0 14,0 13,2 13,4 13,2 13,9Tabla 2: Grado alcohólico de 20 vinos de las denominaciones de origen de Ribera y Toro.

Se supone que las muestras se han obtenido de forma independiente en ambas denominaciones.

La estadística descriptiva básica para ambos grupos aparece en la tabla siguiente.

12,805

,557

,124

20

11,900

14,000

12,529

,338

,090

14

11,900

13,000

13,450

,409

,167

6

13,000

14,000

Media

Desv. Tip.

Error Estd.

n

Minim0

Maximo

grado, Total grado, Ribera grado, Toro

Descriptiva básica

Tabla 3: Descriptiva básica del grado alcohólico.

Una primera aproximación a las diferencias entre los dos grupos sería la construcción de

gráficos comparativos que muestren la estructura de los mismos, por ejemplo, un Box-Plot con

los grupos separados.

Toro

Ribera

11,75

12

12,25

12,5

12,75

13

13,25

13,5

13,75

14

14,25

grado

Box Plot

Figura 12: Box plot para la comparación del grado alcohólico de las denominaciones de Ribera y Toro.

Page 24: INTRODUCCION A LOS CONTRASTES DE HIPOTESIS

Una simple inspección visual del gráfico nos muestra que hay una clara diferencia entre los

grados de ambas denominaciones, a pesar de que la diferencia muestral es muy evidente

necesitamos un procedimiento más formal para establecer si las diferencias observadas pueden

ser consideradas estadísticamente significativas. Construiremos el procedimiento de contraste en

varios supuestos comenzando desde el más sencillo hasta los más complejos.

3.2.- Varianzas conocidas

Supongamos, para simplificar que las desviaciones típicas son conocidas, por ejemplo σ1

= 0.5 y σ2 = 0.6 para las denominaciones de Ribera de Duero y Toro respectivamente.

Desarrollaremos el procedimiento general para después aplicarlo a los datos de los que

disponemos.

Conocemos la distribución de la media muestral en ambas poblaciones.

x 1 ≈ N(µ1 ,σ1

n1)

x 2 ≈ N(µ 2 ,σ2

n2)

y ambas distribuciones son independientes. El estimador de la diferencia de medias

poblacionales será la diferencia de medias muestrales y, como la diferencia de normales

independientes es también una distribución normal, tenemos que

x 1 − x 2 ≈ N( µ1 − µ2 ,σ1

2

n1+

σ22

n 2)

Estandarizando se obtiene que

Z =( x 1 − x 2 ) − (µ1 − µ 2 )

σ12

n1+

σ22

n 2

≈ N(0,1)

Cuando la hipótesis nula es cierta µ1 − µ 2 = 0 y se tiene que

Page 25: INTRODUCCION A LOS CONTRASTES DE HIPOTESIS

Z =( x 1 − x 2 )

σ12

n1+

σ22

n 2

≈ N(0,1)

luego Z será el estadígrafo de contraste que utilizaremos.

El procedimiento de contraste completo se muestra el cuadro 9. Solo se incluye el contraste

bilateral ya que la construcción de los correspondientes unilaterales es la misma que en los

casos previos y se deja como ejercicio al lector.

HIPOTESIS: H 0 : µ1 = µ 2 (µ1 − µ2 = 0)

H a :µ1 ≠ µ 2 (µ1 − µ 2 ≠ 0)NIVEL DE SIGNIFICACION: α

ESTADIGRAFO DE CONTRASTE: Z =( x 1 − x 2 )

σ12

n1+

σ22

n 2

DISTRIBUCION DEL ESTADIGRAFO CUANDO H 0 ES CIERTA: N(0, 1)

REGION DE ACEPTACION : Z / Z ≤ zα /2{ }REGION CRITICA : Z / Z > zα /2{ }

Cuadro 10: Contraste para la diferencia de medias de dos poblaciones normales con varianza conocida.

Si aplicamos el contraste a los datos del ejemplo, obtenemos los resultados del cuadro 10.

HIPOTESIS: H 0 : µ1 = µ 2 (µ1 − µ2 = 0)

H a :µ1 ≠ µ 2 (µ1 − µ 2 ≠ 0)NIVEL DE SIGNIFICACION: α= 0.05 (5%) ó 0.01 (1%)

ESTADIGRAFO DE CONTRASTE: Z = (12.529 − 13. 450)

0.2514

+ 0.366

= −10.829

Valores críticos : para el 5% z0.025= 1,96 para el 1% z0.005= 2,57

Decisión estadística: El valor del estadígrafo de contraste pertenece a la región crítica, portanto rechazamos la hipótesis nula.Conclusión no estadística: Los grados alcohólicos medios de las dos denominaciones sondiferentes.Cuadro 11: Contraste para la diferencia de medias de dos poblaciones normales con varianza desconocida aplicadoal ejemplo de la comparación del grado alcohólico en dos denominaciones de origen.

Page 26: INTRODUCCION A LOS CONTRASTES DE HIPOTESIS

3.3.- Varianzas desconocidas pero iguales

Supongamos ahora que las varianzas son desconocidas pero iguales (σ1 = σ2 = σ). La

distribución de la diferencia de medias muestrales es ahora

Z =( x 1 − x 2 ) − (µ1 − µ 2 )

σ 1

n1+ 1

n2

≈ N(0,1)

Tenemos que eliminar el parámetro σ, para lo cual utilizaremos las distribuciones muestrales

asociadas a las cuasi-varianzas muestrales

(n 1 − 1) ˆ S 12

σ2≈ χn1−1

2 y (n 2 − 1) ˆ S 2

2

σ2≈ χn2 −1

2

La suma de dos ji-cuadrado es también una ji-cuadrado, sumando las dos anteriores

(n 1 − 1) ˆ S 12

σ2+

(n 2 − 1) ˆ S 22

σ2=

(n 1 − 1) ˆ S 12 + (n 2 − 1) ˆ S 2

2

σ2≈ χn1+n2 −2

2

Suponiendo que ambas distribuciones son independientes4, podemos combinarlas para obtener

una distribución t de Student. La variable aleatoria

t =

(x 1 − x 2 ) − (µ1 − µ2 )

σ 1

n1+ 1

n 2

(n 1 − 1)ˆ S 12 + (n 2 − 1) ˆ S 2

2

σ2n1 + n2 − 2

=(x 1 − x 2 ) − (µ1 − µ2 )

ˆ S 1

n1+ 1

n2

con ˆ S =(n 1 − 1) ˆ S 1

2 + (n 2 − 1) ˆ S 22

n1 + n 2 − 2 sigue una t de Student con n1 + n2 -2 grados de

Page 27: INTRODUCCION A LOS CONTRASTES DE HIPOTESIS

libertad.

Si la hipótesis nula es cierta, el estadígrafo de contraste que utilizaremos es

t =(x 1 − x 2 )

ˆ S 1

n1+ 1

n2

= t n1+n2 −2

Es posible considerar un estadígrafo de contraste alternativo si se utilizan las varianzas

muestrales en lugar de las cuasi-varianzas. Para ello basta tener en cuenta que las distribuciones

muestrales asociadas a las varianzas son

n1 S12

σ2≈ χn1−1

2 y n 2 S2

2

σ2≈ χn2 −1

2

El nuevo estadígrafo de contraste es de la forma

t =(x 1 − x 2 )

S1

n1+ 1

n2

= t n1+n2 −2

con S =n1

ˆ S 12 + n2

ˆ S 22

n1 + n2 − 2. Los dos estadísticos toman exactamente el mismo valor por lo

que pueden utilizarse indistintamente. Usaremos el calculado a partir de las cuasi-varianzas

porque son estimadores insesgados de la varianza poblacional.

En ambos casos lo que se ha hecho es estimar la varianza común de ambas poblaciones

mediante una media ponderada de las varianzas estimadas en cada población, y se ha cambiado

la distribución normal por la t de Student con el correspondiente aumento en la dispersión que

hace que sea más difícil encontrar diferencias.

En este caso es necesario que las varianzas sean iguales para poder despejarlas y eliminarlas en

el cálculo del estadígrafo de contraste. La comprobación de la igualdad de varianzas se hará

4 La demostración puede encontrarse en cualquier libro de Estadística Matemática. No se ha incluido aquí porquesupera los propósitos de este trabajo.

Page 28: INTRODUCCION A LOS CONTRASTES DE HIPOTESIS

posteriormente aunque sea un paso previo a la decisión del tipo de contraste.

Las cuestiones relacionadas con la potencia del contraste se interpretan de la misma manera que

en todos los casos anteriores. Cuanto mayor sea la diferencia que queremos detectar mayor será

la potencia para detectarla. Cuanto más pequeño sea el efecto que queremos detectar mayor será

el tamaño de muestra necesario para hacerlo. Si aumentamos indefinidamente el tamaño

muestral conseguiremos que la diferencia muestral sea siempre estadísticamente significativa por

pequeña que sea.

El contraste completo se muestra en el cuadro siguiente.

HIPOTESIS: H 0 : µ1 = µ 2 (µ1 − µ2 = 0)

H a :µ1 ≠ µ 2 (µ1 − µ 2 ≠ 0)

NIVEL DE SIGNIFICACION: α

ESTADIGRAFO DE CONTRASTE: t =(x 1 − x 2 )

ˆ S 1

n1+ 1

n2

ó t =(x 1 − x 2 )

S1

n1+ 1

n 2

con ˆ S =(n 1 − 1) ˆ S 1

2 + (n 2 − 1) ˆ S 22

n1 + n 2 − 2 ó S =

n1ˆ S 1

2 + n2ˆ S 2

2

n1 + n2 − 2

DISTRIBUCION DEL ESTADIGRAFO CUANDO LA HIPOTESIS NULA

ES CIERTA: t de Student t n1+n2−2

REGION DE ACEPTACION : t / t ≤ t n1+n2 −2,α{ }REGION CRITICA : t / t > t n1+n2 −2,α{ }

Cuadro 10: Contraste para la diferencia de medias de dos poblaciones normales con varianzas desconocidas pero

iguales.

El contraste se ha aplicado a los datos del ejemplo inicial y se han obtenido los siguientes

resultados.

Page 29: INTRODUCCION A LOS CONTRASTES DE HIPOTESIS

HIPOTESIS: H 0 : µ1 = µ 2 (µ1 − µ2 = 0)

H a :µ1 ≠ µ 2 (µ1 − µ 2 ≠ 0)NIVEL DE SIGNIFICACION: α= 0.05 (5%) ó 0.01 (1%)

ESTADIGRAFO DE CONTRASTE: t = (12.529 − 13.450)

0.3591

14+ 1

6

= −5.256

Valores críticos : para el 5% t18,0.025= 2.101 para el 1% t18,0.005= 2.878

Decisión estadística: El valor del estadígrafo de contraste pertenece a la región crítica, por

tanto rechazamos la hipótesis nula.

Conclusión no estadística: El grado alcohólico es significativamente diferente en Ribera de

Duero y Toro.

Cuadro 11: Contraste para la diferencia de medias de dos poblaciones normales con varianzas desconocidas pero

iguales, aplicado a los datos sobre el grado alcohólico.

3.4.- Varianzas desconocidas y distintas

Supongamos ahora que las varianzas son desconocidas y distintas (σ1 ≠ σ2) de forma que ya

no es posible eliminar el parámetro en el cálculo de la t de Student. Se han propuesto diversas

aproximaciones para la aproximación de la distribución del estadígrafo de contraste.

Describiremos aquí la aproximación de Welch. La demostración completa está fuera de los

propósitos de este trabajo.

Page 30: INTRODUCCION A LOS CONTRASTES DE HIPOTESIS

HIPOTESIS: H 0 : µ1 = µ 2 (µ1 − µ2 = 0)

H a :µ1 ≠ µ 2 (µ1 − µ 2 ≠ 0)NIVEL DE SIGNIFICACION: α

ESTADIGRAFO DE CONTRASTE: t =(x 1 − x 2 )

ˆ S 12

n1+

ˆ S 22

n2

DISTRIBUCION DEL ESTADIGRAFO CUANDO LA HIPOTESIS NULAES CIERTA: t de Student t f donde f es el entero más próximo a

f =

ˆ S 12

n1+

ˆ S 22

n2

2

ˆ S 12

n1

2

n1 + 1+

ˆ S 22

n2

2

n2 + 1

− 2

REGION DE ACEPTACION : t / t ≤ t f,α{ }REGION CRITICA : t / t > t f,α{ }

Cuadro 11: Contraste para la diferencia de medias de dos poblaciones normales con varianzas desconocidas y

distintas.

3.5.- Contrastes de comparación de medias para muestras grandes.

Como ya se comentó para el caso de una única población, el teorema central del límite permite

asignar distribuciones normales a las medias muestrales aunque la distribución en la población

no sea normal. Si disponemos de una muestra de tamaño grande y estimamos la varianza

poblacional a través de la cuasivarianza muestral, podemos construir un contraste aproximado de

comparación de medias utilizando la distribución normal.

Page 31: INTRODUCCION A LOS CONTRASTES DE HIPOTESIS

HIPOTESIS: H 0 : µ1 = µ 2 (µ1 − µ2 = 0)

H a :µ1 ≠ µ 2 (µ1 − µ 2 ≠ 0)NIVEL DE SIGNIFICACION: α

ESTADIGRAFO DE CONTRASTE: t =(x 1 − x 2 )

ˆ S 12

n1+

ˆ S 22

n2

DISTRIBUCION DEL ESTADIGRAFO CUANDO LA HIPOTESIS NULA

ES CIERTA: N(0,1)

REGION DE ACEPTACION : Z / Z ≤ zα /2{ }REGION CRITICA : Z / Z > zα /2{ }

Cuadro 12: Contraste para la diferencia de medias de dos poblaciones normales con varianzas desconocidas y

tamaños muestrales grandes.

Obsérvese que estamos suponiendo implícitamente que la cuasi-varianza muestral es un buen

estimador de la varianza poblacional, próximo al verdadero valor.

3.6.- Obtención de datos para la comparación de medias.

Dos son los tipos de datos de los que es posible disponer para la comparación de las medias

- Datos procedentes de estudios observacionales.

- Datos procedentes de estudios experimentales.

En el primer caso se toman muestras aleatorias en dos poblaciones. La muestra aleatoria

garantiza la representatividad . A este tipo de datos corresponde el ejemplo que hemos utilizado

como guía para la explicación.

Los datos experimentales se corresponden con experimentos planificados en los que se asignan

dos tratamientos distintos a un grupo de individuos. En este tipo de diseños es necesario que

todas las características que no intervienen en el diseño y puedan modificar la respuesta, estén

controlados y sean similares en los dos grupos a comparar. Por ejemplo, si se desea hacer un

ensayo clínico en el que se dispone de un grupo de pacientes de forma que a un subconjunto se

le aplicará el tratamiento a comparar y el resto será utilizado como control sobre el que se

utilizará un placebo (substancia no activa) con la misma apariencia que el tratamiento, los

pacientes de ambos grupos han de ser similares en composición con respecto a características

Page 32: INTRODUCCION A LOS CONTRASTES DE HIPOTESIS

como la edad peso u otros factores que pudieran alterar la respuesta y que no intervienen

directamente en el diseño. Se tratará de evitar sesgos de forma que los efectos puedan ser

asignados a los tratamientos, por ejemplo, en un experimento con ratones de laboratorio en el

que se dispone de dos camadas distintas, no sería correcto asignar un tratamiento diferente a

cada una de las camadas ya que sería imposible separar los efectos del tratamiento y de la

camada. En Estadística decimos que los tratamientos están confundidos.

La forma de asignar tratamientos a individuos para que no existan errores sistemáticos es

hacerlo al azar, por ejemplo, sorteando cual es el tratamiento que se aplica a cada individuo. A

este procedimiento se le denomina aleatorización, y juega un papel fundamental en el diseño de

experimentos planificados. Hay que hacer notar que al azar no significa “de cualquier manera”

o “cualquiera de los tratamientos”, para conseguir una verdadera aleatorización es necesario

utilizar la probabilidad.

En los experimentos diseñados es muy importante realizar estudios previos sobre el tamaño de

muestra necesario para detectar un determinado efecto. Este problema está fuera del alcance de

un curso introductorio aunque las ideas básicas fueron expuestas cuando se trató con los

intervalos de confianza.

Este tipo de experimentos se comenzó en Agricultura para extenderse después a otras

aplicaciones como la Industria o la Medicina. Actualmente los ensayos clínicos controlados,

basados fundamentalmente en conceptos de Estadística, forman una parte importante de la

investigación médica. Todo el mundo ha oído alguna vez en las noticias los resultados de

ensayos clínicos controlados antes de lanzar al mercado un nuevo medicamento.

4.- EL CONTRASTE PARA LA DIFERENCIA DEMEDIAS DE DOS POBLACIONES NORMALESCON DATOS APAREADOS.

En el caso de datos independientes en el punto anterior, se dispone de dos conjuntos distintos

de individuos para cada una de las situaciones experimentales que se quiere compara. Una

forma de controlar la variabilidad debida a los propios sujetos consiste en aplicar todos los

tratamientos en estudio a todos los individuos de la muestra en dos ocasiones diferentes. A este

tipo de datos lo denominaremos datos apareados, relacionados, o ligados y consisten en dos

mediadas tomadas sobre el mismo conjunto d individuos en dos ocasiones diferentes.

Para ilustrar los procedimientos utilizaremos datos tomados de MARTIN ANDRES y LUNA

Page 33: INTRODUCCION A LOS CONTRASTES DE HIPOTESIS

CASTILLO (1990).

Supongamos que deseamos saber si la presión sistólica de personas alcohólicas se modifica

cuando dejan el hábito de beber, para ello se toma una muestra de 10 personas que ingresan en

en el hospital para tratar su alcoholismo y se toma una medida de la presión sistólica antes y

después de dos meses de haber dejado de beber. El experimento fue diseñado de esta manera ya

que aunque se espera una reducción en la presión sanguínea, esta depende del valor inicial en

cada individuo.

Los resultados obtenidos para la presión sistólica mediada en milímetros de mercurio fueron los

siguientes:

Individuo 1 2 3 4 5 6 7 8 9 10

Antes 140 165 160 160 175 190 170 175 155 160

Después 145 150 150 160 170 175 160 165 145 170

Reducción -5 15 10 0 5 15 10 10 10 -10

Como las variables están relacionadas, todos los cálculos que realizamos en el caso de datos

independientes ya no son válidos. Para evitar este problema nos centraremos en una sola

variable aleatoria que es la diferencia entre los dos valores obtenidos para cada uno de los

individuos estudiados que mide el efecto del tratamiento aplicado. Tenemos ahora una nueva

variable D que suponemos que tiene una distribución normal de media µd desviación típica σd.

La hipótesis de interés es ahora que, en promedio, el tratamiento aplicado a los individuos es 0,

es decir, µd = 0. El contraste es ahora exactamente igual que el descrito para la media de una

población normal (ahora la población de las diferencias.

Describimos a continuación el contraste para muestras pequeñas y varianza desconocida para

datos apareados. Llamaremos d , a la media muestral de las diferencias y ˆ S d a la cuasi

desviación típica. El contraste se muestra en el cuadro ??.

Page 34: INTRODUCCION A LOS CONTRASTES DE HIPOTESIS

HIPOTESIS: H 0 : µd = 0

H a :µ d ≠ 0

NIVEL DE SIGNIFICACION: α

ESTADIGRAFO DE CONTRASTE: t = d ˆ S d

n

DISTRIBUCION DEL ESTADIGRAFO CUANDO H 0 ES CIERTA: tn-1

REGION DE ACEPTACION : t / t ≤ t n−1,α{ }REGION CRITICA : t / t > t n−1,α{ }

Cuadro 6: Contraste para la diferencia de medias de dos poblaciones normales con datos apareados.

El resto de los contrastes se construye de la misma manera que en el caso de una sola

población. El cuadro ?? muestra ejemplo.

HIPOTESIS: H 0 : µd = 0

H a :µ d ≠ 0

Nivel de significación: 5% y 1%

ESTADIGRAFO DE CONTRASTE: t = 68. 433

10

= 2.250

DISTRIBUCION DEL ESTADIGRAFO CUANDO H 0 ES CIERTA: t9

Valores críticos : para el 5% t9, 0.05= 2,262 para el 1% t9, 0.01= 3,250

p-valor : 0,0510

Decisión estadística: El valor del estadígrafo de contraste pertenece a la región de aceptación,

por tanto aceptamos la hipótesis nula.

Conclusión no estadística: Con los datos de los que disponemos no existe una evidencia

significativa de que exista una diferencia entre la presión sistólica antes y después de haber

dejado de beber.

Cuadro 6: Contraste para la diferencia de medias de dos poblaciones normales con datos apareados aplicado al

ejemplo de la reducción de la tensión arterial en alcohólicos.

Page 35: INTRODUCCION A LOS CONTRASTES DE HIPOTESIS

5.- ARBOL DE DECISIONES PARA LACOMPARACIÓN DE MEDIAS DE DOSPOBLACIONES NORMALES.

La figura siguiente muestra de forma esquemática el proceso de decisión por el tipo de contraste

a utilizar en poblaciones normales.

NORMALES

INDEPEND.

M. GRANDESVARIANZA

CONOCIDA ODESCONOCIDA

test Z

M. PEQUEÑAS

VARIANZACONOCIDA test Z

VARIANZASDESCONOCIDAS

IGUALES

DISTINTAS

test t(Welch)

test U

APAREADOS

M. GRANDES test Z

M. PEQUEÑAS test t

Z =(x 1 − x 2 )

σ12

n1

22

n2

= N(0,1)

test tC

22

1 2

t c =(x1 − x 2 )

s 1n

1+ 1

n2

s =(n1 − 1)s1

2 + (n2 − 1)s

n + n − 2

n +n -21 2

=t

t w =(x1 − x 2 )

s12

n1

+s

22

n2

f =

s12

n1

+s

22

n2

2

s12

n1

2

(n1+1) +

s22

n2

2

(n2

+1)

− 2

= t f

a

a

d =media de las diferencias

σd = desviación de las diferencias

Z a = dσdn

≡ N(0,1)

t a = dS

d

n−1

≡ t n−1

d =media de las diferencias

Sd = desviación de las diferencias

Z =(x 1 − x 2 )

σ12

n1

22

n2

= N(0,1)

2

Figura : Arbol de de decisiónes para el contraste de comparación de las medias de dos poblaciones normales.

Page 36: INTRODUCCION A LOS CONTRASTES DE HIPOTESIS

6.- CONTRASTES PARA LA COMPARACIÓN DE LATENDENCIA CENTRAL CUANDO LASPOBLACIONES NO SON NORMALES.

En muchas situaciones prácticas es difícil aceptar la hipótesis previa de que los datos son

normales al disponerse, por ejemplo, de distribuciones muy asimétricas. En estos casos los

contrastes anteriores no detectan claras diferencias en el comportamiento de las poblaciones,

debido a que la dispersión es muy grande o debido a que la medida de tendencia central

utilizada (la media) no es la correcta porque está afectada por los valores extremos. Los

contrastes paramétricos descritos antes son especialmente sensibles a valores extremos de la

variable.

Para solucionar el problema se utiliza la mediana en lugar de la media construyéndose los que

se denominan contrastes no paramétricos al no referirse ya a parámetros de una distribución

concreta.

x1 x2Me1 Me2

En la figura se muestra como para distribuciones asimétricas es mucho más intuitiva la

comparación de las medianas que la comparación de las medias, ya que estas están afectadas por

los valores muy extremos de la distribución. La situación del esquema es muy típica, por

ejemplo, en problamas médicos en los que la mayoría de los controles (curva de la izquierda)

presentan valores normales de la variable, y solamente algunos de ellos presentan valores

elevados, en el grupo de los pacientes enfremos, la mayoría presenta valores elevados y

solamente alguno presenta valores normales. El problema es particularmente crítico cuando el

tamaño de muestra es pequeño pero, incluso cuando el tamaño de muestra es grande y se utiliza

Page 37: INTRODUCCION A LOS CONTRASTES DE HIPOTESIS

erróneamente el contraste paramétrico correspondiente, se subestima el tamaño del efecto a

pesar de que la distribución normal esté correctamente utilizada aplicando el Teorema Central

del límite. La práctica habitual, especialmente en el ámbito médico, de aplicar contrastes no

paramétricos cuando la muestra es pequeña y paramétricos cuando es grande es claramente

errónea y puede llevar a no encontrar efectos experimentales que aparecen claramente definidos

en los datos.

Para la comparación de medianas de dos poblaciones con datos independientes el contraste más

utilizado es el conocido como U de Mann-Withney, está basado en la suma de los rangos de

orden de las observaciones de las dos poblaciones consideradas conjuntamente y consiste

básicamente en calcular todas las ordenaciones posibles con muestras de los mismos tamaños

en el caso de que las medianas fueran iguales, para comprobar el percentil en el que se encuentra

nuestro caso particular. Cabe esperar que si las medianas de las dos poblaciones son iguales los

datos estén mezclados y las sumas de rangos de orden sean similares en amos grupos. El resto

del razonamiento es similar al de cualquier contraste, si el valor muestral obtenido es muy

probable aceptamos la hipótesis nula y si no la rechazamos.

Para el caso de datos apareados se utiliza el test de Wilcoxon que contrasta la hipótesis de que

la mediana de las diferencias es cero. La base del contraste es similar al caso de muestras

independientes.

6.1.- Comparación de medianas de dos poblaciones con datosindependientes: el contraste U de Mann-Withney

Está basado en la suma de los rangos de orden de las observaciones de las dos poblaciones

consideradas conjuntamente y consiste básicamente en calcular la distribución muestral a partir

de todas las ordenaciones posibles con muestras de los mismos tamaños en el caso de que las

medianas fueran iguales. Cabe esperar que si las medianas de las dos poblaciones son iguales

los datos estén mezclados y las sumas de rangos de orden sean similares en ambos grupos.

HIPOTESIS: H 0 : Me1 = Me2 (Me1 − Me2 = 0)

H a :Me1 ≠ Me 2 (Me1 − Me2 ≠ 0)ESTADIGRAFO DE CONTRASTE: Ordenar las observaciones, asignar el rango

correspondiente y calcular las sumas de rangos de las observaciones de cada grupo.(R1 y R2)

U = min(U 1 ,U 2 ) U i = n1n 2 +ni (n i + 1)

2− R i

Page 38: INTRODUCCION A LOS CONTRASTES DE HIPOTESIS

Para muestras grandes: Z =U −

n1n2

2n1n2 (n1 + n2 + 1)

12

DISTRIBUCION DEL ESTADIGRAFO CUANDO H 0 ES CIERTA:

Distribución empírica o N(0,1) para muestras grandes.

REG. DE ACEP. : U / Uα;n1 ,n2

inf ≤ U ≤ Uα;n1,n2

sup{ } Z / Z ≤ zα /2{ }

REGION CRITICA : U / U ∉[U α;n1 ,n2

inf ;U α;n1 ,n2

sup]{ } Z / Z > zα /2{ }

6.2.- Comparación de medianas de dos poblaciones con datos apareados:el test de Wilcoxon

Contrasta la hipótesis de que la mediana de las diferencias es cero. La base del contraste es

similar al caso de muestras independientes.

HIPOTESIS: H 0 : Med = 0

H a :Me d ≠ 0ESTADIGRAFO DE CONTRASTE: Calcular las diferencias entre los valores de ambos

grupos, Suprimir las observaciones nulas, Ordenar las observaciones en valor absoluto, asignar

el rango correspondiente y calcular las sumas de rangos de las observaciones positivas y

negativas.(T+ y T-)

T = min(T+ , T− )

Para muestras grandes: Z =T − n(n + 1)

4n(n + 1)(2n + 1)

24

DISTRIBUCION DEL ESTADIGRAFO CUANDO H 0 ES CIERTA:

Distribución empírica o N(0,1) para muestras grandes.

REG. DE ACEP. : T / Tα;ninf ≤ T ≤ Tα;n

sup{ } Z / Z ≤ zα /2{ }

Page 39: INTRODUCCION A LOS CONTRASTES DE HIPOTESIS

REGION CRITICA : T / T ∉[Tα;ninf ;Tα;n

sup]{ } Z / Z > zα /2{ }

7.- COMPARACIÓN DE VARIAS POBLACIONES.INTRODUCCIÓN AL PROBLEMA DE LASCOMPARACIONES MÚLTIPLES.

En muchas situaciones experimentales se dispone de r >2 poblaciones a comparar. La primera

aproximación al problema es la comparación de todas la parejas de medias, sin embargo, la

propia construcción del procedimiento de contraste hace que la probabilidad de error no se

mantenga al realizar todas las comparaciones por parejas.

Supongamos que disponemos de r poblaciones y queremos contrastar la hipótesis de que todas

las medias son iguales

H 0 : µ1 = K = µ i =K = µ r

La hipótesis es cierta si y solo si las hipótesis por parejas H 0i,j

:µ i = µ j para todas las

k =r

2

=

r(r − 1)2

combinaciones posibles de i y de j.

Si contrastamos la hipótesis por separado a un nivel de significación α, tenemos

P(Aceptar H 0i,j

/ H0i,j

cierta ) = 1 − αSi las comparaciones fueran independientes

P(Aceptar H 0 / H0 cierta) = P( Aceptar H0i,j

i≠ jI / H 0 cierta ) =

P(Aceptar H0i,j

/ H 0i,j

cierta )i≠ j∏ = (1 − α)k

es decir, la probabilidad de cometer un error tipo I es

P(Re chazar H 0 / H0 cierta ) =

=1 − P(Aceptar H 0 / H0 cierta ) = 1 − (1 − α) k ≥ α

Page 40: INTRODUCCION A LOS CONTRASTES DE HIPOTESIS

Por ejemplo, para tres poblaciones en las que se realizan comparaciones individuales al 5%, hay

una probabilidad de 1 − 0.953 = 1 − 0.8574 = 0.1426 de rechazar la hipótesis nula

indebidamente. Con 5 poblaciones la probabilidad sería 1 − 0.9510 = 1 − 0.5987 = 0.4013 .

Con 10 poblaciones 1 − 0.9545 = 1 − 0.0994 = 0.9006 , es decir, con 10 poblaciones, aunque

todas las medias fueran iguales tendríamos una probabilidad del 90% de encontrar diferencias

en alguna de las parejas.

Este problema es importante no solo en la comparación de medias por parejas sino también

cuando se quieren realizar muchas comparaciones sobre el mismo conjunto de datos.

Supongamos, por ejemplo, que un investigador desea demostrar que es capaz de encontrar

diferencias entre personas convictas por algún tipo de delito y personas que no. A tal fin realiza

100 medidas biométricas como el perímetro torácico, el perímetro craneal, etc ... que compara en

los dos grupos. En cada comparación tiene una probabilidad del 5% de rechazar indebidamente,

sin embargo (si las medidas fueran independientes) tendría una probabilidad del 99,41% de

encontrar diferencias en alguna de las variables. El número esperado de contrastes significativos

sería de 5.

El problema de mantener el nivel de significación global en la comparación de las medias de

varios grupos se soluciona mediante la técnica denominada Análisis de la varianza seguido de

las comparaciones por parejas en las que se hace algún tipo de corrección en el nivel de

significación individual.

El Análisis de la Varianza se menciona aquí simplemente para alertar al lector de que existen

muchos problemas abiertos que pueden ser objeto de estudio posterior.

8.- VALIDACIÓN DE LAS HIPÓTESIS DE PARTIDA.

A lo largo de los distintos puntos de la descripción de los contrastes básicos hemos ido

haciendo una serie de suposiciones que no hemos verificado como son las hipótesis de

normalidad o de igualdad de varianzas (homocedasticidad) de las poblaciones. La validación de

estos supuestos se ha dejado para el final aunque debe realizarse previamente a la aplicación de

los procedimientos de contraste.

Existen muchos métodos que permiten la validación de la hipótesis de normalidad, desde los

más formales consistentes en nuevos contrastes cuya hipótesis nula es la hipótesis de que los

datos proceden de una distribución normal, hasta simples procedimientos descriptivos como el

Page 41: INTRODUCCION A LOS CONTRASTES DE HIPOTESIS

histograma o el Box-Plot que nos permiten decidir si la distribución es aproximadamente

simétrica o normal y si la dispersión de los grupos en estudio es aproximadamente la misma.

Los procedimientos de contraste de comparación de medias suelen ser robustos con respecto a

la hipótesis de normalidad aunque muy sensibles a la presencia de outliers (datos anormalmente

grandes o pequeños). En las representaciones Box-plot de los grupos a comparar buscaremos la

simetría de lo grupos y, sobre todo, la presencia de observaciones extrañas en los extremos de la

distribución.

La figura siguiente muestra el gráfico con los Box-Plots correspondientes al ejemplo de las

denominaciones de origen.

Toro

Ribera

11,75

12

12,25

12,5

12,75

13

13,25

13,5

13,75

14

14,25

grado

Box Plot

Figura 12: Box plot para la comparación del grado alcohólico de las denominaciones de Ribera y Toro.

El gráfico muestra como no hay observaciones muy extremas, las dos distribuciones tienen

aproximadamente la misma dispersión y la correspondiente a la denominación de origen de

Toro parece más asimétrica. La asimetría podría ser debida simplemente a que el tamaño

muestral es muy pequeño en este grupo.

En líneas generales parece que las hipótesis se verifican y es posible aplicar el contraste par la

igualdad de medias de dos poblaciones normales con varianzas desconocidas pero iguales.

Para contrastar más formalmente que las varianzas son iguales se puede construir un contraste

muy simple teniendo en cuenta la distribución del cociente de varianzas basado en el cociente de

las distribuciones ji-cuadrado asociadas.

Page 42: INTRODUCCION A LOS CONTRASTES DE HIPOTESIS

El cociente

F ==

(n 1 − 1)

σ12

(n 1 − 1)

(n 2 − 1) ˆ S 22

σ22

(n 2 − 1)

=ˆ S 1

2σ22

ˆ S 22σ1

2

sigue una distribución F de Snedecor con n1-1 y n2-1 grados de libertad.

Si la hipótesis nula H 0 : σ12 = σ2

2es cierta, el cociente de cuasi-varianzas muestrales

F =ˆ S 1

2

ˆ S 22

sigue una distribución F de Snedecor con n1-1 y n2-1 grados de libertad.

El contraste completo aparece en el cuadro siguiente.

HIPOTESIS: H 0 : σ1

2 = σ22

H a :σ12 ≠ σ2

2

NIVEL DE SIGNIFICACION: α

ESTADIGRAFO DE CONTRASTE: F =ˆ S 1

2

ˆ S 22

DISTRIBUCION DEL ESTADIGRAFO CUANDO H 0 ES CIERTA:

F n1−1, n2 −1

REGION DE ACEPTACION :

F / F ∈[F n1−1,n2−1, 1−α /2 ,F n1−1,n2 −1, 1−α/2 ]{ }

Page 43: INTRODUCCION A LOS CONTRASTES DE HIPOTESIS

REGION CRITICA : F / F ∉[F n1−1,n2−1, 1−α /2 ,F n1−1,n2 −1, 1−α/2 ]{ } 5

Cuadro 6: Contraste de comparación de las varianzas de dos poblaciones normales.

Para el ejemplo de la comparación del grado alcohólico en las dos denominaciones de origen

consideradas el contraste de comparación de varianzas se muestra en el cuadro siguiente.

HIPOTESIS: H 0 : σ1

2 = σ22

H a :σ12 ≠ σ2

2

NIVEL DE SIGNIFICACION: α = 5% y 1%

ESTADIGRAFO DE CONTRASTE: F =ˆ S 1

2

ˆ S 22

= 0.686

DISTRIBUCION DEL ESTADIGRAFO CUANDO H 0 ES CIERTA:

F n1−1, n2 −1

p-valor : 0.6261

Conclusión : Se acepta la hipótesis nula.

Cuadro 7: Contraste de comparación de las varianzas de dos poblaciones normales aplicado ala comparación de la

variabilidad del grado alcohólico.

Como se acepta la hipótesis de igualdad de varianzas, la comparación de medias ha de hacerse

en el supuesto de que las varianzas son iguales.

5 El valor F n1−1,n2−1, 1−α /2 es el valor crítico que deja a la derecha un área de 1 − α / 2 . En la práctica

puede calcularse como F n1−1,n2−1, 1−α /2 =1

F n2 −1,n1−1, α /2