Download - La Prueba Chi-Cuadrado

Transcript
Page 1: La Prueba Chi-Cuadrado

TABLA DE CONTENIDO

INTRODUCCION_____________________________________________________________1

OBJETIVOS__________________________________________________________________2

MARCO TEORICO____________________________________________________________3

DISTRIBUCION CHI- CUADRADO. (²)______________________________________4

PRUEBAS DE BONDAD DE AJUSTE._________________________________________4

Definición.________________________________________________________________________4

Prueba para un ajuste uniforme________________________________________________7

Prueba de ajuste a un patrón especifico.______________________________________9

Prueba de Normalidad_________________________________________________________10

Tablas de Contingencia________________________________________________________16

CONCLUSION______________________________________________________________20

BIBLIOGRAFIA_____________________________________________________________21

ANEXOS____________________________________________________________________22

TABLA E – DISTRIBUCION NORMAL____________________________________________22

TABLA H – DISTRIBUCION CHI-CUADRADO____________________________________23

0

Page 2: La Prueba Chi-Cuadrado

INTRODUCCION

Siempre que obtengamos muestras de una población, existe la cuestión de la

confiabilidad de los resultados obtenido por muestreo con respecto a la población.

Necesitamos saber si las diferencias entre los resultados obtenidos por muestreo y

los esperados de acuerdo con las leyes de las probabilidades son los suficientemente

pequeñas como para que no afecten las inferencias que deseamos obtener de los

datos para nuestro uso. En otras palabras, necesitamos saber si los datos obtenidos

son confiables y no contienen errores que puedan invalidar sus resultados.

Una de las medidas de la discrepancia mas útiles es la prueba Chi-cuadrado, la

cual viene proporcionada por el estadístico 2. Si 2 = 0, las frecuencias observadas y

teóricas coinciden completamente; mientras que si 2 >0, no coinciden exactamente.

A valores más grandes de 2 mayor discrepancia entre las frecuencias observadas y

esperadas.

1

Page 3: La Prueba Chi-Cuadrado

OBJETIVOS

1. Comprender la importancia de comparar los resultados obtenidos por

muestreo, con los resultados esperados teóricamente con las leyes de la

probabilidad.

2. Aprender a aplicar la prueba 2 para diferentes supuestos o hipótesis de

acuerdo a los datos obtenidos.

3. Aprender el uso de tablas de contingencia para medir la relación entre

diferentes factores que afectan un conjunto de datos.

2

Page 4: La Prueba Chi-Cuadrado

MARCO TEORICO

Las pruebas que requieren de un supuesto respecto a la población, se

denominan pruebas parametricas, debido a que tales pruebas dependen de estos

postulados y sus parámetros. En la practica, surgen muchas situaciones en las cuales

no es posible hacer de forma segura ningún supuesto sobre el valor de un parámetro

o sobre la forma de su distribución poblacional. Entonces se deben utilizar otras

pruebas que no dependan de un solo tipo de distribución o de valores parametricos

específicos. Estas pruebas se denominan no parametricas. Estas pruebas son

procedimientos estadísticos que pueden utilizarse para contrastar hipótesis cuando

no son posibles los supuestos respecto a los parámetros o a las distribuciones

poblacionales. Dentro de estas pruebas se encuentran las de Chi-cuadrado (2), la del

Signo, de Rachas, de Mann-Whitney y otras.

Para el calculo del estadístico Chi-cuadrado (2, es necesario emplear tanto

observaciones de muestras como propiedades de ciertos parámetros de la población.

Si estos parámetros son desconocidos, hay que estimarlos a partir de la muestra.

Él numero de grados de libertad de un estadístico, generalmente denotado por

v, se define como el numero N de observaciones independientes en la muestra (o sea

el tamaño de la muestra) menos el numero k de parámetros de la población, que

debe ser estimado a partir de observaciones muéstrales. En símbolos, v = N- k.

En el caso del 2, el numero de observaciones independientes en la muestra es

N, de donde podemos calcular s. Sin embargo, como debemos estimar , k = 1 y v =

N-1.

3

Page 5: La Prueba Chi-Cuadrado

DISTRIBUCION CHI- CUADRADO. (²)

Una de las herramientas no parametricas mas útiles es la prueba chi -

cuadrado (2). Al igual que la distribución t, la distribución Chi-cuadrado es toda una

familia de distribuciones. Existe una distribución Chi-cuadrado para cada grado de

libertad. a medida que se incrementa el numero de grados de libertad, la distribución

Chi-cuadrado se vuelve menos sesgada. Las dos aplicaciones más comunes de Chi-

cuadrado son las pruebas de bondad de ajuste y las pruebas de independencia a

través de las tablas de contingencia.

PRUEBAS DE BONDAD DE AJUSTE.

Definición.

Medidas sobre que tan cerca se ajustan los datos muestrales observados a

una forma de distribución particular planteada como hipótesis. Si el ajuste es

razonablemente cercano, puede concluirse que si existe la forma de distribución

planteada como hipótesis.

Las tomas de decisiones en los negocios muchas veces requiere que se pruebe

alguna hipótesis sobre una distribución poblacional desconocida. Por ejemplo, se

puede plantear la hipótesis que la distribución poblacional es uniforme y que todos

los valores posibles tienen la misma probabilidad de ocurrir. Las hipótesis que se

probarían son:

4

Page 6: La Prueba Chi-Cuadrado

HO: la distribución poblacional es uniforme.

HA: la distribución poblacional no es uniforme.

La prueba de bondad de ajuste se utiliza entonces para determinar si la

distribución de los valores en la población se ajusta a una forma en particular

planteada como hipótesis, en este caso, una distribución uniforme. De la misma

manera que con todas las pruebas estadísticas de esta naturaleza, los datos

muestrales se toman de la población y estos constituyen la base de los hallazgos.

Si 2=0, las frecuencias observadas y esperadas coinciden completamente;

mientras que si 2>0, no coinciden exactamente. A valores más grandes de 2, mayor

discrepancia existe entre las frecuencias observadas y esperadas. Si existe gran

diferencia entre la frecuencia observada en la muestra y lo que se esperaría

observar, en tal caso es menos probable que la hipótesis sea verdadera. Es decir, la

hipótesis debe rechazarse cuando las observaciones obtenidas en la muestra difieren

tanto del patrón que se espera que ocurra la distribución planteada como hipótesis,

que no puede ser atribuida a un error de muestreo. En tales casos la hipótesis no es

lo suficientemente confiable para una buena toma de decisiones.

Por ejemplo, si se hace rodar un dado bueno, es razonable plantear como

hipótesis un patrón de resultados tal que cada resultado (un numero del 1 al 6)

ocurra aproximadamente un sexto de las veces. Sin embargo, si un porcentaje

significativamente grande o significativamente pequeño de números pares ocurre,

puede concluirse que el dado no esta balanceado adecuadamente y que la hipótesis

es falsa.

Para contrastar la hipótesis relativa a una distribución poblacional, se debe

analizar la diferencia entre las expectativas con base en la distribución planteada

como hipótesis y los datos reales que aparecen en la muestra. Esto es precisamente

lo que hace la prueba Chi-cuadrado de bondad de ajuste. Determina si las

5

Page 7: La Prueba Chi-Cuadrado

observaciones muestrales se ajustan a las expectativas. La prueba toma la siguiente

forma:

k (Oi - Ei)²² = --------------- (1.1) i=1 Ei

en donde

Oi es la frecuencia de los eventos observados en los datos muestrales

Ei es la frecuencia de los eventos esperados si la hipótesis es correcta

k es el numero de categorías o clases

La prueba tiene K - m - 1 grados de libertad, en donde m es el numero de

parámetros a estimar.

Vale la pena notar que el numerador de la formula (1.1) mide la diferencia

entre las frecuencias de los eventos observados y las frecuencias de los eventos

esperados al cuadrado. Cuando estas diferencias son grandes, haciendo que ² se

incremente, debería rechazarse la hipótesis.

Dependiendo de los datos disponibles, podemos realizar la prueba de Chi-cuadrado

de bondad de ajuste de tres maneras, pruebas para una ajuste uniforme, pruebas de

ajuste para un patrón especifico y pruebas de normalidad.

6

Page 8: La Prueba Chi-Cuadrado

Prueba para un ajuste uniforme

Esta prueba de Chi-cuadrado se usa cuando la frecuencia esperada para todas

las clases es uniforme, de aquí su nombre. Ilustramos esta prueba con el siguiente

ejemplo:

Chris Columbus, director de mercadeo de Seven Seas, Inc, tiene la responsabilidad de

controlar el nivel de existencia para cuatro tipos de botes vendidos por su firma. En el pasado

ha ordenado nuevos botes bajo la premisa de que los cuatro tipos son igualmente populares y

la demanda de cada tipo es la misma. Sin embargo, recientemente las existencias se han

vuelto más difíciles de controlar, y Chris considera que debería probar su hipótesis respecto a

una demanda uniforme. Sus hipótesis son:

HO: La demanda es uniforme para los cuatro tipos de botes

HA: La demanda no es uniforme para los cuatro tipos de botes

Suponiendo uniformidad en la demanda, la hipótesis nula presume que de una

muestra aleatoria de botes, los navegantes de fin de semana comprarían un numero

igual de cada tipo. Para probar esta hipótesis, Chris selecciona una muestra de n=48

botes vendidos durante los últimos meses. Si la demanda es uniforme, puede esperar

que 48/4=12 botes de cada tipo se vendan. La Tabla 1.1 Muestra esta expectativa

junto con la frecuencia real vendida de cada tipo. Se nota que (Oi)=(Ei). Chris debe

determinar ahora si los números vendidos realmente en cada una de las categorías

K=4 esta lo suficientemente cerca de lo que se esperaría si la demanda fuese

uniforme. Aplicando la formula 1.1 tenemos el siguiente resultado:

TABLA 1.1

Tipo de Bote Ventas Observadas(Oi) Ventas Esperadas(Ei)

Pirate's Revenge 15 12

Jolly Roger 11 12

Bluebeard's Treasure 10 12

Ahab's Quest 12 12

48 48

7

Page 9: La Prueba Chi-Cuadrado

Utilizando la formula (1.1) tenemos que:

(15-12)2 (11-12)2 (10-12)2 (12-12)2

2= ------------- + ------------ + -------------+ ------------ = 1.17 12 12 12 12

El valor 1.17 se compara con un valor critico de 2 tomando de la tabla H (ver

anexo). Debido a que no existen parámetros que tengan que estimarse, m=0 y

entonces los grados de libertad según su formula es igual a 4-0-1 = 3 grados de

libertad. Si Chris deseara probar al nivel del 5%, se encontraría que 20.05,3 > 7.815

Regla de decisión: “No rechazar si 2 < 7.815. Rechazar si 2>7.815

Gracias a que 1.17< 7.815, la hipótesis nula de que la demanda es uniforme

no se rechaza. Las diferencias entre lo que se observo en realidad, O i, y lo que Chris

esperaba observar si la demanda fuera la misma para los cuatro tipos de botes, Ei, no

son los suficientemente grandes como para refutar la hipótesis nula. Las diferencias

no son significativas y pueden atribuirse simplemente a un error de muestreo.

8

Page 10: La Prueba Chi-Cuadrado

Prueba de ajuste a un patrón especifico.

En el ejemplo anterior, Chris asumió que la demanda de los cuatro tipos era la

misma. Los valores para la frecuencia esperada eran por ende las mismas. Sin

embargo, si los valores de los cuatro tipos de botes deben probarse contra un patrón

determinado, en el cual las frecuencias esperadas vienen dadas por un patrón

individual para cada categoría, tendríamos que realizar la prueba para un patrón

especifico dado. En este caso Ei se determina por Ei = npi, en donde pi es la

probabilidad individual de cada categoría y n es el tamaño de la muestra. Si

deseamos probar que las ventas reales se ajustan a las probabilidades dadas en la

tabla 1.2, teniendo probabilidades de 30%, 20%, 40% y 10% para cada una de las

categorías respectivamente, entonces debemos proceder como sigue:

TABLA 1.2

Tipo de Bote Ventas Observadas(Oi) Ventas Esperadas(Ei)

Pirate's Revenge 15 14.40

Jolly Roger 11 9.60

Bluebeard's Treasure 10 19.20

Ahab's Quest 12 4.80

48 48

(15-14.4)2 (11-9.6)2 (10-19.2)2 (12-4.8)2

2 = -------------+-------------+-------------+----------- = 15.4114.4 9.6 19.2 4.8

El valor 15.41 se compara con el valor critico de 2 tomado de la tabla H (Ver

anexo). De nuevo no existen parámetros que tengan que estimarse, m = 0 y

entonces los grados de libertad según su formula es igual a 4-0-1=3 grados de

libertad. De la misma manera deseamos probar al nivel del 5%, se encontraría que

20.05,3 > 7.815

Regla de decisión: “No rechazar si 2 < 7.815. Rechazar si 2>7.815

9

Page 11: La Prueba Chi-Cuadrado

Dado que 15.41> 7.815, la hipótesis nula de que la demanda se ajusta a un

patrón especifico se rechaza. Las diferencias entre lo que se observo en realidad, Oi,

y lo que Chris esperaba observar si la demanda fuera la dada según la tabla 1.2 para

los cuatro tipos de botes, Ei, son los suficientemente grandes como para refutar la

hipótesis nula. Las diferencias son significativas y no pueden atribuirse simplemente

a un error de muestreo.

Prueba de Normalidad

Si nos encontramos frente a una cantidad grande de observaciones y

deseamos saber si estas se comportan de acuerdo a las reglas de la normalidad, es

decir que sus probabilidades pueden ser encontradas por medio de la Tabla del área

bajo la campana de Gauss o Curva Normal, entonces podemos utilizar la prueba Chi-

cuadrado para determinar el grado de ajuste con que esta distribución se acerca a la

distribución normal. Veamos el siguiente ejemplo:

Las especificaciones para la producción de tanques de aire utilizados en inmersión

requieren que los tanques se llenen a una presión promedio de 600 psi. Se permite una

desviación estándar de 10 psi. Las especificaciones de seguridad permiten una distribución

normal en los niveles de llenado. Deseamos determinar si los niveles de llenado se ajustan a

una distribución normal, o sea si cumplen con los requisitos establecidos, para hacerlo se

miden n = 1,000 tanques y se halla la distribución presentada en la tabla 1.3. Nuestras

hipótesis son:

HO: Los niveles de llenados están distribuidos normalmente.

HA: Los niveles de llenado no están distribuidos normalmente.

10

Page 12: La Prueba Chi-Cuadrado

TABLA 1.3

PSI Frecuencia Real

0 y por debajo de 580 20

580 y por debajo de 590 142

590 y por debajo de 600 310

600 y por debajo de 610 370

610 y por debajo de 620 128

620 y por encima 30

Total 1,000

Igual que antes, la prueba requiere comparar estas observaciones reales con

las que esperaríamos encontrar si prevaleciera la normalidad. Para encontrar las

frecuencias esperadas debemos calcular las probabilidades de que los tanques

seleccionados aleatoriamente tengan los niveles de contenido en los intervalos

presentados en la tabla 1.3.

a) La probabilidad de que un tanque caiga en el primer intervalo P(0<X>%580). El

problema esta representado en la figura 1.3a. Debemos determinar el área

sombreada bajo la curva. Así:

X - Z=---------

-2 0 580 – 600Z=------------ = -2 O UN AREA DE 0.4772 (a) 10

Entonces P(0<X< 580) = 0.5000-0.4772 = 0.0228 (1)

De la misma manera encontramos las demás probabilidades como sigue:

11

Page 13: La Prueba Chi-Cuadrado

b) La probabilidad de (580<X<590)

X - Z=---------

-2 -1 0

590 - 600Z=------------- = -1 O UN AREA DE 0.3413 (b)

10

Entonces:

P(580<X<590)=P(580) dado en (a) – P(590)=0.4772–0.3413=0.1359

(2)

c) La probabilidad de P(590<X<600)

Como la media es 600, Z = 0, entonces la probabilidad de P(0<X<590) es la misma

que (b). Entonces P(590<X<600) = 0.3413 (3)

-1 0

12

Page 14: La Prueba Chi-Cuadrado

d) La probabilidad de P(600<X<610)

X - Z=----------

610 – 600 0 1Z=--------------- = 1 O UN AREA DE 0.3413 10

Entonces como la media de nuevo es 600, Z=0, la probabilidad de P(600<X<610) es

la misma que (b). Entonces P(600<X<610) =0.3413(4)

e) La probabilidad de (610<X<620)

X - Z=----------

610 – 600 0 1 2Z=------------ = 1 O UN AREA DE 0.1359

10

Dado que P(620) = P(580) y P(610) = P(590) por que están a la misma distancia de la

media z=0. Entonces por simetría podemos usar los mismos valores de z y las

mismas probabilidades dados en (2).

P(610<X<620) = P(X<610) – P(X<620) = 0.4772 – 0.1359 = 0.3413 (5)

13

Page 15: La Prueba Chi-Cuadrado

f) La probabilidad de P(X>620)

X - Z=----------

620 – 600 0 2Z=------------- = 2 O UN AREA DE 0.4772

10

Entonces P(0<X< 580) = 0.5000-0.4772 = 0.0228 (6)

Se desea probar la hipótesis al nivel del 5%. Debido a que tanto la media como la

desviación estándar son dadas y no tienen que estimarse, m=0. Existen k=6 clases,

de manera que los grados de libertad son k-0-1=5. El valor critico de 2 en 20.05,5

=11.07

Regla de decisión: “No rechazar si 2 < 11.07. Rechazar si 2>7.815

Completamos los datos en la tabla 1.4 con los resultados anteriores y calculamos los

valores esperados Ei = npi.

14

Page 16: La Prueba Chi-Cuadrado

TABLA 1.4

PSI Frecuencia

Real

Probabilidades

(pi)

Frecuencia esperada

(Ei)

0 y por debajo de 580 20 0.0228 22.8

580 y por debajo de 590 142 0.1359 135.9

590 y por debajo de 600 310 0.3413 341.3

600 y por debajo de 610 370 0.3413 341.3

610 y por debajo de 620 128 0.1359 135.9

620 y por encima 30 0.0228 22.8

1000 1.000 1000

Utilizando la formula (1.1) se tiene que:

(20-22.8)2 (142-135.9)2 (310-341.3) 2 (370-341.3) 2 (128-135.9) 2 (40-22.8 ) 2

2=---------- + ----------- + ------------ + ------------- + ----------- + ----------

22.8 135.9 341.3 341.3 135.9 22.8

2 =8.63

De acuerdo a la regla de decisión la hipótesis no debe rechazarse. Las

diferencias entre lo esperado y lo que se observo con una media de 600 y una

desviación estándar de 10, a un nivel de 5%, pueden atribuirse a un error de

muestreo por debajo del nivel elegido, ya que el valor de 2 es inferior con respecto al

valor maximo esperado para una muestra distribuida de acuerdo a la distribucion

normal.

15

Page 17: La Prueba Chi-Cuadrado

Tablas de Contingencia

Cuando estamos ante una tabla en la que las frecuencias que observamos

ocupan una sola fila, entonces decimos que estamos ante una tabla de clasificación

de entrada única o tabla 1 x c (Se lee 1 por c).

SUCESO E1 E2 E3 .... EK

Frecuencia observada o1 o2 o3 ok

Frecuencia esperada e1 e2 e3 ek

Si queremos investigar el acuerdo que existe entre las frecuencias observadas

y las frecuencias esperadas debemos hacerlo calculando el estadístico (1.1)

k (Oi - Ei)²² = --------------- i=1 Ei

Como antes, el estadístico (1.1) tiene una distribución muestral dada. El numero

de grados de libertad, v, de esta distribución Chi-cuadrado viene dado por c>1 y k>1

por:

1. V = (f-1)(c-1) si las frecuencias esperadas se pueden calcular sin recurrir a

estimaciones muestrales de los parámetros de la población.

2. V = (f-1)(c-1)-m si las frecuencias esperadas solo se pueden calcular

mediante estimación de m parámetros de la población a partir de

estadísticos de la muestra.

Una hipótesis común es suponer que las dos clasificaciones son mutuamente

independientes.

16

Page 18: La Prueba Chi-Cuadrado

Las tablas de contingencia se pueden usar para generalizarse a mas dimensiones

como veremos en el siguiente ejemplo:

Naydisita Cabral es la directora de investigación de productos en MercaSid. En

su proyecto actual la señorita Cabral debe determinar si existe alguna relación entre

la clasificación de efectividad que los consumidores asignan a un nuevo producto y la

ubicación (Urbano o Rural) en el cual se utiliza. De los 100 consumidores a los que se

le practico la encuesta, 75 vivían en zonas urbanas y 25 en zonas rurales, La tabla

1.4 resume las clasificaciones hechas por cada consumidor en una tabla de

contingencia. La tabla tiene f = 3 filas y c = 2 columnas, existen fc = 6 celdas en la

tabla. Vale la pena observar que 31 clientes clasificaron el producto por encima del

promedio, 20 de ellos estaban en zonas urbanas.

Atributo B – Ubicación

Atributo A - Clasificación Urbano Rural Total

Por encima del Promedio 20 11 31

Promedio 40 8 48

Por debajo del Promedio 15 6 21

Total 75 25 100

La señorita Cabral desea comparar el atributo B (Ubicación) con el atributo A

(Clasificación del producto). Sus hipótesis son:

HO: La clasificación y la ubicación son independientes

HA: La clasificación y la ubicación no son independientes

Si la ubicación no tiene ningún impacto en la clasificación de efectividad,

entonces el porcentaje de residentes urbano que clasificaron el producto “por encima

del producto” debería ser igual al porcentaje de residentes rurales que clasificaron el

producto “por encima del promedio”. Este porcentaje a su vez debería ser igual al de

todos los usuarios que calificaron el producto “por encima del promedio”.

17

Page 19: La Prueba Chi-Cuadrado

Como muestra la tabla 1.5 el 31% de todos los usuarios clasificaron el producto

“por encima del promedio”. Luego el 31% de los 75 residentes urbanos y el 31 % de

los 25 residentes rurales deberían dar esta clasificación si la clasificación y la

ubicación son independientes. Estos valores de (75)(0.31) = 23.3 y (25)(0.31) = 7.75

dan la frecuencia esperada para cada celda como podemos observar en la tabla 1.5.

Los demás valores se calculan de la misma manera.

TABLA 1.5

Atributo B - Ubicación

Atributo A - Clasificación Urbano Rural Total

Oi Ei Oi Ei

Por encima del Promedio 20 23.3 11 7.75 31

Promedio 40 36.0 8 12.0 48

Por debajo del Promedio 15 15.8 6 5.25 21

Total 75 25 100

La señorita Cabral hace la prueba de Chi-cuadrado utilizando la formula (1.1) y

encuentra que:

(20-23.3)2 (11-7.75)2 (40-36)2 (8-12)2 (15-15.8) 2 (6-5.25) 2

2 = --------- + ----------- + ---------- + -------- +------------ + ----------- = 3.7623.3 7.75 36 12 15.8 5.25

La prueba tiene = (f-1)(c-1) = (3-1)(2-1) = 2 grados de libertad. Si la señorita

Cabral fija en 10% el grado de tolerancia entonces 20.10,2 = 4.605.

Regla de decisión: “No rechazar la hipótesis nula si 2 < 4.605”

Por lo tanto la clasificación y la ubicación son independientes ya que 2<4.605.

18

Page 20: La Prueba Chi-Cuadrado

CONCLUSION

Después de haber cumplido con los objetivos trazados al inicio de este trabajo,

podemos comprender mejor el alcance que tiene la prueba Chi-cuadrado en la

comparación de los resultados muestrales obtenidos y los esperados. La prueba por

su nombre indica erróneamente una complejidad que no tiene, ya que su desarrollo

es bastante sencillo. Esperamos poder hacer uso de esta herramienta estadística

para tomar mejores decisiones de negocios.

19

Page 21: La Prueba Chi-Cuadrado

BIBLIOGRAFIA

Spiegel, Murray R., Estadística, Méjico, 1991, 556 págs.

Webster, Allen L., Estadística Aplicada a los Negocios y la Economía, Colombia,

2000, 640 págs.

20

Page 22: La Prueba Chi-Cuadrado

ANEXOS

TABLA E – DISTRIBUCION NORMAL

21

Page 23: La Prueba Chi-Cuadrado

TABLA H – DISTRIBUCION CHI-CUADRADO

22