Download - La Prueba Chi-Cuadrado

Transcript

1

TABLA DE CONTENIDO

INTRODUCCION_______________________________________________________________2 OBJETIVOS____________________________________________________________________3 MARCO TEORICO______________________________________________________________4 DISTRIBUCION CHI- CUADRADO. ( )___________________________________________5 PRUEBAS DE BONDAD DE AJUSTE.______________________________________________5Definicin..................................................................................................................................................5 Prueba para un ajuste uniforme..............................................................................................................8 Prueba de ajuste a un patrn especifico................................................................................................10 Prueba de Normalidad...........................................................................................................................11 Utilizando la formula (1.1) se tiene que:...............................................................................................16 (20-22.8)2 (142-135.9)2 (310-341.3) 2 (370-341.3) 2 (128-135.9) 2 (40-22.8 ) 2 ........................16 2=---------- + ----------- + ------------ + ------------- + ----------- + ----------...........................................16 22.8 135.9 341.3 341.3 135.9 22.8..............................................16 Tablas de Contingencia..........................................................................................................................17Atributo B Ubicacin...........................................................................................................................................18 Atributo B - Ubicacin...........................................................................................................................................19 Atributo A - Clasificacin..................................................................................................................................19

CONCLUSION_________________________________________________________________21 BIBLIOGRAFIA_______________________________________________________________22 ANEXOS______________________________________________________________________23TABLA E DISTRIBUCION NORMAL............................................................................................23 TABLA H DISTRIBUCION CHI-CUADRADO..............................................................................24

2 INTRODUCCION

Siempre que obtengamos muestras de una poblacin, existe la cuestin de la confiabilidad de los resultados obtenido por muestreo con respecto a la poblacin. Necesitamos saber si las diferencias entre los resultados obtenidos por muestreo y los esperados de acuerdo con las leyes de las probabilidades son los suficientemente pequeas como para que no afecten las inferencias que deseamos obtener de los datos para nuestro uso. En otras palabras, necesitamos saber si los datos obtenidos son confiables y no contienen errores que puedan invalidar sus resultados. Una de las medidas de la discrepancia mas tiles es la prueba Chi-cuadrado, la cual viene proporcionada por el estadstico 2. Si exactamente. A valores ms grandes de observadas y esperadas.2 2

= 0, las frecuencias observadas2

y tericas coinciden completamente; mientras que si

>0, no coinciden

mayor discrepancia entre las frecuencias

3

OBJETIVOS

1. Comprender la importancia de comparar los resultados obtenidos por muestreo, con los resultados esperados tericamente con las leyes de la probabilidad. 2. Aprender a aplicar la prueba 2

para diferentes supuestos o hiptesis

de acuerdo a los datos obtenidos. 3. Aprender el uso de tablas de contingencia para medir la relacin entre diferentes factores que afectan un conjunto de datos.

4

MARCO TEORICO

Las pruebas que requieren de un supuesto respecto a la poblacin, se denominan pruebas parametricas, debido a que tales pruebas dependen de estos postulados y sus parmetros. En la practica, surgen muchas situaciones en las cuales no es posible hacer de forma segura ningn supuesto sobre el valor de un parmetro o sobre la forma de su distribucin poblacional. Entonces se deben utilizar otras pruebas que no dependan de un solo tipo de distribucin o de valores parametricos especficos. Estas pruebas se denominan no parametricas. Estas pruebas son procedimientos estadsticos que pueden utilizarse para contrastar hiptesis cuando no son posibles los supuestos respecto a los parmetros o a las distribuciones poblacionales. Dentro de estas pruebas se encuentran las de Chi-cuadrado ( 2), la del Signo, de Rachas, de Mann-Whitney y otras. Para el calculo del estadstico Chi-cuadrado ( 2, es necesario emplear tanto observaciones de muestras como propiedades de ciertos parmetros de la poblacin. Si estos parmetros son desconocidos, hay que estimarlos a partir de la muestra. l numero de grados de libertad de un estadstico, generalmente denotado por v, se define como el numero N de observaciones independientes en la muestra (o sea el tamao de la muestra) menos el numero k de parmetros de la poblacin, que debe ser estimado a partir de observaciones mustrales. En smbolos, v = N- k. En el caso del 2, el numero de observaciones independientes en la muestra es N, de donde podemos calcular s. Sin embargo, como debemos estimar , k = 1 y v = N-1.

5

DISTRIBUCION CHI- CUADRADO. ( )

Una de las herramientas no parametricas mas tiles es la prueba chi cuadrado ( 2). Al igual que la distribucin t, la distribucin Chi-cuadrado es toda una familia de distribuciones. Existe una distribucin Chi-cuadrado para cada grado de libertad. a medida que se incrementa el numero de grados de libertad, la Las dos aplicaciones ms distribucin Chi-cuadrado se vuelve menos sesgada. independencia a travs de las tablas de contingencia.

comunes de Chi-cuadrado son las pruebas de bondad de ajuste y las pruebas de

PRUEBAS DE BONDAD DE AJUSTE.

Definicin.

Medidas sobre una forma de

que tan cerca se ajustan los datos muestrales observados a Si el ajuste es

distribucin particular planteada como hiptesis.

razonablemente cercano, puede concluirse que si existe la forma de distribucin planteada como hiptesis.

Las tomas de decisiones en los negocios muchas veces requiere que se pruebe alguna hiptesis sobre una distribucin poblacional desconocida. Por ejemplo, se puede plantear la hiptesis que la distribucin poblacional es uniforme y que todos los valores posibles tienen la misma probabilidad de ocurrir. Las hiptesis que se probaran son:

6

HO: la distribucin poblacional es uniforme. HA: la distribucin poblacional no es uniforme.

La prueba de bondad de ajuste se utiliza entonces para determinar si la distribucin de los valores en la poblacin se ajusta a una forma en particular planteada como hiptesis, en este caso, una manera distribucin uniforme. De la misma que con todas las pruebas estadsticas de esta naturaleza, los datos

muestrales se toman de la poblacin y estos constituyen la base de los hallazgos.

Si 2=0, las frecuencias observadas y esperadas coinciden completamente; mientras que si 2>0, no coinciden exactamente. A valores ms grandes de 2, mayor discrepancia existe entre las frecuencias observadas y esperadas. Si existe gran diferencia entre la frecuencia observada en la muestra y lo que se esperara observar, en tal caso es menos probable que la hiptesis sea verdadera. Es decir, la hiptesis debe rechazarse cuando las observaciones obtenidas en la muestra difieren tanto del patrn que se espera que ocurra la distribucin planteada como hiptesis, que no puede ser atribuida a un error de muestreo. En tales casos la hiptesis no es lo suficientemente confiable para una buena toma de decisiones.

Por ejemplo, si se hace rodar un dado bueno, es razonable plantear como hiptesis un patrn de resultados tal que cada resultado (un numero del 1 al 6) ocurra aproximadamente un sexto de las veces. Sin embargo, si un porcentaje de nmeros pares ocurre, significativamente grande o significativamente pequeo es falsa.

puede concluirse que el dado no esta balanceado adecuadamente y que la hiptesis

7Para contrastar la hiptesis relativa a una distribucin poblacional, se debe analizar la diferencia entre las expectativas con base en la distribucin planteada como hiptesis y los datos reales que aparecen en la muestra. Esto es precisamente lo que hace la prueba Chi-cuadrado de bondad de ajuste. Determina si las observaciones muestrales se ajustan a las expectativas. La prueba toma la siguiente forma: k (Oi - Ei) = --------------i=1 Ei en donde Oi Ei k es la frecuencia de los eventos observados en los datos muestrales es la frecuencia de los eventos esperados si la hiptesis es correcta es el numero de categoras o clases

(1.1)

La prueba tiene K - m - 1 grados de libertad, en donde m es el numero de parmetros a estimar. Vale la pena notar que el numerador de la formula (1.1) mide la diferencia

entre las frecuencias de los eventos observados y las frecuencias de los eventos esperados al cuadrado. Cuando estas diferencias son grandes, haciendo que se incremente, debera rechazarse la hiptesis. Dependiendo de los datos disponibles, podemos realizar la prueba de Chi-cuadrado de bondad de ajuste de tres maneras, pruebas para una ajuste uniforme, pruebas de ajuste para un patrn especifico y pruebas de normalidad.

8

Prueba para un ajuste uniforme

Esta prueba de Chi-cuadrado se usa cuando la frecuencia esperada para todas las clases es uniforme, de aqu su nombre. Ilustramos esta prueba con el siguiente ejemplo:Chris Columbus, director de mercadeo de Seven Seas, Inc, tiene la responsabilidad de controlar el nivel de existencia para cuatro tipos de botes vendidos por su firma. En el pasado ha ordenado nuevos botes bajo la premisa de que los cuatro tipos son igualmente populares y la demanda de cada tipo es la misma. Sin embargo, recientemente las existencias se han vuelto ms difciles de controlar, y Chris considera que debera probar su hiptesis respecto a una demanda uniforme. Sus hiptesis son:

HO: La demanda es uniforme para los cuatro tipos de botes HA: La demanda no es uniforme para los cuatro tipos de botes Suponiendo uniformidad en la demanda, la hiptesis nula presume que de una muestra aleatoria de botes, los navegantes de fin de semana compraran un numero igual de cada tipo. Para probar esta hiptesis, Chris selecciona una muestra de n=48 botes vendidos durante los ltimos meses. Si la demanda es uniforme, puede esperar que 48/4=12 botes de cada tipo se vendan. La Tabla 1.1 Muestra esta expectativa junto con la frecuencia real vendida de cada tipo. Se nota que (Oi)= (Ei). Chris debe determinar ahora si los nmeros vendidos realmente en cada una de las categoras K=4 esta lo suficientemente cerca de lo que se esperara si la demanda fuese uniforme. Aplicando la formula 1.1 tenemos el siguiente resultado: TABLA 1.1 Tipo de Bote Pirate's Revenge Jolly Roger Bluebeard's Treasure Ahab's Quest Ventas Observadas(Oi) 15 11 10 12 48 Ventas Esperadas(Ei) 12 12 12 12 48

Utilizando la formula (1.1) tenemos que:

9

(15-12)2 (11-12)2 (10-12)2 (12-12)2 2= ------------- + ------------ + -------------+ ------------ = 1.17 12 12 12 12 El valor 1.17 se compara con un valor critico de 2

tomando de la tabla H

(ver anexo). Debido a que no existen parmetros que tengan que estimarse, m=0 y entonces los grados de libertad segn su formula es igual a 4-0-1 = 3 grados de libertad. Si Chris deseara probar al nivel del 5%, se encontrara que 2 0.05,3

> 7.815

Regla de decisin: No rechazar si

2

< 7.815. Rechazar si 2>7.815

Gracias a que 1.17< 7.815, la hiptesis nula de que la demanda es uniforme no se rechaza. Las diferencias entre lo que se observo en realidad, O i, y lo que Chris esperaba observar si la demanda fuera la misma para los cuatro tipos de botes, Ei, no son los suficientemente grandes como para refutar la hiptesis nula. Las diferencias no son significativas y pueden atribuirse simplemente a un error de muestreo.

1

Prueba de ajuste a un patrn especifico.

En el ejemplo anterior, Chris asumi que la demanda de los cuatro tipos era la misma. Los valores para la frecuencia esperada eran por ende las mismas. Sin embargo, si los valores de los cuatro tipos de botes deben probarse contra un patrn determinado, en el cual las frecuencias esperadas vienen dadas por un patrn individual para cada categora, tendramos que realizar la prueba para un patrn especifico dado. En este caso Ei se determina por Ei = npi, en donde pi es la probabilidad individual de cada categora y n es el tamao de la muestra. Si deseamos probar que las ventas reales se ajustan a las probabilidades dadas en la tabla 1.2, teniendo probabilidades de 30%, 20%, 40% y 10% para cada una de las categoras respectivamente, entonces debemos proceder como sigue: TABLA 1.2 Tipo de Bote Pirate's Revenge Jolly Roger Bluebeard's Treasure Ahab's Quest Ventas Observadas(Oi) 15 11 10 12 48 Ventas Esperadas(Ei) 14.40 9.60 19.20 4.80 48

2

(15-14.4)2 (11-9.6)2 (10-19.2)2 (12-4.8)2 = -------------+-------------+-------------+----------- = 15.41 14.4 9.6 19.2 4.8

El valor 15.41 se compara con el valor critico de

2

tomado de la tabla H (Ver

anexo). De nuevo no existen parmetros que tengan que estimarse, m = 0 y entonces los grados de libertad segn su formula es igual a 4-0-1=3 grados de libertad. De la misma manera deseamos probar al nivel del 5%, se encontrara que 2 0.05,3

> 7.8152

Regla de decisin: No rechazar si

< 7.815. Rechazar si 2>7.815

1

Dado que 15.41> 7.815, la hiptesis nula de que la demanda se ajusta a un patrn especifico se rechaza. Las diferencias entre lo que se observo en realidad, Oi, y lo que Chris esperaba observar si la demanda fuera la dada segn la tabla 1.2 para los cuatro tipos de botes, Ei, son los suficientemente grandes como para refutar la hiptesis nula. Las diferencias son significativas y no pueden atribuirse simplemente a un error de muestreo.

Prueba de Normalidad

Si nos encontramos frente a una cantidad grande de observaciones y deseamos saber si estas se comportan de acuerdo a las reglas de la normalidad, es decir que sus probabilidades pueden ser encontradas por medio de la Tabla del rea bajo la campana de Gauss o Curva Normal, entonces podemos utilizar la prueba Chicuadrado para determinar el grado de ajuste con que esta distribucin se acerca a la distribucin normal. Veamos el siguiente ejemplo:Las especificaciones para la produccin de tanques de aire utilizados en inmersin requieren que los tanques se llenen a una presin promedio de 600 psi. Se permite una desviacin estndar de 10 psi. Las especificaciones de seguridad permiten una distribucin normal en los niveles de llenado. Deseamos determinar si los niveles de llenado se ajustan a una distribucin normal, o sea si cumplen con los requisitos establecidos, para hacerlo se miden n = 1,000 tanques y se halla la distribucin presentada en la tabla 1.3. Nuestras hiptesis son:

HO: Los niveles de llenados estn distribuidos normalmente. HA: Los niveles de llenado no estn distribuidos normalmente.

1TABLA 1.3 PSI 0 y por debajo de 580 580 y por debajo de 590 590 y por debajo de 600 600 y por debajo de 610 610 y por debajo de 620 620 y por encima Total Frecuencia Real 20 142 310 370 128 30 1,000

Igual que antes, la prueba requiere comparar estas observaciones reales con las que esperaramos encontrar si prevaleciera la normalidad. Para encontrar las frecuencias esperadas debemos calcular las probabilidades de que los tanques seleccionados aleatoriamente tengan los niveles de contenido en los intervalos presentados en la tabla 1.3.

a) La probabilidad de que un tanque caiga en el primer intervalo P(0%580). El problema esta representado en la figura 1.3a. Debemos determinar el rea sombreada bajo la curva. As:

X- Z=---------

-2 0 (a)

580 600 Z=------------ = -2 O UN AREA DE 0.4772 10 Entonces P(0