Web viewNivel de significación14. ... Curvas de operación características,...

ANTOLOGIA PARA LA MATERIA DE ESTADISTICA II

ContenidoUnidad I Inferencia estadística o inductiva............................................................................................................................4

Introducción......................................................................................................................................................................4

Campos de aplicación........................................................................................................................................................4

Unidad II Teoría elemental del muestreo..............................................................................................................................4

Distribuciones de muestreo..............................................................................................................................................5

Distribución de muestreo de medias.............................................................................................................................5

Distribución de muestreo de proporciones...................................................................................................................7

Distribución de muestreo de diferencias y sumas.........................................................................................................9

Unidad III Teoría de la estimación estadística.....................................................................................................................10

Estimaciones sin sesgo....................................................................................................................................................10

Estimaciones de intervalo de confianza para parámetros de población.........................................................................10

Intervalo de confianza para las medias.......................................................................................................................11

Intervalos de confianza para proporciones.................................................................................................................11

Intervalos de confianza para diferencias y sumas.......................................................................................................12

Unidad IV Teoría estadística de las decisiones....................................................................................................................13

Hipótesis Nula:................................................................................................................................................................13

Hipótesis Alternativa:......................................................................................................................................................13

Contraste de hipótesis y significación o reglas de decisión.............................................................................................13

Errores de tipo I y de tipo II.............................................................................................................................................14

Nivel de significación.......................................................................................................................................................14

Contrastes mediante la distribución normal...................................................................................................................14

Contrastes de una y dos colas.....................................................................................................................................15

Curvas de operación características, potencia de un contraste......................................................................................16

Unidad V Test de Ji-Cuadrada..........................................................................................................................................16

Definición de χ2................................................................................................................................................................16

El test de χ2 para la bondad de ajuste.............................................................................................................................16

Tablas de contingencia....................................................................................................................................................16

Unidad VI Ajuste de curvas y el método de mínimo cuadrados..........................................................................................18

Ajuste de curvas..............................................................................................................................................................18

El método de mínimos cuadrados...................................................................................................................................19

Recta de mínimos cuadrados......................................................................................................................................19

Parábola de mínimos cuadrados.................................................................................................................................20

Unidad VII Teoría de la correlación.....................................................................................................................................21

Correlación y regresión...................................................................................................................................................21

Correlación lineal............................................................................................................................................................21

La recta de regresión de mínimos cuadrados..................................................................................................................22

Unidad VIII Análisis de varianza...........................................................................................................................................23

Experimentos de factor único.........................................................................................................................................23

Variación total, variación dentro de los tratamientos y variación entre tratamientos....................................................24

Unidad I Inferencia estadística o inductiva

Introducción

Comprende aquellas técnicas por medio de las cuales se toman decisiones sobre una población estadística basadas en una muestra o en juicios de los administradores. Debido a que esas decisiones se toman en condiciones de incertidumbre, se requiere el uso de conceptos de probabilidad. Considerando que las características medidas en una muestra se denominan estadísticas muéstrales, las características medidas en una población estadística o universo, se llaman parámetros poblacionales.

Ningún método estadístico puede corregir los defectos por una inadecuada selección del problema que se investiga, o por una mala recolección de datos. Una investigación que empieza mal, con seguridad termina mal.Con datos de mala calidad no será posible dar una respuesta adecuada a un problema científico.

Campos de aplicación

La inferencia estadística es ampliamente utilizada en diversas áreas, a continuación se mencionan unas pocas.

En las ciencias naturales: se emplea en la descripción de modelos termodinámicos complejos (mecánica estadística), en física cuántica, en mecánica de fluidos o en la teoría cinética de los gases, entre otros muchos campos.

En las ciencias sociales y económicas: es un pilar básico del desarrollo de la demografía y la sociología aplicada.

En economía: suministra los valores que ayudan a descubrir interrelaciones entre múltiples parámetros macro y microeconómicos. En las ciencias médicas: permite establecer pautas sobre la evolución de las enfermedades y los

enfermos, los índices de mortalidad asociados a procesos morbosos, el grado de eficacia de un medicamento, etcétera.

Entre otras.

Unidad II Teoría elemental del muestreo

La teoría del muestreo estudia la relación entre una población y las muestras tomadas de ella. Es de gran utilidad en muchos campos. Por ejemplo para estimar magnitudes desconocidas de una población, tales como media y varianza, llamadas a menudo parámetros, a partir del conocimiento de esas magnitudes sobre muestras, que se llaman estadísticos. También es útil para determinar si las diferencias observadas entre 2 muestras son debidas a variaciones fortuitas o si son realmente significativas. Por ejemplo cuando se estudia el resultado de una medicina como tratamiento de cierta enfermad, o al decidir si un proceso de producción es mejor que otro.

Distribuciones de muestreoSi consideramos todas las posibles muestras de tamaño n en una población, para cada muestra podemos calcular un estadístico (como la media o desviación estándar) que variara de muestra a muestra. De esta manera obtenemos una distribución de muestreo. Tenemos diferentes tipos de distribución de muestreo que más adelante veremos.

Distribución de muestreo de mediasSupongamos que se toman todas las posibles muestras de tamaño n, sin reposición de una población finita de tamaño N. Si denotamos la media y la desviación estándar de la distribución de muestreo de medias por μx y σ x y las de la población μσ , respectivamente entonces

μx=μ

σ x=σ√n √ N−n

N−1

Ecuación 1 Formulas de media y desviación estándar de distribución de muestreo de medias con población finita o sin reposición

Donde:

N es el tamaño de la población

n es el tamaño de la muestra

Si la población es infinita o si el muestreo es con reposición, los resultados anteriores se reducen a

μx=μ

σ x=σ√n

Ecuación 2 Formulas de media y desviación estándar de distribución de muestreo de medias con población infinita o con reposición

Por ejemplo:

Las alturas de 3000 estudiantes varones de una universidad están normalmente distribuidos con media 68 pulgadas y una desviación estándar de 3 pulgadas. Si se toman 80 muestras de 25 estudiantes cada una. ¿Cuáles serán la media y la desviación estándar esperadas de la resultante distribución de muestreo de medias, si el muestre se hizo a) con reposición y b) sin reposición.

a)

μx=68

σ x=3

√25=0.6

b)

μx=68

σ x=3

√25 √ 3000−253000−1=0.5975

Como la diferencia es menor se considera para efectos prácticos la misma que en muestre con reposición.

En cuántas muestras esperaríamos encontrar una media de a) 66.8 y 68.3 pulgadas y b) menor que 66.4

a)

Z=X−μx

σ x

Z=66.8−68.00.6

=−2.0

Z=68.3−68.00.6

=0.5

0.4772+0.1915=0.6687

0.6687*80=53.496 o 53 muestras

b)

Z=66.4−68.00.6

=−2.67

0.5-0.4962=0.0038 0.0038*80=0.304 o cero

500 esferas tienen un peso medio de 5.02 gramos y una desviación estándar de 0.30 g. Hallar la probabilidad de que una muestra al azar de 100 esferas de ese conjunto tengan un peso total a) entre 496 y 500 g y b) más de 510g

μx=5.02

σ x=0.30√100 √ 500−100500−1

=0.0268

a) El peso total estaría entre 496 y 500 si el peso medio de las 100 bolas está entre 4.96 y 5 g

Z=4.96−5.020.0268

=−2.23

Z=5−5.020.0268

=−0.74

*Entre –z a –z se restan*Entre +z a +z se restan*Si la variable es = a la media, se suma 0.5

0.4871-0.2704=0.2167

b) El peso total excederá los 510g si el peso medio de las 100 bolas excede 5.10 g

Z=5.10−5.020.0268

=2.98

0.5-0.4986=0.0014

Distribución de muestreo de proporcionesSupongamos que una población es infinita y que la probabilidad de ocurrencia de un suceso (su éxito) es p, mientras la probabilidad de que no ocurra es q=1-p. Por ejemplo una población puede ser todos los posibles lanzamientos de una moneda, en la que la probabilidad de éxito es ½. Consideremos todas las posibles muestras de tamaño n de tal población, y para cada una de ellas determinaremos la proporción de éxitos P. En el caso de una moneda, P sería la proporción de soles en n tiradas. Obtenemos así una distribución de muestreo de proporciones cuya media μp y cuya desviación típica σ p vienen dadas por

μp=p

σ p=√ pqn

=√ p (1− p)n

Ecuación 3 Formulas de media y desviación estándar de distribución de muestreo de proporciones con muestreo con reposición

Esta fórmula es válida para poblaciones finitas realizadas con muestreo con reposición. Para poblaciones finitas con muestreo sin reposición se usa:Y

μp=p

σ p=√ pq

Ecuación 4 Formulas de media y desviación estándar de distribución de muestreo de proporciones sin muestreo con reposición

Cada persona de un grupo de 500 lanza una moneda 120 veces. ¿Cuántas personas se espera que a) Saquen entre 40% y 60% de soles y b) 5/8 de sus lanzamientos o más de soles

μp=12=0.5

σ p=√ 12 12120=0.0456Como la proporción es una variable discreta, hay que hacer una corrección, si la variable es menor a la media se resta 12n y si la variable es mayor o igual a la media se suma

12n

Z=0.4−0.0041−0.50.0456

=−2.28

Z=0.6+0.0041−0.50.0456

=2.28

0.4857+0.4857=0.9714

500*0.9714=489 muestras

b)

Z=0.625−0.0041−0.50.0456

=2.83

0.4977

0.5-0.4977=0.0023 500*0.0023= 1 personas.

Se ha encontrado que el 2% de las piezas fabricadas en una cierta máquina son defectuosas ¿Cuál es la probabilidad de que en un envío de 400 piezas a) el 3% o más b)2% o menos, sean defectuosas?

μp=0.02

σ p=√ 0.02∗0.98400=0.007

a)

1/2N=1/800=0.0012

Z=0.03+0.0012−0.020.007

=1.25

0.5-0.3944=0.1056

b)

Z=0.02+0.0012−0.020.007

=0.18

0.5+0.0714=0.5714

Distribución de muestreo de diferencias y sumasSean dadas dos poblaciones. Para cada muestra de tamaño n1 de la primera, calculamos un estadístico S1; eso da una distribución de muestreo para S1, cuya media y desviación estándar denotaremos por µs1 y σs1. Del mismo modo, para cada muestra de tamaño n2 de la segunda población, calculamos un estadístico S2; eso nos da un distribución de muestreo para S2 cuya media y desviación estándar denotaremos con µs2 y σs2. Si tenemos medias muéstrales de ambas

poblaciones, la distribución de muestreo de las diferencias de medias viene dada para poblaciones infinitas o con muestreo con reposición con medias y desviaciones estándar por:

μx1− x2=μx 1−μx2=μ1−μ2

σ x 1−x 2=√σ x 12 +σx 2

2 =√ σ12

n1+σ 22

n2

Ecuación 5 Formulas de media y desviación estándar de distribución de muestreo de diferencias de medias.

Se puede usar la misma fórmula para poblaciones finitas o muestreo sin reposición.

Para suma se utiliza:

μx1+x 2=μx1+μx 2=μ1+μ2

σ x 1+ x2=√σx 12 +σ x 2

2 =√ σ 12

n1+σ22

n2

Ecuación 6 Formulas de mZedia y desviación estándar de distribución de muestreo de sumas de medias.

En caso que se hablen de proporciones se usa:

μp1− p2=μp1−μ p2=p1−p2

σ p1−p2=√σ p12 +σ p2

2 =√ p1q1n1

+p2q2n2

Ecuación 7 Formulas de media y desviación estándar de distribución de muestreo de diferencias de proporciones.

Ejemplo:

Las bolas de rodamientos de cierto fabricante pesan 0.50 g de media, con desviación ESTANDÁR de 0.02 g. ¿Cuál es la probabilidad de que dos lotes de 1000 bolas cada uno difieran en peso en más de 2 g?

μx1− x2=μ1−μ2=0.5−0.5=0

σ x 1−x 2=√ (0.02)2

1000+(0.02)2

1000=0.0008

Z=(x1−x2)−00.0008

=0.18

La diferencia entre ambos debe ser de 2g, por lo que 2/1000=0.002 g, asi que

Z=−0.002−00.0008

=2.23

Z=0.002−00.0008

=−2.23

2.23=0.4871

Ilustración 1 Área bajo la curva que se busca para P≥2.23 o P≤-2.23

Como se busca la probabilidad de que P≥2.23 o P≤-2.23 entonces (0.5-0.4871)+(0.5-0.4871)=0.0258

Unidad III Teoría de la estimación estadística

Desde un punto de vista práctico, suele resultar más importante ser capaz de inferir información sobre la población a partir de muestras. Con tal situación trata la inferencia estadística, que usa los principios de la teoría del muestreo.

Estimaciones sin sesgo

Si un estadístico de muestreo es igual al que le corresponde en la población, se dice que el estadístico es un estimador sin sesgo, si no, se llama estimador sesgado. La media de las distribuciones de muestreo viene siendo un estimador sin sesgo ya que siempre es igual a la media de la población, cosa contraria con la varianza y desviación estándar que si varían y por lo tanto son estimación sesgadas.

Estimaciones de intervalo de confianza para parámetros de poblaciónSe llama intervalo de confianza en estadística a un intervalo de valores alrededor de un parámetro muestral en los que, con una probabilidad o nivel de confianza determinado, se situará el parámetro poblacional a estimar.

Nivel de confianza

99.73% 99% 98% 96% 95.45% 95% 90% 80% 68.27% 50%

zc 3.00 2.58 2.05 2.05 2.00 1.96 1.645 1.28 1.00 0.6745Tabla 1 Valores de Zc correspondientes a varios niveles de confianza.

Intervalo de confianza para las medias.Si la población es infinita o de una finita con reposición.

X ±ZCσ√n

Ecuación 8 Intervalo de confianza para medias cuando es infinita o con reposición

Si la población es finita sin reposición

X ±ZCσ√n √ N−n

N−1

Ecuación 9 Intervalo de confianza para medias cuando la población es finita sin reposición

Donde X es la media de la muestra.

Ejemplo:

Supongamos que las alturas de 100 estudiantes varones de una universidad representan una muestra aleatoria de estudiantes de esa universidad. La media muestral es de 67.45 pulgadas y la desviación estándar muestral es de 2.93 pulgadas. Hallar los intervalos de confianza a) 95% y b)99% para estimar la altura media de los estudiantes.

a) 67.45±1.96 2.93√100

=67.45±0.5742

Esto significa que 66.88 < µ < 68.02 o en otras palabras podemos decir que la probabilidad de que la altura media de la población esté entre 66.88 y 68.02 pulgadas es del 95%. Equivale a decir que tenemos el 95% de confianza que la media de la población está entre 66.88 y 68.02.

b) 67.45±2.582.93√100

=67.45±0.76

Esto significa que 66.69 < µ < 68.21 o en otras palabras podemos decir que la probabilidad de que la altura media de la población esté entre 66.69 y 68.21 pulgadas es del 99%. Equivale a decir que tenemos el 99% de confianza que la media de la población está entre 66.69 y 68.21.

Actividad en clase: Realizar ejercicio 9.6 de la página 214 del libro Estadística Segunda Edición.

Intervalos de confianza para proporciones.Si la población es infinita o de una finita con reposición.

p±ZC √ pqn

Ecuación 10 Intervalo de confianza para proporciones cuando la población es infinita o con reposición

Si la población es finita sin reposición

p±ZC √ pqn √ N−n

N−1

Ecuación 11 Intervalo de confianza para proporciones cuando la población es finita sin reposición

Ejemplo:

Un sondeo de 100 votantes elegidos al azar en un distrito indica que el 55% de ellos estaban a favor de un cierto candidato. Hallar los límites de confianza a) 95% b) 99% y c) 99.73% para la proporción de todos los votantes favorables a ese candidato.

a) 0.55±1.96√ (0.55 ) (0.45 )100

=0.55±0.10

b) 0.55±2.58√ (0.55 )(0.45)100

=0.55±0.13

c) 0.55±3√ (0.55 )(0.45)100

=0.55±0.15

Intervalos de confianza para diferencias y sumasMedias

X1−X2±ZC√ σ12

n1+σ 22

n2

Ecuación 12 Intervalos de confianza para diferencias y sumas de Medias

Ejemplo:

Una muestra de 150 lámparas del tipo A ha dado una vida media de 1400 horas y una desviación estándar de 120h. Una muestra de 100 lámparas del tipo B dan vida media de 1200 h y desviación estándar de 80h. Hallar los límites de confianza a) 95% b) 99% para la diferencia de las vidas medias de las poblaciones de ambos tipos.

a) 1400−1200±1.96√ (120 )2

150+

(80 )2

100=200±24.8

b) 1400−1200±2.58√ (120)2

150+(80)2

100=200±32.6

Proporciones

P1−P2±ZC √ p1q1n1

+p2q2n2

Ecuación 13 Intervalos de confianza para diferencias y sumas de Proporciones

Ejemplo:

En una muestra aleatoria de 400 adultos y 600 jóvenes que vieron un cierto programa de televisión 100 adultos y 300 jóvenes reconocieron que les había gustado. Determinar los límites de confianza a) 95% y b) 99% para la diferencia en proporciones de todos los adultos y jóvenes que vieron con agrado el programa. 300/600=0.5 400/100=0.25

a) 0.5−0.25±1.96√ (0.5 ) (0.5 )600

+(0.25 ) (0.75 )

400=0.25±0.006

b) 0.5−0.25±2.58√ (0.5 ) (0.5 )600

+(0.25 ) (0.75 )

400=0.25±0.008

Unidad IV Teoría estadística de las decisiones

En la práctica nos vemos obligados con frecuencia tomar decisiones relativas a una población sobre la base de información proveniente de muestras. Tales decisiones se llaman decisiones estadísticas. Por ejemplo podemos decidir basados en datos muéstrales, si un método pedagógico es mejor que otro o si una moneda esta trucada o no.

Al intentar alcanzar una decisión, es útil hacer hipótesis sobre la población implicada. Tales hipótesis, que pueden ser o no ciertas, se llaman hipótesis estadísticas.

Hipótesis Nula:En muchos casos se formulan hipótesis estadística con el único propósito de rechazarla o invalidarla. Así, si queremos decidir si una moneda está trucada, formulamos la hipótesis de que la moneda es buena (o sea p=0.5). Esta hipótesis se le llama hipótesis nula y se detona por Ho.

Hipótesis Alternativa:Es toda hipótesis que difiera de una ya dada. Por ejemplo, si una hipótesis es p=0.5, las alternativas pueden ser p=0.7, p≠0.5 o p>0.5. Se denota por H1.

Contraste de hipótesis y significación o reglas de decisión

Si suponemos que una hipótesis particular es cierta pero vemos que los resultados hallados en su muestra aleatoria difieren notablemente de los esperados bajo tal hipótesis, entonces diremos que las diferencias observadas son significativas y nos veríamos obligados a rechazar la hipótesis. Por ejemplo en 20 lanzamientos de una moneda salen 16 caras, estaríamos obligados a rechazar la hipótesis de que la moneda es buena, aunque hay posibilidad de equivocarnos. Los procedimientos para determinar si las muestras observadas difieren significativamente de los resultados esperados se llaman contrastes (o tests) de hipótesis o de significación o reglas de decisión.

Errores de tipo I y de tipo II

Si rechazamos una hipótesis cuando debiera ser aceptada, diremos que se ha cometido un error de tipo I. Por otra parte si aceptamos una hipótesis que debiera ser rechazada, diremos que se ha cometido un error de tipo II. En ambos casos, se ha producido un juicio erróneo.

Nivel de significación

Al contrastar una cierta hipótesis la máxima probabilidad con la que estamos dispuestos a correr el riesgo de cometer un error de Tipo I se llama nivel de significación del contraste. Esta probabilidad denotada a menudo por α se especifica antes de tomar la muestra. En la práctica es frecuente usar un nivel de significación de 0.05 ó 0.01. , por ejemplo si se usa 0.05 (5%) hay 5 oportunidades de 100 de rechazar la hipótesis, es decir tenemos un 95% de confianza de que hemos adoptado la decisión correcta y un 5% de que nos hemos equivocado.

Nivel de significación α 0.10 0.05 0.01 0.005 0.02Valores críticos de z

para tests unilaterales-1.28 o 1.28 -1,645 o

1.645-2.33 o 2.33 -2.58 o 2.58 -2.88 o 2.88

Valores críticos de z para tests bilaterales

-1.645 y 1.645 -1.96 y 1.96 -2.58 y 2.58 -2.81 y 2.81 -3.08 y 3.08

Tabla 2 Tabla de nivel de significación

Contrastes mediante la distribución normalSupongamos que bajo cierta hipótesis y su distribución de muestreo estadístico S con una media µ s y desviación típica σs.

Ilustración 2 Distribución normal canónica con un 95% de confianza de que la hipótesis es verdadera

Como se ve en la ilustración 2, podemos tener 95% de confianza que la hipótesis es verdadera, para que esto sea cierto el valor de z debe estar entre -1.96 y 1.96. Si no se encuentra, debemos concluir que tal suceso podría ocurrir con una probabilidad de 0.05 si la hipótesis fuera cierta. Entonces tendremos que rechazar la hipótesis.

El área total sombreada 0.05 es el nivel de significación del contraste. Representa la probabilidad de equivocarnos al rechazar una hipótesis (probabilidad de erro tipo I).

El conjunto de z fuera de rango -1.96 a 1.96 (en este ejemplo) se le conoce como región critica de la hipótesis o región de rechazo de la hipótesis o región de significación.

El conjunto de z dentro del rango se le conoce como región de aceptación de la hipótesis o región de no significación.

Contrastes de una y dos colasEn el contraste anterior se buscaba los valores extremos del estadístico S. A este tipo de contrastes se les llama de 2 colas o bilaterales.

Si estamos interesados en valores extremos a un lado de la media, como por ejemplo cuando se contrasta una hipótesis de que un proceso es mejor que otro, tales contrastes se llaman unilaterales o de una cola.

Ejemplos:

En un experimento sobre percepción extrasensorial (PES), un individuo en una habitación es invitado a adivinar el color (rojo o azul) de una carta elegida de un mazo de 50 cartas bien mezcladas por otro individuo en otra habitación. El no sabe cuántas rojas y cuantas azules hay en el mazo. Si el sujeto identifica 32 cartas correctamente, determinar si el resultado es significativo al nivel de a) 0.005 y b) 0.001

H0:p=0.5 y el sujeto está simplemente diciendo colores al azar.

H1:p>0.5 y el sujeto tiene poderes de PES

Como estamos interesados en saber que adivine 32 o más entonces se utiliza un contraste de una sola cola y es hacia la derecha.

μ=Np=50 (0.5 )=25

σ=√Npq=√50 (0.5 )(0.5)=3.54

a) para 0.05 utilizamos z=1.645 ya que es un contraste de una sola cola y es hacia la derecha. Si es mayor que se valor tiene poderes PES si no es al azar

z=32−253.54

=1.98

Entonces el individuo tiene poderes PES

b) para 0.01 utilizamos z=2.33. Como z=1.98 y no es mayor a 2.33 entonces el individuo no tiene poderes PES

Cuando suceden estos caso que en 0.05 se cumple pero en 0.01 no decimos que es probable que suceda, así que es mejor hacer más investigación o pruebas.

Curvas de operación características, potencia de un contraste

Es posible evitar el riesgo de cometer un error de Tipo II simplemente no aceptando nunca la hipótesis, pero en muchas aplicaciones prácticas esto es inviable. En tales casos se suele recurrir a curvas de operación características o curvas OC, que son gráficos que muestran las probabilidades de error de Tipo II bajo diversas hipótesis. Proporcionan indicaciones de hasta qué punto un contraste dado nos permitirá evitar un error de Tipo II; es decir, nos indicará la potencia de un contraste a la hora de prevenir decisiones erróneas. Son útiles en el diseño de experimentos porque sugieren entre otras cosas el tamaño de muestras a manejar.

Unidad V Test de Ji-Cuadrada

Los resultados obtenidos por muestreo no siempre coinciden exactamente con los esperados teóricamente de acuerdo con las leyes de las probabilidades, por ejemplo, aunque consideraciones teóricas conducen a esperar 50 soles y 50 águilas en 100 lanzamientos de una moneda (buena), es raro que eso ocurra exactamente. Entonces podemos tener sucesos posibles (E1, E2, E3…) y se observa que ocurren con frecuencias o1, o2, o3… llamados frecuencia observada pero esperábamos que sucedieran con frecuencia e1, e2, e3… llamada frecuencia esperada.

A menudo deseamos saber si las frecuencias observadas difieren significativamente de las esperadas.

Suceso E1 E2 Frecuencia observada o o1 o2Frecuencia esperada e e1 e2Tabla 3 Tabla de contingencia

Definición de χ2

Una medida de la discrepancia existente entre las frecuencias observadas y esperadas viene proporcionada por el estadístico χ2 dado por:

χ2=∑j=1

k (o j−e j)2

e j

Ecuación 14 Formula de χ2

El test de χ2 para la bondad de ajuste

χ2 puede utilizarse para determinar la calidad del ajuste mediante distribuciones teóricas (como la binomial o normal) de distribuciones empíricas (las obtenidas de las muestras).

Tablas de contingencia

La tabla 3, se le suelen denominar tablas de contingencia, en la cual podemos ver las frecuencias esperadas y las frecuencias esperadas.

El estadístico χ2 necesita de grados libertad, v, para podernos dar un resultado correcto. El grado de libertad se calcula

v=k−1

Ecuación 15 Formula para calcular los grados de libertad

Donde k=al número de eventos o sucesos.

Los grados de libertad, más los niveles de significación se utilizaran con la siguiente tabla

Ilustración 3 Valores Percentiles de χ2

Ejemplo

En 200 tiradas de una moneda, han salido 115 soles y 85 águilas. Contrastar la hipótesis de que la moneda es buena, con nivel de significación a)0.005 y b) 0.001

Suceso E1 Soles E2 ÁguilasFrecuencia observada o 115 85

Frecuencia esperada e 100 100

Entonces:

χ2=(115−100)2

100+ (85−100)2

100=4.5

Ya que k=2 entonces v=k-1=2-1=1

a) el valor critico de χ0.952 para 1 grado de libertad es 3.84. Asi pues como 4.50>3.84 rechazamos la hipótesis de que

la moneda es buena al nivel de significación de 0.05b) el valor critico de χ0.99

2 para 1 grado de libertad es 6.63. Asi pues como 4.50<6.63 no podemos rechazar la hipótesis de que la moneda es buena al nivel de significación de 0.01

Como sucedió antes es necesario hacer más pruebas ya que es probable que suceda pero no se tiene la certeza.

Unidad VI Ajuste de curvas y el método de mínimo cuadrados

Por lo general encontramos que existen relaciones entre dos o más variables, como por ejemplo los pesos de las personas dependen en cierta medida de sus alturas, la presión de una masa de gas dada depende de su volumen y de su temperatura. Suele ser deseable expresar tales relaciones en forma matemática determinando una ecuación que conecte a las variables.

Ajuste de curvas

Para hallar una ecuación que relacione las variables, el primer paso es recoger datos que muestren valores correspondientes de las variables bajo consideración. Así por ejemplo, supongamos que X e Y denotan, respectivamente, la altura y el peso de personas adultas; entonces una muestra de N individuos revelaría las alturas X 1, X2…Xn y los pesos Y1, Y2…Yn

El próximo paso es marcar los puntos sobre un sistema de coordenadas rectangulares. El conjunto de puntos resultante se llama diagrama de dispersión. A partir de dicho diagrama de dispersión es posible, visualizar una curva suave que aproxime los datos. Tal curva se llama una curva aproximante. El problema general de hallar ecuaciones aproximantes que se ajusten a un conjunto de datos se llama ajuste de curvas.

Ilustración 4 Diagrama de dispersión que se aproxima a una línea recta.

Ilustración 5 Diagrama de dispersión que no es lineal y se dice que es una relación no lineal

El método de mínimos cuadrados

Para evitar juicios subjetivos al construir rectas, parábolas u otras curvas aproximantes de ajuste de datos, es necesario acordar una definición de recta de mejor ajuste, parábola de mejor ajuste, etc. Entonces se debe usar el método de mínimos cuadradas.

Recta de mínimos cuadrados

La recta de mínimos cuadrados está dada por la ecuación:

Y=a0+a1X

Ecuación 16 Recta de mínimos cuadrados

Donde a0 y a1 se calculan

a0=∑ Y∑ X2−∑ X∑ XY

N∑ X2−(∑ X )2

a1=N∑ XY −∑ x∑ y

N∑ x2−(∑ x)2

Ecuación 17 Ecuaciones para calcular a0 y a1 para recta de mínimos cuadrados

Ejemplo

Ajustar una recta de mínimos cuadrados a los datos siguientes

X 1 3 4 6 8 9 11 14Y 1 2 4 4 5 7 8 9

Y=a0+a1X

Entonces tabulamos los valores

X Y X2 XY Y2

134689

1114

12445789

19

16366481

121196

16

1624406388

126

14

161625496481

∑ X=56 ∑Y=40 ∑ X2=524 ∑ XY=364 ∑Y 2=256

Entonces

a0=(40 ) (524 )−(56 )(364)8 (524 )−(56)2

=0.545

a1=8 (364 )−(56 )(40)8 (524 )−(56)2

=0.636

Y=0.545+0.636 X

Parábola de mínimos cuadrados

La parábola de mínimos cuadrados está dada por la ecuación:

Y=a0+a1X+a2 X2

Ecuación 18 Parábola de mínimos cuadrados

Unidad VII Teoría de la correlación

Correlación y regresión

Si todos los valores de las variables satisfacen una ecuación exactamente, decimos que las variables están perfectamente correlacionadas o que hay correlación perfecta entre ellas. Si se lanzan dos dados 100 veces, no hay relación entre las puntuaciones de ambos dados (a menos que estén trucados), es decir, no están en correlación. Variables tales como el peso y la altura tienen una cierta correlación. Cuando sólo están en juego dos variables, hablamos de correlación simple y regresión simple. En otro caso, se habla de correlación múltiple y regresión múltiple.

Correlación lineal

Si X e Y son dos variables en cuestión un diagrama de dispersión muestra la localización de los puntos (X, Y) sobre un sistema rectangular de coordenadas. Si todos los puntos del diagrama parecen estar en una recta como en la ilustración 6 y 7 la correlación se llama lineal. Si Y tiende a crecer cuando X crece en como en la ilustración 6 se dice que es positiva. Si Y tiende a decrecer cuando X crece como en la ilustración 7 , se dice que es negativa. Si todos los puntos parecen estar sobre una cierta curva, la correlación no es lineal. Si no hay relación entre las variables decimos que no hay correlación entre ellas.

Ilustración 6 Correlación lineal positiva

Ilustración 7 Correlación lineal negativa

Ilustración 8 Sin correlación

La recta de regresión de mínimos cuadrados

La recta de regresión de Y sobre X es:

Y=a0+a1X

Ecuación 19 recta de regresión Y sobre X

Donde a0 y a1 se calculan

a0=∑ Y∑ X2−∑ X∑ XY

N∑ X2−(∑ X )2

a1=N∑ XY −∑ x∑ y

N∑ x2−(∑ x)2

Ecuación 20 Ecuaciones para calcular a0 y a1 para recta de regresión

La recta de regresión de X sobre Y es

X=b0+b1Y

Ecuación 21 Recta de regresión X sobre Y

Donde b0 y b1 se calculan

b0=∑ X∑ Y 2−∑Y ∑ XY

N∑Y 2−(∑Y )2

b1=N∑ XY −∑ X∑Y

N∑Y 2−(∑ Y )2

Ecuación 22 Ecuaciones para calcular b0 y b1 para recta de regresión

Ejemplo:

Altura X del padre

65 63 67 64 68 62 70 66 68 67 69 71

Altura Y del hijo

68 66 68 65 69 66 68 65 71 67 68 70

a) Construir un diagrama de dispersiónb) Hallar la recta de regresión de mínimos cuadrados de Y sobre Xc) Hallar la recta de regresión de mínimos cuadrados de X sobre Y

B) Y=35.82+0.476X

C) X=-3.38+1.036Y

Unidad VIII Análisis de varianza

Ya se ha visto como contrastar las diferencias entre dos medias muéstrales, en el supuesto de que las dos poblaciones de las que se tomaban las muestras tenían la misma varianza. En muchas situaciones es necesario hacer eso mismo con tres o más medias muéstrales, ósea, equivalentemente, contrastar la hipótesis de que todas las medias son iguales.

Experimentos de factor único

En un experimento de un factor, las medidas (u observaciones) se obtienen para grupos independientes de muestras, donde el número de medidas en cada grupo es b. Hablamos de a tratamientos, cada uno de los cuales tiene b repeticiones.

Denotaremos por X j la media de las medidas en fila j-ésima. Entonces tenemos

X j=1b∑k=1

b

X jk j=1,2…a

El punto en X j se usa para anunciar que el índice k se ha sumado. Los valores se llaman medias de grupo, medias de tratamiento o medias de filas. La media global se calcula

X= 1ab∑j=1

a

∑k=1

b

X jk

Variación total, variación dentro de los tratamientos y variación entre tratamientos

La variación total denotada por V, se calcula con:

V=∑j , k

(X jk−X )2

Ecuación 23 Variación Total

La variación dentro de los tratamientos se calcula con:

VW=∑j , k

(X jk−X j)2

Ecuación 24 Variación dentro de los tratamientos

La variación entre los tratamientos se calcula con:

V B=b∑j

(X j−X )2

Ecuación 25 Variación entre los tratamientos

Por lo tanto V la podemos calcular también con:

V=V W+V B

En la práctica es conveniente restar alguna cantidad fija de todos los datos de la tabla para simplicar los cálculos; tal operación no tiene efecto alguno sobre el resultado final.

Ejemplo

La siguiente tabla da las producciones por acre de una cierta variedad de trigo que crece en terrenos tratados con fertilizantes A, B y C. Hallar a) las producciones medias para los diferentes tratamientos, b) la media global para todos los tratamientos c) la variación total d) la variación entre tratamientos e) la variación dentro de los tratamientos.

A 48 49 50 49B 47 49 48 48C 49 51 50 50

Para hacer mejor el cálculo podemos restar 45 a todos los datos y queda la tabla

3 4 5 42 4 3 34 6 5 5

a)

X1=14

(3+4+5+4 )=4

X2=14

(2+4+3+3 )=3

X3=14

(4+6+5+5 )=5

b)

X= 112

(3+4+5+4+2+4+3+3+4+6+5+5 )=4

c)

V=∑j , k

(X jk−X )2=(3−4)2+(4−4)2+(5−4)2+(4−4)2+(2−4)2+(4−4)2+(3−4)2+(3−4)2+(4−4)2+(6−4 )2+(5−4)2+(5−4)2=14

d)

V B=b∑j

(X j−X )2=4 [ (4−4 )2+ (3−4 )2+ (5−4 )2 ]=8

e)

VW=V−V B=14−8=6

Métodos Abreviados

V=∑j , k

X j , k2 −T 2

ab

V B=1b∑j

T j2−T 2

ab

VW=V−V B

Ecuación 26 Métodos Abreviados para experimento de un factor.

Donde T es el total de valores X jk y Tj es el total de valores en el tratamiento j-ésimo.

T=∑j ,k

X jkT j=¿∑k

X jk¿

Experimentos de Dos factores

El tratamiento de dos factores es como si fuera una matriz, a continuación se muestran las formulas.

V=∑j , k

(X jk−X )2

Ecuación 27 Variación total de dos factores

Variación debida a error o azar

V E=∑jk

(X jk−X j−X k+X)2

Ecuación 28 Variación debida a error

Variación entre filas

V R=b∑j=1

a

(X j−X )2

Ecuación 29 Variación entre filas

Variación entre columnas

V C=a∑j=1

b

(Xk−X )2

Ecuación 30 Variación entre columnas

Formas abreviadas

V=∑j , k

X j , k2 −T 2

ab

V R=1b∑j=1

a

T j2− T2

ab

V C=1a∑j=1

b

T k2−T 2

ab

V E=V −V R−¿V c ¿

Ecuación 31 Métodos Abreviados para experimento de 2 factores

Bibliografía

Unidad I Estadística Aplicada, Julian de la Horra Navarro, Mc Graw Hill. Página 84.

Unidad II Estadística Segunda Edición, Spiegel, Mc Graw Hill. Páginas 186-207

Unidad III Estadística Segunda Edición, Spiegel, Mc Graw Hill. Páginas 208-222

Unidad IV Estadística Segunda Edición, Spiegel, Mc Graw Hill. Páginas 223-240

Unidad V Estadística Segunda Edición, Spiegel, Mc Graw Hill. Páginas 268-284

Unidad VI Estadística Segunda Edición, Spiegel, Mc Graw Hill. Páginas 289-309

Unidad VII Estadística Segunda Edición, Spiegel, Mc Graw Hill. Páginas 322-348

Unidad VIII Estadística Segunda Edición, Spiegel, Mc Graw Hill. Páginas 375-396

Web viewNivel de significación14. ... Curvas de operación características,...

Documents

Transcript of Web viewNivel de significación14. ... Curvas de operación características,...