SESION 3 estadistica

Post on 14-Feb-2016

251 views 0 download

description

SESION 3 estadistica

Transcript of SESION 3 estadistica

CURSO ESTADISTICA APLICADA A LA ING AMBIENTAL

EXPOSITOR Maestro Ing. Marco A Sánchez Alvarado SEMANA Nº 3

TEMA: OTRAS PRUEBA DE HIPÓTESIS

Prueba de Hipótesis para Diferencia de Medias

• REGLA DE DECISION. Ho : µx +/ - µy= δ

HIPOTESIS ALTERNAS µx +/ - µy ≤δµx +/ - µy ≥δµx +/ - µy ≠ δ

Prueba de hipótesis para dos medias desviación estándar poblacional conocida o muestras grandes

Muestras independientes

• Cuando se plantean hipótesis para la diferencia de medias de dos poblaciones y las desviaciones estándar poblacionales son conocidas o el tamaño de la muestra es grande, el estadístico de prueba está dado por ZC:

el cual se distribuye como una Normal de media 0 y desvío

estándar 1.

)1,0(()(

2

22

1

21

)2121 N

nn

xxz

Prueba de hipótesis para dos medias desviaciones estándar poblacionales desconocidas pero iguales y muestras

pequeñas - Muestras independientes

• Cuando se plantean hipótesis para la diferencia de medias de dos poblaciones y las desviaciones estándar poblacionales son iguales desconocidas y el tamaño de la muestra es pequeño, el estadístico de prueba está dado por tc:

;donde

el cual se distribuye como una t de Student con n1+n2-2 grados de libertad

2

21

2

12121

)11(

)()(

nngl

p

t

nnS

xxt )1()1(*)1(*)1(

21

222

2112

nn

SnSnS p

Prueba de hipótesis para dos medias desviaciones estándar poblacionales desconocidas, distintas y

muestras pequeñas - Muestras independientes

• Cuando se plantean hipótesis para la diferencia de medias de dos poblaciones y las desviaciones estándar poblacionales son desiguales y desconocidas y el tamaño de la muestra es pequeño, el estadístico de prueba está dado por:

;donde parte entera

el cual se distribuye como una t de Student con v grados de libertad

vglt

nS

nS

xxt

)(

)()(

2

22

1

21

121

)1(

)(

)1(

)(

)(

2

2

2

22

1

2

1

21

2

2

22

1

21

nnS

nnS

nS

nS

v

EJERCICIO DE DIFERENCIA DE MEDIAS

Las emisiones de CO2 de una siderúrgica que emplea alto horno en su proceso de elaboración de acero es de

28,000 T/mes; con una desviación estándar de 1, 400 , otro proceso emplea tecnología de hornos eléctricos con hierro esponja y emite 27,000 T/mes con una desviación estándar de 1000.

Se toman 30 muestras de la primera y 40 de la segunda Estime la diferencia de los niveles de emisión de CO2 las

dos empresas. Asuma un nivel de significancia de α=5%.

Dada la siguiente información de las vidas útiles de dos marcas de pilas alcalinas .

Si se selecciona una muestra de 100 de cada marca docime la hipótesis de que ambas marcas tienen

igual vida útil.Utilice un nivel de significancia de 0.05

MARCA A (En horas ) MARCA B (En horas)

μ1 = 51 μ2 = 50

σ1 = 8 σ2 = 6

• Un grupo de 50 ingenieros de la UNI , realizaron un trabajo de investigación en ing. ambiental y obtuvieron los siguientes resultados x=89, con una desviación estándar de 7.

• Otro grupo de 60 ingenieros de la UCV , realizaron el mismo experimento y obtuvieron y= 87, con una desviación estándar de 5.

• ¿Que puede opinar Ud. Sobre diferencia de las mediciones , asumiendo un α= 5% para la diferencia de medias entre las mediciones realizadas por los ingenieros de la

• UNI y la UCV ?

Prueba de Hipótesis para Diferencia de Medias empleando la t de student

• Se presenta el caso de comparación de dos productos (A y B), que se emplean en los procesos de curtido de pieles , 10 son preparadas empleando el producto A y otras 10 empleando el producto B.

Terminado todo el proceso se mide los niveles de contaminación en el agua de ambos procesos, encontrando los siguientes valores, en microgramos por litro:

Agua con producto A: 24.3, 25.6, 26.7, 22.7, 24.8, 23.8, 25.9, 26.4, 25.8, 25.4

Agua con producto B: 24.4, 21.5, 25.1, 22.8, 25.2, 23.5, 22.2, 23.5, 23.3, 24.7

Nos planteamos la siguiente pregunta ¿puede decirse que los dos productos dan resultados distintos en lo que respecta a la contaminación del agua?

• Una compañía está interesada en comparar la duración de dos tipos de piedras de esmeril , que causan mucha polución en el ambiente de la fabrica, y encuentra que el promedio de vida de 12 piedras de esmeril del primer tipo es de 66 meses con una desviación estándar de 4 meses y que el promedio de vida de 10 piedras del segundo tipo es de 58 meses con una desviación estándar de 6 meses.

• A que conclusión puede llegar Ud. asumiendo un nivel de significancia de α= 5% para la diferencia de medias de los dos tipos de piedras.

Para comparar el contenido de vitamina A de dos marcas de capsulas vitamínicas , se selecciona seis capsulas de cada marca , siendo los

resultados obtenidos los que se muestran en la tabla.

Si Ud. está dispuesto a rechazar una hipótesis verdadera no mas de una en 100 veces . ¿Puede concluir que los contenidos de vitamina A de las

dos marcas de capsulas no son iguales ?

MARCA (Unidades de VA )

MARCA B (Unidades de VB

Media 5,000 4,800

Desviación estándar 400 300

• El contenido de nicotina de varios cigarrillos tomando de 2 marcas diferentes son:

• Marca A: 17; 20; 20; 23• Marca B : 18; 20; 21; 22; 25• • Utilizando el nivel de significancia de 0.05 ¿Puede

concluirse que el contenido nicotínico de ambas marcas de cigarrillos no es el mismo?

Prueba de hipótesis para datos apareados

• Por lo general la H0 :d =0 ; H A: d ≠ 0

• Se busca establecer una comparación de datos que están apareados.

• La diferencia promedio para el conjunto de observaciones es

• d=Σd/n• La desviaciones estándar sd = √ (Σd2-n d2 )/n-1

• El valor de t calculado es = d/( sd / √ n )

Ejercicio de datos apareados • Se presenta el caso de comparación de 2 tratamientos

superficiales para lentes se seleccionan 10 individuos que usan gafas y se les colocó una lente tratada con la sustancia A y la otra con la sustancia B .

• Después de un periodo de uso se midió el deterioro (rayas, desgaste de la capa superficial), de cada uno de los lentes

• Individuo 1 2 3 4 5 6 7 8 9 10 .• Trata A 6.7 5.0 3.6 6.2 5.9 4.0 5.2. 4.5 4.4. 4.1

• Tra ta B 6.9 5.8 4.1. 7.0 7.0 4.6 5.5 5.9 4.3 4.8

• Un fabricante de gasolina obtiene datos de rendimiento de gasolina para una muestra de n=10 autos , usando gasolina común y con aditivo,.

• Se prueba la hipótesis que no existe diferencia entre el kilometraje promedio entre ambas, utilizando un α=5%.

• Auto 1 2 3 4 5 6 7 8 9 10 • Con 12.66. 12.34 11 10.10 9.79. 8.86 8.84 7.79 7.55 7.00

• Sin 12.48 12.31 11.14 10.21 9.69 8.9 8.24 7.59 7.41 6.90

• Para comparar la efectividad de un programa de seguridad en el trabajo se observó en 6 plantas distintas el numero de accidentes por mes antes y después del programa .¿Proporcionan estos datos evidencia suficiente para indicar que el programa ha sido efectivo al reducir el numero de accidentes laborales por mes ?

• Tome α = 0.1

• PLANTA Nº 1 2 3 4 5 6 • Antes del programa 38 64 64 70 58 30• Después del programa 31 58 43 65 52 29

PRUBA DE HIPOTESIS PARA LA DIFERENCIA ENTRE DOS PROPORCIONES POBLACIONALES

• Cuando se desea probar la hipótesis de que las proporciones de dos poblaciones no son distintas se combinan las dos proporciones muéstrales para proceder a determinar el error estándar de la diferencia de las proporciones.

• La estimación combinada de la proporción poblacional con base en las proporciones obtenidas en dos muestras independientes es la que se muestra: л = (n1p1 + n2p2)/ (n1+n2)

• El error estandar dela diferencia entre dos proporciones que se utiliza para probar el supuesto de que no existe diferencia es

• σ = √ л(1- л)/n1+ л(1- л)/n2

• Luego la formula de Zc, para probar la diferencia entre dos proporciones es :

• Zc = (p1-p2)/σ

• Una muestra aleatoria de 400 amas de casa seleccionados por una empresa de la Municipalidad de SJ de Lurigancho , indicó que 20% preferían sacar la basura una hora antes de que pase el camión recolector . Después de una intensa campaña por radio y Tv , se seleccionó una segunda muestra de 600 amas de casa, la cual dio 22 % que cumplían en sacar una hora antes que pase el camión recolector. Si Ud. está dispuesto a rechazar una hipótesis verdadera no mas de una vez en cien .

• ¿Rechazaría la hipótesis de que la campaña publicitaria fue ineficiente ?

• En una encuesta de opinión pública , se consultó a 400 hombres y 600 mujeres acerca de un proyecto municipal . El 70 % de los hombres y el 75% de las mujeres expresaron su aprobación al proyecto. Utilizando un nivel de significancia de 5%

• Puede concluirse que la diferencia observada es significativa ?

Se eligieron muestras de dos tipos de materiales 1 y 2 para ser expuestos a cambios extremos de temperatura. Los resultados se presentan a continuación:

Desintegrados Permanecieron intactos Total

Material 1 45 185 230

Material 2 32 88 120

Con 5% de nivel de significación, ¿el material 1 es más resistente que el material 2 a los cambios extremos de la temperatura?

ESTADISTICA PARAMETRICA

La estadística paramétrica es una rama de la estadística inferencial que comprende los procedimientos estadísticos y de decisión que están basados en las distribuciones de los datos reales. Estas son determinadas usando un número finito de parámetros. Esto es, por ejemplo, si conocemos que la altura de las personas sigue una distribución normal, pero desconocemos cuál es la media y la desviación de dicha normal. La media y la desviación típica de la desviación normal son los dos parámetros que queremos estimar. Cuando desconocemos totalmente que distribución siguen nuestros datos entonces deberemos aplicar primero un test no paramétrico, que nos ayude a conocer primero la distribución.

• La mayoría de procedimientos paramétricos requiere conocer la forma de distribución para las mediciones resultantes de la población estudiada. Para la inferencia paramétrica es requerida como mínimo una escala de intervalo, esto quiere decir que nuestros datos deben tener un orden y una numeración del intervalo. Es decir nuestros datos pueden estar categorizados en: menores de 20 años, de 20 a 40 años, de 40 a 60, de 60 a 80, etc, ya que hay números con los cuales realizar cálculos estadísticos. Sin embargo, datos categorizados en: niños, jóvenes, adultos y ancianos no pueden ser interpretados mediante la estadística paramétrica ya que no se puede hallar un parámetro numérico (como por ejemplo la media de edad) cuando los datos no son numéricos.

• Condiciones para que una prueba se considere paramétrica.

• 1.Los datos deben de tener comportamiento normal • 2 .Debe de existir igualdad de varianzas (Homocedasticidad)• 3. Independencia de residuos

PRUEBA DE HIPÓTESIS DE NORMALIDAD

• PLANTEAMIENTO DE LAS HIPOTESIS PARA LA PRUEBA DE NORMALIDAD.•  • H0: Los datos son normales • H1 : Los datos No son normales •  • Se asume un nivel de significancia de α = 5%. •  • Es decir que si el RESULTADO DE LA TABLA DE NORMALIDAD, DIERA QUE

EL valor “p” o SIG tal y como se representa en SPSS FUERA MAYOR DE 5% ,•  • ¡¡¡SE ACEPTA LA HIPOTESIS NULA , ES DECIR QUE LOS DATOS TIENEN

COMPORTAMIENTO NORMAL .•  • Y SI EL VALOR “p” o SIG tal y como se representa en SPSS FUERA MENOR DE

5% , NO SE ACPETA LA HIPOTESIS NULA , POR LO TANTO LOS DATOS NO SON NORMALES

 De acuerdo a la tabla que se adjunta.Realice la Prueba de normalidad para las edades de los participantes Muestre las pruebas de hipótesis para esta prueba

SUJETO EDAD PAS PAD SEXO 0BESIDAD1 41 120 70 2 12 41 140 80 1 13 41 110 80 2 14 42 120 85 2 15 42 120 86 1 26 42 140 90 1 17 42 180 110 2 28 43 120 70 1 19 43 120 86 2 1

1=HOMBRE 1=OBESO

2=MUJER2=NO

OBESO

VISTA DE DATOS

VISTA DE VARIABLES

CODIFICACION DE LOS DATOS

¡¡¡¡ojo…!!!!!!!!!

En las escalas solo son de ESCALA LOS SUJETOS, LA EDAD , LA PAS Y LA PAD el resto son nominales.

Luego para realizar la prueba de NORMALIDAD,  ¡¡¡¡¡¡¡¡¡¡RECUERDEN QUE EXISTEN DOS TIPOS …!!!!!!!!!! La de Kolmogorov- Smirnof , que se emplea para muestras mayores de 30 datos y la de Shapiro-Williks , que se usa para muestras menores de 30 datos.

 ANALIZAR , ESTADISTICAS DESCRIPTIVAS, EXPLORE.

PARA VISUALIZACION COLOCAMOS AMBOS

Haga clic en el icono para agregar una imagen