SESION 3 estadistica

38
CURSO ESTADISTICA APLICADA A LA ING AMBIENTAL EXPOSITOR Maestro Ing. Marco A Sánchez Alvarado SEMANA Nº 3 TEMA: OTRAS PRUEBA DE HIPÓTESIS

description

SESION 3 estadistica

Transcript of SESION 3 estadistica

Page 1: SESION 3 estadistica

CURSO ESTADISTICA APLICADA A LA ING AMBIENTAL

EXPOSITOR Maestro Ing. Marco A Sánchez Alvarado SEMANA Nº 3

TEMA: OTRAS PRUEBA DE HIPÓTESIS

Page 2: SESION 3 estadistica

Prueba de Hipótesis para Diferencia de Medias

• REGLA DE DECISION. Ho : µx +/ - µy= δ

HIPOTESIS ALTERNAS µx +/ - µy ≤δµx +/ - µy ≥δµx +/ - µy ≠ δ

Page 3: SESION 3 estadistica

Prueba de hipótesis para dos medias desviación estándar poblacional conocida o muestras grandes

Muestras independientes

• Cuando se plantean hipótesis para la diferencia de medias de dos poblaciones y las desviaciones estándar poblacionales son conocidas o el tamaño de la muestra es grande, el estadístico de prueba está dado por ZC:

el cual se distribuye como una Normal de media 0 y desvío

estándar 1.

)1,0(()(

2

22

1

21

)2121 N

nn

xxz

Page 4: SESION 3 estadistica

Prueba de hipótesis para dos medias desviaciones estándar poblacionales desconocidas pero iguales y muestras

pequeñas - Muestras independientes

• Cuando se plantean hipótesis para la diferencia de medias de dos poblaciones y las desviaciones estándar poblacionales son iguales desconocidas y el tamaño de la muestra es pequeño, el estadístico de prueba está dado por tc:

;donde

el cual se distribuye como una t de Student con n1+n2-2 grados de libertad

2

21

2

12121

)11(

)()(

nngl

p

t

nnS

xxt )1()1(*)1(*)1(

21

222

2112

nn

SnSnS p

Page 5: SESION 3 estadistica

Prueba de hipótesis para dos medias desviaciones estándar poblacionales desconocidas, distintas y

muestras pequeñas - Muestras independientes

• Cuando se plantean hipótesis para la diferencia de medias de dos poblaciones y las desviaciones estándar poblacionales son desiguales y desconocidas y el tamaño de la muestra es pequeño, el estadístico de prueba está dado por:

;donde parte entera

el cual se distribuye como una t de Student con v grados de libertad

vglt

nS

nS

xxt

)(

)()(

2

22

1

21

121

)1(

)(

)1(

)(

)(

2

2

2

22

1

2

1

21

2

2

22

1

21

nnS

nnS

nS

nS

v

Page 6: SESION 3 estadistica

EJERCICIO DE DIFERENCIA DE MEDIAS

Las emisiones de CO2 de una siderúrgica que emplea alto horno en su proceso de elaboración de acero es de

28,000 T/mes; con una desviación estándar de 1, 400 , otro proceso emplea tecnología de hornos eléctricos con hierro esponja y emite 27,000 T/mes con una desviación estándar de 1000.

Se toman 30 muestras de la primera y 40 de la segunda Estime la diferencia de los niveles de emisión de CO2 las

dos empresas. Asuma un nivel de significancia de α=5%.

Page 7: SESION 3 estadistica

Dada la siguiente información de las vidas útiles de dos marcas de pilas alcalinas .

Si se selecciona una muestra de 100 de cada marca docime la hipótesis de que ambas marcas tienen

igual vida útil.Utilice un nivel de significancia de 0.05

MARCA A (En horas ) MARCA B (En horas)

μ1 = 51 μ2 = 50

σ1 = 8 σ2 = 6

Page 8: SESION 3 estadistica

• Un grupo de 50 ingenieros de la UNI , realizaron un trabajo de investigación en ing. ambiental y obtuvieron los siguientes resultados x=89, con una desviación estándar de 7.

• Otro grupo de 60 ingenieros de la UCV , realizaron el mismo experimento y obtuvieron y= 87, con una desviación estándar de 5.

• ¿Que puede opinar Ud. Sobre diferencia de las mediciones , asumiendo un α= 5% para la diferencia de medias entre las mediciones realizadas por los ingenieros de la

• UNI y la UCV ?

Page 9: SESION 3 estadistica

Prueba de Hipótesis para Diferencia de Medias empleando la t de student

• Se presenta el caso de comparación de dos productos (A y B), que se emplean en los procesos de curtido de pieles , 10 son preparadas empleando el producto A y otras 10 empleando el producto B.

Terminado todo el proceso se mide los niveles de contaminación en el agua de ambos procesos, encontrando los siguientes valores, en microgramos por litro:

Agua con producto A: 24.3, 25.6, 26.7, 22.7, 24.8, 23.8, 25.9, 26.4, 25.8, 25.4

Agua con producto B: 24.4, 21.5, 25.1, 22.8, 25.2, 23.5, 22.2, 23.5, 23.3, 24.7

Nos planteamos la siguiente pregunta ¿puede decirse que los dos productos dan resultados distintos en lo que respecta a la contaminación del agua?

Page 10: SESION 3 estadistica

• Una compañía está interesada en comparar la duración de dos tipos de piedras de esmeril , que causan mucha polución en el ambiente de la fabrica, y encuentra que el promedio de vida de 12 piedras de esmeril del primer tipo es de 66 meses con una desviación estándar de 4 meses y que el promedio de vida de 10 piedras del segundo tipo es de 58 meses con una desviación estándar de 6 meses.

• A que conclusión puede llegar Ud. asumiendo un nivel de significancia de α= 5% para la diferencia de medias de los dos tipos de piedras.

Page 11: SESION 3 estadistica

Para comparar el contenido de vitamina A de dos marcas de capsulas vitamínicas , se selecciona seis capsulas de cada marca , siendo los

resultados obtenidos los que se muestran en la tabla.

Si Ud. está dispuesto a rechazar una hipótesis verdadera no mas de una en 100 veces . ¿Puede concluir que los contenidos de vitamina A de las

dos marcas de capsulas no son iguales ?

MARCA (Unidades de VA )

MARCA B (Unidades de VB

Media 5,000 4,800

Desviación estándar 400 300

Page 12: SESION 3 estadistica

• El contenido de nicotina de varios cigarrillos tomando de 2 marcas diferentes son:

• Marca A: 17; 20; 20; 23• Marca B : 18; 20; 21; 22; 25• • Utilizando el nivel de significancia de 0.05 ¿Puede

concluirse que el contenido nicotínico de ambas marcas de cigarrillos no es el mismo?

Page 13: SESION 3 estadistica

Prueba de hipótesis para datos apareados

• Por lo general la H0 :d =0 ; H A: d ≠ 0

• Se busca establecer una comparación de datos que están apareados.

• La diferencia promedio para el conjunto de observaciones es

• d=Σd/n• La desviaciones estándar sd = √ (Σd2-n d2 )/n-1

• El valor de t calculado es = d/( sd / √ n )

Page 14: SESION 3 estadistica

Ejercicio de datos apareados • Se presenta el caso de comparación de 2 tratamientos

superficiales para lentes se seleccionan 10 individuos que usan gafas y se les colocó una lente tratada con la sustancia A y la otra con la sustancia B .

• Después de un periodo de uso se midió el deterioro (rayas, desgaste de la capa superficial), de cada uno de los lentes

• Individuo 1 2 3 4 5 6 7 8 9 10 .• Trata A 6.7 5.0 3.6 6.2 5.9 4.0 5.2. 4.5 4.4. 4.1

• Tra ta B 6.9 5.8 4.1. 7.0 7.0 4.6 5.5 5.9 4.3 4.8

Page 15: SESION 3 estadistica

• Un fabricante de gasolina obtiene datos de rendimiento de gasolina para una muestra de n=10 autos , usando gasolina común y con aditivo,.

• Se prueba la hipótesis que no existe diferencia entre el kilometraje promedio entre ambas, utilizando un α=5%.

• Auto 1 2 3 4 5 6 7 8 9 10 • Con 12.66. 12.34 11 10.10 9.79. 8.86 8.84 7.79 7.55 7.00

• Sin 12.48 12.31 11.14 10.21 9.69 8.9 8.24 7.59 7.41 6.90

Page 16: SESION 3 estadistica

• Para comparar la efectividad de un programa de seguridad en el trabajo se observó en 6 plantas distintas el numero de accidentes por mes antes y después del programa .¿Proporcionan estos datos evidencia suficiente para indicar que el programa ha sido efectivo al reducir el numero de accidentes laborales por mes ?

• Tome α = 0.1

• PLANTA Nº 1 2 3 4 5 6 • Antes del programa 38 64 64 70 58 30• Después del programa 31 58 43 65 52 29

Page 17: SESION 3 estadistica

PRUBA DE HIPOTESIS PARA LA DIFERENCIA ENTRE DOS PROPORCIONES POBLACIONALES

• Cuando se desea probar la hipótesis de que las proporciones de dos poblaciones no son distintas se combinan las dos proporciones muéstrales para proceder a determinar el error estándar de la diferencia de las proporciones.

• La estimación combinada de la proporción poblacional con base en las proporciones obtenidas en dos muestras independientes es la que se muestra: л = (n1p1 + n2p2)/ (n1+n2)

• El error estandar dela diferencia entre dos proporciones que se utiliza para probar el supuesto de que no existe diferencia es

• σ = √ л(1- л)/n1+ л(1- л)/n2

• Luego la formula de Zc, para probar la diferencia entre dos proporciones es :

• Zc = (p1-p2)/σ

Page 18: SESION 3 estadistica

• Una muestra aleatoria de 400 amas de casa seleccionados por una empresa de la Municipalidad de SJ de Lurigancho , indicó que 20% preferían sacar la basura una hora antes de que pase el camión recolector . Después de una intensa campaña por radio y Tv , se seleccionó una segunda muestra de 600 amas de casa, la cual dio 22 % que cumplían en sacar una hora antes que pase el camión recolector. Si Ud. está dispuesto a rechazar una hipótesis verdadera no mas de una vez en cien .

• ¿Rechazaría la hipótesis de que la campaña publicitaria fue ineficiente ?

Page 19: SESION 3 estadistica

• En una encuesta de opinión pública , se consultó a 400 hombres y 600 mujeres acerca de un proyecto municipal . El 70 % de los hombres y el 75% de las mujeres expresaron su aprobación al proyecto. Utilizando un nivel de significancia de 5%

• Puede concluirse que la diferencia observada es significativa ?

Page 20: SESION 3 estadistica

Se eligieron muestras de dos tipos de materiales 1 y 2 para ser expuestos a cambios extremos de temperatura. Los resultados se presentan a continuación:

Desintegrados Permanecieron intactos Total

Material 1 45 185 230

Material 2 32 88 120

Con 5% de nivel de significación, ¿el material 1 es más resistente que el material 2 a los cambios extremos de la temperatura?

Page 21: SESION 3 estadistica

ESTADISTICA PARAMETRICA

La estadística paramétrica es una rama de la estadística inferencial que comprende los procedimientos estadísticos y de decisión que están basados en las distribuciones de los datos reales. Estas son determinadas usando un número finito de parámetros. Esto es, por ejemplo, si conocemos que la altura de las personas sigue una distribución normal, pero desconocemos cuál es la media y la desviación de dicha normal. La media y la desviación típica de la desviación normal son los dos parámetros que queremos estimar. Cuando desconocemos totalmente que distribución siguen nuestros datos entonces deberemos aplicar primero un test no paramétrico, que nos ayude a conocer primero la distribución.

Page 22: SESION 3 estadistica

• La mayoría de procedimientos paramétricos requiere conocer la forma de distribución para las mediciones resultantes de la población estudiada. Para la inferencia paramétrica es requerida como mínimo una escala de intervalo, esto quiere decir que nuestros datos deben tener un orden y una numeración del intervalo. Es decir nuestros datos pueden estar categorizados en: menores de 20 años, de 20 a 40 años, de 40 a 60, de 60 a 80, etc, ya que hay números con los cuales realizar cálculos estadísticos. Sin embargo, datos categorizados en: niños, jóvenes, adultos y ancianos no pueden ser interpretados mediante la estadística paramétrica ya que no se puede hallar un parámetro numérico (como por ejemplo la media de edad) cuando los datos no son numéricos.

• Condiciones para que una prueba se considere paramétrica.

• 1.Los datos deben de tener comportamiento normal • 2 .Debe de existir igualdad de varianzas (Homocedasticidad)• 3. Independencia de residuos

Page 23: SESION 3 estadistica

PRUEBA DE HIPÓTESIS DE NORMALIDAD

• PLANTEAMIENTO DE LAS HIPOTESIS PARA LA PRUEBA DE NORMALIDAD.•  • H0: Los datos son normales • H1 : Los datos No son normales •  • Se asume un nivel de significancia de α = 5%. •  • Es decir que si el RESULTADO DE LA TABLA DE NORMALIDAD, DIERA QUE

EL valor “p” o SIG tal y como se representa en SPSS FUERA MAYOR DE 5% ,•  • ¡¡¡SE ACEPTA LA HIPOTESIS NULA , ES DECIR QUE LOS DATOS TIENEN

COMPORTAMIENTO NORMAL .•  • Y SI EL VALOR “p” o SIG tal y como se representa en SPSS FUERA MENOR DE

5% , NO SE ACPETA LA HIPOTESIS NULA , POR LO TANTO LOS DATOS NO SON NORMALES

Page 24: SESION 3 estadistica

 De acuerdo a la tabla que se adjunta.Realice la Prueba de normalidad para las edades de los participantes Muestre las pruebas de hipótesis para esta prueba

SUJETO EDAD PAS PAD SEXO 0BESIDAD1 41 120 70 2 12 41 140 80 1 13 41 110 80 2 14 42 120 85 2 15 42 120 86 1 26 42 140 90 1 17 42 180 110 2 28 43 120 70 1 19 43 120 86 2 1

1=HOMBRE 1=OBESO

2=MUJER2=NO

OBESO

Page 25: SESION 3 estadistica

VISTA DE DATOS

Page 26: SESION 3 estadistica

VISTA DE VARIABLES

Page 27: SESION 3 estadistica

CODIFICACION DE LOS DATOS

Page 28: SESION 3 estadistica

¡¡¡¡ojo…!!!!!!!!!

En las escalas solo son de ESCALA LOS SUJETOS, LA EDAD , LA PAS Y LA PAD el resto son nominales.

Luego para realizar la prueba de NORMALIDAD,  ¡¡¡¡¡¡¡¡¡¡RECUERDEN QUE EXISTEN DOS TIPOS …!!!!!!!!!! La de Kolmogorov- Smirnof , que se emplea para muestras mayores de 30 datos y la de Shapiro-Williks , que se usa para muestras menores de 30 datos.

Page 29: SESION 3 estadistica

 ANALIZAR , ESTADISTICAS DESCRIPTIVAS, EXPLORE.

Page 30: SESION 3 estadistica
Page 31: SESION 3 estadistica
Page 32: SESION 3 estadistica
Page 33: SESION 3 estadistica

PARA VISUALIZACION COLOCAMOS AMBOS

Page 34: SESION 3 estadistica
Page 35: SESION 3 estadistica
Page 36: SESION 3 estadistica
Page 37: SESION 3 estadistica
Page 38: SESION 3 estadistica

Haga clic en el icono para agregar una imagen