Intervalos de confianza Muestras grandes · PDF fileCondiciones para el intervalo de confianza...
Transcript of Intervalos de confianza Muestras grandes · PDF fileCondiciones para el intervalo de confianza...
Intervalos de confianzaIntervalos de confianza
Muestras grandesMuestras grandes
Estadística 2015 - Cátedra Prof. Tamara Burdisso
Unidad 4 – Intervalos de confianza 2
¿Por qué un intervalo de confianza?
• En la Unidad 3 revisamos los conceptos de población y muestra.
• Los parámetros poblacionales son la media μ y la varianza σ2. Son
constantes y generalmente no se conocen.
• Contrariamente, el estadístico ( la media muestral) y el estadístico (la varianza muestral) son variables aleatorias, ya que varían de muestra en muestra.
• Es por eso que cuantificamos la incertidumbre asociada al estimador puntual. Ya vimos que , en el caso de la media, esta incertidumbre se llama error estándar.
• En definitiva, utilizamos una muestra de la población, para conjeturar sobre la población. Pero ¿qué tan buena es nuestra estimación puntual? La respuesta a esta pregunta nos la provee el intervalo de confianza.
Estadística 2015 - Cátedra Prof. Tamara Burdisso
X2S
Unidad 4 – Intervalos de confianza 3
¿Por qué un intervalo de confianza?
• La ventaja del estimador puntual es que es muy fácil de
calcular y fácil de interpretar.
• La desventaja es que no tenemos la menor idea de cuan
certero y preciso es el estimador.
• Para lidiar con esta incertidumbre, es que se construye un
intervalo de confianza, el cual provee un posible rango de
valores para el parámetro poblacional.
• Si uno provee un estimador puntual va a ser difícil de acertar
con el parámetro poblacional. Por el contrario, si uno provee
un intervalo de confianza, i.e. un rango de valores, hay más
posibilidades que dicho intervalo contenga al verdadero
parámetro poblacional.
Estadística 2015 - Cátedra Prof. Tamara Burdisso
Unidad 4 – Intervalos de confianza 4
Intervalos de confianza para la media
Muestras grandes
• Acá nos focalizamos en el caso donde el estimador puntual es
la media muestral y el parámetro es la media poblacional.
• Pensemos que disponemos de una muestra , la cual nos
provee , nuestra mejor estimación de la media poblacional.
• Que nos dice el TCL para la media muestral:
Estadística 2015 - Cátedra Prof. Tamara Burdisso
X
),(~ 2nNX XX σµ
X
Unidad 4 – Intervalos de confianza 5
¿Cómo se lee un intervalo de confianza al 95%?
• El 95% de las muestras o más precisamente el 95% de los
intervalos construidos en base a las muestras, contendrán la
verdadera media poblacional, dentro del intervalo
correspondiente a la media muestral +/- 2 errores
estándar(SE).
• Por lo tanto el nivel de confianza es la probabilidad de que el
intervalo estimado contenga al verdadero parámetro
poblacional, en nuestro caso la media poblacional.
Estadística 2015 - Cátedra Prof. Tamara Burdisso
nXSEX
σ22 ±=±
Margen de
errorEstimador puntual para
la media poblacional
Unidad 4 – Intervalos de confianza 6
¿Cómo se construye un intervalo de confianza?
• En general construimos un intervalo de confianza alrededor de
la media muestral utilizando la siguiente expresión
• donde
• Lo usual para el nivel de confianza es C%= 90%, 95%, 99%.
Estadística 2015 - Cátedra Prof. Tamara Burdisso
* * n
ZXZX cXc
σσ ±=±
muestral media la =X
C%. confianza una a asociado valor Zel es=cZ
media. la deestándar error el =X
σ
Margen de error
Unidad 4 – Intervalos de confianza 7
Condiciones para el intervalo de confianza
• La construcción del intervalo de confianza se basa en
el TCL. Por lo tanto se debe cumplir al menos con los
mismos requerimientos del TCL
• i.i.d. : las observaciones muestrales deben ser
independientes
• Muestreo aleatorio/ asignación aleatoria
• Si la muestra es sin reemplazo, entonces n≤10% de la población.
• Asimetría/tamaño de la muestra: n>30, o aún más grande si
la distribución es asimétrica.
Estadística 2015 - Cátedra Prof. Tamara Burdisso
Unidad 4 – Intervalos de confianza 8
Intervalo de confianza exacto al 95%
• Un intervalo de confianza aprox. para la media al 95%
está dado por
• ¿Cómo se construye el intervalo exacto al 95%?
Estadística 2015 - Cátedra Prof. Tamara Burdisso
*2 *2 n
XXX
σσ ±=±
αα =
> z
2
ZP
( ) 0.05 z z 025.02
05.0 =≥=
≥ ZPZP
αα −=
≤ 1 z
2
ZP
Unidad 4 – Intervalos de confianza 9
Interpretación del intervalo de confianza
• Supongamos que tomamos muchas muestras y construimos
intervalos de confianza al 95% para cada una de las muestras.
• Luego, alrededor del 95% de los intervalos de confianza
contendrán al verdadero parámetro poblacional.
Estadística 2015 - Cátedra Prof. Tamara Burdisso
SE*96.1 puntual estimación ±
Unidad 4 – Intervalos de confianza 10
Intervalo de confianza: certero vs. preciso
• Decimos que el intervalo es certero si el mismo contiene o no
al verdadero parámetro poblacional.
• Decimos que el intervalo es preciso dependiendo del ancho del
intervalo.
• Nivel o Región de confianza usuales
Estadística 2015 - Cátedra Prof. Tamara Burdisso
Región de confianza α α/2 zα/2
90% 0.10 0.05 1.645
95% 0.05 0.025 1.96
99% 0.01 0.005 2.576
Unidad 4 – Intervalos de confianza 11
Certeza vs. precisión
• Si uno quisiera tener certeza de que captura al verdadero valor
del parámetro, i.e. la media poblacional μ, entonces que
querríamos ¿un intervalo más amplio o un intervalo más
restringido?
Estadística 2015 - Cátedra Prof. Tamara Burdisso
Unidad 4 – Intervalos de confianza 12
Certeza vs. precisión
• Por lo tanto si lo que se persigue es certeza, entonces se debe
aumentar el nivel de confianza, pero también aumenta el
ancho del intervalo.
• Mayor certeza → incrementar el nivel de confianza pero
veremos que hay una pérdida
Estadística 2015 - Cátedra Prof. Tamara Burdisso
Unidad 4 – Intervalos de confianza 13
Certeza vs. precisión
• ¿Hay alguna desventaja en aumentar el nivel de confianza para
tener mayor certidumbre?
• Entonces como se resuelve esto. ¿Existe alguna manera de
aumentar la certeza y aumentar la precisión
simultáneamente?
• Al incrementar el tamaño de la muestra disminuye el error
estándar del estimador, y por ende se reduce el margen de
error sin alterar el nivel de confianza, i.e. sin incrementar el
ancho del intervalo.
Estadística 2015 - Cátedra Prof. Tamara Burdisso
precision pero certezaanchoconfianza de nivel ↓⇒↑⇒↑↑
muestra. la de tamañoel ndoincrementa
Unidad 4 – Intervalos de confianza 14
Ejemplo
• Volviendo al ejemplo de los tiempos en minutos de la maratón de la
“2012 Cherry Blossom Run”. Tomamos una muestra de tamaño 100
y la media muestral resulta . La desviación estándar de la
población es de 15.93. ¿Calcule el intervalo de confianza al 90%, 95%
y 99% para la media poblacional?
• Otra muestra de 100 corredores arroja un valor de .
Compruebe que los que varían son los intervalos y no la media
poblacional.
• ¡Ojo con la interpretación del intervalo!
• Hay un 95% de probabilidad de que la verdadera media poblacional
este dentro del intervalo [……,……] INCORRECTO
• Hay un 95% de probabilidad de que cualquier intervalo de confianza
generado a partir de una muestra aleatoria contenga a la verdadera
media poblacional. CORRECTOEstadística 2015 - Cátedra Prof. Tamara Burdisso
19.97=X
15.95=X
Unidad 4 – Intervalos de confianza 15
Ejemplo
• Como tenemos un 95% de probabilidad de que cualquier
intervalo de confianza contenga a la media poblacional,
entonces tenemos un 5% de probabilidad de que no lo
contenga, en cuyo caso estaríamos cometiendo un error.
• Este 5% de probabilidad es conocido como nivel de
significación αααα, o probabilidad de cometer Error de Tipo I
Estadística 2015 - Cátedra Prof. Tamara Burdisso
Nivel de significación α
Región de confianza 1-α
Unidad 4 – Intervalos de confianza 16
Ejercicio
• La General Social Survey de los EE.UU. es una institución que
se ocupa de recopilar datos sobre las características
demográficas y actitudes de los residentes de USA. Durante el
año 2010, la encuestadora entrevistó a 1154 residentes. En
base a los resultados de esta encuesta, se construyó un
intervalo de confianza del 95% para el número de horas diarias
promedio que los residentes americanos dedican al ocio
después de un día de trabajo promedio fue de 3.53 a 3.83
horas. ¿Cuál de las siguientes afirmaciones es correcta?
Estadística 2015 - Cátedra Prof. Tamara Burdisso
Unidad 4 – Intervalos de confianza 17
Ejercicio - continuación
a. 95% de los americanos dedican entre 3.53 y 3.83 horas diarias
al ocio después de un día de trabajo
b. 95% de las muestras de 1154 residentes americanos van a
arrojar intervalos de confianza que contengan al verdadero
número de horas promedio que los americanos dedican al
ocio después de un día de trabajo.
c. 95% de las veces el verdadero número de horas promedio
que los residentes americanos dedican al ocio después de un
día de trabajo es 3.53 y 3.83
d. Se tiene una confianza del 95% que los residentes americanos
de esta muestra dedican en promedio entre 3.53 y 3.83 horas
al ocio después de un día de trabajo.
Estadística 2015 - Cátedra Prof. Tamara Burdisso
Unidad 4 – Intervalos de confianza 18
Tamaño de la muestra vs. certeza
• Dado un margen de error deseado, un nivel de confianza,
información sobre la variabilidad de la muestra (o de la
población), se puede determinar el tamaño de muestra
requerido para alcanzar el margen de error deseado.
Estadística 2015 - Cátedra Prof. Tamara Burdisso
ME
*
2
=⇒σcZn
* *n
ZZME cXc
σσ ==
Unidad 4 – Intervalos de confianza 19
Ejemplo
• Un grupo de investigadores desean evaluar el posible efecto
que cierta medicación para epilepsia, recetada a mujeres
embarazadas, tiene sobre el desarrollo cognitivo de sus hijos.
Como evidencia quieren estimar el coeficiente intelectual de
niños de 3 años de edad nacidos de madres que hayan
ingerido esta medicación durante el embarazo. Estudios
previos sugieren que la SD (desviación estándar) del coef.
intelectual de los niños de 3 años es de 18 puntos.
• ¿Qué tamaño debería tener la muestra si se desea un
intervalo de confianza del 90% y un margen de error menor o
igual a 4 puntos?
• ¿Qué ocurriría con el tamaño de la muestra si se quisiera
disminuir el margen de error a 2 puntos?
Estadística 2015 - Cátedra Prof. Tamara Burdisso
Unidad 4 – Intervalos de confianza 20
Ejemplo
• La General Social Survey de los EE.UU. preguntó: “Cuantos días
durante los últimos 30 estuvo su salud mental (stress,
depresión, problemas emocionales) en problemas”. En base a
las respuestas de 1151 residentes de USA, la encuesta reportó
un intervalo del 95% de 3.40 a 4.24 días durante 2010.
• Interpretar este intervalo en el contexto de los datos.
• En el contexto del problema, ¿que significa un intervalo de
confianza del 95%?
• Recordemos que un intervalo de confianza al 95% significa
que, el 95% de los intervalos construidos en base a muestras
aleatorias, del mismo tamaño y de la misma población van a
contener al verdadero parámetro poblacional.
Estadística 2015 - Cátedra Prof. Tamara Burdisso
Unidad 4 – Intervalos de confianza 21
¿Qué ocurre si no conocemos σσσσ?
• Recordemos que estamos suponiendo que n es grande (n>30)
• Si no se conoce σ, la desviación estándar poblacional,
podemos obtener una estimación a partir de la muestra, i.e.
reemplazar a σ por la desviación estándar muestral, S.
Siempre y cuando n>>>>30
Estadística 2015 - Cátedra Prof. Tamara Burdisso
n
SZX
nZX cc * * ±⇒±
σ
Unidad 4 – Intervalos de confianza 22
Intervalo de confianza para una proporción en
muestras grandes
• También se puede estimar la proporción de una población
mediante la construcción de un intervalo de confianza a partir
de una muestra.
• Requisitos para aproximar la Binomial a la Normal:
observaciones i.i.d. y np≥10 y n(1-p)≥10
• El intervalo de confianza para la proporción es
Estadística 2015 - Cátedra Prof. Tamara Burdisso
n
ppZpZp cpc
)1(*ˆ *ˆ
ˆ
−±⇒± σ
Unidad 4 – Intervalos de confianza 23
Intervalo de confianza para una proporción en
muestras grandes
• Nuestro desafío es estimar p, la proporción poblacional, pero
necesitamos un valor de p para calcular el error estándar.
• Solución: estimar el error estándar (SE) utilizando , la
proporción basada en la muestra aletoria.
Estadística 2015 - Cátedra Prof. Tamara Burdisso
n
ppp
)ˆ1(ˆˆˆ
−=σ
p̂
n
ppZpZp cpc
)ˆ1(ˆ*ˆ ˆ*ˆ
ˆ
−±⇒± σ
24
Ejemplo
• Cierta industria decide capacitar a sus empleados en un
nuevo programa de adiestramiento en reparación de
máquinas. De acuerdo con la experiencia de la empresa, la
empresa sabe que una persona que apruebe el examen tiene
una alta probabilidad de desempeñarse bien es su puesto.
Después de alguna discusiones la empresa acordó basar la
evaluación del nuevo método de adiestramiento
considerando la proporción de empleados que aprobaron el
examen. De los 64 empleados que asistieron al curso de
capacitación, solo aprobaron el examen 40. Determinar el
intervalo de confianza para la media poblacional con una
confianza del 90%. Interpretar el resultado.
Unidad 4 - Intervalos de confianza
Estadística 2015 - Cátedra Prof. Tamara Burdisso
25
Tamaño de la muestra para una proporción
• Al igual que para la media muestral, se puede determinar el
tamaño de muestra requerido para un margen de error
deseado.
• ¿Cual es el tamaño de muestra requerido para estimar la
proporción de fumadores en Argentina si se desea una
confianza del 99% con un margen de error del 5%?
Unidad 4 - Intervalos de confianza
Estadística 2015 - Cátedra Prof. Tamara Burdisso
)1(
* * ˆn
ppZZME cpc
−== σ
2
)1(
−=ME
Zppn c