Intervalos de confianza Muestras grandes · PDF fileCondiciones para el intervalo de confianza...

Intervalos de confianzaIntervalos de confianza

Muestras grandesMuestras grandes

Estadística 2015 - Cátedra Prof. Tamara Burdisso

Unidad 4 – Intervalos de confianza 2

¿Por qué un intervalo de confianza?

• En la Unidad 3 revisamos los conceptos de población y muestra.

• Los parámetros poblacionales son la media μ y la varianza σ2. Son

constantes y generalmente no se conocen.

• Contrariamente, el estadístico ( la media muestral) y el estadístico (la varianza muestral) son variables aleatorias, ya que varían de muestra en muestra.

• Es por eso que cuantificamos la incertidumbre asociada al estimador puntual. Ya vimos que , en el caso de la media, esta incertidumbre se llama error estándar.

• En definitiva, utilizamos una muestra de la población, para conjeturar sobre la población. Pero ¿qué tan buena es nuestra estimación puntual? La respuesta a esta pregunta nos la provee el intervalo de confianza.


X2S


¿Por qué un intervalo de confianza?

• La ventaja del estimador puntual es que es muy fácil de

calcular y fácil de interpretar.

• La desventaja es que no tenemos la menor idea de cuan

certero y preciso es el estimador.

• Para lidiar con esta incertidumbre, es que se construye un

intervalo de confianza, el cual provee un posible rango de

valores para el parámetro poblacional.

• Si uno provee un estimador puntual va a ser difícil de acertar

con el parámetro poblacional. Por el contrario, si uno provee

un intervalo de confianza, i.e. un rango de valores, hay más

posibilidades que dicho intervalo contenga al verdadero

parámetro poblacional.



Intervalos de confianza para la media

Muestras grandes

• Acá nos focalizamos en el caso donde el estimador puntual es

la media muestral y el parámetro es la media poblacional.

• Pensemos que disponemos de una muestra , la cual nos

provee , nuestra mejor estimación de la media poblacional.

• Que nos dice el TCL para la media muestral:


X

),(~ 2nNX XX σµ

X


¿Cómo se lee un intervalo de confianza al 95%?

• El 95% de las muestras o más precisamente el 95% de los

intervalos construidos en base a las muestras, contendrán la

verdadera media poblacional, dentro del intervalo

correspondiente a la media muestral +/- 2 errores

estándar(SE).

• Por lo tanto el nivel de confianza es la probabilidad de que el

intervalo estimado contenga al verdadero parámetro

poblacional, en nuestro caso la media poblacional.


nXSEX

σ22 ±=±

Margen de

errorEstimador puntual para

la media poblacional


¿Cómo se construye un intervalo de confianza?

• En general construimos un intervalo de confianza alrededor de

la media muestral utilizando la siguiente expresión

• donde

• Lo usual para el nivel de confianza es C%= 90%, 95%, 99%.


* * n

ZXZX cXc

σσ ±=±

muestral media la =X

C%. confianza una a asociado valor Zel es=cZ

media. la deestándar error el =X

σ

Margen de error


Condiciones para el intervalo de confianza

• La construcción del intervalo de confianza se basa en

el TCL. Por lo tanto se debe cumplir al menos con los

mismos requerimientos del TCL

• i.i.d. : las observaciones muestrales deben ser

independientes

• Muestreo aleatorio/ asignación aleatoria

• Si la muestra es sin reemplazo, entonces n≤10% de la población.

• Asimetría/tamaño de la muestra: n>30, o aún más grande si

la distribución es asimétrica.



Intervalo de confianza exacto al 95%

• Un intervalo de confianza aprox. para la media al 95%

está dado por

• ¿Cómo se construye el intervalo exacto al 95%?


*2 *2 n

XXX

σσ ±=±

αα =

> z

2

ZP

( ) 0.05 z z 025.02

05.0 =≥=

≥ ZPZP

αα −=

≤ 1 z

2

ZP


Interpretación del intervalo de confianza

• Supongamos que tomamos muchas muestras y construimos

intervalos de confianza al 95% para cada una de las muestras.

• Luego, alrededor del 95% de los intervalos de confianza

contendrán al verdadero parámetro poblacional.


SE*96.1 puntual estimación ±


Intervalo de confianza: certero vs. preciso

• Decimos que el intervalo es certero si el mismo contiene o no

al verdadero parámetro poblacional.

• Decimos que el intervalo es preciso dependiendo del ancho del

intervalo.

• Nivel o Región de confianza usuales


Región de confianza α α/2 zα/2

90% 0.10 0.05 1.645

95% 0.05 0.025 1.96

99% 0.01 0.005 2.576


Certeza vs. precisión

• Si uno quisiera tener certeza de que captura al verdadero valor

del parámetro, i.e. la media poblacional μ, entonces que

querríamos ¿un intervalo más amplio o un intervalo más

restringido?




• Por lo tanto si lo que se persigue es certeza, entonces se debe

aumentar el nivel de confianza, pero también aumenta el

ancho del intervalo.

• Mayor certeza → incrementar el nivel de confianza pero

veremos que hay una pérdida




• ¿Hay alguna desventaja en aumentar el nivel de confianza para

tener mayor certidumbre?

• Entonces como se resuelve esto. ¿Existe alguna manera de

aumentar la certeza y aumentar la precisión

simultáneamente?

• Al incrementar el tamaño de la muestra disminuye el error

estándar del estimador, y por ende se reduce el margen de

error sin alterar el nivel de confianza, i.e. sin incrementar el

ancho del intervalo.


precision pero certezaanchoconfianza de nivel ↓⇒↑⇒↑↑

muestra. la de tamañoel ndoincrementa


Ejemplo

• Volviendo al ejemplo de los tiempos en minutos de la maratón de la

“2012 Cherry Blossom Run”. Tomamos una muestra de tamaño 100

y la media muestral resulta . La desviación estándar de la

población es de 15.93. ¿Calcule el intervalo de confianza al 90%, 95%

y 99% para la media poblacional?

• Otra muestra de 100 corredores arroja un valor de .

Compruebe que los que varían son los intervalos y no la media

poblacional.

• ¡Ojo con la interpretación del intervalo!

• Hay un 95% de probabilidad de que la verdadera media poblacional

este dentro del intervalo [……,……] INCORRECTO

• Hay un 95% de probabilidad de que cualquier intervalo de confianza

generado a partir de una muestra aleatoria contenga a la verdadera

media poblacional. CORRECTOEstadística 2015 - Cátedra Prof. Tamara Burdisso

19.97=X

15.95=X


Ejemplo

• Como tenemos un 95% de probabilidad de que cualquier

intervalo de confianza contenga a la media poblacional,

entonces tenemos un 5% de probabilidad de que no lo

contenga, en cuyo caso estaríamos cometiendo un error.

• Este 5% de probabilidad es conocido como nivel de

significación αααα, o probabilidad de cometer Error de Tipo I


Nivel de significación α

Región de confianza 1-α


Ejercicio

• La General Social Survey de los EE.UU. es una institución que

se ocupa de recopilar datos sobre las características

demográficas y actitudes de los residentes de USA. Durante el

año 2010, la encuestadora entrevistó a 1154 residentes. En

base a los resultados de esta encuesta, se construyó un

intervalo de confianza del 95% para el número de horas diarias

promedio que los residentes americanos dedican al ocio

después de un día de trabajo promedio fue de 3.53 a 3.83

horas. ¿Cuál de las siguientes afirmaciones es correcta?



Ejercicio - continuación

a. 95% de los americanos dedican entre 3.53 y 3.83 horas diarias

al ocio después de un día de trabajo

b. 95% de las muestras de 1154 residentes americanos van a

arrojar intervalos de confianza que contengan al verdadero

número de horas promedio que los americanos dedican al

ocio después de un día de trabajo.

c. 95% de las veces el verdadero número de horas promedio

que los residentes americanos dedican al ocio después de un

día de trabajo es 3.53 y 3.83

d. Se tiene una confianza del 95% que los residentes americanos

de esta muestra dedican en promedio entre 3.53 y 3.83 horas

al ocio después de un día de trabajo.



Tamaño de la muestra vs. certeza

• Dado un margen de error deseado, un nivel de confianza,

información sobre la variabilidad de la muestra (o de la

población), se puede determinar el tamaño de muestra

requerido para alcanzar el margen de error deseado.


ME

*

2

=⇒σcZn

* *n

ZZME cXc

σσ ==


Ejemplo

• Un grupo de investigadores desean evaluar el posible efecto

que cierta medicación para epilepsia, recetada a mujeres

embarazadas, tiene sobre el desarrollo cognitivo de sus hijos.

Como evidencia quieren estimar el coeficiente intelectual de

niños de 3 años de edad nacidos de madres que hayan

ingerido esta medicación durante el embarazo. Estudios

previos sugieren que la SD (desviación estándar) del coef.

intelectual de los niños de 3 años es de 18 puntos.

• ¿Qué tamaño debería tener la muestra si se desea un

intervalo de confianza del 90% y un margen de error menor o

igual a 4 puntos?

• ¿Qué ocurriría con el tamaño de la muestra si se quisiera

disminuir el margen de error a 2 puntos?



Ejemplo

• La General Social Survey de los EE.UU. preguntó: “Cuantos días

durante los últimos 30 estuvo su salud mental (stress,

depresión, problemas emocionales) en problemas”. En base a

las respuestas de 1151 residentes de USA, la encuesta reportó

un intervalo del 95% de 3.40 a 4.24 días durante 2010.

• Interpretar este intervalo en el contexto de los datos.

• En el contexto del problema, ¿que significa un intervalo de

confianza del 95%?

• Recordemos que un intervalo de confianza al 95% significa

que, el 95% de los intervalos construidos en base a muestras

aleatorias, del mismo tamaño y de la misma población van a

contener al verdadero parámetro poblacional.



¿Qué ocurre si no conocemos σσσσ?

• Recordemos que estamos suponiendo que n es grande (n>30)

• Si no se conoce σ, la desviación estándar poblacional,

podemos obtener una estimación a partir de la muestra, i.e.

reemplazar a σ por la desviación estándar muestral, S.

Siempre y cuando n>>>>30


n

SZX

nZX cc * * ±⇒±

σ


Intervalo de confianza para una proporción en

muestras grandes

• También se puede estimar la proporción de una población

mediante la construcción de un intervalo de confianza a partir

de una muestra.

• Requisitos para aproximar la Binomial a la Normal:

observaciones i.i.d. y np≥10 y n(1-p)≥10

• El intervalo de confianza para la proporción es


n

ppZpZp cpc

)1(*ˆ *ˆ

ˆ

−±⇒± σ


Intervalo de confianza para una proporción en

muestras grandes

• Nuestro desafío es estimar p, la proporción poblacional, pero

necesitamos un valor de p para calcular el error estándar.

• Solución: estimar el error estándar (SE) utilizando , la

proporción basada en la muestra aletoria.


n

ppp

)ˆ1(ˆˆˆ

−=σ

p̂

n

ppZpZp cpc

)ˆ1(ˆ*ˆ ˆ*ˆ

ˆ

−±⇒± σ

24

Ejemplo

• Cierta industria decide capacitar a sus empleados en un

nuevo programa de adiestramiento en reparación de

máquinas. De acuerdo con la experiencia de la empresa, la

empresa sabe que una persona que apruebe el examen tiene

una alta probabilidad de desempeñarse bien es su puesto.

Después de alguna discusiones la empresa acordó basar la

evaluación del nuevo método de adiestramiento

considerando la proporción de empleados que aprobaron el

examen. De los 64 empleados que asistieron al curso de

capacitación, solo aprobaron el examen 40. Determinar el

intervalo de confianza para la media poblacional con una

confianza del 90%. Interpretar el resultado.

Unidad 4 - Intervalos de confianza


25

Tamaño de la muestra para una proporción

• Al igual que para la media muestral, se puede determinar el

tamaño de muestra requerido para un margen de error

deseado.

• ¿Cual es el tamaño de muestra requerido para estimar la

proporción de fumadores en Argentina si se desea una

confianza del 99% con un margen de error del 5%?

Unidad 4 - Intervalos de confianza


)1(

* * ˆn

ppZZME cpc

−== σ

2

)1(

−=ME

Zppn c

Intervalos de confianza Muestras grandes · PDF fileCondiciones para el intervalo de confianza...

Documents

Transcript of Intervalos de confianza Muestras grandes · PDF fileCondiciones para el intervalo de confianza...