Expresion Del Intervalo de Confianza Para La Media

6
1 Intervalo de confianza para la media poblacional µ de una variable normal Se considera la variable aleatoria normal !~! !; ! , y suponemos que la desviación típica σ es conocida. Estamos interesados en hacer inferencias acerca de la media µ. Para ello tomamos una muestra aleatoria X1, X2, …, Xn y estimamos la media µ mediante la media muestral ! (estimador puntual con mínimo ECM). Por el Teorema del Límite Central sabemos que ! ~! ! ! = !; ! ! = ! ! , de dónde, tipificando, podemos escribir: ! ! ! ! ~! 0 ; 1 Al construir un intervalo de confianza se llama α a la probabilidad de dejar fuera del intervalo el verdadero valor del parámetro que estamos estimando (en este caso la media poblacional), de manera que 1–α es la probabilidad de capturar dicho valor (1–α es la confianza que tenemos en haber capturado el verdadero valor del parámetro). Lo más frecuente es elegir α = 5%, de dónde 1–α = 95%. A α se le llama significación ya 1–α confianza. El intervalo lo construiremos centrado, es decir, si α es la probabilidad de dejarnos fuera del intervalo el verdadero valor de µ, la probabilidad será la misma a ambos lados del intervalo (α/2 a cada lado), según se muestra en la siguiente figura: La expresión de la media muestral tipificada ! !! ! ! ~! 0; 1 se puede representar gráficamente, junto a los límites que dejan a cada lado una probabilidad α/2: En la figura anterior se denota ! ! ! al valor de una variable normal estándar que deja a la derecha una probabilidad igual a α/2. A partir de la figura es fácil ver que se cumple: ! ! ! ! ! ! ! ! ! ! ! = 1 ! Al multiplicar en ambos lados por ! ! , se obtiene: ! ! ! ! ! ! ! ! ! ! ! ! ! = 1 ! Al despejar µ resulta: ! ! ! ! ! ! ! ! ! + ! ! ! ! ! = 1 ! Es decir, la probabilidad de haber capturado µ entre ! ! ! ! ! ! y ! + ! ! ! ! ! es igual a 1‒α, lo cual se suele escribir: !" ! ! = ! ± ! ! ! ! ! A partir de esta expresión es fácil ver que la amplitud del intervalo de confianza es 2! ! ! ! ! , por lo que a la cantidad que se suma y se resta desde el centro del intervalo, ! = ! ! ! ! ! , se le suele llamar semiamplitud del intervalo, aunque también se denomina precisión. Ejemplo 1 Al propietario de una gasolinera le gustaría estimar la cantidad de gasolina vendidos a sus clientes. Asumimos que la cantidad de gasolina vendida tiende a seguir una distribución normal, con una desviación típica de 8,7 litros. De acuerdo con sus registros, selecciona una muestra aleatoria de 60 ventas y para la que la media de litros vendidos es de 32,8. Construiremos un intervalo de confianza de 95% para la media poblacional. Según los datos: ! = 8,7 ! = 60 ! = 0,05 ! = 32,8 Podemos calcular ! ! ! = ! !,!"# = 1,96, con lo que: !" ! ! = 32,8 ± 1,96 8,7 60 = 32,8 ± 2,2 El intervalo resulta: !" ! ! = 30,6; 35,0 Es decir, tenemos una confianza del 95% en que la cantidad media de gasolina vendida a sus clientes está entre 30,6 y 35,0 litros. La semiamplitud del intervalo de confianza es 2,2.Párate a pensar A partir de la expresión del intervalo de confianza, estudia los factores que afectan a su amplitud y cómo lo hacen.1-α α/2 α/2 1α α/2 α/2 z α/2 z α/2 0

description

estadistica

Transcript of Expresion Del Intervalo de Confianza Para La Media

 

 

1  

Intervalo  de  confianza  para  la  media  poblacional  µ  de  una  variable  normal

Se   considera   la   variable   aleatoria   normal  !~! !;! ,   y   suponemos  que   la  desviación   típica  σ   es   conocida.   Estamos   interesados   en   hacer  inferencias   acerca   de   la   media   µ.   Para   ello  tomamos   una   muestra   aleatoria   X1,   X2,   …,   Xn   y  estimamos  la  media  µ  mediante  la  media  muestral  !  (estimador  puntual  con  mínimo  ECM).  

Por   el   Teorema   del   Límite   Central   sabemos   que  !~! !! = !;!! = ! ! ,   de   dónde,   tipificando,  podemos  escribir:  

! − !! !

~! 0; 1  

Al  construir  un  intervalo  de  confianza  se  llama  α  a  la   probabilidad   de   dejar   fuera   del   intervalo   el  verdadero   valor   del   parámetro   que   estamos  estimando  (en  este  caso  la  media  poblacional),  de  manera   que   1–α   es   la   probabilidad   de   capturar  dicho   valor   (1–α   es   la   confianza   que   tenemos   en  haber   capturado   el   verdadero   valor   del  parámetro).  Lo  más  frecuente  es  elegir  α  =  5%,  de  dónde  1–α  =  95%.  A  α  se  le  llama  significación  y  a  1–α  confianza.  

El  intervalo  lo  construiremos  centrado,  es  decir,  si  α   es   la   probabilidad   de   dejarnos   fuera   del  intervalo  el  verdadero  valor  de  µ,   la  probabilidad  será   la  misma  a  ambos   lados  del   intervalo  (α/2  a  cada   lado),   según   se   muestra   en   la   siguiente  figura:  

 La   expresión   de   la   media   muestral   tipificada  !!!! !

~! 0; 1  se  puede  representar  gráficamente,  junto   a   los   límites   que   dejan   a   cada   lado   una  probabilidad  α/2:  

 En  la  figura  anterior  se  denota  !! !  al  valor  de  una  variable   normal   estándar   que   deja   a   la   derecha  una  probabilidad  igual  a  α/2.  

A  partir  de  la  figura  es  fácil  ver  que  se  cumple:  

! −!! ! ≤! − !! !

≤ !! ! = 1 − !  

Al   multiplicar   en   ambos   lados   por   ! !,   se  obtiene:  

! −!! !!!≤ ! − ! ≤ !! !

!!

= 1 − !  

Al  despejar  µ  resulta:  

! ! − !! !!!≤ ! ≤ ! + !! !

!!

= 1 − !  

Es  decir,  la  probabilidad  de  haber  capturado  µ  entre  ! − !! !

!!  y  ! + !! !

!!  es  igual  a  1‒α,  lo  

cual  se  suele  escribir:  

!"! ! = ! ± !! !!!  

A   partir   de   esta   expresión   es   fácil   ver   que   la  amplitud   del   intervalo   de   confianza   es   2!! !

!!,  

por   lo   que   a   la   cantidad   que   se   suma   y   se   resta  desde   el   centro   del   intervalo,   ! = !! !

!!,   se   le  

suele   llamar  semiamplitud  del   intervalo,  aunque  también  se  denomina  precisión.  

Ejemplo  1  Al  propietario  de  una  gasolinera   le  gustaría  estimar   la  cantidad  de  gasolina  vendidos  a  sus  clientes.  Asumimos  que  la  cantidad  de  gasolina  vendida  tiende  a  seguir  una  distribución   normal,   con   una   desviación   típica   de   8,7  litros.  

De   acuerdo   con   sus   registros,   selecciona   una  muestra  aleatoria  de  60  ventas  y  para   la  que   la  media  de   litros  vendidos   es   de   32,8.   Construiremos   un   intervalo   de  confianza  de  95%  para  la  media  poblacional.  

Según  los  datos:  

! = 8,7   ! = 60   ! = 0,05   ! = 32,8  

Podemos  calcular  !! ! = !!,!"# = 1,96,  con  lo  que:  

!"! ! = 32,8 ± 1,968,760

= 32,8 ± 2,2  

El  intervalo  resulta:  

!"! ! = 30,6; 35,0  

Es   decir,   tenemos   una   confianza   del   95%   en   que   la  cantidad  media  de  gasolina  vendida  a  sus  clientes  está  entre  30,6  y  35,0   litros.  La  semiamplitud  del   intervalo  de  confianza  es  2,2.■  

Párate  a  pensar  

A   partir   de   la   expresión   del   intervalo   de   confianza,  estudia   los   factores  que  afectan  a   su  amplitud  y   cómo  lo  hacen.■  

1-α α/2α/2

1‒α

α/2 α/2

zα/2‒zα/2 0

 

 

2  

Determinantes   de   la   amplitud   de   un  intervalo  de  confianza  para  la  media  Si  consideramos   la  semiamplitud  del   intervalo  de  confianza  para  la  media  ! = !! !

!!,  podemos  ver  

que  viene  determinada  por  α,  σ  y  n.  

La   significación  α   es   la   probabilidad   de   dejarnos  fuera   del   intervalo   el   verdadero   valor   del  parámetro,   que   será  mayor   cuanto  más   estrecho  sea   el   intervalo,   es   decir,   al   aumentar   α   se  reduce  la  amplitud  del  intervalo  (α↑  →  d↓).  

La   desviación   típica   σ   es   una   medida   de   la  dispersión  de  la  población,  de  manera  que  cuanto  mayor   sea   σ   mayor   será   la   amplitud   del  intervalo  (σ↑  →  d↑).  

El   tamaño   de   la   muestra   n   aparece   en   el  denominador   de   la   semiamplitud,   por   lo   que   al  aumentar  n  se  reduce  la  amplitud  del  intervalo  (n↑  →  d↓).  

En   las   siguientes   figura   se  muestra   gráficamente  cómo   afecta   a   la   longitud   de   los   intervalos   de  confianza   el   tamaño  muestral  n   y   la   significación  α.   En   todos   los   casos   se   considera   la   misma  desviación  típica  σ  =  2.  

 

 Se  aprecia  claramente  la  reducción  de  la  amplitud  de   los   intervalos  al  aumentar  el   tamaño  muestral  

n  y  el  incremento  de  la  amplitud  de  los  intervalos  al  reducir  la  significación  α.  

Calculo  del  tamaño  muestral  La   semiamplitud   d   se   puede   interpretar   como   el  error   máximo   que   podemos   cometer   en   la  estimación  de   la  media  poblacional   al   emplear   la  media   muestral   con   una   probabilidad   1–α,   es  decir:  

! ! − ! < ! = 1 − !  

De  los  tres  determinantes  vistos  para  la  amplitud  del   intervalo   de   confianza,   sólo   podemos   actuar  sobre   el   tamaño   muestral,   ya   que   la   desviación  típica   poblacional   es   una   cantidad   fija   y   la  significación   α   tiene   un   valor   convenido   de  antemano  (usualmente  α  es  0,05).  

A   partir   de   la   expresión   de   la   semiamplitud,  podemos  despejar  n,  obteniendo:  

! = !"! ! ! !  

Ahora  tenemos  una  expresión  útil  para  calcular  el  tamaño   muestral   que   necesitamos,   si   queremos  garantizar   un   error   máximo   d,   con   probabilidad  1–α,   asumiendo   que   la   desviación   típica  poblacional  es  σ.  

Ejemplo  2  En   el   ejemplo   anterior,   la   semiamplitud   del   intervalo  resultó  d  =  2,2  litros,  al  emplear  una  muestra  formada  por   n   =   60   clientes.   La   precisión   del   intervalo   puede  parecernos   mejorable,   por   ejemplo,   podemos   estar  interesados  en  llegar  a  d  =  1,5  litros.  

¿Qué   tamaño   muestral   tenemos   que   emplear   si  queremos   tener  una  probabilidad  del  95%  de  estimar  la  media  poblacional  con  un  error  menor  que  1,5  litros?  

! =!"! !

!

!=

8,7×1,961,5

!

= 129,2  

Es   decir,   para   garantizar   un   error   máximo   de  estimación  de  1,5  litros,  con  una  probabilidad  del  95%,  necesitamos  una  muestra  de  al  menos  130  clientes.■  

Interpretación   de   un   intervalo   de  confianza  La  construcción  de  un  intervalo  de  confianza  para  la   media,   con   una   determinada   significación   α,   a  partir  de  una  muestra  de  tamaño  n,  es  un  proceso  que,   de   repetirse   un   gran   número   de   veces   (es  decir,   tomando   un   gran   número   de   muestras   de  tamaño   n)   daría   lugar   a   un   gran   número   de  intervalos  diferentes  (ya  que  cada  muestra  tendrá  una   media   muestral   diferente).   Para   estos  

-2,0-1,6-1,2-0,8-0,40,00,40,81,21,62,0

10 20 30 40 50 100 200 300 500 1000Tamaño muestral n

Amplitud de los IC con α = 5%, en función de n

-2,0-1,6-1,2-0,8-0,40,00,40,81,21,62,0

10 20 30 40 50 100 200 300 500 1000Tamaño muestral n

Amplitud de los IC con α = 1%, en función de n

 

 

3  

intervalos  se  cumplirá  que  algunos  contendrán  el  verdadero  valor  µ,  pero  otros  dejarán  fuera  dicho  valor.   La   significación   α   es   la   proporción   de  intervalos  que  dejan  fuera  a  la  media  (por  eso  nos  interesa   tomar   valores   de   α   lo   más   pequeños  posible,  tales  como  α  =  5%,  o  incluso  α  =  1%),  por  lo   que   1‒α   es   la   proporción   de   intervalos   que  contienen  la  media  µ  en  su  interior,  por  lo  que  1‒α  recibe  el  nombre  de  confianza.  

En  el  Ejemplo  1  obtenemos  !"!% ! = 30,6; 35,0  y  decimos  que  tenemos  una  confianza  del  95%  en  que   la   cantidad   media   de   gasolina   vendida   por  cliente   está   entre   30,6   y   35,0   litros.   Hay   que  observar   que   decimos   confianza   y   no  probabilidad,   y   esto   se   debe   a   que  µ   no   es   una  variable   aleatoria   (es   un   valor   fijo,   aunque  desconocido),  por  lo  que,  dada  la  muestra,  µ  está  o  no  está  dentro  del  intervalo.  La  media  µ  está  fija,  y   es   el   intervalo   el   que   la   atrapa   o   no   la   atrapa,  según   la   media   muestral   !   esté   más   o   menos  próxima  al  valor  desconocido  µ.  Errores   comunes   en   la   interpretación   de  un  intervalo  de  confianza  Considera   el   siguiente   escenario:   a   una   muestra  de   100   clientes   les   pedimos   que   califiquen   un  determinado   servicio   que   han   recibido,   en   una  escala   de  0   a   10.   La  media   de   la  muestra   resultó  ! = 7,3.    Supongamos   que   la   desviación   típica   poblacional  es  conocida  y  vale  σ  =  0,8,  es  fácil  comprobar  que,  con   una   significación   α   =   5%,   !"!% ! =7,14; 7,46 .  

Veamos   varias   interpretaciones   erróneas   de  esto:  

a.   "Tenemos   una   confianza   del   95%   de   que   la  media  de  la  muestra  se  sitúa  entre  7,14  y  7,46.  En   realidad   la   confianza   del   95%   es   en   que   la   media  poblacional  µ  está  entre  los  límites,  no  la  media  de  la  muestra,   que   resulta  ! = 7,3   (la   media   muestral   está  siempre  en  el  centro  del  intervalo,  por  definición).  

b.  "El  95%  de  los  clientes  de  la  población  califican  el  servicio  entre  7,1432  y  7,4568.  Nuestra   inferencia   es   en   realidad   acerca   de   la  media,  no   de   las   calificaciones   individuales.   La   confianza   del  95%   es   en   que   la   media   poblacional   está   entre   los  límites.  

c.   “Dado   que   el   tamaño   muestral   es   lo  suficientemente  grande  (n  =  100),  la  población  de  valoraciones  de  los  clientes  es  normal.  "  

El  teorema  del  límite  central  dice  que  la  distribución  de  la   media   muestral   será   aproximadamente   normal  cuando   el   tamaño   muestral   sea   lo   suficientemente  grande.  No  nos  dice  nada  acerca  de  la  distribución  de  la  variable   X:   lo   que   es   aproximadamente   normal   es   la  media   muestral   de   X,   no   la   propia   X,   de   la   que   el  teorema  del  límite  central  no  nos  dice  nada.  

¿Qué   sucede   si   no   conocemos   σ?   La   t   de  Student.  Para   construir   la   expresión   del   intervalo   de  confianza   para   la   media   hemos   partido   de   la  expresión   de   la   media   muestral   tipificada  !!!! !

~! 0; 1 ,   contando   con   que   conocemos   el  

valor  de  σ,  lo  cual  es  muy  poco  frecuente.  

Lo   usual   es   desconocer   el   verdadero   valor   de   la  desviación   típica,   en   cuyo   caso   tenemos   que  estimarlo  a  partir  de  la  desviación  típica  muestral:  

! =!! − ! !!

!!!! − 1

 

No   hay   que   confundir   la   desviación   típica  muestral  S  con  la  desviación  típica  de  la  muestra,  que  se  calcularía  dividiendo  por  n,  en  lugar  de  por  n‒1.  

A  efectos  prácticos  S  puede  calcularse  como:  

! =!

! − 1!! − !!  

Notar  que  !!  es  la  media  de  los  cuadrados  de  los  valores   de   la   muestra,   mientras   que   !!   es   el  cuadrado  de  la  media  muestral.  

Si   la   muestra   es   lo   suficientemente   grande,  digamos   ! > 100,   se   acepta   que   S   es   una   buena  estimación   de   σ,   con   lo   que   !!!

! !   será   muy  

parecido   a   !!!! !

,   por   lo   que   podemos   emplear   S  como  si   fuera   la  verdadera  desviación   típica  de  X  sin  incurrir  en  un  gran  error.  Sin  embargo,  si  n  es  pequeño,   no   podemos   sustituir   !!!

! !   por   !!!

! !,   es  

decir,  no  podemos  decir  que   !!!! !

  es  una  variable  normal   estándar   (aunque   se   le   parecerá,   y   el  parecido  será  tanto  mayor  cuanto  mayor  sea  n).  Párate  a  pensar  

Asegúrate   de   entender   las   afirmaciones   anteriores,  contestando  a  las  siguientes  preguntas:  

¿Por  qué  !!!! !

 no  es  normal  estándar  cuando   !!!! !

 sí  que  lo  era?.  

 

 

4  

¿Por   qué   el   parecido   de   !!!! !

  con   una   variable   normal  estándar  será  mayor  cuanto  mayor  sea  S?.■  

Dada  la  variable  !~! !;! ,  con  σ  desconocida,  de  la  que  podemos  extraer  una  muestra  X1,  X2,  …,  Xn,  con  media  muestral  !  y  desviación  típica  muestral  S,   la  distribución  de     !!!

! !  se  parecerá  a  la  normal  

estándar,   ya  que  al   ser  S   un  estimador   insesgado  de   σ,   esperamos   que   !!!

! !   se   parezca   a   !!!

! !,  

además,   como   la   estimación   S   de   σ,   será   tanto  mejor   cuanto   mayor   sea   n,   el   parecido   de   la  distribución   de   !!!

! !   con   una   variable   normal  

estándar  será  mayor  cuanto  mayor  sea  n.  

A   la   distribución   de   !!!! !

  se   le   denomina   t   de  Student   y,   como   se   ha   razonado,   será   diferente  según  el  valor  de  n,  con  lo  que  en  realidad  se  trata  de  una  familia  de  distribuciones.  En  concreto,  a  la  distribución  de   !!!

! !  se  escribe  !!!!  y  se  nombra  t  

con  n‒1  grados  de  libertad,  siendo  n  el  tamaño  de  la  muestra  con  la  que  se  estima  S.  

En  la  siguiente  figura  se  muestra  es  aspecto  de  la  función   de   densidad   de   probabilidad   de   varias  distribuciones  t,  según  los  grados  de  libertad,  y  se  compara   con   el   aspecto   de   la   variable   normal  estándar:  

 Se   observa   que   a   medida   que   se   incrementa   el  número  de  grados  de   libertad   la  distribución  t   se  asemeja  más  a  una  variable  normal  estándar.  Con  30   ó   más   grados   de   libertad   el   parecido   es   tan  grande  que  cuesta  distinguirlas.  

Para   una   variable   t   con   n   grados   de   libertad   se  verifica  que  su  media  es  igual  a  0,  ! !! = 0,  y  su  varianza   es   ! !! = ! ! − 2 ,   que   tiende   a   1  cuando  n  tiende  a  infinito.  

De   manera   análoga   a   cómo   se   definió   !! ,  definimos   !!;!   como   el   valor   de   una   variable   !!  que  deja  a  la  derecha  una  probabilidad  igual  a  α.  

Al  igual  que  la  distribución  normal  estándar,  la  !!  es   simétrica   con   media   cero,   por   lo   que   se  verificará:  !!;!!! = −!!;! .  

Párate  a  pensar  

¿Cómo   cambia   la   expresión  del   intervalo  de   confianza  para   la   media   poblacional   de   una   variable   normal   si  desconocemos  la  desviación  típica  poblacional.■  

Expresión  del   intervalo  de   confianza  para  la  media  cuando  no  conocemos  σ  Al   no   conocer   el   valor   de   la   desviación   típica  poblacional   σ,   no   podemos   usar   !!!

! !~! 0; 1 ,  

que   se   sustituirá   por   !!!! !

~!!!!,   con   lo   que,  siguiendo  el  mismo  razonamiento  que  empleamos  para   deducir   la   expresión   del   intervalo   de  confianza   para   la   media   poblacional   cuando  conocíamos  la  desviación  típica:  

! −!!!!;! ! ≤! − !! !

≤ !!!!;! ! = 1 − !  

Despejando  la  media  poblacional  obtenemos:  

! ! − !!!!;! !!!≤ ! ≤ ! + !!!!;! !

!!

= 1 − !  

Que  se  puede  escribir  como:  

!"! ! = ! ± !!!!;! !!!  

Ejemplo  3  Estamos   interesados   en   estudiar   el   tiempo   que   tarda  en  completarse  una  reacción,  para  lo  cual  tomamos  una  muestra   de   10   realizaciones   de   la  misma,   obteniendo  los  siguientes  tiempos,  en  minutos:  

2,0   2,9   3,1   3,6   3,5   2,9   3,0   3,1   3,6   3,8  

Consideramos  que  la  variable  es  normal.  

Al  ser   !! = 31,5  y   !!! = 101,65,  calculamos:  

! =31,510

= 3,15  

!! =101,6510

− 3,15!109= 0,2694  

! = 0,2694 = 0,519  

Si  trabajamos  con  una  significatividad  del  5%,  al  tener  ! = 10   observaciones,   necesitamos   encontrar   el   valor  de  !!;!,!"#  que,  según  podemos  encontrar  en  la  tabla,  es  igual  a  2,262,  con  lo  que  el  intervalo  de  confianza  para  la   media   es:   !"!% ! = 3,15 ± 2,262 !,!"#

!"= 3,15 ±

0,37 = 2,78; 3,52 ,  es  decir,  tenemos  una  confianza  del  

Normal estándar

t1

t3

t5t10

0

 

 

5  

95%   en   que   el   tiempo   de   reacción   medio   está   entre  2,78  y  3,52  minutos.■  

Calculo   del   tamaño   muestral   cuando   no  conocemos  σ  Por   un   razonamiento   similar   al   que   empleamos  para   estudiar   el   tamaño   muestral   cuando   sí  conocíamos   la   desviación   típica   poblacional,  σ,   y  teniendo   en   cuanta   que   cuando  no   la   conocemos  la   estimamos   mediante   la   desviación   típica  muestral   S,   sustituyendo   !! !   por   !!!!;! !,  llegamos  a  la  expresión:  ! = !"!!!;! ! ! !  

Esta   expresión   presenta   dos   problemas.   El  primero   es   que   para   calcular   n   necesitamos  conocer   el   valor   S,   que   no   se   conoce   hasta   que  tomamos   la   muestra   cuyo   tamaño   queremos  determinar.   La   solución   a   este   problema   es  disponer  de  una  muestra  previa  para  estimar  S.  El  segundo   problema   se   debe   a   la   necesidad   de  conocer  el  valor  de  !!!!;! !,  que  a  su  vez  depende  del  valor  n.  Este  problema  se  puede  solucionar  si  asumimos   que   n   será   lo   suficientemente   grande  como  para  poder  aproximar  !!!!;! !  con  !! !,  si  al  hacer   esto   obtenemos   un   valor   de   n   pequeño,  podemos   emplear   este   valor   para   calcular  !!!!;! !.  

Ejemplo  4  Con  la  información  del  Ejemplo  3,  estamos  interesados  en   estimar   el   tiempo  medio   de   reacción   con   un   error  máximo  de  0,2  minutos  y  una   significación  del  5%,  es  decir,  queremos  que  la  probabilidad  de  que  el  error  de  estimación  sea  menor  que  0,2  minutos  sea  del  95%.  

Para  emplear  la  expresión:  ! = !"!!!;! ! !!  usamos  

la   desviación   típica   de   la   muestra   previa   de   10  observaciones,   ! = 0,519   y   asumimos   que  n   será   lo  suficientemente   grande   para   poder   aproximar  !!!!;! !  con  !! !,  con  todo,  la  fórmula  queda:  

! = 0,519!!,!"# 0,2!= 0,519×1,96 0,2 ! = 25,9  

Como   n   es   el   tamaño   muestral   mínimo,   siempre  redondearemos   por   exceso,   con   lo   que   obtenemos  ! = 26.  De  haber  obtenido  un  valor  para  n  mayor  que  100,   el   problema   se   habría   terminado,   pero   este  resultado   contradice   la   suposición   de   “n   lo  suficientemente  grande”,  por  lo  que  recalculamos  n  con  la  expresión  ! = !"!!!;! ! !

!   empleando  ! = 26   en  

la  parte  derecha  de  la  expresión:  

! = 0,519!!";  !,!"# 0,2!= 0,519×2,06 0,2 ! = 28,6  

Ahora  tenemos  ! = 29  y,  para  comprobarlo,  volvemos  a  calcular  n,  usando  el  nuevo  valor  en  la  parte  derecha  de  la  ecuación:  

! = 0,519!!";  !,!"# 0,2!= 0,519×2,05 0,2 ! = 28,3  

Al   volver   a   obtener   ! = 29,   detenemos   el   proceso   y  decimos  que  necesitamos  una  muestra  de  al  menos  29  observaciones   para   estimar   el   tiempo   medio   de  reacción  de  manera  que  la  probabilidad  de  cometer  un  error  mayor  que  0,2  sea  del  5%.■  

Intervalo   de   confianza   para   una  proporción  En   la   sección   de   economía   del   diario   El   País   del  martes   14  de   febrero  de  2012   se   puede   leer   que  393  de   los   3.836   taxis   del   área  metropolitana  de  Valencia   funcionan  con  motor  híbrido.  El  número  de  taxis  que  funcionan  con  motor  híbrido  (393)  es  una   cantidad   absoluta,   y   necesitamos   referirlo   al  total   de   taxis   del   área  metropolitana   de   Valencia  para   comprender   lo   que   supone   dicha   cifra   en  términos   relativos   (393   de   3.836).   El   expresar  dicha   cifra   en   términos   porcentuales   también  ayuda   a   comprender   lo   que   suponen   393   taxis  sobre   un   total   de   3.836   y   esto   se   consigue  escribiendo:  

100× 393 3836 = 10,25%  

Que  se  lee:  el  10,25  por  ciento  de  los  taxis  del  área  metropolitana   de   Valencia   funcionan   con   motor  híbrido.  Si  no  multiplicamos  por  100  obtenemos  la  proporción:  

! = 393 3836 = 0,1025  

Hemos   usado   la   letra   griega   π   para   denotar   la  proporción  poblacional.  Párate  a  pensar  

¿Qué  es  π,  un  parámetro  o  un  estadístico?  ■  

Si   desconocemos   el   valor   de   π   y   queremos  estimarlo  a  partir  de  una  muestra   formada  por  n  taxis,   tomados   al   azar,   del   área  metropolitana  de  Valencia,  el  estimador  razonable  es   la  proporción  muestral.   Para   calcular   la   proporción   muestral  denotamos  X  el  número  de  taxis  de  la  muestra  que  funcionan  con  motor  híbrido.  X   será  una  variable  aleatoria  binomial  !~!" !;! ,  con  n  el  tamaño  de  la  muestra   y  π   la   proporción  poblacional   (que   es  un  parámetro,  por  ser  poblacional).  La  proporción  muestral  es  ! = ! !.   Si  !" ≥ 5  y  ! 1 − ! ≥ 5   la  variable   X   es   aproximadamente   normal,   con  media  !"   y   desviación   típica   !" 1 − ! .   Al   ser  ! = ! !,   se   puede   comprobar   que   p   es  aproximadamente  normal,  con  parámetros:  

!~! ! = !;! = ! 1 − ! !  

 

 

6  

Tipificando,  podemos  escribir:  ! − !

! 1 − ! !~! 0; 1  

De   lo   anterior   se   deduce   que   una   expresión   del  intervalo   de   confianza   para   la   proporción  poblacional  π  se  puede  escribir:  

!"! ! = ! ± !! ! ! 1 − ! !  

Al   desconocer   el   valor   de   π,   sustituimos   la  expresión  anterior  por:  

!"! ! = ! ± !! ! ! 1 − ! !  

Ejemplo  5  La   organización   de   un   gran   congreso   celebrado   en  Valencia   está   interesada   en   estimar   la   proporción   de  los   asistentes   a   la   misma   que   gastan   más   de   150   €  diarios   durante   su   estancia   en   Valencia.   Para   ello  pregunta  a  50  asistentes  elegidos  al  azar,  de  los  que  16  contestan  positivamente.  

La   estimación   puntual   de   la   proporción   de   interés   es:  ! = 16 50 = 0,32,   es  decir,   estimamos  que  el  32%  de  los  asistentes  al  congreso  gastan  más  de  150  €  diarios.  

Sabemos  que  de  haber   tomado  una  muestra  diferente  la   estimación  podría   haber   resultado  diferente,   por   lo  que   construiremos   un   intervalo   de   confianza   con   una  significación   α   =   5%   (una   confianza   del   95%)   para  dicha  proporción.  

!"!% ! = 0,32 ± !!,!"# 0,32 1 − 0,32 50  

Recordamos   que   !!,!"#   es   el   valor   de   una   variable  normal   estándar   que   deja   a   la   derecha   una  probabilidad  del  2,5%,  es  decir,  deja  a  la  izquierda  una  probabilidad   del   97,5%,   es   decir:   !!,!"# = 1,96,   de  donde:  

!"!% ! = 0,32 ± 0,1293 = 0,1907; 0,4493  

Es   decir,   tenemos   una   confianza   del   95%   en   que   la  proporción   de   asistentes   que   gastan   más   de   150   €  diarios  está  entre  el  19,07%  y  el  44,93%.■

Tamaño   muestral   para   estimar   una  proporción  La   semiamplitud   del   intervalo   de   confianza   es  ahora  ! = !! ! ! 1 − ! !,   con   lo  que  podemos  despejar  n,  obteniendo:  

! =!! !

!

!! 1 − !  

De   nuevo   tenemos   el   problema   de   no   poder  conocer   p   hasta   que   tengamos   la   muestra   cuyo  tamaño   queremos   determinar,   por   lo   que,   si   no  disponemos   de   una   muestra   preliminar,   nos  

ponemos  en  el  peor  de   los  casos,  que  se  produce  cuando  ! = 0,5.  

Ejemplo  6  Estamos   interesados   en   estimar   la   proporción   de  mujeres   que   han   estado   pasivamente   expuestas   al  humo   del   tabaco   durante   la   gestación,   para   lo   que  tomaremos   una   muestra.   Indica   el   tamaño   muestral  que   debemos   tomar,   si   trabajamos   con   una  significación   del   5%,   no   tenemos   ninguna   idea   previa  acerca   del   valor   de   la   proporción   que   queremos  estudiar,   y   queremos   que   el   error   de   estimación   sea  inferior  al  1%.  

! =!! !

!

!! 1 − !  

Como  no  tenemos   información  previa  acerca  del  valor  de  p   nos   ponemos   en   el   peor   de   los   casos:  ! = 0,5 →! 1 − ! = 0,25.  

Según  el  enunciado  es:  α  =  0,05  y  d  =  0,01.  

Con   todo   esto:   ! =!! !!

!! 1 − ! = !!,!"#

!,!"

!0,25 =

!,!"!,!"

!0,25 = 9604  

Necesitamos   un   tamaño   muestral   de   al   menos   9604  individuos.■  

Ejemplo  7  

En   el   Ejemplo   6,   indica   como   cambiaría   el   tamaño  muestral   que   necesitamos,   si   sabemos,   por   estudios  previos,   que   la   proporción   que   queremos   estimar   no  superará,  en  ningún  caso,  el  30%.  

Al  saber  que  p  no  excederá  de  0,30,  el  peor  de  los  casos  que   contemplamos   es   ! = 0,3 → ! 1 − ! = 0,21,   por  

lo  que  al  calcular  n  obtenemos:  ! =!! !!

!! 1 − ! =

!!,!"#!,!"

!0,21 = !,!"

!,!"

!0,21 = 8067,36 ≈ 8068  

Necesitamos   un   tamaño   muestral   de   al   menos   8068  individuos.■