TEOREMA CENTRAL DEL LIMITE Población de elementos a los que se les mide, Y, con media, μ, y...

Post on 10-Feb-2015

10 views 0 download

Transcript of TEOREMA CENTRAL DEL LIMITE Población de elementos a los que se les mide, Y, con media, μ, y...

TEOREMA CENTRAL DEL LIMITE

Población de elementosa los que se les mide, Y,

con media, μ, y desviación σ

Proceso de extracción demuestras al azar,

de tamaño n “grande”

Población teórica (conceptual)

de promedios muestrales.

Frec

uenc

ias

Regularidad estadística del primer orden (se observa en la naturaleza)

Regularidad estadística del segundo orden (se construye como inferencia)

μ

Media μDesviación σ

σ/ n

Y

Y

Y1, Y2, Y3, Y4,...Y100,.. ,Y200,...Y400,...

es el error estándar de la media muestral

TEOREMA CENTRAL DEL LIMITE

El error estándar señala el grado de error que se comete al tratar de conocer μ, con la media muestral.

nyEE

)(

yEs decir que la media muestral es aproximadamente igual a la media poblacional.

La media muestral se acerca más a la media poblacional, mientras más pequeño sea el error estándar.

Si el tamaño de muestra crece, disminuye el error estándar y el conocimiento de la media poblacional con la muestral es mas preciso.

Otra forma de disminuir el error estándar, es procurando mediante el control de variación, tener más factores constantes (o casi) en la población original.

ERROR ESTANDAR DE LA MEDIA MUESTRAL EE(x)

El error estándar depende de un parámetro desconocido que es σ.

Entonces, éste se estima con la desviación estándar de la muestra, s.

En base a las propiedades del modelo de distribución normal, se construyen los llamados intervalos de confianza para conocer μ, la media poblacional.

Estos son:

ERROR ESTANDAR DE LA MEDIA MUESTRAL EE(x)

1

22 nZy

nZyP

A partir del intervalo de confianza anterior, si se puede especificar en la etapa de planeación, el error hacia arriba o hacia abajo que se considera máximo aceptable.

Es decir, se desea que la diferencia máxima entre el valor por obtenerse de , y el parámetro desconocido.

Entonces de la igualdad:

se despeja el valor del tamaño de muestra:

TAMAÑO DE MUESTRA PARA CONOCER UNA MEDIA POBLACIONAL

2

22

2

Z

nn

Z

2

y

Para poder usar la expresión anterior es necesario

conocer el valor de σ.

Usualmente no se conoce, por lo que se recurre a conocimientos previos sobre poblaciones semejantes, o bien se conduce un estudio piloto para estimar el valor de σ e insertarlo en la fórmula.

Por supuesto el estudio piloto también puede servir para ensayar procesos de medición, estimar, costos, etc.

TAMAÑO DE MUESTRA PARA CONOCER UNA MEDIA POBLACIONAL

En ocasiones se utiliza la varianza muestral con estudios pilotos, en donde la muestra es pequeña.

En esos casos se sustituye la por la s de la muestra, pero se utiliza la distribución t de student con n-1 grados de libertad en lugar de la normal estándar Z

TAMAÑO DE MUESTRA PARA CONOCER UNA MEDIA POBLACIONAL

2

22,1

,12

2n

st

n

st nn

TEOREMA CENTRAL DEL LIMITE PARA PROPORCIONES

En el enunciado del teorema central del límite solo se pide que la población tenga elementos en los que se mide una variable numérica.

Entonces se puede considerar el caso de una variable categórica con sólo dos categorías (dicotómica) para hacerla numérica se usa un valor de uno, 1, cuando un elemento tiene la característica A y cero, 0, cuando no.

Entonces se puede demostrar que la media de un conjunto de valores cero y uno es igual a la proporción de unos (los identificados con el 1).

Así la media muestral Y, es la proporción muestral, p; y la media poblacional, , es la proporción poblacional, P.

Además la varianza es igual a P(1-P).

Entonces el teorema central de límite señala que si se toman muestras de tamaño n (grande), de una población con valores cero y uno, con proporción poblacional P; entonces los promedios o proporciones muestrales, tendrán una regularidad estadística modelada con la normal.

TEOREMA CENTRAL DEL LIMITE PARA PROPORCIONES

Los parámetros de esta distribución son una media de P y una desviación estándar (error estándar de P) igual a:

TEOREMA CENTRAL DEL LIMITE PARA PROPORCIONES

nPP

PEE)ˆ1(ˆ

)ˆ(

Población de elementos a los que se mide una variable dicotómica.

Con “1” para “ a” y “ 0” si no.

Proceso de extracciónde muestras de tamaño n

Población teórica de los posibles valores de las proporciones

muestrales. Valores de p.

n grande: np>5 y n(1-p)>5

TEOREMA CENTRAL DEL LIMITE PARA PROPORCIONES

0 1

P

1-P

P

nP(1-P)

P-δ P+δ

1)ˆ1(ˆˆ)ˆ1(ˆˆ

22 nppZpPn

ppZpP

A partir del intervalo de confianza anterior, si se puede especificar en la etapa de planeación, el error hacia arriba o hacia abajo que se considera máximo aceptable.

Es decir, se desea que la diferencia máxima entre el valor por obtenerse de P, y el parámetro desconocido sea

Entonces:

El tamaño de muestra es:

TAMAÑO DE MUESTRA PARA CONOCER UNA PROPORCIÓN POBLACIONAL

2

2 )1(2

PPZ

n

nPP

Z)1(

2

0 500 1000 1500 20000

0.1

0.2

0.3

i

ni

2

2

2)1(

PPZ

n

Tamaño de muestra mínimo para una adecuada cercanía a la normal de la distribución de las p en muchas muestras.

P nmin

0.5 11

0.3 o 0.7 16

0.1 o 0.9 83

0.01 o 0.99 6803

Glen McPherson “Statistics in Scientific Investigation. Its Basis, Application, and Interpretation”

Springer Verlag, 1990

3{P(1-P)}2

2nmin =

10

21 43 5

Error estándar de Yf (Y)

Y

TEOREMA CENTRAL DEL LIMITE

Proceso de tomar

muchas muestras de tamaño n, y

calcular promedios

en cada muestra, Y

Sólo se toma una muestra, pero se evalúa

en relación a la normal

nP>5n(1-P)>5

n>0

n>10

n>30

μ = P, σ2 = P(1-P)

n>30

En todos los casos mencionados, podemos decir, al amparo del

Teorema Central del Límite:

n

y2

,N

nPP

Pp)1(

,N ˆ

Distribución de diferencias de medias de muestras.Consideremos que se toma una muestra de tamaño n1 de una población 1 y otra de tamaño n2 de una población 2. Si ambas muestras son “grandes” o bien la variable de estudio tiene distribucion normal, entonces:

2

22

1

21

2121 ,nn

Nyy

21

22121

11,

nnNyy

nNyy

2

2121

2,

Si las varianzas se pueden considerar iguales:

Si los tamaños de muestra son iguales:

f ( x

1 -x

2)

Regularidad de 2o nivel

x1-x2

.025

Proceso de toma de muestras de tamaños n1 y n2 . Se obtiene:

.025

t gle =n1+n2-2

21 xx

21

nSS

S p22

21

nSS pxx

12

21

1)()(212212 212121 xxxx SZxxSZxxP

nnn 21

f ( x

1 -x

2)

Regularidad de 2o nivel

x1-x2

.025

Proceso de toma de muestras de tamaños n1 y n2 . Se obtiene:

.025

t gle =n1+n2-2

21 xx

21

2)1()1(

21

2221

21

nnnSnS

S p

21

1121 nnSS pxx

1)()(212212 212121 xxxx SZxxSZxxP

o a

región de aceptación región de rechazo

potencia de la prueba1 -

n

ZYYEE YY

2)(

21212)(

0θ 210 Prueba de la hipótesis nula:

fzi

fxi

xi

1θ 21 a

Hipótesis alternativa:

fzi

fxi

xi

5.2θ 21 a

Hipótesis alternativa:

fzi

fxi

xi

4θ 21 a

Hipótesis alternativa:

Fijos

n,..,.., 2

Cambia Cambia

n,..,.., 2

n,..,..,

,..,.., 2

2

n

2

n

2

22

121

ˆ

ZZn

2

22

121

)100

(

)ˆ100(

Y

YZZ

n

Coeficiente de Variación

Diferencia entre medias como % de una media base

Etapa de planeación

δ*

Etapa de análisis

n

ZZ 22

121

La probabilidad de detectar una diferencia entre medias poblacionales de magnitud o mayor es de 1-

Etapa de análisis

n

PPZZ )1(2

121

La probabilidad de detectar una diferencia entre proporciones poblacionales de magnitud o mayor es de 1-

0 500 1000 1500 20000

0.1

0.2

0.3

i

ni

2

2

121

)1(

PPZZn

Donde: = P0 – P1

0 200 400 600 800 1000 1200 14000

0.5

1

1 i

ni

Potencia de prueba en función del tamaño

de muestra

0 0.02 0.04 0.06 0.08 0.1 0.120

0.5

1

1 i

i

Potencia de prueba en función de

0 0.2 0.4 0.6 0.8 10

500

1000

1500

ni

Pi

Tamaño de muestra en función de P

0 0.05 0.1 0.15 0.2 0.250

500

1000

1500

ni

.Pi

1 Pi

Tamaño de muestra en función de la varianza

P(1-P)

EFECTO DE DISEÑO

Kish (1965) propone una expresión para comparar la eficiencia de un diseño muestral complejo con respecto al muestreo aleatorio irrestricto (simple) con el mismo número de elementos:

)ˆ()ˆ(

DEFF

MAI

Diseño

VarVar

Utilidad del DEFF

El DEFF tiene al menos dos utilidades muy importantes:

• Permite evaluar la eficiencia de un diseño muestral complejo.

• Permite ajustar el tamaño de muestra para un diseño de muestreo

complejo.

EFECTO DE DISEÑO EN MUESTREO ESTRATIFICADO

El muestreo estratificado, por lo general, proporciona mayor precisión, por lo que se espera un DEFF menor a 1; a menos que todas las medias de los estratos sean iguales, en cuyo caso sera igual a 1:

1)ˆ()ˆ(

DEFF

MAI

MAE

VarVar

EFECTO DE DISEÑO EN MUESTREO POR CONGLOMERADOS

El muestreo por conglomerados de una etapa, cuando todas las unidades primarias tienen M unidades secundarias, es aproximadamente:

Donde ICC es el coeficiente de correlación intra-clase, generalmente es positivo, por lo que generalmente es mayor a 1.

1)1(1)ˆ(

)ˆ(DEFF ICCM

Var

Var

MAI

MAC

Coeficiente de correlación intra-clase (ICC):

Componente de varianza entre conglomerados:

Componente de varianza dentro de conglomerados:

11

22

2

MDEFF

ICCwb

b

2b

2w

Tamaño de muestra para muestreo por conglomerados corregido:

Si se conoce el efecto de diseño de alguna encuesta similar, es posible corregir el tamaño de la muestra de conglomerados, esto es simplemente:

2

22*

)(2

DEFFZZ

mnn

Tamaño de muestra para muestreo por conglomerados corregido:

Si consideramos tanto el número de conglomerados a seleccionar como el número de elementos dentro de conglomerados a seleccionar M, entonces por sustitución tenemos:

2

22*

))1(1()(2

ICCMZZ

n

Tamaño de muestra para muestreo por conglomerados corregido:

Por despeje se tiene , que se evalúa para diferentes valores combinados de n y m dados los demás términos de la ecuación:

mn

ICCMZZ

))1(1()( 22

2

      Número de unidades por conglomerado, USM(m)

UPM(n) ICC 10 15 20 25 30 35 40 50 60 70 80 90

5 0.013 4.0 1.936 1.625 1.445 1.325 1.239 1.174 1.122 1.045 0.991 0.950 0.919 0.893

10     1.369 1.149 1.022 0.937 0.876 0.830 0.793 0.739 0.701 0.672 0.649 0.632

15     1.118 0.938 0.834 0.765 0.715 0.678 0.648 0.604 0.572 0.549 0.530 0.516

20     0.968 0.813 0.723 0.663 0.620 0.587 0.561 0.523 0.495 0.475 0.459 0.447

30     0.790 0.664 0.590 0.541 0.506 0.479 0.458 0.427 0.405 0.388 0.375 0.365

40     0.684 0.575 0.511 0.469 0.438 0.415 0.397 0.370 0.350 0.336 0.325 0.316

50     0.612 0.514 0.457 0.419 0.392 0.371 0.355 0.331 0.313 0.300 0.290 0.282

Ejemplo.- Cálculo del tamaño de muestra para muestreo por conglomerados corregido:

z/2 (0.025) 1.96z (0.1) 1.282DEFF 2.9M 150

Representación gráfica de la precisión para diferentes tamaños de muestra de

UPM(n) y USM(m):

010

20010

20

0

2

4

6

D

Error máximo permisible ()

Conglomerados, UPM (n) Elementos de muestreo,

USM (m)