Tema 4 Muestreo por conglomerados - personal.us.espersonal.us.es/jmayor/ficheros/me204.pdf · En el...

13
Muestreo Estad´ ıstico II Diplomatura de Estad´ ıstica. Curso Segundo Facultad de Matem´ aticas Universidad de Sevilla Tema 4 Muestreo por conglomerados Versi´ on 2006-2007-α Jos´ e A. Mayor Gallego Departamento de Estad´ ıstica e Investigaci´ on Operativa Universidad de Sevilla

Transcript of Tema 4 Muestreo por conglomerados - personal.us.espersonal.us.es/jmayor/ficheros/me204.pdf · En el...

Page 1: Tema 4 Muestreo por conglomerados - personal.us.espersonal.us.es/jmayor/ficheros/me204.pdf · En el muestreo por conglomerado se obtiene una muestra de conglomerados. Se debera pues

Muestreo Estadıstico IIDiplomatura de Estadıstica. Curso Segundo

Facultad de Matematicas

Universidad de Sevilla

Tema 4Muestreo por conglomerados

Version 2006-2007-α

Jose A. Mayor Gallego

Departamento de Estadıstica e Investigacion Operativa

Universidad de Sevilla

Page 2: Tema 4 Muestreo por conglomerados - personal.us.espersonal.us.es/jmayor/ficheros/me204.pdf · En el muestreo por conglomerado se obtiene una muestra de conglomerados. Se debera pues

Indice

1. Introduccion. Necesidad del muestreo por conglomerados 1

2. Muestreo por conglomerados en una etapa 1

2.1. Estimacion de la media poblacional. Descomposicion del estimador de Horvitz-Thompson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

2.2. Seleccion de conglomerados con diseno MAS(M, g) . . . . . . . . . . . . . . 3

2.3. Eficiencia del muestreo de conglomerados en comparacion al muestreo alea-torio simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.4. Parametros no lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

3. Muestreo por conglomerados en dos etapas 7

3.1. Estimacion de la media poblacional. Descomposicion del estimador de Horvitz-Thompson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

3.2. Seleccion de conglomerados y de unidades secundarias con diseno MAS. Es-timacion de Y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3.3. Parametros no lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

4. Muestreo polietapico 11

Page 3: Tema 4 Muestreo por conglomerados - personal.us.espersonal.us.es/jmayor/ficheros/me204.pdf · En el muestreo por conglomerado se obtiene una muestra de conglomerados. Se debera pues

F.M. Muestreo Estadıstico II. Tema 4: Muestreo por conglomerados 1

1. Introduccion. Necesidad del muestreo por conglomerados

Los disenos muestrales estudiados anteriormente presuponıan la existencia de un marco,bien conocido y disponible, donde se recogen las unidades poblacionales finales,

U = {1, 2, . . . , N}

No obstante, en muchas situaciones practicas, este marco no esta disponible, y su ela-boracion puede ser muy costosa, e incluso imposible. En tales casos, se puede dividir lapoblacion en grupos o agregados de unidades finales, y aplicar el muestreo sobre estos.Dichos grupos o agregados se denominan conglomerados.

Por ejemplo, en una encuesta que se quiera realizar sobre las personas del DistritoSur de Sevilla capital, dividido en numerosas secciones censales, es decir, pequenas zonasgeograficas de dicho distrito determinadas por calles, plazas, etc, se seleccionara primerouna muestra de tales secciones censales, y a continuacion se estudiaran las personas de lassecciones censales de dicha muestra. Este estudio se puede realizar tanto estudiando lassecciones de forma exhaustiva (muestreo por conglomerado en una etapa), como haciendoel estudio mediante nuevos muestreos (muestreo por conglomerados en dos o mas etapas).Ver ejemplos adicionales en el Tema 2.

Como puede verse, en el muestreo por conglomerados se parte de una estructura de lapoblacion en clases o subpoblaciones que forman una particion, como ocurre tambien en elmuestreo estratificado, pero la similitud termina aquı. En el muestreo estratificado seobtiene una muestra en todos y cada uno de los estratos. En el muestreo por conglomeradose obtiene una muestra de conglomerados.

Se debera pues tener mucho cuidado en no confundir muestreo estratificado con muestreopor conglomerados pues ello puede acarrear graves consecuencias.

OBSERVACION MUY IMPORTANTE: En el Tema 2. hemos mencionado un pro-cedimiento general para obtener estimaciones a partir de disenos complejos, empleando lasprobabilidades de inclusion. Este procedimiento es general para todo tipo de situaciones.No obstante, en este Tema 4. estudiamos el muestreo por conglomerados desde un enfo-que mas teorico y especıfico, obteniendo una serie de expresiones para los estimadores ysu varianza que pueden ser aplicados en determinadas situaciones. Sin embargo, en casosmas generales, con disenos que tienen un elevado nivel de complejidad, estas expresiones noseran operativas, y se empleara la metodologıa expuesta en el citado Tema 2.

2. Muestreo por conglomerados en una etapa

La poblacion U = {1, 2, . . . , N} esta dividida en conglomerados, C1, . . . , CM , los cualesforman las unidades primarias, y cada uno de ellos esta constituido por unidades finales deU , siendo Ni el numero de elementos de Ci,

Ci = {i1, . . . , iNi}

de modo que forman una particion del espacio. Tenemos pues una poblacion de conglome-rados,

Uc = {C1, C2, . . . , CM}

Jose A. Mayor Gallego. Universidad de Sevilla

Page 4: Tema 4 Muestreo por conglomerados - personal.us.espersonal.us.es/jmayor/ficheros/me204.pdf · En el muestreo por conglomerado se obtiene una muestra de conglomerados. Se debera pues

F.M. Muestreo Estadıstico II. Tema 4: Muestreo por conglomerados 2

en la cual se selecciona una muestra de g conglomerados,

mc = {Cj1 , Cj2 , . . . , Cjg} = {j1, j2, . . . , jg}

y una vez obtenida la muestra, cada conglomerado Ci ∈ mc, es estudiado en su totalidad,es decir, mediante la observacion de todos sus elementos,

Ci = {i1, i2, . . . , iNi}

Como puede verse, aquı solo hay UN MUESTREO, el que se emplea para seleccio-nar los conglomerados. Despues, cada conglomerado en la muestra se investiga NO PORMUESTREO SINO POR CENSO.

Los conglomerados son las unidades primarias. Los elementos que forman los conglome-rados son las unidades finales.

2.1. Estimacion de la media poblacional. Descomposicion del estimadorde Horvitz-Thompson

En el caso que estudiamos, dado el diseno muestral sobre los conglomerados, tendremosunas probabilidades de inclusion de las unidades primarias o conglomerados,

πci : Probabilidad de que el conglomerado Ci

este en la muestra mc

y analogamente para las probabilidades de inclusion de segundo orden, πcij .

Observemos que, como al escoger al conglomerado Ci, se escogen tambien TODAS lasunidades que pertenecen al mismo, tendremos las siguientes probabilidades de inclusionpara las unidades finales,

πk = πci si k ∈ Ci ∀k ∈ U

πkl =

πc

ij si k ∈ Ci, l ∈ Cj

πci si k, l ∈ Ci

∀k, l ∈ U

Si queremos estimar la media poblacional,

Y =1N

∑i∈U

yi

tendremos,

Y =1N

∑k∈m

yk

πk=

1N

∑i∈mc

∑k∈Ci

yk

πk

=1N

∑i∈mc

1πc

i

∑k∈Ci

yk =1N

∑i∈mc

Ni

πci

1Ni

∑k∈Ci

yk =1N

∑i∈mc

Ni

πci

Y (Ci)

donde Y (Ci) denota la media de Y sobre el conglomerado Ci, es decir,

Y (Ci) =1Ni

∑k∈Ci

yk

Jose A. Mayor Gallego. Universidad de Sevilla

Page 5: Tema 4 Muestreo por conglomerados - personal.us.espersonal.us.es/jmayor/ficheros/me204.pdf · En el muestreo por conglomerado se obtiene una muestra de conglomerados. Se debera pues

F.M. Muestreo Estadıstico II. Tema 4: Muestreo por conglomerados 3

2.2. Seleccion de conglomerados con diseno MAS(M, g)

Para este diseno, tenemos las probabilidades de inclusion,

πci =

g

M

πcij =

g(g − 1)M(M − 1)

i 6= j

siendo pues,

Y =1N

∑i∈mc

Ni

πci

Y (Ci) =1N

∑i∈mc

Ni

g/MY (Ci) =

1g

∑i∈mc

MNi

NY (Ci)

y si denotamos Ni/N = wi y Zi = Mwi Y (Ci) tendremos,

Y =1g

∑i∈mc

Mwi Y (Ci) =1g

∑i∈mc

Zi = z

es decir, la media muestral de la variable Z. La varianza sera pues,

V [Y ] = (1g− 1

M)S2

z

y un estimador insesgado de la misma,

V [Y ] = (1g− 1

M)s2

z

con lo que el problema queda resuelto, al menos en principio. A continuacion exponemosun ejemplo en el cual se ve, de forma esquematica, la forma de proceder para realizar laestimacion de la media y de la varianza de dicha estimacion.

EJEMPLO 1 Las N = 1500 familias de una poblacion estan agrupadas por distritos, ytenemos M = 100 distritos que usamos como conglomerados, es decir,

Uc = {1, 2, . . . , 100}

de los cuales seleccionamos 5 usando MAS(100, 5), obteniendo la siguiente muestra de conglo-merados,

mc = {23, 37, 58, 70, 80}

Con estos datos vamos a estimar la media de una variable, Y definida sobre las mencionadasfamilias. Notemos que las unidades primarias son los distritos (conglomerados) y las unidadesfinales las familias. La poblacion objetivo de estudio son las familias (no los distritos).

La inspeccion de TODAS las unidades finales o familias de los conglomerados obtenidosha proporcionado los siguientes valores,

i Ni T (Ci) Y (Ci) Zi = MwiY (Ci)23 10 78821 7882,10 5254,73337 20 161663 8083,15 10777,53358 20 166206 8310,30 11080,40070 20 163887 8194,35 10925,80080 10 79588 7958,80 5303,387

Jose A. Mayor Gallego. Universidad de Sevilla

Page 6: Tema 4 Muestreo por conglomerados - personal.us.espersonal.us.es/jmayor/ficheros/me204.pdf · En el muestreo por conglomerado se obtiene una muestra de conglomerados. Se debera pues

F.M. Muestreo Estadıstico II. Tema 4: Muestreo por conglomerados 4

donde T (Ci) denota el total de la variable sobre los conglomerados. Esto nos permite obtenerla siguiente estimacion,

Y = z =15(5254,733 + . . . + 5303,387) = 8668,371

y para el error,

V [Y ] = (1g− 1

M)s2

z = (15− 1

100)× 9584618,927 = 1821077,596

4

Notemos que en la expresion de V [Y ] aparece S2z donde Zi = MwiY (Ci). Se observa

pues que si las medias de los conglomerados, Y (Ci), tienen poca variabilidad, pero los Ni

son muy distintos, entonces dicha varianza puede ser muy elevada, y por consiguiente laestimacion de Y tendra poca precision. Tal es el caso del ejemplo anterior, donde los tamanosde los conglomerados, Ni, son muy diferentes, y ello ha producido una varianza muyelevada. Veamos como solucionar este problema.

SOLUCION A: Es posible construir un estimador alternativo que contemple la varia-cion del tamano de los conglomerados, de la siguiente forma. Si observamos que la mediapoblacional es la razon de totales de las variables T (Ci) y Ni, es decir,

Y =

∑i∈Uc

T (Ci)∑i∈Uc

Ni

podemos dar el siguiente estimador de dicha razon,

Y R =

∑i∈mc

T (Ci)g/M∑

i∈mc

Ni

g/M

=

∑i∈mc

T (Ci)∑i∈mc

Ni

cuyo error se estudia usando las tecnicas de aproximacion lineal expuestas en el Tema 3.de Muestreo Estadıstico I. En particular, para la varianza estimada se obtiene facilmentela siguiente expresion,

V [Y R] = (1g− 1

M)

1(1g

∑i∈mc

Ni

)2

1g − 1

∑i∈mc

(T (Ci)− Y RNi)2

cuya aplicacion practica se simplifica definiendo la variable auxiliar,

Zi = T (Ci)− Y RNi i ∈ Uc

EJEMPLO 2 Vamos a repetir la estimacion del ejemplo anterior, pero empleando el estimadoralternativo de tipo razon. Recordemos que hay N = 1500 familias o unidades finales, clasificadasen M = 100 distritos que usamos como conglomerados, es decir,

Uc = {1, 2, . . . , 100}

Jose A. Mayor Gallego. Universidad de Sevilla

Page 7: Tema 4 Muestreo por conglomerados - personal.us.espersonal.us.es/jmayor/ficheros/me204.pdf · En el muestreo por conglomerado se obtiene una muestra de conglomerados. Se debera pues

F.M. Muestreo Estadıstico II. Tema 4: Muestreo por conglomerados 5

de los cuales seleccionamos 5 usando MAS(100, 5), obteniendo la siguiente muestra de conglo-merados,

mc = {23, 37, 58, 70, 80}

Con estos datos vamos a estimar la media de Y , usando el estimador alternativo, Y R. Lainspeccion de todas las unidades de los conglomerados obtenidos proporciona los siguientesvalores,

i Ni T (Ci) Zi = T (Ci)− Y RNi

23 10 78821 −2449,62537 20 161663 −878,25058 20 166206 3664,75070 20 163887 1345,75080 10 79588 −1688,625

de donde obtenemos la siguiente estimacion,

Y R =

∑i∈mc

T (Ci)∑i∈mc

Ni

=78821 + 161663 + 166206 + 163887 + 79588

10 + 20 + 20 + 20 + 10= 8127,063

cuya varianza podemos estimar mediante,

V [Y R] = (1g− 1

M)

1(1g

∑i∈mc

Ni

)2

1g − 1

∑i∈mc

(T (Ci)− Y RNi)2

= (15− 1

100)

1(80/5)2

× 14×

((−2449,625)2 + (−878,250)2 + 3664,7502

+1345,7502 + (−1688,625)2)

= 4613,599 4

Como puede verse, hemos obtenido un error de muestreo manifiestamente mas reducidoque en el ejemplo anterior en el que empleabamos el estimador basico. Ello nos hace pensarque la estimacion de la media es mas precisa.

SOLUCION B: Recordemos que el estimador de la media para un diseno cualquiera es,

Y =1N

∑i∈mc

Ni

πci

Y (Ci)

y si recordamos la teorıa de los disenos ΠPS que hemos visto en el Tema 1., concluimos quetambien es posible reducir la varianza, o sea, reducir el error de muestreo, seleccionandolos conglomerados con probabilidades proporcionales a los valores de Ni, es decir, emplearun diseno ΠPS como el de Madow o el de Sampford, para seleccionar la muestra de con-glomerados, empleando el tamano de los mismos, Ni, precisamente como variable tamano.Esto es lo que se hace por ejemplo en el trabajo propuesto para el presente curso en el cuallas secciones censales del Distrito Sur de Sevilla son conglomerados, y se selecciona unamuestra de los mismos mediante el metodo de Madow, empleando la poblacion de 20 a 39anos de cada seccion censal como variable tamano.

Jose A. Mayor Gallego. Universidad de Sevilla

Page 8: Tema 4 Muestreo por conglomerados - personal.us.espersonal.us.es/jmayor/ficheros/me204.pdf · En el muestreo por conglomerado se obtiene una muestra de conglomerados. Se debera pues

F.M. Muestreo Estadıstico II. Tema 4: Muestreo por conglomerados 6

2.3. Eficiencia del muestreo de conglomerados en comparacion al mues-treo aleatorio simple

Empleando el concepto de efecto del diseno, vamos a comparar, en terminos de precision,el estimador de Horvitz-Thompson de la media en muestreo por conglomerados con seleccionde los mismos mediante MAS(M, g), con el estimador usual del muestreo aleatorio simplebasico.

Para ello, compararemos las varianzas de las respectivas estimaciones. Denotaremos porVCON[Y ] la correspondiente al muestreo por conglomerados, y por VMAS[Y ] la correspon-diente al muestreo aleatorio simple basico.

Para simplificar el estudio, supondremos que todos los conglomerados son del mismotamano Ni = N0, ∀i, por lo que MN0 = N . Ademas, n = gN0.

Recordemos que en el estudio del muestreo estratificado, en el Tema 2., se obtuvo lasiguiente descomposicion para la cuasivarianza,

(N − 1)S2y =

L∑h=1

(Nh − 1)S2yh +

L∑h=1

Nh(Y h − Y )2

y puesto que, estructuralmente, los conglomerados se comportan de la misma forma quelos estratos, en el sentido de ser una division de la poblacion, se tendra ahora la siguientedescomposicion totalmente similar,

(N − 1)S2y = (N0 − 1)

∑i∈Uc

S2Ci

+ N0

∑i∈Uc

(Y (Ci)− Y )2

donde ahora las cuasivarianzas en los conglomerados son denotadas por S2Ci

. Los pequenospormenores de esta adaptacion, meramente notacional, se dejan a cargo del lector-estudiante.

Con respecto a la varianza en el muestreo por conglomerados, hemos visto que denotandoZi = Mwi Y (Ci), es,

VCON[Y ] = (1g− 1

M)S2

z

y por una parte se tiene,

1g− 1

M=

1n/N0

− 1N/N0

=N0(1− f)

n

y por otra,

S2z =

1M − 1

∑i∈Uc

(Zi − Z)2

siendo,

Zi = MN0

NY (Ci) = Y (Ci)

y

Z =1M

∑i∈Uc

Zi =1M

∑i∈Uc

Y (Ci) =1M

∑i∈Uc

1N0

∑k∈Ci

yk = Y

por lo que,

VCON[Y ] =N0(1− f)

n

1M − 1

∑i∈Uc

(Y (Ci)− Y )2

Jose A. Mayor Gallego. Universidad de Sevilla

Page 9: Tema 4 Muestreo por conglomerados - personal.us.espersonal.us.es/jmayor/ficheros/me204.pdf · En el muestreo por conglomerado se obtiene una muestra de conglomerados. Se debera pues

F.M. Muestreo Estadıstico II. Tema 4: Muestreo por conglomerados 7

siendo pues el efecto del diseno,

EFD =VCON[Y ]

VMAS[Y ]=

N0

M − 1

∑i∈Uc

(Y (Ci)− Y )2

S2y

y puesto que, por la descomposicion anterior se tiene,

N0

∑i∈Uc

(Y (Ci)− Y )2 = (N − 1)S2y − (N0 − 1)

∑i∈Uc

S2Ci

sustituyendo queda,

EFD =N − 1M − 1

− N0 − 1M − 1

∑i∈Uc

S2Ci

S2y

∈[0,

N − 1M − 1

]donde, como hemos dicho anteriormente, las cantidades S2

Cirepresentan las cuasivarianzas

de la variable Y en cada uno de los conglomerados.

Analizando el efecto del diseno, se concluye que para conglomerados de tamanos iguales,o similares, el muestreo aleatorio simple por conglomerados mejora al muestreo aleatoriosimple basico conforme las dispersiones internas de los conglomerados son mayores. Ası, laparticion de la poblacion en conglomerados dara mejores resultados, en terminos de mayorprecision conforme dichos conglomerados presenten dispersiones internas mas elevadas.

Observemos que esta situacion es precisamente la opuesta a la del muestreo estrati-ficado, en el cual los mejores resultados se obtienen cuando los estratos presentan pocadispersion interna. Esto no supone ninguna contradiccion ni paradoja. Recuerdese que elmuestreo estratificado tiene como objetivo la disminucion del error de muestreo, no ası elde conglomerados, cuyo objetivo es facilitar o incluso posibilitar la realizacion del muestreo.

Otras palabras, uno elige o no hacer el muestreo estratificado dependiendo de una serie defactores, pero el muestreo por conglomerados es en muchas situaciones la unica posibilidad.

2.4. Parametros no lineales

Es posible estimar parametros no lineales mediante muestreo por conglomerados. Veasepor ejemplo la estimacion de una razon de medias en el libro del profesor Mayor, Muestreoen poblaciones finitas: curso basico.

3. Muestreo por conglomerados en dos etapas

Si en cada uno de los conglomerados seleccionados en la primera etapa se realizatambien un proceso de muestreo en lugar de un estudio completo o censo tendremosun muestreo por conglomerados en dos etapas. Denotaremos por mi a la muestra que seextrae del conglomerado Ci, de manera que la muestra final, m esta constituida por todoslos elementos de m1,m2, . . . ,mg.

Por ejemplo, en el trabajo propuesto para este presente curso, se realiza en el DistritoSur de Sevilla un muestreo por conglomerados en dos etapas. En la primera etapa seseleccionan 5 secciones censales mediante el metodo de Madow. En la segunda etapa serealiza en cada una de las 5 secciones censales anteriores un muestreo estratificado conafijacion uniforme, siendo los estratos los grupos A, B, C y D obtenidos combinando sexocon edad. Tenemos pues un muestreo por conglomerados en dos etapas.

Jose A. Mayor Gallego. Universidad de Sevilla

Page 10: Tema 4 Muestreo por conglomerados - personal.us.espersonal.us.es/jmayor/ficheros/me204.pdf · En el muestreo por conglomerado se obtiene una muestra de conglomerados. Se debera pues

F.M. Muestreo Estadıstico II. Tema 4: Muestreo por conglomerados 8

3.1. Estimacion de la media poblacional. Descomposicion del estimadorde Horvitz-Thompson

Dado el diseno muestral sobre los conglomerados, es decir, el que se aplica en la primeraetapa para obtener mc, denotaremos a sus probabilidades de inclusion de primer y segundoorden como sigue,

πci i = 1, 2, . . . ,M πc

ij i, j = 1, 2, . . . ,M

Ademas, en cada conglomerado Ci de la muestra mc se aplica un diseno muestral conprobabilidades de inclusion,

πik k ∈ Ci πi

kl k, l ∈ Ci

siendo pues las probabilidades de inclusion de las unidades finales,

πk = πci π

ik si k ∈ Ci ∀ k ∈ U

πkl = πci π

ikl si k, l ∈ Ci, k 6= l ∀ k, l ∈ U

πkl = πcijπ

ikπ

jl si k ∈ Ci, l ∈ Cj , i 6= j ∀ k, l ∈ U

Denotaremos por mi a la muestra que se extrae del conglomerado Ci, de manera que lamuestra final, m esta constituida por todos los elementos de m1,m2, . . . ,mg.

Si queremos estimar la media poblacional,

Y =1N

∑i∈U

yi

tendremos,

Y =1N

∑k∈m

yk

πk=

1N

∑i∈mc

∑k∈mi

yk

πk=

1N

∑i∈mc

∑k∈mi

yk

πci π

ik

=1N

∑i∈mc

1πc

i

∑k∈mi

yk

πik

=1N

∑i∈mc

Ni

πci

1Ni

∑k∈mi

yk

πik

=1N

∑i∈mc

Ni

πci

Y (Ci)

donde Y (Ci) es precisamente el estimador de Horvitz-Thompson de la media de Y sobre elconglomerado Ci, es decir,

Y (Ci) =1Ni

∑k∈mi

yk

πik

Notese que la diferencia fundamental con el caso de una etapa es que en la expresioncorrespondiente a las anteriores, en lugar de Y (Ci) aparecıa el valor real del parametro, esdecir, Y (Ci) ya que en una etapa el conglomerado Ci no es muestreado sino censado.

Jose A. Mayor Gallego. Universidad de Sevilla

Page 11: Tema 4 Muestreo por conglomerados - personal.us.espersonal.us.es/jmayor/ficheros/me204.pdf · En el muestreo por conglomerado se obtiene una muestra de conglomerados. Se debera pues

F.M. Muestreo Estadıstico II. Tema 4: Muestreo por conglomerados 9

3.2. Seleccion de conglomerados y de unidades secundarias con disenoMAS. Estimacion de Y

La muestra de conglomerados se obtiene mediante MAS(M, g) y en cada conglomeradoCi de la muestra anterior se obtiene a su vez una muestra mi de unidades finales medianteMAS(Ni, ni). Notese que en total hay g+1 muestreos. Se tiene pues πc

i = g/M y πik = ni/Ni.

De forma totalmente similar a como se hizo en el caso de una etapa, sustituyendo en laexpresion anterior, queda [hacerlo],

Y =1g

∑i∈mc

Mwi1ni

∑k∈mi

yk =1g

∑i∈mc

Mwiyi

donde,

mi son las muestras de unidades finales obtenidas en cada conglomerado seleccionadoen la primera etapa.

ni son los tamanos de dichas muestras.

yi son las medias muestrales para cada una de dichas muestras, es decir,

yi =1ni

∑k∈mi

yk i ∈ mc

Para exponer las expresiones de la varianza y su estimacion introduciremos antes algunasnotaciones.

S2i son las cuasivarianzas (poblacionales) correspondientes a los conglomerados Ci, es

decir,

S2i =

1Ni − 1

∑k∈Ci

(yk − Y (Ci))

s2i son las correspondientes cuasivarianzas, es decir,

s2i =

1ni − 1

∑k∈mi

(yk − yi)

S2wY (C)

denota la cuasivarianza de las cantidades wiY (Ci), i ∈ Uc

s2wy denota la cuasivarianza de las cantidades wiyi, i ∈ mc

Con estas notaciones, se obtienen las siguientes expresiones para la varianza de la esti-macion de la media y para la varianza estimada,

V [Y ] = M2(1g− 1

M)S2

wY (C)+

M

g

∑i∈Uc

w2i (

1ni− 1

Ni)S2

i

V [Y ] = M2(1g− 1

M)s2

wy +M

g

∑i∈mc

w2i (

1ni− 1

Ni)s2

i

Jose A. Mayor Gallego. Universidad de Sevilla

Page 12: Tema 4 Muestreo por conglomerados - personal.us.espersonal.us.es/jmayor/ficheros/me204.pdf · En el muestreo por conglomerado se obtiene una muestra de conglomerados. Se debera pues

F.M. Muestreo Estadıstico II. Tema 4: Muestreo por conglomerados 10

Y de forma totalmente similar a como hicimos en una etapa, si definimos la variableZi = Mwiyi, i ∈ mc, obtendremos las siguientes expresiones practicas,

Y = z

V [Y ] = (1g− 1

M)s2

z +M

g

∑i∈mc

w2i (

1ni− 1

Ni)s2

i

Como en el caso de una etapa, si observamos la expresion de la varianza,

V [Y ] = M2(1g− 1

M)S2

wY (C)+

M

g

∑i∈Uc

w2i (

1ni− 1

Ni)S2

i

vemos que en el primer sumando aparece S2wY (C)

, es decir, la cuasivarianza de las cantidades

wiY (Ci), i ∈ Uc, siendo wi = Ni/N .

Se observa que si las medias de los conglomerados, Y (Ci), tienen poca variabilidad, esdecir, son parecidas, y los Ni son muy distintos, entonces dicha varianza puede ser muy ele-vada, y por consiguiente la estimacion de Y tendra poca precision. Nuevamente proponemosdos soluciones,

SOLUCION A: Es posible construir un estimador alternativo que contemple la varia-cion del tamano de los conglomerados, de la siguiente forma. Si observamos que la mediapoblacional es la razon de totales de las variables T (Ci) y Ni, es decir,

Y =

∑i∈Uc

T (Ci)∑i∈Uc

Ni

podemos dar el siguiente estimador de dicha razon,

Y R =

M(1/g)∑

i∈mc

T (Ci)

M(1/g)∑

i∈mc

Ni

=

∑i∈mc

Niyi∑i∈mc

Ni

siendo su varianza estimada,

V [Y R] = g(1− g

M)

1(∑

mcNi)2

1g − 1

∑i∈mc

N2i (yi − Y R)2

+g

M(∑

mcNi)2

∑i∈mc

N2i (

1ni− 1

Ni)s2

i

Como en el caso de una etapa, pueden verse ejemplos practicos totalmente desarrolladosde ambos tipos de estimacion en los libros del profesor Mayor. En estos ejemplos se mani-fiesta claramente la diferencia entre estos dos enfoque de estimacion, y en que situacioneses preferible uno sobre otro.

Jose A. Mayor Gallego. Universidad de Sevilla

Page 13: Tema 4 Muestreo por conglomerados - personal.us.espersonal.us.es/jmayor/ficheros/me204.pdf · En el muestreo por conglomerado se obtiene una muestra de conglomerados. Se debera pues

F.M. Muestreo Estadıstico II. Tema 4: Muestreo por conglomerados 11

SOLUCION B: Recordemos que el estimador de la media para un diseno cualquiera,obtenido al principio de esta seccion, es,

Y =1N

∑i∈mc

Ni

πci

Y (Ci)

Entonces, si recordamos la teorıa de los disenos ΠPS que hemos visto en el Tema 1.,concluimos que tambien es posible reducir la varianza, o sea, reducir el error de muestreo,seleccionando los conglomerados con probabilidades proporcionales a los valores de Ni, esdecir, emplear un diseno ΠPS como el de Madow o el de Sampford, para seleccionar lamuestra de conglomerados, empleando el tamano de los mismos, Ni, precisamente comovariable tamano.

3.3. Parametros no lineales

Es posible estimar parametros no lineales mediante muestreo por conglomerados. Veasepor ejemplo la estimacion de una razon de medias en el libro del profesor Mayor[1], Muestreoen poblaciones finitas: curso basico.

4. Muestreo polietapico

Los metodos de muestreo por conglomerados en una y dos etapas, estudiados anterior-mente, se pueden generalizar, de una forma bastante directa, a cualquier numero de etapas,aunque con mayor complejidad en el manejo de las expresiones. La idea basica es la siguiente:un muestreo en r etapas se puede considerar como un muestreo en dos etapas, englobandolas r− 1 etapas finales en una sola. Como consecuencia, las expresiones correspondientes seobtienen aplicando recursivamente las ya conocidas para dos etapas.

En el libro del profesor Mayor[1] puede verse el desarrollo completo, con un ejemplopractico ilustrativo, de un muestreo por conglomerados en tres etapas.

Referencias y bibliografıa recomendada

[1] Fernandez Garcıa, F.R. y Mayor Gallego, J.A. (1995a). Muestreo en poblaciones fini-tas: Curso basico. E.U.B. Ediciones Universitarias de Barcelona.

[2] Fernandez Garcıa, F.R. y Mayor Gallego, J.A. (1995b). Ejercicios y practicas de mues-treo en poblaciones finitas. E.U.B. Ediciones Universitarias de Barcelona.

Jose A. Mayor Gallego. Universidad de Sevilla