Intervalos de confianza -...

24
Cap´ ıtulo 6 Intervalos de confianza 6.1. Notaci´on de percentiles .......................... 2 6.2. Introducci´on ................................... 4 6.3. Intervalos para una poblaci´on ..................... 7 6.3.1. Intervalos para μ y para σ 2 de una variable normal .... 7 6.3.2. Intervalos para una proporci´on p ................... 10 6.3.3. Intervalo aproximado para la media de una poblaci´ on ge- neral ......................................... 12 6.3.4. Intervalos aproximados basados en normalidad asint´ otica de estimadores ................................. 14 6.3.5. Datos (normales) apareados: diferencia de medias ..... 16 6.4. Intervalos para dos poblaciones independientes ....... 17 6.4.1. Caso de dos variables normales .................... 17 6.4.2. Caso de dos proporciones ......................... 21 6.5. Resumen: intervalos de confianza m´ as habituales ..... 23 6.5.1. Intervalos I de confianza 1 α para UNA distribuci´on.. 23 6.5.2. Intervalos I de confianza 1 α para DOS distribuciones 23 Seguimos, en este cap´ ıtulo, embarcados en la tarea de estimar el par´ametro θ de una variable X con funci´ on de densidad/masa f (x; θ) a partir de muestras de la variable de cierto tama˜ no. En el cap´ ıtulo 5 anterior vimos c´omo obtener estimaciones ˆ θ delpar´ametro θ a partir de una juiciosa elecci´ on de estimadores adecuados al modelo en cuesti´on. En este cap´ ıtulo veremos c´omo construir intervalos I =(a, b) de manera que el verdadero (y desconocido) valor de θ con el que se produjo la muestra pertenezca a I con alta confianza. La construcci´ on expl´ ıcita de estos intervalos suele ser complicada, y de hecho olo analizaremos (en detalle, y con ´ exito) el caso en el que X es una variable nor- mal, apoy´ andonos en el teorema 4.7 de Fisher-Cochran. Para el resto de los casos, 1

Transcript of Intervalos de confianza -...

Page 1: Intervalos de confianza - verso.mat.uam.esverso.mat.uam.es/~pablo.fernandez/6-intervalos-curso17-18.pdf · 6.1. Notaci´on de percentiles 3 B. Percentiles de la tde Student con n

Capıtulo 6

Intervalos de confianza

6.1. Notacion de percentiles . . . . . . . . . . . . . . . . . . . . . . . . . . 2

6.2. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

6.3. Intervalos para una poblacion . . . . . . . . . . . . . . . . . . . . . 7

6.3.1. Intervalos para μ y para σ2 de una variable normal . . . . 7

6.3.2. Intervalos para una proporcion p . . . . . . . . . . . . . . . . . . . 10

6.3.3. Intervalo aproximado para la media de una poblacion ge-neral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

6.3.4. Intervalos aproximados basados en normalidad asintoticade estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

6.3.5. Datos (normales) apareados: diferencia de medias . . . . . 16

6.4. Intervalos para dos poblaciones independientes . . . . . . . 17

6.4.1. Caso de dos variables normales . . . . . . . . . . . . . . . . . . . . 17

6.4.2. Caso de dos proporciones . . . . . . . . . . . . . . . . . . . . . . . . . 21

6.5. Resumen: intervalos de confianza mas habituales . . . . . 23

6.5.1. Intervalos I de confianza 1− α para UNA distribucion . . 23

6.5.2. Intervalos I de confianza 1− α para DOS distribuciones 23

Seguimos, en este capıtulo, embarcados en la tarea de estimar el parametro θde una variable X con funcion de densidad/masa f(x; θ) a partir de muestras de lavariable de cierto tamano.

En el capıtulo 5 anterior vimos como obtener estimaciones θ del parametro θ apartir de una juiciosa eleccion de estimadores adecuados al modelo en cuestion.

En este capıtulo veremos como construir intervalos I = (a, b) de manera que elverdadero (y desconocido) valor de θ con el que se produjo la muestra pertenezcaa I con alta confianza.

La construccion explıcita de estos intervalos suele ser complicada, y de hechosolo analizaremos (en detalle, y con exito) el caso en el que X es una variable nor-mal, apoyandonos en el teorema 4.7 de Fisher-Cochran. Para el resto de los casos,

1

Page 2: Intervalos de confianza - verso.mat.uam.esverso.mat.uam.es/~pablo.fernandez/6-intervalos-curso17-18.pdf · 6.1. Notaci´on de percentiles 3 B. Percentiles de la tde Student con n

2 Capıtulo 6. Intervalos de confianza

tendremos que conformarnos con construir intervalos aproximados, apoyandonos enresultados asintoticos. Las secciones 6.3 y 6.4 contienen todos los detalles para loscasos de una unica poblacion, y de dos poblaciones, respectivamente.

A modo de resumen, la seccion 6.5 contiene las formulas de los intervalos deconfianza mas habituales, en terminos de percentiles de diversos modelos estandar,que presentamos en la seccion 6.1 siguiente.

6.1. Notacion de percentiles

En lo que sigue apareceran repetidamente percentiles de cuatro modelos basicos:la normal (estandar), la chi cuadrado, la t de Student y la F de Fisher–Snedecor(veanse sus definiciones y propiedades en la seccion 3.3.1). Resumimos a continuacionla notacion para referirnos a sus percentiles.

A. Percentiles de la normal estandar

Sea Z una variable N (0, 1) (una normal estandar).Para α ∈ (0, 1/2] llamamos zα al numero real tal que

P(Z > zα) = 1− Φ(zα) = α .

El numero zα deja, a su derecha, area α (bajo la grafi-ca de la funcion de densidad de la N (0, 1)). Vease lafigura. El parametro α denota una probabilidad, gene-ralmente pequena, que se suele escribir en porcentaje.Los valores mas habituales son α = 5%, α = 1% y α = 0.1%.

De su definicion se deduce que que zα viene dado por

Φ(zα) = 1− α, esto es, zα = Φ−1(1− α)

En Excel, zα se calcula con la formula =distr.norm.estand.inv(1-α), o bien con=inv.norm.estand(1-α).

Apareceran muy habitualmente, en lo que sigue, percentiles zα/2. La razon esque, si Z ∼ N (0, 1), por simetrıa,

P(|Z| > zα/2) = 2P(Z > zα/2) = α =⇒ P(|Z| ≤ zα/2) = 1− α.

Observese que zα > 0 para α ∈ (0, 1/2], quez1/2 = 0, y que zα → +∞ cuando α → 0+.La tabla adjunta recoge algunos valores (aproxi-mados) de zα (y de zα/2) para los valores mashabituales de α.

α zα zα/25% 1.645 1.9601% 2.326 2.5760.1% 3.090 3.291

notas de estadıstica I – 28 de noviembre de 2017 – jose l. fernandez y pablo fernandez

Page 3: Intervalos de confianza - verso.mat.uam.esverso.mat.uam.es/~pablo.fernandez/6-intervalos-curso17-18.pdf · 6.1. Notaci´on de percentiles 3 B. Percentiles de la tde Student con n

6.1. Notacion de percentiles 3

B. Percentiles de la t de Student con n grados de libertad

Sea Z una stu(n) (t de Student con n grados delibertad, n ≥ 1). Para α ∈ (0, 1/2], denotamos port{n;α} al valor tal que

P(Z > t{n ;α}) = α .

En Excel, estos percentiles t{n;α} se calculan1 como=inv.t(1-α;n).

Por simetrıa, se cumple que

P(Z < −t{n ;α}) = α y que P(|Z| < t{n ;α/2}) = 1− α .

Como en el caso de la normal estandar anterior, se tiene que t{n;α} > 0 para α ∈(0, 1/2], que t{n;1/2} = 0, y que t{n;α} → +∞ cuando α → 0+.

En la siguiente tabla se exhiben algunos valores de estos percentiles para unoscuantos valores de α y n:

α t{2,α} t{3,α} t{4,α} t{50,α} t{500,α}5% 2.920 2.353 2.132 1.676 1.6481% 6.965 4.541 3.747 2.403 2.3340.1% 22.327 10.215 7.173 3.261 3.107

Comparense con los correspondientes percentiles en la normal estandar: si el nume-ro n de grados de libertad muy grande, son practicamente iguales (ejercicio 6.9).

C. Percentiles de la χ2n

Sea Z una χ2n (chi cuadrado con n grados de

libertad). Para α ∈ (0, 1), denotamos χ2{n,α} al

valor tal que

P(Z > χ2{n;α}) = α .

En Excel, el percentil χ2{n,α} se calcula2 como

=inv.chicuad(1-α;n).

Notese que la distribucion de una χ2n no es simetrica, como en los dos casos

anteriores. Mas adelante usaremos que, para cualquier α ∈ (0, 1),

P(χ2{n;1−α/2} < Z < χ2

{n;α/2}) = 1− α .

1En versiones antiguas de Excel, con la instruccion =distr.t.inv(2α;n).2En versiones antiguas de Excel, =prueba.chi.inv(α;n).

notas de estadıstica I – 28 de noviembre de 2017 – jose l. fernandez y pablo fernandez

Page 4: Intervalos de confianza - verso.mat.uam.esverso.mat.uam.es/~pablo.fernandez/6-intervalos-curso17-18.pdf · 6.1. Notaci´on de percentiles 3 B. Percentiles de la tde Student con n

4 Capıtulo 6. Intervalos de confianza

D. Percentiles de la F de Fisher–Snedecor con n y m grados de li-bertad

Sea Z una Fn,m (una F con n y m gradosde libertad). Para α ∈ (0, 1), denotamos porF{n,m;α} al valor tal que

P(Z > F{n,m ;α}) = α .

En Excel, los percentiles F{n,m;α} se calculan3

como =inv.f(1-α;n;m).

Observese que

P(F{n,m ; 1−α/2} < Z < F{n,m ;α/2}) = 1− α ,

y tambien que, por la definicion de la distribucion F (seccion 3.3.2),

F{n,m ; 1−α} =1

F{m,n ;α}.

� Nota 6.1.1. Recuerdese que si X ∼ Fn,m, entonces 1/X ∼ Fm,n. Esto sale de la propia definicionde la F de Fisher (apartado 3.3.2). De manera que

P(Z > F{n,m ;α}) = α =⇒ P( 1

Z<

1

F{n,m ;α}

)= α,

y por tanto 1/F{n,m ;α} es el percentil α de una Fm,n.

6.2. Introduccion

Como ilustracion del concepto de intervalo de confianza, empezaremos con el caso“teorico” del intervalo para la media μ de una variable X ∼ N (μ, σ2) suponiendoque σ2 es conocida4.

Analisis probabilista (en activa). Para la muestra aleatoria (X1, . . . ,Xn) de Xsabemos que

X =1

n

n∑i=1

Xi se distribuye como una N (μ, σ2/n) .

Por consiguiente, para cualquier z > 0 se tiene, tipificando, que

P(|X − μ| ≥ z

σ√n

)= P

(∣∣∣X − μ

σ/√n

∣∣∣ ≥ z)= P(|Z| ≥ z) ,

donde Z ∼ N (0, 1).3En versiones antiguas de Excel, =distr.f.inv(α;n;m).4Y tan teorico. . . , ¿no conocen la media, pero sı la varianza? ¡Vaya!

notas de estadıstica I – 28 de noviembre de 2017 – jose l. fernandez y pablo fernandez

Page 5: Intervalos de confianza - verso.mat.uam.esverso.mat.uam.es/~pablo.fernandez/6-intervalos-curso17-18.pdf · 6.1. Notaci´on de percentiles 3 B. Percentiles de la tde Student con n

6.2. Introduccion 5

Ası que, si para un α ∈ (0, 1/2] tomamos z = zα/2 y denotamos de nuevo por Za una normal estandar, tenemos que

P(|X − μ| ≥ zα/2

σ√n

)= P(|Z| ≥ zα/2) = α ,

es decir,

(�) P(μ− zα/2

σ√n< X < μ+ zα/2

σ√n

)= 1− α .

Esto es, con probabilidad elevada, de 1− α, muy proxima a 1, se ha de cumplir quela media muestral X se situa en el intervalo(

μ− zα/2σ√n, μ + zα/2

σ√n

).

Preparando el terreno, reescribimos (�) como sigue:

(��) P(X − zα/2

σ√n< μ < X + zα/2

σ√n

)= 1− α,

situando a μ en el papel central que tendra en el siguiente analisis.

Inferencia estadıstica (en pasiva). Nuestro interes ahora es la siguiente cuestionde inferencia estadıstica. Sabemos que X ∼ N (μ, σ2). La varianza σ2 es conocida,pero la media μ es desconocida. Disponemos de una realizacion (x1, . . . , xn) concretade (X1, . . . ,Xn).

Si α es pequeno, pongamos, α = 1%, la discusion anterior nos dice que en el 99%de las realizaciones x de valores de X se ha de dar que

(†) x− zα/2σ√n< μ < x+ zα/2

σ√n.

En otros terminos, tenemos confianza alta (no seguridad plena) de que se cum-pla (†); evaluamos esa confianza como del 99%.

En general, decimos que tenemos confianza 1 − α de que el valor desconocidode μ cumpla

μ ∈(x− zα/2

σ√n, x+ zα/2

σ√n

)A priori: probabilidad de realizaciones;

a posteriori, confianza en intervalo de estimacion.

Al intervalo (x− zα/2

σ√n, x+ zα/2

σ√n

)se le dice intervalo de confianza al (1−α) para la media μ (de una normal, con σ2

conocida); tenemos confianza (1−α) de que contenga al verdadero, pero desconocido,valor de μ. Observese que el intervalo de confianza depende de la muestra empırica,y que de hecho esta centrado en la media muestral x.

notas de estadıstica I – 28 de noviembre de 2017 – jose l. fernandez y pablo fernandez

Page 6: Intervalos de confianza - verso.mat.uam.esverso.mat.uam.es/~pablo.fernandez/6-intervalos-curso17-18.pdf · 6.1. Notaci´on de percentiles 3 B. Percentiles de la tde Student con n

6 Capıtulo 6. Intervalos de confianza

A veces se escribe, abreviadamente,

μ = x± zα/2σ√n, con confianza (1− α)

A la cantidad2 zα/2

σ√n

nos referiremos como el tamano del intervalo de confianza; o quizas a esa mismacantidad, sin el factor 2 y tomando como referencia la media muestral: una cantidadzα/2 σ/

√n hacia la derecha, y otro tanto hacia la izquierda.

Por supuesto, cuanto menor sea ese intervalo mas relevante sera: mas precisionsobre la estimacion de μ. Ceteris paribus,

cuando menor sea α, es decir, cuanta mas confianza 1 − α queramos tener,mayor sera el intervalo de confianza;

cuanto mayor sea σ, mayor sera el intervalo de confianza (esto es natural,porque σ grande significa que los valores de X – y por tanto los de X , aunquemenos – estan muy dispersos);

cuanto mayor sea n, menor sera el intervalo de confianza.

Tamano de la muestra

Seguimos con este ejemplo basico en el que queremos estimar μ de una variablealeatoria X ∼ N (μ, σ2), donde σ2 es conocido.

Vamos a calcular que tamano n debe tener una muestra de X para obtener unintervalo que contenga a μ con confianza de (1−α) y con un error maximo de δ. Esteultimo requisito significa que queremos que el tamano del intervalo no exceda 2δ, esdecir,

(�) zα/2σ√n≤ δ .

Buscamos n para que se cumpla (�). Aquı σ es un parametro conocido y α ha sidoprefijado. El tamano n ha de cumplir

n ≥(zα/2

σ

δ

)2

A menor α, o mayor σ, o menor δ, mayor sera n.

Ejemplo 6.2.1. Ilustracion numerica de intervalo de confianza para μ de N (μ, σ2)con σ2 conocida.

Digamos que σ = 2 y que la muestra de tamano n = 100 tiene una media muestralde 1.2. La tabla:

α 5% 1% 0.1%zα/2 1.960 2.576 3.291

notas de estadıstica I – 28 de noviembre de 2017 – jose l. fernandez y pablo fernandez

Page 7: Intervalos de confianza - verso.mat.uam.esverso.mat.uam.es/~pablo.fernandez/6-intervalos-curso17-18.pdf · 6.1. Notaci´on de percentiles 3 B. Percentiles de la tde Student con n

6.3. Intervalos para una poblacion 7

nos da los siguientes intervalos de confianza:

confianza intervalo error relativo

95% μ ∈ (0.808, 1.592), 1.2± 0.392 ±32.67%99% μ ∈ (0.685, 1.715), 1.2± 0.515 ±42.93%99.9% μ ∈ (0.542, 1.858), 1.2± 0.658 ±54.84%

Supongamos que ahora queremos calcular el tamano (mınimo) de la muestra quegarantiza que el error en la estimacion de μ (esto es, el tamano del intervalo) nosupere un cierto nivel δ prefijado con cierto nivel de confianza. La siguiente tablarecoge algunos de esos tamanos muestrales mınimos para un par de valores de δ yalgunos niveles de confianza:

confianza δ = 0.1 δ = 0.01

95% n ≥ 1 537 n ≥ 153 65899% n ≥ 2 654 n ≥ 265 39699.9% n ≥ 4 331 n ≥ 433 103

Notese como, para que el intervalo de confianza baje un factor 10, necesitamosmuestras de tamano 100 veces mayor. ♣

6.3. Intervalos para una poblacion

El ejemplo anterior nos va a servir de guıa en el analisis de unos cuantos casosmas: en la seccion 6.3.1 estudiaremos el caso en el que X es una variable normalN (μ, σ2), con el objetivo de obtener intervalos de confianza para los parametros μy σ2, y utilizando los analisis de las variables media y cuasivarianza muestrales decapıtulos anteriores, en particular la seccion 4.5.1.

Para otro tipo de variables, supondremos que el tamano de la muestra es su-ficientemente grande, y apelaremos a resultados de normalidad asintotica, como elteorema central del lımite, para establecer intervalos de confianza aproximados paralos parametros de interes (secciones 6.3.2–6.3.4).

6.3.1. Intervalos para μ y para σ2 de una variable normal

Suponemos aquı que μ y σ2 son ambas, como es natural, desconocidas. En loque sigue, la muestra de X tendra tamano n y designaremos simplemente con Xy S2 las variables media muestral y cuasivarianza muestral (en lugar de los masaparatosos X(n) y S2

(n)).

A. Intervalo para μ

a) Analisis probabilista. Usamos (proposicion 4.8) que

X − μ

S/√n

∼ stu(n− 1).

notas de estadıstica I – 28 de noviembre de 2017 – jose l. fernandez y pablo fernandez

Page 8: Intervalos de confianza - verso.mat.uam.esverso.mat.uam.es/~pablo.fernandez/6-intervalos-curso17-18.pdf · 6.1. Notaci´on de percentiles 3 B. Percentiles de la tde Student con n

8 Capıtulo 6. Intervalos de confianza

Ası que

P(|X − μ| ≥ t{n−1,α/2}

S√n

)= α,

es decir,

P(X − t{n−1,α/2}

S√n≤ μ ≤ X + t{n−1,α/2}

S√n

)= 1− α.

b) Inferencia estadıstica. Dada una realizacion muestral (x1, . . . , xn) con mediamuestral x y cuasidesviacion tıpica muestral s, tenemos confianza 1− α de que

μ ∈(x− t{n−1,α/2}

s√n, x+ t{n−1,α/2}

s√n

)En esta expresion, n es el tamano de la muestra (dada por el diseno del experimento),x y s por la muestra en sı, y α (y por tanto zα/2) lo fija el usuario.

c) Ilustracion numerica. Realizamos el siguiente experimento: sorteamos muestrasde tamano n = 30 de una normal con parametros μ = 2 y σ2 = 9. Fijado α = 5%, elpercentil de la t correspondiente resulta ser t{29;2.5%} = 2.045. Ası que el intervalode confianza al 95% es de la forma

(x− 0.373 s, x+ 0.373 s),

donde x y s designan la media y la cuasidesviacion tıpica de cada muestra.

Como s ha de ser del orden de 3 (pues σ = 3), la anchura tıpica del intervalo deconfianza esta en torno a 1.1. Esos intervalos de confianza estan centrados en tornoa la media muestral, que se asemejara en general a 2.

Ahora, aproximadamente en el 95%de las veces que repitamos el experi-mento, el verdadero valor de μ (que es 2en este caso) debera estar incluido enel intervalo de confianza. En la figurade la derecha hemos representado losresultados de 20 experimentos: la lıneahorizontal es el nivel 2; cada intervalode confianza se dibuja en vertical, con un punto rojo para indicar la media mues-tral. Entre ellos, esperamos encontrar aproximadamente un intervalo5 que no incluyael μ = 2.

B. Intervalo para σ2

a) Analisis probabilista. Usamos (teorema 4.7) que

(n− 1)S2

σ2∼ χ2

n−1.

5¡Vaya!, en el dibujo aparece justamente uno, el sexto desde la izquierda. ¿De verdad que no hanhecho trampas?

notas de estadıstica I – 28 de noviembre de 2017 – jose l. fernandez y pablo fernandez

Page 9: Intervalos de confianza - verso.mat.uam.esverso.mat.uam.es/~pablo.fernandez/6-intervalos-curso17-18.pdf · 6.1. Notaci´on de percentiles 3 B. Percentiles de la tde Student con n

6.3. Intervalos para una poblacion 9

Ası que

P(χ2{n−1;1−α/2} ≤

(n− 1)S2

σ2≤ χ2

{n−1;α/2})= 1− α.

O, en otros terminos,

P( (n− 1)S2

χ2{n−1;α/2}

≤ σ2 ≤ (n − 1)S2

χ2{n−1;1−α/2}

)= 1− α.

b) Inferencia estadıstica. Dada una muestra empırica (x1, . . . , xn) con cuasiva-rianza muestral s2, el intervalo(

(n− 1)

χ2{n−1;α/2}

s2,(n− 1)

χ2{n−1;1−α/2}

s2)

contiene a σ2 con confianza de 1− α.

� Nota 6.3.1. Serıa mas natural obtener un intervalo de la forma (s2(1− ε), s2(1+ ε)). Pongamos queα < 50%. Por el teorema del lımite central,

χ2n − n√2n

≈ N (0, 1) .

De manera que

χ2n ≈ n+

√2nN (0, 1) y, por tanto, χ2

{n;α} ≈ n+√2n zα ,

de dondeχ2{n;α}n

≈ 1 +

√2

nzα y

n

χ2{n;α}

≈ 1−√

2

nzα .

Ademasχ2{n;1−α}n

≈ 1−√

2

nzα y

n

χ2{n;1−α}

≈ 1 +

√2

nzα .

Para n grande, el siguiente intervalo:(s2

(1−

√2/n zα/2

), s2

(1 +

√2/n zα/2

))

contiene a σ2 con confianza de 1− α.

El caso de la normal, tratado en esta seccion, es muy especial, porque graciasal teorema 4.7 de Fisher–Cochran, y a la proposicion 4.8, que es consecuencia delprimero, tenemos informacion precisa sobre la distribucion de los estimadoresX y S2,sea cual sea el tamano de la muestra. Es decir, los intervalos de confianza para μy σ2 escritos antes son exactos, en el sentido de que no se apoyan en resultados detipo asintotico, y son validos para todo n.

En muy pocas ocasiones mas seremos capaces de establecer con la misma precisionla distribucion del estimador de interes (vea el lector al respecto los ejercicios 6.11–6.13 para el caso de mınimos o maximos), y sera necesario recurrir a estimacionesasintoticas generales, que vamos a ir desgranando en las siguientes secciones.

notas de estadıstica I – 28 de noviembre de 2017 – jose l. fernandez y pablo fernandez

Page 10: Intervalos de confianza - verso.mat.uam.esverso.mat.uam.es/~pablo.fernandez/6-intervalos-curso17-18.pdf · 6.1. Notaci´on de percentiles 3 B. Percentiles de la tde Student con n

10 Capıtulo 6. Intervalos de confianza

6.3.2. Intervalos para una proporcion p

En este caso, nX es bin(n, p). Podrıamos intentar usar este hecho para obtenerun intervalo de confianza para p. Vease la nota 6.3.2.

Pero procedemos de la siguiente manera, anticipando argumentos que generali-zaremos en las secciones 6.3.3 y 6.3.4.

a) Analisis probabilista. Suponemos que n es grande y aproximamos (teoremadel lımite central):

Xd≈ N (

p, p(1− p)/n), o bien

X − p√p(1− p)/n

d≈ N (0, 1

).

Ası que

P(− zα/2

√p(1−p)

n ≤ X − p ≤ zα/2

√p(1−p)

n

)≈ 1− α ,

y por tanto

P(X − zα/2

√p(1−p)

n ≤ p ≤ X + zα/2

√p(1−p)

n

)≈ 1− α .

b) Inferencia estadıstica. La expresion anterior nos dirıa que tenemos confianzaaproximadamente 1− α de que el intervalo

(x− zα/2

√p(1−p)

n , x+ zα/2

√p(1−p)

n

)contenga al parametro p. Pero claro, tal cual esta, este intervalo no dice nada y noes util, porque el propio intervalo depende del valor desconocido p.

Para soslayar esta dificultad, lo mas habitual es reemplazar, en el termino deerror zα/2

√p(1− p)/n, el parametro desconocido p por su estimacion x, lo que nos

deja un intervalo de confianza 1− α para p como el que sigue:

p = x± zα/2

√x(1− x)

n

Como alternativa (conservadora) podemos observar que p(1− p) ≤ 1/4, sea cualsea el valor desconocido de p, y usar el intervalo(

x− zα/2

√14n , x+ zα/2

√14n

),

que con confianza de al menos 1− α contiene al valor de p.

notas de estadıstica I – 28 de noviembre de 2017 – jose l. fernandez y pablo fernandez

Page 11: Intervalos de confianza - verso.mat.uam.esverso.mat.uam.es/~pablo.fernandez/6-intervalos-curso17-18.pdf · 6.1. Notaci´on de percentiles 3 B. Percentiles de la tde Student con n

6.3. Intervalos para una poblacion 11

Tamano de muestra

Si queremos que el error cometido con el intervalo sea menor que un margen deerror dado, digamos δ, debemos tomar n tal que

zα/2

√x(1 − x)

n≤ δ

Esta decision sobre n es previa a tomar la muestra, de manera que x esta pordeterminar, y la formula anterior no es util. Tenemos dos alternativas:

1) Si disponemos de una estimacion previa (provisional) de p, digamos p0, usamosese valor en lugar de x en esta expresion del error y requerimos

zα/2

√p0(1− p0)

n≤ δ , es decir, n ≥

z2α/2

δ2p0(1− p0) .

2) En caso contrario, nos ponemos en el peor caso usando que x(1 − x) ≤ 1/4(puesto que aquı x esta entre 0 y 1), y requerimos (conservadoramente)

zα/2

√1

4n≤ δ , es decir, n ≥

z2α/2

4 δ2.

Ejemplo 6.3.1. Un ejemplo numerico de intervalos de confianza para p.

Supongamos que la muestra tiene tamano n = 100, y que registramos 43 unosy 57 ceros. La media muestral es 43%. Los intervalos de confianza para α = 5% son

43% ± 8.14% si usamos la alternativa con las medias muestrales;

43% ± 8.22% si usamos la alternativa “conservadora”.

Si la muestra fuera de tamano n = 10000, siguiendo con media muestral de 43%,los intervalos de confianza para α = 5% serıan

43% ± 0.814% si usamos la alternativa con las medias muestrales;

43% ± 0.822% si usamos la alternativa “conservadora”.

Notese que con una muestra 100 veces mayor “ganamos” un decimal de precision. ♣

Ejemplo 6.3.2. Un ejemplo numerico de tamanos de muestra.

Queremos determinar el tamano (mınimo) de la muestra que garantiza que elerror al estimar p sea menor que un cierto δ con confianza del 95%. Tendrıamos

n ≥ 97 para δ = 10%;

n ≥ 9 604 para un mas exigente δ = 1%,

notas de estadıstica I – 28 de noviembre de 2017 – jose l. fernandez y pablo fernandez

Page 12: Intervalos de confianza - verso.mat.uam.esverso.mat.uam.es/~pablo.fernandez/6-intervalos-curso17-18.pdf · 6.1. Notaci´on de percentiles 3 B. Percentiles de la tde Student con n

12 Capıtulo 6. Intervalos de confianza

usando el metodo 2) de arriba. Mientras que, si dispusieramos de una muestra pre-liminar, quizas pequena, de la que hubieramos deducido una estimacion p0 = 6%,entonces tendrıamos n ≥ 22 para δ = 10%, y n ≥ 2 167 para δ = 1%. Notese comose reduce el tamano de muestra requerido. ♣

� Nota 6.3.2. Podrıamos intentar usar que nX es una bin(n, p).

En ese caso, determinarıamos bn;p;α, entero y optimo, tal que P(bin(n, p) > bn;p;α) ≤ α/2 ycn;p;α, entero y optimo tal que P(bin(n, p) < cn;p;α) ≤ α/2.

El intervalo de confianza 1−α que obtendrıamos, siendo x la proporcion de unos en la muestra,serıa

cn;p;α

n≤ x− p ≤ bn;p;α

n,

pero ahora bn;p;α y cn;p;α dependen intrincadamente de n y α y, sobre todo, del parametro p aestimar.

� Nota 6.3.3. Podrıamos (con afan de precision algebraica) despejar p en la inecuacion de segundogrado

p ≤ x+ zα/2

√p(1−p)

n,

para obtener una cota superior de p que dependera de x, zα/2 y n. Y, analogamente, despejar p enla inecuacion

p ≥ x− zα/2

√p(1−p)

n,

para obtener una cota inferior de p. Pero se consigue una ganancia pırrica, pues recordemos que nohemos cuantificado la bondad de la aproximacion de partida de X a una normal.

6.3.3. Intervalo aproximado para la media de una poblacion general

Supongamos queX tiene funcion de densidad/masa f(x; θ), con un unico parame-tro θ. Queremos dar un intervalo de confianza para el parametro μ = Eθ(X), la mediade X. Explicitamos la dependencia de θ escribiendo μ(θ).

La varianzaVθ(X) es asimismo una cierta formula de θ, pongamos v(θ) = Vθ(X),por abreviar y para explicitar su dependencia de θ.

a) Analisis probabilista. Suponemos n grande. El teorema del lımite central nosdice que

Xd≈ N (

μ(θ), v(θ)/n), esto es,

X − μ(θ)√v(θ)/n

d≈ N (0, 1),

lo que nos darıa que

P(X − zα/2

√v(θ)

n≤ μ(θ) ≤ X + zα/2

√v(θ)

n

)≈ 1− α .

b) Inferencia estadıstica. El intervalo obtenido para la media, usando la expresionanterior, dependerıa de θ, que es desconocido. Si x es una realizacion de la mediamuestral, entendemos que

μ(θ) ≈ x .

notas de estadıstica I – 28 de noviembre de 2017 – jose l. fernandez y pablo fernandez

Page 13: Intervalos de confianza - verso.mat.uam.esverso.mat.uam.es/~pablo.fernandez/6-intervalos-curso17-18.pdf · 6.1. Notaci´on de percentiles 3 B. Percentiles de la tde Student con n

6.3. Intervalos para una poblacion 13

Esto debe permitir despejar una cierta aproximacion de θ, digamos θ (como se hacıaen el metodo de estimacion por momentos), lo que a su vez nos da una estimacionv(θ).

El intervalo con confianza (aproximadamente) 1− α para μ serıa

(x− zα/2

√v(θ)/n, x+ zα/2

√v(θ)/n

)Esto es, observese, justamente lo que hacıamos en el caso de X ∼ ber(p), para el

que μ(p) = p y v(p) = p(1−p). Aquı estimamos p = x, lo que nos da v(p) = x(1−x),que permite construir el intervalo de confianza para la media p.

Veamos unos cuantos ejemplos.

Ejemplo 6.3.3. Intervalo de confianza para λ si X ∼ Poiss(λ).

Con la notacion anterior, μ(λ) = v(λ) = λ. La estimacion λ = x nos lleva alintervalo de confianza (aproximado)

(x− zα/2

1√n

√x, x+ zα/2

1√n

√x)

para la media λ (que en este caso coincide con el parametro). ♣

Ejemplo 6.3.4. Intervalo de confianza para la esperanza de X ∼ exp(λ).

Recordemos que μ(λ) = 1/λ y v(λ) = 1/λ2. Si tenemos una realizacion de lamedia muestral x, planteamos

1

λ= μ(λ) = x ,

para obtener la estimacion λ = 1/x, y de ahı la estimacion (en terminos de x) parala varianza

v(λ) = x2 .

Ası que el intervalo (aproximado) para E(X) con confianza 1− α serıa(x− zα/2

1√n

x , x+ zα/21√n

x).

Ejemplo 6.3.5. Intervalo de confianza para la esperanza de X ∼ Ray(θ).

Recordemos que μ(θ) =√

πθ/2 y que v(θ) = (2 − π/2) θ. De una realizacion dela media muestral x, usando que μ(θ) ≈ x, estimamos

θ =2

πx2 ,

notas de estadıstica I – 28 de noviembre de 2017 – jose l. fernandez y pablo fernandez

Page 14: Intervalos de confianza - verso.mat.uam.esverso.mat.uam.es/~pablo.fernandez/6-intervalos-curso17-18.pdf · 6.1. Notaci´on de percentiles 3 B. Percentiles de la tde Student con n

14 Capıtulo 6. Intervalos de confianza

y de ahı, a su vez,

v(θ) =(2− π

2

)θ =

( 4

π− 1

)x2 .

Ası que el intervalo (aproximado) para E(X) con confianza 1− α serıa

x± zα/2x√n

√4/π − 1 .

6.3.4. Intervalos aproximados basados en normalidad asintotica deestimadores

En la seccion anterior hemos obtenido intervalos de confianza aproximados parala media de la distribucion usando el teorema del lımite central para el estimador Xcuando n, el tamano de la muestra, es grande.

La misma estrategia se puede utilizar si disponemos de resultados de normalidadasintotica para el estimador del parametro de interes de la distribucion que se hayaescogido. Usaremos aquı, en especial, los resultados de las secciones 5.4.1 y 5.4.2.

Supongamos que tenemos una variable aleatoria X con funcion de densidadf(x; θ). Llamemos, como en la seccion anterior, Eθ(X) = μ(θ) y Vθ(X) = v(θ).

Digamos que Tn := Tn(X1, . . . ,Xn) es un estimador de θ para el que se verificaun resultado de normalidad asintotica del tipo

√n (Tn − θ)

d−−−→n→∞ N (0, w(θ)),

donde w(θ) es una cierta funcion de θ.

El estimador Tn podrıa ser

la misma media muestral X(n), si es que μ(θ) = θ; en este caso w(θ) serıasimplemente la varianza v(θ);

o del tipo Tn = g(X(n)), para una cierta funcion g, como los que se obtienenpor el metodo de momentos; en este caso, la funcion w(θ) vendrıa dada porw(θ) = |g′(μ(θ)|2v(θ), como nos dice el metodo delta, siempre que la funcion gcumpla las condiciones del teorema 5.14 (o del corolario 5.15);

o un estimador de maxima verosimilitud, en cuyo caso tendrıamos que w(θ) =1/IX (θ) (seccion 5.4.2).

En cualquier caso, tendrıamos que

Tn − θ√w(θ)/n

d≈ N (0, 1) ,

lo que nos llevarıa, con los argumentos habituales, a que

P(Tn − zα/2

√w(θ)/n ≤ θ ≤ Tn + zα/2

√w(θ)/n

)≈ 1− α .

notas de estadıstica I – 28 de noviembre de 2017 – jose l. fernandez y pablo fernandez

Page 15: Intervalos de confianza - verso.mat.uam.esverso.mat.uam.es/~pablo.fernandez/6-intervalos-curso17-18.pdf · 6.1. Notaci´on de percentiles 3 B. Percentiles de la tde Student con n

6.3. Intervalos para una poblacion 15

Observese que si, por ejemplo, el parametro θ fuera positivo y se tuviera que w(θ) =Kθ2, donde K es cierta constante, entonces en la expresion anterior podrıamos si-tuar θ en un intervalo que solo depende del estimador:

1− α ≈ P(Tn − zα/2

√Kθ2/n ≤ θ ≤ Tn + zα/2

√Kθ2/n

)= P

( 1

1 + zα/2√

K/n· Tn ≤ θ ≤ 1

1− zα/2√

K/n· Tn

).

Si no fuera el caso, procederıamos como ya hemos hecho en secciones anteriores.Dada la muestra empırica (x1, . . . , xn), calcularıamos la estimacion θ = T (x1, . . . , xn),que usarıamos para escribir el intervalo de confianza (aproximadamente) 1−α para θcomo

θ − zα/2

√w(θ)/n ≤ θ ≤ θ + zα/2

√w(θ)/n.

Veamos un par de ejemplos.

Ejemplo 6.3.6. Intervalo de confianza para el parametro θ de X ∼ Ray(θ).

El estimador maximo verosımil de θ es

emvn(X1, . . . ,Xn) =√

12X

2(n).

El numero de informacion es, en este caso, Iθ(X) = 4/θ2. Esto nos dice que w(θ) =θ2/4, y por tanto

(�) P(emvn − zα/2

θ

2n≤ θ ≤ emvn + zα/2

θ

2n

)≈ 1− α ,

es decir, despejando,

(��) P

(1

1 +zα/2

2√n

· emvn ≤ θ ≤ 1

1− zα/2

2√n

· emvn

)≈ 1− α.

Sea ahora (x1, . . . , xn) una muestra empırica de X, que nos da la estimacionθ = (x2/2)1/2 del parametro θ. Utilizando (��), el intervalo de (aproximadamente)confianza 1− α serıa (

1

1 +zα/2

2√n

θ ,1

1− zα/2

2√n

θ

),

mientras que usando (�) directamente, tendrıamos((1− zα/2

2√n

)θ ,

(1 +

zα/2

2√n

)θ).

Observese que

1

1 +zα/2

2√n

= 1− zα/2

zα/2 + 2√n

y1

1− zα/2

2√n

= 1 +zα/2

2√n− zα/2

.

Ası que los dos intervalos no son exactamente iguales, pero sı son muy parecidoscuando n es grande (que es la hipotesis de partida). ♣

notas de estadıstica I – 28 de noviembre de 2017 – jose l. fernandez y pablo fernandez

Page 16: Intervalos de confianza - verso.mat.uam.esverso.mat.uam.es/~pablo.fernandez/6-intervalos-curso17-18.pdf · 6.1. Notaci´on de percentiles 3 B. Percentiles de la tde Student con n

16 Capıtulo 6. Intervalos de confianza

Ejemplo 6.3.7. Intervalo de confianza para λ en X ∼ exp(λ).

Consideramos el estimador Tn = 1/X (n). Como vimos en el ejemplo 5.4.8,

√n (Tn − λ) converge en distribucion a N (

0, λ2).

Esto nos da que, para n grande,

P(Tn − zα/2

λ√n≤ λ ≤ Tn + zα/2

λ√n

)≈ 1− α.

Sea ahora (x1, . . . , xn) una muestra empırica de X, que nos da la estimacionλ = 1/x del parametro λ. Se tendrıa entonces, estimando λ como 1/x, que el intervalo( 1

x− zα/2

1

x√n,1

x+ zα/2

1

x√n

),

contiene a λ con (aproximadamente) confianza 1− α. ♣

6.3.5. Datos (normales) apareados: diferencia de medias

Finalizamos esta seccion, antes de entrar en el analisis del caso de intervalos deconfianza para dos poblaciones (seccion 6.4), y de hecho para diferenciarla de aquel,tratando la siguiente situacion.

Pongamos que, en una cierta poblacion, y para cada individuo, registramos latension arterial antes (X) y despues (Y ) de administrar una cierta droga. Interesaestablecer un intervalo de confianza para la diferencia de las medias μX − μY .

Modelamos el par (X,Y ) con una normal bidimensional. La variable W = X−Yes una variable normal, y de ella nos interesa estimar su media, pues μW = μX −μY .

La varianza deW involucra la deX, la de Y y ademas el coeficiente de correlacionentre X e Y . En general, X e Y son dependientes y ese coeficiente de correlacion seradistinto de 0. Pero, afortunadamente, no se requiere informacion alguna sobreV(W ).

Si tenemos la muestra empırica((x1, y1), . . . , (xn, yn)

), formamos una muestra

(w1, . . . , wn) de W tomando las diferencias:

wj = xj − yj , j = 1, . . . , n.

Tras calcular w y sw para esta muestra, y usando los resultados de la seccion 6.3.1,concluimos que el intervalo(

w − t{n−1 ;α/2}sw√n, w + t{n−1 ;α/2}

sw√n

)contiene a μX − μY con confianza de 1− α.

Observese que este intervalo se calcula usando (unicamente) la media muestral wde los wj y la cuasivarianza muestral sw de los wj.

notas de estadıstica I – 28 de noviembre de 2017 – jose l. fernandez y pablo fernandez

Page 17: Intervalos de confianza - verso.mat.uam.esverso.mat.uam.es/~pablo.fernandez/6-intervalos-curso17-18.pdf · 6.1. Notaci´on de percentiles 3 B. Percentiles de la tde Student con n

6.4. Intervalos para dos poblaciones independientes 17

6.4. Intervalos para dos poblaciones independientes

Nos interesamos ahora por la siguiente situacion: tenemos dos poblaciones, en lasque medimos una cierta caracterıstica, por ejemplo la altura, el cociente intelectual,la renta per capita, etc. Digamos que la variable X representa esa caracterıstica en laprimera poblacion, y que Y lo hace en la segunda. Suponemos, como resulta natural,que X e Y son independientes.

Para establecer intervalos de confianza para, por ejemplo, la diferencia entre lamedia de X y la de Y , tomamos muestras de tamano n1 en la poblacion 1, y detamano n2 en la segunda. Vamos a tratar en detalle el caso en el que X e Y sonnormales (seccion 6.4.1), e ilustraremos como se analizarıan otras situaciones con elcaso en el que X e Y con variables Bernoulli (seccion 6.4.2), apelando a resultadosde normalidad asintotica.

6.4.1. Caso de dos variables normales

Tenemos dos poblaciones en las que hacemos mediciones independientes de can-tidades que siguen distribuciones normales.

En la primera poblacion tenemos que X ∼ N (μ1, σ21). El tamano muestral en

esta poblacion es n1, esto es, tenemos n1 clones (X1,X2, . . . ,Xn1).

En la segunda poblacion tenemos Y ∼ N (μ2, σ22). El tamano muestral en esta

poblacion es n2, esto es, tenemos n2 clones (Y1, Y2, . . . , Yn2).

Ademas, las extracciones de muestras en las dos poblaciones son independientesunas de otras, es decir, las Xj y las Yk son independientes.

Tenemos las medias muestrales X y Y , las cuasivarianzas muestrales S21 y S2

2 .Observese que estas cuatro variables aleatorias son independientes.

En el analisis que sigue apareceran dos estadısticos adicionales:

a) una suerte de estadıstico cuasivarianza promedio:

(6.1) S2p =

(n1 − 1)S21 + (n2 − 1)S2

2

n1 − 1 + n2 − 1,

que para el caso n1 = n2 resulta ser la media aritmetica de S21 y S2

2 ;

b) y la siguiente combinacion de S21 y S2

2 :

(6.2) S2 =S21

n1+

S22

n2.

A. Intervalo para diferencia de medias

Queremos estimar μ1 − μ2. La variable X − Y es una normal con parametros

X − Yd= N

(μ1 − μ2,

σ21

n1+

σ22

n2

)notas de estadıstica I – 28 de noviembre de 2017 – jose l. fernandez y pablo fernandez

Page 18: Intervalos de confianza - verso.mat.uam.esverso.mat.uam.es/~pablo.fernandez/6-intervalos-curso17-18.pdf · 6.1. Notaci´on de percentiles 3 B. Percentiles de la tde Student con n

18 Capıtulo 6. Intervalos de confianza

es decir (X − Y

)− (μ1 − μ2)√σ21/n1 + σ2

2/n2

d= N (0, 1) .

Caso 1. σ1 y σ2 conocidas

Si conocemos los valores de σ1 y σ2, bien porque es razonable suponerlos a partirde calculos anteriores, bien por contraste teorico, entonces el intervalo para μ1 − μ2

con confianza 1− α serıa

μ1 − μ2 = (x− y) ± zα/2

√σ21

n1+

σ22

n2

Nos ponemos ahora en la situacion, mas realista, en la que no conocemos losvalores de σ1 y σ2.

Por Fisher–Cochran, teorema 4.7, tenemos que

(n1 − 1)S21

d= σ2

1 χ2n1−1 y (n2 − 1)S2

2d= σ2

2 χ2n2−1.

Las dos χ2 que aquı aparecen son independientes.

Si sumamos las dos expresiones anteriores, obtenemos

(n1 − 1)S21 + (n2 − 1)S2

2d= σ2

1 χ2n1−1 + σ2

2 χ2n2−1 ,

ası que, usando la definicion de S2p de (6.1),

(�) [(n1 − 1) + (n2 − 1)]S2p

d= σ2

1 χ2n1−1 + σ2

2 χ2n2−1 .

Caso 2. σ1 y σ2 desconocidas, pero iguales

Digamos que σ1 = σ2 = σ. Es decir, que aunque las varianzas son desconocidas,podemos suponer que son iguales. Entonces (�) queda

[(n1 − 1) + (n2 − 1)]S2p

d= σ2(χn1−1 + χn2−1)

d= σ2 χ2

n1−1+n2−1,

puesto que las dos variables χ2 son independientes. Esto nos da que

Spd= σ

√χ2n1−1+n2−1

n1 − 1 + n2 − 1.

Ademas, en este caso,

X − Yd= N

(μ1 − μ2 , σ

2( 1

n1+

1

n2

)).

notas de estadıstica I – 28 de noviembre de 2017 – jose l. fernandez y pablo fernandez

Page 19: Intervalos de confianza - verso.mat.uam.esverso.mat.uam.es/~pablo.fernandez/6-intervalos-curso17-18.pdf · 6.1. Notaci´on de percentiles 3 B. Percentiles de la tde Student con n

6.4. Intervalos para dos poblaciones independientes 19

Finalmente, comoX−Y es independiente de la χ2 que especifica a Sp (por Fisher–Cochran y la independencia de los clones de X con los clones de Y ) se tiene que

(X − Y )− (μ1 − μ2)

Sp

√1/n1 + 1/n2

∼ stu(n1 − 1 + n2 − 1) .

� Nota 6.4.1. Basta observar que, llamando Z a una N (0, 1) y W a una χ2n1+n2−2,

(X − Y )− (μ1 − μ2)

Sp

√1/n1 + 1/n2

=

(X−Y )−(μ1−μ2)

σ√

1/n1+1/n2−2√W/(n1 + n2 − 2)

d=

Z√W/(n1 + n2 − 2)

.

Esto nos dice que, para α fijo,

1− α = P((X − Y )− t{n1+n2−2 ;α/2} Sp

√1n1

+ 1n2

≤ μ1 − μ2

≤ (X − Y ) + t{n1+n2−2 ;α/2} Sp

√1n1

+ 1n2

).

De donde, dadas unas muestras empıricas (x1, . . . , xn1) e (y1, . . . , yn2), cuyasmedias muestrales son x e y, respectivamente, y cuyas cuasivarianzas muestrales sons21 y s22, obtenemos el siguiente intervalo para μ1 − μ2 con confianza de 1− α:

μ1 − μ2 = (x− y) ± t{n1−1+n2−1 ;α/2} sp

√1

n1+

1

n2

con

s2p =(n1 − 1)s21 + (n2 − 1)s22

n1 − 1 + n2 − 1.

Caso 3. σ1 y σ2 desconocidas

Nos ponemos, finalmente, en la situacion general en la que σ1 y σ2 son descono-cidas, pero ademas no podemos suponer a priori que σ1 = σ2.

Ahora, desafortunadamente, no podemos sacar un factor comun en (�). Veamoscomo podemos argumentar. El estadıstico

S2 =S21

n1+

S22

n2

es un estimador insesgado de σ21/n1 + σ2

2/n2, y es independiente de X − Y , lo queinvita considerar el estadıstico

(X − Y )− (μ1 − μ2)√S21/n1 + S2

2/n2

=(X − Y − (μ1 − μ2))

S.

notas de estadıstica I – 28 de noviembre de 2017 – jose l. fernandez y pablo fernandez

Page 20: Intervalos de confianza - verso.mat.uam.esverso.mat.uam.es/~pablo.fernandez/6-intervalos-curso17-18.pdf · 6.1. Notaci´on de percentiles 3 B. Percentiles de la tde Student con n

20 Capıtulo 6. Intervalos de confianza

Ademas, S2 es una combinacion lineal con coeficientes positivos de las variablesX2

1 ,X22 , . . . ,X

2n1, Y 2

1 , Y22 , . . . , Y

2n2. Convenzase el lector repasando la demostracion del

teorema 4.7 de Fisher-Cochran.

Aproximamos entonces S2 por un multiplo de una χ2g con un cierto numero de

grados de libertad g: pongamos

(†) S2 =S21

n1+

S22

n2

d≈ Λχ2g

g.

(donde hemos dividido la χ2g por sus grados anticipando su papel en una t de Student

por venir).

¿Que valores deberıamos asignar a Λ y a g?

Si igualamos esperanzas en (†), tendrıamos que

σ21

n1+

σ22

n2≈ Λ ,

puesto que E(χ2g) = g. Y si igualamos varianzas en (†), tendrıamos que

σ41

n21(n1 − 1)

+σ42

n22(n2 − 1)

≈ Λ2

g,

pues S21 y S2

2 son independientes y V(χ2g) = 2g.

La conclusion es que

Λ ≈ σ21

n1+

σ22

n2y g ≈

(σ21

n1+

σ22

n2

)2σ41

n21(n1−1)

+σ42

n22(n2−1)

Esto nos darıa que

S2 d≈(σ2

1

n1+

σ22

n2

)χ2g

g

y (casi finalmente) que

(X − Y )− (μ1 − μ2)√S21/n1 + S2

2/n2

d≈((X − Y )− (μ1 − μ2)

)/√σ21/n1 + σ2

2/n2√χ2g/g

,

que es una t de Student con g grados de libertad, pues el par (S21 , S

22) es independiente

del par (X,Y ).

Parece que con esto ya tendrıamos suficiente, pero observese que el valor dadopara g no es un entero (esto no es grave), y, sobre todo, que depende de las des-conocidas σ2

1 y σ22. Obtenemos un valor sensato de g aproximando σ2

1 y σ22 por sus

estimaciones s21 y s22, y buscando el entero mas proximo:

g = entero mas proximo a

( s21n1

+s22n2

)2(s21/n1)2

(n1−1) +(s22/n2)2

(n2−1)

notas de estadıstica I – 28 de noviembre de 2017 – jose l. fernandez y pablo fernandez

Page 21: Intervalos de confianza - verso.mat.uam.esverso.mat.uam.es/~pablo.fernandez/6-intervalos-curso17-18.pdf · 6.1. Notaci´on de percentiles 3 B. Percentiles de la tde Student con n

6.4. Intervalos para dos poblaciones independientes 21

El intervalo para μ1 − μ2 con confianza (1− α) resulta entonces

μ1 − μ2 = x− y ± t{g;α/2}

√s21n1

+s22n2

B. Intervalo para cociente de varianzas

El argumento aquı es bien directo. Como

(n1 − 1)S21

d= σ2

1 χ2n1−1 y (n2 − 1)S2

2d= σ2

2 χ2n2−1,

y ademas S21 y S2

2 son independientes, tenemos que

S21/σ

21

S22/σ

22

d=

χ2n1−1/(n1 − 1)

χ2n2−1/(n2 − 1)

∼ Fn1−1,n2−1.

Ası que, con probabilidad (1− α), se tiene que

F{n1−1,n2−1;1−α/2} ≤S21/σ

21

S22/σ

22

≤ F{n1−1,n2−1;α/2},

lo que nos da el siguiente intervalo con confianza 1− α para el cociente σ21/σ

22 :( 1

F{n1−1,n2−1;α/2}s21s22

,1

F{n1−1,n2−1;1−α/2}s21s22

)

6.4.2. Caso de dos proporciones

Tenemos dos poblaciones independientes de las que nos interesa comparar lasproporciones con las que se da una determinada caracterıstica.

En la primera, tenemos X ∼ Ber(p1) y una muestra de tamano n1. Los clonesson X1, . . . ,Xn1 .

En la segunda, tenemos Y ∼ Ber(p2) y una muestra de tamano n2. Los clonesson Y1, . . . , Yn2 .

Las variables X1, . . . ,Xn1 , Y1, . . . , Yn2 son independientes.

Nos interesa estimar p1 − p2.

Atendemos solo al caso en que n1 y n2 son grandes para apelar al teorema dellımite central (o a la aproximacion de la binomial por la normal).

Tenemos que

Xd≈ p1 +

√p1(1− p1)/n1 NX y que Y

d≈ p2 +√

p2(1− p2)/n2NY ,

notas de estadıstica I – 28 de noviembre de 2017 – jose l. fernandez y pablo fernandez

Page 22: Intervalos de confianza - verso.mat.uam.esverso.mat.uam.es/~pablo.fernandez/6-intervalos-curso17-18.pdf · 6.1. Notaci´on de percentiles 3 B. Percentiles de la tde Student con n

22 Capıtulo 6. Intervalos de confianza

donde NX y NY son normales estandar independientes. Por tanto,

X − Yd≈ p1 − p2 +

√p1(1− p1)

n1+

p2(1− p2)

n2N

donde N es una normal estandar.

Con esto obtendrıamos un intervalo para p1 − p2, centrado en x − y, pero encuyo error aparecerıan de nuevo p1 y p2. Con el mismo truco/aproximacion del casode estimacion de la proporcion de una sola poblacion, es decir, reemplazando (en elerror solo) p1 por x y p2 por y, obtenemos el intervalo de confianza 1− α siguiente:

p1 − p2 = x− y ± zα/2

√x(1− x)

n1+

y(1− y)

n2

notas de estadıstica I – 28 de noviembre de 2017 – jose l. fernandez y pablo fernandez

Page 23: Intervalos de confianza - verso.mat.uam.esverso.mat.uam.es/~pablo.fernandez/6-intervalos-curso17-18.pdf · 6.1. Notaci´on de percentiles 3 B. Percentiles de la tde Student con n

6.5. Resumen: intervalos de confianza mas habituales 23

6.5. Resumen: intervalos de confianza mas habituales

6.5.1. Intervalos I de confianza 1− α para UNA distribucion

Denotamos por x a la media y s2 a la cuasivarianza de la muestra (x1, . . . , xn)de tamano n de la variable X. Los intervalos que siguen son con confianza 1− α.

Normal N (μ, σ2)

A. Intervalos para la media μ

Caso 1. Suponiendo que σ2 es conocida:

X − μ

σ/√n

d= N (0, 1) −→ Intervalo: I =

(x ± zα/2

σ√n

).

Caso 2. Si σ2 es desconocida:

X − μ

S/√n

d= tn−1 −→ Intervalo: I =

(x ± t{n−1 ;α/2}

s√n

)B. Intervalo para la varianza σ2

Estimador:(n−1)S2

σ2

d= χ2

n−1 −→ Intervalo: I =( (n−1) s2

χ2{n−1;α/2}

,(n−1) s2

χ2{n−1; 1−α/2}

)

Proporcion p Para n grande,

X − p√p(1−p)/n

d≈ N (0, 1) −→ Intervalo: I =(x ± zα/2

√x (1−x)

n

)

Poisson (λ) Para n grande,

X − λ√λ/n

d≈ N (0, 1) −→ Intervalo: I =(x ± zα/2

√x

n

)

6.5.2. Intervalos I de confianza 1− α para DOS distribuciones

Dos normales, X1 = N (μ1, σ21), X2 = N (μ2, σ

22)

Datos:

muestra de tamano n1 de la variable X1, con media muestral x1 y cuasivarianzamuestral s21.

notas de estadıstica I – 28 de noviembre de 2017 – jose l. fernandez y pablo fernandez

Page 24: Intervalos de confianza - verso.mat.uam.esverso.mat.uam.es/~pablo.fernandez/6-intervalos-curso17-18.pdf · 6.1. Notaci´on de percentiles 3 B. Percentiles de la tde Student con n

24 Capıtulo 6. Intervalos de confianza

muestra de tamano n2 de la variable X2, con media muestral x2 y cuasivarianzamuestral s22.

Para la diferencia de medias μ1 − μ2:

si σ1, σ2 conocidas:

I =((

x1 − x2) ± zα/2

√σ21

n1+

σ22

n2

)si σ1, σ2 desconocidas, pero σ1 = σ2:

I =((

x1 − x2) ± t{n1+n2−2;α/2} · sp

√1n1

+ 1n2

)donde

s2p =(n1 − 1)s21 + (n2 − 1)s22(n1 − 1) + (n2 − 1)

.

si σ1, σ2 desconocidas, pero σ1 �= σ2:

I =((

x1 − x2) ± t{f ;α/2}

√s21n1

+s22n2

)donde f es el entero mas proximo a

(s21/n1 + s22/n2

)2(s21/n1)2

n1−1 +(s22/n2)2

n2−1

.

Para el cociente de varianzas σ21/σ

22:

I =

(s21/s

22

F{n1−1 , n2−1 ;α/2},

s21/s22

F{n1−1 , n2−1 ; 1−α/2}

)

Comparacion de proporciones p1, p2

Datos:

muestra de tamano n1 de la variable X1 ∼ ber(p1), media muestral x1.

muestra de tamano n2 de la variable X2 ∼ ber(p2), media muestral x2.

Tanto n1 como n2 son grandes.

Para p1 − p2:

I =((

x1 − x2) ± zα/2

√x1(1−x1)

n1+ x2(1−x2)

n2

)

notas de estadıstica I – 28 de noviembre de 2017 – jose l. fernandez y pablo fernandez