Post on 06-Nov-2019
Probabilidad y Estadıstica
µ−σ µ µ+σµ−2σ µ µ+2σµ−3σ µ µ+3σ
68.27%
95.45%
99.73%
Felix Mıguez
Universidad Politecnica de Madrid
18 de abril de 2014
Indice general
1 El concepto de probabilidad 15
1.1 Experimentos aleatorios. Regularidad estadıstica . . . . . . . . . . . . . . . 15
1.2 Espacio muestral. Sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.3 Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.4 Asignacion de probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.4.1 Espacio muestral numerable y finito . . . . . . . . . . . . . . . . . 21
1.4.2 Espacio muestral no numerable y acotado . . . . . . . . . . . . . . 22
1.5 Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.6 Formula de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.7 Sucesos independientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.8 Experimentos independientes . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.9 Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2 Variables Aleatorias 35
2.1 Variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.2 Funcion de distribucion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.3 Variables discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.4 Variables continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.5 Variables mixtas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.6 Variable aleatoria bidimensional . . . . . . . . . . . . . . . . . . . . . . . . 48
2.6.1 Funcion de distribucion conjunta . . . . . . . . . . . . . . . . . . . 49
2.7 Variable aleatoria bidimensional discreta . . . . . . . . . . . . . . . . . . . 49
2.7.1 Condicionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3
4 INDICE GENERAL
2.8 Variable aleatoria bidimensional continua . . . . . . . . . . . . . . . . . . . 51
2.8.1 Condicionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.9 Variables independientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.10 Generalizacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
2.11 Funciones de Variables Aleatorias . . . . . . . . . . . . . . . . . . . . . . . 56
2.11.1 Funcion de una variable . . . . . . . . . . . . . . . . . . . . . . . . 56
2.11.2 Funcion de varias Vas . . . . . . . . . . . . . . . . . . . . . . . . . 59
2.11.3 Transformacion general de Vas continuas . . . . . . . . . . . . . . 61
2.11.4 Transformaciones lineales . . . . . . . . . . . . . . . . . . . . . . . 63
2.12 Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3 Valores Esperados 67
3.1 Esperanza de una variable aleatoria . . . . . . . . . . . . . . . . . . . . . . 67
3.2 Interpretacion experimental . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.3 Esperanza de una funcion de una variable . . . . . . . . . . . . . . . . . . 73
3.4 Esperanza de una funcion de varias variables . . . . . . . . . . . . . . . . . 74
3.5 Varianza de una variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . 76
3.6 Interpretacion experimental . . . . . . . . . . . . . . . . . . . . . . . . . . 78
3.7 Acotacion de Tchebychev . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
3.8 Varianza de una combinacion lineal de Vas independientes . . . . . . . . . 80
3.9 La covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
3.10 Esperanza condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
3.11 Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4 Modelos principales 89
4.1 Variable aleatoria normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
4.2 Calculo de probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
4.3 Teorema Central del Lımite . . . . . . . . . . . . . . . . . . . . . . . . . . 92
4.4 Variable aleatoria binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
4.5 Variable aleatoria de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . 96
4.6 Procesos de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
INDICE GENERAL 5
4.7 Variables relacionadas con la Normal . . . . . . . . . . . . . . . . . . . . . 102
4.7.1 Lognormal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
4.7.2 Ji-cuadrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
4.8 Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
5 Estimacion 107
5.1 El metodo estadıstico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
5.2 Muestra aleatoria simple. Estadısticos . . . . . . . . . . . . . . . . . . . . . 109
5.3 La media muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
5.4 La varianza muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
5.5 Convergencia en probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . 112
5.6 Estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
5.7 Sesgo de un estimador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
5.8 Varianza de un estimador . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
5.9 Estimadores consistentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
5.10 El metodo de maxima verosimilitud . . . . . . . . . . . . . . . . . . . . . . 120
5.10.1 Generalizacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
5.11 El metodo de los momentos . . . . . . . . . . . . . . . . . . . . . . . . . . 124
5.12 Muestreo sin reemplazamiento . . . . . . . . . . . . . . . . . . . . . . . . . 126
5.13 Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
6 Intervalos. Pruebas de hipotesis 133
6.1 Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
6.2 Intervalos para la normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
6.2.1 Intervalos para µ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
6.2.2 Tamanos de muestra . . . . . . . . . . . . . . . . . . . . . . . . . . 138
6.2.3 Intervalos para σ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
6.3 Intervalos asintoticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
6.4 Intervalos para p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
6.4.1 Aplicacion al muestreo de poblaciones finitas . . . . . . . . . . . . 144
6.5 Intervalos de tolerancia para la normal . . . . . . . . . . . . . . . . . . . . 145
6 INDICE GENERAL
6.6 Pruebas de hipotesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
6.6.1 Metodologıa general . . . . . . . . . . . . . . . . . . . . . . . . . . 147
6.6.2 Parametros de poblaciones normales . . . . . . . . . . . . . . . . . 155
6.6.3 Pruebas sobre la binomial . . . . . . . . . . . . . . . . . . . . . . . 159
6.6.4 Muestreo de aceptacion . . . . . . . . . . . . . . . . . . . . . . . . 160
6.7 Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
7 Modelo lineal 169
7.1 Modelo lineal simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
7.1.1 Estimacion de mınimos cuadrados . . . . . . . . . . . . . . . . . . 171
7.1.2 Propiedades de los estimadores . . . . . . . . . . . . . . . . . . . . 175
7.2 Estimacion de maxima verosimilitud . . . . . . . . . . . . . . . . . . . . . 176
7.3 Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
7.3.1 Para los parametros β0 y β1 . . . . . . . . . . . . . . . . . . . . . . 177
7.3.2 Para el parametro σ . . . . . . . . . . . . . . . . . . . . . . . . . . 177
7.3.3 Para la recta µ (x) = β0 + β1x . . . . . . . . . . . . . . . . . . . . 178
7.4 Intervalos de tolerancia para Y (x) . . . . . . . . . . . . . . . . . . . . . . . 179
7.5 Interpretacion geometrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
7.6 Valoracion del ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
7.7 Regresion lineal simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
7.8 Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
8 Modelizacion 191
8.1 Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
8.2 La funcion de distribucion empırica . . . . . . . . . . . . . . . . . . . . . . 191
8.3 La funcion de masa empırica . . . . . . . . . . . . . . . . . . . . . . . . . . 194
8.4 La funcion de densidad empırica . . . . . . . . . . . . . . . . . . . . . . . . 195
8.5 La funcion de cuantiles empırica . . . . . . . . . . . . . . . . . . . . . . . . 199
8.6 Modelizacion con los cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . 202
8.6.1 Estimacion de los parametros . . . . . . . . . . . . . . . . . . . . . 203
8.7 Resumen y comparacion de muestras . . . . . . . . . . . . . . . . . . . . . 205
INDICE GENERAL 7
8.7.1 Centro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
8.7.2 Dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
8.7.3 Simetrıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
8.7.4 Valores atıpicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
8.7.5 Diagramas de caja (box-plot) . . . . . . . . . . . . . . . . . . . . . 207
8.8 Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
A Soluciones a los Ejercicios 213
A.1 Capıtulo 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
A.2 Capıtulo 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219
A.3 Capıtulo 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224
A.4 Capıtulo 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
A.5 Capıtulo 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236
A.6 Capıtulo 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244
A.7 Capıtulo 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253
A.8 Capıtulo 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262
B Complementos 271
B.1 Va Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271
B.1.1 Esperanza y varianza . . . . . . . . . . . . . . . . . . . . . . . . . 272
B.1.2 Reproductividad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272
B.1.3 Simulacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273
B.1.4 Aproximaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274
B.2 Va gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274
B.2.1 Casos particulares . . . . . . . . . . . . . . . . . . . . . . . . . . . 275
B.2.2 Reproductividad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276
B.3 Va beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276
B.3.1 Casos particulares . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
B.4 Varianza de un estimador . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
B.5 Estimadores en la exponencial . . . . . . . . . . . . . . . . . . . . . . . . . 280
B.6 Muestreo sin reemplazamiento . . . . . . . . . . . . . . . . . . . . . . . . . 282
8 INDICE GENERAL
B.6.1 Control de Calidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 282
B.6.2 El problema de los tanques alemanes . . . . . . . . . . . . . . . . . 284
B.7 Va Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286
B.8 Muestreo de Vas normales . . . . . . . . . . . . . . . . . . . . . . . . . . . 287
B.8.1 Matrices de Vas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287
B.8.2 VA normal n-dimensional . . . . . . . . . . . . . . . . . . . . . . . 289
B.8.3 Distribuciones en el muestreo . . . . . . . . . . . . . . . . . . . . . 291
B.8.4 Sesgo de S . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293
B.9 Intervalos de tolerancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294
B.9.1 Lımites de tolerancia . . . . . . . . . . . . . . . . . . . . . . . . . . 295
B.10 Muestreo por atributos (pruebas de hipotesis) . . . . . . . . . . . . . . . . 296
B.11 Modelo lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297
B.11.1 Estimador B1 de β1 . . . . . . . . . . . . . . . . . . . . . . . . . . 298
B.11.2 Estimador B0 de β0 . . . . . . . . . . . . . . . . . . . . . . . . . . 298
B.11.3 Estimador B0 +B1x de β0 + β1x . . . . . . . . . . . . . . . . . . . 298
B.11.4 Estimador S2 de σ2 . . . . . . . . . . . . . . . . . . . . . . . . . . 299
B.11.5 Distribuciones en el muestreo . . . . . . . . . . . . . . . . . . . . . 300
B.12 Intervalos de tolerancia en el modelo lineal . . . . . . . . . . . . . . . . . . 301
B.12.1 Unilateral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301
B.12.2 Bilateral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302
B.12.3 Aproximacion de Wallis . . . . . . . . . . . . . . . . . . . . . . . . 304
C Tablas 305
Indice Alfabetico 311
Indice de figuras
1.1 Frecuencia relativa de caras (numero total de caras en los n primeros
lanzamientos dividido por n) obtenidas en el lanzamiento repetido de una
moneda (ejemplo 1.2). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.1 Funciones de masa binomiales. . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.2 Densidades exponenciales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.3 Funciones de distribucion exponenciales. . . . . . . . . . . . . . . . . . . . . 46
2.4 Densidad de Cauchy. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.5 Ejemplo 2.38: rotura de la barra. . . . . . . . . . . . . . . . . . . . . . . . . 58
2.6 Diagrama del ejercicio 13. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.1 Densidades normales con igual µ y distintas σ. . . . . . . . . . . . . . . . . 90
4.2 Probabilidad para distintos intervalos (µ− kσ, µ+ kσ). . . . . . . . . . . . 92
4.3 Funciones de masa binomiales y su aproximacion por funciones de densi-
dad normales N(np,√np(1− p)). . . . . . . . . . . . . . . . . . . . . . . . . 95
4.4 Correccion de continuidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
4.5 Densidades ji-cuadrado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
5.1 Dibujo de la funcion de verosimilitud L (p | x) = p7 (1− p)3 (ejemplo
5.22). La funcion determina la probabilidad del resultado observado para
diferentes valores de p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
6.1 Densidades Student(5) y N(0, 1) . . . . . . . . . . . . . . . . . . . . . . . . 137
6.2 Funciones de potencia con α = 0.05 y muestras de tamano n = 16 y
n = 50 para una distribucion X ∼ N(µ, 1). . . . . . . . . . . . . . . . . . . 153
6.3 Curva de eficacia de la prueba del ejemplo 6.33 . . . . . . . . . . . . . . . . 162
6.4 Curva de eficacia correspondiente a la prueba del ejemplo 6.34 . . . . . . . 164
9
10 INDICE DE FIGURAS
7.1 Puntos de la muestra del ejemplo 7.2 . . . . . . . . . . . . . . . . . . . . . . 170
7.2 Puntos de la muestra del ejemplo 7.3 . . . . . . . . . . . . . . . . . . . . . . 171
7.3 Recta de regresion para la muestra del ejemplo 7.4 . . . . . . . . . . . . . . 174
7.4 Recta de regresion para la muestra del ejemplo 7.5 . . . . . . . . . . . . . . 174
7.5 intervalos de confianza de µ(x) = β0 + β1x para x desde 40 hasta 95C
(ejemplo 7.7) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
7.6 Intervalos de tolerancia para Y (x), con x variando entre 40 y 95 (ejemplo 7.8) 181
8.1 Funcion de distribucion empırica (ejemplo 8.1) . . . . . . . . . . . . . . . . 193
8.2 Funcion de distribucion empırica (ejemplo 8.2) . . . . . . . . . . . . . . . . 194
8.3 Dibujo de los valores de la comparacion entre la funcion de masa empırica
del ejemplo 8.3 y una funcion de masa de Poisson con λ = 3.87 (tabla 8.1). 196
8.4 Histograma obtenido a partir de la muestra del ejemplo 8.2. Comparacion
con un modelo exponencial con λ = 0.05. . . . . . . . . . . . . . . . . . . . 198
8.5 Funcion de distribucion empırica obtenida a partir de la muestra del ejem-
plo 8.2 comparada con la funcion de distribucion exponencial de λ = 0.05. . 199
8.6 Suavizacion lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
8.7 Valores de la funcion de cuantiles empırica para p = 1/4 y p = 3/4 . . . . . 201
8.8 Dibujo de los puntos (Φ−1(pk), x(k)) (qq-plot) y de la recta de ajuste de
mınimos cuadrados para la muestra del ejemplo 8.12. . . . . . . . . . . . . . 204
8.9 Dibujo de los puntos (Φ−1(pk), x(k)) (qq-plot) y de la recta de ajuste de
mınimos cuadrados para la muestra del ejemplo 8.2. . . . . . . . . . . . . . 205
8.10 Diagrama de caja o box-plot correspondiente a la muestra del ejemplo 8.18 209
8.11 Diagramas de caja (o box-plot) del ejemplo 8.19 . . . . . . . . . . . . . . . 210
8.12 Diagramas de caja (o box-plot) del ejemplo 8.20 . . . . . . . . . . . . . . . 211
A.1 Evolucion de la corrosion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253
A.2 Relacion entre las longitudes nominales y reales de ciertas piezas mecanizadas. 254
A.3 Curvas de regresion para la estimacion de g. Izquierda: ejes (d, y), derecha:
ejes (√
2d, y). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256
A.4 Rectas de regresion para cuatro muestras distintas. . . . . . . . . . . . . . . 258
A.5 Ajuste de mınimos cuadrados con un polinomio de 2o grado. . . . . . . . . . 260
INDICE DE FIGURAS 11
A.6 Tiempo en que se tarda en hacer una tarea manual en funcion del numero
de veces que se realiza. Escala (n, log T ). . . . . . . . . . . . . . . . . . . . . 261
A.7 Tiempo en que se tarda en hacer una tarea manual en funcion del numero
de veces que se realiza. Escala (n, T ). . . . . . . . . . . . . . . . . . . . . . . 261
A.8 Histograma de la pluvometrıa media en Espana peninsular en el periodo
1989/90 - 2012/13 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264
A.9 Diagrama de caja de una muestra de valores de la concentracion de plomo
en el aire. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265
A.10 Diagrama de caja para el logaritmo de la concentracion de plomo en el aire 266
A.11 qq-plot para el logaritmo de la concentracion de plomo suponiendo un
modelo normal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266
A.12 Histograma del experimento de Cavendish con a0 = 4.88. . . . . . . . . . . 268
A.13 Histograma del experimento de Cavendish con a0 = 4.83. . . . . . . . . . . 268
A.14 qq-plot del experimento de Cavendish suponiendo un modelo normal. . . . . 270
12 INDICE DE FIGURAS
Lista de Sımbolos mas utilizados
Probabilidad
(nk
)Numero de combinaciones de n elementos tomados de k en k
|A| Cardinal del conjunto A
Ac Complementario del conjunto A
A,B,C, . . . Sucesos (subconjuntos del espacio muestral)
P (A) Probabilidad de que ocurra el suceso A
P (A|B) Probabilidad de que ocurra A sabiendo que ha ocurrido B
Z,X, Y, . . . Variables aleatorias (Vas)
F Funcion de distribucion
f Funcion de masa o funcion de densidad
Q Funcion de cuantiles
P (X = x) Probabilidad de que X tome el valor x
P (x) Probabilidad de que X tome el valor x (abuso de notacion)
B(p) Distribucion de Bernoulli
B(n, p) Distribucion binomial
χ2(k) Distribucion ji-cuadrado
t(k) Distribucion t de Student
N(µ, σ) Distribucion normal
E(X) Esperanza de la Va X
V ar(X) Varianza de la Va X
Cov(X,Y ) Covarianza de las Vas X e Y
13
14 Lista de Sımbolos mas utilizados
Estadıstica
X = (X1, . . . , Xn) Muestra aleatoria
x = (x1, . . . , xn) Muestra
X Media muestral
x Media de una muestra
S2 Varianza muestral
s2 Varianza de una muestra
µ Media de la poblacion
σ2 Varianza de la poblacion
T Estimador puntual
θ Estimacion del parametro θ
L(θ|x) Funcion de verosimilitud
mi Momentos teoricos
Ai Momentos muestrales
1− α Confianza de un intervalo
p Contenido en probabilidad de un intervalo de tolerancia
σ2 Varianza de la poblacion
F Funcion de distribucion empırica
f funcion de masa o de densidad empırica
h Longitud de las clases de un histograma
Q funcion de cuantiles empırica
q1, q2 y q3 Primer, segundo y tercer cuartil
xm Mediana de una muestra
B0, B1 Estimadores de la ordenada en el origen y la pendiente
de la recta de regresion
b0, b1 Estimaciones de la ordenada en el origen y la pendiente
de la recta de regresion
R2 Coeficiente de determinacion
r Coeficiente de correlacion lineal
Capıtulo 1
El concepto de probabilidad
1.1. Experimentos aleatorios. Regularidad estadıstica
El conocimiento cientıfico se fundamenta en la observacion y medida, la elaboracion de
teorıas y el contraste experimental. Este ultimo es su rasgo distintivo, frente a seudociencias
o dogmas, y el que le confiere utilidad, sin por ello renunciar a la belleza, y a el nos referimos
a continuacion.
Cada realizacion de un experimento proporciona un resultado, y en cada resultado se
mide el valor de una o varias propiedades: la regularidad, en la repeticion bajo identicas
condiciones experimentales, de estos valores, permite la construccion de modelos.
En la Naturaleza encontramos propiedades para las que somos capaces de construir modelos
o explicaciones deterministas, junto con otras que no pueden ser predichas exactamente,
fuera de toda duda. Tales propiedades se denominan aleatorias.
Ejemplo 1.1. El resultado del lanzamiento de una moneda o un dado. La trayectoria de una
partıcula en movimiento browniano. El tiempo de vida de un atomo radioactivo. La longitud
de una cola de clientes o el tiempo de espera de cada uno de ellos. La pluviometrıa, caudal
de avenidas fluviales, numero de terremotos en una region a lo largo del tiempo, ...
En estas situaciones es posible aun construir modelos experimentalmente contrastables usan-
do una forma peculiar de regularidad, la regularidad estadıstica:
Definicion 1.1. Un experimento es aleatorio si, aunque ninguno de los resultados posibles
se puede asegurar de antemano, realizado independientemente un gran numero de veces,
la frecuencia relativa con que aparece cada clase de ellos tiende a estabilizarse alrededor de
un valor lımite llamado su probabilidad experimental.
15
16 Capıtulo 1. El concepto de probabilidad
Supongamos que cada vez que se realiza el experimento aleatorio solo nos interesa si el
resultado tiene la propiedad A (y entonces lo anotamos con 1) o no la tiene (y lo anotamos
con 0). Cada sucesion de realizaciones independientes produce una sucesion experimental
particular (x1, x2, ..., xn, ...), donde xi = 0 o 1. Ademas∑n
i=1 xi representa el numero de
veces que resulto A en las n ocasiones y∑n
i=1 xi/n la frecuencia relativa. Resulta entonces
que
lımn→∞
1
n
n∑i=1
xi = pA
cualquiera que sea la sucesion experimental. Aquı las sucesiones, a diferencia de las que
estudia el Analisis Matematico, pueden ser extraordinariamente irregulares y no hay un
termino general del que se deduzcan todos. Sin embargo estamos seguros que, en la practica,
en todas ellas se produce la misma convergencia.
Ejemplo 1.2. Se lanza repetidamente una moneda equilibrada representando los resultados
del siguiente modo: en abscisas el numero de orden del lanzamiento (n = 1, 2, ...) y en
ordenadas la frecuencia relativa de caras obtenidas (numero total de caras en los n primeros
lanzamientos dividido por n). En seguida se observa, a medida que n aumenta, como dicha
frecuencia se estabiliza alrededor del valor 1/2.
Figura 1.1: Frecuencia relativa de caras (numero total de caras en los n primeros lanzamientos
dividido por n) obtenidas en el lanzamiento repetido de una moneda (ejemplo 1.2).
1.1. Experimentos aleatorios. Regularidad estadıstica 17
Ejemplo 1.3. La radioactividad es la emision espontanea de energıa (partıculas alfa, beta
y rayos gamma) que producen algunos nucleos atomicos. Cuando un nucleo emite radiacion
se dice que decae; despues del decaimiento el nucleo se ha transformado en otro diferente.
No es posible predecir si un nucleo determinado decaera o no en un periodo de observacion
fijado (0, t). Sin embargo, un mol de substancia contiene del orden de n = 6.022×1023 atomos,
y si nt es el numero de decaıdos se observa que la proporcion pt = nt/n es practicamente
constante. Por ejemplo, un atomo de radio 226 decae en un periodo de t anos con probabilidad
experimental pt = 1− exp(−4.327× 10−4t).
Ejemplo 1.4. El numero n de moleculas de un gas ideal en un recipiente V de volumen 1
cm3, a 1 atm y 250C, es del orden de 1019. Las moleculas se mueven con distintas velocidades,
pues no todas tienen la misma energıa, produciendose intercambios debidos a los choques
entre ellas. En la practica es imposible predecir la posicion y velocidad de una molecula en
cada instante. Sin embargo sı pueden comprobarse proporciones estables en el conjunto de
las n, es decir, el balance global es de equilibrio estadıstico. Por ejemplo, si nv es el numero
de ellas en cualquier instante y cualquier parte de volumen v, se observa que nv/n ≈ v/V,
es decir, las moleculas no ocupan ninguna posicion preferente.
Ejemplo 1.5. (el metodo de Montecarlo) Supongamos una figura arbitraria situada en el
plano. Vamos a medir, aproximadamente, su superficie s sirviendonos de un experimento
aleatorio. Construimos un cuadrado de lado ` suficiente para incluir la figura, y elegimos
puntos dentro del cuadrado de modo aleatorio. Para ello introducimos bolas numeradas, por
ejemplo de 1 a 1000, en una urna. Se extrae una bola y se anota su numero, sea x. Se
introduce de nuevo y se hace otra extraccion, sea y. El par (x, y) senala, con precision de
milesimas de `, un punto del cuadrado. Si de un total de n puntos ası elegidos resultaron ns
dentro de la figura, a la larga cabe esperar que
nsn≈ s
`2
ası que
s ≈ nsn`2
Si, en particular, la figura es una circunferencia de radio r, s = πr2 y podrıamos aproximar
π con una loterıa:
π ≈ nsn
`2
r2
Disponemos pues de un metodo fısicamente aceptable para medir la incertidumbre en los
experimentos aleatorios: la probabilidad experimental. La Teorıa de Probabilidades, que
estudiamos a continuacion, es una descripcion matematica, formal, de los experimentos alea-
torios. Un lenguaje descriptivo adecuado para construir modelos, descripciones idealizadas,
de cada sistema aleatorio en estudio, con los que facilitar la realizacion de predicciones con-
trastables.
18 Capıtulo 1. El concepto de probabilidad
1.2. Espacio muestral. Sucesos
Definicion 1.2. Se llama espacio muestral al conjunto Ω de todos los resultados po-
sibles de un experimento aleatorio.
Ante cada experimento lo primero y fundamental es identificar su espacio muestral.
Ejemplo 1.6. En el experimento de lanzar 2 monedas los resultados son los pares (x1, x2)
(el subındice identifica cada una de las 2 monedas) donde xi = c o + (o 1 y 0, los sımbolos
son convencionales). El conjunto de resultados posibles es Ω = (c, c), (c,+), (+, c), (+,+).Observar que (c,+) y (+, c) son resultados diferentes.
Ejemplo 1.7. El decaimiento o no de un nucleo radioactivo en un intervalo de tiempo fijado
(0, t) es aleatorio. En un conjunto de n nucleos los resultados posibles son todas las n-tuplas
(x1, x2, ..., xn) (el subındice identifica a cada nucleo) donde xi = 0 (no decaıdo) o 1 (decaıdo).
En total hay 2n resultados en Ω (2 posibilidades para x1 que hay que multiplicar por 2 para
x2,... etc.).
Ejemplo 1.8. En el experimento de lanzar una moneda hasta que aparezca cara los resul-
tados posibles son Ω = c,+c,+ + c,+ + +c, .....
Ejemplo 1.9. En el experimento de observar, desde un instante incial t = 0, el tiempo
que transcurre hasta que decae un nucleo es aleatorio, los resultados posibles son todos los
numeros del intervalo (0,+∞).
Definicion 1.3. Un suceso es un subconjunto de resultados.
Un subconjunto se puede definir senalando cuales son cada uno de sus elementos, o mejor,
senalando una propiedad que solo ellos poseen. De esta segunda forma un suceso es el conjunto
de resultados de Ω que tienen cierta propiedad.
“El suceso A” se refiere a la vez a la propiedad A y al conjunto de resultados que la tienen.
“Ha sucedido A” afirma que el resultado ω ∈ Ω obtenido en el experimento tiene la propiedad
A, es decir que ω ∈ A.
Ejemplo 1.10. En el experimento de lanzar un dado, el suceso “se obtiene un numero par”
se representa por A = 2, 4, 6. Si el resultado obtenido es uno de los tres elementos de A se
realiza el suceso, y en otro caso no se realiza.
En el experimento de lanzar 2 monedas, el suceso “se obtiene exactamente una cara” se
representa por A = (c,+), (+, c). Si el resultado obtenido es uno de estos 2 se realiza el
suceso, y en otro caso no se realiza.
1.2. Espacio muestral. Sucesos 19
En el sistema de n nucleos radioactivos el suceso “en el intervalo (0, t) han decaıdo k nucleos”
consta de todas las n-tuplas (x1, x2, ..., xn) (el subındice identifica a cada nucleo, donde xi = 0
si no decaıdo y xi = 1 si decaıdo) con k unos y n−k ceros, cualquiera que sea el modo como
se repartan en la n-tupla (es decir, cualquiera que sean los k nucleos decaıdos). En total hay(nk
)resultados en dicho suceso (numero de combinaciones: todas las elecciones distintas de
k posiciones para los decaıdos entre las n).
Definicion 1.4. Cada resultado ωi define un suceso elemental. El propio Ω es el suceso
seguro. El conjunto vacio φ representa un suceso imposible, es decir, cualquier propiedad
que no se realice en ningun resultado.
Las propiedades que definen los sucesos se pueden combinar mediante los operadores “y”,
“o” y “no”, segun las reglas de la logica, para producir nuevos sucesos. En la represen-
tacion conjuntista las operaciones correspondientes son, respectivamente, la interseccion,
la union, y la complementacion (respecto de Ω). Ası que al realizar estas operaciones
con los subconjuntos de Ω que representan sucesos, se obtendran subconjuntos que tambien
representaran sucesos.
Si A1, A2, ... son sucesos, mediante la representacion conjuntista es facil denotar proposiciones
interesantes, como las siguientes:
“sucede algun Ai” ⇐⇒ ∪Ai (el resultado pertenece al menos a uno de los Ai)
“suceden todos los Ai” ⇐⇒ ∩Ai
“no sucede ningun Ai” ⇐⇒ (∪Ai)c = ∩Aci
Definicion 1.5. Si Ai y Aj son sucesos tales que Ai∩Aj = φ, o sea, no hay ningun resultado
que tenga a la vez ambas propiedades, se llaman excluyentes o incompatibles.
Observar que en los ejemplos 1.6 y 1.7 el numero de resultados posibles es finito, en el 1.8
es infinito numerable y en el 1.9 infinito no numerable. Ası que las operaciones con sucesos
se tienen que extender incluso a infinitos sucesos, pues si el numero de elementos de Ω
(resultados posibles) es infinito, tambien puede serlo el numero de sucesos (subconjuntos de
Ω) que nos interesan.
Hay sin embargo algunas dificultades matematicas en esta representacion conjuntista que
merece la pena comentar. Como cada suceso esta representado por un subconjunto del espacio
muestral, pareciera que los sucesos equivaldrıan simplemente a la familia ℘(Ω) de todos los
subconjuntos de Ω, lo cual resulta tecnicamente aceptable si Ω es numerable (finito o
infinito)1, pero no si Ω es no numerable (en particular R o Rk). Hay que limitarse aquı a
1Un conjunto Ω es numerable si se puede establecer una biyeccion entre Ω y el conjunto de los numeros
naturales (N) o entre Ω y un subconjunto cualquiera de N. Dicho de otra forma: los elementos de Ω se pueden
contar. Un conjunto numerable es finito si su numero de elementos es finito.
20 Capıtulo 1. El concepto de probabilidad
usar una familia mas reducida, llamada de Borel (denotada B o Bk respectivamente), que,
por construccion, usa los intervalos (de R; hiper-rectangulos de Rk) como conjuntos basicos,
e incluye a todos los conjuntos que se engendran a partir de aquellos mediante operaciones
de union, interseccion y complementacion.
En resumen, siempre que trabajemos con un experimento aleatorio daremos por sentado que
hay seleccionada una clase adecuada de sucesos: una familia F de subconjuntos de Ω,
incluyendo al propio Ω y a φ, cerrada para las operaciones de conjuntos. El par
(Ω,F) se denomina espacio probabilizable.
1.3. Probabilidad
El referente son las probabilidades experimentales (los valores a la larga de las frecuencias
relativas, o las proporciones estables en un sistema en equilibrio). Para cada suceso A su
probabilidad es un numero de [0, 1] (como las frecuencias relativas), pero la aplicacion no
puede ser arbitraria, debiendo respetar las demas propiedades que puedan descubrirse en
las frecuencias. En lugar de un catalogo exhaustivo de propiedades, bastan 2 (axiomas) que
implican todas las demas:
Definicion 1.6. Sea un espacio probabilizable (Ω,F). Una probabilidad es una aplicacion
P : F → [0, 1] tal que:
(i)(axioma de aditividad) si Ai (en numero finito o numerable) son tales que Ai ∩Aj = φ
(incompatibles) entonces
P (∪Ai) =∑
P (Ai)
(ii) P (Ω) = 1
Se llama a (Ω,F , P ) una distribucion de probabilidades.
Tal aplicacion es una medida aditiva, como una masa, y es provechoso ver ası la probabilidad.
Ahora mediante representaciones adecuadas de unos sucesos por medio de otros y el empleo
de estos 2 axiomas, se deducen todas las formulas necesarias. Veamos unos ejemplos.
Ejemplo 1.11. Demostremos que P (A) = 1 − P (Ac). Como Ω = A ∪ Ac y A ∩ Ac = φ
aplicando el primer axioma P (Ω) = P (A) + P (Ac), y resulta lo propuesto pues P (Ω) = 1.
Ejemplo 1.12. Demostremos que P (φ) = 0. Como Ω = Ω ∪ φ y Ω ∩ φ = φ, aplicando el
primer axioma: P (Ω) = P (Ω) + P (φ).
Ejemplo 1.13. Demostremos que si A ⊂ B (el suceso A implica al B: si sucede A sucede
B) entonces P (A) ≤ P (B). Como B = A∪ (B∩Ac) y A∩ (B∩Ac) = φ, aplicando el primer
axioma P (B) = P (A) + P (B ∩Ac), de donde resulta lo propuesto ya que P (B ∩Ac) ≥ 0.
1.4. Asignacion de probabilidades 21
1.4. Asignacion de probabilidades
Los axiomas y las formulas que de ellos se deducen solo relacionan las probabilidades de unos
sucesos con las de otros, pero no determinan sus valores: estos solo pueden ser aproxima-
dos mediante la experimentacion, o bien postulados a partir de razonamientos
fısicos.
Un ejemplo particular, muy notable, de esto ultimo es el llamado modelo de equipro-
babilidad, o de eleccion al azar, que examinamos a continuacion. Corresponde a un reparto
homogeneo, uniforme, no preferencial, sobre Ω, de la masa total de probabilidad de valor 1,
asociando a cada suceso una masa proporcional a su talla, adecuadamente medida, pero sin
importar ninguna otra cualidad de estos conjuntos.
1.4.1. Espacio muestral numerable y finito
Definicion 1.7. Sea Ω un conjunto finito. Diremos que P es una distribucion equipro-
bable, o al azar, si para cada suceso A es:
P (A) =|A||Ω|
,
en donde |Ω| representa el numero de elementos (cardinal) de Ω.
El calculo de probabilidades se reduce pues, en este caso, a contar el numero de resultados de
cada suceso. En particular, para cada suceso elemental la definicion resulta en P (ωi) = 1/ |Ω|(lo que tambien podrıa haberse elegido como punto de partida para definir la equiprobabi-
lidad). Es evidente que si el |Ω| no es finito no puede definirse la equiprobabilidad. Los
denominados juegos de azar, como el lanzamiento de una moneda o un dado bien equilibra-
dos, los naipes, las loterias, etc., son situaciones que pueden ser descritas por este modelo.
Ejemplo 1.14. Se lanza n veces una moneda. Los resultados son todas las n-tuplas (x1, x2,
..., xn) donde xi es c o + y |Ω| = 2n. Si la moneda es equiprobable (es decir P (c) = P (+) =
1/2) cada resultado deberıa tener la misma probabilidad, no importa cuantas caras y cruces
muestre, y esta es 1/2n. El suceso “obtener k caras” tiene
(n
k
)resultados posibles (elecciones
distintas de las k posiciones para las caras entre las n posibles). Entonces
P (k caras) =1
2n
(n
k
)
Sin embargo si la moneda no es equiprobable (en general si P (c) = p y P (+) = 1 − p) los
resultados no tienen la misma probabilidad (depende de cuantas caras y cruces muestren) y
22 Capıtulo 1. El concepto de probabilidad
ya no es obvio como calcular la probabilidad de cada uno: si la probabilidad de cara fuese
mayor que la de cruz los resultados con mas caras serıan los mas probables.
Esto es ası en el experimento analogo de observar el numero de nucleos que decaen, de
un total de n, en un intervalo de tiempo fijado. El suceso “decaen k nucleos” tiene
(n
k
)resultados, pero estos no son, en general, equiprobables.
Veremos la solucion en la Seccion 1.8 (ejemplo 1.28).
Ejemplo 1.15. ¿que probabilidad hay de que en un grupo tomado al azar de n personas al
menos 2 hayan nacido el mismo dıa? (suponer todos los anos de 365 dıas y n<365).
Los resultados posibles son todas las n-tuplas (x1, x2, ..., xn) donde cada xi es un numero des-
de 1 hasta 365, de manera que hay 365n (365 para x1 que hay que multiplicar por 365 para
x2 etc.). Interpretaremos “grupo tomado al azar de n personas” como que dichos resultados
son equiprobables, es decir, la probabilidad de cada uno de ellos es 1/365n. ¿Cuantos resul-
tados tienen distintas las n fechas?: la primera se puede elegir de 365 formas, que hay que
multiplicar por 364 para la segunda, etc., ası que son 365(365− 1)(365− 2)...[365− (n− 1)].
La probabilidad de que todos los cumpleanos sean distintos es:
p =365(365− 1)(365− 2)...[365− (n− 1)]
365n
=
(1− 1
365
)(1− 2
365
)..
(1− n− 1
365
).
Y la pedida (suceso complementario) vale 1− p. En particular, con n = 23 es practicamente
1/2.
1.4.2. Espacio muestral no numerable y acotado
Definicion 1.8. Sea Ω no numerable (por ejemplo Ω ⊂ Rk) y acotado, es decir med(Ω) <∞(su medida: longitud si k = 1, superficie si k = 2, etc.). Diremos que P es una distribucion
equiprobable, o al azar, si para cada suceso A es:
P (A) =med(A)
med(Ω)
Observar la analogıa de esta formula con la del caso finito, y que si la med(Ω) no es finita
no es posible la equiprobabilidad.
Ejemplo 1.16. supongamos una ruleta continua (sin topes para detener la aguja). Se impul-
sa y se mide el angulo que forma la aguja al detenerse con una referencia. Ω = 0 < ϕ ≤ 2πy aceptando el modelo equiprobable para la ruleta, P (el angulo es menor que π) = 1/2, pues
med(Ω) = 2π y med[0, π) = π.
1.5. Probabilidad condicional 23
Ejemplo 1.17. (cont. del 1.5) el mecanismo de eleccion de los puntos en el cuadrado es sin
duda al azar. P (el punto esta dentro de la figura) = s/`2, pues med(Ω) = `2 y med(figura) =
s.
1.5. Probabilidad condicional
Notacion: de ahora en adelante, para mas sencillez, denotaremos AB en lugar de A ∩ B,
ABC en lugar de A ∩B ∩ C etc.
Mediante el concepto de probabilidad condicional se tiene en cuenta la posible informacion
parcial sobre el resultado del experimento: si se sabe que ha sucedido B, ¿cual es la pro-
babilidad de que tambien haya sucedido A? (es decir, sabiendo que el resultado esta en B
que probabilidad hay de que en particular este en AB)? Denotaremos P (A | B) el numero
buscado.
Las frecuencias relativas nos dan la guıa para su calculo. Si en n realizaciones del experimento,
sucedio B en nB de ellas, y AB en nAB, la frecuencia relativa condicional (de realizaciones
de A entre las de B) es fA|B = nAB/nB , que puede tambien expresarse por medio de las
frecuencias “incondicionales”:
fA|B = nAB/nB =nAB/n
nB/n=fABfB
y si n es suficientemente grande, estas ultimas se estabilizan en torno a las correspondientes
probabilidades experimentales, que en la Teorıa corresponden a P (AB) y P (B).
Definicion 1.9. La probabilidad condicional de A dado B es:
P (A | B) =P (AB)
P (B)
La definicion exige que P (B) > 0, es decir que B no sea imposible.
Ejemplo 1.18. Se lanzan 2 dados. Sabiendo que la suma de los puntos obtenidos es menor
que 5 calcular la probabilidad de que sea par.
El espacio muestral consta de 36 resultados (x1, x2), donde xi es el punto que muestra ca-
da dado. Si los dados son equilibrados entonces todos los resultados deben tener la misma
probabilidad que debe valer P (x1, x2) = 1/36 para cada resultado.
La probabilidad que hay que calcular es condicional:
P (S = par | S < 5) =P (S = par y S < 5)
P (S < 5)
=4/36
6/36=
2
3
24 Capıtulo 1. El concepto de probabilidad
pues:
P (S = par y S < 5) = P (S = 2 ∪ S = 4)
= P (S = 2) + P (S = 4)
= 1/36 + 3/36 = 4/36
P (S < 5) = P (S = 2 ∪ S = 3 ∪ S = 4)
= P (S = 2) + P (S = 3) + P (S = 4)
= 1/36 + 2/36 + 3/36 = 6/36
y
P (S = 2) = P ((1, 1)) = 1/36
P (S = 3) = P ((1, 2), (2, 1)) = 2/36
P (S = 4) = P ((1, 3), (3, 1), (2, 2)) = 3/36
Observar que la funcion P (· | B) define una distribucion de probabilidades sobre los sucesos
de B (que son las intersecciones de los de Ω con B) considerado como nuevo espacio muestral.
Como tal satisface los axiomas (compruebelo):
1. si Ai son sucesos tales que AiAj = φ, entonces
P (∪Ai | B) =∑
P (Ai | B)
2.
P (B | B) = 1
En la investigacion de los experimentos aleatorios muchas veces las probabilidades condicio-
nales se calculan o aproximan usando este punto de vista, mejor que usando su definicion:
trabajando en el experimento restringido de espacio muestral B, mas simple que el global de
espacio Ω.
Tambien podemos definir la de B dado A
P (B | A) =P (AB)
P (A)
y teniendo en cuanta ambas es
P (AB) = P (A | B)P (B) = P (B | A)P (A)
y es usando formulas como esta que puede ser mas sencillo calcular las probabilidades incon-
dicionales sobre los sucesos de Ω a partir de las condicionales (obtenidas, como se ha dicho,
razonando directamente en el experimento restringido).
1.6. Formula de Bayes 25
Ejemplo 1.19. Sean Ai (i = 1, ...n) sucesos arbitrarios. Compruebe que
P (A1A2 · · ·An) = P (A1)P (A2 | A1)P (A3 | A1A2) · · ·P (An | A1A2 · · ·An−1)
Ejemplo 1.20. Una urna contiene r bolas rojas y b blancas. Se extraen sucesivamente y sin
reemplazamiento 4 bolas Calculemos la probabilidad de la secuencia (RBRB).
P (R) =r
r + b
P (B | R) =b
r + b− 1
P (R | RB) =r − 1
r + b− 2
P (B | RBR) =b− 1
r + b− 3
y la probabilidad pedida resulta:
P (RBRB) =rb(r − 1)(b− 1)
(r + b)(r + b− 1)(r + b− 2)(r + b− 3)
1.6. Formula de Bayes
Proposicion 1.1. (formula de la probabilidad total) Sean Ai (i = 1, 2, ...) sucesos tales
que AiAj = φ (incompatibles) y ∪Ai = Ω (es decir, los Ai constituyen una particion de Ω).
Sea un suceso B. Entonces, como B = BΩ = B (∪Ai) = ∪ (BAi) y (BAi) (BAj) = BAiAj =
Bφ = φ, aplicando el primer axioma:
P (B) = P (∪ (AiB)) =∑
P (AiB)
y ahora aplicando la definicion de probabilidad condicional
P (B) =∑
P (B | Ai)P (Ai)
Ejemplo 1.21. Un lote de piezas mecanizadas ha sido producido por 3 maquinas diferentes:
el 20 % por la 1, el 30 % por la 2 y el 50 % por la 3. El 1 % de la produccion de la 1 es
defectuosa, ası como el 2 % de la 2 y el 3 % de la 3. ¿Que proporcion de piezas defectuosas
hay en el lote?
Sea Mi el suceso “una pieza tomada del lote ha sido fabricada por la maquina i”. Sea D el
suceso “una pieza tomada del lote es defectuosa”. Estos sucesos cumplen las condiciones de
la proposicion 1.1. Por lo tanto:
P (D) =∑
P (D |Mi)P (Mi) = 0.01× 0.20 + 0.02× 0.30 + 0.03× 0.50 = 0.023
26 Capıtulo 1. El concepto de probabilidad
Proposicion 1.2. (formula de Bayes) Para cada uno de los Aj es:
P (Aj | B) =P (AjB)
P (B)
=P (B | Aj)P (Aj)∑P (B | Ai)P (Ai)
Observar que si B sucede es porque ha sucedido alguno de los Ai. Si llamamos a estos las
causas posibles de B, entonces la formula de Bayes evalua la probabilidad de cada una de
ellas.
Ejemplo 1.22. (cont.) Se ha seleccionado al azar una pieza del lote y ha resultado defec-
tuosa, ¿que probabilidad hay de que haya sido producida por la maquina 1?
P (M1 | D) =P (D |M1)P (M1)
P (D)=
0.01× 0.2
0.023= 0.08696
Analogamente obtendriamos P (M2 | D) = 0.26087 y P (M3 | D) = 0.65217
En muchas ocasiones se trata de clasificar un individuo tomado al azar de una poblacion
en una de dos categorıas sobre la base de cierto ensayo indirecto. Por ejemplo el analisis
quımico de una muestra de un bloque de explotacion para estimar si es de mineral o no, o
una prueba medica para estimar si el paciente tiene o no una enfermedad, o un control de
calidad para estimar si el producto es bueno o defectuoso.
Denotemos por ejemplo S (sano), E (enfermo), S∗ (la prueba dice sano) y E∗ (la prueba
dice enfermo). Entonces los resultados posibles son:
E S
E∗ correcto error 1
S∗ error 2 correcto
Toda ensayo tiene limitaciones: el error 1 son falsos positivos y el 2 falsos negativos. Una
terminologıa habitual es:
P (E) es la prevalencia de la enfermedad en la poblacion estudiada.
P (E∗ | E) es la sensibilidad del ensayo: proporcion de verdaderos positivos (en el ambito
medico, capacidad del ensayo para detectar la enfermedad).
P (S∗ | S) es la especificidad del ensayo: proporcion de verdaderos negativos (en el ambito
medico, capacidad del ensayo para detectar a los sanos).
Sensibilidad y especificidad valoran la validez de la prueba pero en la practica clınica al
medico le interesan mas los valores predictivos:
1.7. Sucesos independientes 27
P (E | E∗) es valor predictivo positivo o probabilidad de padecer la enfermedad si la prueba
es positiva.
P (S | S∗) es valor predictivo negativo o probabilidad de estar realmente sano con una prueba
negativa.
Ejemplo 1.23. Ciertos refuerzos estructurales pueden presentar corrosion (S) o no presen-
tarla (N). Y cierto ensayo senala corrosion (S∗) o no la senala (N∗). Se someten al ensayo
1000 refuerzos de los que 10 tienen corrosion y 990 no la tienen. El ensayo identifica 9 de
los 10 correctamente, y de los 990 senala incorrectamente 150 como corroidos:
S N
S∗ 9 150 159
N∗ 1 840 841
10 990 1000
Ası presentados los resultados, todas las probabilidades se estiman directamente con las fre-
cuencias relativas:
P (S) = 10/1000 = 0.01
P (S∗ | S) = 9/10 = 0.9
P (N∗ | N) = 840/990 ≈ 0.85
P (S | S∗) = 9/159 ≈ 0.0566
P (N | N∗) = 840/842 ≈ 0.9976
Ejemplo 1.24. (cont.) Supongamos, en cambio, que sin conocer los resultados del ensa-
yo, sabemos que la sensibilidad y especificidad del metodo de analisis de la corrosion son
P (S∗ | S) = 0.9 y P (N∗ | N) = 0.9 y que P (S) = 0.01. Entonces con la formula de Bayes:
P (S | S∗) =P (S∗ | S)P (S)
P (S∗ | S)P (S) + P (S∗ | N)P (N)
=0.9× 0.01
0.9× 0.01 + (1− 840/990)× (1− 0.01)≈ 0.0566.
1.7. Sucesos independientes
Como
P (A | B) =P (AB)
P (B)
y
P (B | A) =P (AB)
P (A)
28 Capıtulo 1. El concepto de probabilidad
siempre es
P (A | B)P (B) = P (B | A)P (A) = P (AB) (1.1)
Si, en un experimento, se encontrase que para los sucesos A y B es P (A | B) = P (A) 2, es
natural decir que A es independiente de B. Pero entonces (sustituyendo en 1.1) tambien es
P (B | A) = P (B), es decir, tambien B es independiente de A: la informacion de que uno
de ellos se ha realizado no modifica la probabilidad del otro. Y tambien es
P (AB) = P (A)P (B)
que a su vez implica a las anteriores. Tenemos ası la siguiente
Definicion 1.10. Las 3 igualdades numericas
P (A | B) = P (A)
P (B | A) = P (B)
P (AB) = P (A)P (B)
son equivalentes. Si se verifican, los sucesos A y B se dice que son independientes.
La interpretacion experimental es la siguiente: sean nA, nB y nAB los numeros de veces
que suceden A, B y AB respectivamente, en el total de n realizaciones del experimento
aleatorio. La independencia quiere decir que, para n suficientemente grande, se verifican las
3 igualdades equivalentes entre las frecuencias relativas:
nABnB≈ nA
n⇔ nAB
nA≈ nB
n⇔ nAB
n≈ nA
n
nBn
La independencia es muy importante cuando se conoce a priori (mas que en su constatacion
a posteriori) como veremos en la proxima seccion.
Tengase en cuenta que la independencia de los sucesos A y B solo depende de la distribucion
P y ninguna “relacion” entre ellos en terminos de inclusiones, intersecciones etc. la asegura.
Y que no se deben confundir los sucesos independientes con los incompatibles: precısamente si
son incompatibles, es decir AB = φ, entonces no pueden ser independientes, pues P (AB) = 0
y entonces P (A | B) = 0 pero P (A) > 0; e igual para la P (B | A). Mas simple: la informacion
de que uno de ellos se ha realizado es suficiente para saber que el otro no se ha realizado.
Ejemplo 1.25. se elige una carta de una baraja de 40. Los sucesos A =“rey” y B =“copas”
son independientes, pues P (A) = 4/40 = 1/10, P (B) = 10/40 = 1/4, y P (AB) = 1/40.
2Esto es una igualdad numerica, no una formula.
1.8. Experimentos independientes 29
Ejemplo 1.26. se lanza un dado equiprobable. Los sucesos “el punto es mayor que 2” y “el
punto es par” son independientes.
P (par > 2) = P (4, 6) =1
3
P (par) = P (2, 4, 6) =1
2
P (> 2) = P (3, 4, 5, 6) =2
3
Ejemplo 1.27. Se lanza un dado dos veces. Sabiendo que la suma de los puntos es 7 calcu-
lemos la probabilidad de que la primera tirada fuese 1
P (X1 = 1 | X1 +X2 = 7) =P (X1 = 1, X2 = 6)
P (X1 +X2 = 7)
=1/36
6/36=
1
6= P (X1 = 1)
y obviamente resulta lo mismo para cualquier otro valor de la primera tirada: el resultado de
la primera tirada es independiente de la suma si esta es 7. No ası para cualquier otro valor
fijado de la suma: en el caso extremo P (X1 = 6 | X1 +X2 = 12) = 1
Definicion 1.11. En general n sucesos son independientes si para cada eleccion de k de
ellos (k = 2, ..., n) es:
P (Ai1Ai2 ...Aik) = P (Ai1)P (Ai2)...P (Aik)
En particular:
P (A1A2...An) = P (A1)P (A2)...P (An)
Los sucesos independientes surgen de modo natural en los experimentos independientes, que
estudiamos ahora.
1.8. Experimentos independientes
Supongamos, sin perdida de generalidad, 2 experimentos aleatorios (Ω1,F1, P1) y (Ω2,F2, P2).
Nos interesamos ahora en el estudio conjunto de ambos, es decir, sean realizados simultanea-
mente o en sucesion los dos experimentos anteriores formando el experimento conjunto
(Ω,F , P ), entonces:
El espacio muestral es Ω = Ω1×Ω2, constituido por todos los pares ordenados (ω1, ω2)
de resultados de uno y otro.
Los sucesos F son los engendrados por los A1 ×A2 con A1 ∈ F1 y A2 ∈ F2.
30 Capıtulo 1. El concepto de probabilidad
La probabilidad P sobre los sucesos de F esta determinada por las P (A1 ×A2), pero
estas no estan en general determinadas por las P1 y P2: dependen de la conexion fısica
que haya entre los experimentos. Salvo en el caso especialmente importante en que
los experimentos parciales sean fısicamente independientes.
Proposicion 1.3. Si los experimentos (Ω1,F1, P1) y (Ω2,F2, P2) son independientes, la
distribucion de probabilidades en el experimento conjunto (Ω,F , P ) esta determinada por las
P1 y P2 y es
P (A1 ×A2) = P1(A1)P2(A2)
Demostracion. Si los experimentos son independientes los sucesos de F de la forma A1×Ω2
(que solo dependen del primer experimento: el suceso se realiza si sucede A1 en el primero
no importa cual sea el resultado del segundo) y Ω1 × A2 (que solo dependen del segundo
experimento: el suceso se realiza si sucede A2 en el segundo no importa cual sea el resultado
del primero) son necesariamente independientes (cf 1.7).
Pero es obvio que
A1 ×A2 = (A1 × Ω2) ∩ (Ω1 ×A2)
y si los (A1 × Ω2) y (Ω1 ×A2) son independientes
P (A1 ×A2) = P ((A1 × Ω2) ∩ (Ω1 ×A2))
= P (A1 × Ω2)P (Ω1 ×A2)
Pero P (A1 × Ω2) = P1 (A1) y P (Ω1 ×A2) = P2(A2) ası que
P (A1 ×A2) = P1(A1)P2(A2)
Proposicion 1.4. En general, en un experimento compuesto de n independientes, si Ai es
un suceso del experimento i-esimo, es
P (A1 ×A2 × · · · ×An) = P1(A1)P2(A2)...Pn(An).
Ejemplo 1.28. Se lanza una moneda con probabilidad p de cara n veces. El experimento
esta compuesto por los n (lanzamientos) parciales. En cada experimento parcial es Ωi =
c,+ con P (c) = p y P (+) = 1 − p. Cada resultado del experimento conjunto es de la
forma (ω1, ω2, ..., ωn) con ωi = c o +. Como los resultados de las tiradas son fısicamente
independientes
P (ω1, ω2, ..., ωn) = P (ω1)P (ω2) · · ·P (ωn)
1.9. Ejercicios propuestos 31
Por ejemplo, la probabilidad de que las k primeras tiradas sean cara y las n− k ultimas cruz
es
P (c, c,(k)· · ·, c,+,+,
(n−k)· · · ,+) = P (c)P (c)
(k)· · ·P (c)P (+)P (+)
(n−k)· · · P (+)
= pk(1− p)n−k
y obviamente es la misma para cada disposicion prefijada de k caras y n − k cruces en
las n tiradas. Igual da si se tiran n monedas iguales y se calcula la probabilidad de que k
seleccionadas muestren cara y las restantes cruz.
Como el numero de resultados con k caras es(nk
)y cada uno de ellos tiene la misma proba-
bilidad anterior, la probabilidad de obtener k caras es
P (k caras) =
(n
k
)pk(1− p)n−k 0 ≤ k ≤ n
Ejemplo 1.29. Como los nucleos radioactivos decaen independientemente unos de otros (ex-
cepto cuando se produce una reaccion en cadena por fision), y la probabilidad de decaimiento
en un intervalo de tiempo (0, t) es la misma para cada uno, sea pt, la probabilidad de que
decaigan k seleccionados en dicho intervalo es
pkt (1− pt)n−k
y la probabilidad de que decaigan k nucleos es
P (k nucleos) =
(n
k
)pkt (1− pt)n−k 0 ≤ k ≤ n
1.9. Ejercicios propuestos
Seccion 1.3
1. Deducir una formula para P (A ∪ B) en el caso general (es decir cuando A ∩ B 6= φ y
no vale el primer axioma).
2. Tenemos un dado equiprobable (la probabilidad de cada punto es 1/6) y lo trucamos
para conseguir que la probabilidad de tener 6 sea el doble que la de no tenerlo, y los
demas puntos tengan la misma probabilidad (pero obviamente distinta a la inicial).
Calcular la probabilidad de tener par.
3. En un dado trucado es P (2) = P (4) = P (6) = p y P (1) = P (3) = P (5) = q; ademas
P (par) = P (impar) + 0.1 Calcular estas probabilidades.
4. Halle el valor de la constante c si Ω tiene n resultados y sus probabilidades fuesen
P (ωi) = ic, (i = 1, .., n). (sugerencia: tenga en cuenta que∑n
x=1 x = n(n+ 1)/2 ).
32 Capıtulo 1. El concepto de probabilidad
Seccion 1.4:
5. Un jugador muy experto expreso su sorpresa a Galileo por observar que, al jugar con 3
dados, la suma 10 aparece con mas frecuencia que la 9, y, sin embargo, segun el habıa
igual numero de casos favorables: ”suma 9”=126, 135, 144, 225, 234, 333, ”suma
10”=136, 145, 226, 235, 244, 334. Galileo, en sus Considerazione Sopra il Giuoco dei
Dadi mostro que esto no era ası. ¿Que respondio Galileo?
6. En un lote de N piezas hay Np defectuosas y N (1− p) no defectuosas (0 < p < 1
es la fraccion de defectuosas). Si se eligen n con reemplazamiento (cada una elegida
se devuelve al lote para la siguiente extraccion), ¿cual es la probabilidad de obtener k
defectuosas? (0 ≤ k ≤ n).
7. (cont.) Si se eligen n sin reemplazamiento (cada una elegida no se devuelve al lote
para la siguiente extraccion; o lo que es igual, se sacan las n a la vez), ¿cual es la
probabilidad de obtener k defectuosas? (0 ≤ k ≤ mın (n,Np)).
8. ¿Cual es la probabilidad de que en n lanzamientos de un dado equilibrado aparezca el
3 al menos una vez?
9. Se elige un punto al azar en un cuadrado de lado `, y con el como centro se dibuja
un cırculo de radio r (siendo 2r < `). ¿Cual es la probabilidad de que un vertice del
cuadrado quede dentro del cırculo?
10. A lo largo de cierta falla se producen terremotos. Los que tienen su epicentro a menos
de 10 km de cierta presa, localizada 1 km fuera de la falla, son peligrosos. Suponiendo
que los epicentros se localizan al azar en cualquier segmento que se considere de la
falla, ¿que probabilidad hay de que un terremoto peligroso tenga su epicentro a menos
de 5 km de la presa?
11. Sea una circunferencia en el plano z = 0 de R3 con centro en el origen y radio r, y
sea el punto (0, 0, d). Desde dicho punto se hace un sondeo para intentar cortar a la
circunferencia, pero toma una inclinacion aleatoria respecto al eje z de angulo ϕ ∈ (0, c)
(no importa en que direccion). ¿Probabilidad de cortar al cuerpo?
Seccion 1.6:
12. Supongamos que en una pregunta de test con m alternativas si el alumno no sabe
la respuesta intenta acertarla eligiendo al azar. Sea p la probabilidad de que sepa
la respuesta, y 1 la de que sabiendola conteste correctamente. Calcule la probabi-
lidad de que un alumno que haya contestado correctamente supiese en realidad la
respuesta. (sugerencia: denote S=”sabe la respuesta”, N=”no sabe”, S∗=”responde
correctamente”, N∗=”no responde correctamente”)
1.9. Ejercicios propuestos 33
13. En un sistema de comunicacion digital, un 1 se transmite con probabilidad p y un 0
con probabilidad 1− p. Debido al ruido de los canales de transmision, al transmitir un
0 se puede recibir un 1 con probabilidad β y al transmitir un 1 se puede recibir un 0
con probabilidad α. Suponiendo que se recibe un 1, ¿cual es la probabilidad de que se
haya emitido un 1?
14. En cierto yacimiento se preve, a partir de un modelo estadıstico global, que el 30 % de
los bloques de explotacion son de mineral, pero sin poder asegurar, ante cada bloque
particular, si lo es o no. Para resolver este problema se pone a punto un metodo de
estimacion que, contrastado sobre un cierto numero de bloques, da los siguientes resul-
tados: cuando un bloque es de mineral el metodo acierta el 80 % de las veces, y cuando
es de esteril el 75 %. a) ¿Que proporcion de bloques seran clasificados como mine-
ral? b) Calcular los valores predictivos del metodo. (Denote M=“bloque de mineral”,
M∗=“bloque estimado como mineral”, E=“bloque de esteril”, E∗=“bloque estimado
como esteril”)
Seccion 1.7:
15. Si A y B son independientes, compruebe que tambien lo son: Ac y B; A y Bc; Ac y Bc.
16. Disene un experimento para realizar un sorteo justo (P (ganar) = P (perder)) con una
moneda trucada (P (cara) 6= P (cruz)).
Seccion 1.8:
17. (vea el ejemplo 1.28) Se tira una moneda con probabilidad p de cara n veces (o n
monedas iguales). a) Calcular la probabilidad de obtener menos de k caras. b) de no
obtener ninguna cara. c) de obtener por lo menos una cara.
18. En el dado del ejercicio 2 la probabilidad de los puntos es P (1) = P (2) = · · · = P (5) =
1/15 y P (6) = 10/15 ¿Cual es la probabilidad de que en n lanzamientos el 6 aparezca
k veces (0 ≤ k ≤ n).? (vea tambien el ejercicio 8)
19. Cierto sistema consta de n componentes independientes montados en serie. El sistema
funciona mientras funcionen todos. Los componentes funcionan independientemente y
cada uno tiene una probabilidad p de fallar. Calcule la fiabilidad del sistema, es decir,
la probabilidad de que no falle.
20. Idem si el sistema consta de n componentes independientes montados en paralelo, y
entonces el sistema funciona mientras funcione al menos uno. (sugerencia: calcule la
probabilidad del suceso complementario ”fallan todos”).
21. Asigne probabilidades a cada uno de los resultados del experimento “tirar una moneda
con probabilidad p de cara hasta que salga cara”. Compruebe que la suma es 1. Cal-
cule la probabilidad de que salga cara en un numero par de tiradas. (sugerencia: los
34 Capıtulo 1. El concepto de probabilidad
resultados posibles son Ω = c,+c,+ + c, .... Tenga en cuenta la independencia de las
tiradas. Ademas∑∞
x=k rx = rk/(1− r) si |r| < 1).
Capıtulo 2
Variables Aleatorias
2.1. Variable aleatoria
Nos interesamos de ahora en adelante en las distribuciones de probabilidades numericas
(R,B, P ) (cf. Seccion 1.3): el conjunto de resultados es R y los sucesos B son los engendrados
por los intervalos de R.
El modo natural de construirlas es mediante el concepto de variable aleatoria: los resultados
de los experimentos poseen propiedades que se pueden medir y nos interesamos en sus valores.
Definicion 2.1. Sea una distribucion de probabilidades (Ω,F , P ). Una variable aleatoria
es una funcion X : Ω→ R tal que
∀B ∈ B X−1(B) ∈ F
donde X−1(B) = ω ∈ Ω | X (ω) ∈ B.
Es decir, todo suceso numerico es la imagen de un suceso del experimento. En todas las
situaciones en que, de ahora en adelante, utilicemos las Vas, nunca sera necesario plantearse
si efectivamente la particular funcion numerica de los resultados satisface la condicion de la
definicion. Para nuestros propositos basta saber que si Ω es finito o numerable cualquier fun-
cion definida sobre Ω es una Va. Y si Ω es no numerable cualquier funcion continua, excepto,
a lo sumo, en un numero finito o numerable de puntos, es una Va. En estas condiciones si
X e Y son Vas definidas sobre el mismo Ω tambien lo son, por ejemplo, X2, X + Y , XY ,
mın(X,Y ), etc.
Ejemplo 2.1. En 3 lanzamientos de una moneda el espacio muestral es
Ω = (ccc) , (cc+) , (c+ c) , (+cc) , (c+ +) , (+c+) , (+ + c) , (+ + +)
35
36 Capıtulo 2. Variables Aleatorias
La funcion X = “numero de caras” toma los valores:
X (ccc) = 3
X (cc+) = X (c+ c) = X (+cc) = 2
X (c+ +) = X (+c+) = X (+ + c) = 1
X (+ + +) = 0
Algunas preimagenes son
X−1(2) = (cc+) , (c+ c) , (+cc)
X−1((−∞, 1]) = (c+ +) , (+c+) , (+ + c) , (+ + +)
X−1((−∞, 1)) = (+ + +)
Ejemplo 2.2. Mas general, en n lanzamientos de una moneda el espacio muestral es Ω =
(x1, x2, ..., xn) : xi = c o +. La funcion X = “numero de caras” esta definida sobre los 2n
elementos de Ω y sus valores posibles son 0, 1, 2, ..., n. Si el numero de caras en el resultado
particular (x1, x2, ..., xn) es x entonces X(x1, x2, ..., xn) = x.
Ejemplo 2.3. Un experimento analogo al anterior es “el numero de nucleos radioactivos,
de un total de n, que decaen en un intervalo de tiempo fijado (0, t).
Ejemplo 2.4. El numero de veces que hay que lanzar una moneda hasta obtener cara.
Ejemplo 2.5. El angulo que forma la aguja de una ruleta continua respecto al origen.
Ejemplo 2.6. El tiempo que transcurre, desde un instante de observacion inicial, hasta que
decae un nucleo.
El nombre variable aleatoria para una funcion debe entenderse en el sentido de variable
dependiente (de los resultados del experimento). Denotaremos las variables aleatorias con
letras mayusculas, como X, Y, Z,... (en seguida veremos que necesitamos la notacion habitual
en Analisis para las funciones, como f , g o F , con otro proposito) y con las minusculas co-
rrespondientes sus valores, por ejemplo, X (ω) = x.
Como se dijo al principio cada variable aleatoria representa1 una distribucion de probabili-
dades sobre R.
Definicion 2.2. Sea la Va X definida sobre (Ω,F , P ). Su distribucion de probabili-
dadeses (R,B, PX) definida por
PX(B) = P (X−1(B)) ∀B ∈ B1Con mas precision, equivale: se prueba que para cada distribucion de probabilidades numerica es posible
construir una variable aleatoria que tenga esa distribucion.
2.1. Variable aleatoria 37
En las aplicaciones, salvo casos muy simples, esta conexion entre las probabilidades de los
sucesos del experimento (lado derecho de la formula anterior) y las probabilidades de los
sucesos de R (lado izquierdo) no se hace explıcita y la PX(B) se da directamente o se trata
de modelizar a partir de un conjunto de observaciones experimentales de X.
Para simplificar la notacion escribiremos P (X ∈ B) en lugar de PX(B). Con ella represen-
tamos la pregunta: cuando se haga el experimento y se mida el valor de X en el
resultado ¿cual es la probabilidad de que el valor medido sea un numero del
intervalo B?
Mas particularmente escribiremos:
P (a < X < b) si B = (a, b)
P (a < X ≤ b) si B = (a, b]
P (X ≤ b) si B = (−∞, b]
P (X > b) si B = (b,+∞); etc.
Experimentalmente P (a < X < b), por ejemplo, representa la proporcion de veces que, a
larga, el valor medido de X esta en (a, b); P (X ≤ b) en (−∞, b], etc.
Todas las formulas generales de la probabilidad, definidas para conjuntos arbitrarios, se
traducen sin dificultad. Por ejemplo:
P (−∞ < X < +∞) = 1
P (X ≤ x+ h) = P (X ≤ x) + P (x < X ≤ x+ h) h > 0 (2.1)
pues (−∞, x+ h] = (−∞, x] ∪ (x, x+ h] y los dos intervalos de la derecha son disjuntos.
P (X > x) = 1− P (X ≤ x) (2.2)
etc.
Definicion 2.3. (Variable aleatoria discreta) Si el conjunto de valores posibles de la
funcion X (el conjunto de imagenes, o recorrido, denotado X (Ω)) es numerable (finito o
infinito) la variable se llama discreta.
Ejemplo 2.7. las variables de los ejemplos 2 y 3 con valores posibles 0, 1, 2, ...n. La del
ejemplo 4 con valores posibles 1, 2, 3, ....
Definicion 2.4. (Variable aleatoria continua) Si el conjunto de valores posibles de la
funcion X es no numerable (un intervalo de R, acotado o no), la variable se llama continua.
38 Capıtulo 2. Variables Aleatorias
Ejemplo 2.8. la del ejemplo 5 con valores posibles [0, 2π]. La del ejemplo 6 con valores
posibles (0,+∞).
2.2. Funcion de distribucion
Nuestro interes en el trabajo con las variables aleatorias es conocer su distribucion de pro-
babilidades, sin que en la mayor parte de las aplicaciones nos importe la forma de la propia
funcion X. Puede ser ademas que diferentes variables aleatorias, medidas en experimento dis-
tintos, tengan la misma distribucion, o ley de probabilidades. La ventaja de las variables
aleatorias es que dicha distribucion (que es una funcion de conjuntos) se puede especificar de
modo mas comodo por medio de ciertas funciones reales de variable real (por una formula).
Definicion 2.5. La funcion de distribucion2 de la variable aleatoria X es
F (x) = P (X ≤ x) ∀x ∈ R
Se prueba que la distribucion de probabilidades P (X ∈ B) esta determinada por la funcion
de distribucion F , es decir, la probabilidad de cualquier B se puede calcular a partir de las
probabilidades de los intervalos (−∞, x].
Ejemplo 2.9. Para (a, b], de (2.1)
P (a < X ≤ b) = F (b)− F (a) (2.3)
Ejemplo 2.10. Para (b,+∞), de (2.2):
P (X > b) = 1− F (b)
De la definicion se sigue que F es monotona no decreciente, pues de (2.3)
F (x+ h)− F (x) = P (x < X ≤ x+ h) ≥ 0 h > 0 (2.4)
y tiene lımites F (−∞) = P (X ≤ −∞) = P (φ) = 0. y F (+∞) = P (X ≤ +∞) = P (R) = 1.
Ademas una funcion de distribucion siempre es continua por la derecha:
lımh→0+
F (x+ h) = lımh→0+
P (X ≤ x+ h) = P (X ≤ x) = F (x)
(x pertenece a todos los intervalos (−∞, x + h] por pequeno que sea h > 0). Pero no tiene
por que serlo por la izquierda
lımh→0+
F (x− h) = lımh→0+
P (X ≤ x− h) = P (X < x)
2Tambien se suele llamar la funcion de distribucion acumulada
2.3. Variables discretas 39
(x no pertenece a ninguno de los intervalos (−∞, x− h] por pequeno que sea h > 0). Como
P (X ≤ x) = P (X < x)+P (X = x) la continuidad de F (x) en x (los lımites por la izquierda
y derecha coinciden) es equivalente a P (X = x) = 0.
Si X es discreta se ve facilmente que F (x) es discontinua en cada uno de sus valores posibles
x ∈ X (Ω), en los cuales es P (X = x) > 0, y de valor constante entre cada 2 puntos de
discontinuidad.
Si X es continua, en todos los casos que nosotros vamos a estudiar F (x) es continua.
Segun que X sea discreta o continua existen otras funciones equivalentes a la F mas comodas
y que estudiamos a continuacion.
2.3. Variables discretas
Definicion 2.6. Si la variable X es discreta, es decir, su conjunto de valores posibles es
numerable, sea S ≡ X (Ω), su funcion de masa de probabilidad es
f (x) = P (X = x) ∀x ∈ S
y cero en otro caso.
La P (X ∈ B) se calcula sumando los valores de f (x) en los puntos de S que pertenecen a
B:
P (X ∈ B) =∑
x∈B∩Sf (x)
y se sigue que ∑x∈S
f (x) = 1
y recıprocamente, cualquier funcion f (x) > 0 sobre un conjunto numerable S tal que∑x∈S f (x) = 1 es una funcion de masa.
En particular la F es
F (x) =∑
u∈S;u≤xf (u) ∀x ∈ R
Ejemplo 2.11. La funcion de masa uniforme, o equiprobable, es
f (x) =1
nx = 1, 2, ..., n
La funcion de distribucion es
F (x) =
0 x < 1kn k ≤ x < k + 1 k ∈ 1, 2, . . . , n− 11 x ≥ n
40 Capıtulo 2. Variables Aleatorias
Ejemplo 2.12. La funcion de masa de Bernoulli de parametro p ∈ (0, 1) es
f (x) = px (1− p)1−x x = 0, 1
La funcion de distribucion es
F (x) =
0 x < 0
1− p 0 ≤ x < 1
1 x ≥ 1
El modelo basico que da lugar a esta clase de variables aleatorias es un experimento con solo
2 resultados posibles, digamos cara y cruz, con probabilidades respectivas p y 1 − p, que se
realiza una vez. La variable aleatoria es X (cara) = 1 y X (cruz) = 0.
Ejemplo 2.13. La funcion de masa binomial de parametros n ∈ N y p ∈ (0, 1) es
f(x) =
(n
x
)px(1− p)n−x x = 0, 1, ..., n
Efectivamente f (x) > 0 y (formula del binomio de Newton):
[p+ (1− p)]n =n∑x=0
(n
x
)px(1− p)n−x = 1
El conjunto de valores posibles de una Va con esta funcion de masa es 0, 1, 2, ..., n.
El modelo basico que da lugar a esta clase de variables aleatorias es un experimento como el
del ejemplo anterior (de Bernoulli) que se realiza n veces independientemente. La variable
aleatoria X =“numero de caras en los n lanzamientos”, es binomial.
Ejemplo 2.14. La funcion de masa geometrica de parametro p ∈ (0, 1) es
f(x) = (1− p)x−1p x = 1, 2, 3, ...
Efectivamente f(x) > 0 y
∞∑x=1
(1− p)x−1p =p
1− p
∞∑x=1
(1− p)x =p
1− p× 1− p
1− (1− p)= 1
El modelo basico que da lugar a esta clase de variables aleatorias es el siguiente: un experi-
mento con solo 2 resultados posibles, digamos cara y cruz, con probabilidades respectivas p y
1− p, se realiza independientemente hasta obtener cara. La variable aleatoria X =“numero
de tiradas hasta que aparece cara” es geometrica.
Efectivamente, los valores posibles de X son los enteros 1, 2, 3.... El valor X = x se observa
si las primeras x−1 tiradas son cruz y la tirada x es cara. La probabilidad de esta disposicion
particular es (por la independencia de los resultados parciales que la componen) (1− p)x−1p.
2.3. Variables discretas 41
0 2 4 6 8 100
0.2
0.4
p = 0.2
0 2 4 6 8 100
0.2
0.4
p = 0.5
0 2 4 6 8 100
0.2
0.4
p = 0.8
Figura 2.1: Funciones de masa binomiales.
Ejemplo 2.15. La funcion de masa de Poisson de parametro λ > 0 es
f(x) = e−λλx
x!x = 0, 1, 2, ...
Efectivamente∞∑x=0
e−λλx
x!= 1
recordando que
eλ = 1 + λ+λ2
2!+λ3
3!+ · · ·
Las variables aleatorias de Poisson aparecen en muchos sistemas de la naturaleza y la vida
cotidiana en los que nos interesamos en el numero de acontecimientos de cierta clase que
aparecen en intervalos de observacion fijos, temporales o espaciales: numero de clientes que
llegan a una ventanilla en demanda de servicio, o de terremotos de cierta intensidad, o de
accidentes graves, distribucion espacial de animales, plantas, galaxias etc. En el Capıtulo 4
la estudiaremos con mas detalle.
42 Capıtulo 2. Variables Aleatorias
2.4. Variables continuas
Definicion 2.7. Si la variable aleatoria es continua, es decir, el conjunto de sus valores
posibles X (Ω) es no numerable (un intervalo de R, que puede ser acotado o no), en todos los
casos que vamos a estudiar existe una funcion integrable f (x) ≥ 0 ∀x ∈ R (0, ∀x /∈ X (Ω)),
llamada de densidad de probabilidad, tal que
P (X ∈ B) =
∫Bf (u) du (2.5)
Se sigue que ∫Rf (u) du = 1
y recıprocamente, cualquier funcion integrable f (x) ≥ 0 ∀x ∈ R que satisfaga la formula
anterior es la funcion de densidad de una variable aleatoria.
La relacion con F es (formula (2.5) con B ≡ (−∞, x])
F (x) = P (X ≤ x) =
∫ x
−∞f (u) du (2.6)
de manera que F es continua (primer teorema fundamental del calculo integral). Ademas en
cada x en que f sea continua (como f es Riemann integrable a lo mas tiene una cantidad
numerable de discontinuidades)
F ′ (x) = f (x) (2.7)
es decir, F es una funcion primitiva de f .
Ejemplo 2.16. Se elige un punto al azar en el cırculo x2 + y2 ≤ 1 y se define la Va
R=distancia del punto al centro, con recorrido [0, 1]. Hallemos su funcion de distribucion.
Sea r ∈ [0, 1] fijado. El suceso R ≤ r se realiza si el punto cae dentro del cırculo interior de
radio r y su probabilidad es el cociente de las superficies de dicho cırculo y el total (cf 1.4.2)
FR (r) = P (R ≤ r) =πr2
π= r2 r ∈ [0, 1]
ası que la densidad de R es
fR (r) = F ′R (r) = 2r r ∈ [0, 1]
Ejemplo 2.17. (cont.) En el mismo experimento sea Φ el angulo que forma el radio vector
del punto con el eje de abscisas, con recorrido [0, 2π]. El suceso Φ ≤ ϕ se realiza si el punto
cae dentro del sector, medido desde el eje de abscisas, de amplitud ϕ y su probabilidad es el
cociente de las superficies de dicho sector y del cırculo
FΦ (ϕ) = P (Φ ≤ ϕ) =ϕ/2
π=
ϕ
2πϕ ∈ [0, 2π]
2.4. Variables continuas 43
ası que la densidad de Φ es
fΦ (ϕ) = F ′R (ϕ) =1
2πϕ ∈ [0, 2π]
De (2.3) y (2.5)
P (x1 < X ≤ x2) =
∫ x2
x1
f (x) dx = F (x2)− F (x1) (2.8)
De (2.5), en particular, es
P (X = x) =
∫ x
xf(u)du = 0 ∀x
Esto es ası formalmente (propiedad de la integral de Riemann), pero tambien conforme con
la realidad experimental: pues los valores de una X continua solo se observan a una precision
dada y la frecuencia relativa de cada uno de ellos tiende a cero a medida que la precision
aumenta. Ası pues, con las variables continuas con las que vamos a trabajar es
P (x1 < X < x2) = P (x1 ≤ X < x2) = P (x1 < X ≤ x2) = P (x1 ≤ X ≤ x2)
y en particular F (x) = P (X ≤ x) = P (X < x).
Tengase presente que f (x) (a diferencia de la funcion de masa de una variable discreta) no
es una probabilidad, y puede tomar valores arbitrariamente grandes.
Ejemplo 2.18. La funcion de densidad f (x) = − ln (x) para x ∈ (0, 1). Efectivamente es
una densidad pues f (x) > 0 para x ∈ (0, 1) y∫ 1
0− ln (x) dx = [−x (lnx− 1)]10 = 1
Ademas, en este caso, f (x) no esta acotada
lımx→0+
(− ln (x)) =∞
Sin embargo, de (2.7) y (2.8) con h > 0
f (x) = lımh→0
F (x+ h)− F (x)
h= lım
h→0
P (x < X ≤ x+ h)
h
la ultima fraccion es el cociente de la masa de probabilidad en el intervalo, P (x < X ≤ x+h),
dividida por la longitud h, es decir la densidad de probabilidad.
Del lımite se sigue que
P (x < X ≤ x+ h) = f (x)h+ r (h) (2.9)
44 Capıtulo 2. Variables Aleatorias
con
lımh→0
r (h)
h= 0
y puede decirse que, salvo un infinitesimo de orden superior a h
P (x < X ≤ x+ h) ≈ f (x)h
Ejemplo 2.19. (cont.) Se elige un punto al azar en el cırculo x2 + y2 ≤ 1 y se define la Va
R distancia del punto al centro, con recorrido [0, 1]. Hallemos su densidad directamente. Sea
r ∈ [0, 1] fijado. El suceso r < R ≤ r+h se realiza si el punto cae entre los cırculos de radios
r y r + h. Su probabilidad es el cociente de las superficies de dicha corona y del cırculo
P (r < R ≤ r + h) =π (r + h)2 − πr2
π= 2rh+ h2
ası que, de (2.9)
fR (r)h+ r (h) = 2rh+ h2
y resulta
fR (r) = 2r r ∈ [0, 1]
Definicion 2.8. La funcion inversa de la F (x) = p, (que existe ya que F es estrictamente
creciente y continua), se llama funcion de cuantiles:
x = F−1 (p) p ∈ (0, 1)
y el numero x se llama el cuantil de orden p y se denota tambien como xp.
En particular el cuantil x0.5 se llama la mediana.
Ejemplo 2.20. la funcion de densidad uniforme en (a, b) es
f (x) =1
b− ax ∈ (a, b)
y cero en otro caso. Es inmediato que∫Rf (x) dx =
∫ a
−∞0× dx+
∫ b
a
1
b− adx+
∫ +∞
b0× dx
=
[x
b− a
]ba
= 1
El conjunto de valores posible de una variable aleatoria con esta densidad es (a, b). Su funcion
de distribucion y de cuantiles son
F (x) =
0 x ≤ a∫ x
a
1
b− adu =
x− ab− a
x ∈ (a, b)
1 x ≥ b
x = F−1 (p) = a+ p (b− a) p ∈ (0, 1)
2.4. Variables continuas 45
Ejemplo 2.21. la funcion de densidad exponencial (de parametro λ > 0) es
f (x) = λ exp (−λx) x > 0
y cero en otro caso. ∫Rf (x) dx =
∫ 0
−∞0× dx+
∫ +∞
0λ exp (−λx) dx
= [− exp (−λx)]+∞0 = 1
El conjunto de valores posibles de una variable aleatoria con esta densidad es (0,+∞). Su
funcion de distribucion y de cuantiles son
F (x) =
0 x ≤ 0∫ x
0λ exp (−λu) du = 1− exp (−λx) x > 0
x = F−1 (p) = − 1
λln (1− p) p ∈ (0, 1)
0 2 4 6 8 100
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
t
f(t)λ=1
λ=1/2
Figura 2.2: Densidades exponenciales.
Ejemplo 2.22. la funcion de densidad de Gauss, o normal, de parametros µ ∈ R y σ > 0,
es
f (x) =1
σ√
2πexp
[−1
2
(x− µσ
)2]
−∞ < x < +∞
En el Capıtulo 4 se hara un estudio detallado.
46 Capıtulo 2. Variables Aleatorias
0 2 4 6 8 100
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
t
F(t)
λ=1/2
λ=1
Figura 2.3: Funciones de distribucion exponenciales.
Ejemplo 2.23. la funcion de densidad de Cauchy es
f (x) =1
π (1 + x2)−∞ < x < +∞
Efectivamente f (x) > 0 y∫ +∞
−∞
dx
π (1 + x2)=
1
π[arctan (x)]+∞−∞ =
1
π
[π2−(−π
2
)]= 1
El conjunto de valores posibles de una variable aleatoria con esta densidad es (−∞,+∞).
Su funcion de distribucion y de cuantiles son
F (x) =
x∫−∞
du
π (1 + u2)=
1
πarctan (x) +
1
2x ∈ R
x = F−1 (p) = tan
(π
(p− 1
2
))p ∈ (0, 1)
2.5. Variables mixtas
Una Va X es mixta si es una mezcla de discreta y continua: su funcion de distribucion es
continua salvo en un conjunto numerable S.
2.5. Variables mixtas 47
−10 −5 0 5 100
0.05
0.1
0.15
0.2
0.25
0.3
0.35
x
f(x)
Figura 2.4: Densidad de Cauchy.
Ejemplo 2.24. Se elige un punto al azar en el (0, 1) y se define la VA X = “distancia del
punto al origen” si el punto cae en (0, 1/2) y X = 1/2 si el punto cae en [1/2, 1). La funcion
de distribucion de X es:
F (x) =
0 x ≤ 0
x x ∈ (0, 1/2)
1 x ≥ 1/2
El recorrido de X es (0, 1/2) con densidad f (x) = 1 y el punto 1/2 con masa P (X = 1/2) =
1/2
Ejemplo 2.25. En un sistema en el que las llegadas de clientes y los tiempos de servicio
son aleatorios, la Va X =“tiempo de espera para el servicio” es mixta. Si al llegar un cliente
el sistema esta desocupado el tiempo de espera es cero y P (X = 0) = p (podemos interpretar
el valor de p como la proporcion de tiempo que, a la larga, el sistema esta desocupado). Pero
si al llegar un cliente el sistema esta ocupado su tiempo de espera toma valores en (0, a) (a
es el tiempo maximo de espera) con una densidad f (x) tal que∫ a
0 f (x) dx = 1− p.
48 Capıtulo 2. Variables Aleatorias
2.6. Variable aleatoria bidimensional
Definicion 2.9. Dos variables aleatorias medidas simultaneamente sobre los resultados del
mismo experimento definen una variable aleatoria bidimensional, sea (X,Y ) : Ω→ R2.
Ejemplo 2.26. Sea un experimento con 3 resultados posibles, a, b y c, con probabilidades
respectivas pa, pb y pc, (pa + pb + pc = 1). Se realiza n veces independientemente. Se definen
las Vas X = “numero de veces que resulto a”, e Y = “numero de veces que resulto b”.
El recorrido de la Va (X,Y ) es el conjunto (x, y) | x, y ∈ 0, 1, 2, ...n, x+ y ≤ n. El de X
y el de Y es 0, 1, 2, ...n.
Ejemplo 2.27. En el experimento de elegir un punto al azar en el cırculo x2 + y2 ≤ 1.
Las coordenadas cartesianas (X,Y ) del punto tienen recorrido (x, y) | x2 + y2 ≤ 1. Las
coordenadas polares (R,Φ) del punto tienen recorrido [0, 1]× [0, 2π].
Como en cada realizacion del experimento no podemos asegurar el resultado ω ∈ Ω que se
va a obtener, tampoco podemos asegurar el punto (X (ω) , Y (ω)) ∈ R2 que va a resultar, y
nuestro interes se dirige a calcular la probabilidad de que pertenezca a uno u otro conjunto
del plano numerico.
Definicion 2.10. Sea la Va (X,Y ) definida sobre (Ω,F , P ). Su distribucion de probabi-
lidades es (R2,B2, PX,Y ) definida por
PX,Y (B) = P ((X,Y )−1 (B)) ∀B ∈ B2
En las aplicaciones, salvo casos muy simples, esta conexion entre las probabilidades de los
sucesos del experimento (lado derecho de la formula anterior) y las probabilidades de los
sucesos de R2 (lado izquierdo) no se hace explıcita y la PX,Y (B) se da directamente.
Para simplificar la notacion escribiremos P ((X,Y ) ∈ B) en lugar de PX,Y (B). Con ella
representamos la pregunta: cuando se haga el experimento y se midan los valores
de X y de Y en el resultado ¿cual es la probabilidad de que el punto obtenido
este en el conjunto B del plano numerico?
Mas particularmente escribiremos:
P (X ∈ B1, Y ∈ B2) si B = B1 ×B2 con B1 ∈ B y B2 ∈ B
P (a < X < b, c < Y < d) si B = (a, b)× (c, d)
P (X ≤ a, Y ≤ b) si B = (−∞, a]× (−∞, b] etc.
2.7. Variable aleatoria bidimensional discreta 49
2.6.1. Funcion de distribucion conjunta
Nuestro interes es conocer esta distribucion que, como en el caso unidimensional, se puede
especificar de modo mas comodo por medio de ciertas funciones reales de variables reales
(vale decir por una formula).
Definicion 2.11. La funcion de distribucion conjunta de la variable (X,Y ) es
F (x, y) = P (X ≤ x, Y ≤ y) ∀x, y ∈ R (2.10)
Es decir, la probabilidad de cualquier B se puede calcular a partir de las probabilidades de
los intervalos (−∞, x]× (−∞, y].
Por ejemplo, para B = (x, x+ h]× (y, y + k] , (h > 0, k > 0) es (compruebelo dibujando la
figura):
P (x < X ≤ x+h, y < Y ≤ y+k) = F (x+h, y+k)−F (x+h, y)−F (x, y+k)+F (x, y) (2.11)
Se prueba que F (x, y) es continua por la derecha y monotona no decreciente en cada
una de las variables, y que tiene lımites F (−∞, y) = F (x,−∞) = F (−∞,−∞) = 0 y
F (+∞,+∞) = 1. Solo estas propiedades no bastan para que una F (x, y) sea una funcion
de distribucion; ademas ha de ser
42F (x, y) = F (x+ h, y + k)− F (x+ h, y)− F (x, y + k) + F (x, y) ≥ 0 (2.12)
Las funciones de distribucion de cada una de las variable X e Y , sean FX (x) y FY (y), se
llaman marginales, y estan determinadas por la F (x, y):
F (x,+∞) = P (X ≤ x, Y ≤ +∞) = P (X ≤ x) = FX (x)
F (+∞, y) = P (X ≤ +∞, Y ≤ y) = P (Y ≤ y) = FY (y)
Sin embargo, en general, las marginales no determinan la F (x, y).
2.7. Variable aleatoria bidimensional discreta
Definicion 2.12. Si X e Y son ambas discretas con recorrido conjunto S, la funcion
de masa conjunta, equivalente a la F (x, y), es
f (x, y) = P (X = x, Y = y) ∀ (x, y) ∈ S
y cero en otro caso.
50 Capıtulo 2. Variables Aleatorias
Se sigue que ∑(x,y)∈S
f (x, y) = 1
Cualquier probabilidad se calcula ası
P ((X,Y ) ∈ B) =∑
(x,y)∈B∩S
f (x, y)
Ademas las funciones de masa, marginales, de X e Y son
fX (x) =∑y
f (x, y) (2.13)
fY (y) =∑x
f (x, y)
Ejemplo 2.28. Sea (X,Y ) la Va del ejemplo 2.26. Obtengamos la f(x,y). Para ello hemos
de sumar las probabilidades de todos los resultados (n-tuplas) con dicha composicion: x de
tipo a e y de tipo b (y naturalmente n− x− y de tipo c) cualquiera que sea el orden en que
hayan aparecido. Pero para cada resultado particular la probabilidad es, por la independencia
de los ensayos, pxapybpn−x−yc , y hay(
n
x
)(n− xy
)=
n!
x!y!(n− x− y)!
distintos con dicha composicion (primero se eligen, entre los numeros 1 a n, las x posiciones
de las a, que se multiplican por las elecciones para las y entre las n − x restantes). En
conclusion:
f(x, y) =n!
x!y!(n− x− y)!pxap
ybpn−x−yc x, y ∈ 0, 1, 2, ...n, x+ y ≤ n
La Va (X,Y ) se denomina trinomial de parametros (n, pa, pb, pc). Es claro que tanto X
como Y son binomiales de parametros (n, pa) y (n, pb) respectivamente.
2.7.1. Condicionales
Si y es un valor fijado del recorrido de la Va Y , por lo tanto con P (Y = y) = fY (y) > 0,
recordando la formula de la probabilidad condicional (Seccion 1.5) es
P (X = x | Y = y) =P (X = x, Y = y)
P (Y = y)=f (x, y)
fY (y)
y se ve que la funcion de la derecha, de argumento x y parametro y, es una funcion de masa,
pues, usando (2.13)1
fY (y)
∑x
f (x, y) =1
fY (y)× fY (y) = 1
2.8. Variable aleatoria bidimensional continua 51
Definicion 2.13. Sea (X,Y ) discreta con masa f (x, y). Para cada valor Y = y fijado del
recorrido de Y la Va (X | Y = y) se llama condicional y su funcion de masa es
f(x | y) =f(x, y)
fY (y)∀x ∈ R
Conviene observar que hay tantas Vas condicionales como valores puedan fijarse en el reco-
rrido de Y . Naturalmente todo lo dicho puede repetirse cambiando los papeles de X e Y ,
obteniendose las f(y | x).
Ejemplo 2.29. (cont. del 2.28) Sea fijado 0 < y < n.La Va (X | Y = y) tiene recorrido
0, 1, ..., n− y. Su fm es:
f(x | y) =
(nx
)(n−xy
)pxap
ybpc
n−x−y(ny
)pyb (1− pb)n−y
=
(n− yx
)(pa
pa + pc
)x(1− pa
pa + pc
)n−y−xResulta que (X | Y = y) es una Va binomial de parametros (n− y) y pa/(pa + pc).
Efectivamente, fijados los Y = y resultados de tipo b, cada uno de los n − y restantes solo
pueden ser de tipo a o c con probabilidades ahora:
P (ω = a | ω 6= b) =P (ω = a)
P (ω = a) + P (ω = c)=
papa + pc
y analogamente para c.
2.8. Variable aleatoria bidimensional continua
Definicion 2.14. Si X e Y son ambas continuas, en todos los casos que vamos a estudiar
existe una funcion integrable f (x, y) ≥ 0 (cero en todo (x, y) que no sea del recorrido de
(X,Y )), llamada de densidad conjunta, tal que
P ((X,Y ) ∈ B) =
∫ ∫Bf (u, v) dudv ∀B ∈ B2 (2.14)
Se sigue que ∫ ∫R2
f (u, v) dudv = 1
En particular tomando B = (−∞, x]× (−∞, y] resulta que
F (x, y) = P (X ≤ x, Y ≤ y) =
∫ x
−∞
∫ y
−∞f (u, v) dudv
52 Capıtulo 2. Variables Aleatorias
de manera que F es continua. Y en cada (x, y) en que f (x, y) sea continua
∂2F (x, y)
∂x∂y= f (x, y) (2.15)
De (2.11) y (2.15)
lımh→0k→0
P (x < X ≤ x+ h, y < Y ≤ y + k)
hk= lım
h→0k→0
42F (x, y)
hk=∂2F (x, y)
∂x∂y= f(x, y)
la primera fraccion de la izquierda es el cociente de la masa de probabilidad en el rectangulo,
P (x < X ≤ x + h, y < Y ≤ y + k), dividida por la superficie hk, es decir la densidad de
probabilidad.
Del lımite se sigue que
P (x < X ≤ x+ h, y < Y ≤ y + k) = f (x, y)hk + r (hk) (2.16)
con
lımh→0k→0
r (hk)
hk= 0
y puede decirse que, que salvo un infinitesimo de orden superior a hk, es
P (x < X ≤ x+ h, y < Y ≤ y + k) ≈ f(x, y)hk
La funcion de densidad, marginal, de X se deduce de
FX (x) = P (X ≤ x, Y ≤ +∞) =
∫ x
−∞
(∫ +∞
−∞f (u, v) dv
)du
y es
fX (x) = F′X (x) =
∫ +∞
−∞f (x, v) dv (2.17)
y analogamente
fY (y) =
∫ +∞
−∞f (u, y) du
De (2.14), en particular, resulta (propiedad de la integral de Riemann) que si B es un
conjunto de superficie nula (un punto o una curva por ejemplo) es
P ((X,Y ) ∈ B) =
∫ ∫Bf (u, v) dudv = 0
ası que, con las variables continuas con las que vamos a trabajar es
P (a ≤ X ≤ b, c ≤ Y ≤ d) = P (a < X < b, c < Y < d)
P (X ≤ a, Y ≤ b) = P (X < a, Y < b)
etc.
2.8. Variable aleatoria bidimensional continua 53
Ejemplo 2.30. Sean (X,Y ) la coordenadas de un punto elegido al azar en el cırculo x2+y2 ≤1. Si (x, y) y (x+ h, y + k) son puntos del cırculo
P (x < X ≤ x+ h, y < Y ≤ y + k) =hk
π
(cociente de superficies por ser el punto elegido al azar; Seccion 1.4.2). Se sigue de (2.16)
que
f (x, y)hk + r (hk) =hk
π
es decir
f (x, y) =1
πx2 + y2 ≤ 1
que es una densidad uniforme, o equiprobable, en el cırculo.
La densidad marginal de la X se obtiene con
fX (x) =
∫ +∞
−∞f (x, y) dy =
∫ +√
1−x2
−√
1−x2
1
πdy =
2√
1− x2
πx ∈ [−1, 1]
pues f (x, y) = 0 para x fijado e y /∈[−√
1− x2,+√
1− x2]. La de la Y es obviamente
analoga.
2.8.1. Condicionales
Si y es un valor fijado del recorrido de la Va Y tal que fY (y) > 0, la funcion
f (x, y)
fY (y)
de argumento x y parametro y, es una funcion de densidad, pues, usando (2.17)
1
fY (y)
∫Rf (x, y) dx =
1
fY (y)× fY (y) = 1
Definicion 2.15. Sea (X,Y ) continua con densidad f (x, y). Para cada valor Y = y fijado
tal que fY (y) > 0 la Va (X | Y = y) se llama condicional y su funcion de densidad es
f(x | y) =f(x, y)
fY (y)∀x ∈ R
Conviene observar que hay tantas Vas condicionales como valores puedan fijarse en el reco-
rrido de Y con fY (y) > 0. Naturalmente todo lo dicho puede repetirse cambiando los papeles
de X e Y , obteniendose las f(y | x).
54 Capıtulo 2. Variables Aleatorias
Ejemplo 2.31. Sean (X,Y ) la coordenadas de un punto elegido al azar en el cırculo x2+y2 ≤1. La densidad conjunta y la marginal de la X son (ejemplo 30)
f (x, y) =1
πx2 + y2 ≤ 1
fX (x) =2√
1− x2
πx ∈ [−1, 1]
y las densidades condicionales de (Y | X = x), para cada x ∈ (−1, 1) (pues para x = ±1 es
fX (x) = 0) resultan
f(y | x) =f(x, y)
fX(x)=
1π
2√
1−x2π
=1
2√
1− x2y ∈
[−√
1− x2,+√
1− x2]
de manera que las (Y | X = x) son uniformes, o equiprobables (y naturalmente lo mismo
sucede para las (X | Y = y)).
2.9. Variables independientes
Vimos en la seccion 2.6.1 que la distribucion de probabilidades de (X,Y ) determina las de
X e Y por separado (marginales), pero estas, en general, no determinan aquella. Salvo en el
caso siguiente:
Definicion 2.16. Las variables X e Y son independientes si
P (X ∈ A, Y ∈ B) = P (X ∈ A)P (Y ∈ B) ∀A,B ∈ B
Proposicion 2.1. Las siguientes condiciones, todas equivalentes, son necesarias y suficientes
para la independencia:
(i) con las funciones de distribucion:
F (x, y) = FX(x)FY (y)
(ii) con las funciones de masa o densidad:
f(x, y) = fX(x)fY (y)
(iii) con las condicionales:
f(x | y) = fX(x) ∀y
que a su vez equivale a:
f(y | x) = fY (y) ∀x
2.9. Variables independientes 55
Una condicion necesaria, pero no suficiente, para la independencia, es que el recorrido de
(X,Y ) sea el producto cartesiano de los de X e Y (intuitivamente: si el recorrido de una
de las variables, sea la (X | Y = y), depende de cual sea el valor y fijado, hay una clara
dependencia).
Ejemplo 2.32. Si la Va (X,Y ) tiene densidad f(x, y) = e−(x+y) si x, y > 0, entonces X
e Y son independientes, pues basta observar que f(x, y) se factoriza en el producto de 2
funciones cada una dependiendo de solo una de las variables (este resultado es de validez
general).
Ejemplo 2.33. Las coordenadas cartesianas (X,Y ) de un punto elegido al azar en el cırculo
x2 + y2 ≤ 1 no son independientes, pues basta observar que su recorrido no es un rectangulo
del plano.
Como en el caso de la independencia de sucesos (cf. secciones 1.7 y 1.8) la de variables
aleatorias es muy importante cuando se conoce a priori, mas que su constatacion a posteriori.
Ejemplo 2.34. Se elige un punto al azar en el cırculo x2 + y2 ≤ 1. Las coordenadas polares
(R,Φ) del punto son obviamente independientes: la distancia del punto al centro es indepen-
diente del radio sobre el que se situa el punto. Como las densidades marginales, obtenidas
en los ejemplos 2.16 y 2.17 son
fR (r) =
∫ 2π
0
r
πdϕ = 2r r ∈ [0, 1]
fΦ (ϕ) =
∫ 1
0
r
πdr =
1
2πϕ ∈ [0, 2π]
la densidad conjunta es
fR,Φ (r, ϕ) = fR (r) fΦ (ϕ) =r
π(r, ϕ) ∈ [0, 1]× [0, 2π]
Vease tambien el ejemplo 2.47.
Ejemplo 2.35. Un modo trivial de construir Vas independientes es a partir de experimentos
independientes (Seccion 1.8). Si (Ω1,F1, P1) y (Ω2,F2, P2) son independientes, entonces sen-
das variables X e Y definidas respectivamente sobre Ω1 y Ω2 definen a su vez una conjunta
(X,Y ) sobre Ω1 × Ω2, ası
(X,Y ) (ω1, ω2) = (X (ω1) , Y (ω2))
resultando independientes. Esta construccion sera muy importante en Estadıstica
Proposicion 2.2. Si X e Y son independientes entonces tambien lo son g (X) y h (Y ) para
cualesquiera funciones g y h.
56 Capıtulo 2. Variables Aleatorias
Demostracion.
P (g(X) ∈ A, h(Y ) ∈ B)
= P (X ∈ g−1(A), Y ∈ h−1(B))
= P (X ∈ g−1(A))P (Y ∈ h−1(B))
= P (g(X) ∈ A)P (h(Y ) ∈ B)
2.10. Generalizacion
La generalizacion a variables n−dimensionales (X1, X2, ..., Xn) : Ω→ Rn es inmediata.
La distribucion de probabilidades de la variable (X1, X2, ..., Xn) se puede especificar por la
funcion de distribucion F (x1, x2, ..., xn), o por la de masa o densidad conjunta f (x1, x2, ..., xn)
(segun que las componentes Xi sean discretas o continuas). Esta determina todas las margi-
nales, en particular las f1 (x1), f2 (x2), · · · fn (xn), pero no al contrario en general.
Salvo si las n variables (X1, X2, ..., Xn) son independientes, en cuyo caso
f (x1, x2, ..., xn) = f1 (x1) f2 (x2) · · · fn (xn)
es decir, en este caso las marginales determinan la conjunta.
Se pueba que si las n variables (X1, X2, ..., Xn) son independientes entonces tambien lo son
g (X1, X2, ..., Xk) y h (Xk+1, Xk+2, ..., Xn). Y en general cualesquiera funciones de subcon-
juntos disjuntos de las n.
2.11. Funciones de Variables Aleatorias
Nos interesamos ahora en la deduccion de la ley de probabilidades de una Va definida como
funcion de otras, a partir del conocimiento de la ley de probabilidades de estas y de la propia
relacion funcional. Suponemos en todos los casos que las variables implicadas son continuas.
2.11.1. Funcion de una variable
Sea la Va X con densidad fX y la Y = g(X). Nos proponemos hallar la densidad de Y . La
funcion de distribucion de Y se obtiene ası:
FY (y) = P (g(X) ≤ y) = P (X ∈ g−1((−∞, y]) =
∫g−1((−∞,y])
fX(x)dx (2.18)
2.11. Funciones de Variables Aleatorias 57
donde g−1((−∞, y]) = x ∈ R : g (x) ≤ y. Y entonces la densidad fY de Y es:
fY (y) = F′Y (y)
Ejemplo 2.36. Sea X continua con densidad fX y sea Y = X2. Hallemos la densidad de Y
FY (y) = P(X2 ≤ y
)= P (−√y ≤ X ≤ √y) =
∫ +√y
−√yfX (x) dx
y la densidad resulta (Regla de Leibnitz: derivacion bajo el signo integral):
fY (y) = F ′Y (y) =1
2√yfX (√y)−
(−1
2√y
)fX (−√y)
=1
2√y
[fX (√y) + fX (−√y)]
Ejemplo 2.37. (cont.) Sea en particular X uniforme, con densidad fX (x) = 1 para x ∈(0, 1). Entonces Y = X2 tiene recorrido (0, 1) y
fY (y) =1
2√y
[fX (√y) + fX (−√y)]
=1
2√y
[1 + 0]
=1
2√y
y ∈ (0, 1)
Ejemplo 2.38. Se elige un punto X al azar (es decir, con densidad uniforme) en una barra
de longitud 1 y se rompe por dicho punto. Sea Y la longitud del trozo mas grande. Obtengamos
la densidad de Y .
La posicion del punto de rotura es una variable aleatoria X con densidad fX (x) = 1 para
x ∈ (0, 1). La longitud del trozo mas grande es la variable aleatoria
Y =
1−X si 0 < X ≤ 1/2
X si 1/2 < X < 1
El recorrido de Y es (1/2, 1). Sea un valor fijado y del recorrido. Entonces
FY (y) = P (Y ≤ y) = P (1− y ≤ X ≤ y) = FX (y)− FX (1− y)
= y − (1− y) = 2y − 1 y ∈ (1/2, 1)
fY (y) = F′Y (y) = 2 y ∈ (1/2, 1)
58 Capıtulo 2. Variables Aleatorias
0 0,5 1 0
0.5
1
X
Y
0 0,5 1 0
0.5
1
X
y
1−y y
Y=1−X Y=X
Figura 2.5: Ejemplo 2.38: rotura de la barra.
Funciones monotonas
En particular, si g es monotona creciente g−1((−∞, y]) = (−∞, g−1 (y)] y (2.18) queda
FY (y) =
∫ g−1(y)
−∞fX(x)dx
y resulta
fY (y) =(g−1)′
(y)fX(g−1(y))
Y si decreciente g−1((−∞, y]) = [g−1 (y) ,+∞) y
FY (y) =
∫ +∞
g−1(y)fX(x)dx
y resulta
fY (y) = −(g−1)′
(y)fX(g−1(y))
observar que en este caso al ser g decreciente tambien lo es g−1 y(g−1)′
(y) < 0.
Ambos casos se reunen en la formula:
fY (y) =∣∣∣(g−1
)′(y)∣∣∣ fX(g−1(y)) (2.19)
2.11. Funciones de Variables Aleatorias 59
Ejemplo 2.39. Sea X continua con densidad fX (x) y sea Y = a + bX (b 6= 0). Hallemos
la densidad de Y . Como
g−1 (y) =y − ab
resulta
fY (y) =1
|b|fX
(y − ab
)(2.20)
Ejemplo 2.40. Sea Y = 1/X. La funcion g es monotona y g−1 (y) = 1/y ası que
fY (y) =∣∣∣(g−1
)′(y)∣∣∣ fX(g−1(y))
=1
y2fX
(1
y
)
Simulacion de Vas
Sea X con distribucion uniforme en (0, 1), es decir funcion de distribucion FX (x) = x y
densidad fX (x) = 1 para x ∈ (0, 1). Sea F (·) una funcion de distribucion continua y f (·) la
densidad correspondiente. Hallemos la densidad fY (y) de la variable aleatoria Y = F−1 (X).
Como g−1 (y) = F (y) entonces∣∣∣(g−1
)′(y)∣∣∣ = F ′(y) = f (y). Ademas fX(g−1(y)) = 1.
Resulta:
fY (y) =∣∣∣(g−1
)′(y)∣∣∣ fX(g−1(y)) = f (y) y ∈ (0, 1) .
Ası que la Y tiene la densidad f dada. Recıprocamente, si Y tiene distribucion F entonces
X = F (Y ) tiene funcion de distribucion uniforme en (0, 1).
Este es el algoritmo basico para simular valores de una variable aleatoria continua con
distribucion F usando un generador de numeros uniformes en (0, 1).
Ejemplo 2.41. Para simular valores de una variable aleatoria Y exponencial de parametro
λ, como F (y) = 1− exp (−λy) se usa Y = − (1/λ) ln (1−X) con X uniforme en (0, 1).
2.11.2. Funcion de varias Vas
Sean la Va (X1, X2, ..., Xn) con densidad f (x1, x2, ..., xn) y la Y = g(X1, X2, ..., Xn).
En algunos casos particulares un simple argumento probabilista da la solucion:
Ejemplo 2.42. Obtengamos la FD de Y = max(X1, X2, ..., Xn).
FY (y) = P (max(X1, X2, ..., Xn) ≤ y)
= P (todas las coordenadas son ≤ y)
= P (X1 ≤ y,X2 ≤ y, ..., Xn ≤ y)
60 Capıtulo 2. Variables Aleatorias
Si en particular las Xi fuesen independientes con la misma funcion de distribucion FX (x)
entonces:
FY (y) = [FX(y)]n
resultado valido sean las variables discretas o continuas.
Si ademas fuesen continuas con densidad fX (x) la densidad del maximo es
fY (y) = n [FX(y)]n−1 fX (y)
Ejemplo 2.43. (cont.) Obtengamos ahora la de Y = mın(X1, X2, ..., Xn).
FY (y) = P (mın(X1, X2, ..., Xn) ≤ y)
= P (al menos una coordenada es ≤ y)
= 1− P (todas son > y)
= 1− P (X1 > y,X2 > y, ...,Xn > y)
Si en particular las Xi fuesen independientes con la misma funcion de distribucion FX (x)
entonces:
FY (y) = 1− [1− FX(y)]n
resultado valido sean las variables discretas o continuas.
Si ademas fuesen continuas con densidad fX (x) la densidad del mınimo es
fY (y) = n [1− FX(y)]n−1 fX (y)
En general la FD de Y se obtiene ası:
FY (y) = P (g(X1, X2, ..., Xn) ≤ y)
= P ((X1, X2, ..., Xn) ∈ g−1(−∞, y])
=
∫· · ·∫
g−1(−∞,y]
f(x1, x2, ..., xn)dx1dx2...dxn
donde g−1(−∞, y] = (x1, x2, .., xn) ∈ Rn : g (x1, x2, .., xn) ≤ y, y donde f(x1, x2, ..., xn) es
la densidad de (X1, X2, ..., Xn)
La densidad fY (y) de Y es
fY (y) = F′Y (y)
Ejemplo 2.44. (Suma) Sea (X1, X2) con densidad f(x1, x2). Obtengamos la densidad de
Y = X1 +X2.
g−1(−∞, y] = (x1, x2) ∈ R2 : x1 + x2 ≤ y
FY (y) =
∫ +∞
−∞
[∫ y−x1
−∞f(x1, x2)dx2
]dx1
2.11. Funciones de Variables Aleatorias 61
fY (y) = F′Y (y) =
∫ +∞
−∞f(x1, y − x1)dx1
En particular, si las Vas son independientes
fY (y) =
∫ +∞
−∞f1(x1)f2(y − x1)dx1
(convolucion de las densidades).
Ejemplo 2.45. (Cociente). Sea (X1, X2) con densidad f(x1, x2). Obtengamos la densidad
de Y = X1/X2.
g−1(−∞, y] = (x1, x2) ∈ R2 : x2 < 0, x1 ≥ x2y ∪ (x1, x2) ∈ R2 : x2 > 0, x1 ≤ x2y
FY (y) =
∫ 0
−∞
[∫ +∞
x2yf(x1, x2)dx1
]dx2 +
∫ +∞
0
[∫ x2y
−∞f(x1, x2)dx1
]dx2
fY (y) =
∫ 0
−∞−x2f(yx2, x2)dx2 +
∫ +∞
0x2f(yx2, x2)dx2
=
∫ +∞
−∞|x2| f(yx2, x2)dx2
2.11.3. Transformacion general de Vas continuas
Recordemos que si (X1, X2, ..., Xn) es continua con densidad fX(x1, x2, ..., xn) entonces
P ((X1, X2, ..., Xn) ∈ A) =
∫· · ·∫
A
fX(x1, x2, ..., xn)dx1...dxn ∀A ∈ Bn
Sean n nuevas variables:Y1 = g1(X1, X2, ..., Xn)
Y2 = g2(X1, X2, ..., Xn)
· · ·Yn = gn(X1, X2, ..., Xn)
siendo la transformacion g : Rn → Rn continua, biunıvoca y diferenciable. Nos proponemos
hallar la densidad fY (y1, y2, ..., yn) de (Y1, Y2, ..., Yn).
Sea la tranformacion inversa
X1 = h1(Y1, Y2, ..., Yn)
X2 = h2(Y1, Y2, ..., Yn)
· · ·Xn = hn(Y1, Y2, ..., Yn)
62 Capıtulo 2. Variables Aleatorias
entonces ∀A ∈ Bn
P ((X1, X2, ..., Xn) ∈ A) =
∫· · ·∫
A
fX(x1, x2, ..., xn)dx1...dxn
=
∫· · ·∫
T (A)
fX(h1, h2, ..., hn) |J | dy1dy2...dyn
(Teorema del cambio de variable en integrales multiples: hemos cambiado las x por las y)
donde T (A) ∈ Bn es el conjunto transformado del A y
J = det
∂h1∂y1
· · · ∂h1∂yn
· · · · · · · · ·∂hn∂y1
· · · ∂hn∂yn
Pero la correspondencia es biunıvoca ası que
P ((X1, X2, ..., Xn) ∈ A) = P ((Y1, Y2, ..., Yn) ∈ T (A))
y como
P ((Y1, Y2, ..., Yn) ∈ T (A)) =
∫· · ·∫
T (A)
fY (y1, y2, ..., yn)dy1dy2...dyn
resulta
fY (y1, y2, ..., yn) = fX(h1, h2, ..., hn) |J |
Ejemplo 2.46. Sea (X,Y ) con densidad uniforme fX,Y (x, y) = 1π en el cırculo x2 +y2 ≤ 1,
y sean (R,Φ) (coordenadas polares)
R =√X2 + Y 2
Φ = arctanY
X
La transformacion inversa es
X = R cos Φ
Y = R sin Φ
con
J = det
(cosϕ −r sinϕ
sinϕ r cosϕ
)= r
y resulta
fR,Φ (r, ϕ) = fX,Y (r cosϕ, r sinϕ) r =r
πr ∈ [0, 1], ϕ ∈ [0, 2π]
2.11. Funciones de Variables Aleatorias 63
Las densidades marginales son
fR (r) =
∫ 2π
0
r
πdϕ = 2r r ∈ [0, 1]
fΦ (ϕ) =
∫ 1
0
r
πdr =
1
2πϕ ∈ [0, 2π]
y las variables R y Φ son independientes pues fR,Φ (r, ϕ) = fR (r) fΦ (ϕ).
2.11.4. Transformaciones lineales
Un caso particular importante del anterior es el de las transformaciones lineales:Y1
...
Yn
= A
X1
...
Xn
donde A es una matriz n× n de constantes. La transformacion es biunıvoca si, y solo si, A
es no singular. En cuyo caso:
J = det A−1 = (det A)−1
Resultando:
fY (y1, y2, ..., yn) =1
|det A|fX(
∑j
c1jyj ,∑j
c2jyj , ...,∑j
cnjyj)
donde (cij) = A−1.
Ejemplo 2.47. Sea la Va (X1, X2) con densidad fX(x1, x2). Sea (Y1, Y2) una rotacion de
angulo α de las primeras definida por:
A =
(cosα senα
− senα cosα
)
y como
A−1 =
(cosα − senα
senα cosα
)
y detA = 1, la densidad de (Y1, Y2) es:
fY (y1, y2) = fX(y1 cosα− y2 senα, y1 senα+ y2 cosα)
64 Capıtulo 2. Variables Aleatorias
2.12. Ejercicios propuestos
Secciones 2.1, 2.2, 2.3 y 2.4:
1. Un recipiente de volumen V contiene n moleculas de un gas ideal. El numero de ellas
que en un instante cualquiera se hallan en una parte de volumen v fluctua, es decir,
es una variable aleatoria Z. Halle su funcion de masa de probabilidades si, dado el
equilibrio, para cada una de las n la probabilidad de estar en v es p = v/V .
2. (muestreo con reemplazamiento) Una urna contiene r bolas rojas y b blancas. Se extraen
n, una tras otra, devolviendo la anterior antes de extraer la siguiente. Deduzca la
funcion de masa de la variable aleatoria X =“numero de bolas rojas entre las n”.
(sugerencia: ejercicio propuesto 6 del capıtulo 1)
3. (muestreo sin reemplazamiento) Una urna contiene r bolas rojas y b blancas. Se extraen
n a la vez, o una tras otra sin devolver la anterior antes de extraer la siguiente. Deduzca
la funcion de masa de la variable aleatoria X =“numero de bolas rojas entre las n”.
(sugerencia: ejercicio propuesto 7 del capıtulo 1)
4. Sea X una Va geometrica de parametro p (ejemplo 2.14). Compruebe que P (X >
x + y | X > x) = P (X > y) (propiedad de “perdida de memoria” , que entre las Vas
discretas solo posee esta).
5. La ley del decaimiento radioactivo puede deducirse de una unica hipotesis fısica experi-
mentalmente constrastable: El decaimiento radioactivo es un proceso sin memoria.
Ello quiere decir que si X es el tiempo de vida de un nucleo radioactivo (tiempo que
transcurre, a partir de un instante inicial cualquiera, hasta que decae) entonces
P (X > x+ y | X > x) = P (X > y) ∀x, y > 0
es decir, dado que ha sobrevivido al tiempo x la probabilidad de que aun sobreviva
un tiempo adicional y es independiente de x. Compruebe que la formula anterior se
satisface si X tiene densidad exponencial de parametro λ (que entre las Vas continuas
es la unica sin memoria).
6. (cont.) Halle el cuantil x0.5 (la mediana), es decir el tiempo x tal que con probabilidad
1/2 un atomo decae antes de que transcurra x (el periodo de semidesintegracion o half
life)
7. El tiempo de vida del radio Ra226 es una variable aleatoria X exponencial de parametro
λ = 4.327× 10−4 anos−1 Calcule su periodo de semidesintegracion.
8. Calcule la probabilidad de que el tiempo de vida de un atomo de cualquier substancia
radioactiva supere 1/λ (su vida media teorica como se vera en el capıtulo 3)
2.12. Ejercicios propuestos 65
9. Considere un mol de una substancia radioactiva. Los tiempo de vida de cada uno de
los n = 6.022 × 1023 atomos son variables aleatorias exponenciales independientes de
parametro λ. ¿Cual es la funcion de masa de la variable aleatoria Z =“numero de
atomos que decaen en un intervalo de t anos” ¿Y la de los que sobreviven?
10. Sea la variable aleatoria X con funcion de densidad f(x) = k sen(x) si x ∈(0, π2
)y
cero en otro caso. a) obtenga el valor de k. b) obtenga la funcion de distribucion de
X. c) calcule P (π4 < X < π2 ).
11. Se elige un punto al azar en un segmento de longitud a, y se define la Va X =“distancia
del punto elegido al centro del segmento”. a) calcule la funcion de distribucion. b)
calcule la funcion de densidad.
12. Se elige un punto al azar en un cuadrado de lado 2a y se define X =”distancia del
punto al lado mas proximo”. a) calcule la funcion de distribucion. b) calcule la funcion
de densidad.
13. Desde un foco F del plano se emiten partıculas que son detectadas cuando alcanzan
una pantalla situada a distancia 1 (vease la figura 13). Sea O el pie de la perpendicular
desde F a la pantalla. Las trayectorias forman un angulo aleatorio Φ con OF , que
se supone equiprobable (es decir, con densidad constante) en (−π/2, π/2), y alcanzan
la pantalla en un punto de abscisa aleatoria X respecto de O. a) Halle la funcion de
distribucion de X b) halle la funcion de densidad de X c) ¿Cual es la probabilidad
de que el punto de impacto de una partıcula diste de O menos de 1/2? d) ¿Cual es la
distancia x tal que P (|X| < x) = 1/2?
Seccion 2.11:
14. Sea X uniforme en (0, 1). Obtenga la densidad de Y = a+ bX con b > 0. (sugerencia:
vea el ejemplo 2.39)
15. Sea X uniforme en (0, 1). Obtenga la densidad de Y = 1/X (sugerencia: vea el ejemplo
2.40)
16. Si U es una Va normal de parametros µ = 0 y σ = 1 (ejemplo 2.22)
fU (u) =1√2πe−
u2
2 −∞ < u < +∞
halle la densidad de la Va Z = U2 (sugerencia: use el ejemplo 2.37).
17. Se eligen n puntos al azar en (0, 1) y se define X =“abscisa del mas cercano al origen”.
a) calcule la funcion de distribucion. b) calcule la funcion de densidad. c) calcule la
funcion de cuantiles. d) hallar el mınimo numero de puntos para que x0.5 sea menor
que 0.1 (sugerencia: use el ejemplo 2.43).
66 Capıtulo 2. Variables Aleatorias
F
O
1
ϕ
x
Figura 2.6: Diagrama del ejercicio 13.
18. Se eligen n puntos al azar en (0, 1) y se define X =“abscisa del mas lejano al origen”.
a) calcule la funcion de distribucion. b) calcule la funcion de densidad. c) calcule la
funcion de cuantiles. d) hallar el mınimo numero de puntos para que x0.5 sea mayor
que 0.9 (sugerencia: use el ejemplo 2.43)
Capıtulo 3
Valores Esperados
3.1. Esperanza de una variable aleatoria
Definicion 3.1. La esperanza de una Va X, denotada E (X), es el numero 1:
- Si X es discreta con recorrido S y funcion de masa f (x)
E (X) =∑x∈S
xf (x) (3.1)
- Si X es continua con densidad f (x)
E (X) =
∫Rxf (x) dx (3.2)
Tambien se llama el valor esperado de X, aunque como se ve en los ejemplos no tiene
por que coincidir con ninguno de los valores posibles de X. O la media teorica de X en
contraposicion a la media experimental (ver 3.2). E (X) tiene, en cualquier caso, las mismas
unidades que la magnitud X.
Ejemplo 3.1. Si X es de Bernoulli de parametro p, es decir, con funcion de masa f (x) =
px (1− p)1−x si x ∈ 0, 1, entonces:
E (X) =
1∑x=0
xf (x) = 0× (1− p) + 1× p = p
Ejemplo 3.2. Si X es binomial de parametros n y p, es decir, con funcion de masa
f (x) =
(n
x
)px (1− p)n−x x = 0, 1, .., n
1Ademas la serie, o la integral, deben ser absolutamente convergentes: en otras palabras, E (X) carecerıa
de sentido si su valor dependiera del orden o reagrupamieno de los terminos. La misma cuestion incide en la
interpretacion experimental que se vera en la seccion 3.2.
67
68 Capıtulo 3. Valores Esperados
entonces
E (X) =n∑x=0
x
(n
x
)px (1− p)n−x = np
(ver ejemplo 3.19).
Ejemplo 3.3. Si X es geometrica de parametro p, es decir, con funcion de masa
f (x) = p (1− p)x−1 x = 1, 2, ...
entonces
E (X) =∞∑x=1
xp (1− p)x−1 =1
p
(ver ejercicio propuesto 11).
Ejemplo 3.4. Si X es de Poisson de parametro λ, es decir, con funcion de masa
f (x) = e−λλx
x!x = 0, 1, 2, ..
entonces
E (X) =∞∑x=0
xe−λλx
x!= λ
(ver ejercicio propuesto 12).
Ejemplo 3.5. Si X es exponencial, con densidad
f (x) = λe−λx x > 0
y cero en otro caso
E (X) =
∫ ∞0
λxe−λxdx
Integrando por partes con
u = x→ du = dx
v = −e−λx → dv = λe−λxdx
resulta
E (X) =[−xe−λx
]∞0
+
∫ ∞0
e−λxdx =1
λ
pues
lımt→∞
te−λt = 0
y (funcion de densidad) ∫ ∞0
λe−λxdx = 1
Proposicion 3.1. Si X tiene densidad simetrica respecto de c, es decir f(c − x) =
f (c+ x), y existe la E (X), entonces E (X) = c
3.2. Interpretacion experimental 69
Demostracion. Pues (c− x) f (x) en (−∞, c) es simetrica a (x− c) f (x) en (c,+∞) y
entonces ∫ c
−∞(c− x) f (x) dx =
∫ +∞
c(x− c) f (x) dx
y reordenando queda
c
(∫ c
−∞f (x) dx+
∫ +∞
cf (x) dx
)=
∫ c
−∞xf (x) dx+
∫ +∞
cxf (x) dx
es decir
c
∫Rf (x) dx =
∫Rxf (x) dx
pero la primera integral vale 1 y la segunda es E (X) ası que
E (X) = c
Ejemplo 3.6. Si X es normal de parametros µ y σ, es decir, con funcion de densidad
f (x) =1
σ√
2πe−
(x− µ)2
2σ2 −∞ < x < +∞
el calculo directo es sencillo (integrando por partes; ver tambien ejercicio 14) y resulta
E (X) = µ, que es el centro de simetrıa de la f (x).
Ejemplo 3.7. Si X tiene densidad de Cauchy
f(x) =1
π
1
1 + x2−∞ < x < +∞
aunque es simetrica respecto de 0, carece de esperanza, pues:∫ +∞
0
x
1 + x2dx = lım
t→∞
∫ t
0
x
1 + x2dx = lım
t→∞
1
2ln(1 + t2
)=∞
3.2. Interpretacion experimental
Para cada suceso A, la tendencia a la estabilidad de la frecuencia experimental, f(A) = nA/n,
a medida que n → ∞ (siendo nA el numero de veces que sucedio A en n realizaciones del
experimento), se modeliza mediante la P (A). Esto no es mas que un caso particular del
comportamiento de los promedios experimentales de los valores observados xi de una variable
aleatoria X con esperanza E (X).
Si (x1, x2, ..., xn, ...) son observaciones independientes de una variable X, discreta o con-
tinua, con esperanza E (X), es un hecho empırico la convergencia del promedio (o media)
experimental al teorico
lımn→∞
1
n
n∑i=1
xi = E (X)
70 Capıtulo 3. Valores Esperados
Con mas precision, un teorema importante de la Probabilidad, la Ley Fuerte de los Grandes
Numeros, de Borel y Kolmogorov, afirma que las series (1/n)∑xi convergen a E (X) con
probabilidad 1.
En la practica experimental puede suceder que la funcion de masa o densidad f (x) de la
variable aleatoria X que se mide en el experimento sea desconocida, o que sea de forma
conocida pero dependa de parametros desconocidos, lo que impide calcular el valor de E (X)
segun la definicion 3.1. Sin embargo la convergencia descrita justifica su aproximacion con el
promedio experimental (1/n)∑xi de n de observaciones de X, y, naturalmente, habremos
de acotar el error de la aproximacion.
Ejemplo 3.8. (cont. del 3.1) En el experimento de lanzar una vez una moneda con pro-
babilidad p de cara, la variable aleatoria X (c) = 1 y X (+) = 0 tiene funcion de masa de
Bernoulli.
A una sucesion de n tiradas corresponde otra (x1, x2, ..., xn) de observaciones de X (de ceros
y unos).∑n
i=1 xi es el total de caras en las n tiradas. El promedio experimental
1
n
n∑i=1
xi
representa entonces la frecuencia relativa de caras que, como se sabe, converge a la probabi-
lidad de cara p, es decir, al promedio teorico E (X).
Ejemplo 3.9. (cont. del 3.2) En el experimento de lanzar m veces una moneda con proba-
bilidad p de cara, la variable aleatoria X =“numero de caras” tiene funcion de masa binomial
de parametros m y p.
A una sucesion de n experimentos corresponde otra (x1, x2, ..., xn) de observaciones de X
(de numeros de caras, entre 0 y m).∑n
i=1 xi es el total de caras en los n experimentos, que
equivalen en conjunto a nm lanzamientos de la moneda. El promedio experimental
1
nm
n∑i=1
xi
representa entonces la frecuencia relativa de caras que (ejemplo anterior) converge, si n →∞, a la probabilidad de cara p. Por lo tanto
1
n
n∑i=1
xi
converge a mp, es decir, al promedio teorico E (X).
Recordar, del Analisis, que si un → u y g (·) es continua en u entonces g (un) → g (u). En
nuestro caso es un = 1n
∑ni=1 xi y u = E (X)
3.2. Interpretacion experimental 71
Ejemplo 3.10. (cont. del 3.3) En el experimento de lanzar una moneda, con probabilidad
p de cara, hasta que sale cara, la variable aleatoria X =“numero de tiradas” tiene funcion
de masa geometrica. A una sucesion de n experimentos corresponde otra (x1, x2, ..., xn) de
observaciones de X y
1
n
n∑i=1
xi
converge a E (X) = 1/p.
La funcion g : un → 1/un es continua en u si u 6= 0. Entonces
n∑xi→ 1
E (X)= p
Observar que∑n
i=1 xi es el total de lanzamientos efectuados en el conjunto de los n experi-
mentos para obtener en total n caras y entonces
n∑xi
es la frecuencia relativa de caras, que converge, si n→∞, a la probabilidad de cara p.
Se suele llamar a la E (X) de una Va geometrica el periodo de retorno del suceso que
se observa (cara en el ejemplo) y a la propia variable el tiempo de espera para observar
suceso. Si la probabilidad de cara es p = 1/2 el periodo de retorno de cara es 1/p = 2: en
promedio cada 2 lanzamientos de obtiene una cara.
Ejemplo 3.11. (cont. del 3.5) El tiempo de vida X de un nucleo radioactivo, desde un
instante t = 0, tiene una funcion de densidad exponencial
f (x) = λe−λx x > 0
y E (X) = 1/λ representa la vida media teorica. En una sucesion (x1, x2, ..., xn) de observa-
ciones de X (tiempos de vida experimentales) la vida total de los n nucleos ha sido∑n
i=1 xi
y el promedio
1
n
n∑i=1
xi
es la vida media experimental, que converge a la teorica 1/λ si n→∞. Y n/∑n
i=1 xi converge
a λ (que es el numero promedio teorico de decaimientos por unidad de tiempo).
El nombre de esperanza tiene su origen en los juegos de azar (cuyo analisis, desde el siglo
XVI, contribuyo al desarrollo de la Teorıa de Probabilidades), con el sentido de beneficio
esperado.
72 Capıtulo 3. Valores Esperados
Ejemplo 3.12. En una ruleta con 37 sectores, del 0 al 36, apostamos 1 euro a par. Si sale
par recibimos 2 euros (el apostado mas 1 de beneficio). Si sale impar perdemos el euro. Si
sale 0 gana siempre la banca. ¿Que esperarıamos ganar apostando siempre par?
El beneficio en cada apuesta es una Va X con P (X = 1) = 1837 y P (X = −1) = 19
37 , y por lo
tanto
E(X) = (+1)× 18
37+ (−1)× 19
37= − 1
37= −0.027
A la larga, jugando muchas veces ası, habremos perdido 2.7 centimos por cada euro apostado.
Ejemplo 3.13. (Martingalas)¿Hay estrategias para ganar? Una clasica sugiere doblar la
apuesta cada vez. Si la apuesta inicial es 1 y se pierden n consecutivas la perdida total es
1 + 2 + 4 + · · ·+ 2n−1 = 2n − 1
En la apuesta n+ 1 la cantidad apostada es 2n y si ahora se gana el beneficio total es
2n − (2n − 1) = 1
Un inconveniente, al menos, de esta estrategia, es que para poder seguirla necesitamos un
capital a priori infinito (en realidad no hay tal juego: seguimos hasta ganar). Estudiemos
entonces una alternativa mas realista: ¿cual es el beneficio esperado en rondas de n apuestas
como maximo (es decir, disponemos de un capital maximo 2n − 1) ?
Si la probabilidad de ganar en cada apuesta es p, la probabilidad de perder n consecutivas es
(1− p)n y el beneficio es − (2n − 1). Y la de no perder n apuestas consecutivas (es decir, de
ganar en alguna de las n − 1 anteriores y retirarnos) es 1 − (1− p)n y el beneficio es 1. El
beneficio esperado es
1× [1− (1− p)n]− (2n − 1)× (1− p)n
= 1− 2n (1− p)n
= 0 si p = 1/2
< 0 si p < 1/2
> 0 si p > 1/2
de manera que si p < 1/2 y el capital es finito el beneficio promedio (y el total) de muchas
rondas es negativo.
El lector curioso puede buscar en Internet la paradoja de Parrondo2: existen juegos de es-
peranza negativa (perdedores a la larga) que, sin embargo, jugados alternativamente resultan
en uno de esperanza positiva.
2Profesor de Fısica de la UCM
3.3. Esperanza de una funcion de una variable 73
3.3. Esperanza de una funcion de una variable
Notacion: Desde ahora y hasta el final del Capıtulo usamos en las Proposiciones y Teoremas
la notacion correspondiente al caso continuo; para el discreto se sustituye la integral por una
suma.
Sea Y = g (X) una variable aleatoria definida como funcion de otraX. Segun 3.2 su esperanza
se calcula ası
E (Y ) =
∫RyfY (y) dy
Sin embargo no es preciso conocer fY (y) para calcularla. Se prueba que
Teorema 3.1. Si Y = g (X) con densidades fY (y) y fX (x), y existe E (Y ) entonces∫RyfY (y) dy =
∫Rg (x) fX (x) dx
es decir
E (Y ) = E (g (X))
en el sentido de que la esperanza en cada lado de la igualdad se toma segun la ley respectiva.
Naturalmente E (g (X)) es el valor al que convergen, con probabilidad 1, los promedios
experimentales
lımn→∞
1
n
n∑i=1
g (xi) = E (g (X))
de los valores de la funcion g (·) en n observaciones independientes (x1, x2, ..., xn, ...) de
una variable X, discreta o continua.
Ejemplo 3.14. Se elige un punto X al azar en una barra de longitud 1 (es decir, con
densidad fX (x) = 1 para x ∈ (0, 1)) y se rompe por dicho punto. Sea Y la longitud del trozo
mas grande. Calculemos E (Y ).
La longitud del trozo mas grande es la variable aleatoria
Y =
1−X si 0 < X ≤ 1/2
X si 1/2 < X < 1
y su esperanza se calcula ası:
E(Y ) =
∫ 1
0g(x)fX(x)dx =
∫ 1/2
0(1− x)dx+
∫ 1
1/2xdx =
3
4
En el ejemplo 2.38 hallamos que la densidad de Y es fY (y) = 2 para y ∈ (1/2, 1) y entonces
E(Y ) =
∫ 1
1/2yfY (y)dy =
∫ 1
1/22ydy =
3
4
74 Capıtulo 3. Valores Esperados
Ejemplo 3.15. Sea X uniforme en (a, b), y sea Y = 1/X. Entonces:
E(Y ) =
∫ b
a
1
x
1
b− adx =
ln b− ln a
b− a
definido solo si a > 0. De manera que si, por ejemplo, X es uniforme en (0, 1), no existe la
E(
1X
).
Corolario 3.1. (Linealidad de la esperanza) En particular si Y = a+ bX:
E (a+ bX) =
∫R
(a+ bx) f (x) dx = a
∫Rf (x) dx+ b
∫Rxf (x) dx = a+ bE (X) (3.3)
Ejemplo 3.16. Si E (X) = c entonces E (X − c) = 0.
Ejemplo 3.17. (cont. del 3.14) la longitud del trozo mas pequeno es 1−Y ası que su longitud
promedio es 1− E (Y ) = 1/4.
3.4. Esperanza de una funcion de varias variables
La esperanza de la variable aleatoria Z = g (X,Y ) funcion de la (X,Y ) segun (3.2) es
E (Z) =
∫RzfZ (z) dz
Sin embargo no es preciso conocer fZ para calcularla. Se prueba que
Teorema 3.2. Sea Z = g (X,Y ) con densidades fZ (z) y f (x, y). Si E (Z) existe, entonces∫RzfZ (z) dz =
∫ ∫R2
g (x, y) f (x, y) dxdy
es decir
E (Z) = E (g (X,Y ))
en el sentido de que la esperanza de cada termino se toma segun la ley respectiva.
El resultado se generaliza de modo obvio a una funcion Z = g (X1, X2, ..., Xn).
Ejemplo 3.18. En el experimento de elegir un punto al azar en el cırculo x2 + y2 ≤ 1 la
distancia del punto al centro es R =√X2 + Y 2. En el ejemplo 2.16 hallamos que fR (r) = 2r
para r ∈ [0, 1], y en el ejemplo 2.30 hallamos que f (x, y) = 1/π para x2+y2 ≤ 1. La distancia
esperada del punto al centro es
E(√
X2 + Y 2)
=1
π
∫∫x2+y2≤1
√x2 + y2dxdy =
2
3
o tambien
E (R) =
∫ 1
02r2dr =
2
3
3.4. Esperanza de una funcion de varias variables 75
Nos interesa en particular el caso g (X1, X2, ..., Xn) =∑aiXi.
Proposicion 3.2. (Esperanza de una combinacion lineal)
E(∑
aiXi
)=∑
aiE (Xi)
Demostracion. Basta probarlo para 2 variables:
E (aX + bY ) =
∫ ∫R2
(ax+ by) f (x, y) dxdy
= a
∫Rx
(∫Rf (x, y) dy
)dx+ b
∫Ry
(∫Rf (x, y) dx
)dy
= a
∫RxfX (x) dx+ b
∫RyfY (y) dy
= aE (X) + bE (Y ) .
Observar que esto es ası sean las Xi dependientes o independientes.
Ejemplo 3.19. (Esperanza de la binomial) Una Va X binomial de parametros n y p
cuenta el total de exitos en n ensayos independientes, en cada uno de los cuales la proba-
bilidad de exito es p. Si Xi representa el resultado de cada ensayo, con P (Xi = 1) = p y
P (Xi = 0) = 1− p, entonces X =∑n
i=1Xi y
E (X) =n∑i=1
E (Xi) = np
pues (variables de Bernoulli) E (Xi) = p
Ejemplo 3.20. (Coleccion de cromos) Hay N cromos distintos para hacer la coleccion.
Supongamos que cada vez que compramos uno la probabilidad de que sea cualquiera de ellos
es 1/N . ¿Cual es el numero promedio de cromos que hay que comprar para conseguir los N?
Sea Xk (1 ≤ k ≤ N) el numero de cromos que hay que comprar hasta conseguir un k-esimo
distinto. Entonces el numero de cromos que hay que comprar para completar la coleccion es
X1 +X2 + · · ·+XN
Obviamente X1 = 1
Nos faltan N − 1 cada uno de ellos con probabilidad 1/N . Al comprar uno la probabilidad
de que sea distinto del que tenemos es p = (N − 1) /N . La Va X2, numero de cromos que
hay que comprar hasta conseguir uno distinto del que tenemos, es geometrica de parametro
p (ejemplo 3.3) ası que E (X2) = 1/p = N/ (N − 1).
76 Capıtulo 3. Valores Esperados
Ahora nos faltan N−2 cada uno de ellos con probabilidad 1/N . Al comprar uno la probabilidad
de que sea distinto de los que tenemos es p = (N − 2) /N . La Va X3 es geometrica de
parametro p ası que E (X3) = 1/p = N/ (N − 2).
Y ası sucesivamente, de manera que
E (X1 +X2 + · · ·+XN ) = E (X1) + E (X2) + · · ·+ E (XN )
= 1 +N
N − 1+
N
N − 2+ · · ·+ N
N − (N − 2)+
N
N − (N − 1)
= N
(1 +
1
2+
1
3+ · · ·+ 1
N − 1+
1
N
)Por ejemplo si N = 50 resulta aproximadamente el valor 225, si N = 100 el valor 519 y si
N = 1000 el valor 7485
Naturalmente podemos tener suerte y acabar la coleccion enseguida, pero si un numero n muy
grande de personas hace la coleccion, el total de cromos que ha vendido la editorial dividido
por n converge a la esperanza (ası que si N = 100 y n = 1000 la editorial habra vendido
aproximadamente 519000 cromos).
3.5. Varianza de una variable aleatoria
Definicion 3.2. Se llama la varianza de X y se denota V ar (X) a la esperanza de (X − E (X))2:
V ar (X) = E(
(X − E (X))2)
=
∫R
(x− E (X))2 f (x) dx (3.4)
La raiz cuadrada positiva de la varianza√V ar (X) se llama la desviacion tıpica de X.
√V ar (X) tiene, en cualquier caso, las mismas unidades que la magnitud X.
Segun la definicion 3.2 la varianza es tanto mas pequena cuanto mas se concentre f (x)
alrededor de E (X) (en cuyo caso los valores grandes de (x− E (X))2 del integrando, corres-
pondientes a valores de x distantes de E (X), tendran un peso f (x) despreciable. Experi-
mentalmente ello se reflejara en una mayor homogeneidad (menor dispersion) de los valores
experimentales (x1, x2, ..., xn, ...) (ver Seccion 3.6).
Observese que V ar (X) ≥ 0 y que V ar (X) = 0 si y solo si X es una constante, es decir
P (X = a) = 1.
Proposicion 3.3. Una expresion alternativa es
V ar (X) = E(X2)− (E (X))2 (3.5)
3.5. Varianza de una variable aleatoria 77
Demostracion. Desarrollando el cuadrado y teniendo en cuenta la Proposicion 3.2:
E(
(X − E (X))2)
= E(X2 + (E (X))2 − 2E (X)X
)= E
(X2)
+ (E (X))2 − 2 (E (X))2
= E(X2)− (E (X))2
Corolario 3.2. Como V ar (X) ≥ 0 siempre es
E(X2)≥ (E (X))2
Proposicion 3.4. Si a y b son constantes
V ar (aX + b) = a2V ar (X)
Demostracion. como
(E (aX + b))2 = (aE (X) + b)2
= a2 (E (X))2 + b2 + 2abE (X)
y
E(
(aX + b)2)
= E(a2X2 + b2 + 2abX
)= a2E
(X2)
+ b2 + 2abE (X)
restando miembro a miembro y teniendo en cuenta (3.5)
V ar (aX + b) = a2V ar (X)
Ejemplo 3.21. (cont. del ejemplo 1) la varianza de una variable aleatoria X de Bernoulli,
con funcion de masa f (x) = px (1− p)1−x si x ∈ 0, 1 es:
V ar (X) = E(
(X − p)2)
=1∑
x=0
(x− p)2 f (x) = (0− p)2 × (1− p) + (1− p)2 × p
= p (1− p)
o tambien, como E (X) = p y
E(X2)
=1∑
x=0
x2f (x) = 02 × (1− p) + 12 × p = p
resulta de (3.5)
V ar (X) = E(X2)− (E (X))2 = p (1− p)
78 Capıtulo 3. Valores Esperados
Ejemplo 3.22. para hallar la varianza de una variable aleatoria X con funcion de densidad
exponencial
f (x) = λe−λx x > 0
y cero en otro caso, calculamos primero
E(X2)
=
∫ ∞0
x2λe−λxdx
por partes, con
u = x2 → du = 2xdx
dv = λe−λxdx→ v = −e−λx
y queda
E(X2)
=[−x2e−λx
]∞0
+ 2
∫ ∞0
xe−λxdx =2
λ2
pues limt→∞t2e−λt = 0 y (ejemplo 5)∫ ∞
0λxe−λxdx =
1
λ
La varianza resulta
V ar (X) = E(X2)− (E (X))2 =
2
λ2 −1
λ2
=1
λ2
3.6. Interpretacion experimental
Sean (x1, x2, ..., xn, ...) son observaciones experimentales de una variable X, discreta o con-
tinua, con esperanza E (X) y varianza V ar (X). Denotemos
x =1
n
n∑i=1
xi
La variabilidad, o dispersion, de la muestra se puede medir por el promedio experimental
siguiente
1
n
n∑i=1
(xi − x)2
y en la medida en que los valores individuales xi sean similares (y por lo tanto poco distintos
3.7. Acotacion de Tchebychev 79
de su promedio x) la medida de variabilidad anterior sera pequena. Pero
1
n
n∑i=1
(xi − x)2 =1
n
n∑i=1
(x2i + (x)2 − 2xxi
)=
1
n
n∑i=1
x2i + (x)2 − 2 (x)2
=1
n
n∑i=1
x2i −
(1
n
n∑i=1
xi
)2
y como empıricamente
lımn→∞
1
n
n∑i=1
xi = E (X)
lımn→∞
1
n
n∑i=1
x2i = E
(X2)
resulta
lımn→∞
1
n
n∑i=1
(xi − x)2 = E(X2)− (E (X))2 = V ar (X)
Ası que cuanto menor sea la varianza V ar (X) menor es la dispersion de la muestra.
Ejemplo 3.23. (cont. del 3.21) V ar (X) = p (1− p) es maxima si p = 1/2, y tiende a
cero si p → 0 o p → 1. La homogeneidad de la sucesion de ceros y unos (x1, x2, ..., xn)
correspondiente a los lanzamientos de una moneda es maxima si p → 0 o p → 1 y mınima
si p = 1/2.
3.7. Acotacion de Tchebychev
Proposicion 3.5 (Acotacion de Markov). Sea X una variable aleatoria no negativa, es decir
tal que P (X ≥ 0) = 1, y esperanza E (X). Entonces ∀ε > 0:
P (X ≥ ε) ≤ E(X)
ε
Demostracion.
E(X) =
∫ +∞
0xf(x)dx ≥
∫ ∞ε
xf(x)dx
≥ ε
∫ ∞ε
f(x)dx = εP (X ≥ ε)
80 Capıtulo 3. Valores Esperados
Corolario 3.3 (Acotacion de Tchebychev). Ahora si X es arbitraria, (X − E(X))2 es no
negativa y E(
(X − E(X))2)
= V ar (X). Entonces ∀ε > 0:
P (|X − E (X)| ≥ ε) = P(
(X − E(X))2 ≥ ε2)≤ V ar(X)
ε2
o tambien
P (|X − E (X)| < ε) ≥ 1− V ar(X)
ε2
Este resultado aclara el analisis hecho despues de la Definicion 3.2 a proposito de la varianza.
La probabilidad del suceso |X − E (X)| < ε, es decir, de que los valores de X se hallen en
un entorno ε de su esperanza E (X), es tanto mayor cuanto menor es V ar (X).
3.8. Varianza de una combinacion lineal de Vas independien-
tes
Proposicion 3.6. Si (X1, X2, ..., Xn) son independientes entonces
E(∏
Xi
)=∏
E (Xi)
Demostracion. Basta probarlo para 2 variables X e Y . Por ser independientes es f (x, y) =
fX (x) fY (y) y entonces
E (XY ) =
∫ ∫R2
xyf (x, y) dxdy =
∫RxfX (x) dx
∫RyfY (y) dy
= E (X)E (Y )
Tengase en cuenta que para variables X e Y no independientes puede ser
E (XY ) = E (X)E (Y ) .
En general dos variables aleatorias X e Y que verifican la igualdad anterior se llaman inco-
rreladas(ver 3.9). Por lo tanto el conjunto de las variables aleatorias independientes es un
subconjunto del conjunto de las variables aleatorias incorreladas.
Proposicion 3.7. (Combiacion lineal de Vas independientes) Si las n variables
(X1, X2, ..., Xn) son independientes (o al menos incorreladas)
V ar(∑
aiXi
)=∑
a2iV ar (Xi)
3.9. La covarianza 81
Demostracion. Basta probarlo para dos variables X e Y :
V ar (aX + bY ) = E(
(aX + bY )2)− (E (aX + bY ))2
y como
E(
(aX + bY )2)
= E(a2X2 + b2Y 2 + 2abXY
)= a2E
(X2)
+ b2E(Y 2)
+ 2abE (XY )
y
(E (aX + bY ))2 = (aE (X) + bE (Y ))2
= a2 (E (X))2 + b2 (E (Y ))2 + 2abE (X)E (Y )
resulta
V ar (aX + bY ) = a2V ar (X) + b2V ar (Y ) + 2ab (E (XY )− E (X)E (Y )) (3.6)
y como E (XY ) = E (X)E (Y ) resulta
V ar (aX + bY ) = a2V ar (X) + b2V ar (Y )
Ejemplo 3.24. (cont. del 3.19) (Varianza de la binomial) como X =∑n
i=1Xi y las Xi
son independientes
V ar (X) =n∑i=1
V ar (Xi) = np (1− p)
pues (variables de Bernoulli) V ar (Xi) = p (1− p)
3.9. La covarianza
Definicion 3.3. (La covarianza) La esperanza de la funcion (X − E (X)) (Y − E (Y )) se
llama la covarianza entre X e Y y se denota Cov (X,Y ):
Cov (X,Y ) = E ((X − E (X)) (Y − E (Y )))
Proposicion 3.8. una expresion alternativa es (desarrollando el corchete y tomando la
esperanza de cada termino):
Cov (X,Y ) = E (XY )− E (X)E (Y )
Corolario 3.4. Si X e Y son independientes o incorreladas
Cov (X,Y ) = 0
82 Capıtulo 3. Valores Esperados
Proposicion 3.9. Las siguientes propiedades son de comprobacion inmediata
Cov (aX, bY ) = abCov (Y,X)
Cov (X,Y ) = Cov (Y,X)
Cov (X,X) = V ar (X)
Cov (a,X) = 0
Cov (a, b) = 0
Ahora la formula (3.6) se puede escribir
V ar (aX + bY ) = a2V ar (X) + b2V ar (Y ) + 2abCov (X,Y )
y se generaliza facilmente a (teniendo en cuenta las propiedades anteriores y la proposicion
3.4):
Proposicion 3.10. (Varianza de una combinacion lineal de Vas)
V ar(∑
aiXi
)=
∑∑aiajCov (Xi, Xj)
=∑
a2iV ar (Xi) + 2
∑∑aiaj
i<j
Cov (Xi, Xj)
En particular, si la variables son independientes o incorreladas la expresion de la varianza es
la Proposicion 3.7.
Proposicion 3.11. (Desigualdad de Cauchy-Schwarz)
(E (XY ))2 ≤ E(X2)E(Y 2)
Demostracion. De
E(
(aX + Y )2)
= E(aX2 + 2aXY + Y 2
)= a2E
(X2)
+ 2aE (XY ) + E(Y 2)≥ 0 ∀a ∈ R
resulta que la ecuacion cuadratica en a tiene una solucion real (si = 0) o ninguna (si > 0) y
por ello su discriminante ha de ser
(E (XY ))2 − E(X2)E(Y 2)≤ 0
resultando lo propuesto.
En calidad de variables X e Y usemos en particular las (X − E (X)) e (Y − E (Y )) la
desigualdad queda en la forma
(Cov (X,Y ))2 ≤ V ar (X)V ar (Y )
o tambien
|Cov (X,Y )| ≤√V ar (X)
√V ar (Y ) (3.7)
3.10. Esperanza condicional 83
Proposicion 3.12. Si Y = aX + b entonces
(Cov (X,Y ))2 = V ar (X)V ar (Y )
Demostracion. Resulta inmediatamente de la Proposicion 3.9
Cov (X,Y ) = Cov (X, aX + b) = aCov (X,X) = aV ar (X)
y
V ar (Y ) = V ar (aX + b) = a2V ar (X)
Definicion 3.4. Se llama el coeficiente de correlacion, denotado Corr (X,Y ), de las Vas X
e Y a
Corr (X,Y ) =Cov (X,Y )√
V ar (X)V ar (Y )
Se sigue de (3.7) que
|Corr (X,Y )| ≤ 1
Ademas Corr (X,Y ) = ±1 si Y = aX + b (el signo es el de a) y Corr (X,Y ) = 0 si son
independientes (o incorreladas).
3.10. Esperanza condicional
Sea la Va condicional (Y | X = x) con densidad o masa f (y | x) (secciones 2.7.1 y 2.8.1).
Entonces (Definicion 3.1)
E (Y | x) =
∫Ryf (y | x) dy
Esta formula puede verse tambien como una funcion de X, es decir, como una Va.
Definicion 3.5. Se llama esperanza condicional a la Va E (Y | X) : Ω→ R tal que
ω 7−→ E (Y | X (ω)) =
∫Ryf (y | X (ω)) dy
Proposicion 3.13.
E (E (Y | X)) = E (Y )
84 Capıtulo 3. Valores Esperados
Demostracion. Usando el teorema 3.1
E (E (Y | X)) =
∫RE (Y | x) fX (x) dx
=
∫R
∫Ryf (y | x) fX (x) dxdy
=
∫Ry
(∫Rf (x, y) dx
)dy∫
RyfY (y) dy
Ejemplo 3.25. (Problema del ladron de Bagdad) Un ladron esta encerrado en un
calabozo con 3 puertas. Una de las puertas lo devuelve al calabozo despues de un dıa de
viaje. Otra lo devuelve despues de tres dıas de viaje. La ultima lo lleva a la libertad. Calcular
el numero esperado de dıas de encierro si cada vez elige una puerta de las tres con igual
probabilidad.
Sea N el numero de intentos hasta salir (1, 2, ...) y Ti la duracion de cada intento
(0, 1 o 3 dıas). El total de dıas preso es
X =N∑i=1
Ti
Observar que esta es una suma de un numero aleatorio de sumandos. Para calcular su
esperanza hacemos
E (X | N = n) = E
(n∑i=1
Ti
)=
n∑i=1
E (Ti) =4n
3
pues la duracion esperada de cada intento es
E (Ti) = 0× 1
3+ (3 + 1)× 1
3=
4
3
Aplicando ahora el teorema anterior
E (X) = E (E (X | N)) =4
3E (N) = 4
pues el numero de intentos N es una Va geometrica de parametro p = 1/3 y E (N) = 1/p = 3.
3.11. Ejercicios propuestos
Seccion 3.1:
3.11. Ejercicios propuestos 85
1. Sea un experimento cualquiera (Ω,F , P ), un suceso A ∈ F de probabilidad P (A) y la
Va IA : Ω → R tal que IA (ω) = 1 si ω ∈ A y IA (ω) = 0 si ω /∈ A (llamada funcion
indicatriz del conjunto A). Calcule E (IA).
2. (cont.) suponga que P (A) = 0.1 Si hacemos el experimento 100 veces independiente-
mente ¿Cual es el numero esperado de ellas que sucedera A?
3. (cont.) ¿Cual es el numero esperado de veces que hay que hacer el experimento para
que suceda A? (el periodo de retorno de A).
4. Si los caudales maximos anuales de un rio en anos sucesivos son independientes y si la
probabilidad de que el caudal maximo exceda el valor x en un ano cualquiera es 0.01
¿cual es el perido de retorno del caudal x? (de otra manera: ¿cada cuantos anos, en
promedio, se excede x?)
5. (cont.) Supongamos que para cierto rio su caudal maximo anual es una VA X (en
m3 s−1) con funcion de distribucion
F (x) = 1− e−0.01x x > 0
Hallar el valor de caudal maximo x con periodo de retorno de 100 anos
Seccion 3.2:
6. Jugamos a la ruleta (ejemplo 3.12) apostando a par 1 euro de entrada y doblando la
apuesta cada vez en rondas de 10 como maximo (ejemplo 3.13). A la larga, de cada mil
rondas que juguemos ¿cuantas ganamos y que cantidad en total? ¿cuantas perdemos y
que cantidad en total?
7. En un examen tipo test se dan m respuestas posibles por cada pregunta. Si se valora
con un punto cada respuesta correcta, ¿que puntuacion habra que dar a las respues-
tas incorrectas para que, en promedio, las personas que resuelvan el examen al azar
obtengan un cero?
Seccion 3.3:
8. Demostrar que E(
(X − c)2)
es mınimo si c = E (X)
Secciones 3.3 y 3.5:
9. Sea X una Va cualquiera con esperanza E (X) = µ y desviacion tıpica√V ar(X) = σ.
Calcule la esperanza y la varianza de la variable
U =X − µσ
86 Capıtulo 3. Valores Esperados
10. Calcular la esperanza y la varianza de una variable aleatoria X con funcion de masa
f(x) = 1/n si x ∈ 1, 2, ..., n y cero en otro caso (discreta uniforme, o equiprobable).
(sugerencia:∑n
x=1 x = n(n+ 1)/2 y∑n
x=1 x2 =
(2n3 + 3n2 + n
)/6).
11. Calcule la esperanza y la varianza de una Va geometrica de parametro p usando
∞∑x=1
x (1− p)x−1 p = −p ddp
( ∞∑x=1
(1− p)x)
12. Calcule la esperanza de una Va de Poisson de parametro λ derivando respecto a λ en
ambos miembros de∞∑x=0
λx
x!= eλ.
Calcule tambien la varianza.
13. Calcule la esperanza y la varianza de una variable aleatoria X con funcion de densidad
f(x) = 1/(b−a) para x ∈ (a, b) y cero en otro caso (continua uniforme, o equiprobable).
14. Calcule la esperanza de una Va normal de parametros µ y σ derivando respecto de µ
en
1
σ√
2π
∫Re−
(x− µ)2
2σ2 dx = 1
15. Calcule la varianza de una Va normal de parametros µ y σ derivando respecto de σ en
1√2π
∫Re−
(x− µ)2
2σ2 dx = σ
Seccion 3.8:
16. (Ley del decaimiento) Si inicialmente hay N (0) atomos radiactivos, y si para cada
uno de ellos la probabilidad de decaer en el intervalo (0, t] es F (t) = 1 − exp (−λt)independientemente unos de otros, halle la esperanza del numero N (t) de atomos que
sobreviven al tiempo t (vea el ejercicio 9 del capıtulo 2).
17. Se desea financiar una campana de n sondeos. El resultado de cada sondeo es una
Va Xi con P (Xi = 1) = p (exito) y P (Xi = 0) = 1 − p (fracaso). El numero total
de sondeos con exito es X =∑Xi. Se supone que los resultados de los sondeos son
independientes a) encontrar la esperanza y la varianza del numero de sondeos con
exito. b) si la campana tiene un coste fijo c0, cada perforacion con exito cuesta 2c y
cada una fallida c, encontrar la esperanza y la varianza del coste total de la campana.
18. Se lanzan 36 dados equiprobables. Calcule el valor esperado y la varianza de la suma
S de los puntos obtenidos. (sugerencia: ejercicio 10 de este capıtulo).
3.11. Ejercicios propuestos 87
19. (cont.) La Va S es discreta con valores posibles 36, 37, ..., 216. El calculo exacto de
una probabilidad como
P (|S − 126| < 30) = P (96 < S < 156)
exige conocer la funcion de masa, que no es difıcil pero si penoso. Acote la probabilidad
anterior mediante la acotacion de Tchebychev.
20. Segun la teorıa cinetica de Maxwell y Boltzman las componentes (Vx, Vy, Vz) de la ve-
locidad de las moleculas de un gas ideal en equilibrio son Vas independientes con den-
sidad normal de parametros E (Vx) = E (Vy) = E (Vz) = µ y V ar (Vx) = V ar (Vy) =
V ar (Vz) = kT/m, donde k es la constante de Boltzman, T la temperatura y m la masa
de una molecula
a) Como las moleculas no tienen una direccion preferente de movimiento ¿cual debe
ser el valor de µ y cuales sus unidades en el S.I.?
b) Tomando el valor k = 1.38 × 10−23 J K−1 y el valor 0.028 kg mol−1 para la masa
molecular del nitrogeno ¿cuanto vale la desviacion tıpica, con sus unidades, para el
nitrogeno a T = 300 K?
c) Calcule la energıa cinetica esperada de una molecula de un gas ideal a temperatura
T
21. Varillas cilındricas de acero tienen una longitud X con E (X) = 10 cm y V ar (X) =
0.0052 cm2, y una seccion de area A con E (A) = 1 cm2 y V ar (A) = 0.012 cm4. Ademas
X y A son independientes. Hallar la esperanza y desviacion tıpica del volumen V = XA
de una varilla.
22. (cont.) El peso de cada varilla es Z = 8V g. Calcular la esperanza y la desviacion tıpica
del peso de un lote de 100 varillas.
23. Esperanza del mınimo Se eligen n puntos Xi al azar en (0, 1) y se define Y =“abscisa
del mas cercano al origen”. Calcular E (Y ) (ver ejercicio propuesto 17 del capıtulo 2).
24. Esperanza del mınimo Se eligen 3 puntos al azar en el cırculo x2 +y2 ≤ 1 y se define
Y =“distancia del mas proximo al origen”. Calcular E (Y ) (vea el anterior y tenga en
cuenta ejemplo 2.34).
25. Esperanza del maximo Se eligen n puntosXi al azar en (0, 1) y se define Y =“abscisa
del mas lejano al origen”. Calcular E (Y ) (ver ejercicio propuesto 18 del capıtulo 2).
88 Capıtulo 3. Valores Esperados
Capıtulo 4
Modelos principales
4.1. Variable aleatoria normal
La funcion
f(x) =1
σ√
2πexp
[−1
2
(x− µσ
)2]−∞ < x < +∞
es la densidad llamada normal o de Gauss de parametros −∞ < µ < +∞ y σ > 0. (Se
prueba que su integral vale 1 en el Apendice B.1).
La funcion es simetrica alrededor de µ, es decir f(µ−x) = f(µ+x). Tiene un unico maximo en
µ, de valor f(µ) = 1/(σ√
2π)
que aumenta cuando σ disminuye. Y decrece asintoticamente
hacia el valor 0 para x→ ±∞, tanto mas rapidamente cuanto menor sea σ. La probabilidad
se concentra entonces alrededor de µ cuando σ disminuye.
Su esperanza y varianza son E(X) = µ y V ar(X) = σ2 (Capıtulo 3: ejemplo 3.6 y ejercicios
14 y 15).
Una variable aleatoria X con esta densidad se indica1 X ∼ N(µ, σ).
Proposicion 4.1. Si X ∼ N(µ, σ) entonces U = a+ bX ∼ N(a+ bµ, |b|σ)
Demostracion. la densidad de U = a+ bX es (ejemplo 2.39) :
fU (u) =1
|b|f
(u− ab
)=
1
|b|σ√
2πexp
[−1
2
( u−ab − µσ
)2]
=1
|b|σ√
2πexp
[−1
2
(u− (a+ bµ)
bσ
)2]
−∞ < u < +∞
1Y tambien X ∼ N(µ, σ2).
89
90 Capıtulo 4. Modelos principales
es decir, a+ bX ∼ N(a+ bµ, |b|σ).
Corolario 4.1. En particular la densidad de U = (X − µ) /σ es N (0, 1).
Proposicion 4.2. (reproductividad) Si Xi ∼ N (µi, σi) e independientes entonces X =∑ni=1 αiXi ∼ N
(∑αiµi,
√∑α2iσ
2i
).
Demostracion. (ver Apendice B.1.2)
µ
σ = 0.5
σ = 1
σ = 2
Figura 4.1: Densidades normales con igual µ y distintas σ.
4.2. Calculo de probabilidades
Si X ∼ N(µ, σ) para calcular la probabilidad2:
P (X < b) =
∫ b
−∞
1
σ√
2πexp
[−1
2
(x− µσ
)2]dx
hay que usar aproximaciones numericas, pues el integrando carece de primitiva simple (que
permitirıa usar la regla de Barrow).
Pero si X ∼ N (µ, σ) entonces (corolario 4.1)
2Recordar que para una variable continua la probabilidad en cada intervalo vale lo mismo se incluyan o
no los puntos extremos.
4.2. Calculo de probabilidades 91
U =X − µσ
es N (0, 1). Y como los sucesos X < b y X−µσ < b−µ
σ son equivalentes (la realizacion de uno
equivale a la del otro)3
P (X < b) = P
(X − µσ
<b− µσ
)= P
(U <
b− µσ
)y se concluye que para aproximar las probabilidades de una X ∼ N (µ, σ) basta aproximar
las de una U ∼ N (0, 1).
Suele denotarse P (U < u) = Φ (u). Con ello
P (a < X < b) = Φ
(b− µσ
)− Φ
(a− µσ
)En la tabla C.1 se dan los valores de
Φ(u) =
∫ u
−∞
1√2π
exp
[−1
2u2
]du
para u ∈ (0.00, 3.4) y los demas se deducen de la simetrıa de la densidad normal:
Φ(−u) = 1− Φ(u)⇐⇒ P (U < −u) = P (U > u)
Ejemplo 4.1. sea X ∼ N(1000, 50). Para calcular la P (900 < X < 1050):
P (900 < X < 1050) = P
(900− 1000
50< U <
1050− 1000
50
)= Φ (1)− Φ (−2)
= 0.8413− (1− 0.9772) = 0.8185
Ejemplo 4.2. (cont.) encontremos el numero x tal que P (|X − 1000| < x) = 0.9
P (|X − 1000| < x) = P (−x < X − 1000 < x) = P(− x
50< U <
x
50
)= Φ
( x50
)− Φ
(− x
50
)= 0.9
Φ( x
50
)−[1− Φ
( x50
)]= 2Φ
( x50
)− 1 = 0.9
resulta que Φ(x50
)= 0.95 y con ayuda de la tabla C.1 se halla que Φ (1.64) = 0.94950 (valor
mas proximo) ası que x = 50× 1.64 = 82.
Observese que, para cada numero real k > 0, P (|X − µ| < kσ) = Φ(k)− Φ(−k), de manera
que, para cualquier Va normal, la probabilidad en el intervalo (µ − kσ, µ + kσ) es la
misma; en particular, los valores correspondientes a k = 1, 2, 3 y 4, son respectivamente
0.6827, 0.9545, 0.9973 y 0.9999
3El suceso X < b representa todos los numeros x tales que x < b, y si x < b entonces x−µσ
< b−µσ
y
recıprocamente.
92 Capıtulo 4. Modelos principales
µ−σ µ µ+σµ−2σ µ µ+2σµ−3σ µ µ+3σ
68.27%
95.45%
99.73%
Figura 4.2: Probabilidad para distintos intervalos (µ− kσ, µ+ kσ).
4.3. Teorema Central del Lımite
La distribucion de probabilidades de una suma de variables aleatorias∑n
i=1Xi depende en
general de cual sea la de las Xi. Sin embargo el siguiente teorema afirma que, en condiciones
muy generales y si n es suficientemente grande, la distribucion se puede aproximar con una
normal.
Teorema 4.1. (Teorema Central del Lımite) Sean Xi independientes y con la misma
distribucion (discretas o continuas); en particular E(Xi) = µ y V ar(Xi) = σ2. Sea Sn =∑ni=1Xi. con esperanza nµ y varianza nσ2. Entonces
lımn→∞
P
(Sn − nµσ√n≤ u
)= Φ(u) ∀u ∈ R
En la practica: si n es suficientemente grande pueden aproximarse las probabilidades relati-
vas a la variable aleatoria Sn como si fuese una normal de esperanza nµ y de varianza
nσ2, pues:
P (Sn ≤ x) = P
(Sn − nµσ√n≤ x− nµ
σ√n
)≈ Φ
(x− nµσ√n
)(4.1)
Lo anterior se dice ası: Sn es asintoticamente N (nµ, σ√n).
Si Sn es discreta y toma valores en el conjunto de los numeros enteros, la aproximacion
4.3. Teorema Central del Lımite 93
mejora notablemente usando la llamada correccion de continuidad
P (Sn ≤ x) ≈ Φ
(x+ 0.5− nµ
σ√n
)(4.2)
En el siguiente apartado se mostrara, en un caso particular, la mejora conseguida al introducir
la correccion de continuidad.
El Teorema justifica tambien el hecho de que las variables normales resulten ser el modelo
adecuado para las magnitudes cuyos valores son el resultado de la suma de un numero muy
grande de factores aleatorios independientes, cada uno de los cuales ejerce una pequena
contribucion al valor final. Como en los dos ejemplos que siguen.
Ejemplo 4.3. Observando una gota de agua al microscopio el botanico Robert Brown des-
cubrio en 1827 el movimiento caotico de pequenas partıculas suspendidas (como granos de
polen, motas de polvo; diametro del orden de 0.5 × 10−6 m). Einstein postulo en 1905 que
ello era debido a los impactos (del orden de 1020 s−1) de las moleculas de agua (diametro
del orden de 0.3 × 10−9 m), y que fijada la posicion de la partıcula en cualquier instante,
las componentes X(t), Y (t) y Z(t) del vector posicion transcurrido un tiempo t, pueden
modelizarse como variables aleatorias normales, fısicamente independientes, y parametros:
E(X(t)) = E(Y (t)) = E(Z(t)) = 0
V ar(X(t)) = V ar(Y (t)) = V ar(Z(t)) =
(RT
3NAπηr
)t
donde R es la constante universal de los gases, NA el numero de Avogadro, T la temperatura,
η la viscosidad y r el radio de la partıcula. La esperanza cero refleja la isotropıa del sistema:
no hay una direccion preferente de impactos. La varianza refleja la incertidumbre sobre la
posicion de la partıcula respecto a su posicion inicial: creciente con el tiempo t debido a los
impactos, y con la temperatura T (la energıa de las moleculas que impactan).
Como las esperanzas son cero resulta
E(X2 (t)
)= E
(Y 2 (t)
)= E
(Z2 (t)
)=
(RT
3NAπηr
)t
Ası que, fijado el tiempo t y conocidos los valores de η, T , r y R, se puede aproximar
estadısticamente el desplazamiento cuadratico esperado por un promedio experimental de n
desplazamientos observados (distancias entre las posiciones inicial y final); por ejemplo segun
el eje x
E(X2 (t)
)≈ 1
n
n∑i=1
x2i (t)
y de aquı se obtiene una aproximacion experimental del valor de NA, hazana por la que
Perrin recibio en 1926 el premio Nobel de Fısica.
94 Capıtulo 4. Modelos principales
Ejemplo 4.4. Sea µ el valor de cierta constante que se trata de medir. No es posible predecir
el valor de cada medida individual, pues se ve afectada por gran numero de perturbaciones
inevitables cuyo resultado neto es un error de medida aleatorio. El modelo que describe la
situacion es:
Y = µ+ U
donde Y es la variable aleatoria “valor medido” y U la variable aleatoria “error de medida”.
Ademas la densidad de probabilidad de U , en virtud del Teorema Central del Lımite, es
normal, con E(U) = 0 (si el aparato esta bien calibrado: las medidas son exactas, no hay
error sistematico) y V ar(U) = σ2 (mayor precision del aparato cuanto menor sea). En
consecuencia la densidad de probabilidad de Y es tambien normal, con E(Y ) = µ y V ar(Y ) =
σ2.
4.4. Variable aleatoria binomial
La funcion de distribucion binomial es (ejemplos 2.13, 3.19 y 3.24):
P (X ≤ k) =
x=k∑x=0
(n
x
)px(1− p)n−x (4.3)
Hay una dificultad practica4 para calcularla para valores grandes de n. Sin embargo la
aproximacion de la anterior probabilidad mediante la funcion de distribucion normal, basada
en el Teorema Central del Lımite, es sencilla.
Segun el modelo basico una Va X binomial de parametros n y p, representa el numero de
exitos en n ensayos independientes con probabilidad p de exito en cada uno. Pero X tambien
se puede representar ası:
X =
n∑i=1
Xi
donde cada una de las n variables aleatorias independientes Xi representa el resultado del
correspondiente ensayo, con
P (Xi = 1) = p
P (Xi = 0) = 1− p
y como
E(Xi) = p
V ar(Xi) = p(1− p)4El calculo con precision arbitraria se realiza por medio de la funcion euleriana beta.
4.4. Variable aleatoria binomial 95
entonces (Proposiciones 3.2 y 3.7)
E(X) =
n∑i=1
E (Xi) = np
V ar(X) =
n∑i=1
V ar (Xi) = np(1− p)
Ahora, si n es suficientemente grande se aplica a (4.3) la aproximacion (4.2), es decir, se
pueden aproximar las probabilidades relativas a X como si fuese una N(np,√np(1− p)):
P (X ≤ k) =x=k∑x=0
(n
x
)px(1− p)n−x ≈ Φ
(k + 0.5− np√np(1− p)
)
0 2 4 6 8 100
0.1
0.2
0.3
0.4
p = 0.2, n=10
0 10 20 30 40 500
0.05
0.1
0.15
0.2
p = 0.2, n=50
Figura 4.3: Funciones de masa binomiales y su aproximacion por funciones de densidad
normales N(np,√np(1− p)).
En la practica suele aceptarse que la aproximacion es suficiente en cuanto mınnp, n(1−p) >10, de modo que el caso mas favorable se tiene cuanto mas proximo sea p a 1/2 (con p = 1/2
se prueba que el maximo error que se comete es menor que 1/√n).
En la figura 4.4 se muestra la aproximacion de una funcion de distribucion binomial, Fn,
de parametros p = 0.5 y n = 20 por una funcion de distribucion normal, F , de media
µ = np = 10 y varianza σ = np(1 − p) = 5 (teorema central del lımite). En la parte de la
derecha se representa una ampliacion en el entorno de x = 9. En esta ampliacion se observa
que F (9.5) (correccion de continuidad) esta mucho mas proximo a Fn(9) que F (9).
96 Capıtulo 4. Modelos principales
0 5 10 15 200
0.2
0.4
0.6
0.8
1
x
Fn(x
), F
(x)
Fn
F
6 8 9 10 12
0.2
0.25
0.3
0.35
0.4
0.45
0.5
0.55
x
9.5
Fn
F
Fn(9) ≈ F(9.5)
F(9)
Figura 4.4: Correccion de continuidad.
Ejemplo 4.5. se lanza una moneda equilibrada 900 veces. ¿que probabilidad hay de obtener
mas de 495 caras? La VA X, numero de caras, es B(900, 1/2), con E(X) = 450 y V ar(X) =
225
P (X > 495) = 1− P (X ≤ 495) = 1−k=495∑k=0
(900
k
)(1
2
)900
≈ 1− Φ
(495 + 0.5− 450√
225
)
495+0.5−450√225
= 3.0333 y en la tabla C.1 se lee Φ (3.03) = 0.99878 ası que P (X > 495) ≈1− 0.99878 = 0.00122
4.5. Variable aleatoria de Poisson
La funcion de masa de Poisson es (ejemplo 2.15)
f(x) = e−λλx
x!x = 0, 1, 2, ...
Su esperanza y varianza son (Capıtulo 3, ejercicio 12) E (X) = λ y V ar (X) = λ.
Proposicion 4.3. (reproductividad) Si Xi son Poisson de parametros λi e independientes,
entonces∑Xi es Poisson
∑λi.
4.5. Variable aleatoria de Poisson 97
Demostracion. Basta probarlo para dos, sean X e Y de parametros λ y µ
P (X + Y = z) =z∑j=0
P (X = z − j, Y = j) =z∑j=0
P (X = z − j)P (Y = j)
=
z∑j=0
e−λλz−j
(z − j)!e−µ
µj
j!=e−(λ+µ)
z!
z∑j=0
(z
j
)λz−jµj
= e−(λ+µ) (λ+ µ)z
z!
Proposicion 4.4. (Convergencia de la Binomial) Si X es Binomial (n, p) entonces
lım
(n
x
)px(1− p)n−x = e−λ
λx
x!
para n→∞, p→ 0 y np = λ.
Demostracion. Efectivamente (si n→∞ y p = λ/n)
lımn→∞
(n
x
)px(1− p)n−x = lım
n→∞
n(n− 1) · · · [n− (x− 1)]
x!
(λ
n
)x(1− λ
n
)n−x=
λx
x!lımn→∞
n(n− 1) · · · [n− (x− 1)]
nx
(1− λ
n
)n−x=
λx
x!e−λ
pues
lımn→∞
n(n− 1) · · · [n− (x− 1)]
nx= 1
lımn→∞
(1− λ
n
)n= e−λ
lımn→∞
(1− λ
n
)−x= 1
La validez empırica del modelo de Poisson en el numero de accidentes de tal o cual clase
se justifica en esta convergencia (ley de los sucesos raros): el tamano n de la poblacion
susceptible de accidente es muy grande y la probabilidad p de accidente muy pequena.
Esta convergencia tiene gran interes teorico, como veremos en la siguiente seccion, y tam-
bien ocasionalmente practico: se acepta una aproximacion suficiente de la funcion de masa
binomial por la de Poisson si (p < 0.1 , n > 50 , np < 10).
Ejemplo 4.6. Supongase que en una poblacion numerosa el tanto por uno de individuos que
poseen cierta propiedad es de p = 0.01 . Calculemos la probabilidad de que en una muestra
al azar de 200 individuos, al menos 4 posean la propiedad.
98 Capıtulo 4. Modelos principales
Si suponemos que cada una de las 200 extracciones sucesivas no cambian apreciablemente la
proporcion en la poblacion (o sea, que si es N el tamano de la poblacion, Np n), entonces
la VA X, numero de individuos en la muestra que poseen la propiedad, es B(200, 0.01) y:
P (X ≥ 4) = 1− P (X ≤ 3) = 1−3∑
x=0
(200
x
)(0.01)x(0.99)200−x
≈ 1−3∑
x=0
e−2 2x
x!= 1− 0.85712 = 0.14288
(Con 4 cifras exactas la binomial da el valor 0.1420).
4.6. Procesos de Poisson
Considere sucesos que se producen en instantes de tiempo tales como las llegadas de los
clientes a un servidor, de partıculas a un detector, de accidentes, terremotos, averıas ...
Podemos estudiarlos mediante una funcion de conteo N (t) ≡ N(0, t] definida para t > 0
y cuyo valor es el numero de sucesos que se han producido en el intervalo (0, t]. El tiempo
0 significa el elegido para comenzar las observaciones. Para cada tiempo t tenemos una Va
discreta N (t) cuyos valores posibles son 0, 1, 2, ... La familia de Vas N (t) , t > 0 es un
proceso aleatorio.
Procesos semejantes pueden estudiarse en el plano, o el espacio, y la funcion de conteo es
ahora N (v) cuyo valor es el numero de sucesos (puntos) que se han producido en el conjunto
v.
Cuando somos nosotros los que realizamos un mismo ensayo n veces, nos interesamos en el
numero de ellas en que ha ocurrido cierto suceso. Sin embargo, ahora el suceso de interes
ocurre independientemente de cualquier ensayo deliberado, en instantes de tiempo o puntos
del espacio. Construiremos un modelo para esta nueva clase de situaciones como un lımite
de la primera mas sencilla, imaginando cierta disponibilidad infinita de ensayos.
Sea V un conjunto acotado (de la recta, del plano,...) de medida (longitud, superficie,...)
med(V ), en el cual se situaran al azar (con densidad uniforme) n puntos. Cada uno de ellos
tiene la misma probabilidad med(v)med(V ) de caer dentro de un subconjunto fijado v ⊂ V . Por lo
tanto, el numero de puntos, de entre los n, que se incluiran en v es una Va N (v) binomial
de parametros n y p = med(v)med(V ) .
Ahora, si n → ∞ y med(V ) → ∞ de manera que λ = nmed(V ) (el numero de puntos por
unidad de medida o densidad espacial de puntos) permanezca constante, la distribucion de
4.6. Procesos de Poisson 99
la Va N (v) converge a la de Poisson de parametro λmed(v), con:
P (N (v) = x) = e−λmed(v) (λmed(v))x
x!x = 0, 1, 2, ..
y es la misma para todos los subconjuntos de la misma medida med(v), cualquiera que sea
su forma y posicion dentro de V .
Ademas, se prueba que para cualquier eleccion de k ≥ 2 subconjuntos no solapados, las k
VAs N (vi) son independientes (intuitivamente: si de un total de n puntos se sabe que ni
estan en vi, las oportunidades para vj , no solapado, son n−ni, ası que las variables N (vi) y
N (vj) son dependientes. Pero ello deja de ser ası si n ni : hay practicamente las mismas
oportunidades para vj antes de fijar los ni en vi que despues).
Basandonos en la construccion precedente hacemos la siguiente
Definicion 4.1. Un proceso aleatorio de puntos N (t) en R es de Poisson de intensidad λ
(numero promedio teorico de puntos por unidad de medida) sı:
1) N (0) = 0 (los sucesos se comienzan a contar a partir del tiempo 0).
2) en cualquier intervalo (a, b] el numero de puntos N(a, b] = N (b) − N (a) es una Va de
Poisson de parametro λ (b− a) (homogeneidad).
3) los numeros de puntos en intervalos no solapados son Vas independientes.
De este simple par de axiomas se concluye una estructura muy rica.
Proposicion 4.5. Si N(a, b] = 1 la posicion del punto en el intervalo es al azar. Esto es,
∀(a1, b1] ⊆ (a, b]
P (N(a1, b1] = 1 | N(a, b] = 1) =b1 − a1
b− a
Demostracion.
P (N(a1, b1] = 1 | N(a, b] = 1) =P (N(a1, b1] = 1, N(a, b] = 1)
P (N(a, b] = 1)
=P (N(a1, b1] = 1, N(a, a1] = 0, N(b1, b] = 0)
P (N(a, b] = 1)
=P (N(a1, b1] = 1)P (N(a, a1] = 0)P (N(b1, b] = 0)
P (N(a, b] = 1)
=e−λ(b1−a1)λ (b1 − a1)× e−λ(a1−a) × e−λ(b−b1)
e−λ(b−a)λ (b− a)=b1 − a1
b− a
donde la tercera igualdad es consecuencia de la independencia y la cuarta de la distribucion
de Poisson en cada intervalo.
100 Capıtulo 4. Modelos principales
Proposicion 4.6. fijado un origen t arbitrario, la distancia al punto mas proximo, o tiempo
de espera, es una Va exponencial de parametro λ, independiente de dicho origen.
Demostracion. Sea X la distancia (desde t) al punto mas proximo (a la derecha). Obte-
nemos su funcion de distribucion:
F (x) = P (X ≤ x) = P (N(t, t+ x] ≥ 1)
= 1− P (N(t, t+ x] = 0)
= 1− exp(−λx) x > 0
ası que X tiene densidad exponencial de parametro λ.
Corolario 4.2. Como t es arbitrario, si se elige en particular en un punto del proceso resulta
que las longitudes de los intervalos entre puntos (los tiempos de espera) X1, X2, ... siguen
la misma ley exponencial de parametro λ. Se prueba ademas que son independientes.
Ası que desde que se inicia la observacion del proceso en t = 0 el tiempo de espera hasta que
se produce el primer punto es una Va X1 exponencial de parametro λ. El tiempo de espera
desde X1 hasta que se produce el siguiente es de nuevo una Va X2 exponencial de parametro
λ independiente de la anterior, etc.
La esperanza del tiempo de espera es (esperanza de la exponencial) E (Xi) = 1/λ y el numero
esperado de puntos por unidad de tiempo es (esperanza de la de Poisson) λ.
Ejemplo 4.7. (Paradoja del tiempo de espera) Suponga que los vehıculos de una red de
transporte urbano llegan a la parada segun un proceso de Poisson con una frecuencia teorica
de 1 cada 15 min. Si llegamos a la parada en un instante arbitrario ¿cual es el tiempo medio
de espera hasta que llegue el proximo vehıculo?
Como λ = 1/15 min−1 los tiempos de espera (intervalos entre vehıculos) son Vas exponen-
ciales independientes de parametro 1/λ = 15 min y la respuesta la da la Proposicion 6: el
tiempo medio de espera hasta que llegue el proximo vehıculo es de 15 min.
Sin embargo la intuicion sugiere que deberıan ser 7.5 min (interpretando instante arbitrario
como al azar en el intervalo medio de 15). La paradoja se deshace si comprendemos que no
todos los intervalos son indenticos al medio y que es mas probable que nuestro instante se
halle en uno largo (que ocupan mas tiempo del proceso) que en uno corto.
La paradoja no es una caracterıstica del proceso de Poisson. Se prueba que si Xi son tiem-
pos de espera independientes con la misma distribucion y se elige un instante arbitrario, la
longitud esperada E (Y ) del intervalo que lo contiene es
E (Y ) = E (X) +V ar (X)
E (X)
4.6. Procesos de Poisson 101
Si los Xi son constantes de valor c es E (X) = c, V ar (X) = 0 y E (Y ) = c: el tiempo de
espera medio es c/2.
Si los Xi son exponenciales es E (X) = 1/λ, V ar (X) = 1/λ2 y E (Y ) = 2/λ: el tiempo de
espera medio es 1/λ.
Proposicion 4.7. Si los tiempos de espera en un proceso de puntos son Vas Xi exponenciales
independientes de parametro λ entonces el proceso es de Poisson de intensidad λ.
Proposicion 4.8. Si Ni (t) son procesos de Poisson independientes de intensidades λi en-
tonces N (t) =∑Ni (t) es un proceso de Poisson de intensidad λ =
∑λi.
Ejemplo 4.8. (Accidentes nucleares)5 El numero de accidentes en el reactor nuclear i
a lo largo del tiempo puede modelizarse como un proceso de Poisson Ni (t) con
P (Ni (t) = x) = e−λt(λt)x
x!x = 0, 1, ...
Si tomamos como unidad de medida un ano, el parametro λ es el numero esperado de acci-
dentes en un reactor en un ano cualquiera
E (Ni (1)) = λ
El numero de accidentes en un parque de n reactores es N (t) =∑n
i=1Ni y es Poisson de
parametro nλ (numero esperado de accidentes en un ano cualquiera en el conjunto de n
reactores).
La estimacion de λ debe basarse en la experiencia historica:
Un calculo del numero de anos de operacion (del total de reactores que han operado u operan
desde 1954) es 15000 anos.
Considerando los accidentes de nivel de gravedad 5 o superior (dano en el nucleo), desde 1954
se han producido 4 accidentes (Chernobil, Three Miles Island, Wind Scale Pille y Fukushima).
Resulta una estimacion de λ para gravedad 5 o superior
λ =4
15000= 2.6667× 10−4 accidentes/ano
Actualmente hay n = 442 reactores de distinta antiguedad y suponiendo constante este nume-
ro (aunque las previsiones indican que puede crecer hasta los 600):
El numero esperado de accidentes graves en los proximos 20 anos es
E (N (20)) = nλt = 442× (4/15000)× 20 = 2.3573
5Thomas Rose. Probability of nuclear accidents. University College, London, 2011
102 Capıtulo 4. Modelos principales
La probabilidad de al menos un accidente grave en los proximos 20 anos es
P (N(20) ≥ 1) = 1− P (N(20) = 0) = 1− e−nλt
= 1− exp (−2.3573) = 0.90532
4.7. Variables relacionadas con la Normal
4.7.1. Lognormal
La Va X es lognormal de parametros µ y σ, lo que denotaremos X ∼ LN(µ, σ), si su densidad
es:
f(x) =1
xσ√
2πexp
[−1
2
(lnx− µ
σ
)2]
x > 0
y se comprueba facilmente que entonces Y = ln(X) es N(µ, σ). Sus esperanza y varianza
son:
E(X) = exp
(µ+
σ2
2
)V ar(X) = exp
(2µ+ σ2
) (exp(σ2)− 1
)Proposicion 4.9. (forma multiplicativa del TCL) Sean Vas Xi cualesquiera, indepen-
dientes e identicamente distribuidas, con E(lnXi) = µ y V ar(lnXi) = σ2. Entonces la Va∏Xi es asintoticamente LN(nµ,
√nσ).
Demostracion. Se sigue de que
ln∏
Xi =∑
lnXi
es asintoticamente N(nµ,√nσ).
Ejemplo 4.9. Consideremos una cantidad inicial µ que se divide aleatoriamente en 2 partes
eligiendo un numero X1 al azar en (0, 1): los tamanos resultantes son µX1 y µ (1−X1)
(observe que 1 − X1 tambien es un numero al azar en (0, 1)). Ahora cada una de ellas
vuelve a dividirse de igual modo: por ejemplo la primera resulta en µX1X2 y µX1 (1−X2).
Despues de n divisiones, el tamano de cualquier fragmento es de la forma µ∏Xi, con las Xi
uniformes en (0, 1). Para n grande la distribucion de dichos tamanos es aproximadamente
lognormal. El modelo es de aplicacion en la teorıa de la fragmentacion de partıculas, donde
interesa la distribucion de las dimensiones de estas.
4.7. Variables relacionadas con la Normal 103
0 5 10 15 200
0.05
0.1
0.15
0.2
0.25
k=3
k=5
k=10
Figura 4.5: Densidades ji-cuadrado.
4.7.2. Ji-cuadrado
Si U ∼ N (0, 1) la densidad de U2 se llama ji-cuadrado de parametro 1 (Capıtulo 2 ejercicio
16).
Proposicion 4.10. Sean Ui ∼ N(0, 1), i = 1, 2, ..., k, independientes. La densidad de X =∑ki=1 U
2i es:
f(x) =1
2k/2Γ(k2 )xk2−1 exp
(−x
2
)x > 0
y se llama ji-cuadrado de parametro k, denotado X ∼ χ2(k).
Demostracion. (Apendice B.2).
Su esperanza y varianza son E(X) = k y V ar(X) = 2k. En la figura 4.7.1 se muestran las
funciones de densidad de X ∼ χ2(k) para tres valores distintos de k.
Corolario 4.3. (reproductividad) si Xi ∼ χ2(ki), i = 1, 2, ..., n y son independientes,
entonces X =∑Xi ∼ χ2(
∑ki).
El calculo de probabilidades con la densidad ji-cuadrado se realiza aproximando numerica-
mente las integrales. Para nuestras aplicaciones nos serviremos de la tabla C.2. En ella se
dan, para algunos valores de α y del parametro k, los cuantiles xα, es decir P (X < xα) = α.
Ejemplo 4.10. (cont. del 4.3) La rapidez de las moleculas es la Va V =√V 2x + V 2
y + V 2z
cuya densidad de probabilidades, llamada de Maxwell, puede deducirse con las tecnicas de la
104 Capıtulo 4. Modelos principales
seccion y es
fV (v) =
√2
π
v2
σ3exp
(−v2/
(2σ2))
v > 0 (σ = kT/m)
El calculo de probabilidades puede hacerse mediante la relacion de su funcion de distribucion
con la χ2 (3):
P (V < v) = P(√
V 2x + V 2
y + V 2z < v
)= P
(V 2x + V 2
y + V 2z < v2
)= P
(V 2x + V 2
y + V 2z
σ2<v2
σ2
)= P
(χ2 (3) <
v2
σ2
)pues Vx/σ ∼ N (0, 1) y V 2
x /σ2 ∼ χ2 (1) y analogamente para las otras componentes que
ademas son independientes.
4.8. Ejercicios propuestos
Secciones 4.1 y 4.2:
1. El voltaje medido en un circuito es una VA X ∼ N(120, 2) V. a) ¿Probabilidad de
que 3 medidas independientes esten en el intervalo (119.4, 121.2)? b) ¿Que lımites
simetricos deben tomarse alrededor de 120 para que incluyan una medida cualquiera
con probabilidad de 0.8?
2. El peso de cierto empaquetado es una VA X ∼ N(150, 1/4), y el intervalo de tolerancia
admitido es (149.2, 150.4). En lotes de 100, ¿cual es el numero promedio de aceptables?
3. Segun el fabricante cierto tipo de cables tiene un lımite de elasticidad X ∼ N (50, 5)
N/mm2. a) ¿Cual es la probabilidad de rotura de un cable si se va a cargar con 40
N/mm2? (o de otra manera: ¿que proporcion de cables tienen un lımite menor que
40?). b) ¿Cual es la carga maxima para que dicha probabilidad sea 0.05?
4. La longitud de ciertas piezas mecanizadas es N(0.9, σ) y los lımites de especificacion
son 0.9 ± 0.005, ¿cual es la desviacion tıpica σ con la que se obtendrıan a la larga 3
defectuosas de 1000?.
En los 3 ejercicios siguientes use la Proposicion 4.2 ( suma de normales independientes).
5. En una edificacion la carga total sustentada por los cimientos es la suma de la carga
de la estructura mas la de ocupacion. Suponiendo que estas son, para cierta clase de
construcciones, Vas independientes, respectivamente X ∼ N(100, 10) e Y ∼ N(40, 10)
(en Tm), ¿para que carga han de disenarse los cimientos, de manera que la probabilidad
de que sea excedida por la carga total sea de 0.01?.
4.8. Ejercicios propuestos 105
6. Una pala carga camiones. El peso de cada palada es una Va W normal de media µW = 3
Tm y desviacion σW = 0.1 Tm. a) Hallar la proporcion de paladas de mas de 3.1 Tm
b) Cada camion recibe n = 10 paladas, cuyo peso total es∑10
i=1Wi. Calcule el valor w
tal que la probabilidad de que el peso total de las 10 paladas sea superior a w es igual
a 0.01.
Seccion 4.3:
En los ejercicios siguientes use el Teorema Central del Lımite para aproximar las pro-
babilidades pedidas.
7. Un examen tipo test tiene 30 preguntas, cada una con 5 respuestas posibles. ¿Cual debe
ser el numero de respuestas acertadas para que la probabilidad de que un ignorante,
eligiendo al azar, las obtenga o supere sea del 0.05?
8. (cont. del ejercicio 19 del Capıtulo 3) Se lanza 36 veces un dado equiprobable. Sea S
la suma de los puntos obtenidos. Aproxime la probabilidad P (|S − 126| < 30).
9. (cont. de los ejercicios 21 y 22 del Capıtulo 3) Hallar aproximadamente la probabilidad
de que el peso∑100
i=1 Zi de un lote de n = 100 varillas sea mayor que 8016 g.
10. El tiempo de vida de cierta clase de baterıas es una Va X con E (X) = 40 h y√V ar (X) = 20 h. Cuando una baterıa falla se reemplaza. Suponiendo que hay un
stock de 25 baterıas, y que sus tiempos de vida Xi son independientes, aproximar con
el TCL la probabilidad de que se consiga superar un tiempo de operacion de 1100 h.
11. El tiempo de vida de cierto componente es una Va X con E (X) = 100 h y√V ar(X) =
30 h. El componente es crıtico para la operacion de un sistema y debe ser reemplazado
inmediatamente cuando falla. ¿cuantos componentes debe haber en stock para que la
probabilidad de que el sistema este operativo durante al menos 10000 h sea del 0.95?
Seccion 4.6:
12. Los clientes llegan a una tienda de acuerdo con un proceso de Poisson de tasa 4 por
hora. a) Si la tienda abre a las 10 ¿cual es la probabilidad de que lleguen 4 o menos
antes de las 11 y 12 o menos antes de las 13? b) ¿Cual es el tiempo esperado entre
llegadas de clientes?
13. (cont. del ejemplo 4.8) Repita los calculos para accidentes de nivel 4 o superior (Cher-
nobil, Three Miles Island, Wind Scale Pille, Fukushima, Kyshtym, Saint Laurent des
Eaux y Tokaimura).
14. Los cristales de cierto mineral aparecen dispersos aleatoriamente en las secciones de
una roca, con una densidad promedio de 7 por dm2 . a) ¿probabilidad de que en una
seccion de 1cm2 no se encuentren cristales? b) ¿probabilidad de que en ninguna de 10
secciones no solapadas de 1 cm2 se encuentren cristales?
106 Capıtulo 4. Modelos principales
15. Sea un proceso de Poisson en el plano de intensidad λ. Situados en un punto arbitrario
(que podrıa ser uno del proceso) se mide la distancia X al mas proximo del proceso.
Encontrar la densidad de X (obtenga primero la funcion de distribucion: X ≤ x si en
el cırculo de radio x hay al menos un punto y tenga en cuenta que el numero de puntos
N (v) en un conjunto v es de Poisson de parametros λ×area(v)).
Seccion 4.7:
En los ejercicios siguientes use la distribucion ji-cuadrado
16. (continuacion del ejercicio 20 del Capıtulo 3) Tomando el valor k = 1.38× 10−23 J K−1
y el valor 0.028 kg mol−1 para la masa molecular del nitrogeno la desviacion tıpica de
las componentes de la velocidad de las moleculas de nitrogeno a T = 300 K resulto
σ =
(kT
m
)1/2
= 298.39 m s−1
Ahora (ejemplo 4.10) si V es la rapidez de las moleculas
P (V < v) = P(√
V 2x + V 2
y + V 2z < v
)= P
(V 2x + V 2
y + V 2z < v2
)= P
(V 2x + V 2
y + V 2z
σ2<v2
σ2
)= P
(χ2 (3) <
v2
σ2
)Calcule el valor v tal que P (V < v) = 0.95
17. (cont.) ¿Para que temperatura T es v = 103 m s−1?
18. Los errores de posicion horizontal X e Y de un GPS son Vas N (0, σ) donde σ mide la
precision del GPS. El error radial es Z =√X2 + Y 2 y se prueba que su distribucion
(llamada de Rayleigh) es
P (Z < z) = 1− exp(−z2/2σ2
)z > 0
Si se fijan z y α, para que sea P (Z < z) = α el GPS tiene que tener una precision σ:
1− exp(−z2/2σ2
)= α→ σ =
z√−2 ln (1− α)
En particular el σ para queP (Z < 5 m) = 0.95 es
P (Z < 5 m) = 0.95→ σ =5√
−2 ln 0.05= 2.0427 m
Obtenga el resultado anterior usando la distribucion ji-cuadrado de Z2/σ2
Capıtulo 5
Estimacion
5.1. El metodo estadıstico
La teorıa de probabilidades estudiada en los capıtulos anteriores se ha desarrollado para
servir de modelo de las regularidades estadısticas que se pueden observar en las sucesiones
de experimentos aleatorios. Nuestro objetivo ahora es aplicar dicha teorıa a problemas de
inferencia estadıstica.
La ciencia progresa por medio de experimentos. El investigador realiza un experimento y
obtiene datos. En base a los datos se extraen conclusiones que se intentan llevar mas alla del
experimento particular: a la clase de todos los experimentos similares. Esta extension de lo
particular a lo general se llama inferencia inductiva, y es como progresa el conocimiento.
En una inferencia inductiva (concluir sobre el todo desde una parte) nunca puede haber
certeza absoluta. Sin embargo si el experimento se realiza de acuerdo con ciertos principios
es posible medir el grado de incertidumbre en terminos de probabilidad. Los ingredientes que
entran en juego son los siguientes:
1. La poblacion es el conjunto de referencia, real o hipotetico, que se investiga.
2. Sobre los individuos de la poblacion hay definida una funcion numerica, o variable, y
se trata de averiguar cuales son las proporciones de sus valores, cual es su valor medio,
etc.
3. Para ello se dispondra de una muestra, es decir, de un subconjunto de individuos de
la poblacion elegidos mediante un procedimiento aleatorio determinado.
4. Por medio de los valores de la variable en la muestra se hara una estimacion de la
magnitud que interesa de la poblacion.
107
108 Capıtulo 5. Estimacion
5. Por ultimo, usando argumentos de la teorıa de probabilidades sera posible medir el
error de la aproximacion (lo que se estudiara en el proximo Capıtulo).
Ejemplo 5.1. En un control de calidad la poblacion consiste en el conjunto de las N piezas
de un lote numeroso de las cuales r = Np son defectuosas e interesa averiguar la fraccion
desconocida (0 < p < 1) de defectuosas. En este caso el procedimiento aleatorio habitual para
construir la muestra es la eleccion al azar y sin reemplazamiento de n piezas del lote. La
muestra ası construida es una Va (X1, X2, ..., Xn) donde Xi es la calidad de la i-esima pieza
(1 si defectuosa y 0 si no). El numero de defectuosas que se obtiene es la Va X =∑n
i=1Xi
con funcion de masa
P (X = x) =
(r
x
)(N − rn− x
)(N
n
) 0 ≤ x ≤ mın (n, r)
y probaremos mas adelante que E (X) = np.
Realizado el experimento resulta la muestra particular (x1, x2, ..., xn) y el total de defectuosas
x =∑n
i=1 xi. La proporcion experimental x/n puede servir para aproximar la teorica r/N
y con mayor seguridad cuanto mayor sea n. El problema sera estudiado con mas detalle en
5.12 y veremos en el proximo capıtulo como es posible medir el error de la aproximacion.
Ejemplo 5.2. Como se sabe, cada medida de una magnitud fısica incorpora un error alea-
torio inevitable. La operacion de medida se describe por el modelo
X = µ+ U
donde µ es el valor desconocido que se mide y U es la variable aleatoria error.
Generalmente vale suponer que U ∼ N(0, σ) (el error se debe a la adicion de un gran numero
de pequenos factores independientes y se aplica el teorema central del lımite), de donde se
sigue que X ∼ N(µ, σ). El que E(U) = 0 indica que las medidas son exactas (no hay error
sistematico). Ademas cuanto menor sea σ mayor es la precision.
En el enfoque estadıstico la poblacion en este caso es hipotetica e infinita. Las n medidas xi
(realizadas independientemente en las mismas condiciones experimentales) son otras tantas
observaciones de Vas Xi independientes y con la misma distribucion. Se conviene en una
situacion como esta que la poblacion coincide con (o esta descrita por) la variable aleatoria
X. La magnitud poblacional a estimar es µ, promedio teorico de X. Y una posible estimacion
es el promedio experimental de n medidas particulares independientes (x1, x2, ..., xn):
x =1
n
n∑i=1
xi
5.2. Muestra aleatoria simple. Estadısticos 109
que converge a E(X) = µ si n → ∞. Tambien veremos mas adelante como acotar el error
de aproximacion cualquiera que sea el n utilizado.
En el primer ejemplo la aleatoriedad se introduce deliberadamente, por medio del muestreo1.
En el segundo es intrınseca a la poblacion.
Sea como sea, el resultado es que en cada problema de Estadıstica tratamos con un conjunto
de variables aleatorias (X1, X2, ..., Xn) que miden el valor de la propiedad de interes en cada
individuo de la poblacion que forma parte de la muestra. Y que con el valor observado de
alguna funcion adecuada de la muestra realizamos la aproximacion.
Es muy importante darse cuenta enseguida de que:
1. en la practica dispondremos de un n finito, eventualmente pequeno, lo que hace im-
prescindible acotar el error de las aproximaciones.
2. el valor numerico de cada aproximacion depende de los valores particulares (x1, x2,
...xn) y estos cambian de muestra a muestra (son realizaciones de la variable aleatoria
(X1, X2, ..., Xn)). Ası pues, el valor numerico de cada aproximacion es, a su vez, una
realizacion de una variable aleatoria.
3. estudiando esta variable aleatoria (su esperanza, su varianza, ...) es como se hallara la
solucion al problema planteado en el punto 1.
5.2. Muestra aleatoria simple. Estadısticos
El problema estadıstico mas general es el descrito en el ejemplo 5.2: un experimento aleatorio
en el que se mide una Va X realizado n veces independientemente. La Va puede ser discreta
o continua y su distribucion de probabilidades de forma conocida pero desconocidos sus
parametros, o completamente desconocida.
Definicion 5.1. (muestra aleatoria simple) Sea una variable aleatoria X con densidad,
o masa, f(x). Si el experimento en el que se mide X se realiza n veces independientemente
(o lo que es igual, se realizan n experimentos identicos e independientes), se obtienen n
variables aleatorias independientes Xi con la misma f (x) que la X. Se llama muestra
aleatoria simple de X a (X1, X2, ..., Xn).
En lo que sigue consideraremos siempre, salvo que se indique lo contrario, este tipo de
muestra. Observese que, en particular, E (Xi) = E (X) y V ar (Xi) = V ar (X).
1Esto es lo que podemos llamar el metodo estadıstico.
110 Capıtulo 5. Estimacion
Una vez realizadas las n observaciones se tienen n numeros, sea (x1, x2, ..., xn), que se llaman
la muestra, a secas.
Ejemplo 5.3. En el ejemplo 5.2 las medidas (X1, X2, ..., Xn) constituyen una muestra alea-
toria de tamano n de la variable aleatoria X ∼ N(µ, σ) cuyos parametros son desconocidos.
Cada Xi ∼ N(µ, σ) y ademas son independientes.
La muestra (X1, X2, ..., Xn) del ejemplo 1 no es una muestra aleatoria simple, pues las Vas Xi
no son independientes obviamente. Para que lo fuese habrıa que haber realizado el muestreo
con reemplazamiento.
Definicion 5.2. (estadıstico) Sea una muestra aleatoria (X1, X2, ..., Xn) de una Va X. Se
llama estadıstico a cualquier Va T = g(X1, X2, ..., Xn) definida como funcion de la muestra
y que no incluya ningun parametro desconocido.
En definitiva con cada muestra (x1, x2, ..., xn) se puede calcular el numero t = g(x1, x2, ..., xn).
Sin embargo estos numeros cambian de muestra a muestra: son realizaciones de la Va T , cuya
ley de probabilidades depende de la de X, de g y de n.
Ejemplo 5.4. En el ejemplo 5.2 cada elemento Xi de la muestra aleatoria (X1, X2, ..., Xn)
tiene densidad N (µ, σ). El estadıstico X = 1n
∑Xi tiene una densidad tambien normal (pues
es una combinacion lineal de normales independientes; ver proposicion 4.2), de parametros
µ y σ/√n . Y el numero x es el valor del estadıstico en la muestra particular.
Dos estadısticos importantes son la media y la varianza de la muestra, que se definen a
continuacion.
5.3. La media muestral
Definicion 5.3. Sea X cualquiera, con E (X) = µ y V ar (X) = σ2, y sea (X1, X2, ..., Xn)
una muestra aleatoria. El estadıstico 1n
∑ni=1Xi se llama la media muestral y se denota
X:
X =1
n
n∑i=1
Xi
Proposicion 5.1.
E(X)
= µ
V ar(X)
=σ2
n
5.4. La varianza muestral 111
Demostracion. Como la esperanza de una suma es la suma de las esperanzas:
E(X)
= E
(1
n
n∑i=1
Xi
)=
1
n
n∑i=1
E (Xi) = µ
Y como la varianza de una suma de variables independientes es la suma de las varianzas:
V ar(X)
= V ar
(1
n
n∑i=1
Xi
)=
1
n2
n∑i=1
V ar (Xi) =σ2
n
5.4. La varianza muestral
Definicion 5.4. Sea una muestra (X1, X2, ...Xn) de una variable aleatoria X cualquiera,
con E(X) = µ y V ar(X) = σ2. El estadıstico 1n−1
∑ni=1
(Xi −X
)2se llama la varianza
muestral y se denota S2:
S2 =1
n− 1
n∑i=1
(Xi −X
)2La desviacion tıpica muestral es
S =
√√√√ 1
n− 1
n∑i=1
(Xi −X
)2Una expresion alternativa que puede ser util para el calculo de la varianza muestral es
1
n− 1
n∑i=1
(Xi −X
)2=
1
n− 1
[n∑i=1
X2i + n
(X)2 − 2X
n∑i=1
Xi
]
=1
n− 1
[n∑i=1
X2i − n
(X)2]
=1
n− 1
[n∑i=1
X2i −
1
n
(∑Xi
)2].
Aunque hay que utilizarla con precaucion porque puede dar lugar a resultados erroneos si los
dos numeros de la ultima diferencia son muy grandes y desbordan la precision del procesador.
Un caso particular interesante es aquel en el queX solo toma los valores 0 o 1 con P (X = 1) =
p y P (X = 0) = 1 − p (X representa la frecuencia relativa de unos en la muestra con
E(X)
= E (X) = p). En en este caso Xi = X2i y, entonces
n∑i=1
X2i =
n∑i=1
Xi = nX.
112 Capıtulo 5. Estimacion
Con lo que la varianza muestral se puede escribir:
S2 =1
n− 1
n∑i=1
(Xi −X
)2=
1
n− 1
[n∑i=1
X2i − n
(X)2]
=1
n− 1
[nX − n
(X)2]
=n
n− 1X(1−X
)(5.1)
Proposicion 5.2.
E(S2)
= σ2
V ar(S2) =E(
(X − µ)4)
n− n− 3
n(n− 1)σ4
Demostracion. Se probara solamente la primera.
E(S2)
= E
(1
n− 1
(n∑i=1
X2i − nX
2
))=
1
n− 1
(n∑i=1
E(X2i
)− nE
(X
2))
=1
n− 1
(n∑i=1
(V ar (Xi) + (E (Xi))
2)− n
(V ar
(X)
+(E(X))2))
=1
n− 1
(nσ2 + nµ2 − nσ
2
n− nµ2
)= σ2
5.5. Convergencia en probabilidad
La distribucion de probabilidades de un estadıstico depende de:
1. la distribucion de la variable X que se muestrea.
2. la forma del estadıstico (la funcion g de la muestra).
3. el tamano n de la muestra.
La deduccion de su distribucion se hace en general con las tecnicas del cambio de variable del
Capıtulo 2 y tendremos necesidad mas adelante de referirnos a importantes casos particulares.
Nos interesa ahora estudiar como cambia esa distribucion en muchos estadısticos (como X
y S2 por ejemplo) cuando n→∞.
Para enfatizar que estudiamos su dependencia de n (es decir n variable y todo lo demas
fijo) escribiremos (solamente cuando se analice el comportamiento de los estadısticos cuando
n→∞) Xn y S2n.
5.5. Convergencia en probabilidad 113
Para cualquier variable aleatoria Z con esperanza E (Z) y varianza V ar (Z) la acotacion de
Tchebychev es (ver 3.7):
P (|Z − E (Z)| < ε) ≥ 1− V ar (Z)
ε2∀ε > 0
Apliquemoslo en particular a la sucesion Xn, para la que hemos hallado que
E(Xn
)= µ
V ar(Xn
)=
σ2
n
donde con µ y σ2 hemos denotado la esperanza y varianza de la poblacion X muestreada:
P(∣∣Xn − µ
∣∣ < ε)≥ 1− σ2
nε2∀ε > 0
y entonces
lımn→∞
P(∣∣Xn − µ
∣∣ < ε)
= 1 ∀ε > 0
resultado que se enuncia: la sucesion de medias muestrales converge en probabilidad2 a
µ.
Ası que, cualquiera que sea la variable X muestreada, la distribucion de Xn se concentra mas
y mas alrededor de µ a medida que se aumenta n. Esto aclara el comportamiento empırico
de los valores de Xn con n creciente y se justifica su uso en la aproximacion de µ.
Ejemplo 5.5. Si X es de Bernoulli de parametro p entonces X representa la frecuencia
relativa de unos en la muestra con E(Xn
)= E (X) = p, y V ar
(Xn
)= V ar (X) /n =
p (1− p) /n.
P(∣∣Xn − p
∣∣ < ε)≥ 1− p (1− p)
nε2∀ε > 0
y por lo tanto
lımn→∞
P(∣∣Xn − p
∣∣ < ε)
= 1 ∀ε > 0
que aclara el comportamiento empırico de la frecuencia relativa como aproximacion de una
probabilidad.
Otro ejemplo es el de la varianza muestral S2n, para la cual E
(S2n
)= σ2 y V ar
(S2n
)→ 0 si
n→∞ (Proposicion 5.2). Ası que
lımn→∞
P(∣∣S2
n − σ2∣∣ < ε
)= 1 ∀ε > 0
y la sucesion de varianzas muestrales converge en probabilidad a V ar(X) = σ2, lo que
justifica el uso de S2n para la aproximacion experimental de σ2.
2Como se comento en 3.2, la Ley fuerte de los grandes numeros de Borel y Kolmogorov asegura que
P(lımn→∞Xn = µ
)= 1, lo que implica ya la convergencia en probabilidad.
114 Capıtulo 5. Estimacion
Teorema 5.1. (de la aplicacion continua) se prueba que si la sucesion Zn converge a
c en probabilidad, y si g (·) es continua en c, entonces la sucesion g(Zn) converge a g(c) en
probabilidad.
Ejemplo 5.6. La desviacion tıpica de la muestra
Sn =√S2n =
√√√√ 1
n− 1
n∑i=1
(Xi −Xn
)2converge en probabilidad a la desviacion tıpica de la variable muestreada σ =
√V ar (X).
Ejemplo 5.7. El tiempo de vida X de un nucleo radioactivo tiene densidad exponencial
f (x) = λ exp(−λx) x > 0
y como Xn = 1n
∑ni=1Xi converge en probabilidad a E (X) = 1/λ (vida media teorica de un
nucleo), entonces1
Xn
=n∑ni=1Xi
converge en probabilidad a λ (numero promedio de nucleos que decaen en la unidad de tiem-
po).
5.6. Estimadores
Sea una Va X en estudio, cuya ley de probabilidades (masa o densidad) suponemos de forma
conocida pero desconocido alguno de sus parametros θ (p si binomial; µ y σ si normal,.. etc.)
y denotaremos3 f(x | θ). Nos interesa hallar, a partir de una muestra de observaciones de
X, un valor aproximado de θ.
Definicion 5.5. Sea (X1, X2, ..., Xn) una muestra aleatoria de X. Un estimador puntual
de θ es un estadıstico T = g(X1, X2, ..., Xn) cuyo valor en una muestra se usara como
aproximacion de θ. La Va T − θ es el error de estimacion. Cada valor particular t =
g(x1, x2, ..., xn) se llama una estimacion de θ y con ella se cometera un error t−θ de valor
desconocido.
El problema de la estimacion puntual de un parametro consiste en elegir el estimador que
mejor aproxime, en un sentido a precisar, el valor desconocido de θ. En general, cuanto
mas concentrada este la ley de probabilidades del error T − θ en torno a cero (es decir,
la de T en torno a θ) mejor sera el estimador. A este proposito estudiamos ahora algunas
propiedades que nos ayuden en la eleccion. Por ultimo estudiaremos metodos de construccion
de estimadores.3La notacion no debe entenderse como condicional: solo enfatiza que depende del parametro.
5.7. Sesgo de un estimador 115
5.7. Sesgo de un estimador
Definicion 5.6. El estimador T es insesgado para el parametro θ si E (T − θ) = 0, lo que
equivale a E(T ) = θ.
Cuando E (T − θ) = b, es decir E(T ) = θ + b, el estimador es sesgado, y la cantidad b se
llama el sesgo.
Ejemplo 5.8. Cualquiera que sea la ley f de X, los estimadores X y S2 son siempre insesga-
dos para E(X) y V ar(X) respectivamente (interpretando ahora estos como los “parametros”
a estimar).
Ejemplo 5.9. En particular: Si X es de Bernoulli, es decir, con funcion de masa f (x) =
px (1− p)1−x para x ∈ 0, 1, X es insesgado para E(X) = p. Si X tiene densidad exponen-
cial de parametro λ entonces X es insesgado para E(X) = 1/λ. Si X tiene densidad normal
de parametros µ y σ, entonces X es insesgado para E(X) = µ y S2 para V ar(X) = σ2.
Si el estimador tiene sesgo positivo (negativo) las estimaciones sobreestiman (infraestiman)
en promedio el valor del parametro.
No siempre existen estimadores insesgados para un parametro, y cuando existen no tienen
por que ser unicos.
Ejemplo 5.10. Si T1 y T2 son insesgados para θ, tambien lo son T = αT1 + (1 − α)T2,
∀α ∈ R, pues
E (T ) = αE (T1) + (1− α)E (T2)
= αθ + (1− α) θ = θ
En ocasiones se buscara un estimador para una funcion h (θ) de θ, por ejemplo θ2 o√θ: Si
T es insesgado para θ, en general h(T ) no lo es para h(θ).
Ejemplo 5.11. Cualquiera que sea X con E(X) = µ y V ar(X) = σ2, aunque X es insesgado
para µ sin embargo(X)2
es sesgado para µ2, pues
E((X)2)
=(E(X))2
+ V ar(X)
= µ2 +σ2
n
y el sesgo vale σ2/n. Un estimador insesgado de µ2 es evidentemente
(X)2 − S2
n
116 Capıtulo 5. Estimacion
Ejemplo 5.12. Cualquiera que sea X el estimador S2 es insesgado para V ar(X) = σ2. Pero
S (la desviacion tıpica de la muestra) es sesgado para σ (la desviacion tıpica de X). De:
V ar (S) = E(S2)− (E (S))2 > 0
resulta
(E (S))2 < E(S2)
y entonces
E (S) <√E (S2) = σ
Es decir, S infraestima σ (tiene sesgo negativo).
Ejemplo 5.13. Si X tiene densidad exponencial de parametro λ
f (x) = λ exp (−λx) x > 0
entonces X es insesgado para E(X) = 1/λ, pero 1/X es sesgado para λ. Efectivamente, se
prueba que en este caso
E
(1
X
)=
n
n− 1λ
Es decir, 1X
sobreestima λ (tiene sesgo positivo).
Un estimador insesgado de λ es entoncesn− 1
n
1
X.
5.8. Varianza de un estimador
La propiedad de ser insesgado no es determinante, por si sola, para la eleccion de un esti-
mador: expresa la ausencia de errores sistematicos. Sin embargo, la magnitud de los valores
particulares del error T − θ pudiera ser excesiva. Una medida promedio de dicha magnitud
es la siguiente.
Definicion 5.7. Se llama error cuadratico medio del estimador T a:
E((T − θ)2
)= V ar(T − θ) + (E(T − θ))2
= V ar(T ) + b2
Cuando el estimador es insesgado tal cantidad es V ar(T ).
Ante un estimador insesgado de gran error cuadratico y otro ligeramente sesgado de pequeno
error cuadratico pudiera ser preferible el segundo: a la larga las estimaciones estarıan mas
concentradas en un entorno de θ.
Ante dos estimadores insesgados se preferira el de menor varianza. Sin embargo, a tamano
de muestra n fijado, hay una cota inferior para la varianza de los estimadores insesgados de
un parametro:
5.8. Varianza de un estimador 117
Teorema 5.2 (Cota de Frechet-Cramer-Rao). Sea X con densidad o masa f(x | θ) tal
que el conjunto C = x ∈ R : f(x | θ) > 0 (es decir, el conjunto de valores posibles, o
recorrido, de X) es independiente de θ. Sea T cualquier estimador insesgado de m (θ), es
decir, E (T ) = m (θ). Entonces
V ar (T ) ≥ (m′ (θ))2
nI (θ)
donde
I(θ) = E
((∂
∂θln f(X | θ)
)2)
Demostracion. Ver Complementos.
Corolario 5.1. Si T es insesgado de θ, es decir m (θ) = θ, queda
V ar(T ) ≥ 1
nI(θ)
Nota: una expresion alternativa es
I(θ) = −E(∂2
∂θ2 ln f(X | θ))
Observar que f(X | θ) es la Va que resulta de transformar la X con la funcion f . Se llama
a nI (θ) la cantidad de informacion (de Fisher) en la muestra (X1, X2..., Xn) para el
parametro θ.
Proposicion 5.3. Si existe un estimador insesgado cuya varianza alcance la cota se prueba
que es unico, y se llama eficiente.
Demostracion. ver Complementos.
Ejemplo 5.14. Estudiemos la cota para los estimadores insesgados de µ cuando X es
N(µ, σ).
f(x | µ) =1
σ√
2πexp
[−1
2
(x− µσ
)2]
ln f(x | µ) = − ln(σ√
2π)− 1
2
(x− µσ
)2
∂
∂µln f(x | µ) =
x− µσ2
I(µ) = E
((X − µσ2
)2)
=1
σ4
(E (X − µ)2
)=
1
σ2
y la varianza de cualquier estimador T insesgado de µ, es V ar(T ) ≥ σ2/n. Resulta ası que
X, insesgado de E(X) = µ y cuya varianza es V ar(X)/n = σ2/n, alcanza la cota cuando
X es normal.
118 Capıtulo 5. Estimacion
Ejemplo 5.15. Estudiemos la cota para los estimadores insesgados de p cuando X es de
Bernoulli.
f(x | p) = px(1− p)1−x x = 0, 1
ln f(x | p) = x ln p+ (1− x) ln(1− p)∂
∂pln f(x | p) =
x
p− (1− x)
1− p=
x− pp (1− p)
I (p) = E
((∂
∂pln f(X)
)2)
=E(
(X − p)2)
[p (1− p)]2
=V ar (X)
[p (1− p)]2=
p (1− p)[p (1− p)]2
=1
p (1− p)
y la varianza de cualquier estimador T insesgado de p es V ar (T ) ≥ p(1 − p)/n. Resulta
ası que X, insesgado de E (X) = p y cuya varianza es V ar (X) /n = p (1− p) /n, alcanza la
cota cuando X es de Bernoulli.
5.9. Estimadores consistentes
Particularizamos ahora el estudio de la Seccion 5.5 (Convergencia en probabilidad) a una
sucesion de estimadores. Como allı, para enfatizar que estudiamos su dependencia de n (es
decir n variable y todo lo demas fijo) escribiremos Tn.
Definicion 5.8. La sucesion de estimadores Tn es consistente para θ si converge en pro-
babilidad a θ, es decir:
lımn−→∞
P (|Tn − θ| < ε) = 1 ∀ε > 0
En 5.5 se comprobo que una condicion suficiente para ello es que E(Tn) = θ (insesgado) y
V ar(Tn)→ 0 cuando n→∞.
Ejemplo 5.16. Xn es consistente para E(X) = µ cualquiera que sea X. Pues E(Xn
)= µ
y V ar(Xn
)= σ2/n→ 0
Ejemplo 5.17. En particular, si X es de Bernoulli entonces Xn (la frecuencia relativa) es
consistente para la probabilidad p.
Ejemplo 5.18. S2n es consistente para V ar(X) = σ2 cualquiera que sea X. Pues E(S2
n) = σ2
y V ar(S2n)→ 0 si n→∞.
Ejemplo 5.19. (cont. del 5.13) Si X tiene densidad exponencial de parametro λ entonces
Tn =n− 1
n
1
Xn
es insesgado para λ. Se prueba que
V ar
(1
Xn
)=
n2
(n− 1)2 (n− 2)λ2
5.9. Estimadores consistentes 119
y entonces
V ar
(n− 1
n
1
Xn
)=
λ2
n− 2
y resulta que Tn es consistente para λ.
Un estimador sesgado puede ser insesgado en el lımite:
Definicion 5.9. La sucesion de estimadores Tn es asintoticamente insesgada para θ si:
lımn−→∞
E(Tn) = θ
Ejemplo 5.20. Cualquiera que sea X con E(X) = µ y V ar(X) = σ2 el estimador(Xn
)2es asintoticamente insesgado para µ2, pues
E((Xn
)2)= µ2 +
σ2
n→ µ2 cuando n→∞
Recordemos (Definicion 5.7) que el error cuadratico medio de un estimador se descompone
en el sesgo y la varianza
E((Tn − θ)2
)= V ar(Tn) + b2n
(donde bn es el sesgo, dependiente de n) y de aquı se deduce que:
Proposicion 5.4.
lımn→∞
E(
(Tn − θ)2)
= 0
equivale a
lımn→∞
bn = 0
lımn→∞
V ar(Tn) = 0
Proposicion 5.5. Una condicion suficiente para que Tn sea consistente para θ es que sea
asintoticamente insesgado y V ar(Tn)→ 0 cuando n→∞.
Demostracion. Para cualquier variable aleatoria no negativa Z de esperanza E (Z) la
acotacion de Markov (seccion 3.7) es
P (Z < ε) ≥ 1− E (Z)
ε2∀ε > 0
y eligiendo Z = |Tn − θ|
P (|Tn − θ| < ε) ≥ 1− E (|Tn − θ|)ε2
→ 1 si n→∞
pues E (|Tn − θ|) ≤ E(|Tn − θ|2
)= bn + V ar (Tn)→ 0.
Ejemplo 5.21. (cont.) El estimador(Xn
)2es consistente para µ2, pues es asintoticamen-
te insesgado y se prueba que V ar((Xn
)2) → 0. Ello se concluye tambien de que Xn es
consistente para µ y g (u) = u2 es continua (Teorema 5.1).
120 Capıtulo 5. Estimacion
5.10. El metodo de maxima verosimilitud
Sea una Va X con densidad o masa f(x | θ) de forma conocida, que depende de un parametro
desconocido θ ∈ Θ ⊆ R, y sea x ≡ (x1, x2, ..., xn) la muestra observada. La densidad o masa
de probabilidad que le corresponde a x es (por la independencia)
f(x | θ) =∏
f(xi | θ)
aunque no podemos calcular su valor pues desconocemos el de θ. Desde el punto de vista
del problema de estimacion la consideraremos como una funcion de θ en la que los xi de la
muestra son numeros fijados.
Definicion 5.10. Se llama funcion de verosimilitud a la funcion
L(θ | x) =∏
f(xi | θ) θ ∈ Θ
Definicion 5.11. El metodo de maxima verosimilitud (abrev. MV) consiste en elegir
como estimacion de θ, el θ ∈ Θ tal que
L(θ | x
)= max
θ∈ΘL(θ | x)
Intuitivamente el metodo elige como estimacion el valor del parametro que da mayor proba-
bilidad a la muestra observada. Como es natural el valor de la estimacion es una funcion de
los numeros de la muestra, es decir θ = g (x).
Ejemplo 5.22. Sea una Va de Bernoulli, es decir con funcion de masa f (x | p) = px (1− p)1−x
para x = 0, 1 y donde p ∈ (0, 1). Si se ha obtenido la muestra x = (1110101110), su proba-
bilidad es L (p | x) = [f (1 | p)]7 [f (0 | p)]3 = p7 (1− p)3, que es maxima para p = g(x) = 0.7
(ver figura 5.10).
En el muestreo resulta un estimador T = g (X), donde X ≡ (X1, X2, ..., Xn), llamado de
MV y cuyas propiedades estudiaremos en una seccion posterior.
En la practica, al estar definida L como un producto, suele ser mas comodo maximizar lnL,
ya que al ser el logaritmo una funcion monotona, alcanza sus valores extremos en los mismos
puntos que L: θ = arg maxθ∈Θ L (θ | x)=arg maxθ∈Θ lnL (θ | x). Por lo tanto, habitualmente,
la forma mas comoda de obtener θ es resolviendo el siguiente problema de optimizacion:
lnL(θ | x
)= max
θ∈ΘlnL(θ | (x1, x2, ..., xn))
Si L es diferenciable, el maximo, si existe, sera una solucion θ de
∂
∂θlnL(θ | x) = 0
5.10. El metodo de maxima verosimilitud 121
0 0.2 0.4 0.6 0.7 0.8 1 0
0.5
1
1.5
2
2.5x 10
−3
p
L(p)
Figura 5.1: Dibujo de la funcion de verosimilitud L (p | x) = p7 (1− p)3 (ejemplo 5.22). La
funcion determina la probabilidad del resultado observado para diferentes valores de p
si ademas (∂2
∂θ2 lnL(θ | x)
)θ=θ
< 0
Ejemplo 5.23. Si X es de Bernoulli, con funcion de masa f (x | p) = px (1− p)1−x para
x ∈ 0, 1, y p ∈ (0, 1)
L(p | x) =∏
pxi(1− p)1−xi
= p∑xi(1− p)n−
∑xi
lnL(p | x) =∑
xi ln p+(n−
∑xi
)ln(1− p)
∂
∂plnL(p | x) =
1
p
∑xi −
1
1− p
(n−
∑xi
)=
nx
p− n (1− x)
1− p= 0
Si x = 0 o x = 1 (si todos los xi fuesen iguales a 0 o a 1, lo que no es imposible) no hay
solucion. En otro caso la solucion es
p = x
(frecuencia relativa de “exitos” en la muestra) que corresponde a un maximo, pues
∂2
∂p2lnL = −nx
p2− n (1− x)
(1− p)2 < 0 ∀p
El estimador es X.
122 Capıtulo 5. Estimacion
Ejemplo 5.24. Sea X con densidad exponencial f (x | λ) = λ exp (−λx) para x > 0 (con
λ > 0). Obtengamos el estimador MV de λ.
L(λ | x) =∏
λ exp (−λxi)
= λn exp(−λ∑
xi
)d lnL (λ | x)
dλ=n
λ−∑
xi = 0
cuya solucion es
λ =n∑xi
=1
x
que corresponde a un maximo pues
d2 lnL (λ)
dλ2 = − n
λ2 < 0 ∀λ
El estimador es 1/X, que es sesgado (ejemplo 5.13).
En ocasiones para resolver el problema de optimizacion hay que recurrir a otros argumentos:
Ejemplo 5.25. Sea X con densidad uniforme f(x | θ) = 1/θ (0 < x < θ). La verosimilitud
es L(θ | x) = (1/θ)n y alcanza su maximo cuando θ es mınimo. Pero θ no puede ser menor
que la mayor observacion de la muestra, ası que θ = max(x1, x2, ..., xn). El estimador es
max(X1, X2, ..., Xn).
Teorema 5.3 (invariacion). Sea una funcion cualquiera h : Θ −→ R. Si T es el estimador
MV de θ, entonces h(T ) lo es de h(θ).
Ejemplo 5.26. Si X es de Bernoulli el estimador MV de E (X) = p es X. Entonces el de
V ar(X) = p(1− p) es X(1−X).
Mientras que X es insesgado para p, X(1−X) es sesgado para p (1− p):
E(X(1−X)
)=n− 1
np (1− p)
Como n−1n < 1 resulta que X(1−X) infraestima p (1− p). El estimador corregido para que
sea insesgado es nn−1X(1−X).
Ejemplo 5.27. Si X tiene densidad exponencial de parametro λ, el estimador MV de λ es
1/X y el de E (X) = 1/λ es X.
Mientras que X es insesgado para 1/λ, 1/X es sesgado para λ (ejemplo 5.13). El estimador
corregido esn− 1
n
1
X.
5.10. El metodo de maxima verosimilitud 123
En los ejemplos se ve que los estimadores MV no tienen por que ser insesgados. Naturalmente
usaremos el estimador corregido cuando sea posible.
Se prueba que el estimador eficiente, si existe, coincide con el de maxima verosimilitud.
Tambien se puede demostrar4 que los estimadores MV son consistentes.
5.10.1. Generalizacion
Si la densidad o masa f(x | θ) de X depende de un numero finito de parametros desconocidos
θ = (θ1, θ2, ..., θk) ∈ Θ ⊆ Rk se ha de hallar el θ ∈ Θ tal que
lnL(θ | x
)= max
θ∈ΘlnL(θ | x)
Si L es diferenciable, el maximo, si existe, satisfara el sistema de ecuaciones (que puede no
ser lineal y deba resolverse numericamente):
∂
∂θjlnL(θ | x) = 0 j = 1, 2, ..., k
Una solucion θ de dicho sistema correspondera a un maximo si la matriz hessiana
H =
(∂2
∂θi∂θjlnL(θ | x)
)k×k
particularizada en θ =θ es definida negativa.
Ejemplo 5.28. Sea X normal N(µ, σ) siendo ambos parametros desconocidos.
L(µ, σ | x) =1(
σ√
2π)n exp
[− 1
2σ2
∑(xi − µ)2
]lnL(µ, σ | x) = −n lnσ − n ln
√2π − 1
2σ2
∑(xi − µ)2
igualando a cero la derivadas primeras resulta el sistema
∂
∂µlnL =
1
σ2
∑(xi − µ) = 0
∂
∂σlnL = −n
σ+
1
σ3
∑(xi − µ)2 = 0
con solucion
µ = x
σ =
√1
n
∑(xi − x)2
4Para ello han de satisfacerse una serie de condiciones muy generales entre las cuales una es que el recorrido
de X (es decir, el conjunto de valores x tales que f (x | θ) > 0) no dependa de θ. No se cumple para la X del
ejemplo 5.25
124 Capıtulo 5. Estimacion
Para comprobar que corresponde a un maximo formamos la matriz hessiana
H =
∂2
∂µ2lnL
∂2
∂µ∂σlnL
∂2
∂µ∂σlnL
∂2
∂σ2lnL
=
− n
σ2
−2∑
(xi − µ)
σ3
−2∑
(xi − µ)
σ3
1
σ2
(n− 3
σ2
∑(xi − µ)2
)
y particularizando (µ, σ) en (µ, σ):
H =
−n2∑
(xi − x)20
0−2n2∑(xi − x)2
y como h11 < 0 y detH > 0 (una matriz es definida negativa si los menores principales
alternan en signo, con signo negativo si la dimension es impar y positivo si par) la solucion
corresponde a un maximo.
Ejemplo 5.29. (cont.) En este problema la solucion puede hallarse de un modo mas directo.
Cualquiera que sea el valor de σ, el valor de µ que hace maximo
lnL(µ, σ | x) = −n lnσ − n ln√
2π − 1
2σ2
∑(xi − µ)2
es el que hace mınimo a ∑(xi − µ)2
resultando (igualando a cero la derivada primera) µ = x. Ahora el valor de σ que hace
maximo
lnL(σ | x) = −n lnσ − n ln√
2π − 1
2σ2
∑(xi − x)2
se obtiene igualando a cero la derivada pimera respecto de σ.
Teorema 5.4. Sea θ ≡ (θ1, θ2, ..., θk) ∈ Θ ⊆ Rk y una funcion cualquiera h : Θ → Rj
(1 ≤ j ≤ k). Si T ≡ (T1, T2, ..., Tk) es el estimador MV de θ entonces h (T) lo es de h (θ)
5.11. El metodo de los momentos
Se llama a mk ≡ E(Xk)
el momento teorico de orden k de la Va X. Si (X1, X2, ..., Xn)
es una muestra aleatoria de X se llama a
Ak =1
n
n∑i=1
(Xi)k
el momento muestral de orden k.
Proposicion 5.6. Los momentos muestrales son estimadores 1) insesgados y 2) consistentes
para los teoricos, 3) con distribucion asıntoticamente normal.
5.11. El metodo de los momentos 125
Demostracion. 1) Insesgados:
E (Ak) = E
(1
n
n∑i=1
(Xi)k
)=
1
n
n∑i=1
E (Xi)k = mk
2) Consistentes: si las Xi son independientes tambien lo son las (Xi)k y
V ar (Ak) = V ar
(1
n
n∑i=1
(Xi)k
)=
1
n2
n∑i=1
V ar(
(Xi)k)
=1
n2n
(E(X2k
)−(E(Xk))2
)=
m2k −m2k
n→ 0 si n→∞
3) Como Ak es una combinacion lineal de Vas independientes con igual distribucion se aplica
el teorema central del lımite.
Definicion 5.12. El estimador por el metodo de los momentos de cualquier funcion
h(m1,m2, ...,mk) es h (A1, A2, ..., Ak).
De que los Ak sean insesgados para los mk no se sigue naturalmente que el estimador sea
insesgado. Sin embargo se prueba el siguiente teorema:
Teorema 5.5. Si h : Rk −→ R es una funcion continua, entonces h (A1, A2, ..., Ak) es un
estimador consistente de h(m1,m2, ...,mk), con distribucion asintoticamente normal.
Veamos la implementacion del metodo:
Con una muestra particular (x1, x2, ..., xn) se obtiene una estimacion h (a1, a2, ..., ak) donde
ak =1
n
n∑i=1
(xi)k
y en particular a1 = x y a2 = 1n
∑(xi)
2.
Entonces, si X es cualquiera, la estimacion de µ = E(X) es µ = x y la estimacion de
σ2 = V ar(X) = E(X2)− (E(X))2 = h (m1,m2)
es
σ2 = h (a1, a2) =1
n
∑(xi)
2 − (x)2 =1
n
∑(xi − x)2
Si la funcion de masa o densidad de la Va X depende de un parametro θ, para obtener una
estimacion θ:
126 Capıtulo 5. Estimacion
1. se calcula E (X) = g (θ)
2. se resuelve θ = g−1 (E (X))
3. se hace θ = g−1 (x)
Ejemplo 5.30. Si X tiene densidad f (x) = λ exp (−λx) entonces E (X) = 1/λ. Resolviendo
se obtiene λ = 1/E (X) y finalmente λ = 1/x.
Si la funcion de masa o densidad de la Va X depende de 2 parametros θ1 y θ2 :
1. se calcula E (X) = g1 (θ1, θ2) y V ar (X) = g2 (θ1, θ2)
2. se resuelve (supuesta solucion unica) θ1 = h1 (E (X) , V ar (X)) y θ2 = h2 (E (X) , V ar (X))
3. se hace θ1 = h1
(x, n−1
∑(xi − x)2
)y θ2 = h2
(x, n−1
∑(xi − x)2
)Ejemplo 5.31. Si X tiene densidad uniforme en (a, b) es E(X) = (a + b)/2 y V ar(X) =
(b−a)2/12. De aquı resulta que a = E(X)−√
3V ar(X) y b = E(X)+√
3V ar(X). Entonces:
a = x−√
3
n
∑(xi − x)2
b = x+
√3
n
∑(xi − x)2
La generalizacion a mas de 2 parametros es obvia.
Estos estimadores pueden servir tambien para tener un valor inicial en la busqueda del
estimador de maxima verosimilitud cuando el problema de optimizacion ha de resolverse por
metodos numericos
5.12. Muestreo sin reemplazamiento
Cuando se muestrea una poblacion finita de tamano N el muestreo suele hacerse sin reem-
plazamiento lo que resulta en que la muestra (X1, X2, ..., Xn) no es simple: sus elementos Xi
no son independientes y, en general, no tienen igual distribucion.
Sea como sea todas las definiciones y principios de estimacion que se han estudiado antes
siguen vigentes y lo unico que cambia es el modo de calcularlos, que era muy sencillo y
general cuando las Xi eran independientes y con identica distribucion, y que ahora hay que
resolver cada vez.
5.12. Muestreo sin reemplazamiento 127
Ejemplo 5.32. (Control de calidad) Cada una de las N piezas de un lote numeroso es
defectuosa o no (anotado con 1 y 0 respectivamente). En total hay r = Np defectuosas e
interesa averiguar la fraccion desconocida (0 < p < 1) de defectuosas. Se eligen n piezas al
azar y sin reemplazamiento resultando la muestra (X1, X2, ..., Xn) donde Xi es la calidad
de la i-esima pieza.
Obviamente las Xi no son independientes. Sin embargo sus distribuciones marginales son
identicas.
P (X1 = 1) = p
P (X2 = 1) = P (X2 = 1 | X1 = 0)P (X1 = 0) + P (X2 = 1 | X1 = 1)P (X1 = 1)
=r
N − 1
N − rN
+r − 1
N − 1
r
N
=Nr − r
(N − 1)N=
r
N= p
y por induccion P (Xi = 1) = p.
Consideremos el estadıstico X =∑n
i=1Xi, numero total de defectuosas obtenidas. En-
tonces
E (X) =∑
E (Xi) = np
(como en la binomial), aunque las Xi no son independientes.
Por lo tanto un estimador insesgado de p es la proporcion experimental
Tp =X
n
y un estimador insesgado de r es
Tr =X
nN
Por su parte la estimacion MV de r es el entero r que maximiza
P (X = x) =
(r
x
)(N − rn− x
)(N
n
) 0 ≤ x ≤ mın(n, r)
es decir que maximiza (r
x
)(N − rn− x
)y se prueba que resulta como estimador el mayor entero menor o igual que
X
n(N + 1)
que es sesgado.
128 Capıtulo 5. Estimacion
Las varianzas de dichos estimadores se calculan a partir de que
V ar (X) = np (1− p)(
1− n− 1
N − 1
)que ademas si n N vale aproximadamente np (1− p).
Ejemplo 5.33. (El problema de los tanques alemanes) Consideremos una poblacion
cuyo tamano N (numero de elementos) es desconocido y ha de ser estimado. Suponemos
ademas que cada individuo esta identificado por un numero, desde el 1 hasta el N . Se eli-
gen n individuos al azar y sin reemplazamiento (X1, X2, ..., Xn). Cada Xi es el numero de
identificacion del individuo seleccionado.
Como en el anterior ejemplo, obviamente la Xi no son independientes y sin embargo sus
distribuciones marginales son identicas.
P (X1 = k) =1
Nk = 1, 2, ...N
P (X2 = k) =
N∑j=1
P (X2 = k | X1 = j)P (Y1 = j)
=N∑j=1j 6=k
P (X2 = k | X1 = j)P (X1 = j)
=N∑j=1j 6=k
1
N − 1
1
N=
1
N
y por induccion P (Xi = k) = 1/N .
Consideremos el estadıstico X(n) = max (X1, X2, ..., Xn). Se prueba (ver Complementos) que
E(X(n)
)= n
N + 1
n+ 1
y entonces un estimador insesgado de N es
TN =n+ 1
nX(n) − 1
Se prueba ademas que su varianza (mınima) es
V ar (TN ) =1
n
(N − n) (N + 1)
n+ 2
Puede probarse que el estimador MV de N es X(n) y por lo tanto es sesgado.
5.13. Ejercicios propuestos 129
El problema se conoce en la literatura estadıstica como el problema de los tanques ale-
manes debido a su aplicacion para estimar cuantos estaban produciendo durante la segunda
guerra mundial:
Segun las informaciones del espionaje aliado los alemanes estaban produciendo unos 1400
tanques al mes entre junio de 1940 y septiembre de 1942. Sin embargo usando el estimador
TN con los numeros de serie de las cajas de cambio de los tanques capturados o destruidos
el numero estimado era 256 al mes. Despues de la guerra, cuando se obtuvieron los datos
reales de produccion, el numero resulto ser 255 (los sovieticos habıan llegado por su parte a
una estimacion similar).
5.13. Ejercicios propuestos
Secciones 5.3 y 5.4:
1. Xm y Xn son las medias de muestras independientes de tamanos m y n de una Va X.
Construya con ellas la media de la muestra total de tamano m+ n.
2. En la muestra (x1, x2, ..., xn) de la Va discreta X han aparecido los valores distin-
tos (a1, a2, ..., ak) cada uno repetido (n1, n2, ..., nk) veces respectivamente (obviamente∑ki=1 ni = n). Expresar x y s2 por medio de la muestra agrupada.
3. El numero de defectos en probetas de 1 cm2 de cierta aleacion es una variable aleatoria
X. Se examinan 20 probetas en busca de defectos, con los resultados
defectos 0 1 2 3 4 5 6
probetas 4 3 5 2 4 1 1 = 20
a) calcule la media y la desviacion tıpica de la muestra. b) en otra muestra de 10
probetas resulto x = 1.4 defectos/cm2. calcule la media de la muestra total de 30
probetas.
Secciones 5.7 y 5.8:
4. Cada medida del radio r de un cırculo es de la forma X = r + U , donde U es la
variable aleatoria error de medida, con E(U) = 0 y V ar(U) = σ2 desconocida. Entonces
un estimador insesgado de r es X, construido a partir de n medidas independientes.
Construya un estimador insesgado del area del cırculo (vea el ejemplo 5.11).
5. Sean T1 y T2 estimadores independientes insesgados de θ. Entonces (ver ejemplo 10)
T = αT1 + (1− α)T2 es tambien insesgado ∀α. Hallar α para que V ar (T ) sea mınima
si V ar (T1) = σ21 y V ar (T2) = σ2
2 (los estimadores tienen diferente precision).
130 Capıtulo 5. Estimacion
6. (cont.) Particularice para el caso en que T1 ≡ Xm y T2 ≡ Xn (medias muestrales de
tamanos m y n de una poblacion X con E (X) = µ y V ar (X) = σ2.
Seccion 5.9:
7. El metodo de Montecarlo. Si g (x) es integrable Riemann
I =
∫ 1
0g (x) dx = lım
n→∞
1
n
n∑k=1
g
(k
n
)Es decir, se usa una particion del [0, 1] en n de longitud 1/n (a saber [0, 1/n], [1/n, 2/n],
... [(n− 1) /n, 1]) y se evalua la funcion en los extremos derechos. Por lo tanto, si n es
suficientemente grande∫ 1
0g (x) dx ≈ 1
n
n∑k=1
g
(k
n
)=
1
n
n∑k=1
g (xk)
e I se aproxima por un promedio de g en n puntos xk = k/n equiespaciados.
Vamos a construir ahora una aproximacion estadıstica de I, es decir, un estimador:
para ello elegiremos los puntos (x1, x2, ..., xn) de la particion como una muestra de
una variable aleatoria X con densidad uniforme en (0, 1). El estimador (llamado de
Montecarlo) es
T =1
n
n∑k=1
g (Xk)
donde Xk son variables aleatorias independientes con densidad uniforme en (0, 1). Com-
pruebe que el estimador es insesgado y consistente para I.
8. (cont.) Construya un estimador de Montecarlo para
I =
∫ π/2
0sin (x) dx
(sugerencia: cambie primero la integral al (0, 1)).
Secciones 5.10 y 5.11:
9. Si X ∼ N(µ, σ) el estimador de MV y momentos de σ2 es 1n
∑ni=1
(Xi −X
)2. Com-
pruebe que es sesgado y corrıjalo.
10. La resistencia a la rotura de cierto tipo de cables de acero, expresada en Kg, se su-
pone que es una VA X ∼ N(µ, σ). Una muestra de 5 cables ha dado los valores
(533, 552, 539, 564, 541). Obtenga las estimaciones MV de µ y σ.
11. Sea una Va X geometrica de parametro p. Su funcion de masa es
f(x) = (1− p)x−1p x = 1, 2, ...
y se prueba que E(X) = p−1. Hallar los estimadores MV de p y de E(X) (periodo de
retorno) a partir de una muestra de tamano n.
5.13. Ejercicios propuestos 131
12. Sea una Va X de Poisson de parametro λ. Su funcion de masa es
f(x) = e−λλx
x!x = 0, 1, ...
y se prueba que E(X) = V ar(X) = λ. Hallar el estimador MV de λ con una muestra
de tamano n y comprobar que su varianza alcanza la cota FCR.
13. En cierto proceso industrial el numero de paradas mensuales por averıa es una Va de
Poisson de parametro λ. Si X representa el numero de paradas en un mes, el coste
provocado es C = 3X+X2. Hallar el estimador MV del coste promedio E (C) a partir
de n observaciones independientes de X, comprobar que es sesgado y corregirlo para
que sea insesgado.
14. El intervalo de tiempo entre llegadas sucesivas de vehıculos a una parada (tiempo de
espera) tiene densidad exponencial de parametro λ. En una muestra de n = 10 valores
de X ha resultado un tiempo total∑xi = 30.4 min. Hallar las estimaciones de MV
(corregidas para el sesgo si es preciso) de E (X) y de λ.
15. Si X tiene densidad exponencial f(x) = λ exp(−λx) si x > 0, el estimador MV de
E(X) = 1/λ con una muestra de tamano n es X. Obtenga el estimador MV de
V ar(X) = 1/λ2, compruebe que es sesgado y corrija su sesgo.
16. La variable X tiene una funcion de distribucion F (x) = 1 − exp(− x2
2σ2
)x > 0
(de Rayleigh) y su esperanza es E (X) = σ√
π2 . a) Halle la estimacion de maxima
verosimilitud de σ con una muestra (x1, x2, ..., xn) . b) halle la estimacion de maxima
verosimilitud de E (X) c) halle la estimaciones de σ y E (X) por el metodo de los
momentos d) Calcule las estimaciones anteriores con la muestra (2.5, 3.5, 2.1, 5.6, 2.2,
2.6, 3.1, 4.5, 3.5, 1.4).
17. Una Va gamma de parametros θ y λ tiene densidad
f(x) =λθ
Γ(θ)xθ−1e−λx x > 0
y su esperanza y varianza son
E(X) =θ
λ
V ar(X) =θ
λ2
No hay un solucion explıcita para las estimaciones MV de los parametros, que deben
obtenerse numericamente. Estımelos por el metodo de los momentos a partir de la
muestra (22.60, 8.59, 28.91, 10.96, 10.63, 14.33, 23.06, 12.66, 15.05, 11.14, 19.50, 9.95).
132 Capıtulo 5. Estimacion
18. El control de recepcion de ciertas piezas se realiza clasificandolas en pequenas, normales
y grandes, siendo las proporciones aceptables en cada caso p1 = p3 = 0.025, p2 = 0.95
. Se sospecha que estas proporciones pueden haber cambiado en la forma p1 = p3 =
0.025 + ω, p2 = 0.95 − 2ω. Se decide analizar 5000 piezas obteniendose x1 = 278,
x2 = 4428 y x3 = 294. Obtener la estimacion MV de ω. (sugerencia: maximice la
probabilidad de la muestra observada).
19. La duracion X, en horas, de ciertos componentes sigue una densidad exponencial de
parametro λ. De una muestra aleatoria de 10 componentes se sabe que 6 duraron
menos de 85 h y 4 mas. a) Obtener la estimacion MV de la vida media. b) idem para
la P (X > 100). (sugerencia: maximice la probabilidad de la muestra observada).
Ejercicios complementarios:
20. Sea una muestra aleatoria (X1, X2, ..., Xn) de una Va X con f desconocida. Se desea
estimar E(X) y para ello vamos a utilizar deliberadamente un estimador de la forma
T =∑λiXi. Halle los λi que hacen el estimador insesgado y de varianza mınima.
(sugerencia: minimice la varianza sujeta a la condicion de insesgamiento usando los
multiplicadores de Lagrange).
21. Sea X ∼ N (µ, 1). En una muestra de n valores de X se sabe que en m de ellos
resulto X < 0 y en n−m resulto X > 0. Hallar la estimacion MV de µ Particularizar
si n = 10 y m = 6
22. Invariacion funcional Sea X con densidad f (x | θ) y sea Y = g (X) con g monotona
y que no depende de θ. Entonces (ver (2.19)) la densidad de Y es
fY (y | θ) =∣∣∣(g−1
)′(y)∣∣∣ fX(g−1(y) | θ)
y resulta que la funcion de verosimilitud de Y solo se diferencia de la de X por el factor∣∣∣(g−1)′
(y)∣∣∣: la estimacion de MV de θ es la misma con la muestra de X que con la de
Y .
Si Y ∼ LN(µ, σ) (lognormal de parametros µ y σ), es decir X = lnY ∼ N(µ, σ). La
densidad de Y es
f(y) =1
yσ√
2πexp
(−(ln y − µ)2
2σ2
)y > 0
y se prueba que
E(Y ) = exp(µ+ σ2/2)
V ar(Y ) = exp(2µ+ σ2)(expσ2 − 1)
Halle los estimadores MV de E (Y ) y V ar (Y ) a partir de una muestra (Y1, Y2, ..., Yn)
aplicando las propiedades de invariacion anterior y teorema 5.
Capıtulo 6
Intervalos. Pruebas de hipotesis
6.1. Intervalos de confianza
Un estimador T de un parametro desconocido θ proporciona al calcularlo con la muestra
particular un valor aproximado t, pero no da informacion sobre el error |t− θ|. Una solucion
a este problema son los intervalos de confianza.
Definicion 6.1. Sea una Va X con densidad f(x | θ) siendo el parametro θ desconocido. Si
T1 y T2 son estadısticos tales que:
P (T1 < θ < T2) = 1− α
se llama a (T1, T2) un intervalo aleatorio para θ de probabilidad 1 1− α.
Cada realizacion (t1, t2) con una muestra particular se llama un intervalo para θ de con-
fianza 1− α.
Diferentes muestras produciran diferentes realizaciones (t1, t2) y, a la larga, en el 100 (1− α) %
de los intervalos ası construidos se realizara el suceso θ ∈ (T1, T2).
Antes de obtener la muestra y calcular el valor del intervalo hay una probabilidad 1 − αde que incluya a θ, pero despues de obtener la muestra, (t1, t2) incluira o no a θ, lo que
nos sera desconocido, y expresaremos nuestra conviccion al respecto diciendo que hay una
confianza 1−α de que lo incluya. Un intervalo sera tanto mas provechoso cuanto mayor sea
1− α y menor longitud tenga.
Definicion 6.2. (Metodo Pivotal) El metodo para construir intervalos de confianza que
1Denotar la probabilidad con 1− α en lugar de con una unica letra, como α o p tiene una ventaja que se
apreciara mas adelante cuando se presenten las pruebas de hipotesis.
133
134 Capıtulo 6. Intervalos. Pruebas de hipotesis
vamos a usar, llamado pivotal, se basa en una variable aleatoria (llamada pivote) adecuada
a cada problema, sea g (T, θ), tal que:
1) es una funcion de un estadıstico T y de θ.
2) en cuanto funcion de θ es continua y monotona.
3) su distribucion de probabilidades es completamente conocida (no depende de θ).
Entonces fijado 1 − α (generalmente 0.95 o 0.99) pueden calcularse con dicha distribucion
numeros a y b tales que
P (a < g (T, θ) < b) = 1− α
y de aquı, “despejando” θ, lo que es posible ya que g es biunıvoca respecto de θ, resultara un
intervalo
P (T1 < θ < T2) = 1− α
En general habra infinitos (a, b) que contengan probabilidad 1−α, y generalmente se elige el
que da
P (g (T, θ) < a) = P (g (T, θ) > b) =α
2
Ejemplo 6.1. Si X ∼ N (µ, σ) y σ es conocida entonces
g(X,µ
)=X − µσ/√n
es una variable pivote, pues es monotona en µ y con distribucion N (0, 1). Fijado 1 − α se
conoce el numero u1−α/2 tal que Φ(u1−α/2
)= 1− α/2 y Φ
(−u1−α/2
)= α/2 y
P
(−u1−α/2 <
X − µσ/√n< u1−α/2
)= 1− α (6.1)
y “despejando” µ
P
(+u1−α/2 >
−X + µ
σ/√n
> −u1−α/2
)= P
(X + u1−α/2
σ√n> µ > X − u1−α/2
σ√n
)pues al multiplicar por −1 la desigualdad cambia de sentido. Reescribiendo la ultima en el
orden natural
P
(X − u1−α/2
σ√n< µ < X + u1−α/2
σ√n
)= 1− α
Aquı(X ± u1−α/2
σ√n
)es un intervalo aleatorio para µ: a la larga el 100 (1− α) % de sus
valores(x± u1−α/2
σ√n
)calculados con diferentes muestras realizaran el suceso (incluiran a
µ). Ahora, si en una muestra particular se obtiene el valor x diremos que
µ ∈(x± u1−α/2
σ√n
)con una confianza del 100 (1− α) %.
6.2. Intervalos para la normal 135
Ejemplo 6.2. Si, por ejemplo, X ∼ N (µ, 3) y la muestra es (1.2, 3.4, 0.6, 5.6) entonces
x = 2.7 y si elegimos 1− α = 0.95 es u1−α/2 = u0.975 = 1.96 y
µ ∈(
2.7± 1.96× 3√4
)= (−0.24, 5.64)
con una confianza del 95 %.
Si se desea aumentar la confianza al 99 %, es decir 1−α = 0.99, es u1−α/2 = u0.995 = 2.58 y
µ ∈(
2.7± 2.58× 3√4
)= (−1.17, 6.57)
con una confianza del 99 %.
Tambien puede interesar calcular un lımite inferior o superior para θ (o intervalos unilaterales,
mientras que los anteriores son bilaterales):
Definicion 6.3. Si T es un estadıstico tal que
P (T < θ) = 1− α
T es un lımite inferior para θ de probabilidad 1 − α. Cada realizacion t es un lımite
inferior para θ de confianza 1− α.
Y si
P (θ < T ) = 1− α
T es un lımite superior para θ de probabilidad 1 − α. Cada realizacion t es un lımite
superior para θ de confianza 1− α.
El calculo se hara como en el caso bilateral mediante la variable pivote.
Ejemplo 6.3. (cont.) un lımite superior de confianza 1 − α para µ es evidentemente µ <
x+ u1−ασ√n
. Si se elige 1− α = 0.95, es u0.95 ≈ 1.64 y con la muestra del ejemplo 2 resulta
2.7 + 1.64 3√4
= 5.16 concluyendose que µ < 5.16 con una confianza del 95 %.
6.2. Intervalos para la normal
6.2.1. Intervalos para µ
Como ya se sabe (ejemplo 6.1) una variable pivote para µ cuando σ es conocida es
X − µσ/√n∼ N (0, 1)
136 Capıtulo 6. Intervalos. Pruebas de hipotesis
y el intervalo de confianza 1− α para µ resulta(x± u1−α/2
σ√n
)
Sin embargo, cuando σ es desconocida, el intervalo anterior es inutil pues no se puede
calcular su valor. La idea natural es modificar la variable pivote sustituyendo el σ desconocido
por su estimador S (la desviacion tıpica muestral) y la consecuencia es (ver Complementos)
que la nueva variable, que ya no es N (0, 1), sin embargo tambien tiene una densidad de
probabilidad completamente conocida, llamada t de Student de parametro (n− 1)
X − µS/√n∼ t (n− 1)
Para nuestro proposito basta saber que las densidades de Student dependen de un parametro
k, sea f (t | k), y tienen forma simetrica alrededor del origen, con maximo en 0 y decreciendo
asintoticamente para t = ±∞, tanto mas rapidamente cuanto mayor sea k. Ademas
lımk→∞
f(t | k) =1√2πe−
12t2
es decir, la densidad normal de media 0 y varianza 1. El calculo de probabilidades con la t
de Student se realiza aproximando numericamente las integrales. Para nuestras aplicaciones
nos serviremos de la tabla C.3 en la que se dan, para algunos valores de α y del parametro
k, los cuantiles tα, es decir P (T < tα) = α; tengase en cuenta ademas que, de la simetrıa
respecto al origen, P (T < t) = 1− P (T < −t).
Fijada una probabilidad 1− α se conoce entonces el cuantil t1−α/2 tal que
P
(−t1−α/2 <
X − µS/√n< t1−α/2
)= 1− α (6.2)
y “despejando” µ (ejemplo 1) queda
P
(X − t1−α/2
S√n< µ < X + t1−α/2
S√n
)= 1− α
Ahora, si en una muestra particular se obtienen los valores x de X y s de S, un intervalo de
confianza 1− α para µ es 2 3 (x± t1−α/2
s√n
)2Muchos de estos intervalos estan recogidos en las Normas Industriales. Por ejemplo este para µ corresponde
a la UNE 66040:2003 (ISO 2602:1980)
3En Metrologıa (ver p.e. www.cem.es y The NIST Reference on Constants, Units and Uncertainty
www.nist.gov) la notacion habitual es simplemente: (x± s/√n) U.
6.2. Intervalos para la normal 137
−5 0 50
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
N(0,1)
Student(5)
Figura 6.1: Densidades Student(5) y N(0, 1)
Analogamente se obtienen los lımites superior e inferior
µ < x+ t1−αs√n
µ > x− t1−αs√n
Ejemplo 6.4. Se dispone de la muestra (18, 22, 21, 23, 21, 22, 21, 21, 18, 19) de medidas de la
concentracion de arsenico en µg/L en un agua para consumo. Aceptando valido un modelo
X ∼ N (µ, σ), construyamos un intervalo de confianza 1− α = 0.95 para µ.
La estimacion del valor medio µ es
x =1
n
∑xi =
206
10= 20.6 µg /L
la estimacion de σ2 es
s2 =1
n− 1
∑(xi − x)2 =
1
n− 1
(∑x2i −
1
n
(∑xi
)2)
=1
9
(4270− 1
10× 2062
)= 2.9333
y la de σ
s =√
2.9333 = 1.7127 µg /L
En la distribucion de Student de parametro n− 1 = 9 es t1−α/2 = t0.975 = 2.2622, ası que
t1−α/2s√n
= 2.2622× 1.7127√10
= 1.2252
138 Capıtulo 6. Intervalos. Pruebas de hipotesis
es decir, con una confianza del 95 %
µ ∈ (20.6± 1.23) µg /L
Ejemplo 6.5. (cont) Obtengamos ahora un lımite superior. Con 1− α = 0.95 en la distri-
bucion de Student de parametro n− 1 = 9 es t1−α = t0.95 = 1.8331, ası que
x+ t1−αs√n
= 20.6 + 1.8331× 1.7127√10
= 21.593
es decir, con una confianza del 95 % es
µ < 21.6 µg /L
6.2.2. Tamanos de muestra
En el caso σ conocida la formula (6.1) puede reescribirse
P
(∣∣X − µ∣∣ < u1−α/2σ√n
)= 1− α
mostrando que
ε = u1−α/2σ√n
es una cota del error de aproximacion∣∣X − µ∣∣. Es decir, con confianza 1−α el error cometido
al aproximar µ por x es inferior a ε.
Es sencillo ahora responder a: ¿que tamano n de muestra hay que utilizar para, con confianza
1− α, aproximar µ con un error menor que ε dado?
ε = u1−α/2σ√n→ n =
(u1−α/2
σ
ε
)2
Ejemplo 6.6. (cont. del 6.2) Con X ∼ N (µ, 3) y la muestra de tamano 4 se estimo µ
por x = 2.7 con una cota de error ε = 1.96 3√4
= 2.94 para la confianza del 95 %, es decir
µ ∈ (2.7± 2.94) con dicha confianza. Si se deseamos aproximar con una cota ε = 1.5 se
necesita utilizar una muestra de tamano
n =
(1.96
3
1.5
)2
= 15.3664
es decir, la media x de una muestra de 16 observaciones aproximara µ con un error menor
que 1.5 y confianza del 95 %.
Sin embargo en el caso σ desconocida hay que utilizar la formula (6.2), que puede reescribirse:
P
(∣∣X − µ∣∣ < t1−α/2S√n
)= 1− α
6.2. Intervalos para la normal 139
y la cota del error de estimacion
ε = t1−α/2S√n
es aleatoria (depende de los valores de la muestra). Sin embargo en la practica, si se trabaja
con muestras relativamente grandes 4: 1) los valores de S seran a su vez relativamente
estables (recuerdese que S converge en probabilidad a σ) y, basandose en la experiencia
previa o en una muestra piloto, se tendra una idea de su orden de magnitud, digamos un
valor aproximado s0. 2) Y como ademas entonces t1−α/2 → u1−α/2 se tiene que el tamano n
de muestra que hay que utilizar para, con confianza 1− α, aproximar µ con un error menor
que ε dado es del orden de
n =(u1−α/2
s0
ε
)2
6.2.3. Intervalos para σ
Sea S2 la varianza muestral, estimador de σ2. Una variable pivote, con densidad ji-cuadrado
de parametro (n− 1) es (ver Complementos):
(n− 1)S2
σ2∼ χ2 (n− 1)
Fijada una probabilidad 1 − α se conocen los cuantiles χ2α/2 y χ2
1−α/2 (las densidades ji-
cuadrado no son simetricas) tales que
P
(χ2α/2 <
(n− 1)S2
σ2< χ2
1−α/2
)= 1− α
y “despejando” σ
P
(1
χ2α/2
>σ2
(n− 1)S2>
1
χ21−α/2
)= P
(S
√n− 1
χ2α/2
> σ > S
√n− 1
χ21−α/2
)
pues al tomar el recıproco la desigualdad cambia de sentido. Reescribiendo la ultima en el
orden natural
P
(S
√n− 1
χ21−α/2
< σ < S
√n− 1
χ2α/2
)= 1− α
Ahora, si en la muestra particular se obtiene el valor s de S, un intervalo de confianza 1−αpara σ es (
s
√n− 1
χ21−α/2
, s
√n− 1
χ2α/2
)4Este argumento se utiliza en los llamados metodos de Monte-Carlo.
140 Capıtulo 6. Intervalos. Pruebas de hipotesis
Ejemplo 6.7. (cont. del 6.4) la estimacion de σ resulto
s = 1.7127 µg /L
Con 1− α = 0.95 en la distribucion ji-cuadrado de parametro n− 1 = 9 es χ2α/2 = χ2
0.025 =
2.7004 y χ21−α/2 = χ2
0.975 = 19.0228
s
√n− 1
χ21−α/2
= 1.7127×√
9
19.0228= 1.1781
s
√n− 1
χ2α/2
= 1.7127×√
9
2.7004= 3.1267
es decir, con una confianza del 95 %
σ ∈ (1.18, 3.13) µg /L
Analogamente se obtienen los lımites inferior y superior que resultan ser
σ > s
√n− 1
χ21−α
σ < s
√n− 1
χ2α
Ejemplo 6.8. (cont.) Con 1−α = 0.95 en la distribucion ji-cuadrado de parametro n−1 = 9
es χ2α = χ2
0.05 = 3.3251
s
√n− 1
χ2α
= 1.7127×√
9
3.3251= 1.645
es decir, con una confianza del 95 %
σ < 1.65 µg /L
6.3. Intervalos asintoticos
Una variable pivote para E (X) = µ si el tamano de muestra es suficientemente
grande puede obtenerse por cualquiera de los dos argumentos siguientes:
1 Basados en el Teorema Central del Lımite (no parametricos):
Cualquiera que sea la ley de X (conocida o no), con E(X) = µ y V ar (X) = σ2, segun el
teorema 4.1 es ∑Xi − nµσ√n
=X − µσ/√n→ N(0, 1) si n→∞
6.3. Intervalos asintoticos 141
Puede probarse 5 que si la σ, generalmente desconocida, se sustituye por cualquier estimador
T que converja en probabilidad a σ, la convergencia a la N (0, 1) sigue siendo cierta. Ası que
X − µT/√n→ N(0, 1) si n→∞
es una variable pivote para µ. El intervalo de probabilidad 1−α para µ tiene la forma general:(X ± u1−α/2
T√n
)Ejemplo 6.9. En particular, cualquiera que sea X, la desviacion tıpica muestral S converge
en probabilidad a σ (ejemplo 5.6) y (X ± u1−α/2
S√n
)es un intervalo de probabilidad 1− α para E (X) = µ.
Ejemplo 6.10. Si X es de Poisson de parametro λ es E (X) = V ar (X) = λ (ver 4.5), es
decir, con la notacion de arriba µ ≡ λ y σ ≡√λ y por lo tanto
X − λ√λ/n
→ N(0, 1) si n→∞
y ahora podemos sustituir el σ ≡√λ por cualquier estimador que converja en probabilidad a√
λ y el mas eficiente (mejor que S) es√X de manera que
X − λ√X/n
→ N(0, 1) si n→∞
y X ± u1−α/2
√X
n
es un intervalo de probabilidad 1− α para λ.
2 Basados en el estimador MV (parametricos):
En condiciones muy generales (vease la nota de la Seccion 5.10 relativa a la consistencia de
los estimadores MV) se prueba el siguiente teorema:
Teorema 6.1. Sea Tn el estimador MV del parametro θ para un tamano de muestra n. La
funcion de distribucion deTn − θ√
1
nI(θ)
5En virtud del llamado lema de Slutsky.
142 Capıtulo 6. Intervalos. Pruebas de hipotesis
converge, cuando n −→ ∞, a la N(0, 1). El resultado anterior vale aun si se sustituye I(θ)
por un estimador consistente TI de I(θ). De forma que:
Tn − θ√1
nTI
converge, cuando n −→∞, a la N(0, 1).
Corolario 6.1. La variable aleatoriaTn − θ√
1
nTI
es una variable pivote para θ. En consecuencia un intervalo de probabilidad 1 − α para θ
tiene la forma general: (Tn ± u1−α/2
√1
nTI
)Ejemplo 6.11. Si X es de Bernoulli, el estimador MV de p es X e I (p) = [p(1− p)]−1
(ejemplo 5.15). Entonces:
X − p√p(1− p)/n
−→ N(0, 1) si n −→∞
Y aun, como el estimador MV de I(p) es TI =[X(1−X)
]−1:
X − p√X(1−X)/n
−→ N(0, 1) si n −→∞
Entonces X ± u1−α/2
√X(1−X)
n
(6.3)
es un intervalo de probabilidad 1− α para p.
Ejemplo 6.12. Si X es N(µ, σ), el estimador MV de µ es X e I (µ) = 1σ2 (ejemplo 5.14).
Entonces:X − µσ/√n−→ N(0, 1) si n −→∞
Y aun, como el estimador MV de I(µ) es TI = 1S2 :
X − µS/√n−→ N(0, 1) si n −→∞
Entonces el intervalo de probabilidad 1− α para µ tiene la forma:(X ± u1−α/2
S√n
)Intervalo identico al obtenido en el ejemplo 6.9
6.4. Intervalos para p 143
6.4. Intervalos para p
Si X ∼ B(1, p), es decir P (X = 1) = p y P (X = 0) = 1 − p, con E (X) = p y V ar (X) =
p (1− p), y (X1, X2, ..., Xn) una muestra aleatoria simple, el estimador MV de p es X, que
ademas es insesgado y eficiente. Para construir un intervalo de confianza para p, cualquiera
que sea el valor de n, no existe en este caso una Va pivote y es preciso recurrir a un metodo
mas general 6. Nosotros nos conformaremos con la solucion aproximada, valida para n→∞,
obtenida en el ejemplo 6.11. Solucion aproximada que tiene gran valor practico como veremos
en la proxima subseccion.
Observese, por otro lado, que el intervalo obtenido en el ejemplo 6.11 tambien se puede
obtener basandose en el Teorema Central del Lımite. La variable pivote en este caso serıa:
X − µS/√n≡ X − p√
X(1−X)/n→ N(0, 1) si n→∞
ya que (ver 5.1)
S =
√n
n− 1X(1−X
)≈√X(1−X
)si n→∞
y el intervalo de probabilidad 1− α para p es 7:(X ± u1−α/2
√X(1−X)/n
), (6.4)
que coincide con (6.3).
Como ya se dijo en 4.4 en la practica suele aceptarse que la aproximacion es suficiente en
cuanto mınnp, n(1 − p) > 10, de modo que el caso mas favorable se tiene cuanto mas
proximo sea p a 1/2.
La semilongitud del intervalo resultante
ε = u1−α/2
√X(1−X
)/n (6.5)
es aleatoria. Sin embargo el mayor valor que puede tomarX(1−X
)es 0.25 (cuandoX = 0.5)
ası que, para tener una semilongitud no mayor que ε0 dada se necesita
n =
(u1−α/2
ε0
)2
0.25
(Ademas habra de ser suficientemente grande como para que valga la aproximacion que
justifica el intervalo).
Ejemplo 6.13. con 1 − α = 0.95 es u0.975 = 1.96, si queremos ε ≤ 0.02 resulta n =
(1.96/0.02)2 0.25 = 2401 y si ε ≤ 0.01 resulta n = (1.96/0.01)2 0.25 = 9604.
6Llamado de Clopper y Pearson.7Es posible aun incluir una correccion de continuidad como se vio en 4.4 restando y sumando 1/ (2n) a los
lımites inferior y superior respectivamente.
144 Capıtulo 6. Intervalos. Pruebas de hipotesis
6.4.1. Aplicacion al muestreo de poblaciones finitas
Sea una poblacion de N individuos de los cuales Np son de cierta clase (0 < p < 1 es su
fraccion desconocida). Para estimar p tomaremos una muestra (X1, X2, ..., Xn) sin reem-
plazamiento. Cada Xi vale 1 si el individuo seleccionado es de la clase de interes y 0 en
otro caso. Una estimador insesgado de p es (ver ejemplo 5.32) la proporcion experimental
X =∑Xi/n.
Ahora deseamos construir un intervalo de confianza para p y veremos que para ello se puede
utilizar, bajo ciertas condiciones, el resultado de la seccion precedente 8.
Dicho resultado se aplica a una muestra aleatoria (X1, X2, ..., Xn) en la que P (Xi = 1) = p y
las Xi son independientes (muestra aleatoria simple; la distribucion de∑Xi es binomial).
Estas condiciones se verificarıan si la muestra se hubiese tomado con reemplazamiento
(cada individuo se devuelve a la poblacion para la siguiente extraccion).
Sin embargo en la muestra sin reemplazamiento, aunque sigue siendo cierto que P (Xi = 1) =
p, las Xi no son independientes (ahora la distribucion de∑Xi es hipergeometrica). En
particular las probabilidades condicionales no son iguales a la incondicionales (como exige la
independencia):
P
(Xk+1 = 1 |
k∑i=1
xi
)=Np−
∑ki=1 xi
N − k
Sin embargo, con n fija
Np−∑k
i=1 xiN − k
=p−
∑ki=1 xi/N
1− k/N→ p si N →∞
Ası que en esas condiciones (n << N ; en la practica se usa en cuanto n < 0.1N) las Xi
son practicamente independientes 9. Si ademas n es suficientemente grande este argumento
justifica el uso del intervalo (6.4) para p cuando se muestrea sin reemplazamiento una po-
blacion finita, sea para estimar la calidad de un lote de piezas, sea para realizar un sondeo
de opinion.
Ejemplo 6.14. la mayor parte de los sondeos se realizan con 1 − α = 0.95 y entonces
u1−α/2 = u0.975 = 1.96, y si se encuestan n = 1000 personas el error es menor que (caso
peor de (6.5) con X = 0.5)
ε = 1.96
√0.25
1000= 0.031
8Un intervalo exacto para p, cualquiera que sean los valores de n y N , puede construirse con el metodo de
Clopper y Pearson para la hipergeometrica.9De otra manera: en estas condiciones la funcion de masa hipergeometrica converge a la funcion de masa
binomial.
6.5. Intervalos de tolerancia para la normal 145
aproximadamente del 3 %. Observese que ello es independiente del tamano N >> n de la
poblacion investigada.
6.5. Intervalos de tolerancia para la normal
Consideremos el caso X ∼ N (µ, σ) donde µ y σ son desconocidas e intentemos estimar,
a partir de una muestra de X, un intervalo (xL, xU ) tal que P (xL < X < xU ) = p fijada.
Como
P (xL < X < xU ) = P
(xL − µσ
< U <xU − µσ
)= P
(−u(1+p)/2 < U < u(1+p)/2
)= p
donde U ∼ N (0, 1), resulta
xL = µ− u(1+p)/2σ
xU = µ+ u(1+p)/2σ
y ahora, como µ y σ son desconocidos podrıamos sustituirlos por sus estimaciones x y s,
resultando el(x− u(1+p)/2s, x+ u(1+p)/2s
), pero ello no asegura en absoluto el contenido de
probabilidad p a este intervalo (dependiendo de x y s puede ser menor, igual o mayor que
p). Una solucion son los llamados intervalos de tolerancia 10 que definimos a continuacion.
Definicion 6.4. Sea una variable aleatoria X y sean 1−α y p fijados. Un intervalo (xL, xU )
construido a partir de una muestra de X en el que
P (xL < X < xU ) ≥ p
con confianza 1− α, se llama intervalo de tolerancia de contenido p.
Para el caso X ∼ N (µ, σ) donde µ y σ son desconocidas, el intervalo es de la forma xL =
x − ks y xU = x + ks. El valor de k depende del contenido p, de la confianza 1 − α y del
tamano de muestra n. No hay una expresion explıcita y debe ser aproximado numericamente
(ver Complementos).
En la tabla C.4 se dan los valores de k correspondientes a algunos valores de p, 1− α y n.
Ejemplo 6.15. Se dispone de una muestra de n = 25 obleas de silicio y se mide su resisti-
vidad (en Ω cm) resultando x = 97.07 y s = 0.0268. Calculemos un intervalo de tolerancia
con p = 0.95 y 1− α = 0.99
10El nombre proviene de las primeras aplicaciones a problemas de control de calidad industrial.
146 Capıtulo 6. Intervalos. Pruebas de hipotesis
En la tabla C.4 se lee k = 2.984 ası que
xL = 97.07− 2.984× 0.0268 = 96.99
xU = 97.07 + 2.984× 0.0268 = 97.15
con una seguridad del 99 % el 95 % de las obleas producidas tienen una resistividad en
(96.99, 97.15) Ω cm.
Definicion 6.5. Sea una variable aleatoria X y sean 1− α y p fijados. Un lımite xU cons-
truido a partir de una muestra de X tal que
P (X < xU ) ≥ p
con confianza 1− α, se llama lımite de tolerancia superior de contenido p
Un lımite xL construido a partir de una muestra de X tal que
P (xL < X) ≥ p
con confianza 1− α, se llama lımite de tolerancia inferior de contenido p.
Para el caso X ∼ N (µ, σ) donde µ y σ son desconocidas, el lımite superior es de la forma
xU = x+ ks y el inferior xL = x− ks. El valor de k depende del contenido p, de la confianza
1− α y del tamano de muestra n, y es el mismo para ambos lımites. Su expresion explıcita
se da en los Complementos.
En la tabla C.5 se dan los valores de k correspondientes a algunos valores de p, 1− α y n.
Ejemplo 6.16. (cont. del 6.4) hallemos un lımite superior de contenido p = 0.95 y confianza
1− α = 0.95
Con n = 10 en la tabla C.5 se lee k = 2.911
x+ ks = 20.6 + 2.911× 1.7127 = 25.586
ası que, con una confianza del 95 % el 95 % de los valores de X son menores que 25.6µg /L
En estudios de contaminacion se determina un lımite superior en una poblacion no contami-
nada (por ejemplo, el 95 % de las medidas en una poblacion no contaminada esta por debajo
del valor xS). Despues, si una medida de control del contaminante resulta por encima de xS,
ello es una indicacion de posible contaminacion.
Ejemplo 6.17. (cont. del 6.15) Hallemos lımites superior e inferior de contenido p = 0.95
y confianza 1− α = 0.99
6.6. Pruebas de hipotesis 147
Con n = 25 en la tabla C.5 se lee k = 2.633, ası que con una confianza del 99 % el 95 % de
las obleas tienen una resistividad por debajo de
x+ ks = 97.07 + 2.633× 0.0268 = 97.141 Ω cm
Y con una seguridad del 99 % el 95 % de las obleas tienen una resistividad superior a
xL = 97.07− 2.633× 0.0268 = 96.999 Ω cm
6.6. Pruebas de hipotesis
6.6.1. Metodologıa general
Formular y comprobar hipotesis es parte esencial de la investigacion cientıfica. En la metodo-
logıa estadıstica las hipotesis se traducen en preguntas sobre la distribucion de las variables
aleatorias implicadas, como, por ejemplo: ¿es X normal?, ¿es µX = 1?, ¿es p = 12?, ¿es
µX = µY ?, ¿siguen X e Y la misma ley de probabilidades?, ¿son X e Y independientes? etc.
En esta seccion se va a explicar cual es la metodologıa empleada en las pruebas sobre parame-
tros (µ, σ, p, ...) de distribuciones conocidas. En primer lugar presentaremos un ejemplo
introductorio.
Ejemplo 6.18. (cont. del 6.4) El lımite de la concentracion media, µ, de arsenico en agua
potable en Espana (Real Decreto 140/2003) es de 10 µg/L. Se debe decidir si el agua del
ejemplo 6.4 es apta para consumo (µ < 10 µg/L) o no (µ ≥ 10 µg/L). Hay pues dos
hipotesis sobre el valor de µ:
H0: el agua no es apta para consumo (µ ≥ 10 µg/L),
H1: el agua es apta para consumo (µ < 10 µg/L).
Un lımite superior de probabilidad 0.95 para el parametro µ desconocido es (ver 6.2.1)
LS = X + t0.95S√n
A la larga (usando muchas muestras diferentes) el suceso µ < LS se realiza el 95 % de las
veces (es decir, el valor calculado `S de LS estara por encima del valor fijo y desconocido
µ). Si resultase `S < 10 podrıamos concluir que tambien µ < 10.
Rechazaremos pues H0 (elegimos la hipotesis H1) si `S < 10 (con la confianza de que, a la
148 Capıtulo 6. Intervalos. Pruebas de hipotesis
larga, la decision sera erronea menos del 5 % de la veces11). No rechazaremos H0 si `S ≥ 10
(con la confianza de que, a la larga, la decision sera correcta al menos el 95 % de la veces).
Con la muestra del ejemplo 6.4 se obtuvo un lımite superior `S = 21.6 µg/L para µ con una
confianza del 95 %. Como `S > 10 lo prudente es no rechazar H0. El resultado de la prueba
es que el agua no es apta para consumo.
¿Que hubiera sucedido si se hubiera situado el lımite para la concentracion media de As en
agua potable en 25 µg/L (hasta diciembre de 2003 el lımite legal en Espana era de 50 µg/L)?
Las hipotesis son ahora:
H0: el agua no es apta para consumo ( µ ≥ 25 µg/L),
H1: el agua es apta para consumo ( µ < 25 µg/L).
Como `S = 21.6 < 25 se rechaza H0 y se concluye (con la confianza de que, a la larga, la
decision sera erronea menos del 5 % de la veces) que el agua es apta para consumo.
Siempre que se disponga de un intervalo de confianza sobre un parametro es posible utilizar
un razonamiento semejante para decidir entre dos hipotesis.
A continuacion se explica una metodologıa mas general que recibe el nombre de pruebas de
hipotesis y en la que se valoran de modo mas explıcito todos los riesgos.
Sea la Va X con funcion de densidad o masa f(x | θ) que depende del parametro θ ∈ Θ
desconocido y una particion Θ = Θ0 ∪Θ1 y Θ0 ∩Θ1 = ∅.
Se trata de comprobar hasta que punto las observaciones experimentales son estadısticamente
compatibles con las hipotesis
H0 : θ ∈ Θ0
H1 : θ ∈ Θ1
La hipotesis H0 suele llamarse nula y H1 es la alternativa.
Criterio fundamental: Las hipotesis se formulan en cada problema con la intencion de
rechazar H0 solo si la evidencia en su contra es alta.
Por tanto la hipotesis nula se acepta por defecto y solo se rechazara si se encuentra evidencia
suficiente en su contra en un experimento bien disenado. El diseno del experimento se realiza
11Como P (LS > µ) = 0.95 entonces P (LS ≤ µ) = 1 − P (LS > µ) = 1 − 0.95 = 0.05. Ademas
P (LS < 10) ≤ P (LS ≤ µ) si µ ≥ 10 por ser la funcion de distribucion monotona no decreciente. Se con-
cluye que P (LS < 10) ≤ 0.05 si µ ≥ 10. Hemos decidido rechazar H0 si LS < 10, pero si en realidad fuese
µ ≥ 10 entonces H0 es cierta y la decision serıa erronea: la probabilidad de cometer tal error es como maximo
0.05. Por lo tanto la probabilidad de no cometerlo (no rechazar H0 correctamente) es como mınimo de 0.95.
6.6. Pruebas de hipotesis 149
antes de disponer de los datos y nunca a la vista de estos.
Ejemplo 6.19. Un zahorı afirma que es capaz de descubrir la presencia de agua. El tiene
que convencernos de que no es un impostor. Si p es su proporcion de aciertos a la larga, las
hipotesis son
H0 : p = 1/2
H1 : p > 1/2.
Ejemplo 6.20. Se sugiere que un nuevo tratamiento A es mas eficaz que el habitual B para
tratar una enfermedad. Los ensayos clınicos para determinarlo se disenan de manera que un
grupo de pacientes recibe el A, y otro grupo recibe el B. Ambos grupos son semejantes en
cuanto a edades, sexos y caracterısticas de la enfermedad. Ademas ni enfermos ni medicos
saben cual es uno u otro grupo (ensayos doble ciego). Los grupos son de centenares o miles de
pacientes. Ensayos similares se realizan para determinar si una medicina es eficaz: el grupo
A recibe la medicina y el B recibe un placebo. Si pA y pB son las proporciones de curacion,
las hipotesis son
H0 : pA = pB
H1 : pA 6= pB
Ejemplo 6.21. (Origen de la masa) El modelo estandar de fısica de partıculas describe
las partıculas fundamentales y las fuerzas (electromagnetica, debil y fuerte) entre ellas. Para
completar el modelo se ha postulado que las partıculas adquieren su masa interaccionando con
un campo (de Higgs) que impregna el vacio y que una excitacion suficientemente energetica
de este campo debe producir un nuevo tipo de partıcula masiva, el boson de Higgs (H). Dicho
de otro modo, el Boson de Higgs constituye el cuanto del campo de Higgs (la mas pequena
excitacion posible de este campo). Uno de los principales objetivos del LHC del CERN es
someter a prueba esta teorıa.
El LHC hace colisionar dos haces de protones que giran en su anillo en direcciones opuestas
a velocidad proxima a la de la luz, produciendose en su cruce decenas a centenares de otras
partıculas. Unos detectores identifican los candidatos (eventos) que se ajustan a los diferentes
modos de decaimiento del H que predice su teorıa. Estos eventos pueden haber sido producidos
por el H, pero tambien pueden ser el resultado de los procesos ya conocidos (fondo). Las
hipotesis que se consideran son:
H0 : el numero observado de eventos es una mera fluctuacion estadıstica del fondo.
H1 : el numero observado de eventos es debido a la produccion del H.
Definicion 6.6. Para realizar la prueba se usara un estadıstico T construido con una mues-
tra de X llamado estadıstico de prueba12 cuya ley de probabilidades sea conocida para
12en ingles test statistic
150 Capıtulo 6. Intervalos. Pruebas de hipotesis
cada valor de θ.
La forma de T debe permitirnos discriminar que valores tendera a tomar si θ ∈ Θ0 y cuales
si θ ∈ Θ1 para poder decidir en consecuencia.
Definicion 6.7. Se llama region crıtica al subconjunto C de los valores posibles de T tal
que si T ∈ C se rechazara H0.
Dependiendo del problema las formas habituales de la region crıtica son T > c, T < c
(pruebas unilaterales) y |T | > c (pruebas bilaterales).
Ejemplo 6.22. (cont. del 6.19) Para realizar la prueba se le presentaran n botes tapados,
algunos de los cuales contienen agua y otros no, y se le pide que los identifique. Cada vez
que decide se realiza una Va Xi que vale 1 si acierta, con probabilidad p, y 0 si falla, con
probabilidad 1− p. Se decidira a la vista del numero total de aciertos X =∑Xi.
Si p > 1/2 la variable X tendera a tomar valores mas altos (mas proximos a n) que si
p = 1/2.
Se fijara entonces un numero de aciertos c y una region crıtica de la forma X > c: si este
suceso se realiza se rechazara H0. Sin embargo podemos equivocarnos: en realidad p = 1/2 y
por azar resulta X > c, un numero de aciertos alto.
Ejemplo 6.23. Sea X ∼ N (µ, σ) con µ desconocida y σ conocida, y la prueba:
H0 : µ ≤ µ0
H1 : µ > µ0
En principio para decidir sirve X −µ0, que tendera a tomar valores relativamente mas altos
bajo H1 (mayores que cero, pues entonces X tiende a tomar valores mayores que µ0) que bajo
H0 (proximos a cero o negativos, pues entonces X tiende a valer µ0 o menos). Equivalente
a ella y con ley conocida (en particular N (0, 1) si µ = µ0) es:
T =X − µ0
σ/√n
La region crıtica debe ser de la forma T > c, o lo que es igual X > µ0 + cσ/√n, donde c
esta por determinar.
Una vez especificada la region crıtica C, la prueba se realiza calculando el valor de T en la
muestra, sea t, y: si t ∈ C se rechaza H0, mientras que si t /∈ C no se rechaza H0.
Pero cualquiera que sea la regla de decision que se adopte (T y C) pueden resultar los
6.6. Pruebas de hipotesis 151
siguientes casos al realizar la prueba:
H0 es cierta H1 es cierta
no se rechaza H0 correcto error II
se rechaza H0 error I correcto
Podemos errar pues de dos formas y en cada caso con diferentes probabilidades segun el
verdadero valor de θ:
La probabilidad de rechazar H0 indebidamente (error I) es
P (T ∈ C | θ ∈ Θ0)
La probabilidad de aceptar H0 indebidamente (error II) es
P (T /∈ C | θ ∈ Θ1)
Lo ideal serıa elegir C para que dichas probabilidades fuesen lo mas pequenas posible. Sin
embargo no pueden controlarse a la vez y ademas, en general, unas aumentan cuando las
otras disminuyen.
El comportamiento de la prueba para cada valor posible de θ (en particular las probabilidades
de error anteriores) queda resumido por la funcion siguiente:
Definicion 6.8. Sea T el estadıstico de prueba y C la region crıtica. La funcion de po-
tencia13 de la prueba es
P (T ∈ C | θ) ∀θ ∈ Θ
La funcion de potencia ideal valdrıa 0 si θ ∈ Θ0 y 1 si θ ∈ Θ1.
Ejemplo 6.24. (cont del 6.23) La funcion de potencia se calcula ası:
P
(X − µ0
σ/√n> c | µ
)= P
(X − µσ/√n
+µ− µ0
σ/√n> c | µ
)= P
(X − µσ/√n> c− µ− µ0
σ/√n| µ)
= 1− Φ
(c− µ− µ0
σ/√n
)∀µ
y sus valores dependen del c que se utilice.
En base al Criterio fundamental adoptado antes nuestro interes debe ser controlar la
probabilidad de error de tipo I, rechazar H0 indebidamente.
13En el control estadıstico de la calidad se suele emplear la curva de eficacia o curva OC (operation charac-
teristic curve): P (T /∈ C | θ) ∀θ ∈ Θ.
152 Capıtulo 6. Intervalos. Pruebas de hipotesis
Definicion 6.9. Se llama nivel de significacion α a la maxima probabilidad que se desea
de rechazar H0 cuando es cierta:
supθ∈Θ0
P (T ∈ C | θ) = α
Ejemplo 6.25. (cont. del 6.24) Hallemos el valor de
supµ≤µ0
P
(X − µ0
σ/√n> c | µ
)= sup
µ≤µ0
(1− Φ
(c− µ− µ0
σ/√n
))es decir, la mayor probabilidad de rechazar H0 erroneamente.
Si µ = µ0 entonces P(X−µ0σ/√n> c | µ0
)= 1− Φ (c)
Y si µ < µ0 como c− µ−µ0σ/√n> c es Φ
(c− µ−µ0
σ/√n
)> Φ (c) y entonces P
(X−µ0σ/√n> c | µ < µ0
)<
1− Φ (c)
Ası pues
supµ≤µ0
P
(X − µ0
σ/√n> c | µ
)= 1− Φ (c)
y si se quiere que valga α entonces el c que hay que utilizar es
1− Φ (c) = α→ c = Φ−1 (1− α) = u1−α
En particular si se elige α = 0.05 entonces c = u0.95 = 1.64
Ahora, con la C ası determinada, el suceso T ∈ C es improbable bajo H0 (maxima proba-
bilidad α elegida pequena): si se realiza en la muestra lo mas prudente es rechazar H0, y
se dice en ese caso que la muestra es significativa al nivel α. Al contrario, si T /∈ C no
rechazamos H0: la muestra es compatible con H0, con probabilidad 1− α.
Ejemplo 6.26. (cont. del 6.25) Sea en particular X ∼ N (µ, 1) y la prueba
H0 : µ ≤ 0
H1 : µ > 0
Si con una muestra de tamano n = 16 resulto x = 0.5, el estadıstico de prueba toma el valor
t =0.5− 0
1/√
16= 2
Si se elige α = 0.05 entonces c = u0.95 = 1.64. Y como t > 1.64 se debe rechazar H0: la
discrepancia de la muestra con H0 es significativa al 5 %.
Ejemplo 6.27. (cont. del 6.26) Las funciones de potencia con α = 0.05 y muestras de
tamano n = 16 y n = 50 se dibujan en la figura 6.2.
6.6. Pruebas de hipotesis 153
−0.5 0 0.5 1 1.5
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
µ
Pro
babi
lidad
de
rech
azo
Función de potencia
H1
H0
n=16
n=50
α=0.05
Figura 6.2: Funciones de potencia con α = 0.05 y muestras de tamano n = 16 y n = 50 para
una distribucion X ∼ N(µ, 1).
Tengase en cuenta que si T es discreta no se puede hallar en general una region crıtica de
nivel de significacion cualquiera.
Ejemplo 6.28. (cont. del 6.22) El valor de c en P (X > c | p = 1/2) = α no puede ser
cualquiera. Si H0 es cierta X es una Va binomial de parametros (10, 1/2) y:
P (T > 6 | p = 1/2) =
(1
2
)10 10∑k=7
(10
k
)≈ 0.172
P (T > 7 | p = 1/2) =
(1
2
)10 10∑k=8
(10
k
)≈ 0.0547
P (T > 8 | p = 1/2) =
(1
2
)10 10∑k=9
(10
k
)≈ 0.0107
de manera que si aceptamos p > 1/2 si identifica 8 o mas, el riesgo de equivocarnos es
aproximadamente del 5 %.
El valor del nivel de significacion α que se usa en una prueba es convencional y su eleccion
depende del ambito de aplicacion (puede estar fijado por normas industriales de calidad) y
de las consecuencias de los errores. En la investigacion cientıfica es mas adecuado el llamado
nivel crıtico.
154 Capıtulo 6. Intervalos. Pruebas de hipotesis
Definicion 6.10. Sea t el valor observado en la muestra del estadıstico de prueba T . El
nivel crıtico14 de t, denotado p, es el valor de significacion que resulta si se usase t como
lımite de la region crıtica. Un valor α > p conducirıa a rechazar H0 y uno menor a no
rechazar.
Ejemplo 6.29. (cont. del 6.25) Para calcular el lımite c de la region crıtica de nivel α
utilizamos P (T > c | µ = µ0) = α. Para calcular el nivel crıtico de t hallamos el valor de
P (T > t | µ = µ0)
El valor observado es t = 2 y como P (T > 2 | µ = 0) = 1 − Φ (2) = 0.02275, el valor
p = 0.02275 es el nivel crıtico de t. Cualquier eleccion de α mayor que este valor conducirıa
a rechazar H0, y cualquiera menor a no rechazar.
En algunos campos, como en fısica de partıculas y astrofısica, es habitual expresar el nivel
crıtico p en unidades n de desviacion tıpica de la N (0, 1) y se dice: “la significacion es de
nσ”. Si la prueba es unilateral (region crıtica T > c o T < c) de nivel p, el calculo del n
equivalente es
p = 1− Φ (n)→ n = Φ−1 (1− p)
y si bilateral (region crıtica |T | > c)
p = 2 (1− Φ (n))→ n = Φ−1(
1− p
2
)Ejemplo 6.30. (cont. del 6.21) Una evidencia de la existencia del boson serıa un numero es-
tadısticamente significativo de eventos por encima de la prediccion del fondo. La significacion
se cuantifica por el valor calculado de la probabilidad (valor crıtico p) de que una fluctuacion
del fondo (H0) produzca un exceso de eventos como el observado en el experimento.
En Agosto de 2012 el CERN comunico que en los ultimos experimentos el valor de significa-
cion ha alcanzado los 5.8σ, es decir, la probabilidad de que bajo H0 resulte una fluctuacion
del fondo igual o mayor que lo observado es de 3.3× 10−9.
“These results confirm the very low probability for an excess as large or larger than that
observed to arise from a statistical fluctuation of the background. The excess constitutes the
observation of a new particle with a mass near 125 GeV, manifesting itself in decays to
two photons or ZZ. These two decay modes indicate that the new particle is a boson; the
two-photon decay implies that its spin is different from one” ( CMS-HIG-12-028; CERN-PH-
EP-2012-220).
14En ingles p-value.
6.6. Pruebas de hipotesis 155
6.6.2. Parametros de poblaciones normales
Pruebas sobre la media
Sea X ∼ N(µ, σ). Tomemos como referencia la prueba (bilateral)
H0 : µ = µ0
H1 : µ 6= µ0
Para las alternativas (unilaterales) µ > µ0 o µ < µ0 se cambia adecuadamente la region
crıtica.
Si σ es conocido un estadıstico de prueba es
T =X − µ0
σ/√n
que tiende a valer 0 si µ = µ0 (pues X siempre estima el verdadero µ) y alejarse de 0 en otro
caso.
La region crıtica es de la forma |T | > c. Ademas si µ = µ0 la variable T es N(0, 1) y para
una significacion α resulta c = u1−α/2:
P
(∣∣X − µ0
∣∣σ/√n
> u1−α/2 | µ0
)= α
Si σ es desconocida el estadıstico es:
T =X − µ0
S/√n
que si µ = µ0 tiene distribucion de Student (n − 1) y para una significacion α resulta
c = t1−α/2:
P
(∣∣X − µ0
∣∣S/√n
> t1−α/2 | µ0
)= α
Ejemplo 6.31. (cont. del 6.18) En las pruebas de hipotesis es importante elegir adecuada-
mente cual es la hipotesis por defecto (H0) y cual la alternativa (H1). De esta eleccion puede
depender el resultado: si, por ejemplo, en el ejemplo 6.18 se hubiera puesto el lımite para la
potabilidad en 20 µg/L, las hipotesis serıan:
H0: el agua no es apta para consumo (µ ≥ 20 µg/L),
H1: el agua es apta para consumo (µ < 20 µg/L).
156 Capıtulo 6. Intervalos. Pruebas de hipotesis
Al ser una prueba unilateral por la izquierda, el lımite c de la region crıtica de nivel de
significacion 0.05 sera c = −t0.95 = −1.8331. Como x−20s/√n
= 20.6−201.7127/
√10
= 1.1078 > −t0.95,
el valor del estadıstico de prueba no esta en la region crıtica y no se rechaza H0. La prueba
indica que no hay evidencia suficiente para afirmar que el agua es apta para consumo.
Si ahora se intercambian las hipotesis:
H0: el agua es apta para consumo (µ < 20 µg/L),
H1: el agua no es apta para consumo (µ ≥ 20 µg/L),
la prueba se transforma en una prueba unilateral por la derecha. En este caso el lımite c
de la region crıtica de nivel de significacion 0.05 sera c = t0.95 = 1.8331. Al verificarsex−20s/√n
= 20.6−201.7127/
√10
= 1.1078 < t0.95, el valor del estadıstico de prueba no esta en la region
crıtica y no se rechaza H0. La prueba indica que no hay evidencia suficiente para afirmar
que el agua no es apta para consumo.
Observacion 6.1. En el ejemplo 6.31, utilizando la misma muestra, se ha llegado a dos con-
clusiones distintas al intercambiar las hipotesis. En el primer caso se concluye que el agua no
es apta para consumo y en el segundo que sı lo es. En este ejemplo la eleccion adecuada de
las hipotesis es la primera (H0: agua no potable, H1: agua potable). Como se ha visto mas
arriba, las pruebas se disenan de forma que la hipotesis H0 se rechace solo si la evidencia
estadıstica en su contra es muy alta, por lo que H0 debe ser la hipotesis mas conservadora
y segura. Conservadora en el sentido de que es lo que suponemos (experiencia previa con
problemas similares, homogeneidad, ...) que sucede antes de realizar la prueba. Por ejemplo,
en el caso que nos ocupa, si se esta haciendo la medicion a la salida de un foco de contami-
nacion, lo razonable es suponer a priori que el agua esta contaminada. Segura en el sentido
de que, dado que las pruebas de hipotesis se disenan con el objetivo de minimizar la maxima
probabilidad de rechazar H0 cuando es cierta (error I). Es mas seguro, volviendo a nuestro
ejemplo, minimizar la probabilidad de concluir que el agua no esta contaminada cuando
realmente lo esta, que minimizar la probabilidad de concluir que el agua esta contaminada
cuando realmente no lo esta.
Observacion 6.2. En la primera prueba del ejemplo 6.31 (H0: µ ≥ 20 µg/L, H1:µ <
20 µg/L) se podrıa haber utilizado el lımite superior de confianza del 95 % calculado en el
ejemplo 6.18, obteniendose el mismo resultado: `S = 21.6, `S ≥ 20 y se rechaza H0. Observese
que en ambos casos se esta haciendo el mismo calculo:
1. En el caso de la prueba unilateral por la izquierda, la region crıtica esta determinada
por T < −t0.95, que para una muestra cualquiera se convierte en
x < 20− t0.95s√n
(6.6)
6.6. Pruebas de hipotesis 157
2. En el caso del lımite superior de confianza la region crıtica esta determinada por “µS <
20”. Como por otro lado µs = x+ t0.95s√n
, se tiene que
20 > x+ t0.95s√n,
que es equivalente a (6.6).
Por lo tanto la prueba de 6.18, con LS = X + t0.95S√n< µ0 como region crıtica, es la misma
que la de 6.31 con T = X−µ0S/√n< −t0.95 = t0.05 como region crıtica.
Siguiendo el mismo razonamiento, la segunda prueba (H0: µ < 20 µg/L, H1:µ ≥ 20 µg/L)
se podrıa haber resuelto calculando un lımite inferior de confianza del 95 %.
Comparacion de dos medias
Sean X ∼ N(µX , σX) e Y ∼ N(µY , σY ), de las que se han tomado sendas muestras inde-
pendientes de tamanos m y n, y la prueba:
H0 : µX = µY
H1 : µX 6= µY
Si σX y σY son conocidos, el estadıstico de prueba es
T =X − Y√σ2Xm +
σ2Yn
con distribucion N (0, 1) si H0 es cierta.
Si σX = σY = σ y conocido, el estadıstico de prueba es
T =X − Y
σ√
1m + 1
n
con distribucion N (0, 1) si H0 es cierta.
Si σX = σY = σ y desconocido, el estadıstico de prueba es
T =X − Y
S√
1m + 1
n
donde
S2 =(m− 1)S2
X + (n− 1)S2Y
m+ n− 2
158 Capıtulo 6. Intervalos. Pruebas de hipotesis
es el estimador de σ2 (media ponderada de los estimadores S2X y S2
Y con cada muestra). La
distribucion de T cuando H0 es cierta es Student (m+ n− 2).
Si σX 6= σY y desconocidos, el estadıstico de prueba es
T =X − Y√S2Xm +
S2Yn
con distribucion Student (ν) si H0 es cierta, y donde ν se estima por
ν∗ =
[S2Xm +
S2Yn
]2
1m−1
(S2Xm
)2+ 1
n−1
(S2Yn
)2
La region crıtica es de la forma, en todos los casos, |T | > c donde c = u1−α/2 o c = t1−α/2
segun sea la distribucion de T la normal o Student.
Comparacion de k medias
Sean k variables Xi ∼ N(µi, σi), y la prueba:
H0 : µi = µ ∀i
H1 : µi 6= µ para al menos un i
Puesto que ya sabemos comparar 2 medias, parece que todo se reduce a efectuar, una tras
otra, las r =(k2
)pruebas por pares, de nivel α, posibles. Sin embargo la prueba conjunta no
serıa de nivel α. Pues si H0 fuese correcta, la probabilidad de no rechazar ninguna de las r
pruebas, supuestas independientes, es (1−α)r, y la de rechazar al menos una, y por lo tanto
rechazar H0, es 1− (1− α)r 6= α.
Una solucion conveniente a esta prueba se tiene mediante la tecnica denominada de Analisis
de la Varianza.
Pruebas sobre la varianza
Tomemos como referencia la prueba:
H0 : σ2 = σ20
H1 : σ2 6= σ20
Para las alternativas σ2 > σ20 o σ2 < σ2
0 se cambia adecuadamente la region crıtica.
6.6. Pruebas de hipotesis 159
El estadıstico es
T =(n− 1)S2
σ20
con distribucion ji-cuadrado (n− 1) cuando H0 es cierta. La region crıtica es de la forma C =
(0, c1)∪ (c2,+∞). Y para una significacion de α, adoptando el criterio de dejar probabilidad
α/2 a cada lado, resulta c1 = χ2α/2 y c2 = χ2
1−α/2.
6.6.3. Pruebas sobre la binomial
Sea X Bernoulli de parametro p. Un estadıstico de prueba para p es∑Xi el total de exitos
en n observaciones independientes de X, con distribucion binomial de parametros n y p. Los
ejemplos 6.19, 6.22 y 6.28 ilustran las pruebas unilaterales.
Para la prueba:
H0 : p = p0
H1 : p 6= p0
la region crıtica de nivel α como maximo (como T es discreta no puede hallarse en general
una region crıtica de nivel exactamente α) esta lımitada por los numeros c1 y c2 tales que
P(∑
Xi ≤ c1 | p0
)≤ α
2
P(∑
Xi ≥ c2 | p0
)≤ α
2
Si n→∞ puede utilizarse la aproximacion de la binomial por la normal (seccion 4.4).
El estadıstico de prueba es:
T =
∑Xi − np0√np0(1− p0)
=X − p0√
p0(1− p0)/n
con distribucion N (0, 1) si p = p0 y n → ∞. Para la prueba bilateral, la region crıtica de
nivel α es |T | > u1−α/2.
Comparacion de dos proporciones
Sean X e Y Bernoulli de parametros p1 y p2. Y sea la prueba
H0 : p1 = p2
H1 : p1 6= p2
160 Capıtulo 6. Intervalos. Pruebas de hipotesis
Sean X e Y las estimaciones de p1 y p2 con sendas muestras independientes de tamanos m
y n. Si H0 es cierta el estimador del valor comun y desconocido de p es
p =mX + nY
m+ n
El estadıstico de prueba es
T =X − Y√
p(1− p)√
1m + 1
n
que tiende a valer cero si H0 es cierta y alejarse de cero en otro caso. Ademas si H0 es cierta
y m→∞ y n→∞ su distribucion es N (0, 1). La region crıtica de nivel α es |T | > u1−α/2.
6.6.4. Muestreo de aceptacion
La presencia de unidades defectuosas en la fabricacion en serie supone un compromiso entre
calidad y coste. El fabricante debe suministrar las calidades pactadas y el cliente debe tolerar
que en los lotes que adquiere haya un cierto numero de items defectuosos.
Uno de los problemas que aborda el control estadıstico de la calidad es el muestreo
de aceptacion: el cliente acepta o rechaza un lote enviado por el fabricante mediante una
prueba basada en una muestra aleatoria de los items del lote.
Se dice que el muestreo es por atributos si lo que se juzga es la proporcion p de items
defectuosos. Y por variables si lo que se juzga es la calidad media µ de los items del lote.
Muestreo por atributos
Sea X el numero de items defectuosos en una muestra aleatoria de tamano n del lote de
tamano N.
En todo lo que sigue supondremos (ver seccion 6.4.1) que n es mucho mas pequeno que N
de manera que la distribucion de probabilidades de X puede aproximarse por una binomial
de parametros n y p (la proporcion real de defectos en el lote).
Supongamos que el nivel de calidad aceptable es p0. Y que el lote se rechaza si X > c, donde
c se determina, para una nivel de significacion α, por
P (X ≤ c | p0) =
c∑x=0
(n
x
)px0 (1− p0)n−x = 1− α
Ejemplo 6.32. Por ejemplo si la calidad pactada es p0 = 0.02, n = 100 y se elige α = 0.05
se ha de hallar c para que
P (X ≤ c | p0 = 0.02) =c∑
x=0
(100
x
)0.02x × 0.98100−x = 0.95
6.6. Pruebas de hipotesis 161
y resulta c = 5 (calculado en Matlab con binoinv(0.95,100,0.02); tengase en cuenta que
para evaluar la funcion de distribucion binomial no puede usarse la aproximacion con la
normal por ser p demasiado pequeno: en la seccion 4.4 se dio como regla que habrıa de ser
mın (np, n (1− p)) > 10).
Sin embargo el comprador tambien corre un riesgo de aceptar lotes de mala calidad. Si por
ejemplo fuese en realidad p = 0.06 la probabilidad de aceptar el lote es
P (X ≤ 5 | p = 0.06) =5∑
x=0
(100
x
)0.06x × 0.94100−x = 0.44
Un plan de muestreo simple por atributos15 trata de conciliar los intereses del fabricante
y del comprador. Para ello:
1. Se pactan dos puntos de la curva de aceptacion de la prueba:
El riesgo del fabricante: (p0, 1− α) donde p0 es el nivel de calidad base y α la
maxima probabilidad de rechazar un lote de igual calidad o superior (p ≤ p0)
El riesgo del cliente: (p1, β) donde p1 es el nivel de calidad lımite y β la maxima
probabilidad de aceptar un lote de igual calidad o inferior (p ≥ p1).
2. Se determinan el tamano de muestra n y el numero c tales que
P (T ≤ c | p1) =∑c
x=0
(nx
)px1 (1− p1)n−x = β
P (T ≤ c | p0) =∑c
x=0
(nx
)px0 (1− p0)n−x = 1− α
(6.7)
La solucion del sistema no-lineal (6.7) debe hallarse numericamente (ver Complementos).
Hallada la solucion la curva de eficacia (curva caracterıstica o curva OC) de la prueba
(probabilidad de aceptacion en funcion de p) es
P (T ≤ c | p) =c∑
x=0
(n
x
)px (1− p)n−x ∀p ∈ (0, 1)
Ejemplo 6.33. Por ejemplo si se impone p0 = 0.02 con α = 0.05 y p1 = 0.06 con P (T ≤c | p1) = 0.1 la solucion del sistema es n = 195 y c = 7. La curva de eficacia de esta prueba
se ha dibujado en la figura 6.3
Efectivamente (recordar que como X es discreta la solucion solo puede ser aproximada):
P (X ≤ 7 | p0 = 0.02) =7∑
x=0
(195
x
)× 0.02x × 0.98195−x = 0.956
P (X ≤ 7 | p0 = 0.06) =
7∑x=0
(195
x
)× 0.06x × 0.94195−x = 0.096
15La norma UNE 66.020 (equivalente a las MIL STD 105D e IS0 2859) recoge las soluciones para este
muestreo simple y otros.
162 Capıtulo 6. Intervalos. Pruebas de hipotesis
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.080
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
p defectos
P a
cept
ació
n
Curva OC n=195 c=7
α
β p
0 p1
Figura 6.3: Curva de eficacia de la prueba del ejemplo 6.33
Muestreo por variables
SeaX el valor de una medida de la calidad de los items del lote (longitud, peso, concentracion,
voltaje, ...). La situacion que vamos a considerar, la mas comun, es X ∼ N (µ, σ), donde el
parametro µ es desconocido y σ es conocida. Se trata de realizar una prueba sobre la calidad
media µ a partir de una muestra de X de tamano n.
El estadıstico de prueba es
T =X − µ0
σ/√n
Segun lo que signifique mejor o peor calidad la prueba es (con sus correspondientes alterna-
tivas):
H0 : µ ≤ µ0 (mejor cuanto menor µ) con region crıtica de la forma T > c
H0 : µ ≥ µ0 (mejor cuanto mayor µ) con region crıtica T < c
Sin embargo en las pruebas resueltas convencionalmente solo se tiene en cuenta el riesgo del
cliente.
Un plan de muestreo simple por variables16 trata de conciliar los intereses del fabricante
16La norma UNE 66.030 (equivalente a las MIL STD 414D e IS0 3951) recoge las soluciones para este
muestreo simple y otros.
6.6. Pruebas de hipotesis 163
y del cliente. Para ello:
1. Se pactan dos puntos de la curva de aceptacion de la prueba:
El riesgo del fabricante: (µ0, 1− α) donde µ0 es el nivel de calidad base y 1− α la
probabilidad de aceptar un lote de igual calidad o superior.
El riesgo del cliente: (µ1, β) donde µ1 es el nivel de calidad lımite y β la probabilidad
de aceptar un lote de igual calidad o inferior.
2. Se determina el lımite c de la region crıtica y el tamano de muestra n que satisfacen
ambos riesgos.
En la situacion mejor cuanto menor µ se acepta un lote si T < c. La solucion es
P
(X − µ0
σ/√n< c | µ0
)= 1− α→ c = u1−α
P
(X − µ0
σ/√n< u1−α | µ1
)= β
P
(X − µ1
σ/√n< u1−α −
µ1 − µ0
σ/√n| µ1
)= β
u1−α −µ1 − µ0
σ/√n
= uβ
n = σ2
(u1−α − uβµ1 − µ0
)2
Ejemplo 6.34. Se controlan los niveles de emision de formaldehido de paneles para cons-
truccion. El lote suministrado es satisfactorio si el nivel de emision es menor que µ0 = 0.3
ppm. Se desea un plan de muestreo que de una probabilidad de aceptacion del 0.95 a los
lotes con 0.3 ppm, y una probabilidad de aceptacion de 0.10 a los lotes con 0.4 ppm. De la
experiencia previa se sabe que σ = 0.10 ppm
Aquı mejor calidad significa menor valor de µ.
c = u0.95 = Φ−1 (0.95) = 1.64
u0.10 = −Φ−1 (0.90) = −1.28
n = 0.12 ×(
1.64+1.280.1
)2= 8.526 4
El plan es: rechazar el lote si en una muestra de tamano n = 9 la media de la muestra es
x > 0.3 + 1.64× 0.1/√
9 ≈ 0.355 ppm. En la figura 6.4 se ha dibujado la curva de eficacia de
la prueba.
164 Capıtulo 6. Intervalos. Pruebas de hipotesis
0.25 0.3 0.35 0.4 0.450
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
µ
P a
cept
ació
n
Curva OC n=9, c=1.64
µ0
µ1
β(µ1)
α(µ0)
Figura 6.4: Curva de eficacia correspondiente a la prueba del ejemplo 6.34
6.7. Ejercicios propuestos
Secciones 6.1 y 6.2:
1. La longitud nominal de ciertas piezas mecanizadas es de 10 cm y la de las fabricadas
es X ∼ N (µ, σ). La varianza del proceso es aproximadamente estable y de los datos
historicos se puede suponer que σ = 0.3 cm. Por otra parte el valor de µ cambia
con ajustes en el proceso. Una muestra de 100 piezas tiene una media de 10.2 cm a)
construya un intervalo del 95 % para el valor actual de µ. b) ¿que tamano de muestra
hay que usar para tener una cota ε = 0.01?
2. En un celebre experimento Cavendish realizo en 1798 (utilizando una balanza de tor-
sion) 29 medidas de la densidad media de la Tierra ρT . La muestra (aquı se da ordenada
en valores crecientes) es (en g/cm3):
4.88 5.07 5.1 5.26 5.27 5.29 5.29 5.3 5.34 5.34
5.36 5.39 5.42 5.44 5.46 5.47 5.5 5.53 5.55 5.57
5.58 5.61 5.62 5.63 5.65 5.68 5.75 5.79 5.85
Suponiendo que corresponden a un modelo X = ρT + U con U ∼ N (0, σ) estime el
valor de ρT y obtenga la cota del error con una confianza del 95 %.
3. Para comprobar la variabilidad en el tiempo de explosion de cierto tipo de detona-
dor se obtuvo la muestra (en milisegundos por debajo de 2.7 s) (11, 23, 25, 9, 2, 6,
6.7. Ejercicios propuestos 165
−2, 2,−6, 8, 9, 19, 0, 2). Suponiendo que el tiempo de explosion es una variable alea-
toria N (µ, σ) hallar un lımite superior de confianza del 90 % para σ.
4. Sea X con densidad exponencial f(x) = λ exp(−λx) para x > 0. Una variable pivote
para λ, a partir de una muestra de tamano n, es 2nλX con densidad χ2(2n). Construir
un intervalo bilateral de confianza 1− α para λ.
5. El intervalo de tiempo X entre llegadas sucesivas de los vehıculos a una parada tiene
densidad exponencial de parametro λ. En una muestra de n = 10 valores de X ha
resultado un tiempo total de∑xi = 30.4 minutos. Construir un lımite superior de
confianza 1−α = 0.95 para E (X) (tiempo medio de espera) y otro para λ (frecuencia
de llegadas).
Seccion 6.3:
6. En uno de los primeros experimentos sobre la radioactividad (1910) Rutherford, Geiger
y Bateman observaron una fuente de polonio (recien descubierto por Marıa Curie)
durante 2608 intervalos de 7.5 segundos cada uno, registrandose con un detector el
numero x de particulas alfa emitidas cada intervalo, con los resultados
x 0 1 2 3 4 5 6 7 8 9 10 11 12
n (x) 57 203 383 525 532 408 273 139 45 27 10 4 2 2608
Los autores propusieron como modelo plausible para la funcion de masa desconocida
del numero X de particulas emitidas en el intervalo el de Poisson
f (x) = exp (−λ)λx
x!x = 0, 1, 2, ...
en el que, como se sabe E (X) = λ. Estime el valor de λ y obtenga la cota del error
con una confianza del 95 %.
Seccion 6.4:
7. La proporcion p de componentes de calidad aceptable es desconocida. En una mues-
tra inicial de 30 componentes han resultado 26 aceptables. a) usando este resultado
preliminar ¿que tamano de muestra hay que tomar para construir un intervalo del
99 % para p de longitud aproximada ±0.02? b) construya el intervalo si finalmente se
examinan 2000 resultando 1640 aceptables.
8. Para realizar un sondeo de opinion en Espana (poblacion 45 millones) se entrevista
a 1000 personas obteniendo con una confianza del 95 % un error menor del 3 %. a)
¿Cuantas personas habrıa que entrevistar en USA (poblacion 350 millones) para tener
igual error?. b) ¿Cuantas personas habrıa que entrevistar para tener un error menor
del 2 %?
166 Capıtulo 6. Intervalos. Pruebas de hipotesis
Seccion 6.5:
9. Un fabricante de componentes manufacturados, en un proceso estable bien modelado
por una distribucion normal, tiene unos lımites de especificacion de (0.42 ± 0.02) cm.
Se inspeccionan n = 20 componentes resultando
x = 0.42328 cm
s = 0.01776 cm
a) construya un intervalo de confianza 95 % para µ. b) construya un intervalo de
tolerancia cubriendo el 99 % de la poblacion con confianza del 95 %. c) ¿el proceso es
satisfactorio?
10. La resistencia a la rotura de cierto tipo de cables de acero, expresada en Kg, se su-
pone que es una VA X ∼ N(µ, σ). Una muestra de 5 cables ha dado los valores
(533, 552, 539, 564, 541). a) construir intervalos del 95 % para la resistencia media y la
variabilidad. b) estimar con una confianza del 99 % la tension que soportan el 95 % de
los cables, es decir, el lımite inferior de tolerancia para la resistencia.
Seccion 6.6:
Seccion 6.6.1:
11. Sea X ∼ N (µ, 1) y la prueba
H0 : µ ≤ 0
H1 : µ > 0
Con una muestra de tamano n = 16 y α = 0.05 calcule el valor de la funcion de
potencia en el valor µ = 0.5
12. (cont.) Halle n para que el valor de la funcion de potencia en µ = 0.5 sea 0.8
Seccion 6.6.2:
13. En una muestra de tamano n = 20 de una Va normal ha resultado x = 23.6 y s = 10.2.
Realizar la prueba H0 : µ = 20 frente a H1 : µ > 20 con α = 0.05.
14. (cont.) Realizar la prueba σ = 15 frente a σ < 15 con α = 0.05.
15. La distribucion de una poblacion X es N (µ, 20). Hallar el valor crıtico p para la prueba
H0 : µ = 50 si en una muestra de tamano 64 ha resultado (a) x = 52.5 (b) x = 57.5
16. En cierta reaccion quımica el reactante usado debe tener un pH de 8.20 El metodo para
medir el pH se sabe que da medidas insesgadas con distribucion normal de σ = 0.05
Una muestra de 10 medidas ha resultado en
6.7. Ejercicios propuestos 167
8.18, 8.17, 8.16, 8.15, 8.17, 8.21, 8.22, 8.16, 8.19, 8.18
(a) ¿Cual es el nivel crıtico de la prueba? (b) ¿Que conclusion se obtiene con α = 0.05?
17. (cont.) Se compara el pH de dos muestras para decidir si es igual.
A: 6.24, 6.31, 6.28, 6.30, 6.25, 6.26, 6.24, 6.29, 6.22, 6.28
B: 6.27, 6.25, 6.33, 6.27, 6.24, 6.31, 6.28, 6.29, 6.34, 6.27
¿Cual es el nivel crıtico de la prueba? ¿Cual es la conclusion si α = 0.05?
18. Segun la ley 76/211/EEC de la Union Europea (Council Directive on the approxi-
mation of the laws of the Member States relating to the making-up by weight or by
volume of certain prepackaged products) para probar si el contenido medio de un lote
de preenvasados corresponde al nominal µ0se tomara una muestra de n = 20 y se re-
chazara el lote si x < µ0 − t0.995s√n
donde x y s son la media y desviacion tıpica de la
muestra y t0.995 es el cuantil de la distribucion de Student de parametro (n− 1).
¿Que prueba de hipotesis convencional se esta utilizando? ¿Cual es la probabilidad de
rechazar indebidamente un lote de contenido medio µ0?
19. (cont.) Realizar la prueba si el contenido nominal es de 1000 ml y en la muestra de 20
ha resultado∑xi = 20072.0 ml y
∑x2i = 20153540.0 ml2
Seccion 6.6.3:
20. Cierta propuesta necesita superar el 50 % de los votantes. En una muestra de 1000
hubo 490 a favor. ¿Es evidencia suficiente, con α = 0.05, de que no saldra adelante?
(realice la prueba usando la aproximacion normal).
21. En un lote de m = 100 unidades del provedor A se han hallado 4 defectos, y en otro de
n = 120 del B se han hallado 6. ¿Es evidencia suficiente para rechazar, con α = 0.05,
la misma calidad? (realice la prueba usando la aproximacion normal)
Seccion 6.6.4:
22. La Directiva 76/116/EEC sobre abonos especifica que el nitrato amonico debe tener
un contenido mınimo en nitrogeno del 20 %. Un fabricante expide lotes de sacos en los
que la concentracion de nitrogeno es normal de media µ y desviacion tıpica σ = 1.5 %.
Determine un plan de muestreo tal que un lote con una concentracion media 2.5σ por
encima del contenido mınimo se acepte con una probabilidad de 0.95 y un lote con
una concentracion media 1.5σ por encima del contenido mınimo se acepte con una
probabilidad de 0.10
Otras pruebas:
168 Capıtulo 6. Intervalos. Pruebas de hipotesis
23. Si X es exponencial de parametro λ entonces para probar
H0 : λ ≤ λ0
H1 : λ > λ0
puede usarse T = 2nλ0X, que si λ = λ0 tiene una distribucion χ2(2n). Determine la
region crıtica de nivel α.
24. (cont.) La prueba anterior sobre λ equivale a otra sobre E (X) = 1/λ. ¿Cual?
25. (cont.) El intervalo de tiempo X entre llegadas sucesivas de los vehıculos a una parada
tiene densidad exponencial de parametro λ. En una muestra de n = 10 ha resultado
x = 3.04 min. Pruebe con α = 0.05 si dicho valor es compatible con H0 : el tiempo
medio de espera E (X) es de 5 min o mas.
Capıtulo 7
Modelo lineal
7.1. Modelo lineal simple
Para explicar la variabilidad experimental de las medidas del valor de una magnitud cons-
tante µ hemos considerado el modelo
Y = µ+ U
donde Y es la Va valor medido y U es la Va error.
Ahora vamos a estudiar una situacion mas general en la que lo que se mide es una funcion
µ (x) de una variable independiente x, no aleatoria, cuyo valor se fija para realizar el
experimento. Y en particular cuando la funcion µ (x) tiene una forma especialmente sencilla.
Definicion 7.1. Se denomina modelo lineal simple a
Y (x) = β0 + β1x+ U
donde la variable aleatoria Y (x) depende de la variable independiente no aleatoria x, y la
variable aleatoria U representa el error de medida o en general el efecto de otros factores,
aparte de x, sobre la Y .
El modelo es lineal en los parametros β0 y β1 desconocidos (x puede ser cualquier otra
f (x) que no incluya ningun parametro desconocido).
Ejemplo 7.1. Y (x) = β0 + β1 sin (x) + U es un modelo lineal.
Ejemplo 7.2. Una partıcula se mueve en linea recta a velocidad constante v que deseamos
conocer. La ecuacion del movimiento es s (t) = s (0) + vt, de manera que conociendo las
posiciones s (t1) y s (t2) en dos tiempos distintos, deducirıamos el valor de v ası:
s (t2)− s (t1)
t2 − t1= v
169
170 Capıtulo 7. Modelo lineal
en otras palabras: dos puntos (t1, s (t1)) y (t2, s (t2)) determinan la recta s (t) = s (0)+vt. Sin
embargo si las medidas de s (t) son con error (y las de t sin error), sean y (t1) = s (t1) + u1
e y (t2) = s (t2) + u2, esto ya no es ası, pues entonces
y (t2)− y (t1)
t2 − t1= v +
u2 − u1
t2 − t1y ahora la recta s(t) = s(0) + vt esta enmascarada por los errores que se han anadido en
cada medida.
La situacion corresponde a un modelo lineal simple
Y (t) = β0 + β1t+ U
con β0 = s (0) y β1 = v. Para poder filtrar lo errores (estimar los parametros) se precisan
mas de 2 medidas (cuantas mas mejor). Por ejempo, si se dispone de la muestra
t (s) 1.0 2.0 3.0 4.0 5.0 6.0
y (mm) 11 19 33 40 49 61
la imagen es
0 1 2 3 4 5 6 70
10
20
30
40
50
60
70
t (s)
y(t)
(m
m)
Figura 7.1: Puntos de la muestra del ejemplo 7.2
Ejemplo 7.3. Para estudiar la variacion del rendimiento Y de un proceso con la temperatura
x, se dispone de la siguiente muestra:
x C 45 50 55 60 65 70 75 80 85 90
y% 43 45 48 51 55 57 59 63 66 68
7.1. Modelo lineal simple 171
cuya imagen es que sugiere como plausible un modelo
40 50 60 70 80 9040
45
50
55
60
65
70
x (temperatura ºC)
y (r
endi
mie
nto
%)
Figura 7.2: Puntos de la muestra del ejemplo 7.3
Y = β0 + β1x+ U
7.1.1. Estimacion de mınimos cuadrados
Segun las hipotesis adicionales sobre la Va U la estimacion puede hacerse de una u otra
forma. La hipotesis mas simple es
E (U) = 0
V ar (U) = σ2
que equivale a
E (Y (x)) = µ (x) = β0 + β1x (7.1)
V ar (Y (x)) = σ2
Para la estimacion de los parametros β0, β1 y σ dispondremos de n observaciones indepen-
dientes de Y (x) en otros tantos valores fijados de x, muestra que denotaremos en lo sucesivo
((x1, y1), (x2, y2), ...(xn, yn)).
Denotaremos b0 y b1 las estimaciones con la muestra de β0 y β11.
1Las estimaciones, segun la notacion introducida en el capıtulo 5, se deberıan denotar con β0 y β1 pero,
para aligerar la notacion, las llamamos b0 y b1.
172 Capıtulo 7. Modelo lineal
La funcion desconocida µ (x) = β0 +β1x se estimara por la µ (x) = b0 +b1x que hace mınimo
el valor de
q (b0, b1) =n∑i=1
[yi − (b0 + b1xi)]2
yi− (b0 + b1xi) es la diferencia entre la ordenada observada yi en la abscisa xi y la calculada
con la recta en la misma abscisa: la funcion buscada (recta de mınimos cuadrados) es la que
ajusta mejor las ordenadas observadas.
Para hallar los numeros b0 y b1 que hacen mınimo el valor de q se resuelve el sistema:
∂q (b0, b1)
∂b0= −2
n∑i=1
[yi − (b0 + b1xi)] = 0
∂q (b0, b1)
∂b1= −2
n∑i=1
xi [yi − (b0 + b1xi)] = 0
(7.2)
es decir
b0n+ b1
n∑i=1
xi =
n∑i=1
yi
b0
n∑i=1
xi + b1
n∑i=1
x2i =
n∑i=1
xiyi
o en forma matricial (
n∑xi∑
xi∑x2i
)(b0
b1
)=
( ∑yi∑xiyi
)(7.3)
El determinante de la matriz del sistema es:
n∑
x2i −
(∑xi
)2= n
∑(xi − x)2 ≥ 0
Si n ≥ 2 y al menos 2 abscisas xi son distintas, entonces∑
(xi − x)2 > 0: la matriz tiene
inversa y la solucion es unica, lo que suponemos en todo lo que sigue.
La solucion corresponde a un mınimo2 pues la matriz hessiana:
H =
∂2q
∂b20
∂2q
∂b0∂b1∂2q
∂b0∂b1
∂2q
∂b21
=
(2n 2nx
2nx 2∑x2i
)
es definida positiva:
∂2q
∂b20= 2n > 0
detH = 4n∑
x2i − 4n2x2 = 4n
∑(xi − x)2 > 0
2La funcion cuadratica z = q (b0, b1) es no negativa. Su grafica (es decir, el conjunto de los puntos
(b0, b1, z) ∈ R3 tales que z = q (b0, b1)) es un paraboloide elıptico. La funcion tiene por tanto un mıni-
mo global, el vertice del paraboloide, cuyas coordenadas (b0, b1) son la solucion del problema de mınimos
cuadrados.
7.1. Modelo lineal simple 173
Compruebese que la solucion puede escribirse:
b1 =
∑(xi − x) (yi − y)∑
(xi − x)2 =
∑xiyi − (
∑xi) (
∑yi) /n∑
x2i − (
∑xi)
2 /n(7.4)
b0 = y − b1x
El metodo de mınimos cuadrados no proporciona una estimacion de σ2. Veremos que una
adecuada (el estimador correspondiente es insesgado) es
s2 =1
n− 2
n∑i=1
[yi − (b0 + b1xi)]2 (7.5)
que tambien puede escribirse (compruebese, sustituyendo b0 por su valor en (7.4) y operando)
s2 =1
n− 2
[n∑i=1
(yi − y)2 − b21n∑i=1
(xi − x)2
](7.6)
aunque es una formula mas suceptible a los errores de redondeo.
Ejemplo 7.4. (cont. del 2)∑ti = 21,
∑t2i = 91,
∑yi = 213,
∑y2i = 9293,
∑tiyi = 919∑(
ti − t)
(yi − y) = 919− 21× 213/6∑(yi − y)2 = 9293− 2132/6 = 1731.5∑(ti − t
)2= 91− 212/6 = 17.5
b1 =919− 21× 213/6
17.5= 9.9143
b0 = y − b1t = 213/6− 9.9143× 21/6 = 0.79995
s2 =1731.5− 9.91432 × 17.5
4= 2.8416
s = 1.6857
En conclusion, la estimacion de la velocidad es b1 = 9.91 mm s−1, la posicion inicial b0 = 0.8
mm y la desviacion tıpica del error U en las medidas de posicion s = 1.69 mm
Ejemplo 7.5. (cont. del 3)∑xi = 675,
∑x2i = 47625,
∑yi = 555,
∑y2i = 31483,
∑xiyi =
38645∑(xi − x) (yi − y) = 38645− 675× 555/10∑(xi − x)2 = 2062.5,
∑(yi − y)2 = 680.5
b1 =38645− 675× 555/10
2062.5=
1182.5
2062.5= 0.5733
b0 = y − b1x = 55.5− 0.5733× 67.5 = 16.8023
174 Capıtulo 7. Modelo lineal
0 1 2 3 4 5 6 70
10
20
30
40
50
60
70
t (s)
y(t)
(m
m)
Figura 7.3: Recta de regresion para la muestra del ejemplo 7.4
s =
√680.5− 0.57332 × 2062.5
8= 0.5627
40 50 60 70 80 9035
40
45
50
55
60
65
70
75
x (temperatura ºC)
y (r
endi
mie
nto
%)
Figura 7.4: Recta de regresion para la muestra del ejemplo 7.5
En conclusion, la estimacion de la variacion del rendimiento esperado con la temperatura
7.1. Modelo lineal simple 175
(en el rango de temperaturas entre 40 C y 100 C aproximadamente) es
µ (x) = 16.80 + 0.5733x%
(por cada incremento de la temperatura en 1 C el rendimiento esperado aumenta un 0.57 %).
Para una temperatura de 50 C el rendimiento esperado se estima de
µ (50) = 16.80 + 0.5733× 50 ≈ 45.5 %
La estimacion de la variabilidad del rendimiento a cualquier temperatura es s = 0.5627 %.
7.1.2. Propiedades de los estimadores
La muestra ((x1, y1), (x2, y2), ...(xn, yn)) es una realizacion particular de la muestra aleatoria
((x1, Y1), (x2, Y2), ...(xn, Yn)), en la que las Yi son independientes, con
E (Yi) = β0 + β1xi
V ar (Yi) = σ2
y las estimaciones b0 y b1 (7.4) son realizaciones particulares de los estimadores
B1 =
∑(xi − x)
(Yi − Y
)∑(xi − x)2 (7.7)
B0 = Y −B1x
Se prueba (utilizando las hipotesis 7.1) que dichos estimadores son insesgados (ver Comple-
mentos):
E (B1) = β1
E (B0) = β0
y por lo tanto, en un x arbitrario
E (B0 +B1x) = β0 + β1x
Se prueba (ver Complementos) que sus varianzas son
V ar (B1) =σ2∑
(xi − x)2 (7.8)
V ar (B0) =
( ∑x2i
n∑
(xi − x)2
)σ2
176 Capıtulo 7. Modelo lineal
y (tengase en cuenta que B0 y B1 no son independientes):
V ar (B0 +B1x) = σ2
(1
n+
(x− x)2∑(xi − x)2
)(7.9)
Por ultimo, la estimacion (7.5) es el valor particular en la muestra del estimador
S2 =1
n− 2
n∑i=1
[Yi − (B0 +B1xi)]2 (7.10)
que tambien puede escribirse (ver (7.6))
S2 =1
n− 2
[n∑i=1
(Yi − Y
)2 −B21
n∑i=1
(xi − x)2
](7.11)
y se prueba (ver Complementos) que
E(S2)
= σ2
7.2. Estimacion de maxima verosimilitud
Suponemos ahora que Y (x) ∼ N(β0 + β1x, σ) (es decir, ademas de las hipotesis (7.1) la
distribucion de Y (x) en cada x fijado es normal). Podemos entonces estimar los parametros
mediante Maxima Verosimilitud.
La densidad de probabilidad en cada yi es
f (yi) =1
σ√
2πexp
(− 1
2σ2[yi − (β0 + β1xi)]
2
)y la funcion de verosimilitud resulta
L (β0, β1, σ) =
(1
σ√
2π
)nexp
(− 1
2σ2
n∑i=1
[yi − (β0 + β1xi)]2
)
Es evidente que, cualquiera que sea σ, los valores b0 y b1 de β0 y β1 que hacen maximo L
son los que hacen mınimo an∑i=1
[yi − (β0 + β1xi)]2
es decir, coinciden con las estimaciones de mınimos cuadrados obtenidas antes.
En cuanto a la estimacion de σ2 resulta:
σ2 =1
n
n∑i=1
[yi − (b0 + b1xi)]2
que no coincide con la (7.5) insesgada que vamos a usar (esta es obviamente sesgada).
7.3. Intervalos de confianza 177
7.3. Intervalos de confianza
En la hipotesis Y (x) ∼ N(β0 + β1x, σ) el modelo lineal generaliza el caso estudiado en el
capıtulo 6 de una variable Y ∼ N (µ, σ) a una variable Y (x) ∼ N (µ (x) , σ). Como allı,
se pueden acotar los errores de estimacion (intervalos de confianza) y realizar predicciones
sobre las observaciones futuras de Y (x) en cada x fijado (intervalos de tolerancia).
7.3.1. Para los parametros β0 y β1
Los estimadores B0 y B1 (7.7), funciones lineales de las Yi ∼ N(β0 +β1xi, σ) independientes,
son tambien normales, con esperanzas β0 y β1 y las varianzas dadas en (7.8). Por lo tanto
B1 − β1
σ
√1∑
(xi − x)2
∼ N(0, 1)
y si se sutituye σ por su estimador S se prueba que
B1 − β1
S
√1∑
(xi − x)2
∼ t (n− 2)
de donde, con confianza 1− α
β1 ∈
(b1 ± t1−α/2 × s
√1∑
(xi − x)2
)y analogamente para β0.
Ejemplo 7.6. (cont. del 4) La estimacion de la velocidad v = β1 de la partıcula re-
sulto 9.91 mm s−1. Hallemos una cota del error de estimacion con confianza 1−α = 0.95 En
la tabla C.3 se lee t0.975 (4) = 2.7764 y con los valores de s = 1.6857 y∑(
ti − t)2
= 17.5
allı obtenidos
t1−α/2 × s√
1∑(ti − t
)2 = 2.7764× 1.6857×√
1
17.5= 1.1188
resulta, con una confianza del 95 %
v = (9.91± 1.12) mm s−1
7.3.2. Para el parametro σ
Se prueba que(n− 2)S2
σ2∼ χ2 (n− 2)
178 Capıtulo 7. Modelo lineal
y entonces, con confianza 1− α
σ ∈
(s
√n− 2
χ21−α/2
, s
√n− 2
χ2α/2
)
7.3.3. Para la recta µ (x) = β0 + β1x
El estimador B0 + B1x, insesgado de β0 + β1x, como es una funcion lineal de las Yi inde-
pendientes con distribucion normal, tiene tambien una distribucion normal, con la varianza
dada en (7.9)
E (B0 +B1x) = β0 + β1x
V ar (B0 +B1x) = σ2
[1
n+
(x− x)2∑(xi − x)2
]Por tanto la variable aleatoria
(B0 +B1x)− (β0 + β1x)
σ
√1
n+
(x− x)2∑(xi − x)2
∼ N(0, 1)
y si se sustituye σ por su estimador S se prueba que
(B0 +B1x)− (β0 + β1x)
S
√1
n+
(x− x)2∑(xi − x)2
∼ t (n− 2)
Finalmente, con confianza (1− α) es3:
β0 + β1x ∈
((b0 + b1x)± t1−α/2 × s
√1
n+
(x− x)2∑(xi − x)2
)
Ejemplo 7.7. (cont. del 5). Hallemos un intervalo para el rendimiento esperado a la tem-
peratura de 50 C con 1− α = 0.99
Para una temperatura de 50 C el rendimiento esperado se estimo de
µ (50) = 16.80 + 0.5733× 50 ≈ 45.5 %
En la tabla C.3 se lee t0.995 (8) = 3.3554 y
t1−α/2 × s
√1
n+
(x− x)2∑(xi − x)2 = 3.3554× 0.5627×
√1
10+
(50− 67.5)2
2062.5= 0.9412
3El intervalo, funcion de x, es de la forma (b0 + b1x) ± ε (x) donde y = ε (x) es una hiperbola de eje real
vertical, centro (x, y) y vertices ±t1−α/2s/√n.
7.4. Intervalos de tolerancia para Y (x) 179
resulta, con una confianza del 95 %
µ (50) = 45.5± 0.94 %
En la figura se han dibujado los intervalos de confianza de µ(x) = β0 + β1x para x desde 40
hasta 95 C
40 50 60 70 80 9035
40
45
50
55
60
65
70
75
x (temperatura ºC)
y (r
endi
mie
nto
%)
Figura 7.5: intervalos de confianza de µ(x) = β0 + β1x para x desde 40 hasta 95C (ejemplo
7.7)
7.4. Intervalos de tolerancia para Y (x)
Un intervalo de tolerancia para Y (x) en un x fijado, de contenido p y confianza 1−α, ambos
valores especificados, esta dado por dos numeros yL y yS tales que
P (yL < Y (x) < yS) ≥ p
con confianza 1− α. Es decir, al menos el 100p% de los valores de Y medidos en el x fijado
se hallaran dentro del intervalo (yL, yS) con dicha confianza. El intervalo es de la forma
yL = (b0 + b1x)− ks
yS = (b0 + b1x) + ks
180 Capıtulo 7. Modelo lineal
y la solucion k debe hallarse numericamente (ver Complementos). Ademas depende de p,
1 − α, n, el punto x y las abscisas de la muestra (x1, ..., xn), por lo que no es posible
una tabulacion como para la variable normal (ver Capıtulo 6).
Una solucion aproximada es
k = u(1+p)/2
√n− 2
χ2α
1 +d2
2−d4(
2u2(1+p)/2 − 3
)24
d2 =
1
n+
(x− x)2∑(xi − x)2
donde u(1+p)/2 es el cuantil de la N (0, 1) y χ2α el de la ji-cuadrado de parametro (n− 2)
Ejemplo 7.8. (cont.) calculemos un intervalo de tolerancia aproximado en x = 50 con
p = 0.95 y 1− α = 0.99
u(1+p)/2 = u0.975 = 1.96, χ2α (n− 2) = χ2
0.01 (8) = 1.6465
d2 =1
10+
(50− 67.5)2
2062.5= 0.2485
1 +d2
2−d4(
2u2(1+p)/2 − 3
)24
= 1 +0.2485
2−
0.24852 ×(2× 1.962 − 3
)24
= 1.1122
k = 1.96×√
8
1.6465× 1.1122 = 4.8051
Con una confianza del 99 % al menos el 95 % de los valores del rendimiento Y a la tempera-
tura de x = 50 C estaran dentro del intervalo
µ(50)± k × s =
45.5± 4.8051× 0.5627 = (42.80, 48.20) %
es decir, con dicha confianza
P (42.80 < Y (50) < 48.20) ≥ 0.95
En la figura se han dibujado desde x = 40 hasta x = 95
7.5. Interpretacion geometrica
Consideremos las matrices
X =
1 x1
1 x2
... ...
1 xn
=(
1 x)
y =
y1
y2
...
yn
b =
(b0
b1
)(7.12)
7.5. Interpretacion geometrica 181
40 50 60 70 80 9035
40
45
50
55
60
65
70
75
x (temperatura ºC)
y (r
endi
mie
nto
%)
Figura 7.6: Intervalos de tolerancia para Y (x), con x variando entre 40 y 95 (ejemplo 7.8)
donde b0 y b1 son numeros a determinar.
Si los n ≥ 2 puntos (xi, yi) estan sobre una recta entonces el sistema y =b01 + b1x = Xb
es compatible y determinado (dos ecuaciones distintas determinan la recta, las demas son
combinaciones lineales de aquellas): geometricamente el vector y pertenece al subespacio de
Rn engendrado por las columnas de X.
Si no estan sobre una recta el sistema es incompatible. Hallemos en este caso el vector
y = Xb de dicho subespacio (combinacion lineal de las columnas de X) mas proximo al y
en el sentido de la norma euclidea, es decir, tal que:
mın ‖y −Xb‖2 = mın
n∑i=1
[yi − (b0 + b1xi)]2
Ello equivale a que y −Xb sea ortogonal al subespacio engendrado por las columnas de X:
XT (y −Xb) = 0
(donde 0 es un vector columna con dos ceros). Resulta el sistema (compruebe que es identico
al (7.3)):
XTXb = XTy (7.13)
El rango de XTX es el de X y el sistema tiene solucion unica si, y solo si, el rango de X es
2, es decir si al menos hay 2 abscisas xi distintas. En ese caso
b =(XTX
)−1XTy (7.14)
182 Capıtulo 7. Modelo lineal
Se prueba que el sistema (7.13) es formalmente la solucion de mınimos cuadrados del pro-
blema mas general modelo lineal multiple
Y (x) = β0 + β1x1 + β2x2 + · · ·+ βkxk + U
donde la variable aleatoria Y es la variable dependiente, las variables no aleatorias xi son
las variables independientes, fijadas para el experimento, y la variable aleatoria U representa
el error de medida o en general el efecto de otros factores, aparte de las x, sobre la Y . La
matrices correspondientes a una muestra (xi1, xi2, ..., xik, yi) (i = 1, 2, ..n) son
X =
1 x11 x12 ... x1k
1 x21 x22 ... x2k
... ... ... ... ...
1 xn1 xn2 ... xnk
y =
y1
y2
...
yn
b =
b0
b1
b2
...
bk
7.6. Valoracion del ajuste
Usaremos ahora una notacion mas breve, frecuente en los textos de estadıstica: yi ≡ b0+b1xi.
Con ella la estimacion de σ2 es (formula (7.5))
(n− 2) s2 =n∑i=1
(yi − yi)2
que tambien puede escribirse (ver (7.6))
(n− 2) s2 =n∑i=1
(yi − y)2 − b21n∑i=1
(xi − x)2
Ademas
b21
n∑i=1
(xi − x)2 =
n∑i=1
(yi − y)2
(pues (yi − y) = (b0 + b1xi − y) = (y − b1x+ b1xi − y) = b1 (xi − x)).
En conclusionn∑i=1
(yi − yi)2 =n∑i=1
(yi − y)2 −n∑i=1
(yi − y)2
Se llama suma de cuadrados residual a
ssres =∑
(yi − yi)2
7.6. Valoracion del ajuste 183
suma de cuadrados total a
sstot =∑
(yi − y)2
y suma de cuadrados explicada a
ssex =∑
(yi − y)2
En resumen
ssres = sstot − ssex
Como ssres ≥ 0 es ssex ≤ sstot.
Definicion 7.2. El coeficiente de determinacion R2 es la proporcion de la suma de
cuadrados total explicada por la recta de mınimos cuadrados
R2 =ssexsstot
De la definicion resulta que 0 ≤ R2 ≤ 1.
Ademas cuanto menor sea ssres, es decir, cuanto mejor se ajusten los puntos a la recta, mayor
es el valor de R2.
En un caso extremo, el valor mınimo de ssres se tiene si los puntos estan sobre una recta (ni
horizontal ni vertical) y es ssres = 0, por lo tanto ssex = sstot, y entonces R2 = 1.
Y en el otro, el valor maximo de ssres se tiene si ssres =sstot (cuando ssex = 0) y entonces
R2 = 0.
Definicion 7.3. El coeficiente de correlacion lineal de la muestra es
r =
∑(xi − x) (yi − y)√∑
(xi − x)2∑ (yi − y)2(7.15)
Observar que su signo es el de la pendiente b1 de la recta. Y que no esta definido si∑(yi − y)2 = 0 (en cuyo caso los puntos estan sobre una recta horizontal) o si
∑(xi − x)2 =
0 (en cuyo caso los puntos estan sobre una recta vertical).
Con el puede ponerse
ssex = b21∑
(xi − x)2 =(∑
(xi − x) (yi − y))2∑(xi − x)2 = r2sstot
ası que
ssres = sstot − ssex = sstot(1− r2
)Como ssres ≥ 0 es claro que |r| ≤ 1 (desigualdad de Schwarz en (7.15)).
184 Capıtulo 7. Modelo lineal
Los puntos (xi, yi) estan sobre una recta (ni horizontal ni vertical) si, y solo si, ssres = 0, es
decir, si |r| = 1.
Ademas de la definicion de R2 resulta que
R2 = r2
Ejemplo 7.9. (cont. del 5)∑xi = 675,
∑x2i = 47625,
∑yi = 555,
∑y2i = 31483,
∑xiyi =
38645∑(xi − x) (yi − y) = 38645− 675× 555/10 = 1182.5∑(xi − x)2 = 2062.5,
∑(yi − y)2 = 680.5
b1 =38645− 675× 555/10
2062.5=
1182.5
2062.5= 0.5733
b0 = y − b1x = 55.5− 0.5733× 67.5 = 16.8023
ssres = 680.5− 0.57332 × 2062.5 = 2.533
sstot∑
(yi − y)2 680.5
ssres∑
(yi − yi)2 2.533
ssex 677.967
R2 =ssexsstot
=677.967
680.5= 0.996
es decir la recta ajustada explica el 99.6 % de la variabilidad en los valores del rendimiento.
Ademas
r =1182.5√
2062.5× 680.5= 0.9981
7.7. Regresion lineal simple
Supongamos ahora una Va bidimensional (X,Y ). Para estudiar la relacion entre ambas
variables se dispone de una muestra de n observaciones (xi, yi) en la que, a diferencia de
lo supuesto en el modelo lineal, ninguna de las dos es controlada o fijada.
Ahora nos interesamos en alguna de las dos Vas condicionales (Y | X = x) o (X | Y = y) y
en particular en sus esperanzas E (Y | X = x) o E (X | Y = y) (ver 3.10).
Consideremos el caso en que la densidad conjunta f (x, y) es normal. Se prueba que queda de-
terminada por X ∼ N (µX , σX) e Y ∼ N (µY , σY ) y ademas por el coeficiente de correlacion
ρ entre ambas (en el sentido de la definicion 3.4)
ρ =σXYσXσY
7.7. Regresion lineal simple 185
donde σXY = Cov (X,Y )
Se prueba que la Va condicional (Y | X = x) es normal con
E (Y | X = x) = µY +σYσX
ρ (x− µX)
V ar (Y | X = x) = σ2Y
(1− ρ2
)y la (X | Y = y) es normal con
E (X | Y = y) = µX +σXσY
ρ (y − µY )
V ar (X | Y = y) = σ2X
(1− ρ2
)Las dos funciones E (Y | X = x) y E (X | Y = y) se llaman historicamente funciones de
regresion lineal.
Puede verse entonces que la Va (Y | X = x) satisface las hipotesis del modelo lineal simple
con distribucion normal (seccion 7.2) pues su esperanza es de la forma
E (Y | X = x) = β0 + β1x
con
β0 = µY − β1µX
β1 = ρσYσX
y su varianza es constante (no depende de x)
V ar (Y | X = x) = σ2Y
(1− ρ2
)Y lo mismo puede decirse de la (X | Y = y), cuya esperanza es
E (X | Y = y) = α0 + α1y
con
α0 = µX − α1µY
α1 =σXσY
ρ
y varianza constante
V ar (X | Y = y) = σ2X
(1− ρ2
)En conclusion, el metodo de mınimos cuadrados para la estimacion con la muestra de n ob-
servaciones (xi, yi) de la funcion E (Y | X = x) = β0 + β1x conduce a una solucion formal-
mente identica a la del modelo lineal simple (7.4). Y otra analoga para la E (X | Y = y) =
α0 + α1x. Todo lo dicho en las secciones 7.3 hasta la 7.6 inclusive es de aplicacion al caso.
186 Capıtulo 7. Modelo lineal
Ademas ahora las formulas del modelo lineal admiten una reescritura en terminos de esti-
maciones de los parametros de la Va (X,Y ):
Las estimaciones de µX y µY son x e y.
Las estimaciones de σ2X y σ2
Y son s2X y s2
Y (varianzas de la muestra).
Una estimacion insesgada de σXY = E ((X − µX) (Y − µY )) es
sXY =1
n− 1
∑(xi − x) (yi − y)
y una estimacion (sesgada) de ρ es el coeficiente de correlacion lineal de la muestra (7.15)
r =sXYsXsY
=
∑(xi − x) (yi − y)√∑
(xi − x)2∑ (yi − y)2
En la regresion de Y sobre X, E (Y | X = x) = β0 + β1x:
La estimacion b1 del coeficiente β1 = ρ σYσX es
b1 =
∑(xi − x) (yi − y)∑
(xi − x)2 = rsYsX
La estimacion b0 del coeficiente β0 = µY − β1µX es
b0 = y − b1x
La recta estimada es
b0 + b1x = y + rXYsYsX
(x− x)
y analogamente en la de X sobre Y .
7.8. Ejercicios propuestos
Secciones 7.1, 7.3 y 7.4:
1. Para estudiar la corrosion de cierta aleacion se ha realizado un experimento controlado
en el que se mide la ganancia en peso de la muestra Y (en %) (que indıca la cantidad
de oxıgeno que ha reaccionado) a distintos tiempos de exposicion x (en h)
x 1 2 2.5 3 3.5 4
y 0.02 0.03 0.035 0.042 0.05 0.054
a) grafique los puntos, ajuste un modelo lineal y calcule R2. b) Calcule un intervalo
de confianza del 95 % para la ganancia esperada a x = 3.2 h c) Calcule un intervalo
de tolerancia de contenido 0.9 con confianza 95 % en x = 3.2 h.
7.8. Ejercicios propuestos 187
2. Para estudiar la relacion entre la longitud (en cm) nominal (x) y real (y) de ciertas
piezas mecanizadas en serie se ha obtenido la siguiente muestra:
x y14 0.262 0.262 0.24512 0.496 0.512 0.49034 0.743 0.744 0.751
1 0.976 1.010 1.004
114 1.265 1.254 1.252
112 1.498 1.518 1.504
134 1.738 1.759 1.750
2 2.005 1.992 1.992
a) grafique los puntos, ajuste un modelo lineal y calcule R2. b) Calcule un intervalo
de confianza 95 % para la longitud media fabricada correspondiente a la nominal de 1
cm . c) calcule un intervalo de tolerancia de contenido 0.99 y confianza 0.95 para las
longitudes fabricadas correspondientes a la nominal de 1 cm .
Secciones 7.1, 7.3 y 7.5:
3. Un metodo para medir g (aceleracion de la gravedad) consiste en un electroiman que
sujeta una bola de acero a distancia fijada d del suelo. Cuando se interrumpe la corriente
se libera la bola, que cae, y automaticamente se pone en marcha un cronometro. Cuando
la bola llega al suelo golpea un sensor que detiene el cronometro, obteniendose el tiempo
de caida t.
La ecuacion del movimiento es d = 12gt
2, de donde t =√
1/g√
2d. Sin embargo, en
la medida de los tiempos t para cada valor de d fijado hay 2 fuentes posibles de error
de valor desconocido: uno sistematico debido a que el campo del electroiman no se
extingue inmediatamente, y otro experimental o aleatorio U . El modelo que describe
el experimento es
Y = β0 + β1
√2d+ U
donde Y es el tiempo medido, β0 es el error sistematico, β1 = 1/√g y U es el error
experimental, con E (U) = 0 y V ar (U) = σ2.
Se dispone de la muestra
d (m) 0.20 1.00 2.00 3.00 5.00
y (s) 0.26 0.50 0.68 0.82 1.07
a) Estimar los parametros β0 y β1. Estimar g a partir de β1. Interpretar el valor
estimado de β0. b) dibujar los puntos experimentales y la funcion ajustada, en ejes
(d, y) y (√
2d, y). c) estimar la desviacion tıpica σ del error experimental, y la desviacion
tıpica del estimador de β1.
188 Capıtulo 7. Modelo lineal
4. (cont.) Escribir la matriz X (segun (7.12)) correspondiente a una muestra ((d1, y1),
(d2, y2), ...(dn, yn)) para el problema
Y = β0 + β1
√2d+ U
5. Recta por el origen: sea el modelo
Y = βx+ U
con E (U) = 0 y V ar (U) = σ2 que equivale a E (Y ) = βx y V ar (Y ) = σ2. Dada
la muestra ((x1, y1), (x2, y2), ...(xn, yn)) hallar la estimacion b de β de modo que sea
mınimo el valor de
q (b) =
n∑i=1
[yi − bxi]2
6. (cont.) Escribir la matriz X segun (7.13) correspondiente a una muestra ((x1, y1),
(x2, y2), ...(xn, yn)) para el problema
Y = β1x+ U
Seccion 7.7:
7. De una muestra se conocen los siguientes datos: r = 0.9; sX = 1.2; sY = 2.1; x = 5;
y = 10 A partir de los mismos, obtenganse las rectas de regresion mınimo cuadraticas
de X sobre Y y de Y sobre X.
8. A partir de una muestra de valores de las variables X e Y , se ha determinado la
regresion de Y sobre X, obteniendose
b0 = 10, b1 = 0.45, R2 = 0.9 y x = 20. Calcular la recta de X sobre Y .
9. Demostrar que r es invariante a cambios de origen y escala. Usando este resultado
demostrar que el coeficiente de correlacion de los puntos (xi, yi) es el mismo que el de
los puntos (yi, yi).
10. Se dispone de 4 muestras distintas de tamano n = 11 (las 1,2 y 3 con identicos valores
de x). Calcule en cada caso la recta de mınimos cuadrados, realizando el dibujo de los
puntos con su recta, y halle el valor de r.
7.8. Ejercicios propuestos 189
1− 3 1 2 3 4 4
obs x y y y x y
1 10.0 8.04 9.14 7.46 8.0 6.58
2 8.0 6.95 8.14 6.77 8.0 5.76
3 13.0 7.58 8.74 12.74 8.0 7.71
4 9.0 8.81 8.77 7.11 8.0 8.84
5 11.0 8.33 9.26 7.81 8.0 8.47
6 14.0 9.96 8.10 8.84 8.0 7.04
7 6.0 7.24 6.13 6.08 8.0 5.25
8 4.0 4.26 3.10 5.39 19.0 12.50
9 12.0 10.84 9.13 8.15 8.0 5.56
10 7.0 4.82 7.26 6.42 8.0 7.91
11 5.0 5.68 4.74 5.73 8.0 6.89
11. Tomemos la funcion y = x2. Elijamos n abscisas xi simetricas respecto al origen, de
modo que∑xi = 0, y sus correspondientes ordenadas yi = x2
i . Ası que los n puntos
(xi, yi) estan sobre la parabola. Calcule el coeficiente de correlacion lineal.
Seccion 7.5:
12. Halle el polinomio Pm(x) =∑m
j=0 bjxj de grado m que aproxima en el sentido de
mınimos cuadrado la muestra (xi, yi) de n observaciones, es decir que hace mınimo el
valor de:
q =
n∑i=1
[yi − Pm(xi)]2 =
n∑i=1
yi − m∑j=0
bjxji
2
(sugerencia: ver (7.13) y forme las matrices X y XTX correspondientes).
13. Ajuste un polinomio a los siguientes datos:
x 1 2 3 4 5 6 7 8 9 10
y 20.6 30.8 55 71.4 97.3 131.8 156.3 197.3 238.7 291.7
14. En 1973 el ingeniero holandes J.R. de Jong propuso el siguiente modelo para el tiempo
T que se tarda en realizar una tarea manual simple en funcion del numero de veces
que se ha practicado: T ≈ ts−n donde T es el tiempo, n el numero de veces y t y s
parametros que dependen de la tarea y el individuo. Estime t y s con los siguientes
datos
T 22.4 21.3 19.7 15.6 15.2 13.9 13.7
n 0 1 2 3 4 5 6
(sugerencia: linearize el modelo).
190 Capıtulo 7. Modelo lineal
Capıtulo 8
Modelizacion
8.1. Introduccion
La ley de probabilidades de la Va con la que se trabaja puede ser de forma conocida pero
desconocidos sus parametros o completamente desconocida.
Cuando es de forma conocida el problema se reduce a estimar los parametros a partir de
una muestra como hemos estudiado en los capıtulos anteriores. Por ejemplo la ley binomial
corresponde a un experimento muy concreto, o la normal a la que suelen ajustarse los erro-
res de medida; muchas veces la ley se deduce de un modelo fısico que despues ha de ser
comprobado experimentalmente, como la exponencial para el tiempo de vida de los atomos
radiactivos, la normal para la velocidad de las moleculas de un gas ideal, o la de Maxwell
para su rapidez.
En muchas ocasiones, sin embargo, la ley es completamente desconocida y se plantea el
problema de la aproximacion de alguna de las funciones equivalentes F (distribucion), f
(masa o densidad) o F−1 (cuantiles) que determinan su distribucion de probabilidades, sin
recurrir a ninguna forma particular: lo que se llama una estimacion no parametrica.
Por ultimo una estimacion no parametrica puede servir para elegir un modelo parametrico,
comparando el ajuste de aquella con el candidato parametrico.
8.2. La funcion de distribucion empırica
Como se sabe, la especificacion de la distribucion de probabilidades de X, sea esta discreta
o continua, puede hacerse con la funcion de distribucion:
F (x) = P (X ≤ x) ∀x ∈ R
191
192 Capıtulo 8. Modelizacion
Una estimacion obvia de F a partir de una muestra (x1, x2, ..., xn) de X se obtiene estimando
la probabilidad por la correspondiente frecuencia relativa experimental:
Definicion 8.1. La funcion de distribucion empırica es
F (x) =n(≤ x)
n∀x ∈ R
donde n(≤ x) denota el numero de elementos de la muestra que son menores o iguales que
x.
Para construir con facilidad F conviene basarse en la muestra ordenada en valores crecien-
tes, que denotamos (x(1), x(2), ...x(n)). Por medio de ella la funcion de distribucion empırica
es:
F (x) =
0 si x < x(1)
k/n si x(k) ≤ x < x(k+1)
1 si x ≥ x(n)
y se ve que equivale a una asignacion de masa de probabilidad 1/n a cada elemento de la
muestra.
Ejemplo 8.1. supongamos la muestra ficticia (3, 5, 1, 5, 8, 7, 6). La muestra ordenada es
(1, 3, 5, 5, 6, 7, 8). La funcion de distribucion empırica es
F (x) =
0 x < 1
1/7 1 ≤ x < 3
2/7 3 ≤ x < 5
4/7 5 ≤ x < 6
5/7 6 ≤ x < 7
6/7 7 ≤ x < 8
1 x ≥ 8
Ejemplo 8.2. Se dispone de una muestra de 106 observaciones de la variable aleatoria T ,
tiempo en minutos entre cada 2 llegadas consecutivas de camiones a un punto de carga desde
un instante de observacion inicial:
(8, 30, 17, 65, 8, 38, 35, 4, 19, 7, 14, 12, 4, 5, 4, 2, 7, 5, 12, 50,
33, 10, 15, 3, 10, 1, 5, 30, 41, 21, 31, 1, 18, 12, 5, 24, 7, 6, 31, 0,
4, 2, 20, 1, 30, 2, 1, 3, 12, 12, 9, 28, 6, 50, 63, 5, 17, 11, 24, 0,
47, 90, 13, 21, 55, 43, 5, 19, 47, 24, 4, 6, 27, 4, 6, 37, 16, 41, 68, 11,
5, 28, 42, 3, 42, 8, 52, 2, 11, 41, 4, 35, 21, 3, 17, 10, 16, 0, 69, 105,
8.2. La funcion de distribucion empırica 193
0 1 2 3 4 5 6 7 8 90
1/7
2/7
3/7
4/7
5/7
6/7
1
x
F(x)
Figura 8.1: Funcion de distribucion empırica (ejemplo 8.1)
45, 23, 5, 10, 12, 17).
El primer camion llego 8 min despues del comienzo de las observaciones; el segundo 30 min
despues del primero, el tercero 17 despues del segundo...
La muestra ordenada es:
(0, 0, 0, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 4, 4, 4, 4, 4,
4, 4, 5, 5, 5, 5, 5, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8, 8, 8,
9, 10, 10, 10, 10, 11, 11, 11, 12, 12, 12, 12, 12, 12, 13, 14, 15, 16, 16, 17,
17, 17, 17, 18, 19, 19, 20, 21, 21, 21, 23, 24, 24, 24, 27, 28, 28, 30, 30, 30,
31, 31, 33, 35, 35, 37, 38, 41, 41, 41, 42, 42, 43, 45, 47, 47, 50, 50, 52, 55,
63, 65, 68, 69, 90, 105)
Es decir, t(1) = t(2) = t(3) = 0, t(4) = · · · = t(7) = 1, ...,, t(106) = 105.
La funcion de distribucion empırica es:
F (t) =
0 t < 0
3/106 0 ≤ t < 1
7/106 1 ≤ t < 2
11/106 2 ≤ t < 3
...
105/106 90 ≤ t < 105
1 t ≥ 105
194 Capıtulo 8. Modelizacion
0 20 40 60 80 100 1200
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
t (minutos)
F(t)
Figura 8.2: Funcion de distribucion empırica (ejemplo 8.2)
Las propiedades del estimador F se dan en los Complementos.
8.3. La funcion de masa empırica
Sea una Va discreta X cuya funcion de masa desconocida f (x) = P (X = x) deseamos
aproximar a partir de una muestra (x1, x2, ..., xn). Una estimacion no parametrica de f
a partir de una muestra (x1, x2, ..., xn) de X se obtiene estimando la probabilidad por la
correspondiente frecuencia relativa experimental.
Definicion 8.2. Si en la muestra hay k valores distintos S = a1, a2, ..., ak se agrupan
segun sus repeticiones. La muestra agrupada es (n (x) , x ∈ S) , donde n (x) es el numero de
elementos de la muestra que son iguales a x, y∑
x∈S n (x) = n.
La funcion de masa empırica es
f (x) =n (x)
nx ∈ S
Las propiedades del estimador f se dan en los Complementos.
Ejemplo 8.3. Rutherford, Geiger y Bateman (Phil. Mag., 1910) observaron una substancia
radioactiva durante 2608 intervalos de 7.5 segundos cada uno, registrandose con un detector
el numero x de particulas alfa emitidas cada intervalo, con los resultados
8.4. La funcion de densidad empırica 195
x 0 1 2 3 4 5 6 7 8 9 10 11 12
n (x) 57 203 383 525 532 408 273 139 45 27 10 4 2
En la tabla 8.1 se calculan las frecuencias relativas (funcion de masa empırica) de cada valor
x observado, y en la figura 8.3 se muestra la grafica correspondiente. Los autores propusieron
como modelo plausible para la funcion de masa desconocida el de Poisson
f (x) = exp (−λ)λx
x!x = 0, 1, 2, ...
en el cual la estimacion MV de λ es x (ejercicio 8 del capıtulo 6)
x =1
2608
12∑x=0
x× n (x) = 3.87 cuentas/7.5 s.
En la tabla 8.1 y en la figura 8.3 se incluye para comparacion dicho modelo:
f (x) = exp (−3.87)(3.87)x
x!x = 0, 1, 2, ...
x n (x) freq. rel. Poisson
0 57 0.0219 0.0209
1 203 0.0778 0.0807
2 383 0.1469 0.1562
3 525 0.2013 0.2015
4 532 0.2040 0.1949
5 408 0.1564 0.1509
6 273 0.1047 0.0973
7 139 0.0533 0.0538
8 45 0.0173 0.0260
9 27 0.0104 0.0112
10 10 0.0038 0.0043
11 4 0.0015 0.0015
12 2 0.0008 0.0005
2608 1 0.9998
Tabla 8.1: Comparacion entre la funcion de masa empırica (frecuencia relativa) del ejemplo
8.3 y la funcion de masa de Poisson con λ = 3.87
8.4. La funcion de densidad empırica
Sea una Va continua X cuya funcion de densidad desconocida f deseamos aproximar a
partir de una muestra (x1, x2, ..., xn).
196 Capıtulo 8. Modelizacion
0 1 2 3 4 5 6 7 8 9 10 11 120
0.05
0.1
0.15
0.2
0.25
número de cuentas
pro
ba
bili
da
d
Freq. relativa
Poisson
Figura 8.3: Dibujo de los valores de la comparacion entre la funcion de masa empırica del
ejemplo 8.3 y una funcion de masa de Poisson con λ = 3.87 (tabla 8.1).
Como
f(x) = F ′(x) = lımh→0
F (x+ h)− F (x)
h
para aproximar f(x) debemos estimar F (x + h) − F (x) con un valor de h suficientemente
pequeno. Una estimacion serıa entonces
F (x+ h)− F (x) =n(x, x+ h]
n
donde n(x, x + h] denota el numero de elementos de la muestra que estan en el intervalo
(x, x+ h]. Finalmente
f(x) =F (x+ h)− F (x)
h=n(x, x+ h]
n× 1
h
La dificultad para llevar a la practica la idea anterior esta en que n es finito con lo que, si h
es demasiado pequeno, en el intervalo (x, x + h] no habra ningun elemento de la muestra o
habra tan solo uno.
Debemos conformarnos entonces con utilizar un valor de h no demasiado pequeno que per-
mita estimar la probabilidad F (x+ h)−F (x). Ello significa que en lugar de aproximar f(x)
estaremos aproximando su valor medio en el intervalo, pues
F (x+ h)− F (x)
h=P (x < X ≤ x+ h)
h=
1
h
∫ x+h
xf (u) du
El metodo de trabajo habitual es el siguiente:
8.4. La funcion de densidad empırica 197
1. se elige el valor adecuado de h en funcion de la muestra disponible. Para ello hay
diversos criterios orientativos. Por ejemplo
h ≈ 3.5s
n1/3
donde s es la desviacion tıpica de la muestra.
2. se elige un origen a0 ≤ mın (x1, x2, ..., xn).
3. se consideran a partir del origen intervalos1 de longitud h hasta cubrir la muestra
(llamados tambien clases; bins en ingles):
I1 = [a0, a0 + h], I2 = (a0 + h, a0 + 2h], ...Im = (a0 + (m− 1)h, a0 +mh]
de manera que m es el entero mas pequeno que verifica a0 +mh ≥ max (x1, x2, ..., xn).
4. en cada uno de dichos m intervalos Ij se estima la densidad media de probabilidad con
njnh
(j = 1, ...,m)
donde nj es el numero de elementos de la muestra incluidos en el intervalo Ij (ası que∑mj=1 nj = n).
Se llama histograma (o funcion de densidad empırica) a la funcion
f (x) =
0 x < a0
njnh
x ∈ Ij
0 x > a0 +mh
que es efectivamente una funcion de densidad:∫Rf (x) dx =
m∑j=1
∫ a0+jh
a0+(j−1)hf (x) dx =
m∑j=1
njnh× h =
1
n
m∑j=1
nj = 1
Ejemplo 8.4. (cont. del 8.2) Construyamos un histograma de la muestra de 106 intervalos
de tiempo entre llegadas sucesivas de camiones a un punto de carga. Tomaremos x0 = 0. La
desviacion tıpica muestral es s = 20.33 min y resulta como valor orientativo
h =3.5× 20.33
3√
106= 15.035
y tomaremos h = 15. Resultan los intervalos: [0, 15], (15, 30], (30, 45], ...(90, 105]. Ahora los
valores nj de observaciones en cada intervalo se hallan con comodidad sobre la muestra
ordenada. Los calculos se resumen en la tabla 8.2.
198 Capıtulo 8. Modelizacion
Ij njnjn
njnh
[0, 15] 57 0.5377 0.0358
(15, 30] 23 0.2170 0.0145
(30, 45] 14 0.1321 0.0088
(45, 60] 6 0.0566 0.0038
(60, 75] 4 0.0377 0.0025
(75, 90] 1 0.0094 0.0006
(90, 105] 1 0.0094 0.0006
106 1
Tabla 8.2: Valores del histograma para la muestra del ejemplo 8.2
0 20 40 60 80 100 1200
0.005
0.01
0.015
0.02
0.025
0.03
0.035
0.04
0.045
0.05
tiempo entre llegadas en min
de
nsid
ad
de
pro
ba
bili
da
d
Figura 8.4: Histograma obtenido a partir de la muestra del ejemplo 8.2. Comparacion con
un modelo exponencial con λ = 0.05.
La forma del histograma sugiere que un modelo plausible para la densidad f puede ser el
exponencial
f (t) = λ exp (−λt) t > 0
y como el valor de la media muestral es t = 20.38 min, la estimacion MV de λ es 1/t = 0.05
camiones/min. En la figura 8.4 se ha superpuesto al histograma dicho modelo:
f (t) = 0.05 exp (−0.05t) t > 0
1Se usan intervalos (a, b] para que cada observacion xi se incluya en uno solo, pero tambien podrıamos
utilizar intervalos [a, b). Teoricamente son equivalentes pues para una variable continua P (a < X < b) =
P (a ≤ X < b) = P (a < X ≤ b) = P (a ≤ X ≤ b)
8.5. La funcion de cuantiles empırica 199
Ejemplo 8.5. (cont.) La funcion de distribucion correspondiente es
F (t) = 1− exp(−0.05t) t > 0
y en la figura 8.5 se superpone a la funcion de distribucion empırica calculada en el ejemplo
8.2.
0 20 40 60 80 100 1200
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
t (minutos)
F(t)
Figura 8.5: Funcion de distribucion empırica obtenida a partir de la muestra del ejemplo 8.2
comparada con la funcion de distribucion exponencial de λ = 0.05.
8.5. La funcion de cuantiles empırica
Sea ahora X continua. Entonces su funcion de distribucion F es continua y existe la funcion
inversa x = F−1(p), p ∈ (0, 1), llamada funcion de cuantiles y que suele denotarse x = Q(p).
Como una estimacion de F es la funcion de distribucion empırica F , entonces una estimacion
de Q deberıa ser la inversa de F . Pero esta carece de inversa: si x(k) 6= x(k+1) y se elige
p = k/n, entonces el valor inverso de F (x) = k/n podrıa ser cualquier x de [x(k), x(k+1)).
Ejemplo 8.6. para la muestra (1, 3, 5, 5, 6, 7, 8) es F (x) = 4/7 si x ∈ [5, 6).
La solucion mas utilizada consiste en suavizar F sustituyendo los tramos horizontales por
otros inclinados que sı permitan la inversion, del siguiente modo:
Se asocia a cada x(k) la probabilidad
x(k) 7−→ pk =k − 0.5
nk = 1, 2, ..., n
200 Capıtulo 8. Modelizacion
y, para k = 1, 2, ..., n − 1, se conecta el par de puntos(x(k),
k−0.5n
)y(x(k+1),
(k+1)−0.5n
)mediante un segmento de recta.
Ejemplo 8.7. En la figura 8.7 se muestra la funcion de distribucion empırica y la suaviza-
cion lineal propuesta para la muestra (1, 3, 5, 5, 6, 7, 8):
0 1 2 3 4 5 6 7 8 90
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
x
p
función de distribución empírica
suavización lineal
Figura 8.6: Suavizacion lineal
Ahora si p ∈ [k−0.5n , (k+1)−0.5
n ) determinamos la abscisa x = Q(p) que le corresponde inter-
polando: la ecuacion de la recta es
x− x(k)
x(k+1) − x(k)=
p− k−0.5n
(k+1)−0.5n − k−0.5
n
=p− k−0.5
n1n
= np− k + 0.5
y resulta
x = Q(p) = x(k) + (np− k + 0.5)(x(k+1) − x(k)
)Ademas si p < 1−0.5
n es Q(p) = x(1), y si p > n−0.5n es Q(p) = x(n).
En la practica, dado p ∈ (0, 1) primero hay que averiguar el segmento para interpolacion, es
decir el k tal quek − 0.5
n≤ p < (k + 1)− 0.5
n
o lo que es igual
k ≤ np+ 0.5 < k + 1
y resulta que k es la parte entera de np+ 0.5. Reunimos todo ello en una definicion:
8.5. La funcion de cuantiles empırica 201
Definicion 8.3 (cuantil empırico). Sea (x(1), x(2), ..., x(n)) una muestra ordenada de tamano
n de un variable aleatoria continua X. Para p ∈ (0, 1), sea
np+ 0.5 = k + r
donde k es la parte entera y r ∈ [0, 1) la fraccionaria. El cuantil empırico de orden p es
Q(p) = x(k) + r(x(k+1) − x(k)
)Ademas, si k = 0 entonces Q(p) = x(1) y si k = n entonces Q(p) = x(n).
Ejemplo 8.8. con la muestra (1, 3, 5, 5, 6, 7, 8) para p = 1/4 es
7× 1
4+
1
2= 2 +
1
4
ası que Q(1/4) = x(2) + 0.25(x(3) − x(2)) = 3 + 0.25(5− 3) = 3.5
Y para p = 3/4 es
7× 3
4+
1
2= 5 +
3
4
ası que Q(3/4) = x(5) + 0.75(x(6) − x(5)) = 6 + 0.75(7− 6) = 6.75
0 1 2 3 4 5 6 7 8 90
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
p
Q(p)
Figura 8.7: Valores de la funcion de cuantiles empırica para p = 1/4 y p = 3/4
Ejemplo 8.9. (cont. del 8.5):
para p = 1/4 es
106× 1
4+
1
2= 27 + 0
ası que Q(1/4) = x(27) = 5 min
202 Capıtulo 8. Modelizacion
para p = 3/4 es
106× 3
4+
1
2= 80 + 0
ası que Q(3/4) = x(80) = 30 min
para p = 0.8 es
106× 0.8 +1
2= 85 + 0.3
ası que Q(0.8) = x(85) + 0.3(x(86) − x(85)) = 35 + 0.3(37− 35) = 35.6 min
Se llaman primero, segundo y tercer cuartil a Q(1/4), Q(1/2) y Q(3/4), y se denotan
tambien q1, q2 y q3.
Se llaman percentiles a los Q(p) correspondientes a p = 0.01, 0.02, ..., 0.99.
Nota: La asociacion x(k) → pk = (k − 0.5) /n significa que por definicion x(k) es el cuantil
de orden pk. Otros criterios para interpolar el cuantil Q(p) de una muestra de tamano n de
una magnitud continua se obtienen con otras elecciones de las probabilidades pk. Ademas de
la anterior otra comun en ingenierıa es pk = k/ (n+ 1). Con cualquiera de ellas si n→∞ el
cuantil Q(p) tiende a partir la muestra ordenada en proporciones p y 1−p (es decir, converge
en probabilidad a Q(p)).
8.6. Modelizacion con los cuantiles
Sea la muestra ordenada (x(1), x(2), ..., x(n)), es decir los cuantiles estimados x(k) = Q(pk)
correspondientes a las probabilidades pk (k = 1, 2, ..., n). Si la funcion de cuantiles teorica
de la variable aleatoria X de la que proviene la muestra es x = Q(p), los cuantiles teoricos
correspondientes son Q (pk) y tenderan a ser aproximadamente iguales a sus estimaciones
(tanto mas cuanto mayor sea n), es decir
x(k) ≈ Q(pk) k = 1, 2, ...n
y resulta que los puntos (Q(pk), x(k)) (teoricos,empıricos) se ajustaran aproximadamente a
una recta de pendiente 450 que pasa por el origen.
Se llama grafico cuantil-cuantil (qq-plot) al de los puntos (Q(pk), x(k)) para comprobar si
cierto modelo teorico Q(p) es adecuado a la muestra.
En principio, para calcular los Q(pk) habrıa que conocer, o estimar, los parametros del
modelo. Sin embargo muchas veces Q(p) depende linealmente de solo uno o dos parametros
desconocidos, sea Q(p) = a+ bQ0(p), donde Q0 (p) no depende ya de ningun parametro, de
manera que el grafico de los puntos (Q0(pk), x(k)) se ajustara a una recta. Si ello es ası su
8.6. Modelizacion con los cuantiles 203
pendiente b y su ordenada a pueden estimarse entonces por mınimos cuadrados, y de sus
valores deducir los parametros del modelo Q (p).
Ejemplo 8.10. Si X es exponencial de parametro λ
F (x) = 1− exp(−λx) = p
x = − 1
λln (1− p)
ası que Q0 (p) = − ln (1− p) y los puntos (− ln (1− pk) , x(k)) deberıan ajustarse a una recta
de pendiente b = λ−1 y ordenada 0.
Ejemplo 8.11. Si X es normal de parametros µ y σ
F (x) = Φ
(x− µσ
)= p
x = σΦ−1(p) + µ
ası que Q0 (p) = Φ−1 (p) y los puntos (Φ−1(pk), x(k)) deberıan ajustarse a una recta de
pendiente b = σ y ordenada a = µ.
Nota: hemos construido el grafico poniendo en abscisas los valores Q(pk) (teoricos) y en
ordenadas los x(k) (experimentales) y la recta de mınimos cuadrados es la convencional
(minimizando las desviaciones de las x(k) sobre la recta). En muchos paquetes de software
estadıstico los ejes pueden estar al reves, pero la recta de ajuste debe ser siempre en el mismo
sentido (experimentales sobre teoricos). Tambien es frecuente graficar las posiciones de los
Q (pk) con los valores de pk (graficos probabilısticos).
8.6.1. Estimacion de los parametros
Las estimaciones de mınimos cuadrados de los parametros a y b de Q (p) = a + bQ0 (p), a
partir de los n puntos (Q0 (pi) , x(i)) son:
b =
∑x(i)Q0 (pi)−
(∑x(i)
)(∑Q0 (pi)) /n∑
Q20 (pi)− (
∑Q0 (pi))
2 /n
a =(∑
x(i) − b∑
Q0 (pi))/n
Ejemplo 8.12. Construyamos como ejercicio el grafico cuantil-cuantil para la muestra fic-
ticia (1, 3, 5, 5, 6, 7, 8) con un modelo gaussiano. Como n = 7 las probabilidades asociadas a
cada elemento de la muestra (cuantiles empıricos) con pk = (k − 0.5)/7 son
pk = (0.0714, 0.2143, 0.3571, 0.5000, 0.6429, 0.7857, 0.9286)
y los cuantiles teoricos con la N(0, 1) correspondientes a estas probabilidades son
Φ−1(pk) = (−1.4652,−0.7916,−0.3661, 0, 0.3661, 0.7916, 1.4652)
204 Capıtulo 8. Modelizacion
−1.5 −1 −0.5 0 0.5 1 1.51
2
3
4
5
6
7
8
9
Φ−1
(pk)
x(k)
Figura 8.8: Dibujo de los puntos (Φ−1(pk), x(k)) (qq-plot) y de la recta de ajuste de mınimos
cuadrados para la muestra del ejemplo 8.12.
En la figura 8.8 se muestra el grafico (Φ−1(pk), x(k)) en el que se incluye la recta de ajuste
de mınimos cuadrados.
La recta de ajuste de mınimos cuadrados es (en este caso es Q0 = 0)
b =
∑x(i) × Φ−1 (pi)∑
(Φ−1 (pi))2 = 2.3712
a = x =1
n
∑x(i) = 5
Si se considerase que el ajuste es satisfactorio, se modelizarıa la variable aleatoria X de la
que proviene la muestra como gaussiana con µ estimada 5 y σ estimada 2.37
Ejemplo 8.13. (cont. del 8.5) En la figura 8.9 se muestra el qq-plot de la muestra de 106
intervalos de tiempo entre llegadas sucesivas de camiones a un punto de carga suponiendo
un modelo exponencial.
Como n = 106 las probabilidades asociadas a cada elemento de la muestra (cuantiles empıri-
cos) con pk = (k − 0.5)/106 son
pk = (0.0047, 0.0142, 0.0236, ..., 0.9858, 0.9953)
y los cuantiles teoricos con la Q0 (p) = − ln (1− p) correspondientes a estas probabilidades
son
Q0(pk) = (0.0047, 0.0143, 0.0239, ..., 4.2580, 5.3566)
8.7. Resumen y comparacion de muestras 205
0 1 2 3 4 5 6−20
0
20
40
60
80
100
120
140
−log(1−pk))
x(k)
Figura 8.9: Dibujo de los puntos (Φ−1(pk), x(k)) (qq-plot) y de la recta de ajuste de mınimos
cuadrados para la muestra del ejemplo 8.2.
Los parametros de la recta de mınimos cuadrados son b = 20.5564 y a = −0.1119, que pasa
practicamente por el origen. La pendiente teorica es λ−1 ası que el parametro λ estimado por
mınimos cuadrados es λ = 1/b = 0.0486 (recordar que la estimacion de maxima verosimilitud
de λ−1 = E (X) para la exponencial es x, que en la muestra vale 20.3774 ası que la estimacion
de maxima verosimilitud de λ es 0.0491)
8.7. Resumen y comparacion de muestras
El objetivo es resumir en unos pocos numeros aspectos relevantes de la muestra. Debe quedar
claro que ningun resumen de este tipo puede sustituir (equivaler) a la muestra.
Sea una muestra ordenada (x(1), x(2), ..., x(n)) de una variable aleatoria X continua.
8.7.1. Centro
El punto central de la muestra ordenada se llama la mediana. Segun que n sea par o impar
se calcula ası:
xm =x(k) + x(k+1)
2n = 2k
xm = x(k+1) n = 2k + 1
206 Capıtulo 8. Modelizacion
y se comprueba que, tal como se han definido los cuantiles empıricos, coincide con q2.
La mediana de una muestra de una variable aleatoria continua X es tambien una estimacion
de la mediana de la poblacion X, que se define como el numero m tal que
P (X < m) = P (X > m) =1
2
Ejemplo 8.14. en la muestra del ejemplo 8.13 es xm = (x(53) + x(54))/2 = 12 min
8.7.2. Dispersion
La dispersion total de la muestra es su rango, igual a x(n) − x(1).
Una medida mas robusta, es decir menos influenciada por los valores alejados del centro es
el rango intercuartılico, igual a q3− q1 (es decir, es la amplitud del intervalo que contiene
el 50 % central).
Ejemplo 8.15. (cont.) el rango intercuartılico es 30− 5 = 25.min
8.7.3. Simetrıa
Para medir el grado de simetrıa de la muestra (mas precisamente del 50 % central) puede
usarse la posicion de la mediana entre los cuartiles. Si q3 − xm = xm − q1 la muestra es
simetrica. Si q3− xm > xm− q1 es asimetrica a la derecha, y en otro caso hacia la izquierda.
En resumen un coeficiente de simetrıa es
(q3 − xm)− (xm − q1) = q3 + q1 − 2xm
que sera menor, igual o mayor que cero segun que la muestra sea asimetrica a la izquierda,
simetrica o asimetrica a la derecha. Para que la medida no dependa de la escala se puede
dividir por el rango intercuartılico, obteniendose ası el coeficiente de simetrıa (de Galton):
cg =q3 + q1 − 2xm
q3 − q1
Ejemplo 8.16. (cont)
cg =30 + 5− 2× 12
30− 5= 0.44
y es asimetrica a la derecha (los datos a la derecha de la mediana se extienden mas lejos que
a la izquierda).
8.7. Resumen y comparacion de muestras 207
8.7.4. Valores atıpicos
Es frecuente que en la muestra aparezcan datos distantes del centro, en las colas de la
distribucion. Pueden ser valores extremos legıtimos, pero tambien pueden deberse a errores
de transcripcion o medida, o porque se han tomado en circunstancias distintas de los demas.
Un criterio simple es considerar atıpicas en principio las observaciones menores que
`i = q1 − 1.5 (q3 − q1)
o mayores que
`s = q3 + 1.5 (q3 − q1)
Ejemplo 8.17. (cont)
`i = 5− 1.5(30− 5) = −32.5
`s = 30 + 1.5(30− 5) = 67.5
y los valores 68, 69, 90 y 105 son atıpicos.
Nota: el siguiente parrafo extraıdo de http://exploringdata.cqu.edu.au/ozone.htm es alec-
cionador:
En 1985 tres investigadores (Farman, Gardinar y Shanklin) estaban perplejos porque datos
recogidos por el British Antarctic Survey mostraban que los niveles de ozono en la Antartida
habıan caido un 10 % por debajo de los normales. La pregunta era por que el satelite Nimbus
7, que llevaba instrumentos a bordo para medirlos no lo habıa detectado. Cuando examinaron
los datos del satelite no tardaron en darse cuenta que habıa ya registrado concentraciones tan
bajas durante anos, pero el ordenador habıa sido programado para desecharlas!. El satelite
Nimbus 7 habıa recogido evidencias de los bajos niveles de ozono desde 1976. El dano causado
a la atmosfera por los clorofluorcarbonos no habıa sido detectado y tratado durante 9 anos
porque los valores atıpicos habıan sido desechados sin ser examinados.
Moraleja: las observaciones atıpicas pueden ser las mas valiosas de una muestra.
8.7.5. Diagramas de caja (box-plot)
Es una representacion grafica de la muestra en la que se reflejan simultaneamente su centro,
dispersion, simetrıa, recorrido y posibles valores atıpicos.
Supongamos que la escala de valores de la variable se traza verticalmente:
208 Capıtulo 8. Modelizacion
1. Se dibuja un rectangulo, de anchura horizontal arbitraria, altura vertical q3−q1, y cuyos
lados horizontales se situan segun la escala vertical en q1 y q3. Se senala la posicion de
xm.
2. Se trazan lineas verticales desde q1 hasta el dato mas pequeno no atıpico (es decir en
el intervalo [`i, q1] ), y desde q3 hasta el dato mas grande no atıpico (es decir en el
intervalo [q3, `s] ).
3. Se senala la posicion de los datos atıpicos.
Ejemplo 8.18. La muestra ordenada (2.30956, 2.30986, 2.31001, 2.3101, 2.3101, 2.31017,
2.31024, 2.31028, 2.31163) corresponde a las medidas hechas por Raleigh en 1895 de la masa
(en gramos) del nitrogeno obtenido de la atmosfera (eliminando el oxıgeno, dioxido de car-
bono y vapor de agua) contenido en cierto volumen en condiciones especıficas de presion y
temperatura.
Para p = 1/4
9× 1
4+
1
2= 2 + 0.75
ası que q1 = 2.30986 + 0.75× (2.31001− 2.30986) = 2.3099725 g
Para p = 3/4
9× 3
4+
1
2= 7 + 0.25
ası que q3 = 2.31024 + 0.25× (2.31028− 2.31024) = 2.31025 g
Y para p = 1/2 la mediana es q2 = x(5) = 2.3101 g
El lımite inferior de valores atıpicos es
li = 2.3099725− 1.5× (2.31025− 2.3099725) = 2.309556
y el lımite superior
ls = 2.31025 + 1.5× (2.31025− 2.3099725) = 2.310666
resultando que x(9) es atıpico.
Los diagramas de caja son de gran utilidad para comparar muestras.
Ejemplo 8.19. (continuacion) La muestra ordenada (2.29816, 2.29849, 2.29869, 2.29889,
2.2989, 2.2994, 2.30054, 2.30074, 2.30143, 2.30182) corresponde a las medidas hechas por
Rayleigh de la masa (en gramos) del nitrogeno obtenido por medio de una reaccion quımi-
ca (a partir de urea), contenido en el mismo volumen que la muestra anterior en iguales
condiciones de presion y temperatura. Cualquiera que fuese la procedencia del nitrogeno, a
8.7. Resumen y comparacion de muestras 209
2.3096
2.3098
2.31
2.3102
2.3104
2.3106
2.3108
2.311
2.3112
2.3114
2.3116
Nitró
ge
no
(g
)
x(9)
x(1)
x(8)
q1
q2
q3
Figura 8.10: Diagrama de caja o box-plot correspondiente a la muestra del ejemplo 8.18
igualdad de volumen, presion y temperatura deberıa haber, aparte la variabilidad experimen-
tal, la misma masa.
En la figura 8.11 se comparan los box-plot de ambas muestras en los que se aprecia claramente
la mayor masa de las medidas de procedencia atmosferica, ası como su menor variabilidad
experimental. Rayleigh (y Ramsay) concluyeron que en la atmosfera habıa otro gas, hasta
entonces desconocido, lo que les llevo al descubrimiento del argon (0.94 % de Ar en el aire).
Ejemplo 8.20. En 1879 Michelson realizo 100 medidas de la velocidad de la luz en el aire
usando una modificacion de un metodo propuesto por Foucault. El objetivo del experimento
era medir la variacion de la velocidad de la luz con el movimiento del sistema inercial (la
Tierra). El experimento (para el que Michelson invento el interferometro optico) fue negativo,
y puso las bases de la Teorıa de la Relatividad.
La medidas se realizaron, en fechas sucesivas y con ajustes del sistema experimental, en cinco
grupos de 20 medidas cada uno. Los valores obtenidos se dan a continuacion ordenados. La
unidad son 1000 Km/s y se les ha restado 299 (es decir, el numero 0.65 corresponde a una
medida de 299.65× 103 Km/s).
g1 =(0.65, 0.74, 0.76, 0.81, 0.85, 0.85, 0.88, 0.90, 0.93, 0.93,
0.95, 0.96, 0.96, 0.98, 0.98, 0.98, 1.00, 1.00, 1.00, 1.07).
g2 =(0.76, 0.79, 0.79, 0.80, 0.80, 0.80, 0.81, 0.83, 0.83, 0.84,
0.85, 0.88, 0.88, 0.88, 0.88, 0.90, 0.94, 0.94, 0.96, 0.96)
210 Capıtulo 8. Modelizacion
Químico Atmosférico
2.298
2.3
2.302
2.304
2.306
2.308
2.31
2.312
Nitró
ge
no
(g
)
Figura 8.11: Diagramas de caja (o box-plot) del ejemplo 8.19
g3 =(0.62, 0.72, 0.72, 0.84, 0.84, 0.84, 0.84, 0.84, 0.85, 0.85,
0.86, 0.86, 0.87, 0.88, 0.88, 0.88, 0.88, 0.91, 0.95, 0.97)
g4 =(0.72, 0.74, 0.75, 0.76, 0.76, 0.77, 0.78, 0.80, 0.81, 0.81,
0.82, 0.84, 0.85, 0.85, 0.86, 0.88, 0.89, 0.89, 0.91, 0.92)
g5 =(0.74, 0.76, 0.78, 0.79, 0.80, 0.81, 0.81, 0.81, 0.81, 0.81,
0.81, 0.82, 0.84, 0.85, 0.87, 0.87, 0.87, 0.89, 0.94, 0.95)
8.8. Ejercicios propuestos
Secciones 8.2, 8.3 y 8.4
1. Suponiendo que
(3, 7, 1, 2, 10, 11, 7, 6, 8, 8, 7),
es la muestra de una variable aleatoria discreta, X, de la que se desconoce su distribu-
cion. Se pide:
a) Determinar la funcion de distribucion empırica de X.
b) Determinar la funcion de masa empırica de X.
8.8. Ejercicios propuestos 211
1 2 3 4 5299.6
299.65
299.7
299.75
299.8
299.85
299.9
299.95
300
300.05V
elo
cid
ad
de
la
lu
z (
×1
03 K
m/s
)
Figura 8.12: Diagramas de caja (o box-plot) del ejemplo 8.20
2. La siguiente muestra, proporcionada por la Agencia Estatal de Meteorologıa (AEMET),
se corresponde con las precipitaciones medias en la Espana peninsular (media de todos
los pluviometros peninsulares de la AEMET expresada en mm) durante los 24 anos
hidrologicos que van desde 1989/90 a 2012/13.
(560, 602, 498, 542, 505, 453, 706, 682, 628, 460, 474, 664,
495, 595, 637, 403, 542, 597, 505, 510, 646, 542, 362, 593).
Utilizando la muestra anterior, se pide:
a) Determinar la funcion de distribucion empırica de la variable aleatoria X = “pre-
cipitacion media en Espana”.
b) Determinar la funcion de densidad empırica de X, dibujando el histograma co-
rrespondiente.
Secciones 8.5 y 8.7:
3. La European Agency for Safety and Health at Work fija un OEL (occupational exposure
limit: lımite de exposicion profesional) para el plomo en el aire de 150µg m−3. Para
controlar los valores X de contaminacion en un laboratorio se han muestreado 15
puntos resultando: 208, 4, 579, 59, 115, 309, 132, 371, 22, 15, 120, 80, 19, 68, 7.
a) Calcule los cuartiles, el coeficiente de simetrıa y los valores atıpicos.
b) Dibuje el box-plot de la muestra de X.
212 Capıtulo 8. Modelizacion
c) Sea Y = log (X). Calcule los cuartiles, el coeficiente de simetrıa y los valores atıpicos.
d) Dibuje el box-plot de la muestra de Y .
e) Dibuje el qq-plot de la muestra de Y suponiendo un modelo normal.
f) Estime los parametros del modelo normal ajustando una recta al qq-plot anterior y
tambien los de maxima verosimilitud.
Secciones 8.4 y 8.6:
4. La muestra ordenada corresponde a las 29 medidas de la densidad media de la Tierra
ρT (g cm3) del experimento de Cavendish (ejercicio propuesto 2 del capıtulo 6):
4.88 5.07 5.1 5.26 5.27 5.29 5.29 5.3 5.34 5.34
5.36 5.39 5.42 5.44 5.46 5.47 5.5 5.53 5.55 5.57
5.58 5.61 5.62 5.63 5.65 5.68 5.75 5.79 5.85
a) calcule y dibuje 2 histogramas: ambos con el mismo valor de h pero con origen de
clases distintos: uno a0 = 4.88 y otro a0 = 4.84.
b) dibuje el qq-plot suponiendo un modelo normal.
Apendice A
Soluciones a los Ejercicios
A.1. Capıtulo 1
1. A∪B = (ABc)∪(BAc)∪(AB) y los tres sucesos entre parentesis son disjuntos. Ası que,
aplicando el axioma 1
P (A ∪B) = P (ABc) + P (BAc) + P (AB)
Ademas A = (ABc) ∪ (AB) y como los 2 sucesos entre parentesis son disjuntos se
deduce que
P (ABc) = P (A)− P (AB)
y analogamente
P (AcB) = P (B)− P (AB)
Finalmente, sustituyendo arriba
P (A ∪B) = P (A) + P (B)− P (AB)
2.
P (1) = P (2) = · · · = P (5) = p→ P (1, 2, 3, 4, 5) = 5p
P (6) = 2P (1, 2, 3, 4, 5)→ P (6) = 10p
1 = P (6) + P (1, 2, 3, 4, 5)→ 1 = 15p
y resulta p = 1/15. Entonces
P (2, 4, 6) = 12p = 4/5
213
214 Soluciones a los Ejercicios
3.
P (par) + P (impar) = 1→ 3p+ 3q = 1
P (par)− P (impar) = 0.1→ 3p− 3q = 0.1
y resulta p = 11/60, q = 3/20
4.
1 =
n∑i=1
P (ωi) = c
n∑i=1
i = cn(n+ 1)
2→ c =
2
n(n+ 1)
5. Los casos favorables (entre parentesis) son: ”suma 9”=126(6), 135(6), 144(3), 225(3),
234(6), 333(1), total 25; ”suma 10”=136(6), 145(6), 226(3), 235(6), 244(3), 334(3),total 27. Los casos posibles son 63 = 216. Resultan P (”suma 9”) = 25/216 y P (”suma 10”) =
27/216.
6. El numero de resultados es |Ω| = Nn y son equiprobables.
Las k defectuosas pueden aparecer en k posiciones distintas del total de las n extrac-
ciones, ası que hay
(n
k
)distribuciones distintas. En cada una de estas las k defec-
tuosas pueden obtenerse de (Np)k formas distintas y con ellas las n − k defectuosas
de (N (1− p))n−k formas distintas. Ası que el numero de resultados distintos con k
defectuosas es |Ak| =(n
k
)(Np)k (N (1− p))n−k = Nn
(n
k
)pk (1− p)n−k.
La probabilidad de pedida es
P (k) =|Ak||Ω|
=
Nn
(n
k
)pk (1− p)n−k
Nn=
(n
k
)pk (1− p)n−k
para 0 ≤ k ≤ n.
7. El numero de resultados es |Ω| =(Nn
)muestras distintas de n piezas, y son equiproba-
bles.
De ellos hay |Ak| =(Npk
)(N−Npn−k
)con exactamente k piezas defectuosas (de entre las
Np) y n− k no defectuosas (de entre las N −Np).
La probabilidad pedida es
P (k) =
(Npk
)(N(1−p)n−k
)(Nn
) k = 0, 1, ...,mın (n,Np)
8. El numero de resultados es |Ω| = 6n y son equiprobables (no lo serıan si el dado no fuese
equilibrado). Calculemos la probabilidad de que el 3 aparezca k veces (0 ≤ k ≤ n).
Los k treses pueden aparecer en k posiciones distintas de las n totales, ası que hay(n
k
)distribuciones. En cada una de estas ademas las n − k posiciones distintas de 3
A.1. Capıtulo 1 215
pueden ocuparse de 5n−k formas distintas. Ası que el numero de resultados con k treses
es |Ak| =(n
k
)5n−k. La probabilidad de k treses es
P (k) =|Ak||Ω|
=
(n
k
)5n−k
6n=
(n
k
)(1
6
)k (5
6
)n−kLa probabilidad de que aparezca el tres al menos una vez se calcula ası
P (≥ 1) =n∑k=1
P (k)
Sin embargo es mucho mas facil a partir del suceso complementario que en este caso
es que no aparezca ningun 3 cuya probabilidad es
P (0) =
(n
0
)(1
6
)0(5
6
)n−0
=
(5
6
)nası que la pedida es
P (≥ 1) = 1− P (0) = 1−(
5
6
)n9. Un vertice queda dentro si el punto dista de el a lo mas r, es decir si queda dentro del
cuarto de cırculo con centro en el vertice y radio r. El area total de la region favorable
es πr2, ası pues la probabilidad es πr2/`2.
La probabilidad es la misma en el siguiente experimento: se deja caer al azar un disco
circular de radio r sobre una malla de puntos, cuadrada de paso `. ¿Probabilidad de
que el disco caiga sobre un nodo?
Y la misma si se supone que el disco esta fijo y lo que se elige aleatoriamente es la
malla. En esta forma se puede suponer que el disco es un cuerpo a localizar y la malla
es una de sondeos.
10. Los terremotos peligrosos se producen en un segmento de la falla de longitud (teorema
de Pitagoras) 2×√
102 − 12 y de ellos los que tienen su epicentro a menos de 5 km se
producen en un segmento de longitud 2 ×√
52 − 12. Como los epicentros se localizan
al azar la probabilidad es(
2×√
52 − 12)/(
2×√
102 − 12)
= 0.49237
11. La distancia, en el plano z = 0, del punto de corte al origen es d tanϕ
P (corta) = P (d tanϕ < r) = P (ϕ < arctan(r/d))
=arctan(r/d)
c
12.
P (S | S∗) =P (S∗ | S)P (S)
P (S∗ | S)P (S) + P (S∗ | N)P (N)
=p
p+ 1m (1− p)
216 Soluciones a los Ejercicios
13. Sean los sucesos S = “se transmite un 1”, S′ = “se recibe un 1”, N = “se transmite un
0” y N ′ = “se recibe un 0”. En el enunciado se indica que: P (S) = p, P (N) = 1 − p,P (S′|N) = β y P (N ′|S) = α. La probabilidad pedida sera:
P (S|S′) =P (S′|S)P (S)
P (S′|S)P (S) + P (S′|N)P (N)=
(1− α)p
(1− α)p+ β(1− p).
14. a) Denotemos M=“bloque de mineral”, M∗=“bloque estimado como de mineral”,
E=“bloque de esteril”, E∗=“bloque estimado como de esteril”. Calculemos P (M∗)
por medio de la formula de la probabilidad total:
P (M∗) = P (M∗ |M)P (M) + P (M∗ | E)P (E)
= 0.80× 0.30 + 0.25× 0.70
= 0.415
Observar que, aunque la previson es de un 30 % de bloques de mineral, con el metodo
de estimacion se tratarıan como mineral un 41.5 % . Solo si fuese P (M∗ | M) = 1 y
P (E∗ | E) = 1 serıa P (M∗) = P (M).
b)
P (M | M∗) =P (M∗ |M)P (M)
P (M∗)=
0.80× 0.30
0.415= 0.578
P (E | M∗) = 1− P (M |M∗) = 1− 0.578
y analogamente tendrıamos:
P (E | E∗) =P (E∗ | E)P (E)
P (E∗)=
0.75× 0.70
1− 0.415= 0.897
P (M | E∗) = 1− P (E | E∗) = 1− 0.897
15. El Ac y el B (tenga en cuenta que A y B son independientes, es decir P (AB) =
P (A)P (B)):
como B = AcB ∪AB y estos son incompatibles
P (AcB) = P (B)− P (AB)
= P (B)− P (A)P (B)
= (1− P (A))P (B)
= P (Ac)P (B)
El Ac y el Bc:
P (AcBc) = P ((A ∪B)c) = 1− P (A ∪B)
= 1− (P (A) + P (B)− P (AB))
= 1− (P (A) + P (B)− P (A)P (B))
= (1− P (A)) (1− P (B))
= P (Ac)P (Bc)
A.1. Capıtulo 1 217
16. Un procedimiento para realizar un sorteo justo es el siguiente:
a) Se efectuan dos lanzamientos de la moneda.
b) Si los dos resultados son iguales se vuelve a lanzar la moneda otras dos veces hasta
conseguir dos resultados distintos.
c) Si el primer resultado es cara (c) y el segundo cruz (+) se gana, si el primer
resultado es cruz y el segundo cara se pierde.
El sorteo es justo porque P (c,+) = P (+, c) = P (c)P (+) debido que obtener
cruz y obtener cara son dos sucesos independientes.
17. a) P (menos de k caras) =
k−1∑i=0
(ni
)pi(1− p)n−i
b) P (0 caras) = (1− p)n =(n0
)p0(1− p)n−0 = (1− p)n
c) P (al menos 1cara) = 1 − P (0 caras) = 1 − (1− p)n tambien igual a
n∑i=1
(ni
)pi(1 −
p)n−i
18. (vea el 8) los 6n resultados posibles no son equiprobables: la probabilidad de cada resul-
tado depende de su composicion. Como los dados son independientes la probabilidad
de un resultado particular es P (ω1, ω2, ..., ωn) = P (ω1)P (ω2) · · ·P (ωn). Entonces
cada resultado con k seises tiene probabilidad(
1015
)k ( 115
)n−k. Ademas el numero de
resultados con k seises es
(n
k
)5n−k. Por lo tanto la probabilidad de k seises es
P (k) =
(n
k
)5n−k
(10
15
)k ( 1
15
)n−k=
(n
k
)(10
15
)k (1− 10
15
)n−kLa solucion se obtiene mas facilmente razonando como en el ejemplo 28: en cada lan-
zamiento del dado solo interesa si sale 6 (“cara” con probabilidad p = 10/15) o si no
sale 6 (“cruz” con probabilidad 1− p = 1− 10/15). La probabilidad de k seises (caras)
es
P (k) =
(n
k
)pk (1− p)n−k
19. El sistema funciona mientras funcionen todos, cada uno con probabilidad 1− p e inde-
pendientes:
P (funciona) = (1− p)n
20. El sistema funciona mientras funcione al menos uno, cada uno con probabilidad 1− pe independientes:
P (funciona) = P (al menos uno)
= 1− P (ninguno)
= 1− pn
218 Soluciones a los Ejercicios
21. P (c) = p, P (+c) = P (+)P (c) = (1− p)p, P (+ + c) = P (+)P (+)P (c) = (1− p)2p etc.
Y en general, la probabilidad de necesitar k tiradas exactamente para que salga cara
es
P (k) = (1− p)k−1p k = 1, 2, ...
∞∑k=1
(1− p)k−1p = p∞∑k=0
(1− p)k = p1
1− (1− p)= 1
P (par) =
∞∑k=1
P (2k) =
∞∑k=1
(1− p)2k−1p
=p
1− p
∞∑k=1
(1− p)2k =p
1− p(1− p)2
1− (1− p)2
=1− p2− p
A.2. Capıtulo 2 219
A.2. Capıtulo 2
1. En cada instante cada una de las n moleculas puede estar en v con probabilidad p o no
estar en v con probabilidad 1 − p, independientemente unas de otras. Claramente la
variable aleatoria Z es de tipo binomial:
P (Z = z) =
(n
z
)( vV
)z (1− v
V
)n−zz = 0, 1, ...n
2. Para cada una de las bolas extraidas su probabilidad de ser roja es
P (roja) =r
r + b= p
El numero X de bolas rojas entre las n es claramente una variable binomial (ver ejemplo
2.13) de parametros n y p, ası que la funcion de masa es
P (X = k) =
(n
k
)pk(1− p)n−k k = 0, 1, ..., n
3. Obtenemos en primer lugar la probabilidad de extraer las x primeras bolas rojas y las
n− x siguientes blancas (M = r + b):
P (r1 · · · rxb1 · · · bn−x)
=r
M
r − 1
M − 1· · · r − (x− 1)
M − (x− 1)
b
M − xb− 1
M − (x+ 1)· · · b− (n− x− 1)
M − (n− 1)(A.1)
=(M − n)!
M !
r!
(r − x)!
b!
(b− (n− x))!
No es difıcil comprobar que la probabilidad es la misma para cualquier extraccion de
x bolas rojas y n − x bolas blancas (para cada una de estas extracciones, al calcular
su probabilidad, se obtiene una fraccion con un denominador identico al de A.1 y un
numerador con los mismos factores que A.1 pero en distinto orden, por lo tanto tambien
identico).
Como hay
(n
x
)extracciones distintas con x bolas rojas y n − x bolas blancas. La
probabilidad de obtener una cualquiera de ellas es:
P (X = x) =
(n
x
)(M − n)!
M !
r!
(r − x)!
b!
(b− (n− x))!
=
(r
x
)(b
n− x
)(M
n
)
220 Soluciones a los Ejercicios
4.
P (X > a) =p
1− p
∞∑x=a+1
(1− p)x =p
1− p(1− p)a+1
p
= (1− p)a
P (X > x+ y | X > x) =P (X > x+ y)
P (X > x)
=(1− p)x+y
(1− p)x= (1− p)y
= P (X > y)
Tambien vale:
P (X > x+ y | X ≥ x) =P (X > x+ y)
P (X ≥ x)
=(1− p)x+y
(1− p)x−1 = (1− p)y−1
= P (X ≥ y)
5. Si X es exponencial su funcion de distribucion es (ejemplo 2.21)
F (x) = 1− exp (−λx)
y por lo tanto
P (X > x) = exp (−λx)
Aplicando la formula de la probabilidad condicional:
P (X > x+ y | X > x) =P (X > x+ y,X > x)
P (X > x)=P (X > x+ y)
P (X > x)
=exp (−λ (x+ y))
exp (−λx)= exp (−λy)
= P (X > y)
6. La funcion de cuantiles de la exponencial es (ejemplo 2.21) xp = − 1λ ln (1− p) y para
p = 1/2 resulta x0.5 = ln(2)/λ. Si inicialmente hay n atomos, al cabo del tiempo x0.5
hay en promedio n/2.
7. Si λ = 4.327× 10−4 anos−1 entonces x0.5 = ln (2) /λ = 1601.9 anos.
8.
P
(X >
1
λ
)= exp
(−λ× 1
λ
)= exp (−1) ≈ 0.37
A.2. Capıtulo 2 221
9. Para cada uno de los n atomos la probabilidad de decaer en (0, t] es F (t) = P (X ≤ t) =
1 − exp (−λt) independientemente unos de otros. El numero de los que decaen es
una Va discreta Z con valores posibles 0, 1, ...n. Su funcion de masa es binomial
de parametros n y F (t).
Para cada uno de los n atomos la probabilidad de sobrevivir a t es P (X > t) =
exp (−λt) independientemente unos de otros. El numero de los que sobreviven es una
Va discreta n − Z con valores posibles 0, 1, ...n. Su funcion de masa es binomial de
parametros n y 1− F (t).
10. a) k = 1. b)
F (x) =
0 x ≤ 0
1− cosx 0 < x < π/2
1 x ≥ π/2
c) cos(π/4) = 0.70711
11. El recorrido de X es [0, a/2]. Para x fijado es X ≤ x si el punto cae en el intervalo
[a/2 − x, a/2 + x] del segmento y por ser el punto elegido a azar (equiprobable), la
probabilidad es el cociente de longitudes
F (x) =
0 x < 0
2x
a0 ≤ x ≤ a
2
1 x > a2
f(x) =
2
ax ∈ [0, a2 ]
0 x /∈ [0, a2 ]
12. El recorrido de X es [0, a]. Para cada x ∈ [0, a] la distancia X es menor o igual que x
si el punto cae en cualquier lugar entre el cuadrado de lado 2a y el cuadrado inscrito
de lado 2(a− x) y por ser el punto elegido a azar (equiprobable), la probabilidad es el
cociente de superficies
F (x) =
0 x < 0
(2a− x)x
a20 ≤ x ≤ a
1 x > a
f(x) =
2 (a− x)
a2x ∈ [0, a]
0 x /∈ [0, a]
13. La VaX tiene recorrido (−∞,+∞). La variable aleatoria Φ toma valores en (−π/2, π/2)
con densidad constante (equiprobable), es decir fΦ (ϕ) = 1/π
a)
F (x) = P (X ≤ x) = P(−π
2< Φ ≤ arctanx
)=
1
π
(arctanx+
π
2
)b)
f (x) = F ′ (x) =1
π (1 + x2)−∞ < x < +∞
que es una densidad de Cauchy.
222 Soluciones a los Ejercicios
c)
P
(|X| < 1
2
)= P
(−1
2< X <
1
2
)= F
(1
2
)− F
(−1
2
)=
1
π
(arctan
1
2+π
2
)− 1
π
(arctan
(−1
2
)+π
2
)=
1
π
(arctan
1
2− arctan
(−1
2
))≈ 0.295
d)
P (|X| < x) = P (−x < X < x) = F (x)− F (−x)
=1
π
(arctanx+
π
2
)− 1
π
(arctan (−x) +
π
2
)=
1
π(arctanx− arctan (−x)) =
1
2
y ha de ser1
π(arctanx− arctan (−x)) =
1
2
y como (arctanx− arctan (−x)) = 2 arctanx resulta
2
πarctanx =
1
2→ arctanx =
π
4→ x = 1
14. La Va X tiene densidad fX (x) = 1 para x ∈ (0, 1). La Va Y = a + bX (con b > 0)
tiene recorrido (a, a+ b) y su densidad es
fY (y) =1
bfX
(y − ab
)=
1
by ∈ (a, a+ b)
tambien uniforme.
15. La Va X tiene densidad fX (x) = 1 para x ∈ (0, 1). La Y = 1/X tiene valores posibles
(1,∞) y su densidad es
fY (y) =1
y2fX
(1
y
)=
1
y2y > 1
16. La Va U tiene densidad
fU (u) =1√2πe−
u2
2 −∞ < u < +∞
y la Z = U2 con recorrido (0,+∞) tiene densidad
fZ(z) =1
2√z
[fX(√z)
+ fX(−√z)]
=1√2πz−
12 exp
(−z
2
)z > 0
A.2. Capıtulo 2 223
17. La posicion de cada punto es una Va Xi con distribucion F (x) = x y densidad f (x) = 1
para x ∈ (0, 1). Ademas las Xi son independientes. La Va Y = mın (X1, X2, ..., Xn)
tiene recorrido (0, 1) y su distribucion y densidad son
FY (y) = 1− [1− F (y)]n = 1− [1− y]n y ∈ (0, 1)
fY (y) = F ′Y (y) = n [1− y]n−1 y ∈ (0, 1)
La funcion de cuantiles es la inversa de FY (y) = p
1− [1− y]n = p→ y = 1− (1− p)1/n
Si p = 1/2 el cuantil correspondiente (la mediana) es
y0.5 = 1− 2−1/n
Es decir, hay probabilidad 1/2 de que el mınimo Y sea menor que y0.5.
Para que y0.5 = 0.1 ha de ser 1− 2−1/n = 0.1, y resulta n = 6.5788
Es decir, si se lanzan 7 puntos hay probabilidad 1/2 de que el mınimo sea menor que
0.1
18. La posicion de cada punto es una Va Xi con distribucion F (x) = x y densidad f (x) = 1
para x ∈ (0, 1). Ademas las Xi son independientes. La Va Y = max (X1, X2, ..., Xn)
tiene recorrido (0, 1) y su distribucion y densidad son
FY (y) = [F (y)]n = yn y ∈ (0, 1)
fY (y) = F ′Y (y) = nyn−1 y ∈ (0, 1)
La funcion de cuantiles es la inversa de FY (y) = p
yn = p→ y = p1/n
Si p = 1/2 el cuantil correspondiente (la mediana) es
y0.5 = 2−1/n
Es decir, hay probabilidad 1/2 de que el maximo Y sea menor que y0.5.
Para que y0.5 = 0.9 ha de ser 2−1/n = 0.9, y resulta n = 6.5788
Es decir, si se lanzan 7 puntos hay probabilidad 1/2 de que el maximo sea mayor que
0.9
224 Soluciones a los Ejercicios
A.3. Capıtulo 3
1. E (IA) = 1× P (A) + 0× P (Ac) = P (A)
2. El numero de veces que sucede A es una Va binomial de parametros n = 100 y p = 0.1
ası que el numero esperado de veces que sucedera A es np = 10
3. El numero de veces que hay que hacer el experimento hasta que suceda A es una Va
geometrica de parametro p = 0.1 y su esperanza es 1/p = 10 (a la larga y en promedio
1 de cada diez veces sucede A).
4. El numero de anos que han de transcurrir es una Va geometrica de parametro p = 0.01
y su esperanza es 1/p = 100, ası que, a la larga una vez cada 100 anos el caudal maximo
excede el valor x.
5. El periodo de retorno de 100 anos corresponde a una probabilidad de excedencia p =
0.01 ası que
P (X > x) = 1− F (x) = e−0.01x = 0.01
x = − 1
0.01ln (0.01) = 460.5 m3 s−1
cada 100 anos aproximadamente el caudal maximo excede el valor anterior.
6. La probabilidad de par es p = 1837 = 0.48649
La probabilidad de perder las 10 es(1− 18
37
)10= 1.275× 10−3 y la perdida es −(210 −
1) = −1023.0
Es decir, a la larga aproximadamente 1 de cada mil rondas perdemos 1023 euros.
Y 999 de cada 1000 ganamos 1 euro cada una.
7. La variable aleatoria
X =
1 si se acierta la pregunta
0 si se falla la pregunta
es una variable de Bernoulli de parametro p = 1/m que representa la puntuacion en
una pregunta en el caso de que las preguntas incorrectas se puntuen con cero puntos,
E(X) = p = 1/m. Por lo tanto con este sistema de puntuacion en un examen de n
preguntas, contestando al azar, se obtendrıa, en promedio, una puntuacion de n/m. Se
busca una variable aleatoria Y ,
Y =
1 si se acierta la pregunta
α si se falla la pregunta,
tal que E(Y ) = 0. Para determinar Y hay que hallar el valor de α que haga E(Y ) = 0:
E(Y ) = 1× p+ α× (1− p) =1
m+ α
(1− 1
m
)= 0,
A.3. Capıtulo 3 225
de donde se deduce
α = − 1/m
(m− 1)/m= − 1
m− 1.
Por lo tanto, en un examen tipo test con m respuestas posibles a cada pregunta, las
respuestas incorrectas se deben evaluar con −1/(m − 1) puntos si se quiere que, en
promedio, las respuestas contestadas al azar no sumen ningun punto.
8. Como E(
(X − c)2)
es una funcion continua y diferenciable de c y la esperanza es una
operacion lineal
d
dcE(
(X − c)2)
= −2E (X − c) = 0→ E (X)− c = 0
ası que el mınimo se tiene para c = E (X)
Tambien ası:
Denotando µ = E (X)
E(
(X − c)2)
= E(
(X − µ+ µ− c)2)
= E(
(X − µ)2 + (µ− c)2 + 2 (µ− c) (X − µ))
= E(
(X − µ)2)
+ (µ− c)2
pues
E ((µ− c) (X − µ)) = (µ− c)E (X − µ) = 0
y como
E(
(X − µ)2)
+ (µ− c)2 ≥ 0
resulta que es mınimo si c = µ y el valor mınimo es V ar (X) = E(
(X − µ)2)
9.
E (U) =1
σE (X − µ) = 0
V ar (U) =1
σ2V ar (X − µ) =
1
σ2V ar (X) = 1
10.
E (X) =1
n
n∑x=1
x =n (n+ 1)
2n=n+ 1
2
E(X2)
=1
n
n∑x=1
x2 =
(2n3 + 3n2 + n
)6n
=2n2 + 3n+ 1
6
V ar (X) = E(X2)− (E (X))2 =
2n2 + 3n+ 1
6−(n+ 1
2
)2
=n2 − 1
12
226 Soluciones a los Ejercicios
11.
E (X) =∞∑x=1
x (1− p)x−1 p = −p ddp
( ∞∑x=1
(1− p)x)
= −p ddp
(1− pp
)=
1
p
Derivando otra vez se halla que E(X2)
= 2−pp2
y por lo tanto V ar (X) = 1−pp2
12.
∞∑x=0
xλx−1
x!= eλ →
∞∑x=0
xe−λλx
x!= λ
E (X) = λ
Derivando otra vez se halla que E(X2)
= λ2 + λ y por lo tanto
V ar (X) =(λ2 + λ
)− λ2 = λ
13.
E(X) =
∫ b
ax
1
b− adx =
a+ b
2.
E(X2) =
∫ b
a
x2
b− adx =
1
3
b3 − a3
b− ay entonces:
V ar(X) =1
3
b3 − a3
b− a− (a+ b)2
4=
(b− a)2
12
14. derivando:
1
σ√
2π
∫R
(x− µ) e−
(x− µ)2
2σ2 dx = 0
reordenando:
1
σ√
2π
∫Rxe−
(x− µ)2
2σ2 dx =µ
σ√
2π
∫Re−
(x− µ)2
2σ2 dx
es decir E (X) = µ
15. derivando
1√2π
∫R
(x− µ)2
σ3e−
(x− µ)2
2σ2 dx = 1→ 1
σ√
2π
∫R
(x− µ)2 e−
(x− µ)2
2σ2 dx = σ2
es decir V ar (X) = σ2
A.3. Capıtulo 3 227
16. Para cada atomo la probabilidad de sobrevivir al tiempo t es 1 − F (t) = e−λt. El
numero N (t) de los que sobreviven es una Va binomial de parametros n = N (0) y
p = e−λt y su esperanza es np:
E (N (t)) = N (0) e−λt
17. Sea Xi = 1 si el sondeo i resulta en exito y Xi = 0 en otro caso. E(Xi) = p, y
V ar(Xi) = p(1− p).
El numero total de sondeos con exito es X =∑Xi. (y el de sondeos sin exito es n−X)
a)
E(X) =∑
E(Xi) = np
V ar(X) =∑
V ar(Xi) = np(1− p)
b) El coste total es la Va C = c0 + 2cX + c(n−X) = c0 + cX + nc
E(C) = c0 + cnp+ nc
V ar(C) = c2np(1− p)
18. El resultado de cada dado es una Va Xi con masa f (x) = 1/6 para x ∈ 1, 2, .., 6. Su
esperanza y varianza son (ejercicio 10)
E (Xi) =6 + 1
2=
7
2
V ar (Xi) =62 − 1
12=
35
12
La suma de los puntos es
S = X1 +X2 + · · ·+X36
E (S) = E (X1 +X2 + · · ·+X36) =
36∑i=1
E (Xi) = 36× 7
2= 126
y como las Xi son independientes
V ar (S) = V ar (X1 +X2 + · · ·+X36) =36∑i=1
V ar (Xi) = 36× 35
12= 105
19.
P (|S − E (S)| < ε) ≥ 1− V ar (S)
ε2
P (|S − 126| < 30) ≥ 1− 105
302= 0.883
En general la acotacion de Tchebychev es grosera. Veremos en el proximo Capıtulo que
la probabilidad que nos interesa se puede aproximar muy bien de otra manera.
228 Soluciones a los Ejercicios
20.
µ = 0 m s−1
σ =
(kT
m
)1/2
=
(1.38× 10−23 × 300
0.028× (6.022× 1023)−1
)1/2
=
(1.38× 300
0.028× (6.022)−1
)1/2
= 298.39 m s−1
E
(1
2m(V 2x + V 2
y + V 2z
))=m
2
(E(V 2x
)+ E
(V 2y
)+ E
(V 2z
))=
3kT
2
21.
E (V ) = E (X)E (A) = 10 cm3
E(V 2)
= E(X2)E(A2)
=(V ar (X) + E2 (X)
) (V ar (A) + E2 (A)
)=
(0.0052 + 102
) (0.012 + 12
)= 100.01
V ar (V ) = 100.01− 100 = 0.01√V ar (V ) = 0.1 cm3
22.
E(∑
Zi
)= 8000 g√
V ar(∑
Zi
)=√
64× 100× 0.01 = 8 g
23. La Va Y = mın (X1, X2, ..., Xn) tiene recorrido (0, 1) y densidad
fY (y) = F ′Y (y) = n (1− y)n−1 y ∈ (0, 1)
y entonces la esperanza
E (Y ) =
∫ 1
0ny(1− y)n−1dy
u = y
dv = n (1− y)n−1 → v = − (1− y)n
E (Y ) = [−y(1− y)n]10 +
∫ 1
0(1− y)ndy
E (Y ) =
∫ 1
0(1− y)ndy = − 1
n+ 1
[(1− y)n+1
]10
=1
n+ 1
24. La distancia de cada punto al centro del cırculo es una Va con distribucion
FR (y) = y2 y ∈ [0, 1]
La distribucion del mas proximo al origen (del mınimo) es
FY (y) = 1− [1− FR(y)]3
A.3. Capıtulo 3 229
ası que
FY (y) = 1−[1− y2
]3La densidad del mınimo es
fY (y) = 6y[1− y2
]2= 6
(y + y5 − 2y3
)y ∈ [0, 1]
y su esperanza es
E (Y ) = 6
∫ 1
0y(y + y5 − 2y3
)dy = 6
(1
3+
1
7− 2
5
)=
16
35≈ 0.46
25. La Va Y = max (X1, X2, ..., Xn) tiene recorrido (0, 1) y densidad
fY (y) = F ′Y (y) = nyn−1 y ∈ (0, 1)
E (Y ) =
∫ 1
0nyndy =
n
n+ 1
[yn+1
]10
=n
n+ 1
230 Soluciones a los Ejercicios
A.4. Capıtulo 4
1. a)
P (119.4 < X < 121.2) = P
(119.4− 120
2< U <
121.2− 120
2
)= P (−0.3 < U < 0.6) = Φ (0.6)− Φ (−0.3)
= 0.72575− (1− 0.61791) = 0.34366
Y la probabilidad de que 3 medidas independientes esten en el intervalo es 0.343663 ≈0.04
b)
P (120− a < X < 120 + a) = P
(−a2< U <
a
2
)= 0.8
por lo tanto
Φ(a
2
)− Φ
(−a
2
)= Φ
(a2
)−[1− Φ
(a2
)]= 2Φ
(a2
)− 1 = 0.8
Φ(a2
)= 0.9 y tomando el valor de la tabla Φ (1.28) = 0.89973 resulta a = 2.56. Es
decir
P (117.44 < X < 122.56) = 0.8
2. La probabilidad de que un empaquetado se aceptable es
P (149.2 < X < 150.4) = P
(149.2− 150
1/4< U <
150.4− 150
1/4
)= P (−3.2 < U < 1.6) = Φ (1.6)− Φ (−3.2)
= 0.94520− (1− 0.99931) = 0.94451
Si la cualidad de aceptable de cada uno del lote es independiente de los demas, con
la misma probabilidad anterior, el numero Z de aceptables en el lote es una variable
binomial, de parametros n = 100 y p = 0.94451, y su valor promedio es np = 100 ×0.94451 ≈ 94
3. a)
P (X < 40) = P
(U <
40− 50
5= −2
)= Φ (−2) = 1− 0.97725 = 0.02275
b)
P (X < x) = P
(U <
x− 50
5
)= Φ
(x− 50
5
)= 0.05
con ayuda de la tabla (valores de Φ mayores que 0.5) hay que hallar el numero u tal
que Φ (u) = 0.95, es decir
Φ
(x− 50
5
)= 1− Φ
(−x− 50
5
)= 0.05→ Φ
(−x− 50
5
)= 0.95
A.4. Capıtulo 4 231
y el valor mas aproximado es Φ (1.64) = 0.94950 ası que
−x− 50
5= 1.64→ x = 50− 5× 1.64 = 41.8 N/mm2
4.
P (0.9− 0.005 < X < 0.9 + 0.005) = P
(−0.005
σ< U <
0.005
σ
)= Φ
(0.005
σ
)− Φ
(−0.005
σ
)= 0.997
por lo tanto (fuera del intervalo queda una probabilidad 0.003 y en cada cola 0.0015)
Φ
(0.005
σ
)= 0.9985
y el valor mas aproximado, con ayuda de la tabla, es Φ (2.97) = 0.99851 ası que
0.005
σ= 2.97→ σ =
0.005
2.97= 1.6835× 10−3
5. Como X e Y son normales independientes, la carga total Z = X + Y es normal, con
E(Z) = E(X) + E(Y ) y V ar(Z) = V ar(X) + V ar(Y ) resultando Z ∼ N(140, 10√
2).
Buscamos el numero z tal que
P (Z > z) = P (U >z − 140
10√
2) = 1− Φ
(z − 140
10√
2
)= 0.01
ası que Φ(z−14010√
2
)= 0.99 y el valor mas aproximado es Φ (2.33) = 0.99010 ası que
z − 140
10√
2= 2.33
y resulta z = 172.95 Tm.
6. a)
P (W > 3.1) = P
(U >
3.1− 3
0.1= 1
)= 1− Φ (1) = 1− 0.84134 = 0.15866
b)
P
(n∑i=1
Wi > w
)= P
(U >
w − n× µWσW√n
)= 1− Φ
(w − n× µWσW√n
)= 0.01
ası que
Φ
(w − n× µWσW√n
)= 0.99
y el valor mas aproximado con ayuda de la tabla es Φ (2.33) = 0.99010 ası que
w = n× µW + 2.33σW√n
= 10× 3 + 2.33× 0.1×√
10 = 30.737 Tm
232 Soluciones a los Ejercicios
7. Si Xi denota el resultado de cada pregunta, es P (Xi = 1) = 15 y P (Xi = 0) = 4
5 .
Ademas E (Xi) = 15 y V ar (Xi) = 1
5 ×45 . El numero de aciertos en 30 preguntas es∑30
i=1Xi, con distribucion binomial de parametros 30 y 15 . Su esperanza y varianza son:
E
(30∑i=1
Xi
)= 30× 1
5
V ar
(30∑i=1
Xi
)= 30× 1
5× 4
5
Se pide hallar x tal que
P
(30∑i=1
Xi ≥ x
)= 0.05
o lo que es igual
P
(30∑i=1
Xi < x
)= P
(30∑i=1
Xi ≤ x− 1
)= 0.95
y usando la aproximacion normal
P
(30∑i=1
Xi ≤ x− 1
)≈ Φ
x− 1 + 0.5− 30× 15√
30× 15 ×
45
= 0.95
x− 1 + 0.5− 30× 15√
30× 15 ×
45
= 1.64→ x = 10.0931
8. S =∑n
i=1Xi es asintoticamente N(126,√
105)
y
P (S ≤ s) ≈ Φ
(s+ 0.5− 126√
105
)
P (|S − 126| < 30) = P (96 < S < 156)
= P (96 < S ≤ 155)
= P (S ≤ 155)− P (S ≤ 96)
P (S ≤ 155) ≈ Φ
(155 + 0.5− 126√
105
)= Φ (2.879) ≈ 0.99801
leyendo Φ (2.88) = 0.99801
P (S ≤ 96) ≈ Φ
(96 + 0.5− 126√
105
)= Φ (−2.879) ≈ 1− 0.99801
= 0.00199
A.4. Capıtulo 4 233
y resulta
P (|S − 126| < 30) ≈ 0.99801− 0.00199 = 0.99602
(en el Ejercicio 19 del Capıtulo 3 se obtuvo mediante la acotacion de Tchebychev
P (|S − 126| < 30) ≥ 0.883).
9.
E(∑
Zi
)= 8000 g
V ar(∑
Zi
)= 64 g2√
V ar(∑
Zi
)= 8 g
P(∑
Zi > 8016)
= 1− P(∑
Zi ≤ 8016)≈ 1− Φ
(8016− 8000
8= 2
)= 1− 0.97725 = 0.02275
Como las Zi y por lo tanto la∑Zi son variables continuas no hay que usar la correccion
de continuidad para aproximar con el teorema central del lımite.
10.
E
(25∑i=1
Xi
)=
25∑i=1
E (Xi) = 25× 40
V ar
(25∑i=1
Xi
)=
25∑i=1
V ar (Xi) = 25× 202
P
(n∑i=1
Xi > 1100
)= 1− P
(n∑i=1
Xi ≤ 1100
)≈ 1− Φ
(1100− 25× 40
20×√
25= 1
)= 1− 0.84134 = 0.15866
Como lasXi y por lo tanto la∑Xi son variables continuas no hay que usar la correccion
de continuidad para aproximar con el teorema central del lımite.
11. El tiempo que el sistema esta operativo es∑n
i=1Xi. Su esperanza y varianza son
E
(n∑i=1
Xi
)= 100n
V ar
(n∑i=1
Xi
)= 302n
y se pide n para que
P
(n∑i=1
Xi ≤ 10000
)= 0.05
234 Soluciones a los Ejercicios
P
(n∑i=1
Xi ≤ 10000
)≈ Φ
(10000− 100n
30√n
)= 0.05
y ha de ser10000− 100n
30√n
= −1.64
Las soluciones de
10000− 100n+ 1.64× 30√n = 0
son√n = 10.249,−9.757 y solo vale la primera. Ası n = 10.2492 ≈ 105.
12. a)
P (N (1) ≤ 4, N (3) ≤ 12) =
4∑x=0
P (N (1) = x,N (3)−N (1) ≤ 12− x)
=
4∑x=0
P (N (1) = x)P (N (3)−N (1) ≤ 12− x)
=4∑
x=0
e−4 4x
x!×
12−x∑y=0
e−8 8y
y!
= 0.4575
b) El tiempo de espera entre llegadas es 1/λ = 1/4 = 0.25 h
13.
λ =7
15000= 4.6667× 10−4 accidentes/ano
El numero esperado de accidentes de gravedad 4 o superior en los proximos 20 anos es
E (N(20)) = nλt = 442× (7/15000)× 20 = 4.1253
La probabilidad de que se produzca al menos un accidente de gravedad 4 o superior en
los proximos 20 anos es
P (N(20) ≥ 1) = 1− P (N(20) = 0) = 1− e−nλt
= 1− exp (−4.1253) = 0.9838
14. a) el numero N (v) de cristales en secciones de 0.01 dm2 es una Va de Poisson de
parametro λ = 7× 0.01 = 0.07 y por lo tanto P (N (v) = 0) = exp (−0.07) = 0.93239.
b) como las 10 secciones no se solapan las VAs Ni (v) son independientes, y P (N1 (v) =
0, N2 (v) = 0, ..., N10 (v) = 0) = 0.9323910 = 0.49656
15. La probababilidad de que en un conjunto v haya al menos un punto es
P (N (v) ≥ 1) = 1− P (N (v) = 0)
= 1− exp(−λπx2
)
A.4. Capıtulo 4 235
pues v es en nuestro caso un cırculo de area πx2 y N (v) es Poisson de parametro λπx2.
Por lo tanto
F (x) = 1− exp(−λπx2
)x > 0
y derivando resulta la densidad:
f(x) = 2λπx exp(−λπx2
)x > 0
16. Para una ji-cuadrado de parametro 3 se lee en la tabla C.2 que
P(χ2 (3) < 7.8147
)= 0.95
asi puesv2
σ2= 7.8147
v = σ√
7.8147 = 298.39√
7.8147 = 834.14 m s−1
17.
σ√
7.8147 = 103(1.38× T
0.028× (6.022)−1
)1/2
=103
√7.8147
→ T = 431.15 K
18.
P (Z < z) = P(Z2 < z2
)= P
(χ2 (2) <
z2
σ2
)= α
Para una ji-cuadrado de parametro 3 se lee en la tabla C.2 que
P(χ2 (2) < 5.9915
)= 0.95
y ası, con z = 5 m
z2
σ2=
25
σ2= 5.9915→ σ =
5√5.9915
= 2.0427 m
236 Soluciones a los Ejercicios
A.5. Capıtulo 5
1. Denotando las muestras (X1, X2, ..., Xm) y (Xm+1, Xm+2, ..., Xm+n) es∑m
i=1Xi =
mXm y∑m+n
i=m+1Xi = nXn
X =1
m+ n
m+n∑i=1
Xi =mXm + nXn
m+ n
(media ponderada de las Xm y Xn).
2.
x =1
n
n∑i=1
xi =1
n
k∑i=1
niai
(media ponderada de las ai).
s2 =1
n− 1
n∑i=1
(xi − x)2 =1
n− 1
k∑i=1
ni (ai − x)2
=1
n− 1
(k∑i=1
nia2i − nx2
)
3. a)
x =1
20
20∑i=1
xi =1
20
7∑i=1
niai
=4× 0 + 3× 1 + 5× 2 + 2× 3 + 4× 4 + 1× 5 + 1× 6
20
= 2.3 defectos/cm2
7∑i=1
nia2i = 4× 02 + 3× 12 + 5× 22 + 2× 32 + 4× 42 + 1× 52 + 1× 62 = 166
s2 =1
n− 1
(k∑i=1
nia2i − nx2
)
=1
20− 1
(166− 20× 2.32
)= 3.1684
y
s = 1.78 defectos/cm2
b) La media de la muestra total de 30 probetas es la ponderada
20× 2.3 + 10× 1.4
30= 2 defectos/cm2
A.5. Capıtulo 5 237
4. a)
E(X)
= E (X) = r
E(X
2)
= V ar(X)
+(E(X))2
=V ar (X)
n+ (E (X))2
=σ2
n+ r2
ası que el sesgo es σ2/n
b) un estimador insesgado para σ2/n es S2/n. Resulta que un estimador insesgado de
area es π[(X)2 − S2/n
]5.
V ar (T ) = α2V ar (T1) + (1− α)2 V ar (T2)
= α2σ21 + (1− α)2 σ2
2
d
dαV ar (T ) = 2ασ2
1 − 2 (1− α)σ22 = 0
α =σ2
2
σ21 + σ2
2
que corresponde a un mınimo pues
d2
dα2V ar (T ) = 2σ2
1 + 2σ22 > 0
El estimador de varianza mınima es
T =σ2
2
σ21 + σ2
2
T1 +σ2
1
σ21 + σ2
2
T2
que se puede escribir tambien
T =
1σ21
1σ21
+ 1σ22
T1 +
1σ22
1σ21
+ 1σ22
T2
media ponderada en la que el peso que se da a cada estimador, T1 y T2, es tanto mayor
cuanto mas preciso es (cuanto menor es su varianza). Es interesante destacar que ante
dos medidas de diferente precision de una magnitud lo mas adecuado no es descartar
la menos precisa sino combinarlas en una que sera mas precisa que las primeras.
6.
V ar (T1) = V ar(Xm
)=σ2
m
V ar (T2) = V ar(Xn
)=σ2
n
238 Soluciones a los Ejercicios
T =mσ2
mσ2 + n
σ2
Xm +nσ2
mσ2 + n
σ2
Xn =m
m+ nXm +
n
m+ nXn
= X
es decir, la media muestral de la muestra total de tamano m+ n.
7. Sea X con densidad uniforme en (0, 1), es decir, f (x) = 1 si x ∈ (0, 1) y cero en otro
caso. Entonces
E (g (X)) =
∫ 1
0g (x) f (x) dx =
∫ 1
0g (x) dx = I
y por lo tanto
E (T ) = E
(1
n
n∑k=1
g (Xi)
)=
1
n
n∑k=1
E (g (Xi)) = I
ası que T es insesgado. Y como
V ar (T ) = V ar
(1
n
n∑k=1
g (Xi)
)=
1
n2
n∑k=1
V ar (g (Xi)) =V ar (g (X))
n
que tiende a cero si n→∞, resulta que es consistente.
8.
u =2
πx→ I =
π
2
∫ 1
0sin(π
2u)du
y el estimador es
T =π
2n
n∑i=1
sin(π
2Ui
)=
π
2n
n∑i=1
sin (Xi)
9.1
n
n∑i=1
(Xi −X
)2=n− 1
nS2
E
(1
n
n∑i=1
(Xi −X
)2)=n− 1
nE(S2)
=n− 1
nσ2
y como n−1n < 1 resulta que el estimador infraestima σ2 (sesgo negativo). En todo
caso como lımn→∞n−1n = 1 es asintoticamente insesgado. El estimador corregido es
obviamente S2.
10. La estimacion de MV de µ es
x =1
n
∑xi =
533 + 552 + 539 + 564 + 541
5=
2729
5= 545.8 Kg
Para estimar σ calculamos∑(xi − x)2 =
n∑i=1
x2i −
1
n
(∑xi
)2= 1490091− 27292
5= 602.8
A.5. Capıtulo 5 239
La estimacion de maxima verosimilitud de σ2 es
1
n
∑(xi − x)2 =
602.8
5= 120.56
que como sabemos es sesgado. La estimacion insesgada es
s2 =1
n− 1
∑(xi − x)2 =
602.8
4= 150.7
y la estimacion correspondiente de σ es
s = 12.276 Kg
11.
L(p) = (1− p)∑xi−npn
lnL =(∑
xi − n)
ln(1− p) + n ln p
d lnL
dp= −
∑xi − n
1− p+n
p= 0
p =n∑xi
=1
x
que es la frecuencia relativa de caras (n) en el total de tiradas (∑xi). El estimador
MV de E(X) = p−1 es X
12.
L(λ) =∏(
e−λλxi
xi!
)= e−nλλ
∑xi
(∏ 1
xi!
)lnL = −nλ+
∑xi lnλ+ ln
(∏ 1
xi!
)d lnL
dλ= −n+
nx
λ= 0
λ = x
que corresponde a un maximo pues
d2 lnL
dλ2 = −nxλ2 < 0 ∀λ
El estimador es X.
Hallemos la cota
ln f (x) = −λ+ x lnλ− lnx!
d ln f (x)
dλ= −1 +
x
λ=x− λλ
I(λ) = E
(d ln f (X)
dλ
)2
=E(
(X − λ)2)
λ2 =λ
λ2 =1
λ
240 Soluciones a los Ejercicios
pues E (X) = λ y V ar (X) = E(
(X − λ)2)
= λ. La cota es
1
nI(λ)=λ
n
y como V ar(X)
= V ar (X) /n = λ/n resulta que el estimador alcanza la cota.
13.
E(C) = E(3X +X2
)= 3E(X) + E(X2) = 3E(X) + V ar(X) + (E(X))2
= 3λ+ λ+ λ2 = 4λ+ λ2
y como el estimador MV de λ es X el de E(C) es 4X+(X)2
. Calculamos su esperanza
E(
4X +(X)2)
= 4E(X)
+ E((X)2)
= 4E(X)
+ V ar(X)
+(E(X))2
= 4E (X) +V ar (X)
n+ (E (X))2
= 4λ+λ
n+ λ2
y el sesgo vale λ/n. Entonces 4X +(X)2 −X/n es insesgado.
14. El estimador MV de E (X) = 1/λ es X que es insegado. La estimacion del tiempo medio
de espera es x = 30.410 = 3.04 min. El estimador MV de λ es 1/X que es sesgado. El
estimador insesgado es (ejemplo 13)n− 1
n
1
X. La estimacion insesgada de λ (frecuencia
de llegadas) es 910 ×
1030.4 = 0.296 llegadas/min (la estimacion sesgada es 10
30.4 = 0.329
llegadas/min).
15. Si el estimador de 1/λ es X el de 1/λ2 es, por la propiedad de invariacion,(X)2
.
Calculamos su esperanza
E((X)2)
= V ar(X) +(E(X)
)2=
1
nλ2 +1
λ2 =1
λ2
(n+ 1
n
)ası que un estimador insesgado es
n
n+ 1
(X)2
16. a)
f (x) = F ′ (x) =x
σ2exp
(− x2
2σ2
)x > 0
L (σ) =∏
f (xi) =∏ xi
σ2exp
(− x2
i
2σ2
)=
1
σ2nexp
(−∑x2i
2σ2
)∏xi
A.5. Capıtulo 5 241
lnL (σ) = −2n lnσ −∑x2i
2σ2+∑
lnxi
igualando a cero la derivada
d
dσlnL (σ) = −2n
σ+
∑x2i
σ3= 0→ σ =
√1
2n
∑x2i
la solucion es
σ =
√1
2n
∑x2i
que corresponde a un maximo pues(d2
dσ2lnL (σ)
)σ
= − 8n2∑x2i
< 0
b) la estimacionde MV de E (X) es σ√
π2 .
c) la estimacion de E (X) por el metodos de los momentos es x. Y como σ =√
2πE (X)
la estimacion de σ por el metodo de los momentos es
σ =
√2
πx
d) estimaciones de maxima verosimilitud
σ =
√1
2n
∑x2i =
√109.94
20= 2.3446
E (X) = σ
√π
2= 2.9385
estimaciones de momentos
E (X) = x = 3.1
σ =
√2
πx = 2.4734
17.
λ =E (X)
V ar (X)=
E (X)
E (X2)− (E (X))2
θ = λE (X)
Las estimaciones son
λ =x
x2 − (x)2=
∑xi∑
x2i −
1n (∑xi)
2
θ = λx
Con la muestra es
λ =
∑xi∑
x2i −
1n (∑xi)
2 =187.38
3380.69740− 187.382
12
= 0.4120
θ = λx = 6.4340
Las estimaciones de MV calculadas con Matlabr son λ = 0.4576 y θ = 7.1449
242 Soluciones a los Ejercicios
18. La probabilidad de obtener en n ensayos independientes los valores x1, x2 y x3 de las
3 clases, con probabilidades p1, p2 y p3 de cada clase es(5000
x1
)(5000− x1
x2
)px11 p
x22 p
x23
Como funcion de ω
L (ω) =
(5000
x1
)(5000− x1
x2
)(0.025 + ω)x1+x3 (0.95− 2ω)x2
El ω que maximiza se obtiene ası
lnL = lnC + (x1 + x3) ln (0.025 + ω) + x2 ln (0.95− 2ω)
d lnL
dω=
(x1 + x3)
(0.025 + ω)− 2x2
(0.95− 2ω)= 0
ω =(x1 + x3) (0.95)− 2x2 × 0.025
2n
que corresponde a un maximo pues
d2 lnL
dω2= − (x1 + x3)
(0.025 + ω)2 −4x2
(0.95− 2ω)2 < 0 ∀ω
Con la muestra resulta
ω =572× 0.95− 2× 4428× 0.025
2× 5000= 0.0322
19. El principio de maxima verosimilitud se basa en maximizar la probabilidad de la mues-
tra observada. Como la probabilidad de que un componente dure menos de 85 h es
[1− exp(−85λ)], la probabilidad de la muestra es (binomial)
L(λ) =
(10
6
)[1− exp(−85λ)]6 [exp(−85λ)]4
lnL = lnC + 6 ln [1− exp(−85λ)]− 340λ
d lnL
dλ=
510 exp(−85λ)
1− exp(−85λ)= 340
exp(−85λ) =340
510 + 340= 0.4
λ = − ln 0.4
85≈ 1.08× 10−2 fallos/hora
y aun mas facil poniendo p = 1 − exp(−85λ) y hallando el estimador de p del que se
deducira (por la propiedad de invariacion) el de λ:
L(p) =
(10
6
)p6(1− p)4
d lnL
dp=
6
p− 4
1− p= 0
p = 0.6
λ = − 1
85ln (1− p) = − ln 0.4
85
A.5. Capıtulo 5 243
Las estimaciones de E (X) y de P (X > 100), de nuevo por la invariacion, son:
E(X) =1
λ= 92.8 h
P (X > 100) = exp(−100λ) ≈ 0.34
20. como
E(∑
λiXi
)=∑
λiE(Xi) = E(X)∑
λi
para que el estimador sea insesgado ha de ser∑λi = 1. Busquemos ahora, en parti-
cular, cual tiene varianza mınima. Como:
V ar(∑
λiXi
)=∑
λ2iV ar(Xi) = V ar(X)
∑λ2i
se trata de hallar los λi que minimizan∑λ2i sujetos a
∑λi = 1. Como se sabe (metodo
de Lagrange) ello equivale a hallar los λi y c que minimizan q =∑λ2i − 2c (
∑λi − 1).
La solucion se obtiene del sistema:
∂
∂λjq = 2λj − 2c = 0 j = 1, ..., n
∂
∂cq =
∑λi − 1 = 0
resultando λj = 1/n. En conclusion, el estimador lineal insesgado de varianza mınima
es X.
21. P (X < 0) = P (U < −µ) = 1 − Φ (µ) y P (X > 0) = Φ (µ). La probabilidad de la
muestra es L (µ) =
(n
m
)(1− Φ (µ))m (Φ (µ))n−m. Llamando θ = Φ (µ) es L (θ) =(
n
m
)(1− θ)m θn−m y la estimacion MV de θ es θ = n−m
n . Por lo tanto la de µ es
µ = Φ−1(n−mn
). Si n = 10 y m = 6 resulta µ = Φ−1 (0.4) = −Φ−1 (0.6) = −0.2533
22. Si Y ∼ LN(µ, σ) (lognormal de parametros µ y σ), entonces X = lnY ∼ N(µ, σ). Las
estimaciones de µ y σ son las mismas con la muestra de Y y con la de X. En la normal
se obtuvo
µ = x
σ =
√1
n
∑(xi − x)2
E (Y ) y V ar (Y ) son funciones de µ y σ. Aplicando la propiedad de invariacion
E(Y ) = exp(µ+ σ2/2)
V ar(Y ) = exp(2µ+ σ2)(exp σ2 − 1)
244 Soluciones a los Ejercicios
A.6. Capıtulo 6
1. a)
ε = u0.975 ×σ√n
= 1.96× 0.3√100
= 0.0588
µ ∈ (10.2± 0.0588) = (10.14, 10.26) cm
b) Para tener una cota ε = 0.01 con el 95 % hay que tomar un n
n =(u0.975 ×
σ
ε
)2=
(1.96× 0.3
0.01
)2
= 3457.44.
Por lo tanto para asegurar un error menor que 0.01 con una confianza del 95 %
habra que tomar una muestra de tamano n = 3458.
2. La muestra corresponde al modelo X ∼ N (ρT , σ)
x =1
n
∑xi =
157.99
29= 5.4479
s2 =1
n− 1
∑(xi − x)2 =
1
n− 1
(∑x2i −
1
n
(∑xi
)2)
=1
28
(862.0855− 157.992
29
)= 4.88167× 10−2
s =√
4.8817× 10−2 = 0.2209
Con 1− α = 0.95 es t0.975 (28) = 2.0484 y
ε = t1−α/2s√n
= 2.0484× 0.22√29
= 8.3683× 10−2
Ası que
ρT ∈ (5.45± 0.084) g cm−3
(El valor aceptado en la actualidad es 5.513 g cm−3)
3. De
P
((n− 1)S2
σ2> χ2
α
)= 1− α
resulta
P
(σ < S
√n− 1
χ2α
)= 1− α
La media muestral vale
x =1
n
∑xi =
108
14= 7.7143 ms
A.6. Capıtulo 6 245
La varianza y desviacion tıpica muestrales valen
s2 =1
n− 1
∑(xi − x)2 =
1
n− 1
(∑x2i −
1
n
(∑xi
)2)
=1
13
(1950− 1
14(108)2
)= 85.9121
s = 9.2689 ms
Con 1− α = 0.90 es χ20.10 (13) = 7.0415 y
s
√n− 1
χ2α
= 9.2689×√
13
7.0415= 12.5941
resultando
σ < 12.6 ms
con una confianza del 90 %.
4. De
P (χ2α/2 < 2nλX < χ2
1−α/2) = 1− α
se sigue un intervalo para el parametro λ
P
(χ2α/2
2nX< λ <
χ21−α/2
2nX
)= 1− α
y ,tomando el recıproco, para E(X) = 1/λ
P
(2nX
χ21−α/2
<1
λ<
2nX
χ2α/2
)= 1− α
5. Un lımite superior para el tiempo medio de espera E (X) = 1/λ es
P
(1
λ<
2nX
χ2α
)= 1− α
El tiempo medio estimado es x = 3.04 min. Con 1 − α = 0.95 es χ20.05 (20) = 10.8508
y resulta, con una seguridad del 95 %
1
λ<
2× 30.4
10.8508≈ 5.6 min
Un lımite superior para la frecuencia de llegadas λ es
P
(λ <
χ21−α
2nX
)= 1− α
Con 1− α = 0.95 es χ20.95 (20) = 31.4104 y resulta, con una seguridad del 95 %
λ <31.4104
2× 30.4≈ 0.52 vehıculos/min
246 Soluciones a los Ejercicios
6. La estimacion MV de λ es x
x =1
2608
12∑x=0
x× n (x) = 3.87 cuentas/7.5 s
Como n es grande formamos el intervalo aproximado del 95 % (ejemplo 10):
ε = u1−α/2
√x
n= 1.96
√3.87
2608= 0.0755
y resulta, con una confianza del 95 %
λ ∈ (3.87± 0.076) cuentas/7.5 s
Comentario: Tengase en cuenta que E (X) = λ equivale al numero promedio teorico
de atomos que decaen en el intervalo, y depende del numero de atomos presentes en
el experimento: si inicialmente hay N (0) atomos, el numero de los que decaen en un
intervalo t es una Va binomial X (t) de parametros N (0) y p = 1− e−kt (donde k es la
constante de desintegracion del polonio). Su promedio es (ver ejercicio 15 del capıtulo
3)
E (X (t)) = N (0)(
1− e−kt)
y ademas, si N (0)→∞ y p→ 0 pero N (0) p = λ constante, la Va binomial converge
a una de Poisson de parametro λ (proposicion 4 del capıtulo 4).
7. La estimacion inicial de p es x = 26/30 ≈ 0.87 y la cota del error cometido es, con
1− α = 0.99 y u1−α/2 = u0.995 ≈ 2.58
ε = u1−α/2√x (1− x) /n = 2.58
√26
30× 4
30× 1
30= 0.160
Queremos reducirla a 0.02 aumentando el tamano n de muestra. La cota final depende
de n y del nuevo valor que resulte para x
ε = u1−α/2√x (1− x) /n
y la mas pesimista se obtendrıa con x = 1/2. Sin embargo, como el nuevo valor de
x no deberıa estar muy alejado del previo, usaremos este, y despejaremos n para que
ε = 0.02
n =(u1−α/2
ε
)2
x (1− x) =
(2.58
0.02
)2
× 26
30× 4
30= 1922.96
ası que, aproximadamente, habrıa que usar n = 1923
Si finalmente se uso n = 2000 y hubo 1640 aceptables la estimacion final de p es
x = 1640/2000 = 0.82 y la cota del error
ε = 2.58
√1640
2000× 360
2000× 1
2000= 0.022
ası que, con una confianza del 99 %
p ∈ (0.82± 0.022)
A.6. Capıtulo 6 247
8. a) las mismas. b)
n =
(1.96
0.02
)2
0.25 = 2401
9. a) El intervalo del 95 % para µ:
t1−α/2 (n− 1) = t0.975 (19) = 2.0930
x− t1−α/2s/√n = 0.42328− 2.0930× 0.01776√
20= 0.41497
x+ t1−α/2s/√n = 0.42328 + 2.0930× 0.01776√
20= 0.43159
Como el intervalo obtenido (0.4150, 0.4316) queda dentro del de especificacion (0.40, 0.44)
pareciera que el proceso es aceptable. Sin embargo es crucial notar que el intervalo ob-
tenido se refiere al valor medio µ, no a los valores individuales.
b) Para hallar el intervalo de tolerancia con p = 0.99, 1 − α = 0.95 y n = 20 en la
tabla C.4 se lee k = 3.621
xL = 0.42328− 3.621× 0.01776 = 0.358971
xS = 0.42328 + 3.621× 0.01776 = 0.487589
es decir, el 99 % de los componentes fabricados estan en (0.36, 0.49) cm con una con-
fianza del 95 %.
c) Los resultados indican que el proceso no es satisfactorio: una alta proporcion de
componentes queda fuera de los lımites de especificacion.
10.
x = 545.8 Kg
s = 12.28 Kg
El intervalo del 95 % para µ es x ± t0.975s/√n donde t0.975(4) = 2.7764 y resulta
µ ∈ (530.55, 561.05) Kg.
El intervalo del 95 % para σ es
(s√
n−1χ21−α/2
, s√
n−1χ2α/2
)donde χ2
0.975(4) = 11.1433 y
χ20.025(4) = 0.4844 y resulta σ ∈ (7.36, 35.29) Kg.
Para hallar el lımite inferior de tolerancia con 1 − α = 0.99, p = 0.95 y n = 5, en la
tabla C.5 se lee k = 6.578 y el lımite inferior es
xL = 545.8− 6.578× 12.28 = 465.022
es decir, con una confianza del 99 %
P (X > 465) ≥ 0.95
es decir, el 95 % de los cables tienen una resistencia mayor que 465 Kg
248 Soluciones a los Ejercicios
11. La funcion de potencia en un valor µ es
P
(X − µ0
σ/√n> c | µ
)= P
(X − µσ/√n
+µ− µ0
σ/√n> c | µ
)= P
(X − µσ/√n> c− µ− µ0
σ/√n| µ)
= 1− Φ
(c− µ− µ0
σ/√n
)∀µ
Con α = 0.05 es c = u0.95 = 1.64, y en µ = 0.5 resulta
1− Φ
(1.64− 0.5− 0
1/√
16
)= 1− Φ (−0.36) = 1− 0.3594 = 0.6406
12.
1− Φ
(1.64− 0.5− 0
1/√n
)= 0.8
1.64− 0.5− 0
1/√n
= Φ−1 (0.2) = −Φ−1 (0.8) = −0.84
n = 4× (1.64 + 0.84)2 = 24.6
es decir n = 25
13. Variable de decision
T =X − µ0
S/√n
Region crıtica T > c (pues X estima µ y cuanto mayor sea este mayor tiende a ser T ).
Ademas T es Student(n− 1) si µ = µ0, y para que
P (T > c | µ0) = α
ha de ser c = t1−α.
t =x− µ0
s/√n
=23.6− 20
10.2/√
20= 1.5784
t0.95(19) = 1.7291
y como t no supera t1−α no se rechaza H0.
14. Variable de decision
T =(n− 1)S2
σ20
Region crıtica T < c (pues S2 estima σ2, y cuanto menor sea este menor tiende a ser
T ). Como T es ji-cuadrado(n− 1) si σ = σ0, para que
P (T < c | σ0) = α
A.6. Capıtulo 6 249
ha de ser c = χ2α.
t =(n− 1)s2
σ20
=19× 104.04
225= 8.7856
χ20.05(19) = 10.1170
y se rechaza H0.
15. El estadıstico de prueba es
T =X − µ0
σ/√n
con distribucion N (0, 1) si H0 : µ = µ0 es cierta. La region crıtica es de la forma
|T | > c
Con x = 52.552.5− 50
20/√
64= 1
P (|T | > 1) = P (T < −1) + P (T > 1)
= 2 (1− P (T ≤ 1)) = 2 (1− 0.84134)
= 0.31732
Con x = 57.552.5− 50
20/√
64= 3
P (|T | > 3) = P (T < −3) + P (T > 3)
= 2 (1− P (T ≤ 3)) = 2 (1− 0.99865)
= 0.0027
16. El estadıstico de prueba es
T =X − µ0
σ/√n
con distribucion N (0, 1) si H0 : µ = µ0 es cierta. La region crıtica es de la forma
|T | > c
x = (8.18 + 8.17 + 8.16 + 8.15 + 8.17 + 8.21 + 8.22 + 8.16 + 8.19 + 8.18) /10 = 81.79
t = 8.179−8.200.05/
√10≈ −1.33
El nivel crıtico es P (|T | > 1.33) = 2 (1− P (T ≤ 1.33)) = 2 (1− 0.90824) = 0.18352
Con α = 0.05 no se rechaza.
17. El estadıstico de prueba es
T =X − Y
σ√
1m + 1
n
250 Soluciones a los Ejercicios
con distribucion N (0, 1) si H0 : µA = µB, y la region crıtica de la forma |T | > c
x = (6.24 + 6.31 + 6.28 + 6.30 + 6.25 + 6.26 + 6.24 + 6.29 + 6.22 + 6.28) /10 = 6.267
y = (6.27 + 6.25 + 6.33 + 6.27 + 6.24 + 6.31 + 6.28 + 6.29 + 6.34 + 6.27) /10 = 6.285
t =6.267− 6.285
0.05√
110 + 1
10
≈ −0.81
El nivel crıtico es p = P (|T | > 0.81) ≈ 2 (1− 0.79) = 0.42
Con α = 0.05 no se rechaza
18. H0 : µ ≥ µ0
H1 : µ < µ0
P (T < c | µ0) = α→ X < µ0 + tαs√n
= µ0 − t1−αs√n
La probabilidad de rechazar indebıdamente es α
19. Con la muestra resulta
x =20072
20= 1003.6 ml
s =
√1
n− 1
∑(xi − x)2 =
√1
n− 1
(∑x2i − n (x)2
)= 22.1 ml
1− α = 0.995
t0.995 (19) = 2.8609
En la tabla de Student se lee t0.995 (19) = 2.8609 y como
x > 1000− 2.8609× 22.1√20
= 989.5 ml
se acepta el lote.
20. H0 : p ≤ 0.5
H1 : p > 0.5
Variable de decision
T =X − p0√
p0(1− p0)/n
La region crıtica es T > c (pues X estima p y cuanto mayor sea este mayor tendera a
ser T ). Ademas si p = p0 (y n suficientemente grande) T es aproximadamente N(0, 1),
y para que
P (T > c | p0) = α
A.6. Capıtulo 6 251
ha de ser c = u1−α.
x = 490/1000 = 0.49
t =0.49− 0.5√
0.5× 0.5/1000= −0.63
Con α = 0.05 es u0.95 = 1.64 y no se rechaza H0.
21.
xA = 0.04
xB = 0.05
p =10
220= 0.0455
t =0.04− 0.05
√0.0455× 0.9545
√1/100 + 1/120
= −0.3544
u0.975 = 1.96
y como |t| < 1.96 no se rechaza H0 (igual calidad).
22. Los dos puntos de la curva de eficacia son:
µ0 = 20 + 2.5× 1.5 = 23.75 % y la probabilidad de aceptar tal lote es 1− α = 0.95
µ1 = 20 + 1.5× 1.5 = 22.25 % y la probabilidad de aceptar tal lote es β = 0.10
En la situacion mejor cuanto mayor µ se acepta un lote si T > c. Para hallar c
P
(X − µ0
σ/√n> c | µ0
)= 1− α→ c = uα
y ahora para hallar n
P
(X − µ0
σ/√n> uα | µ1
)= β
P
(X − µ1
σ/√n> uα −
µ1 − µ0
σ/√n| µ1
)= β
uα −µ1 − µ0
σ/√n
= u1−β
n = σ2
(uα − u1−βµ1 − µ0
)2
c = uα = u0.05 = −1.64
u1−β = u0.9 = 1.28
n = 1.52 ×(−1.64−1.28
1
)2= 19.1844
x > 23.75− 1.64× 1.5√19
= 23.19
Si en muestras de tamano 19 la media es mayor que 23.19 % se acepta el lote.
252 Soluciones a los Ejercicios
23. Como E(T ) = 2nλ0E(X) = 2nλ0E(X) = 2nλ0/λ, entonces T tendera a valer 2n si
λ = λ0 y a ser menor si λ > λ0. La region crıtica es de la forma T < c. Y c se determina
por
P (T < c | λ = λ0) = α
y como ademas T es χ2(2n) si λ = λ0, resulta c = χ2α(2n).
24. H0 : E (X) ≥ 1/λ0
H1 : E (X) < 1/λ0
25. χ20.05 (20) = 10.8509
t = 2× 10× 15 × 3.04 = 12.16
y como t no es menor que c no se rechaza H0
A.7. Capıtulo 7 253
A.7. Capıtulo 7
1. a) n = 6,∑xi = 16,
∑yi = 0.231,
∑x2i = 48.5,
∑y2i = 0.0097,
∑xiyi = 0.6845
b1 = 0.0117, b0 = 0.0072
s = 0.0013
r = 0.9956
R2 = 0.991
0 1 2 3 4 50
0.01
0.02
0.03
0.04
0.05
0.06
0.07
tiempo(h)
gana
ncia
en
peso
(%
)
Figura A.1: Evolucion de la corrosion.
Ver figura A.1
b) Para t = 3.2 h la ganancia esperada estimada es
µ (3.2) = 0.0072 + 0.0117× 3.2 ≈ 0.0445 %
En la tabla C.3 se lee t0.975 (4) = 2.7764 y
t1−α/2× s
√1
n+
(x− x)2∑(xi − x)2 = 2.7764× 0.0013×
√1
6+
(3.2− 16/6)2
5.8333= 1.675 × 10−3
resulta, con una confianza del 95 %
µ (3.2) = 0.0445± 0.0017 %
c) p = 0.9, u(1+p)/2 = u0.95 = 1.64
d2 =1
6+
(3.2− 16/6)2
5.8333= 0.2154
254 Soluciones a los Ejercicios
0 0.5 1 1.5 2 2.50
0.5
1
1.5
2
2.5
longitud nominal (mm)
long
itud
real
(m
m)
Figura A.2: Relacion entre las longitudes nominales y reales de ciertas piezas mecanizadas.
1 +d2
2−d4(
2u2(1+p)/2 − 3
)24
= 1 +0.2154
2−
0.21542 ×(2× 1.642 − 3
)24
= 1.1031
χ20.05 (4) = 0.7107
k = u(1+p)/2
√n− 2
χ2α
1 +d2
2−d4(
2u2(1+p)/2 − 3
)24
= 1.64×
√4
0.7107× 1.1031 = 4.2919
Con una confianza del 95 % al menos el 90 % de los valores de la ganancia Y despues
de x = 3.2 h estaran dentro del intervalo
µ(3.2)± k × s =
0.0445± 4.2919× 0.0013 = (0.0389, 0.0501) %
es decir, con dicha confianza
P (0.0389 < Y (3.2) < 0.0501) ≥ 0.90
2. a) n = 24,∑xi = 27,
∑yi = 27.0220,
∑x2i = 38.2500,
∑y2i = 38.2798,
∑xiyi =
38.2638
b1 = 0.9986, b0 = 0.0025
s = 0.0102
r = 0.9999
A.7. Capıtulo 7 255
Ver figura A.2
b) Para x = 1 cm la longitud esperada estimada es
µ (1) = 0.0025 + 0.9986× 1 ≈ 1.0011 cm
En la tabla C.3 se lee t0.975 (22) = 2.0739 y
t1−α/2×s
√1
n+
(x− x)2∑(xi − x)2 = 2.0739×0.0102×
√1
24+
(1− 27/24)2
7.8750= 4.420 ×10−3
resulta, con una confianza del 95 %
µ (1) = 1.0011± 0.0044 cm
c) p = 0.99, u(1+p)/2 = u0.995 = 2.58
d2 =1
24+
(1− 27/24)2
7.8750= 0.043651
1 +d2
2−d4(
2u2(1+p)/2 − 3
)24
= 1 +0.043651
2−
0.0436512 ×(2× 2.582 − 3
)24
= 1.021
χ20.05 (22) = 12.3380
k = u(1+p)/2
√n− 2
χ2α
1 +d2
2−d4(
2u2(1+p)/2 − 3
)24
= 2.58×
√22
12.3380× 1.021 = 3.5175
Con una confianza del 95 % al menos el 99 % de las longitud Y correspondientes a la
nominal de x = 1 cm estaran dentro del intervalo
µ(1)± k × s =
1.0011± 3.5175× 0.0102 = (0.965, 1.037) cm
es decir, con dicha confianza
P (0.965 < Y (1) < 1.037) ≥ 0.99
3. poniendo x =√
2d
Y = β0 + β1x+ U
la muestra es
x (m) 0.6325 1.4142 2.0000 2.4495 3.1623
y (s) 0.26 0.50 0.68 0.82 1.07
256 Soluciones a los Ejercicios
0 2 4 60
0.2
0.4
0.6
0.8
1
1.2
1.4
d
y
0 1 2 30
0.2
0.4
0.6
0.8
1
1.2
1.4
x
Figura A.3: Curvas de regresion para la estimacion de g. Izquierda: ejes (d, y), derecha: ejes
(√
2d, y).
∑xi = 9.6584; x = 1.9317;
∑x2i = 22.4;
∑(xi − x)2 =
∑x2i − (
∑xi)
2 /n = 3.7429∑yi = 3.3300; y = 0.6660;
∑y2i = 2.5973;
∑(yi − y)2 =
∑y2i − (
∑yi)
2 /n = 0.3795∑xiyi = 7.6238;
∑xiyi − (
∑xi) (
∑yi) /n = 1.1912
y resultan
b1 =1.1912
3.7429= 0.3183 m−1/2 s→ g = 1/0.31832 ≈ 9.87 m s−2
b0 = 0.6660− 0.3183× 1.9317 ≈ 0.05 s
Desde que se interrumpe la corriente hasta que se libera la bola transcurren 0.05 s (es
decir, el tiempo medido es superior en dicha cantidad al de caida mas el error aleatorio).
El error aleatorio esta caracterizado por una desviacion tıpica estimada de valor
s =
√(∑(yi − y)2 − b21
∑(xi − x)2
)/ (n− 2) ≈ 0.01 s
Ver figura A.3
La desviacion tıpica estimada del estimador de β1√V ar (B1) =
s√∑(xi − x)2
=0.0114√3.7429
≈ 0.006 m−1/2 s
4. X =
1√
2d1
1√
2d2
... ...
1√
2dn
A.7. Capıtulo 7 257
5.
q (b) =n∑i=1
[yi − bxi]2
Para hallar b que hace mınimo el valor de q:
q′ (b) = −2n∑i=1
xi [yi − bxi] = 0
y resulta
b =
n∑i=1
xiyi
n∑i=1
x2i
que corresponde a un mınimo pues
q′′ (b) =
n∑i=1
x2i > 0
6. X =
x1
x2
...
xn
7.
µY (x) = y + rsYsX
(x− x) = 10 + 0.9× 2.1
1.2× (x− 5) = 2.125 + 1.575x
µX (y) = x+ rsXsY
(y − y) = 5 + 0.9× 1.2
2.1× (y − 10) = −0.143 + 0.514y
8. r =√
0.9 = 0.9487 (mismo signo que b1)
µY (x) = 10 + 0.45x = y + 0.45(x− x)
como µY (x) = y es y = 10 + 0.45× 20 = 19.0
b1 = rsYsX
a1 = rsXsY
=r2
b1=
0.9
0.45= 2
µX (y) = x+ a1(y − y) = 20 + 2(y − 19)
= −18 + 2y
258 Soluciones a los Ejercicios
0 5 10 15 200
5
10
15
x
y
(1)
0 5 10 15 200
5
10
15
x
y
(2)
0 5 10 15 200
5
10
15
x
y
(3)
0 5 10 15 200
5
10
15
x
y
(4)
Figura A.4: Rectas de regresion para cuatro muestras distintas.
9.
rxy =
∑(xi − x) (yi − y)√∑
(xi − x)2∑ (yi − y)2
a) Sea u = ax+ b y v = cy + d. Hallemos el coeficiente de correlacion lineal de u y v:
u = ax+ b y v = cy + d
ui − u = axi + b− (ax+ b) = a (xi − x)
vi − v = cyi + d− (cy + d) = c (yi − y)
ruv =
∑(ui − u) (vi − v)√∑
(ui − u)2∑ (vi − v)2=
ac∑
(xi − x) (yi − y)√a2∑
(xi − x)2 c2∑
(yi − y)2= rxy
b) Como yi = b0 + b1xi se sigue que rxy = ryy
10. En todas las muestras: x = 9.0, y = 7.5,∑
(xi − x)2 = 110,∑
(yi − y)2 = 41,
y = 3 + 0.5x y r = 0.816
La ensenanza es que nunca debe usarse solo el valor de r para concluir una relacion:
primero hay que estudiar el grafico de la muestra (diagrama de dispersion, figura A.4):
La (1) sugiere efectivamente una dependencia estadıstica lineal.
En la (2) hay dependencia funcional no lineal.
La (3) y la (4) ilustran la importancia que puede tener en los valores calculados un
unico un dato anomalo (outlier).
Una discusion muy clara en: http://en.wikipedia.org/wiki/Anscombe’s quartet
A.7. Capıtulo 7 259
11. Resulta r = 0 pues∑
(xi − x) (yi − y) =∑xiyi−(
∑xi) (
∑yi) /n = 0 ya que
∑xiyi =∑
x3i = 0 (pues para cada xi hay otra xj = −xi) y
∑xi = 0. Pero los puntos son
funcionalmente dependientes. En general la incorrelacion (r = 0) solo significa ausencia
de relacion lineal.
12.
X =
1 x1 x2
1 ... xm11 x2 x2
2 ... xm2... ... ... ... ...
1 xn x2n ... xmn
y el sistema (sistema 7.13) XTXb = XTy queda
n∑xi
∑x2i ...
∑xmi∑
xi∑x2i
∑x3i ...
∑xm+1i
... ... ... ... ...∑xmi
∑xm+1i
∑xm+2i ...
∑xm+mi
b0
b1
...
bm
=
∑yi∑yixi
...∑yix
mi
con solucion unica si, y solo si, el rango de X es m+1: entre las n ≥ m+1 coordenadas
xi hay al menos m+ 1 distintas.
13. El diagrama de dispersion sugiere que un polinomio de segundo grado puede ajustar
satisfactoriamente los puntos. La matrices necesarias (sistema 7.13) son
X =
1 1 1
1 2 4
1 3 9
1 4 16
1 5 25
1 6 36
1 7 49
1 8 64
1 9 81
1 10 100
,y =
20.6
30.8
55
71.4
97.3
131.8
156.3
197.3
238.7
291.7
,b =
b0b1b2
y la solucion del sistema(XTX
)b = XTy es
b =
12.643
6.297
2.125
260 Soluciones a los Ejercicios
0 2 4 6 8 10 120
50
100
150
200
250
300
x
y
Figura A.5: Ajuste de mınimos cuadrados con un polinomio de 2o grado.
es decir, el polinomio y = 12.643 + 6.297x+ 2.125x2. Ver la figura A.5
En este problema el objetivo es meramente descriptivo (no se ha hecho ninguna hipote-
sis estadıstica). Con ese objetivo el modelo mas simple es el adecuado. Sin duda
podrıamos aumentar el ajuste aumentando el grado del polinomio (aumentando hasta
el grado 9 obtendrıamos una interpolacion: el polinomio de Lagrange).
14.
T ≈ ts−n → lnT = ln t− n ln s
ası que poniendo
y = lnT, x = n, b0 = ln t, b1 = − ln s
es
y = b0 + b1x
Las matrices necesarias son (sistema 7.13)
X =
1 0
1 1
1 2
1 3
1 4
1 5
1 6
,y =
ln (22.4)
ln (21.3)
ln (19.7)
ln (15.6)
ln (15.2)
ln (13.9)
ln (13.7)
,b =
(b0
b1
)
A.7. Capıtulo 7 261
y la solucion del sistema(XTX
)b = XTy es
b =
(3.115
−9.243× 10−2
)
El modelo ajustado es
T = 22.54× 1.097−n.
Ver figuras A.6 y A.7.
0 1 2 3 4 5 6 7
2.5
2.6
2.7
2.8
2.9
3
3.1
3.2
n
log(T)
Figura A.6: Tiempo en que se tarda en hacer una tarea manual en funcion del numero de
veces que se realiza. Escala (n, log T ).
0 1 2 3 4 5 6 710
12
14
16
18
20
22
24
n
T (h)
Figura A.7: Tiempo en que se tarda en hacer una tarea manual en funcion del numero de
veces que se realiza. Escala (n, T ).
262 Soluciones a los Ejercicios
A.8. Capıtulo 8
a) La muestra ordenada de valores de X es
(1, 2, 3, 6, 7, 7, 7, 8, 8, 10, 11).
1) A partir de la muestra ordenada se obtiene la funcion de distribucion empırica:
F (x) =
0 si x < 1
1/11 si 1 ≤ x < 2
2/11 si 2 ≤ x < 3
3/11 si 3 ≤ x < 6
4/11 si 6 ≤ x < 7
7/11 si 7 ≤ x < 8
9/11 si 8 ≤ x < 10
10/11 si 10 ≤ x < 11
1 si x ≥ 11
2) Tambien a partir de la muestra ordenada se obtiene la funcion de masa empıri-
ca:
f(x) =
1/11 si x = 1
1/11 si x = 2
1/11 si x = 3
1/11 si x = 6
3/11 si x = 7
2/11 si x = 8
1/11 si x = 10
1/11 si x = 11
0 ∀x ∈ < distinto a los anteriores
b) La muestra ordenada de valores de X es
(362, 403, 453, 460, 474, 495, 498, 505, 505, 510, 542, 542,
542, 560, 593, 595, 597, 602, 628, 637, 646, 664, 682, 706).
A.8. Capıtulo 8 263
1) A partir de la muestra ordenada se obtiene la funcion de distribucion empırica:
F (x) =
0 si x < 362
1/24 si 362 ≤ x < 403
2/24 si 403 ≤ x < 453
3/24 si 453 ≤ x < 460
4/24 si 460 ≤ x < 474
5/24 si 474 ≤ x < 495
6/24 si 495 ≤ x < 498
7/24 si 498 ≤ x < 505
9/24 si 505 ≤ x < 510
10/24 si 510 ≤ x < 542
13/24 si 542 ≤ x < 560
14/24 si 560 ≤ x < 593
15/24 si 593 ≤ x < 595
16/24 si 595 ≤ x < 597
17/24 si 597 ≤ x < 602
18/24 si 602 ≤ x < 628
19/24 si 628 ≤ x < 637
20/24 si 637 ≤ x < 646
21/24 si 646 ≤ x < 664
22/24 si 664 ≤ x < 682
23/24 si 682 ≤ x < 706
1 si x ≥ 706
2) Tambien a partir de la muestra ordenada y tomando como origen x0 = 362 y
como longitud de las clases del histograma h = 3.5sn1/3 ≈ 106.84, la funcion de
densidad empırica es:
f(x) =
0 si x < 362
0.00156 si 362 ≤ x ≤ 468.84
0.00390 si 468.84 < x ≤ 575.68
0.00351 si 575.68 < x ≤ 682.52
0.00039 si 682 < x ≤ 789.36
0 si x ≥ 789.36
En la figura A.8 se dibuja el histograma.
c) a) La muestra ordenada de valores de X es
(4, 7, 15, 19, 22, 59, 68, 80, 115, 120, 132, 208, 309, 371, 579)
Con p = 0.25 es np+ 0.5 = 15× 0.25 + 0.5 = 4.25 ası que k = 4 y r = 0.25
264 Soluciones a los Ejercicios
350 400 450 500 550 600 650 700 750 8000
0.5
1
1.5
2
2.5
3
3.5
4x 10
−3
PluviometrÃa media en España peninsular (mm)
Den
sida
d de
pro
babi
lidad
Figura A.8: Histograma de la pluvometrıa media en Espana peninsular en el periodo 1989/90
- 2012/13
q1 = x(4) + 0.25×(x(5) − x(4)
)= 19 + 0.25× (22− 19) = 19.75
q2 = xm = x(8) = 80
Con p = 0.75 es np+ 0.5 = 15× 0.75 + 0.5 = 11.75 ası que k = 11 y r = 0.75
q3 = x(11) + 0.75×(x(12) − x(11)
)= 132 + 0.75× (208− 132) = 189
El coeficiente de simetrıa es
q3 + q1 − 2xmq3 − q1
=189 + 19.75− 2× 80
189− 19.75= 0.288
la muestra es asimetrica a la derecha (los datos a la derecha de la mediana se
extienden mas lejos que a la izquierda).
El lımite inferior de valores atıpicos es `i = q1 − 1.5 (q3 − q1) = 19.75 − 1.5 ×(189− 19.75) = −234.13 < x(1) ası que no hay atıpicos inferiores.
El lımite superior de valores atıpicos es `s = q3 + 1.5 (q3 − q1) = 189 + 1.5 ×(189− 19.75) = 442.88 < x(15) ası que 579 es atıpico.
b) Ver figura A.9.
c) La muestra ordenada de valores de Y = log (X) es
(1.3863, 1.9459, 2.7081, 2.9444, 3.0910, 4.0775, 4.2195, 4.3820,
4.7449, 4.7875, 4.8828, 5.3375, 5.7333, 5.9162, 6.3613)
Los valores de k y r para los cuantiles son los mismos de antes (solo dependen de
n y p) ası que
A.8. Capıtulo 8 265
0
100
200
300
400
500
600
Pb
(µg
/ m3 )
Figura A.9: Diagrama de caja de una muestra de valores de la concentracion de plomo en el
aire.
q1 = y(4) + 0.25×(y(5) − y(4)
)= 2.9444 + 0.25× (3.0910− 2.9444) = 2.9811
q2 = ym = y(8) = 4.3820
q3 = y(11) + 0.75×(y(12) − y(11)
)= 4.8828 + 0.75× (5.3375− 4.8828) = 5.2238
El coeficiente de simetrıa es
q3 + q1 − 2ymq3 − q1
=5.2238 + 2.9811− 2× 4.3820
5.2238− 2.9811= −0.24930
la muestra es asimetrica a la izquierda (los datos a la izquierda de la mediana se
extienden mas lejos que a la derecha). Sin embargo es menos asimetrica que la de
valores de X.
El lımite inferior de valores atıpicos es `i = q1 − 1.5 (q3 − q1) = 2.9811 − 1.5 ×(5.2238− 2.9811) = −0.38 < y(1) ası que no hay atıpicos inferiores.
El lımite superior de valores atıpicos es `s = q3 + 1.5 (q3 − q1) = 5.2238 + 1.5 ×(5.2238− 2.9811) = 8.58 > y(15) ası que no hay atıpicos superiores.
d) Figura A.10.
e) Como n = 15 las probabilidades asociadas a cada elemento de la muestra
(cuantiles empıricos) con pk = (k − 0.5)/15 son
pk = (0.0333, 0.1000, 0.1667, 0.2333, 0.3000, 0.3667, 0.4333, 0.5000,
0.5667, 0.6333, 0.7000, 0.7667, 0.8333, 0.9000, 0.9667)
y los cuantiles teoricos con la N(0, 1) correspondientes a estas probabilidades son
Φ−1(pk) = (−1.8339,−1.2816,−0.9674,−0.7279,−0.5244,−0.3407,−0.1679, 0,
0.1679, 0.3407, 0.5244, 0.7279, 0.9674, 1.2816, 1.8339)
266 Soluciones a los Ejercicios
1.5
2
2.5
3
3.5
4
4.5
5
5.5
6
6.5
log
Pb
(µg
/ m3 )
Figura A.10: Diagrama de caja para el logaritmo de la concentracion de plomo en el aire
−2 −1.5 −1 −0.5 0 0.5 1 1.5 21
2
3
4
5
6
7
8
Φ−1(pk)
y(k)
Figura A.11: qq-plot para el logaritmo de la concentracion de plomo suponiendo un modelo
normal.
Ver figura A.11.
f) Si Y = log (X) siguiese una distribucion N (µ, σ) su funcion de cuantiles Q (p)
es y = µ + σΦ−1(p). El grafico cuantil-cuantil (valores experimentales y(k) sobre
teoricos Φ−1 (pk)) sugiere que dicho modelo puede ser adecuado. Los parametros
A.8. Capıtulo 8 267
de la recta de mınimos cuadrados son
b =
∑y(i)Φ
−1 (pi)−(∑
y(i)
) (∑Φ−1 (pi)
)/n∑
(Φ−1 (pi))2 − (
∑Φ−1 (pi))
2 /n= 1.4621
a =(∑
y(i) − b∑
Φ−1 (pi))/n = 4.1679
y entonces una estimacion de σ serıa 1.4621 y una de µ serıa 4.1679
Estas estimaciones coinciden apreciablemente con las de maxima verosimilitud en
la normal
µ = y =1
n
∑yi = 4.1679
σ = sy =
√1
n− 1
∑(yi − y)2 = 1.4744
d) La desviacion tıpica de la muestra es s = 0.2209 y n = 29; Para elegir la anchura
de clases usamos
h ≈ 3.5s
n1/3=
3.5× 0.2209
291/3= 0.2517
y tomaremos h = 0.25
Con el origen en a0 = 4.88
Ij njnjn
njnh
[4.88, 5.13] 3 0.1034 0.4138
(5.13, 5.38] 8 0.2759 1.1034
(5.38, 5.63] 13 0.4483 1.7931
(5.63, 5.88] 5 0.1724 0.6897
29 1
Ver figura A.12.
Con el origen en a0 = 4.83
Ij njnjn
njnh
[4.83, 5.08] 2 0.0690 0.2759
(5.08, 5.33] 6 0.2069 0.8276
(5.33, 5.58] 13 0.4483 1.7931
(5.58, 5.83] 7 0.2414 0.9655
(5.83, 6.08] 1 0.0345 0.1379
29 1
Ver figura A.13.
El ejercicio ilustra claramente la debilidad del histograma: su dependencia de
los valores elegidos para a0 y h. Naturalmente cuanto mayor sea el tamano de
268 Soluciones a los Ejercicios
5 5.2 5.4 5.6 5.8 6 6.20
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
x
dens
idad
de
prob
abili
dad
origen en 4.88
Figura A.12: Histograma del experimento de Cavendish con a0 = 4.88.
5 5.2 5.4 5.6 5.8 6 6.2 6.40
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
x
dens
idad
de
prob
abili
dad
origen en 4.83
Figura A.13: Histograma del experimento de Cavendish con a0 = 4.83.
muestra n mas robusta sera la imagen (pues se podra elegir un valor de h pe-
queno y el desplazamiento del origen en un intervalo de longitud h tendra menos
importancia).
b) Con n = 29 las probabilidades asociadas a cada elemento de la muestra orde-
nada x(k) (cuantiles empıricos) son pk = (k−0.5)/29 (k = 1, 2, ..29) y los cuantiles
teoricos con la N(0, 1) correspondientes a estas probabilidades son Φ−1(pk).
A.8. Capıtulo 8 269
k 1 2 3 4 5
pk 0.0172 0.0517 0.0862 0.1207 0.1552
Φ−1(pk) −2.1144 −1.6284 −1.3645 −1.1715 −1.0145
x(k) 4.88 5.07 5.10 5.26 5.27
k 6 7 8 9 10
pk 0.1897 0.2241 0.2586 0.2931 0.3276
Φ−1(pk) −0.8792 −0.7583 −0.6476 −0.5443 −0.4466
x(k) 5.29 5.29 5.30 5.34 5.34
k 11 12 13 14 15
pk 0.3621 0.3966 0.4310 0.4655 0.5000
Φ−1(pk) −0.3529 −0.2623 −0.1737 −0.0865 0
x(k) 5.36 5.39 5.42 5.44 5.46
k 16 17 18 19 20
pk 0.5345 0.5690 0.6034 0.6379 0.6724
Φ−1(pk) 0.0865 0.1737 0.2623 0.3529 0.4466
x(k) 5.47 5.50 5.53 5.55 5.57
k 21 22 23 24 25
pk 0.7069 0.7414 0.7759 0.8103 0.8448
Φ−1(pk) 0.5443 0.6476 0.7583 0.8792 1.0145
x(k) 5.58 5.61 5.62 5.63 5.65
k 26 27 28 29
pk 0.8793 0.9138 0.9483 0.9828
Φ−1(pk) 1.1715 1.3645 1.6284 2.1144
x(k) 5.68 5.75 5.79 5.85
Ver figura A.14.
270 Soluciones a los Ejercicios
−3 −2 −1 0 1 2 3
5
5.2
5.4
5.6
5.8
6
6.2
Cuantiles teóricos
Cua
ntile
s em
píric
os
QQ−Plot modelo normal
Figura A.14: qq-plot del experimento de Cavendish suponiendo un modelo normal.
Apendice B
Complementos
B.1. Va Normal
La integral
I =
∫ +∞
0e−x
2/2dx
es claramente convergente pues e−x2< e−x y la de esta ultima lo es. Para hallar su valor
hacemos
I2 =
(∫ +∞
0e−x
2/2dx
)2
=
(∫ +∞
0e−x
2/2dx
)(∫ +∞
0e−y
2/2dy
)=
∫ +∞
0
∫ +∞
0e−(x2+y2)/2dxdy
cambiando a polares
x = r cos θ
y = r sin θ
el jacobiano es
J =
(∂x∂r
∂x∂θ
∂y∂r
∂y∂θ
)=
(cos θ −r sin θ
sin θ r cos θ
)det J = r
y resulta
I2 =
∫ π/2
0
(∫ +∞
0re−r
2/2dr
)dθ =
π
2
Se concluye que (el integrando es una funcion par)∫ +∞
−∞e−x
2/2dx = 2
√π
2=√
2π (B.1)
271
272 Complementos
y por lo tanto
1√2π
∫ +∞
−∞e−x
2/2dx = 1
Si U ∼ N (0, 1) una mayoracion frecuente en Fısica es
P (U > u) =
∫ ∞u
e−x2/2dx <
1
u
∫ ∞u
xe−x2/2dx =
1
ue−u
2/2 u > 0
B.1.1. Esperanza y varianza
Calculemos la esperanza y varianza de una variable aleatoria U ∼ N (0, 1):
E (U) =1√2π
∫ +∞
−∞ue−u
2/2du =1√2π
[−e−u2/2
]+∞
−∞= 0
V ar (U) =1√2π
∫ +∞
−∞u2e−u
2/2du
integrando por partes con
dv = ue−u2/2du→ v = −e−u2/2
resulta
V ar (U) =[−ue−u2/2
]+∞
−∞+
1√2π
∫ +∞
−∞e−u
2/2du = 1
pues el primer termino de la derecha vale 0 y el segundo es la densidad.
Ahora si X = σU + µ ∼ N (µ, σ) y resulta
E (X) = µ
V ar (X) = σ2
B.1.2. Reproductividad
Proposicion B.1. Si Xi son N (µi, σi) independientes entonces∑Xi es N(
∑µi,√∑
σi).
Demostracion. Basta probarlo para dos N (0, σ1) y N (0, σ2). La densidad de la suma es
(ejemplo 2.44):
fY (y) =
∫ +∞
−∞f1(x1)f2(y − x1)dx1
B.1. Va Normal 273
ası que
fY (y) =1
2πσ1σ2
∫ +∞
−∞exp
(− x2
1
2σ21
)exp
(−(y − x1)2
2σ22
)dx1
=1
2πσ1σ2exp
(−1
2
y2
σ21 + σ2
2
)∫ +∞
−∞exp
− 1
2σ21σ
22
(√σ2
1 + σ22x1 −
σ21√
σ21 + σ2
2
y
)2 dx1
cambiando √σ2
1 + σ22x1 −
σ21√
σ21 + σ2
2
y = σ1σ2u
dx1 =σ1σ2√σ2
1 + σ22
du
la ultima integral vale√
2π y resulta
fY (y) =1
√2π√σ2
1 + σ22
exp
(−1
2
y2
σ21 + σ2
2
)
que es N(
0,√σ2
1 + σ22
).
Proposicion B.2. (Cramer) Sean X e Y Vas con valores en R e independientes. Si Z =
X + Y es normal entonces X e Y son normales.
B.1.3. Simulacion
Si U1 y U2 son Vas independientes uniformes en (0, 1), se definen:
X1 = (−2 logU1)12 cos(2πU2)
X2 = (−2 logU1)12 sen(2πU2)
(B.2)
La transformacion, del cuadrado unitario en todo el plano, es continua, biunıvoca y diferen-
ciable. La transformacion inversa es:
U1 = exp[−1
2
(X2
1 +X22
)]U2 = 1
2π arctan
(X1
X2
) cuyo determinante jacobiano vale:
=1
2πexp
[−1
2
(X2
1 +X22
)]de manera que, como la densidad conjunta de (U1, U2) es f(u1, u2) = 1 en el cuadrado, la de
(X1, X2) es (seccion 2.11.3):
f(x1, x2) =1
2πexp
(−1
2x2
1
)exp
(−1
2x2
2
)−∞ < x1, x2 < +∞
274 Complementos
es decir, X1 y X2 son N(0, 1) e independientes.
En conclusion, se obtienen 2 observaciones independientes de una Va N(0, 1) a partir de 2
numeros aleatorios u1 y u2, mediante la tranformacion (B.2). Por ultimo, si se desea una
N(µ, σ) se hace xσ + µ.
B.1.4. Aproximaciones
Por medio de la funcion gamma. Si U ∼ N (0, 1) entonces U2 ∼ χ2 (1) que es una Gamma(1/2, 1/2)
(ver Capıtulo 2 ejercicio 16). Se hace
P (−u < U < u) = P(U2 < u2
)u > 0
y entonces
P (U < u) =1
2
(1 + P
(U2 < u2
))u > 0
B.2. Va gamma
La funcion euleriana gamma se define mediante:
Γ(a) =
∫ ∞0
xa−1e−xdx
que converge para todo real a > 0. Se prueba (integrando por partes) que Γ(a+ 1) = aΓ(a).
Como Γ (1) = 1, resulta Γ(a+ 1) = a! para todo entero a ≥ 0.
Un valor notable es (cambiando x = u2/2 y teniendo en cuenta (B.1))
Γ(1
2) =
∫ ∞0
x−1/2e−xdx =√
2
∫ ∞0
e−u2/2du =
√π
A partir de ella se define la densidad gamma de parametros (a, λ)1:
f(x) =λa
Γ(a)xa−1e−λx x > 0
Efectivamente (cambiando x = u/λ):∫ ∞0
λa
Γ(a)xa−1e−λxdx =
1
Γ(a)
∫ ∞0
ua−1e−udu = 1
Si X es Gamma(a, λ) es facil probar que
E (X) =a
λ
V ar (X) =a
λ2
1Se denota tambien 1/λ en lugar de λ (por ejemplo Matlab)
B.2. Va gamma 275
B.2.1. Casos particulares
Si a = 1 resulta la exponencial de parametro λ.
La Gamma(a/2, 1/2) se llama ji-cuadrado de parametro a, denotada χ2(a):
f(x) =(1/2)a/2
Γ(a/2)xa/2−1e−x/2 x > 0
Proposicion B.3. Si X es Poisson de parametro λ
P (X ≤ k) = P (Y > λ)
donde Y es Gamma(k + 1, 1).
Demostracion. La densidad gamma de parametros a = k + 1 y λ = 1
f(y) =1
k!yke−y y > 0
Sea Y una Va con esta densidad. Calculemos
P (Y > λ) =
∫ λ
0
1
k!uke−udu
Integrando repetidamente por partes
∫ λ
0
1
k!uke−udu =
(−u
ke−u
k!
)λ0
+
∫ λ
0
k
k!uk−1e−udu
= −λke−λ
k!+
∫ λ
0
1
(k − 1)!uk−1e−udu
= −
(λke−λ
k!+λk−1e−λ
(k − 1)!
)+
∫ λ
0
1
(k − 2)!uk−2e−udu
= −
(λke−λ
k!+λk−1e−λ
(k − 1)!+ · · ·+ λk−1e−λ
(k − (k − 1))!
)+
∫ λ
0e−udu
= −
(λke−λ
k!+λk−1e−λ
(k − 1)!+ · · ·+ λe−λ
1!
)+(
1− e−λ)
= 1−
(λke−λ
k!+λk−1e−λ
(k − 1)!+ · · ·+ λe−λ
1!+ e−λ
)= 1− P (X ≤ k)
donde X es una Va de Poisson de parametro λ.
276 Complementos
B.2.2. Reproductividad
Proposicion B.4. Si Xi son Gamma(ai, λ) independientes entonces∑Xi es Gamma(
∑ai, λ).
Demostracion. Basta probarlo para dos. Sean X1 ∼Gamma(a1, λ) y X2 ∼Gamma(a2, λ)
independientes. La densidad de la suma es (ejemplo 2.44):
fY (y) =
∫ +∞
−∞f1(x1)f2(y − x1)dx1
y como
f1(x1) =λa1
Γ(a1)xa1−1
1 exp (−λx1) x1 > 0
f2(y − x1) =λa2
Γ(a2)(y − x1)a2−1 exp (−λ (y − x1)) 0 < x1 < y
pues f2 (y − x1) = 0 si y − x1 < 0.
fY (y) =λa1+a2
Γ(a1)Γ(a2)exp (−λy)
∫ y
0xa1−1
1 (y − x1)a2−1 dx1
cambiando x1 = yt la integral queda
ya1+a2−1
∫ 1
0ta1−1 (1− t)a2−1 dt = ya1+a2−1 Γ(a1)Γ(a2)
Γ(a1 + a2)
y resulta
fY (y) =λa1+a2
Γ(a1 + a2)exp (−λy) y > 0
es decir, Gamma(a1 + a2, λ).
Corolario B.1. En particular si Xi son exponenciales independientes de parametro λ en-
tonces∑n
i=1Xi es Gamma(n, λ):
f(x) =λn
Γ(n)xn−1e−λx x > 0
B.3. Va beta
La funcion euleriana beta se define mediante:
B(a, b) =
∫ 1
0xa−1(1− x)b−1dx =
Γ(a)Γ(b)
Γ(a+ b)= B(b, a)
donde a, b > 0.
A partir de ella se define la densidad beta de parametros (a, b) mediante
f (x) =1
B (a, b)xa−1(1− x)b−1 0 < x < 1
B.4. Varianza de un estimador 277
(la funcion de distribucion se llama en Analisis la beta incompleta).
Si X es beta(a, b) es facil probar que
E (X) =a
a+ b
V ar (X) =ab
(a+ b)2 (a+ b+ 1)
B.3.1. Casos particulares
La beta(1, 1) es la uniforme en (0, 1)
Si a y b son numeros naturales, integrando repetidamente por partes la funcion de distribucion
beta(a, b) se obtiene:
1
B(a, b)
∫ x
0ta−1(1− t)b−1dt = 1−
a−1∑i=0
(a+ b− 1
i
)xi(1− x)a+b−1−i
Por lo tanto, denotando x = p, a = k + 1 y b = n − k, y si X es una Va binomial de
parametros n y p :
P (X ≤ k) =
k∑i=0
(n
i
)pi(1− p)n−i = 1− 1
B(k + 1, n− k)
∫ p
0tk(1− t)n−k−1dt = P (W > p)
donde W es beta(k + 1, n− k)
Si X es una Va de Student de parametro k entonces
P (|X| < x) = P
(W <
x2
x2 + k2
)x > 0
donde W es beta(1/2, k/2)
B.4. Varianza de un estimador
Sea X con densidad f(x | θ), tal que el conjunto C = x ∈ R : f(x | θ) > 0 no depende
de θ. Ademas se supone legıtima la derivacion bajo el signo de integral. Sea una muestra
(X1, X2..., Xn) con densidad f(x1, x2, ..., xn | θ) =∏f(xi | θ).
Definicion B.1. Se llama cantidad de informacion (de Fisher) en la muestra (X1, X2..., Xn)
para el parametro θ a:
In(θ) = E
((∂
∂θln f(X1, X2, ..., Xn | θ)
)2)
278 Complementos
En particular si n = 1 denotaremos:
I(θ) = E
((∂
∂θln f(X | θ)
)2)
Proposicion B.5. E(∂∂θ ln f(X | θ)
)= 0.
Demostracion. Como∫C f(x | θ)dx = 1, derivando respecto de θ:∫
C
∂
∂θf(x | θ)dx =
∫Cf(x | θ) ∂
∂θln f(x | θ)dx
= E
(∂
∂θln f(X | θ)
)= 0
Corolario B.2. Expresion alternativa: I(θ) = −E(∂2
∂θ2ln f(X | θ)
)Demostracion. derivando una vez mas∫
C
∂2
∂θ2 f(x | θ)dx =
∫C
∂
∂θf(x | θ) ∂
∂θln f(x | θ)dx+
∫Cf(x | θ) ∂
2
∂θ2 ln f(x | θ)dx
=
∫C
∂
∂θf(x | θ) ∂
∂θln f(x | θ)dx+ E
(∂2
∂θ2 ln f(X | θ))
= 0
y como ∫C
∂
∂θf(x | θ)
∂
∂θln f(x | θ)dx =
∫Cf(x | θ)
(∂
∂θln f(x | θ)
)2
dx
= E
((∂
∂θln f(x | θ)
)2)
resulta
E
((∂
∂θln f(x | θ)
)2)
= −E(∂2
∂θ2 ln f(X | θ))
Corolario B.3. I(θ) = V ar(∂∂θ ln f(X | θ)
).
Corolario B.4. E(∂∂θ ln f(X1, X2, ..., Xn | θ)
)= 0, pues:
E
(∂
∂θln f(X1, X2, ..., Xn | θ)
)= E
(∂
∂θln∏
f(Xi | θ))
=∑
E
(∂
∂θln f(Xi | θ)
)
B.4. Varianza de un estimador 279
Corolario B.5.
In(θ) = V ar
(∂
∂θln f(X1, X2, ..., Xn | θ)
)= V ar
(∑ ∂
∂θln f(Xi | θ)
)=
∑V ar
(∂
∂θln f(Xi | θ)
)= nI(θ)
Teorema B.1 (Cota de Frechet-Cramer-Rao). Sea X con densidad f(x | θ) tal que el
conjunto C = x ∈ R : f(x | θ) > 0 es independiente de θ. Sea T = g(X1, X2..., Xn) un
estimador insesgado de g (θ), es decir, E (T ) = g (θ). Entonces:
V ar(T ) ≥ (g′ (θ))2
nI(θ)
Demostracion. derivando respecto de θ en
g (θ) =
∫C· · ·∫CTf(x1, x2, ..., xn | θ)dx1 · · · dxn
g′ (θ) =
∫C· · ·∫CT∂
∂θf(x1, x2, ..., xn | θ)dx1 · · · dxn
=
∫C· · ·∫CTf(x1, x2, ..., xn | θ)
∂
∂θln f(x1, x2, ..., xn | θ)dx1 · · · dxn
= Cov
(T,
∂
∂θln f(X1, X2, ..., Xn | θ)
)
Aplicando la desigualdad de Cauchy-Schwarz:(Cov
(T,
∂
∂θln f(X1, X2, ..., Xn | θ)
))2
=(g′ (θ)
)2≤ V ar(T )nI(θ)
Corolario B.6. Si E(T ) = θ
V ar(T ) ≥ 1
nI(θ)
Como (Cov (U, V ))2 = V ar (U)V ar (V ) si y solo si U = a+ bV resulta:
Corolario B.7. Se alcanza la igualdad si, y solo si, T es una funcion lineal de ∂∂θ ln f(X1, X2, ..., Xn |
θ)
280 Complementos
Corolario B.8. Puede obtenerse una acotacion semejante a la del Teorema para el error
cuadratico medio de cualquier estimador T de g(θ). Como:
E(
(T − g(θ))2)
= V ar(T ) + b2(θ) ≥ V ar(T )
resulta:
E(
(T − g(θ))2)≥ (g′(θ) + b′(θ))2
nI(θ)
Proposicion B.6. Si existe un estimador insesgado con varianza igual a la cota, es unico.
Demostracion. Supongamos que hubiese dos, T1 y T2 con V ar(T1) = V ar(T2) = c2.
Formamos el (T1 + T2)/2 tambien insesgado, y cuya varianza no puede ser inferior a c2:
V ar
(T1 + T2
2
)=
1
2
(c2 + Cov(T1, T2)
)≥ c2
Es decir, Cov(T1, T2) ≥ c2. Pero segun la desigualdad de Schwarz es |Cov(T1, T2)| ≤ c2,
ası que Cov(T1, T2) = c2 y esto sucede si, y solo si T1 = aT2 + b. Y como E(T1) = E(T2)
resulta que a = 1 y b = 0.
Observacion B.1. Debe enfatizarse que si no se cumplen las condiciones del Teorema,
fundamentalmente que el recorrido C de X no dependa de θ, podrıan hallarse estimadores
con varianza inferior a la cota.
Ejemplo B.1. Sea f (x | θ) = exp (θ − x) si x ≥ θ y cero en otro caso. En el punto x = θ
no existe la derivada y la∫fdx = 1 no puede diferenciarse de la manera habitual; de hecho∫ ∂f
∂θ dx = 1. En este caso puede haber estimadores insesgado con varianza inferior a la cota
(calculada con las modificaciones precisas); por ejemplo θ = X(1) − 1n
B.5. Estimadores en la exponencial
Sea X con f(x) = λ exp(−λx). Estudiamos los estimadores insesgados de θ = 1/λ
ln f = ln(θ−1 exp(−θ−1X)
)= − ln θ − θ−1X
E
(d ln f
dθ
)2
= E(−θ−1 + θ−2X
)2= θ−4E(X − θ)2
= θ−2
asi que cualquier estimador insesgado de 1/λ tiene
V ar(T ) ≥ 1
nθ−2 =1
nλ2
En particular E(X) = 1/λ y V ar(X) = 1/(nλ2). Ası que X es el eficiente.
B.5. Estimadores en la exponencial 281
Estudiamos ahora los estimadores insesgados de λ
ln f = ln (λ exp(−λX)) = lnλ− λX
E
(d ln f
dλ
)2
= E
(1
λ−X
)2
=1
λ2
asi que cualquier estimador insesgado de λ tiene
V ar(T ) ≥ λ2
n
Comod ln f(Xi)
dλ=
1
λ−Xi
si existe un estimador insesgado de varianza mınima ha de ser funcion lineal de Xi. Pero
ninguna funcion lineal de Xi puede tener tener esperanza λ, ası que no puede alcanzarse la
cota.
Estudiemos el estimador 1/X de λ. La densidad de nX (ver reproductividad de la gamma)
es gamma de parametros n y λ:
f(x) =λn
Γ(n)xn−1 exp(−λx) x > 0
y resulta
E
(1
nX
)=
λ
n− 1
ası que
T =n− 1
nX
es insesgado para λ. Ademas
E
(1
nX
)2
=λ2
(n− 1) (n− 2)
V ar
(1
nX
)=
λ2
(n− 1)2 (n− 2)
y
V ar
(n− 1
nX
)=
λ2
n− 2
Puede probarse que este es el estimador insesgado de varianza mınima, aunque como ya se
ha visto no alcanza la cota.
282 Complementos
B.6. Muestreo sin reemplazamiento
B.6.1. Control de Calidad
Cada una de las N piezas de un lote es defectuosa o no (anotado con 1 y 0 respectivamente).
En total hay r = Np defectuosas e interesa averiguar la fraccion desconocida (0 < p < 1) de
defectuosas. Se eligen n piezas al azar y sin reemplazamiento: las
(N
n
)muestras distintas
son equiprobables. Si se extraen sucesivamente se define la Va (X1, X2, ..., Xn) donde Xi es
la calidad de la i-esima pieza.
Obviamente la Xi no son independientes. Sin embargo todas sus distribuciones marginales
(univariantes, bivariantes, etc.) son identicas. Por ejemplo, las univariantes:
P (X1 = 1) = p
P (X2 = 1) = P (X2 = 1 | X1 = 0)P (X1 = 0) + P (X2 = 1 | X1 = 1)P (X1 = 1)
=r
N − 1
N − rN
+r − 1
N − 1
r
N
=Nr − r
(N − 1)N=
r
N= p
y por induccion P (Xi = 1) = p. Ası que E (Xi) = p y V ar (Xi) = p (1− p)
Las covarianzas valen
Cov (Xi, Xj) = E (XiXj)− E (Xi)E (Xj) = P (Xi = 1, Xj = 1)−( rN
)2
y como
P (Xi = 1, Xj = 1) = P (Xj = 1 | Xi = 1)P (Xi = 1)
=r − 1
N − 1
r
N
resulta
Cov (Xi, Xj) = − r
N
N − rN (N − 1)
= −p (1− p)N − 1
Consideremos la Va X =∑n
i=1Xi, numero total de efectuosas obtenidas. Su funcion de
masa es (en lo que sigue suponemos 0 ≤ x ≤ n)
P (X = x) =
(r
x
)(N − rn− x
)(N
n
) 0 ≤ x ≤ n
B.6. Muestreo sin reemplazamiento 283
Su esperanza se calcula facilmente ası
E (X) =n∑i=1
E (Xi) = np
Y tambien calculando con la funcion de masa:
E (X) =n∑x=0
x
(r
x
)(N − rn− x
)(N
n
) = rn∑x=1
(r − 1
x− 1
)(N − rn− x
)(N
n
)
= r
n−1∑x=0
(r − 1
x
)((N − 1)− (r − 1)
(n− 1)− x
)(N
n
)
= nr
N
n−1∑x=0
(r − 1
x
)((N − 1)− (r − 1)
(n− 1)− x
)(N − 1
n− 1
)= n
r
N= np
Su varianza se calcula facilmente ası
V ar (X) =n∑i=1
V ar (Xi) +n∑i 6=j
Cov (Xi, Xj) = np (1− p)− n (n− 1)p (1− p)N − 1
= np (1− p) N − nN − 1
Para calcularla con la funcion de masa, primero
E (X (X − 1)) =n∑x=0
x (x− 1)
(r
x
)(N − rn− x
)(N
n
) = r (r − 1)n∑x=2
(r − 2
x− 2
)(N − rn− x
)(N
n
)
= r (r − 1)
n−2∑x=0
(r − 2
x
)((N − 2)− (r − 2)
(n− 2)− x
)(N
n
)
=r (r − 1)n (n− 1)
N (N − 1)
n−2∑x=0
(r − 2
x
)((N − 2)− (r − 2)
(n− 2)− x
)(N − 2
n− 2
)=
r (r − 1)n (n− 1)
N (N − 1)
284 Complementos
y entonces
V ar (X) =r (r − 1)n (n− 1)
N (N − 1)+nr
N−(nrN
)2
= np (1− p) N − nN − 1
Un estimador insesgado de p es la proporcion experimental
p (X) =X
n
y un estimador insesgado de r es
r (X) =X
nN
Ademas
V ar (p (X)) =V ar (X)
n2= p (1− p) N − n
n (N − 1)
que tiende a cero si n tiende a N .
Por su parte la estimacion MV de r es el entero r que maximiza
L (r) =
(r
x
)(N − rn− x
)
Dependiendo de r puede ser L (r) ≷ L (r − 1). Buscando entonces el que hace L (r) ≥L (r − 1)
L (r) ≥ L (r − 1)→ r
r − x(N − r + 1− (n− x))
N − r + 1≥ 1
r ≤ x
n(N + 1)
y el estimador r (X) es el mayor entero menor o igual que
X
n(N + 1)
B.6.2. El problema de los tanques alemanes
Consideremos una poblacion cuyo tamano N (numero de individuos) es desconocido y ha de
ser estimado. Suponemos ademas que cada individuo esta identificado por un numero, desde
el 1 hasta el N . Se eligen n individuos al azar y sin reemplazamiento: las
(N
n
)muestras
distintas son equiprobables. Si se extraen sucesivamente se define la Va (X1, X2, ..., Xn) donde
Xi es el numero del i-esimo individuo.
Las Xi no son independientes y sus distribuciones marginales son identicas.
P (X1 = k) =1
Nk = 1, 2, ...N
B.6. Muestreo sin reemplazamiento 285
P (X2 = k) =N∑j=1
P (X2 = k | X1 = j)P (Y1 = j)
=N∑j=1j 6=k
1
N − 1
1
N=
1
N
y por induccion P (Xi = k) = 1/N .
Consideremos el estadıstico X(n) = max (X1, X2, ..., Xn). Su recorrido es n, n + 1, .., N.Obtenemos su funcion de distribucion:
P (max (X1, X2, ..., Xn) ≤ j) = P (todos ≤ j) =
(j
n
)(N
n
) j = n, n+ 1, .., N
y ahora la funcion de masa
P(X(n) = j
)= P (max (X1, X2, ..., Xn) = j)
= P (max (X1, X2, ..., Xn) ≤ j)− P (max (X1, X2, ..., Xn) ≤ j − 1)
=
(j
n
)−(j − 1
n
)(N
n
) =
(j − 1
n− 1
)(N
n
) j = n, n+ 1, .., N
Calculamos su esperanza
E(X(n)
)=
N∑j=n
j
(j − 1
n− 1
)(N
n
) = nN∑j=n
(j
n
)(N
n
)y como
1 =N+1∑j=n+1
(j − 1
n
)(N + 1
n+ 1
) =N∑j=n
(j
n
)(N + 1
n+ 1
)resulta
E(X(n)
)= n
(N + 1
n+ 1
)(N
n
) = nN + 1
n+ 1
Por lo tanto un estimador insesgado de N es
N (X) =n+ 1
nX(n) − 1
286 Complementos
Se prueba ademas que su varianza (mınima) es
V ar(N (X)
)=
1
n
(N − n) (N + 1)
n+ 2
La estimacion MV de N es el N que hace maxima la probabilidad del x(n) observado:
L (N) =
(x(n) − 1
n− 1
)(N
n
)y como L (N) aumenta cuando N disminuye y este no puede ser menor que x(n) resulta que
N = x(n).
B.7. Va Student
La densidad de Student de parametro k es
f(t) =Γ(k+1
2
)√kπΓ
(k2
) (1 +t2
k
)− k+12
−∞ < t < +∞
Si T es Student de parametro k, denotado T ∼ t(k), su esperanza y varianza son:
E(Y ) = 0 n > 1
V ar(Y ) =k
k − 2k > 2
Proposicion B.7. Si U ∼ N(0, 1) y V ∼ χ2(k), independientes, entonces
T =U√V/k
∼ t(k)
Demostracion. La densidad de U es
fU (u) =1√2π
exp
(−u
2
2
)−∞ < u < +∞
La densidad de V es
fV (v) =1
2k/2Γ(k2 )vk2−1 exp
(−v
2
)v > 0
Denotemos Z =√V/k con valores en (0,+∞). Hallamos su densidad
FZ (z) = P (Z ≤ z) = P(V ≤ kz2
)=
∫ kz2
0f (v) dv
B.8. Muestreo de Vas normales 287
y resulta
fZ (z) = 2kzfV(kz2)
=1
2k2−1
Γ(k2 )kk2 zk−1 exp
(−kz
2
2
)z > 0
La densidad de T = U/Z (cociente de Vas independientes: ejemplo 2.45) resulta
fT (t) =
∫ +∞
0zfU (tz)fZ(z)dz
=1√2π
1
2k2−1
Γ(k2 )kk2
∫ +∞
0zk exp
(−(t2 + k
)2
z2
)dz
cambiando (t2 + k
)2
z2 = u→ z =
√2
t2 + k
√u
dz =
√2
t2 + k
1
2√udu
y resulta
fT (t) =1√
kπΓ(k2 )
(1 +
t2
k
)− k+12∫ +∞
0uk−12 exp (−u) du
=Γ(k+1
2
)√kπΓ(k2 )
(1 +
t2
k
)− k+12
−∞ < t < +∞
B.8. Muestreo de Vas normales
Si X ∼ N (µ, σ) la demostracion de que
(n− 1)S2
σ2∼ χ2 (n− 1)
X − µS/√n∼ t (n− 1)
es laboriosa y exige una serie de resultados previos.
B.8.1. Matrices de Vas
Definicion B.2. Si X = [Xij ]m×n es una matriz de Vas, se define
E (X) = [E (Xij)]m×n
288 Complementos
Proposicion B.8. Se prueba inmediatamente que E (A + BX) = A + BE (X).
Definicion B.3. Sea el vector aleatorio X = (X1, X2, ..., Xn)T . Su esperanza es el vector
µ = E (X) = (E (X1) , E (X2) , ..., E (Xn))T
y su varianza es la matriz
Σ = V ar (X) = E(XXT
)− E (X)E
(XT)
Proposicion B.9.
Σ =
σ11 σ12 · · · σ1n
σ21 σ22 · · · σ2n
· · · · · · · · · · · ·σk1 σk2 · · · σnn
donde σij = Cov(Xi, Xj), y σii = σ2
i = V ar (Xi).
Demostracion.
V ar (X) = E(XXT
)− E (X)E
(XT)
= E(XXT
)− µµT
= E(
(X− µ) (X− µ)T)
= E[(Xi − µi)
(Xj − µj
)]n×n
=[E((Xi − µi)
(Xj − µj
))]n×n
Corolario B.9. Si Σ es diagonal las Vas Xi son incorreladas.
Proposicion B.10. Si Y = c + AX entonces
E (Y) = c + Aµ
V ar (Y) = AΣAT
Demostracion. es inmediata.
Proposicion B.11. Σ es definida positiva (semidefinida si algunas de las Xi son combina-
ciones lineales de las otras).
Demostracion. tomando en la proposicion anterior A ≡ aTn×1
V ar(aTX
)= aTΣa
pero
V ar(aTX
)= V ar
(∑aiXi
)> 0 ∀a ∈ Rn
B.8. Muestreo de Vas normales 289
Proposicion B.12. Sea X con V ar (X) = Σ. Existe una rotacion Y = PTX tal que las Yi
son incorreladas.
Demostracion. como Σ es simetrica entonces Σ= PΛPT con P ortogonal (vectores propios
unitarios de Σ) y Λ diagonal (valores propios; ademas como es definida positiva los valores
propios son positivos). Poniendo Y = PTX entonces
V ar (Y) = PTΣP = PT(PΛPT
)P = Λ
B.8.2. VA normal n-dimensional
La Va X = (X1, X2, ..., Xk)T es normal n-dimensional, denotado X ∼ N(µ,Σ) si su densidad
es de la forma:
fX(x1, x2, ...xn) =1
|Σ|12 (2π)
n2
exp
[−1
2(x− µ)T Σ−1 (x− µ)
](x1, x2, ...xn) ∈ Rn
donde x =(x1, x2, ...xn)T , µ =(µ1, µ2, ..., µn)T , Σ =V ar (X) y |Σ| = det Σ
Σ−1 es definida positiva por serlo Σ ası que (x− µ)T Σ−1 (x− µ)>0, la forma cuadratica
del exponente es definida positiva.
Se sigue que el conjunto de puntos (x1, x2, ...xn) ∈ Rn tales que fX(x1, x2, ...xn) = c (super-
ficies de igual densidad) es el que hace
(x− µ)T Σ−1 (x− µ) = −2 ln(c |Σ|
12 (2π)
n2
)y es un elipsoide de centro µ y ejes ortogonales (Σ es simetrica) en las direcciones de los
valores propios de Σ.
Tengase en cuenta que pueden ser todas las Xi normales pero no serlo X, salvo si son
independientes.
Proposicion B.13. Las Xi son independientes si y solo si Σ es diagonal (en otras palabras:
la incorrelacion equivale a la independencia si X es normal).
Demostracion. Si Σ = diag(σ2
1, σ22, ..., σ
2n
)entonces
(x− µ)T Σ−1 (x− µ) =∑(
xi − µiσi
)2
y
|Σ|12 =
∏σ−1i
ası que la densidad se factoriza en el producto de n densidades normales N (µi, σi).
290 Complementos
Proposicion B.14. Sea X ∼ N((µ,Σ), y sea Y = AX con An×n no singular. Entonces
Y ∼ N((Aµ,AΣAT )
Demostracion. La densidad de Y es (ver 2.11.4)
fY(y1, y2, ...yn) =1
|A| |Σ|12 (2π)
n2
exp
[−1
2
(A−1y − µ
)TΣ−1
(A−1y − µ
)](y1, y2, ...yn) ∈ Rn
y como
µY = Aµ→ µ = A−1µY
queda (A−1y − µ
)TΣ−1
(A−1y − µ
)=
(A−1 (y − µY)
)TΣ−1A−1 (y − µY)
= ((y − µY))T(A−1
)TΣ−1A−1 (y − µY)
= ((y − µY))T(AΣAT
)−1(y − µY)
y la matriz de covarianzas es efectivamente
ΣY= AΣAT
con
|ΣY|= |A|2 |Σ|
ası que
fY(y1, y2, ...yn) =1
((2π)n |ΣY|)12
exp
[−1
2((y − µY))T Σ−1
Y (y − µY)
](y1, y2, ...yn) ∈ Rn
Corolario B.10. Sea X ∼ N((µ, σI), es decir las Xi son independientes y con igual va-
rianza. Si Y = AX es una rotacion cualquiera, entonces Y ∼ N((Aµ, σI), es decir las Yi
son independientes.
Demostracion. en la proposicion previa
ΣY=σAIAT = σI
Geometricamente: las superficies de igual densidad (la forma cuadratica del exponente) son
esferas.
El Corolario B.10 y la Proposicion B.13 dan lugar al:
Corolario B.11. Sea X ∼ N((µ,Σ). Si Σ= PΛPT (descomposicion espectral) entonces
Y = PTX ∼ N((PTµ,Λ) y las Vas Yi son independientes.
B.8. Muestreo de Vas normales 291
B.8.3. Distribuciones en el muestreo
Sea X ∼ N((0, σI) (muestra aleatoria). Usaremos el corolario B.10 eligiendo una rotacion
particular:
La identidad: ∑(Xi − µ)2 =
∑(Xi −X
)2+ n(X − µ)2
admite una interpretacion geometrica simple: es el teorema de Pitagoras aplicado al triangulo
formado por los vectores (X− µ) ,(X−X
)y(X− µ
), ası que
(X−X
)⊥(X− µ
).
El(X− µ
)esta confinado al subespacio definido por el 1 = (1, 1, ..., 1) y el
(X−X
)al subes-
pacio ortogonal de dimension n− 1.
Puede elegirse una nueva base mediante rotacion de la inicial tal que uno de sus ejes (digamos
el n) coincida con el 1 y los n− 1 restantes se hallen en el subespacio ortogonal citado. Si A
es la matriz de rotacion (ver Nota al pie):
Y = A (X− µ) =(Y1, Y2, ..., Yn−1,
√n(X − µ
))∼ N (0, σI)
A(X− µ
)=(0, 0, ..., 0,
√n(X − µ
))pues (rotacion)∥∥A (X− µ
)∥∥2=∥∥(X− µ
)∥∥2= n(X − µ)2
A(X−X
)= (Y1, Y2, ..., Yn−1, 0)
Resulta pues ∑(Xi − µ)2 =
n−1∑Y 2i + n(X − µ)2
Hemos conseguido pues la representacion
n∑i=1
(Xi −X
)2=
n−1∑i=1
Y 2i
donde las Yi ∼ N (0, σ) independientes. Y por lo tanto
Teorema B.2.(n− 1)S2
σ2∼ χ2 (n− 1)
Demostracion.
(n− 1)S2
σ2=
n−1∑(Yiσ
)2
y la suma de la derecha es de los cuadrados de n− 1 Vas N (0, 1) independientes.
292 Complementos
Teorema B.3.
X − µS/√n∼ t (n− 1)
Demostracion.
X − µS/√n
=
X−µσ/√n√S2
σ2
=U√Vn−1
∼ t (n− 1)
donde U ∼ N (0, 1) y V ∼ χ2 (n− 1) y son independientes (ver proposicion B.7).
Nota
Construyamos explicitamente la matriz de rotacion A (obtenida por primera vez por Hel-
mert).
Sean los vectores x = (x1, x2, ..., xn), x = (x, x, ..., x) = x (1, 1, ..., 1) = x1 respecto de la base
canonica de Rn. El x−x es ortogonal al 1, pues (los sımbolos representan ahora las corres-
pondientes matrices columna) (x−x)T 1 =∑
(xi − x) = 0. Ası que el x−x esta confinado
en un subespacio (hiperplano) de dimension n− 1 ortogonal al del 1. Para cada vector y de
este subespacio es∑yi = 0. Una nueva base de Rn es
1 0 0 · · · 0 1
−1 1 0 · · · 0 1
0 −1 1 · · · 0 1
· · · · · · · · · · · · · · · · · ·0 0 0 · · · 1 1
0 0 0 · · · −1 1
donde las n− 1 primeras columnas son una base del subespacio y la ultima del ortogonal. A
partir de ella construimos otra ortogonal mediante Gram-Schmidt
1 12
13 · · · 1
n−1 1
−1 12
13 · · · 1
n−1 1
0 −1 13 · · · 1
n−1 1
0 0 −1 · · · · · · · · ·· · · · · · · · · · · · · · · · · ·0 0 0 · · · 1
n−1 1
0 0 0 · · · −1 1
B.8. Muestreo de Vas normales 293
y esta en ortonormal
A =
1√2
1√2·3
1√3·4 · · · 1√
n(n−1)
1√n
−1√2
1√2·3
1√3·4 · · · 1√
n(n−1)
1√n
0 −2√2·3
1√3·4 · · · 1√
n(n−1)
1√n
0 0 −3√3·4 · · · · · · · · ·
· · · · · · · · · · · · · · · · · ·0 0 0 · · · 1√
n(n−1)
1√n
0 0 0 · · · −(n−1)√n(n−1)
1√n
B.8.4. Sesgo de S
Como se sabe S2 es insesgado para σ2 pero S es sesgado y E (S) < σ (ejemplo 5.12).
Calculamos el sesgo para X ∼ N (µ, σ).
La distribucion de (n− 1)S2/σ2 es ji-cuadrado de parametro (n− 1) (es decir Gamma((n− 1) /2, 1/2):
f(x) =(1/2)(n−1)/2
Γ((n− 1) /2)x(n−1)/2−1e−x/2 x > 0
y entonces
E
(S
√n− 1
σ
)=
∫ ∞0
√xf (x) dx =
∫ ∞0
√x
(1/2)(n−1)/2
Γ((n− 1) /2)x(n−1)/2−1e−x/2dx
=(1/2)(n−1)/2
Γ((n− 1) /2)
∫ ∞0
xn/2−1e−x/2dx
Cambiando u = x/2 ∫ ∞0
xn/2−1e−x/2dx = 2
∫ ∞0
(2u)n/2−1 e−udu
2n/2∫ ∞
0un/2−1e−udx = 2n/2Γ
(n2
)y resulta
E (S) =
√2Γ(n2
)√(n− 1)Γ
(n−1
2
)σPara n = 5 el sesgo de S es de −0.06σ
Para n = 100 el sesgo de S es de −0.003σ
El desarrollo asintotico es
E (S) =
(1− 1
4n− 7
32n2
)σ n→∞
294 Complementos
B.9. Intervalos de tolerancia
Consideramos el caso X ∼ N (µ, σ) donde µ y σ son desconocidas.
Para valores fijados de x y s sea el intervalo
(x− ks, x+ ks)
donde k esta por determinar.
Sea p fijado. Como P (x− ks < X < x+ ks) es monotona creciente con k, hay un unico k
tal que
P (x− ks < X < x+ ks) = p
Ademas
P (x− ks < X < x+ ks) = P
(x− µσ− k s
σ<X − µσ
<x− µσ
+ ks
σ
)= P
(−k s
σ<X − µσ
− x− µσ
< +ks
σ
)= P
((U − z)2 < k2 s
2
σ2
)= p
con U ∼ N (0, 1) y z = x−µσ . Se prueba que (U − z)2 ∼ χ2
1
(z2)
tiene una distribucion llamada
ji-cuadrado descentrada, de parametros 1 y δ = z2.
Si χ21:p
(z2)
denota el cuantil p en esa distribucion, es
k2 s2
σ2= χ2
1:p
(z2)
Y si
k2 s2
σ2≥ χ2
1:p
(z2)
sera
P
((U − z)2 < k2 s
2
σ2
)≥ p
Sin embargo x y s son valores particulares de las variables aleatorias independientes X y S.
Entonces z lo es de la Z ∼ N (0, 1/√n) y s2 de la S2, independiente de la Z. Se busca por
lo tanto el k tal que
P
(k2S
2
σ2≥ χ2
1:p
(Z2))
= 1− α
o lo que es igual
P
(Q ≥
(n− 1)χ21:p
(Z2)
k2
)= 1− α
B.9. Intervalos de tolerancia 295
donde Q = (n−1)S2
σ2 es ji-cuadrado(n− 1) independiente de Z. Finalmente (ver Nota 1):
P
(Q ≥
(n− 1)χ21:p
(Z2)
k2
)=
∫ ∞−∞
P
(Q ≥
(n− 1)χ21:p
(z2)
k2
)fZ (z) dz (B.3)
= 2
∫ ∞0
P
(Q ≥
(n− 1)χ21:p
(z2)
k2
)fZ (z) dz
=
√2n
π
∫ ∞0
P
(Q ≥
(n− 1)χ21:p
(z2)
k2
)e−nz
2/2dz = 1− α
ecuacion integral en k que debe resolverse numericamente.
Nota 1:
Sean X e Y son variables continuas independientes cualesquiera y sea una funcion g (·)
P (Y ≥ g (X)) =
∫ +∞
−∞
(∫ +∞
g(x)f (x, y) dy
)dx =
∫ +∞
−∞
(∫ +∞
g(x)fY (y) dy
)fX (x) dx
=
∫ +∞
−∞(P (Y ≥ g (x))) fX (x) dx
B.9.1. Lımites de tolerancia
Obtengamos un lımite superior para el caso X ∼ N (µ, σ) donde µ y σ son desconocidas.
Se trata de hallar el k tal que, con una confianza 1− α, sea
P (X < x+ ks) ≥ p
Para valores fijados de x, s y k el contenido de probabilidad del intervalo es
P (X < x+ ks) =
∫ x+ks
−∞
1
σ√
2πexp
(−1
2
(x− µσ
)2)dx
Sera igual a p si
x+ ks = µ+ σup
donde up = Φ−1 (p) es el cuantil p de la N (0, 1).
Y sera mayor o igual a p si
x+ ks ≥ µ+ σup
Pero x y s son valores particulares de las variables aleatorias X y S, y la integral lo es de la
variable aleatoria
A (k) =
∫ X+kS
−∞
1
σ√
2πexp
(−1
2
(x− µσ
)2)dx
296 Complementos
y se busca k para que
P (A (k) ≥ p) = P(X + kS ≥ µ+ upσ
)= 1− α
Pero
P(X + kS ≥ µ+ upσ
)= P
X−µσ/√n−√nup
Sσ
≥ −k√n
= 1− α
y se prueba que la Va
T =
X−µσ/√n−√nup
Sσ
tiene una densidad llamada t de Student descentrada de parametros (n− 1) y δ = −√nup
ambos conocidos. Es posible entonces calcular con dicha densidad el cuantil tα (n− 1,−√nup)
tal que
P (T ≥ tα) = 1− α
y resulta finalmente
k = − tα (n− 1,−√nup)√
n=t1−α (n− 1,
√nup)√
n(B.4)
teniendo en cuenta que para variables de Student descentradas es P (T (δ) < t) = P (T (−δ) > −t).
Mediante un argumento analogo se prueba que el k para un lımite inferior, de la forma x−ks,de contenido p y confianza 1− α es el mismo de antes.
B.10. Muestreo por atributos (pruebas de hipotesis)
Hay que determinar n y c tales que
P (T ≤ c | p1) =∑c
x=0
(nx
)px1 (1− p1)n−x = β
P (T ≤ c | p0) =∑c
x=0
(nx
)px0 (1− p0)n−x = 1− α
Hallada la solucion la curva de eficacia de la prueba (probabilidad de aceptacion en funcion
de p) es
β (p) = P (T ≤ c | p) =c∑
x=0
(n
x
)px (1− p)n−x
La solucion del sistema no-lineal debe hallarse numericamente. Conviene para ello expresar la
funcion de distribucion binomial mediante la funcion beta incompleta (evitando ası trabajar
en numeros enteros). Se prueba (integrando por partes reiteradas veces):
c∑x=0
(n
x
)px (1− p)n−x = (n− c)
(n
c
)∫ 1−p
0tn−c−1 (1− t)c dt
B.11. Modelo lineal 297
y entonces el sistema es
(n− c)(nc
) ∫ 1−p10 tn−c−1 (1− t)c dt = β
(n− c)(nc
) ∫ 1−p00 tn−c−1 (1− t)c dt = 1− α
Valores iniciales para los algoritmos iterativos de solucion pueden ser los de la aproximacion
normal de la binomial:
c∑x=0
(n
x
)px1 (1− p1)n−x ≈ Φ
(c− np1√np1 (1− p1)
)= β
c∑x=0
(n
x
)px0 (1− p0)n−x ≈ Φ
(c− np0√np0 (1− p0)
)= 1− α
que resultan
n =
(Φ−1 (1− α)
√p0 (1− p0)− Φ−1 (β)
√p1 (1− p1)
(p1 − p0)
)2
c = Φ−1 (β)√np1 (1− p1) + np1
B.11. Modelo lineal
Las Yi de la muestra son independientes con distribucion normal y parametros
E (Yi) = β0 + β1xi
V ar (Yi) = σ2
Los estimadores B0, B1 y B0 +B1x son combinaciones lineales de las Yi, sea
n∑i=1
αiYi
donde los αi son distintos en cada caso, ası que:
1. B0, B1 y B0 +B1x son variables aleatorias normales.
2. sus esperanzas se calculan ası
E
(n∑i=1
αiYi
)=
n∑i=1
αiE (Yi) =n∑i=1
αi (β0 + β1xi)
3. y sus varianzas se calculan ası
V ar
(n∑i=1
αiYi
)=
n∑i=1
α2iV ar (Yi) = σ2
n∑i=1
α2i
298 Complementos
B.11.1. Estimador B1 de β1
Como∑
(xi − x) = 0 el estimador B1 puede escribirse
B1 =
∑(xi − x)
(Yi − Y
)∑(xj − x)2 =
∑(xi − x)Yi∑(xj − x)2 (B.5)
y resulta
E (B1) =
∑(xi − x)E (Yi)∑
(xj − x)2 =
∑(xi − x) (β0 + β1xi)∑
(xj − x)2 = β1
pues∑
(xi − x)xi =∑
(xi − x)2. En cuanto a la varianza
V ar (B1) =
∑(xi − x)2 V ar (Yi)(∑
(xj − x)2)2 =
σ2∑(xj − x)2
B.11.2. Estimador B0 de β0
B0 = Y −B1x
y como
E(Y)
=1
n
∑E (Yi) =
1
n
∑(β0 + β1xi) = β0 + β1x
y E (B1) = β1 resulta
E (B0) = E(Y −B1x
)= β0
En cuanto a la varianza, como
B0 =1
n
n∑i=1
Yi −∑n
i=1 (xi − x)Yi∑(xj − x)2 x =
n∑i=1
(1
n− (xi − x)∑
(xj − x)2x
)Yi (B.6)
resulta
V ar (B0) =n∑i=1
(1
n− (xi − x)∑
(xj − x)2x
)2
V ar (Yi) = σ2
( ∑x2i
n∑
(xi − x)2
)
B.11.3. Estimador B0 +B1x de β0 + β1x
Naturalmente
E (B0 +B1x) = E (B0) + E (B1)x = β0 + β1x
B.11. Modelo lineal 299
Y tambien, expresando B0 +B1x como combinacion lineal de las Yi
B0 +B1x = Y +B1 (x− x) (B.7)
=1
n
∑Yi +
∑(xi − x)Yi∑(xj − x)2 (x− x)
=n∑i=1
(1
n+
(xi − x) (x− x)∑(xj − x)2
)Yi
V ar (B0 +B1x) = V ar
n∑i=1
(1
n+
(xi − x) (x− x)∑(xj − x)2
)Yi
= σ2∑(
1
n+
(xi − x) (x− x)∑(xj − x)2
)2
= σ2
(1
n+
(x− x)2∑(xi − x)2
)
B.11.4. Estimador S2 de σ2
Elevando al cuadrado y sumando en la identidad
Yi − (β0 + β1xi) = (Yi − (B0 +B1xi)) + ((B0 +B1xi)− (β0 + β1xi))
queda ∑(Yi − (β0 + β1xi))
2
=∑
(Yi − (B0 +B1xi))2 +
∑((B0 +B1xi)− (β0 + β1xi))
2 (B.8)
pues ∑(Yi − (B0 +B1xi)) ((B0 +B1xi)− (β0 + β1xi)) = 0
ya que (sistema de mınimos cuadrados)∑(Yi − (B0 +B1xi)) = 0∑
(Yi − (B0 +B1xi))xi = 0
Reordenando (B.8):∑(Yi − (B0 +B1xi))
2 =∑
(Yi − (β0 + β1xi))2 −
∑((B0 +B1xi)− (β0 + β1xi))
2
300 Complementos
y tomando esperanzas
E(∑
(Yi − (B0 +B1xi))2)
= E(∑
(Yi − (β0 + β1xi))2)− E
(∑((B0 +B1xi)− (β0 + β1xi))
2)
=∑
E(
(Yi − (β0 + β1xi))2)−∑
E(
((B0 +B1xi)− (β0 + β1xi))2)
= nV ar (Yi)−∑
V ar (B0 +B1xi)
= nσ2 −∑
σ2
(1
n+
(xi − x)2∑(xj − x)2
)= nσ2 − 2σ2
ası que
E
(1
n− 2
∑(Yi − (B0 +B1xi))
2
)= E
(S2)
= σ2
B.11.5. Distribuciones en el muestreo
La deduccion de las distribuciones es analoga a la de la seccion 8.3.
La formula (B.8)∑(Yi − (β0 + β1xi))
2 =∑
(Yi − (B0 +B1xi))2 +
∑((B0 +B1xi)− (β0 + β1xi))
2
es el teorema de Pitagoras aplicado al triangulo formado por los vectores (Y −Xβ) , (Y −XB)
y (XB−Xβ), ası que (Y −XB) ⊥ (XB−Xβ).
El (XB−Xβ) esta confinado al subespacio de dimension 2 engendrado por las columnas de
X y el (Y −XB) esta en el subespacio ortogonal al anterior, de dimension n− 2.
Si Y ∼ N(Xβ, σI) (muestra aleatoria) la distribucion de (XB−Xβ) es normal bidimen-
sional y la del (Y −XB) normal (n− 2) dimensional. Ademas son independientes por la
ortogonalidad.
B1, B0 y B0+B1x tienen distribucion normal por ser combinaciones lineales de las Yi. Ademas
por ser combinaciones de las componentes de (XB−Xβ) son independientes de (Y −XB)
y entonces de ‖Y −XB‖2 y de S2.
La distribucion(n− 2)S2
σ2∼ χ2 (n− 2)
y las distribuciones de Student de parametro (n− 2) de
B0 − β0
S
√ ∑x2i
n∑
(xi−x)2
,B1 − β1
S√
1∑(xi−x)2
,(B0 +B1x)− (β0 + β1x)
S
√1n + (x−x)2∑
(xi−x)2
son inmediatas.
B.12. Intervalos de tolerancia en el modelo lineal 301
B.12. Intervalos de tolerancia en el modelo lineal
Las demostraciones siguen punto por punto el argumento de la seccion B.9.
B.12.1. Unilateral
Obtengamos un lımite superior para el caso Y (x) ∼ N (µ (x) , σ) donde µ (x) = β0 + β1x
y σ son desconocidas. Se trata de hallar el k tal que, con una confianza 1− α, sea
P (Y (x) < µ (x) + ks) ≥ p
Para valores fijados de µ (x), s y k el contenido de probabilidad del intervalo es
P (Y (x) < µ (x) + ks) =
∫ µ(x)+ks
−∞
1
σ√
2πexp
(−1
2
(z − µ (x)
σ
)2)dz
Sera igual a p si
µ (x) + ks = µ (x) + upσ
donde up = Φ−1 (p) es el cuantil p de la N (0, 1).
Y sera mayor o igual a p si
µ (x) + ks ≥ µ (x) + upσ
Pero µ (x) y s son valores particulares de las variables aleatorias B0 +B1x y S, y la integral
lo es de la variable aleatoria
A (k) =
∫ (B0+B1x)+kS
−∞
1
σ√
2πexp
(−1
2
(z − µ (x)
σ
)2)dz
y se busca k para que
P (A (k) ≥ p) = P ((B0 +B1x) + kS ≥ µ (x) + upσ) = 1− α
Pero(B0 +B1x)− µ (x)
σd∼ N (0, 1)
con
d =
√1
n+
(x− x)2∑(xi − x)2
y(n− 2)S2
σ2∼ χ2 (n− 2)
302 Complementos
e independientes. Entonces
P ((B0 +B1x)− µ (x)− upσ ≥ −kS) = P
((B0 +B1x)− µ (x)
σd− up
d≥ −k S
σd
)= P
((B0+B1x)−µ(x)
σd − upd
Sσ
≥ −k/d
)= 1− α
donde la Va
T =(B0+B1x)−µ(x)
σd − upd
Sσ
tiene una densidad t de Student descentrada de parametros (n− 2) y δ = −up/d ambos
conocidos. Es posible entonces calcular con dicha densidad el cuantil tα (n− 2,−up/d) tal
que
P (T ≥ tα) = 1− α
y resulta finalmente
k = −tα (n− 2,−up/d)× d = t1−α (n− 2, up/d)× d
teniendo en cuenta que para variables de Student descentradas es P (T (δ) < t) = P (T (−δ) > −t).
Observar que k depende de p, 1− α, n y d (es decir, de las abscisas xi y de x).
Mediante un argumento analogo se prueba que el k para un lımite inferior, de la forma
µ (x)− ks, de contenido p y confianza 1− α es el mismo de antes.
B.12.2. Bilateral
El intervalo es de la forma
(µ (x)− ks, µ (x) + ks)
donde k esta por determinar.
Para valores fijados de µ (x) y s como P (µ (x)− ks < Y (x) < µ (x) + ks) es monotona cre-
ciente con k, hay un unico k que da contenido p. Ademas
P (µ (x)− ks < Y (x) < µ (x) + ks) = P
(µ (x)− µ (x)
σ− k s
σ<Y (x)− µ (x)
σ<µ (x)− µ (x)
σ+ k
s
σ
)= P
(−k s
σ<Y (x)− µ (x)
σ− µ (x)− µ (x)
σ< +k
s
σ
)= P
((U − z)2 < k2 s
2
σ2
)= p
con
U =Y (x)− µ (x)
σ∼ N (0, 1)
B.12. Intervalos de tolerancia en el modelo lineal 303
y
z =µ (x)− µ (x)
σ
ası que (U − z)2 ∼ χ21
(z2)
es una ji-cuadrado descentrada de parametros 1 y δ = z2. Y si
χ21:p
(z2)
denota el cuantil p en esa distribucion, es
k2 s2
σ2= χ2
1:p
(z2)
Resulta que si
k2 s2
σ2≥ χ2
1:p
(z2)
sera
P
((U − z)2 < k2 s
2
σ2
)≥ p
Sin embargo µ (x) y s son valores particulares de las variables aleatorias B0 + B1x y S.
Entonces z lo es de la
Z =(B0 +B1x)− µ (x)
σ∼ N (0, d) (B.9)
con
d =
√1
n+
(x− x)2∑(xi − x)2
y (n− 2)S2/σ2 ∼ χ2n−2 independiente de Z.
Se busca por lo tanto el k tal que
P
(Q ≥
(n− 2)χ21:p
(Z2)
k2
)= 1− α
donde Q = (n−2)S2
σ2 es ji-cuadrado (n− 2) independiente de Z. Ahora:
P
(Q ≥
(n− 2)χ21:p
(Z2)
k2
)=
∫ ∞−∞
P
(Q ≥
(n− 2)χ21:p
(z2)
k2| z
)fZ (z) dz
= 2
∫ ∞0
P
(Q ≥
(n− 2)χ21:p
(z2)
k2| z
)fZ (z) dz
=
√2
πd2
∫ ∞0
P
(Q >
(n− 2)χ21:p
(z2)
k2
)e−
z2
2d2 dz = 1− α
ecuacion integral que debe resolverse numericamente.
304 Complementos
B.12.3. Aproximacion de Wallis
En general, si X e Y son Vas independientes puede escribirse
PX,Y (X > Y ) =
∫PX (X > y) fY (y) dy
= EY (PX (X > Y ))
y ası
P
(Q ≥
(n− 2)χ21:p
(Z2)
k2
)= EZ
(PQ
(Q >
(n− 2)χ21:p
(Z2)
k2
))= 1− α
Poniendo V = Z2 entonces E (V ) = d2 y V ar (V ) = 2d4 (pues V/d2 ∼ χ2 (1); ver (B.9)).
Ahora si
g (V ) = PQ
(Q >
(n− 2)χ21:p (V )
k2
)desarrollando g (V ) en serie de Taylor alrededor de E (V ) = d2
g (V ) = g(d2)
+(V − d2
)g′(d2)
+1
2
(V − d2
)2g′′(d2)
+ · · ·
y tomando esperanzas
E (g (V )) = g(d2)
+O(d4)
usando entonces
E (g (V )) ≈ g(d2)
queda
PQ
(Q >
(n− 2)χ21:p
(d2)
k2
)≈ 1− α
y como Q ∼ χ2 (n− 2) resulta
k ≈
√√√√(n− 2)χ21:p (d2)
χ2(n−2):α
Por ultimo, el cuantil de la ji-cuadrado descentrada se puede aproximar con (Bowker)
√χ2
1:p (d2) ≈ u (1+p)2
1 +d2
2−d4(
2u (1+p)2
− 3)
24
El mismo argumento puede seguirse con facilidad para obtener una aproximacion al k del
intervalo de tolerancia bilateral de la normal (seccion B.9).
Apendice C
Tablas
Como ya se ha explicado en los capıtulos 4 y 6 los valores de las funciones de distribucion
de las Vas normal, ji-cuadrado y Student en un punto de la recta real no se pueden calcular
analıticamente, hay que aproximar numericamente las integrales de la funcion de densidad
en el intervalo correspondiente. La mayorıa de los lenguajes de programacion disponen de
bibliotecas con funciones que realizan las aproximaciones anteriores. En particular, la “Sta-
tistics Toolbox” de Matlabr contiene las funciones normcdf, chi2cdf y tcdf para aproximar
las funciones de distribucion antes citadas; y las funciones norminv, chi2inv y tinv para cal-
cular las correspondientes funciones de cuantiles. Utilizando las funciones normcdf, chi2inv
y tinv se han construido las tablas C.1, C.2 y C.3. El objeto de estas tablas es que los estu-
diantes puedan resolver ejercicios (con menor precision) en los momentos en que no tienen
acceso a un ordenador (especialmente durante la realizacion de examenes).
Tambien se adjuntan dos tablas para calcular los valores de k (factores de tolerancia) en el
caso de intervalos de tolerancia bilaterales y unilaterales (ver 6.5). En este caso es mas difıcil
encontrar funciones que los calculen. Las tablas C.4 y C.5 se han construido programando
en Matlabr la resolucion numerica de la ecuacion (B.3) en el primer caso y calculando el
valor de k a partir de (B.4) con la funcion nctinv en el segundo caso.
305
306 Tablas
u 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.50000 0.50399 0.50798 0.51197 0.51595 0.51994 0.52392 0.52790 0.53188 0.53586
0.1 0.53983 0.54380 0.54776 0.55172 0.55567 0.55962 0.56356 0.56749 0.57142 0.57535
0.2 0.57926 0.58317 0.58706 0.59095 0.59483 0.59871 0.60257 0.60642 0.61026 0.61409
0.3 0.61791 0.62172 0.62552 0.62930 0.63307 0.63683 0.64058 0.64431 0.64803 0.65173
0.4 0.65542 0.65910 0.66276 0.66640 0.67003 0.67364 0.67724 0.68082 0.68439 0.68793
0.5 0.69146 0.69497 0.69847 0.70194 0.70540 0.70884 0.71226 0.71566 0.71904 0.72240
0.6 0.72575 0.72907 0.73237 0.73565 0.73891 0.74215 0.74537 0.74857 0.75175 0.75490
0.7 0.75804 0.76115 0.76424 0.76730 0.77035 0.77337 0.77637 0.77935 0.78230 0.78524
0.8 0.78814 0.79103 0.79389 0.79673 0.79955 0.80234 0.80511 0.80785 0.81057 0.81327
0.9 0.81594 0.81859 0.82121 0.82381 0.82639 0.82894 0.83147 0.83398 0.83646 0.83891
1.0 0.84134 0.84375 0.84614 0.84849 0.85083 0.85314 0.85543 0.85769 0.85993 0.86214
1.1 0.86433 0.86650 0.86864 0.87076 0.87286 0.87493 0.87698 0.87900 0.88100 0.88298
1.2 0.88493 0.88686 0.88877 0.89065 0.89251 0.89435 0.89617 0.89796 0.89973 0.90147
1.3 0.90320 0.90490 0.90658 0.90824 0.90988 0.91149 0.91309 0.91466 0.91621 0.91774
1.4 0.91924 0.92073 0.92220 0.92364 0.92507 0.92647 0.92785 0.92922 0.93056 0.93189
1.5 0.93319 0.93448 0.93574 0.93699 0.93822 0.93943 0.94062 0.94179 0.94295 0.94408
1.6 0.94520 0.94630 0.94738 0.94845 0.94950 0.95053 0.95154 0.95254 0.95352 0.95449
1.7 0.95543 0.95637 0.95728 0.95818 0.95907 0.95994 0.96080 0.96164 0.96246 0.96327
1.8 0.96407 0.96485 0.96562 0.96638 0.96712 0.96784 0.96856 0.96926 0.96995 0.97062
1.9 0.97128 0.97193 0.97257 0.97320 0.97381 0.97441 0.97500 0.97558 0.97615 0.97670
2.0 0.97725 0.97778 0.97831 0.97882 0.97932 0.97982 0.98030 0.98077 0.98124 0.98169
2.1 0.98214 0.98257 0.98300 0.98341 0.98382 0.98422 0.98461 0.98500 0.98537 0.98574
2.2 0.98610 0.98645 0.98679 0.98713 0.98745 0.98778 0.98809 0.98840 0.98870 0.98899
2.3 0.98928 0.98956 0.98983 0.99010 0.99036 0.99061 0.99086 0.99111 0.99134 0.99158
2.4 0.99180 0.99202 0.99224 0.99245 0.99266 0.99286 0.99305 0.99324 0.99343 0.99361
2.5 0.99379 0.99396 0.99413 0.99430 0.99446 0.99461 0.99477 0.99492 0.99506 0.99520
2.6 0.99534 0.99547 0.99560 0.99573 0.99585 0.99598 0.99609 0.99621 0.99632 0.99643
2.7 0.99653 0.99664 0.99674 0.99683 0.99693 0.99702 0.99711 0.99720 0.99728 0.99736
2.8 0.99744 0.99752 0.99760 0.99767 0.99774 0.99781 0.99788 0.99795 0.99801 0.99807
2.9 0.99813 0.99819 0.99825 0.99831 0.99836 0.99841 0.99846 0.99851 0.99856 0.99861
3.0 0.99865 0.99869 0.99874 0.99878 0.99882 0.99886 0.99889 0.99893 0.99896 0.99900
3.1 0.99903 0.99906 0.99910 0.99913 0.99916 0.99918 0.99921 0.99924 0.99926 0.99929
3.2 0.99931 0.99934 0.99936 0.99938 0.99940 0.99942 0.99944 0.99946 0.99948 0.99950
3.3 0.99952 0.99953 0.99955 0.99957 0.99958 0.99960 0.99961 0.99962 0.99964 0.99965
3.4 0.99966 0.99968 0.99969 0.99970 0.99971 0.99972 0.99973 0.99974 0.99975 0.99976
Tabla I
Función de distribución normal F(u)
Tabla C.1: Valores de la funcion de distribucion de U ∼ N(0, 1)
Tablas 307
k 0.010 0.025 0.050 0.100 0.900 0.950 0.975 0.990 0.999
1 0.0002 0.0010 0.0039 0.0158 2.7055 3.8415 5.0239 6.6349 10.8276
2 0.0201 0.0506 0.1026 0.2107 4.6052 5.9915 7.3778 9.2103 13.8155
3 0.1148 0.2158 0.3518 0.5844 6.2514 7.8147 9.3484 11.3449 16.2662
4 0.2971 0.4844 0.7107 1.0636 7.7794 9.4877 11.1433 13.2767 18.4668
5 0.5543 0.8312 1.1455 1.6103 9.2364 11.0705 12.8325 15.0863 20.5150
6 0.8721 1.2373 1.6354 2.2041 10.6446 12.5916 14.4494 16.8119 22.4577
7 1.2390 1.6899 2.1673 2.8331 12.0170 14.0671 16.0128 18.4753 24.3219
8 1.6465 2.1797 2.7326 3.4895 13.3616 15.5073 17.5345 20.0902 26.1245
9 2.0879 2.7004 3.3251 4.1682 14.6837 16.9190 19.0228 21.6660 27.8772
10 2.5582 3.2470 3.9403 4.8652 15.9872 18.3070 20.4832 23.2093 29.5883
11 3.0535 3.8157 4.5748 5.5778 17.2750 19.6751 21.9200 24.7250 31.2641
12 3.5706 4.4038 5.2260 6.3038 18.5493 21.0261 23.3367 26.2170 32.9095
13 4.1069 5.0088 5.8919 7.0415 19.8119 22.3620 24.7356 27.6882 34.5282
14 4.6604 5.6287 6.5706 7.7895 21.0641 23.6848 26.1189 29.1412 36.1233
15 5.2293 6.2621 7.2609 8.5468 22.3071 24.9958 27.4884 30.5779 37.6973
16 5.8122 6.9077 7.9616 9.3122 23.5418 26.2962 28.8454 31.9999 39.2524
17 6.4078 7.5642 8.6718 10.0852 24.7690 27.5871 30.1910 33.4087 40.7902
18 7.0149 8.2307 9.3905 10.8649 25.9894 28.8693 31.5264 34.8053 42.3124
19 7.6327 8.9065 10.1170 11.6509 27.2036 30.1435 32.8523 36.1909 43.8202
20 8.2604 9.5908 10.8508 12.4426 28.4120 31.4104 34.1696 37.5662 45.3147
21 8.8972 10.2829 11.5913 13.2396 29.6151 32.6706 35.4789 38.9322 46.7970
22 9.5425 10.9823 12.3380 14.0415 30.8133 33.9244 36.7807 40.2894 48.2679
23 10.1957 11.6886 13.0905 14.8480 32.0069 35.1725 38.0756 41.6384 49.7282
24 10.8564 12.4012 13.8484 15.6587 33.1962 36.4150 39.3641 42.9798 51.1786
25 11.5240 13.1197 14.6114 16.4734 34.3816 37.6525 40.6465 44.3141 52.6197
26 12.1981 13.8439 15.3792 17.2919 35.5632 38.8851 41.9232 45.6417 54.0520
27 12.8785 14.5734 16.1514 18.1139 36.7412 40.1133 43.1945 46.9629 55.4760
28 13.5647 15.3079 16.9279 18.9392 37.9159 41.3371 44.4608 48.2782 56.8923
29 14.2565 16.0471 17.7084 19.7677 39.0875 42.5570 45.7223 49.5879 58.3012
30 14.9535 16.7908 18.4927 20.5992 40.2560 43.7730 46.9792 50.8922 59.7031
p
Cuantiles de la distribución c2(k)
Tabla II
Tabla C.2: Valores de la funcion de cuantiles de una Va χ2(k)
308 Tablas
k 0.9 0.95 0.975 0.99 0.995
1 3.0777 6.3138 12.7062 31.8205 63.6567
2 1.8856 2.9200 4.3027 6.9646 9.9248
3 1.6377 2.3534 3.1824 4.5407 5.8409
4 1.5332 2.1318 2.7764 3.7469 4.6041
5 1.4759 2.0150 2.5706 3.3649 4.0321
6 1.4398 1.9432 2.4469 3.1427 3.7074
7 1.4149 1.8946 2.3646 2.9980 3.4995
8 1.3968 1.8595 2.3060 2.8965 3.3554
9 1.3830 1.8331 2.2622 2.8214 3.2498
10 1.3722 1.8125 2.2281 2.7638 3.1693
11 1.3634 1.7959 2.2010 2.7181 3.1058
12 1.3562 1.7823 2.1788 2.6810 3.0545
13 1.3502 1.7709 2.1604 2.6503 3.0123
14 1.3450 1.7613 2.1448 2.6245 2.9768
15 1.3406 1.7531 2.1314 2.6025 2.9467
16 1.3368 1.7459 2.1199 2.5835 2.9208
17 1.3334 1.7396 2.1098 2.5669 2.8982
18 1.3304 1.7341 2.1009 2.5524 2.8784
19 1.3277 1.7291 2.0930 2.5395 2.8609
20 1.3253 1.7247 2.0860 2.5280 2.8453
21 1.3232 1.7207 2.0796 2.5176 2.8314
22 1.3212 1.7171 2.0739 2.5083 2.8188
23 1.3195 1.7139 2.0687 2.4999 2.8073
24 1.3178 1.7109 2.0639 2.4922 2.7969
25 1.3163 1.7081 2.0595 2.4851 2.7874
26 1.3150 1.7056 2.0555 2.4786 2.7787
27 1.3137 1.7033 2.0518 2.4727 2.7707
28 1.3125 1.7011 2.0484 2.4671 2.7633
29 1.3114 1.6991 2.0452 2.4620 2.7564
30 1.3104 1.6973 2.0423 2.4573 2.7500
40 1.3031 1.6839 2.0211 2.4233 2.7045
60 1.2958 1.6706 2.0003 2.3901 2.6603
120 1.2886 1.6577 1.9799 2.3578 2.6174
500 1.2832 1.6479 1.9647 2.3338 2.5857
p
Tabla III
Cuantiles de la distribución t(k)
Tabla C.3: Valores de la funcion de cuantiles de una Va t(k)
Tablas 309
Tabla C.4: Factores de tolerancia bilateral para la normal
310 Tablas
Tabla C.5: Factores de tolerancia unilateral para la normal
Indice alfabetico
Acotacion de Tchebychev, 80
Aleatorio, 15
Bayes, formula, 26
Bernoulli, distribucion, 40
Binomial, distribucion, 40
Box-plot, 183
Cauchy, distribucion, 45
Cauchy-Schwarz, desigualdad, 82
Convergencia en probabilidad, 113
Correccion de continuidad, 93
Correlacion, coeficiente, 83
Cota de Frechet-Cramer-Rao, 118
Covarianza, 81
Cuantil, 44
Cuantil empırico, 177
Cuartiles, 178
Desviacion tıpica, 76
Diagramas de caja, 183
Equiprobabilidad, 21
Error
cuadratico medio, 118
de estimacion, 116
Espacio muestral, 18
Especificidad, 26
Esperanza
condicional, 83
de la binomial, 67, 75
de la dist. de Bernoulli, 67
de la dist. de Poisson, 68
de la dist. geometrica, 68
de la exponencial, 68
de la normal, 69
de una combinacion lineal, 75
de una funcion de una variable, 73
de una funcion de varias variables, 74
definicion, 67
linealidad, 74
Estadıstico, 110
Estadıstico de prueba, 150
Estimacion, 116
Estimacion
de mınimos cuadrados, 191
Estimador
consistente, 119
de mınimos cuadrados, 195
eficiente, 118
insesgado, 116
insesgado en el lımite, 120
sesgado, 116
Estimador puntual, 115
Experimentos
aleatorios, 15
independientes, 30
Exponencial, distribucion, 45
Fisher (cantidad de informacion), 118
Forma multiplicativa del TCL, 102
Funcion
de cuantiles, 44
de cuantiles empırica, 177
de densidad condicional, 53
de densidad conjunta, 51
de densidad de probabilidad, 42
311
312 INDICE ALFABETICO
de densidad empırica, 173
de densidad marginal, 52
de distribucion, 38
de distribucion conjunta, 49
de distribucion empırica, 167, 168
de distribucion marginal, 49
de masa condicional, 51
de masa conjunta, 49
de masa de probabilidad, 39
de masa empırica, 170
de masa marginal, 50
de regresion lineal, 205
de una variable aleatoria, 56
de verosimilitud, 121
Gauss, distribucion, 45
Geometrica, distribucion, 40
Grafico
cuantil-cuantil, 178
Hipotesis
alternativa, 149
nula, 149
Histograma, 173
Intervalo
aleatorio, 135
de confianza, 135
de confianza asintotico, 142
de confianza en dist. normales, 137
de confianza para β0, 197
de confianza para β0 + β1x, 198
de confianza para β1, 197
de confianza para p, 145
de tolerancia, 147
de tolerancia para Y (x), 200
Lımite
de tolerancia inferior, 148
de tolerancia superior, 148
inferior de confianza, 137
inferior de probabilidad, 137
superior de confianza, 137
superior de probabilidad, 137
Metodo
de los momentos, 126
de maxima verosimilitud, 121
estadıstico, 107
pivotal, 135
Media
experimental, 69
muestral, 110
teorica, 67
Mediana, 44, 181
Modelo
lineal multiple, 202
lineal simple, 189
Momento
muestral, 126
teorico, 126
Muestra, 107
Muestra
aleatoria simple, 109
centro, 181
ordenada, 168
rango, 182
significativa al nivel α, 153
simetrıa, 182
tamano, 140
valores atıpicos, 183
Muestreo
de poblaciones finitas, 146
sin reemplazamiento, 128
Nivel de significacion, 152
Normal, distribucion, 45
Numerable, conjunto, 19
Paradoja
del tiempo de espera, 100
Percentiles, 178
INDICE ALFABETICO 313
Periodo de retorno, 71
Poblacion, 107
Poisson, distribucion, 41
Probabilidad
asignacion, 21
condicional, 23
definicion, 20
distribucion, 20, 36, 38
experimental, 15
ley, 38
total, formula, 25
Procesos de Poisson, 98, 99
Qq-plot, 178
Rango intercuartılico, 182
Region crıtica, 150
Regresion lineal simple, 204
Reproductividad, 90
Sensibilidad, 26
Sesgo de un estimador, 116
Suceso, 18
Suceso
elemental, 19
imposible, 19
seguro, 19
Sucesos
excluyentes, 19
incompatibles, 19
independientes, 28
Teorema
central del lımite, 92
Tiempo de espera, 71
Trinomial, distribucion, 50
Uniforme, distribucion, 39, 44
Valor predicitivo
negativo, 27
positivo, 27
Variabilidad
experimental, 78
Variable aleatoria
bidimensional, 48
bidimensional continua, 51
bidimensional discreta, 49
condicional continua, 53
condicional discreta, 50
continua, 37
de Gauss, 89
de Poisson, 96
definicion, 35
discreta, 37
Ji-cuadrado, 103
lognormal, 102
mixta, 46
normal, 89
Variables aleatorias
incorreladas, 80
independientes, 54, 56
Varianza
de la binomial, 81
de la distrib. de Bernoulli, 77
de la exponencial, 78
de un estimador, 117
de una c. l. de Vas. idptes., 80
de una c.l. de Vas., 82
definicion, 76
muestral, 111