Probabilidad y Estad...

Probabilidad y Estadıstica

µ−σ µ µ+σµ−2σ µ µ+2σµ−3σ µ µ+3σ

68.27%

95.45%

99.73%

Felix Mıguez

Universidad Politecnica de Madrid

18 de abril de 2014

Indice general

1 El concepto de probabilidad 15

1.1 Experimentos aleatorios. Regularidad estadıstica . . . . . . . . . . . . . . . 15

1.2 Espacio muestral. Sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

1.3 Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

1.4 Asignacion de probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . 21

1.4.1 Espacio muestral numerable y finito . . . . . . . . . . . . . . . . . 21

1.4.2 Espacio muestral no numerable y acotado . . . . . . . . . . . . . . 22

1.5 Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

1.6 Formula de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

1.7 Sucesos independientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

1.8 Experimentos independientes . . . . . . . . . . . . . . . . . . . . . . . . . . 29

1.9 Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2 Variables Aleatorias 35

2.1 Variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

2.2 Funcion de distribucion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

2.3 Variables discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

2.4 Variables continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

2.5 Variables mixtas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

2.6 Variable aleatoria bidimensional . . . . . . . . . . . . . . . . . . . . . . . . 48

2.6.1 Funcion de distribucion conjunta . . . . . . . . . . . . . . . . . . . 49

2.7 Variable aleatoria bidimensional discreta . . . . . . . . . . . . . . . . . . . 49

2.7.1 Condicionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4 INDICE GENERAL

2.8 Variable aleatoria bidimensional continua . . . . . . . . . . . . . . . . . . . 51

2.8.1 Condicionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

2.9 Variables independientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

2.10 Generalizacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

2.11 Funciones de Variables Aleatorias . . . . . . . . . . . . . . . . . . . . . . . 56

2.11.1 Funcion de una variable . . . . . . . . . . . . . . . . . . . . . . . . 56

2.11.2 Funcion de varias Vas . . . . . . . . . . . . . . . . . . . . . . . . . 59

2.11.3 Transformacion general de Vas continuas . . . . . . . . . . . . . . 61

2.11.4 Transformaciones lineales . . . . . . . . . . . . . . . . . . . . . . . 63

3 Valores Esperados 67

3.1 Esperanza de una variable aleatoria . . . . . . . . . . . . . . . . . . . . . . 67

3.2 Interpretacion experimental . . . . . . . . . . . . . . . . . . . . . . . . . . 69

3.3 Esperanza de una funcion de una variable . . . . . . . . . . . . . . . . . . 73

3.4 Esperanza de una funcion de varias variables . . . . . . . . . . . . . . . . . 74

3.5 Varianza de una variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . 76

3.6 Interpretacion experimental . . . . . . . . . . . . . . . . . . . . . . . . . . 78

3.7 Acotacion de Tchebychev . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

3.8 Varianza de una combinacion lineal de Vas independientes . . . . . . . . . 80

3.9 La covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

3.10 Esperanza condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

4 Modelos principales 89

4.1 Variable aleatoria normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

4.2 Calculo de probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

4.3 Teorema Central del Lımite . . . . . . . . . . . . . . . . . . . . . . . . . . 92

4.4 Variable aleatoria binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

4.5 Variable aleatoria de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . 96

4.6 Procesos de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

INDICE GENERAL 5

4.7 Variables relacionadas con la Normal . . . . . . . . . . . . . . . . . . . . . 102

4.7.1 Lognormal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

4.7.2 Ji-cuadrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

5 Estimacion 107

5.1 El metodo estadıstico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

5.2 Muestra aleatoria simple. Estadısticos . . . . . . . . . . . . . . . . . . . . . 109

5.3 La media muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

5.4 La varianza muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

5.5 Convergencia en probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . 112

5.6 Estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

5.7 Sesgo de un estimador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

5.8 Varianza de un estimador . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

5.9 Estimadores consistentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

5.10 El metodo de maxima verosimilitud . . . . . . . . . . . . . . . . . . . . . . 120

5.10.1 Generalizacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

5.11 El metodo de los momentos . . . . . . . . . . . . . . . . . . . . . . . . . . 124

5.12 Muestreo sin reemplazamiento . . . . . . . . . . . . . . . . . . . . . . . . . 126

6 Intervalos. Pruebas de hipotesis 133

6.1 Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

6.2 Intervalos para la normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

6.2.1 Intervalos para µ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

6.2.2 Tamanos de muestra . . . . . . . . . . . . . . . . . . . . . . . . . . 138

6.2.3 Intervalos para σ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

6.3 Intervalos asintoticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

6.4 Intervalos para p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

6.4.1 Aplicacion al muestreo de poblaciones finitas . . . . . . . . . . . . 144

6.5 Intervalos de tolerancia para la normal . . . . . . . . . . . . . . . . . . . . 145

6 INDICE GENERAL

6.6 Pruebas de hipotesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

6.6.1 Metodologıa general . . . . . . . . . . . . . . . . . . . . . . . . . . 147

6.6.2 Parametros de poblaciones normales . . . . . . . . . . . . . . . . . 155

6.6.3 Pruebas sobre la binomial . . . . . . . . . . . . . . . . . . . . . . . 159

6.6.4 Muestreo de aceptacion . . . . . . . . . . . . . . . . . . . . . . . . 160

7 Modelo lineal 169

7.1 Modelo lineal simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

7.1.1 Estimacion de mınimos cuadrados . . . . . . . . . . . . . . . . . . 171

7.1.2 Propiedades de los estimadores . . . . . . . . . . . . . . . . . . . . 175

7.2 Estimacion de maxima verosimilitud . . . . . . . . . . . . . . . . . . . . . 176

7.3 Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177

7.3.1 Para los parametros β0 y β1 . . . . . . . . . . . . . . . . . . . . . . 177

7.3.2 Para el parametro σ . . . . . . . . . . . . . . . . . . . . . . . . . . 177

7.3.3 Para la recta µ (x) = β0 + β1x . . . . . . . . . . . . . . . . . . . . 178

7.4 Intervalos de tolerancia para Y (x) . . . . . . . . . . . . . . . . . . . . . . . 179

7.5 Interpretacion geometrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180

7.6 Valoracion del ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182

7.7 Regresion lineal simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184

8 Modelizacion 191

8.1 Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191

8.2 La funcion de distribucion empırica . . . . . . . . . . . . . . . . . . . . . . 191

8.3 La funcion de masa empırica . . . . . . . . . . . . . . . . . . . . . . . . . . 194

8.4 La funcion de densidad empırica . . . . . . . . . . . . . . . . . . . . . . . . 195

8.5 La funcion de cuantiles empırica . . . . . . . . . . . . . . . . . . . . . . . . 199

8.6 Modelizacion con los cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . 202

8.6.1 Estimacion de los parametros . . . . . . . . . . . . . . . . . . . . . 203

8.7 Resumen y comparacion de muestras . . . . . . . . . . . . . . . . . . . . . 205

INDICE GENERAL 7

8.7.1 Centro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205

8.7.2 Dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206

8.7.3 Simetrıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206

8.7.4 Valores atıpicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207

8.7.5 Diagramas de caja (box-plot) . . . . . . . . . . . . . . . . . . . . . 207

A Soluciones a los Ejercicios 213

A.1 Capıtulo 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213

A.2 Capıtulo 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219

A.3 Capıtulo 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224

A.4 Capıtulo 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230

A.5 Capıtulo 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236

A.6 Capıtulo 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244

A.7 Capıtulo 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253

A.8 Capıtulo 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262

B Complementos 271

B.1 Va Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271

B.1.1 Esperanza y varianza . . . . . . . . . . . . . . . . . . . . . . . . . 272

B.1.2 Reproductividad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272

B.1.3 Simulacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273

B.1.4 Aproximaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274

B.2 Va gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274

B.2.1 Casos particulares . . . . . . . . . . . . . . . . . . . . . . . . . . . 275

B.2.2 Reproductividad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276

B.3 Va beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276

B.3.1 Casos particulares . . . . . . . . . . . . . . . . . . . . . . . . . . . 277

B.4 Varianza de un estimador . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277

B.5 Estimadores en la exponencial . . . . . . . . . . . . . . . . . . . . . . . . . 280

B.6 Muestreo sin reemplazamiento . . . . . . . . . . . . . . . . . . . . . . . . . 282

8 INDICE GENERAL

B.6.1 Control de Calidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 282

B.6.2 El problema de los tanques alemanes . . . . . . . . . . . . . . . . . 284

B.7 Va Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286

B.8 Muestreo de Vas normales . . . . . . . . . . . . . . . . . . . . . . . . . . . 287

B.8.1 Matrices de Vas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287

B.8.2 VA normal n-dimensional . . . . . . . . . . . . . . . . . . . . . . . 289

B.8.3 Distribuciones en el muestreo . . . . . . . . . . . . . . . . . . . . . 291

B.8.4 Sesgo de S . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293

B.9 Intervalos de tolerancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294

B.9.1 Lımites de tolerancia . . . . . . . . . . . . . . . . . . . . . . . . . . 295

B.10 Muestreo por atributos (pruebas de hipotesis) . . . . . . . . . . . . . . . . 296

B.11 Modelo lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297

B.11.1 Estimador B1 de β1 . . . . . . . . . . . . . . . . . . . . . . . . . . 298

B.11.2 Estimador B0 de β0 . . . . . . . . . . . . . . . . . . . . . . . . . . 298

B.11.3 Estimador B0 +B1x de β0 + β1x . . . . . . . . . . . . . . . . . . . 298

B.11.4 Estimador S2 de σ2 . . . . . . . . . . . . . . . . . . . . . . . . . . 299

B.11.5 Distribuciones en el muestreo . . . . . . . . . . . . . . . . . . . . . 300

B.12 Intervalos de tolerancia en el modelo lineal . . . . . . . . . . . . . . . . . . 301

B.12.1 Unilateral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301

B.12.2 Bilateral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302

B.12.3 Aproximacion de Wallis . . . . . . . . . . . . . . . . . . . . . . . . 304

C Tablas 305

Indice Alfabetico 311

Indice de figuras

1.1 Frecuencia relativa de caras (numero total de caras en los n primeros

lanzamientos dividido por n) obtenidas en el lanzamiento repetido de una

moneda (ejemplo 1.2). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.1 Funciones de masa binomiales. . . . . . . . . . . . . . . . . . . . . . . . . . 41

2.2 Densidades exponenciales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

2.3 Funciones de distribucion exponenciales. . . . . . . . . . . . . . . . . . . . . 46

2.4 Densidad de Cauchy. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

2.5 Ejemplo 2.38: rotura de la barra. . . . . . . . . . . . . . . . . . . . . . . . . 58

2.6 Diagrama del ejercicio 13. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

4.1 Densidades normales con igual µ y distintas σ. . . . . . . . . . . . . . . . . 90

4.2 Probabilidad para distintos intervalos (µ− kσ, µ+ kσ). . . . . . . . . . . . 92

4.3 Funciones de masa binomiales y su aproximacion por funciones de densi-

dad normales N(np,√np(1− p)). . . . . . . . . . . . . . . . . . . . . . . . . 95

4.4 Correccion de continuidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

4.5 Densidades ji-cuadrado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

5.1 Dibujo de la funcion de verosimilitud L (p | x) = p7 (1− p)3 (ejemplo

5.22). La funcion determina la probabilidad del resultado observado para

diferentes valores de p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

6.1 Densidades Student(5) y N(0, 1) . . . . . . . . . . . . . . . . . . . . . . . . 137

6.2 Funciones de potencia con α = 0.05 y muestras de tamano n = 16 y

n = 50 para una distribucion X ∼ N(µ, 1). . . . . . . . . . . . . . . . . . . 153

6.3 Curva de eficacia de la prueba del ejemplo 6.33 . . . . . . . . . . . . . . . . 162

6.4 Curva de eficacia correspondiente a la prueba del ejemplo 6.34 . . . . . . . 164

10 INDICE DE FIGURAS

7.1 Puntos de la muestra del ejemplo 7.2 . . . . . . . . . . . . . . . . . . . . . . 170

7.2 Puntos de la muestra del ejemplo 7.3 . . . . . . . . . . . . . . . . . . . . . . 171

7.3 Recta de regresion para la muestra del ejemplo 7.4 . . . . . . . . . . . . . . 174

7.4 Recta de regresion para la muestra del ejemplo 7.5 . . . . . . . . . . . . . . 174

7.5 intervalos de confianza de µ(x) = β0 + β1x para x desde 40 hasta 95C

(ejemplo 7.7) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179

7.6 Intervalos de tolerancia para Y (x), con x variando entre 40 y 95 (ejemplo 7.8) 181

8.1 Funcion de distribucion empırica (ejemplo 8.1) . . . . . . . . . . . . . . . . 193

8.2 Funcion de distribucion empırica (ejemplo 8.2) . . . . . . . . . . . . . . . . 194

8.3 Dibujo de los valores de la comparacion entre la funcion de masa empırica

del ejemplo 8.3 y una funcion de masa de Poisson con λ = 3.87 (tabla 8.1). 196

8.4 Histograma obtenido a partir de la muestra del ejemplo 8.2. Comparacion

con un modelo exponencial con λ = 0.05. . . . . . . . . . . . . . . . . . . . 198

8.5 Funcion de distribucion empırica obtenida a partir de la muestra del ejem-

plo 8.2 comparada con la funcion de distribucion exponencial de λ = 0.05. . 199

8.6 Suavizacion lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200

8.7 Valores de la funcion de cuantiles empırica para p = 1/4 y p = 3/4 . . . . . 201

8.8 Dibujo de los puntos (Φ−1(pk), x(k)) (qq-plot) y de la recta de ajuste de

mınimos cuadrados para la muestra del ejemplo 8.12. . . . . . . . . . . . . . 204

8.9 Dibujo de los puntos (Φ−1(pk), x(k)) (qq-plot) y de la recta de ajuste de

mınimos cuadrados para la muestra del ejemplo 8.2. . . . . . . . . . . . . . 205

8.10 Diagrama de caja o box-plot correspondiente a la muestra del ejemplo 8.18 209

8.11 Diagramas de caja (o box-plot) del ejemplo 8.19 . . . . . . . . . . . . . . . 210

8.12 Diagramas de caja (o box-plot) del ejemplo 8.20 . . . . . . . . . . . . . . . 211

A.1 Evolucion de la corrosion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253

A.2 Relacion entre las longitudes nominales y reales de ciertas piezas mecanizadas. 254

A.3 Curvas de regresion para la estimacion de g. Izquierda: ejes (d, y), derecha:

ejes (√

2d, y). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256

A.4 Rectas de regresion para cuatro muestras distintas. . . . . . . . . . . . . . . 258

A.5 Ajuste de mınimos cuadrados con un polinomio de 2o grado. . . . . . . . . . 260

INDICE DE FIGURAS 11

A.6 Tiempo en que se tarda en hacer una tarea manual en funcion del numero

de veces que se realiza. Escala (n, log T ). . . . . . . . . . . . . . . . . . . . . 261

A.7 Tiempo en que se tarda en hacer una tarea manual en funcion del numero

de veces que se realiza. Escala (n, T ). . . . . . . . . . . . . . . . . . . . . . . 261

A.8 Histograma de la pluvometrıa media en Espana peninsular en el periodo

1989/90 - 2012/13 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264

A.9 Diagrama de caja de una muestra de valores de la concentracion de plomo

en el aire. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265

A.10 Diagrama de caja para el logaritmo de la concentracion de plomo en el aire 266

A.11 qq-plot para el logaritmo de la concentracion de plomo suponiendo un

modelo normal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266

A.12 Histograma del experimento de Cavendish con a0 = 4.88. . . . . . . . . . . 268

A.13 Histograma del experimento de Cavendish con a0 = 4.83. . . . . . . . . . . 268

A.14 qq-plot del experimento de Cavendish suponiendo un modelo normal. . . . . 270

12 INDICE DE FIGURAS

Lista de Sımbolos mas utilizados

Probabilidad

)Numero de combinaciones de n elementos tomados de k en k

|A| Cardinal del conjunto A

Ac Complementario del conjunto A

A,B,C, . . . Sucesos (subconjuntos del espacio muestral)

P (A) Probabilidad de que ocurra el suceso A

P (A|B) Probabilidad de que ocurra A sabiendo que ha ocurrido B

Z,X, Y, . . . Variables aleatorias (Vas)

F Funcion de distribucion

f Funcion de masa o funcion de densidad

Q Funcion de cuantiles

P (X = x) Probabilidad de que X tome el valor x

P (x) Probabilidad de que X tome el valor x (abuso de notacion)

B(p) Distribucion de Bernoulli

B(n, p) Distribucion binomial

χ2(k) Distribucion ji-cuadrado

t(k) Distribucion t de Student

N(µ, σ) Distribucion normal

E(X) Esperanza de la Va X

V ar(X) Varianza de la Va X

Cov(X,Y ) Covarianza de las Vas X e Y

14 Lista de Sımbolos mas utilizados

Estadıstica

X = (X1, . . . , Xn) Muestra aleatoria

x = (x1, . . . , xn) Muestra

X Media muestral

x Media de una muestra

S2 Varianza muestral

s2 Varianza de una muestra

µ Media de la poblacion

σ2 Varianza de la poblacion

T Estimador puntual

θ Estimacion del parametro θ

L(θ|x) Funcion de verosimilitud

mi Momentos teoricos

Ai Momentos muestrales

1− α Confianza de un intervalo

p Contenido en probabilidad de un intervalo de tolerancia

σ2 Varianza de la poblacion

F Funcion de distribucion empırica

f funcion de masa o de densidad empırica

h Longitud de las clases de un histograma

Q funcion de cuantiles empırica

q1, q2 y q3 Primer, segundo y tercer cuartil

xm Mediana de una muestra

B0, B1 Estimadores de la ordenada en el origen y la pendiente

de la recta de regresion

b0, b1 Estimaciones de la ordenada en el origen y la pendiente

de la recta de regresion

R2 Coeficiente de determinacion

r Coeficiente de correlacion lineal

Capıtulo 1

El concepto de probabilidad

1.1. Experimentos aleatorios. Regularidad estadıstica

El conocimiento cientıfico se fundamenta en la observacion y medida, la elaboracion de

teorıas y el contraste experimental. Este ultimo es su rasgo distintivo, frente a seudociencias

o dogmas, y el que le confiere utilidad, sin por ello renunciar a la belleza, y a el nos referimos

a continuacion.

Cada realizacion de un experimento proporciona un resultado, y en cada resultado se

mide el valor de una o varias propiedades: la regularidad, en la repeticion bajo identicas

condiciones experimentales, de estos valores, permite la construccion de modelos.

En la Naturaleza encontramos propiedades para las que somos capaces de construir modelos

o explicaciones deterministas, junto con otras que no pueden ser predichas exactamente,

fuera de toda duda. Tales propiedades se denominan aleatorias.

Ejemplo 1.1. El resultado del lanzamiento de una moneda o un dado. La trayectoria de una

partıcula en movimiento browniano. El tiempo de vida de un atomo radioactivo. La longitud

de una cola de clientes o el tiempo de espera de cada uno de ellos. La pluviometrıa, caudal

de avenidas fluviales, numero de terremotos en una region a lo largo del tiempo, ...

En estas situaciones es posible aun construir modelos experimentalmente contrastables usan-

do una forma peculiar de regularidad, la regularidad estadıstica:

Definicion 1.1. Un experimento es aleatorio si, aunque ninguno de los resultados posibles

se puede asegurar de antemano, realizado independientemente un gran numero de veces,

la frecuencia relativa con que aparece cada clase de ellos tiende a estabilizarse alrededor de

un valor lımite llamado su probabilidad experimental.

16 Capıtulo 1. El concepto de probabilidad

Supongamos que cada vez que se realiza el experimento aleatorio solo nos interesa si el

resultado tiene la propiedad A (y entonces lo anotamos con 1) o no la tiene (y lo anotamos

con 0). Cada sucesion de realizaciones independientes produce una sucesion experimental

particular (x1, x2, ..., xn, ...), donde xi = 0 o 1. Ademas∑n

i=1 xi representa el numero de

veces que resulto A en las n ocasiones y∑n

i=1 xi/n la frecuencia relativa. Resulta entonces

lımn→∞

n∑i=1

xi = pA

cualquiera que sea la sucesion experimental. Aquı las sucesiones, a diferencia de las que

estudia el Analisis Matematico, pueden ser extraordinariamente irregulares y no hay un

termino general del que se deduzcan todos. Sin embargo estamos seguros que, en la practica,

en todas ellas se produce la misma convergencia.

Ejemplo 1.2. Se lanza repetidamente una moneda equilibrada representando los resultados

del siguiente modo: en abscisas el numero de orden del lanzamiento (n = 1, 2, ...) y en

ordenadas la frecuencia relativa de caras obtenidas (numero total de caras en los n primeros

lanzamientos dividido por n). En seguida se observa, a medida que n aumenta, como dicha

frecuencia se estabiliza alrededor del valor 1/2.

Figura 1.1: Frecuencia relativa de caras (numero total de caras en los n primeros lanzamientos

dividido por n) obtenidas en el lanzamiento repetido de una moneda (ejemplo 1.2).

1.1. Experimentos aleatorios. Regularidad estadıstica 17

Ejemplo 1.3. La radioactividad es la emision espontanea de energıa (partıculas alfa, beta

y rayos gamma) que producen algunos nucleos atomicos. Cuando un nucleo emite radiacion

se dice que decae; despues del decaimiento el nucleo se ha transformado en otro diferente.

No es posible predecir si un nucleo determinado decaera o no en un periodo de observacion

fijado (0, t). Sin embargo, un mol de substancia contiene del orden de n = 6.022×1023 atomos,

y si nt es el numero de decaıdos se observa que la proporcion pt = nt/n es practicamente

constante. Por ejemplo, un atomo de radio 226 decae en un periodo de t anos con probabilidad

experimental pt = 1− exp(−4.327× 10−4t).

Ejemplo 1.4. El numero n de moleculas de un gas ideal en un recipiente V de volumen 1

cm3, a 1 atm y 250C, es del orden de 1019. Las moleculas se mueven con distintas velocidades,

pues no todas tienen la misma energıa, produciendose intercambios debidos a los choques

entre ellas. En la practica es imposible predecir la posicion y velocidad de una molecula en

cada instante. Sin embargo sı pueden comprobarse proporciones estables en el conjunto de

las n, es decir, el balance global es de equilibrio estadıstico. Por ejemplo, si nv es el numero

de ellas en cualquier instante y cualquier parte de volumen v, se observa que nv/n ≈ v/V,

es decir, las moleculas no ocupan ninguna posicion preferente.

Ejemplo 1.5. (el metodo de Montecarlo) Supongamos una figura arbitraria situada en el

plano. Vamos a medir, aproximadamente, su superficie s sirviendonos de un experimento

aleatorio. Construimos un cuadrado de lado ` suficiente para incluir la figura, y elegimos

puntos dentro del cuadrado de modo aleatorio. Para ello introducimos bolas numeradas, por

ejemplo de 1 a 1000, en una urna. Se extrae una bola y se anota su numero, sea x. Se

introduce de nuevo y se hace otra extraccion, sea y. El par (x, y) senala, con precision de

milesimas de `, un punto del cuadrado. Si de un total de n puntos ası elegidos resultaron ns

dentro de la figura, a la larga cabe esperar que

nsn≈ s

ası que

s ≈ nsn`2

Si, en particular, la figura es una circunferencia de radio r, s = πr2 y podrıamos aproximar

π con una loterıa:

π ≈ nsn

Disponemos pues de un metodo fısicamente aceptable para medir la incertidumbre en los

experimentos aleatorios: la probabilidad experimental. La Teorıa de Probabilidades, que

estudiamos a continuacion, es una descripcion matematica, formal, de los experimentos alea-

torios. Un lenguaje descriptivo adecuado para construir modelos, descripciones idealizadas,

de cada sistema aleatorio en estudio, con los que facilitar la realizacion de predicciones con-

trastables.

1.2. Espacio muestral. Sucesos

Definicion 1.2. Se llama espacio muestral al conjunto Ω de todos los resultados po-

sibles de un experimento aleatorio.

Ante cada experimento lo primero y fundamental es identificar su espacio muestral.

Ejemplo 1.6. En el experimento de lanzar 2 monedas los resultados son los pares (x1, x2)

(el subındice identifica cada una de las 2 monedas) donde xi = c o + (o 1 y 0, los sımbolos

son convencionales). El conjunto de resultados posibles es Ω = (c, c), (c,+), (+, c), (+,+).Observar que (c,+) y (+, c) son resultados diferentes.

Ejemplo 1.7. El decaimiento o no de un nucleo radioactivo en un intervalo de tiempo fijado

(0, t) es aleatorio. En un conjunto de n nucleos los resultados posibles son todas las n-tuplas

(x1, x2, ..., xn) (el subındice identifica a cada nucleo) donde xi = 0 (no decaıdo) o 1 (decaıdo).

En total hay 2n resultados en Ω (2 posibilidades para x1 que hay que multiplicar por 2 para

x2,... etc.).

Ejemplo 1.8. En el experimento de lanzar una moneda hasta que aparezca cara los resul-

tados posibles son Ω = c,+c,+ + c,+ + +c, .....

Ejemplo 1.9. En el experimento de observar, desde un instante incial t = 0, el tiempo

que transcurre hasta que decae un nucleo es aleatorio, los resultados posibles son todos los

numeros del intervalo (0,+∞).

Definicion 1.3. Un suceso es un subconjunto de resultados.

Un subconjunto se puede definir senalando cuales son cada uno de sus elementos, o mejor,

senalando una propiedad que solo ellos poseen. De esta segunda forma un suceso es el conjunto

de resultados de Ω que tienen cierta propiedad.

“El suceso A” se refiere a la vez a la propiedad A y al conjunto de resultados que la tienen.

“Ha sucedido A” afirma que el resultado ω ∈ Ω obtenido en el experimento tiene la propiedad

A, es decir que ω ∈ A.

Ejemplo 1.10. En el experimento de lanzar un dado, el suceso “se obtiene un numero par”

se representa por A = 2, 4, 6. Si el resultado obtenido es uno de los tres elementos de A se

realiza el suceso, y en otro caso no se realiza.

En el experimento de lanzar 2 monedas, el suceso “se obtiene exactamente una cara” se

representa por A = (c,+), (+, c). Si el resultado obtenido es uno de estos 2 se realiza el

suceso, y en otro caso no se realiza.

1.2. Espacio muestral. Sucesos 19

En el sistema de n nucleos radioactivos el suceso “en el intervalo (0, t) han decaıdo k nucleos”

consta de todas las n-tuplas (x1, x2, ..., xn) (el subındice identifica a cada nucleo, donde xi = 0

si no decaıdo y xi = 1 si decaıdo) con k unos y n−k ceros, cualquiera que sea el modo como

se repartan en la n-tupla (es decir, cualquiera que sean los k nucleos decaıdos). En total hay(nk

)resultados en dicho suceso (numero de combinaciones: todas las elecciones distintas de

k posiciones para los decaıdos entre las n).

Definicion 1.4. Cada resultado ωi define un suceso elemental. El propio Ω es el suceso

seguro. El conjunto vacio φ representa un suceso imposible, es decir, cualquier propiedad

que no se realice en ningun resultado.

Las propiedades que definen los sucesos se pueden combinar mediante los operadores “y”,

“o” y “no”, segun las reglas de la logica, para producir nuevos sucesos. En la represen-

tacion conjuntista las operaciones correspondientes son, respectivamente, la interseccion,

la union, y la complementacion (respecto de Ω). Ası que al realizar estas operaciones

con los subconjuntos de Ω que representan sucesos, se obtendran subconjuntos que tambien

representaran sucesos.

Si A1, A2, ... son sucesos, mediante la representacion conjuntista es facil denotar proposiciones

interesantes, como las siguientes:

“sucede algun Ai” ⇐⇒ ∪Ai (el resultado pertenece al menos a uno de los Ai)

“suceden todos los Ai” ⇐⇒ ∩Ai

“no sucede ningun Ai” ⇐⇒ (∪Ai)c = ∩Aci

Definicion 1.5. Si Ai y Aj son sucesos tales que Ai∩Aj = φ, o sea, no hay ningun resultado

que tenga a la vez ambas propiedades, se llaman excluyentes o incompatibles.

Observar que en los ejemplos 1.6 y 1.7 el numero de resultados posibles es finito, en el 1.8

es infinito numerable y en el 1.9 infinito no numerable. Ası que las operaciones con sucesos

se tienen que extender incluso a infinitos sucesos, pues si el numero de elementos de Ω

(resultados posibles) es infinito, tambien puede serlo el numero de sucesos (subconjuntos de

Ω) que nos interesan.

Hay sin embargo algunas dificultades matematicas en esta representacion conjuntista que

merece la pena comentar. Como cada suceso esta representado por un subconjunto del espacio

muestral, pareciera que los sucesos equivaldrıan simplemente a la familia ℘(Ω) de todos los

subconjuntos de Ω, lo cual resulta tecnicamente aceptable si Ω es numerable (finito o

infinito)1, pero no si Ω es no numerable (en particular R o Rk). Hay que limitarse aquı a

1Un conjunto Ω es numerable si se puede establecer una biyeccion entre Ω y el conjunto de los numeros

naturales (N) o entre Ω y un subconjunto cualquiera de N. Dicho de otra forma: los elementos de Ω se pueden

contar. Un conjunto numerable es finito si su numero de elementos es finito.

usar una familia mas reducida, llamada de Borel (denotada B o Bk respectivamente), que,

por construccion, usa los intervalos (de R; hiper-rectangulos de Rk) como conjuntos basicos,

e incluye a todos los conjuntos que se engendran a partir de aquellos mediante operaciones

de union, interseccion y complementacion.

En resumen, siempre que trabajemos con un experimento aleatorio daremos por sentado que

hay seleccionada una clase adecuada de sucesos: una familia F de subconjuntos de Ω,

incluyendo al propio Ω y a φ, cerrada para las operaciones de conjuntos. El par

(Ω,F) se denomina espacio probabilizable.

1.3. Probabilidad

El referente son las probabilidades experimentales (los valores a la larga de las frecuencias

relativas, o las proporciones estables en un sistema en equilibrio). Para cada suceso A su

probabilidad es un numero de [0, 1] (como las frecuencias relativas), pero la aplicacion no

puede ser arbitraria, debiendo respetar las demas propiedades que puedan descubrirse en

las frecuencias. En lugar de un catalogo exhaustivo de propiedades, bastan 2 (axiomas) que

implican todas las demas:

Definicion 1.6. Sea un espacio probabilizable (Ω,F). Una probabilidad es una aplicacion

P : F → [0, 1] tal que:

(i)(axioma de aditividad) si Ai (en numero finito o numerable) son tales que Ai ∩Aj = φ

(incompatibles) entonces

P (∪Ai) =∑

P (Ai)

(ii) P (Ω) = 1

Se llama a (Ω,F , P ) una distribucion de probabilidades.

Tal aplicacion es una medida aditiva, como una masa, y es provechoso ver ası la probabilidad.

Ahora mediante representaciones adecuadas de unos sucesos por medio de otros y el empleo

de estos 2 axiomas, se deducen todas las formulas necesarias. Veamos unos ejemplos.

Ejemplo 1.11. Demostremos que P (A) = 1 − P (Ac). Como Ω = A ∪ Ac y A ∩ Ac = φ

aplicando el primer axioma P (Ω) = P (A) + P (Ac), y resulta lo propuesto pues P (Ω) = 1.

Ejemplo 1.12. Demostremos que P (φ) = 0. Como Ω = Ω ∪ φ y Ω ∩ φ = φ, aplicando el

primer axioma: P (Ω) = P (Ω) + P (φ).

Ejemplo 1.13. Demostremos que si A ⊂ B (el suceso A implica al B: si sucede A sucede

B) entonces P (A) ≤ P (B). Como B = A∪ (B∩Ac) y A∩ (B∩Ac) = φ, aplicando el primer

axioma P (B) = P (A) + P (B ∩Ac), de donde resulta lo propuesto ya que P (B ∩Ac) ≥ 0.

1.4. Asignacion de probabilidades 21

1.4. Asignacion de probabilidades

Los axiomas y las formulas que de ellos se deducen solo relacionan las probabilidades de unos

sucesos con las de otros, pero no determinan sus valores: estos solo pueden ser aproxima-

dos mediante la experimentacion, o bien postulados a partir de razonamientos

fısicos.

Un ejemplo particular, muy notable, de esto ultimo es el llamado modelo de equipro-

babilidad, o de eleccion al azar, que examinamos a continuacion. Corresponde a un reparto

homogeneo, uniforme, no preferencial, sobre Ω, de la masa total de probabilidad de valor 1,

asociando a cada suceso una masa proporcional a su talla, adecuadamente medida, pero sin

importar ninguna otra cualidad de estos conjuntos.

1.4.1. Espacio muestral numerable y finito

Definicion 1.7. Sea Ω un conjunto finito. Diremos que P es una distribucion equipro-

bable, o al azar, si para cada suceso A es:

P (A) =|A||Ω|

en donde |Ω| representa el numero de elementos (cardinal) de Ω.

El calculo de probabilidades se reduce pues, en este caso, a contar el numero de resultados de

cada suceso. En particular, para cada suceso elemental la definicion resulta en P (ωi) = 1/ |Ω|(lo que tambien podrıa haberse elegido como punto de partida para definir la equiprobabi-

lidad). Es evidente que si el |Ω| no es finito no puede definirse la equiprobabilidad. Los

denominados juegos de azar, como el lanzamiento de una moneda o un dado bien equilibra-

dos, los naipes, las loterias, etc., son situaciones que pueden ser descritas por este modelo.

Ejemplo 1.14. Se lanza n veces una moneda. Los resultados son todas las n-tuplas (x1, x2,

..., xn) donde xi es c o + y |Ω| = 2n. Si la moneda es equiprobable (es decir P (c) = P (+) =

1/2) cada resultado deberıa tener la misma probabilidad, no importa cuantas caras y cruces

muestre, y esta es 1/2n. El suceso “obtener k caras” tiene

)resultados posibles (elecciones

distintas de las k posiciones para las caras entre las n posibles). Entonces

P (k caras) =1

Sin embargo si la moneda no es equiprobable (en general si P (c) = p y P (+) = 1 − p) los

resultados no tienen la misma probabilidad (depende de cuantas caras y cruces muestren) y

ya no es obvio como calcular la probabilidad de cada uno: si la probabilidad de cara fuese

mayor que la de cruz los resultados con mas caras serıan los mas probables.

Esto es ası en el experimento analogo de observar el numero de nucleos que decaen, de

un total de n, en un intervalo de tiempo fijado. El suceso “decaen k nucleos” tiene

)resultados, pero estos no son, en general, equiprobables.

Veremos la solucion en la Seccion 1.8 (ejemplo 1.28).

Ejemplo 1.15. ¿que probabilidad hay de que en un grupo tomado al azar de n personas al

menos 2 hayan nacido el mismo dıa? (suponer todos los anos de 365 dıas y n<365).

Los resultados posibles son todas las n-tuplas (x1, x2, ..., xn) donde cada xi es un numero des-

de 1 hasta 365, de manera que hay 365n (365 para x1 que hay que multiplicar por 365 para

x2 etc.). Interpretaremos “grupo tomado al azar de n personas” como que dichos resultados

son equiprobables, es decir, la probabilidad de cada uno de ellos es 1/365n. ¿Cuantos resul-

tados tienen distintas las n fechas?: la primera se puede elegir de 365 formas, que hay que

multiplicar por 364 para la segunda, etc., ası que son 365(365− 1)(365− 2)...[365− (n− 1)].

La probabilidad de que todos los cumpleanos sean distintos es:

p =365(365− 1)(365− 2)...[365− (n− 1)]

(1− 1

)(1− 2

(1− n− 1

Y la pedida (suceso complementario) vale 1− p. En particular, con n = 23 es practicamente

1.4.2. Espacio muestral no numerable y acotado

Definicion 1.8. Sea Ω no numerable (por ejemplo Ω ⊂ Rk) y acotado, es decir med(Ω) <∞(su medida: longitud si k = 1, superficie si k = 2, etc.). Diremos que P es una distribucion

equiprobable, o al azar, si para cada suceso A es:

P (A) =med(A)

med(Ω)

Observar la analogıa de esta formula con la del caso finito, y que si la med(Ω) no es finita

no es posible la equiprobabilidad.

Ejemplo 1.16. supongamos una ruleta continua (sin topes para detener la aguja). Se impul-

sa y se mide el angulo que forma la aguja al detenerse con una referencia. Ω = 0 < ϕ ≤ 2πy aceptando el modelo equiprobable para la ruleta, P (el angulo es menor que π) = 1/2, pues

med(Ω) = 2π y med[0, π) = π.

1.5. Probabilidad condicional 23

Ejemplo 1.17. (cont. del 1.5) el mecanismo de eleccion de los puntos en el cuadrado es sin

duda al azar. P (el punto esta dentro de la figura) = s/`2, pues med(Ω) = `2 y med(figura) =

1.5. Probabilidad condicional

Notacion: de ahora en adelante, para mas sencillez, denotaremos AB en lugar de A ∩ B,

ABC en lugar de A ∩B ∩ C etc.

Mediante el concepto de probabilidad condicional se tiene en cuenta la posible informacion

parcial sobre el resultado del experimento: si se sabe que ha sucedido B, ¿cual es la pro-

babilidad de que tambien haya sucedido A? (es decir, sabiendo que el resultado esta en B

que probabilidad hay de que en particular este en AB)? Denotaremos P (A | B) el numero

buscado.

Las frecuencias relativas nos dan la guıa para su calculo. Si en n realizaciones del experimento,

sucedio B en nB de ellas, y AB en nAB, la frecuencia relativa condicional (de realizaciones

de A entre las de B) es fA|B = nAB/nB , que puede tambien expresarse por medio de las

frecuencias “incondicionales”:

fA|B = nAB/nB =nAB/n

nB/n=fABfB

y si n es suficientemente grande, estas ultimas se estabilizan en torno a las correspondientes

probabilidades experimentales, que en la Teorıa corresponden a P (AB) y P (B).

Definicion 1.9. La probabilidad condicional de A dado B es:

P (A | B) =P (AB)

La definicion exige que P (B) > 0, es decir que B no sea imposible.

Ejemplo 1.18. Se lanzan 2 dados. Sabiendo que la suma de los puntos obtenidos es menor

que 5 calcular la probabilidad de que sea par.

El espacio muestral consta de 36 resultados (x1, x2), donde xi es el punto que muestra ca-

da dado. Si los dados son equilibrados entonces todos los resultados deben tener la misma

probabilidad que debe valer P (x1, x2) = 1/36 para cada resultado.

La probabilidad que hay que calcular es condicional:

P (S = par | S < 5) =P (S = par y S < 5)

P (S < 5)

P (S = par y S < 5) = P (S = 2 ∪ S = 4)

= P (S = 2) + P (S = 4)

= 1/36 + 3/36 = 4/36

P (S < 5) = P (S = 2 ∪ S = 3 ∪ S = 4)

= P (S = 2) + P (S = 3) + P (S = 4)

= 1/36 + 2/36 + 3/36 = 6/36

P (S = 2) = P ((1, 1)) = 1/36

P (S = 3) = P ((1, 2), (2, 1)) = 2/36

P (S = 4) = P ((1, 3), (3, 1), (2, 2)) = 3/36

Observar que la funcion P (· | B) define una distribucion de probabilidades sobre los sucesos

de B (que son las intersecciones de los de Ω con B) considerado como nuevo espacio muestral.

Como tal satisface los axiomas (compruebelo):

1. si Ai son sucesos tales que AiAj = φ, entonces

P (∪Ai | B) =∑

P (Ai | B)

P (B | B) = 1

En la investigacion de los experimentos aleatorios muchas veces las probabilidades condicio-

nales se calculan o aproximan usando este punto de vista, mejor que usando su definicion:

trabajando en el experimento restringido de espacio muestral B, mas simple que el global de

espacio Ω.

Tambien podemos definir la de B dado A

P (B | A) =P (AB)

y teniendo en cuanta ambas es

P (AB) = P (A | B)P (B) = P (B | A)P (A)

y es usando formulas como esta que puede ser mas sencillo calcular las probabilidades incon-

dicionales sobre los sucesos de Ω a partir de las condicionales (obtenidas, como se ha dicho,

razonando directamente en el experimento restringido).

1.6. Formula de Bayes 25

Ejemplo 1.19. Sean Ai (i = 1, ...n) sucesos arbitrarios. Compruebe que

P (A1A2 · · ·An) = P (A1)P (A2 | A1)P (A3 | A1A2) · · ·P (An | A1A2 · · ·An−1)

Ejemplo 1.20. Una urna contiene r bolas rojas y b blancas. Se extraen sucesivamente y sin

reemplazamiento 4 bolas Calculemos la probabilidad de la secuencia (RBRB).

P (R) =r

P (B | R) =b

r + b− 1

P (R | RB) =r − 1

r + b− 2

P (B | RBR) =b− 1

r + b− 3

y la probabilidad pedida resulta:

P (RBRB) =rb(r − 1)(b− 1)

(r + b)(r + b− 1)(r + b− 2)(r + b− 3)

1.6. Formula de Bayes

Proposicion 1.1. (formula de la probabilidad total) Sean Ai (i = 1, 2, ...) sucesos tales

que AiAj = φ (incompatibles) y ∪Ai = Ω (es decir, los Ai constituyen una particion de Ω).

Sea un suceso B. Entonces, como B = BΩ = B (∪Ai) = ∪ (BAi) y (BAi) (BAj) = BAiAj =

Bφ = φ, aplicando el primer axioma:

P (B) = P (∪ (AiB)) =∑

P (AiB)

y ahora aplicando la definicion de probabilidad condicional

P (B) =∑

P (B | Ai)P (Ai)

Ejemplo 1.21. Un lote de piezas mecanizadas ha sido producido por 3 maquinas diferentes:

el 20 % por la 1, el 30 % por la 2 y el 50 % por la 3. El 1 % de la produccion de la 1 es

defectuosa, ası como el 2 % de la 2 y el 3 % de la 3. ¿Que proporcion de piezas defectuosas

hay en el lote?

Sea Mi el suceso “una pieza tomada del lote ha sido fabricada por la maquina i”. Sea D el

suceso “una pieza tomada del lote es defectuosa”. Estos sucesos cumplen las condiciones de

la proposicion 1.1. Por lo tanto:

P (D) =∑

P (D |Mi)P (Mi) = 0.01× 0.20 + 0.02× 0.30 + 0.03× 0.50 = 0.023

Proposicion 1.2. (formula de Bayes) Para cada uno de los Aj es:

P (Aj | B) =P (AjB)

=P (B | Aj)P (Aj)∑P (B | Ai)P (Ai)

Observar que si B sucede es porque ha sucedido alguno de los Ai. Si llamamos a estos las

causas posibles de B, entonces la formula de Bayes evalua la probabilidad de cada una de

ellas.

Ejemplo 1.22. (cont.) Se ha seleccionado al azar una pieza del lote y ha resultado defec-

tuosa, ¿que probabilidad hay de que haya sido producida por la maquina 1?

P (M1 | D) =P (D |M1)P (M1)

P (D)=

0.01× 0.2

0.023= 0.08696

Analogamente obtendriamos P (M2 | D) = 0.26087 y P (M3 | D) = 0.65217

En muchas ocasiones se trata de clasificar un individuo tomado al azar de una poblacion

en una de dos categorıas sobre la base de cierto ensayo indirecto. Por ejemplo el analisis

quımico de una muestra de un bloque de explotacion para estimar si es de mineral o no, o

una prueba medica para estimar si el paciente tiene o no una enfermedad, o un control de

calidad para estimar si el producto es bueno o defectuoso.

Denotemos por ejemplo S (sano), E (enfermo), S∗ (la prueba dice sano) y E∗ (la prueba

dice enfermo). Entonces los resultados posibles son:

E∗ correcto error 1

S∗ error 2 correcto

Toda ensayo tiene limitaciones: el error 1 son falsos positivos y el 2 falsos negativos. Una

terminologıa habitual es:

P (E) es la prevalencia de la enfermedad en la poblacion estudiada.

P (E∗ | E) es la sensibilidad del ensayo: proporcion de verdaderos positivos (en el ambito

medico, capacidad del ensayo para detectar la enfermedad).

P (S∗ | S) es la especificidad del ensayo: proporcion de verdaderos negativos (en el ambito

medico, capacidad del ensayo para detectar a los sanos).

Sensibilidad y especificidad valoran la validez de la prueba pero en la practica clınica al

medico le interesan mas los valores predictivos:

1.7. Sucesos independientes 27

P (E | E∗) es valor predictivo positivo o probabilidad de padecer la enfermedad si la prueba

es positiva.

P (S | S∗) es valor predictivo negativo o probabilidad de estar realmente sano con una prueba

negativa.

Ejemplo 1.23. Ciertos refuerzos estructurales pueden presentar corrosion (S) o no presen-

tarla (N). Y cierto ensayo senala corrosion (S∗) o no la senala (N∗). Se someten al ensayo

1000 refuerzos de los que 10 tienen corrosion y 990 no la tienen. El ensayo identifica 9 de

los 10 correctamente, y de los 990 senala incorrectamente 150 como corroidos:

S∗ 9 150 159

N∗ 1 840 841

10 990 1000

Ası presentados los resultados, todas las probabilidades se estiman directamente con las fre-

cuencias relativas:

P (S) = 10/1000 = 0.01

P (S∗ | S) = 9/10 = 0.9

P (N∗ | N) = 840/990 ≈ 0.85

P (S | S∗) = 9/159 ≈ 0.0566

P (N | N∗) = 840/842 ≈ 0.9976

Ejemplo 1.24. (cont.) Supongamos, en cambio, que sin conocer los resultados del ensa-

yo, sabemos que la sensibilidad y especificidad del metodo de analisis de la corrosion son

P (S∗ | S) = 0.9 y P (N∗ | N) = 0.9 y que P (S) = 0.01. Entonces con la formula de Bayes:

P (S | S∗) =P (S∗ | S)P (S)

P (S∗ | S)P (S) + P (S∗ | N)P (N)

=0.9× 0.01

0.9× 0.01 + (1− 840/990)× (1− 0.01)≈ 0.0566.

1.7. Sucesos independientes

P (A | B) =P (AB)

P (B | A) =P (AB)

siempre es

P (A | B)P (B) = P (B | A)P (A) = P (AB) (1.1)

Si, en un experimento, se encontrase que para los sucesos A y B es P (A | B) = P (A) 2, es

natural decir que A es independiente de B. Pero entonces (sustituyendo en 1.1) tambien es

P (B | A) = P (B), es decir, tambien B es independiente de A: la informacion de que uno

de ellos se ha realizado no modifica la probabilidad del otro. Y tambien es

P (AB) = P (A)P (B)

que a su vez implica a las anteriores. Tenemos ası la siguiente

Definicion 1.10. Las 3 igualdades numericas

P (A | B) = P (A)

P (B | A) = P (B)

P (AB) = P (A)P (B)

son equivalentes. Si se verifican, los sucesos A y B se dice que son independientes.

La interpretacion experimental es la siguiente: sean nA, nB y nAB los numeros de veces

que suceden A, B y AB respectivamente, en el total de n realizaciones del experimento

aleatorio. La independencia quiere decir que, para n suficientemente grande, se verifican las

3 igualdades equivalentes entre las frecuencias relativas:

nABnB≈ nA

n⇔ nAB

nA≈ nB

n⇔ nAB

n≈ nA

La independencia es muy importante cuando se conoce a priori (mas que en su constatacion

a posteriori) como veremos en la proxima seccion.

Tengase en cuenta que la independencia de los sucesos A y B solo depende de la distribucion

P y ninguna “relacion” entre ellos en terminos de inclusiones, intersecciones etc. la asegura.

Y que no se deben confundir los sucesos independientes con los incompatibles: precısamente si

son incompatibles, es decir AB = φ, entonces no pueden ser independientes, pues P (AB) = 0

y entonces P (A | B) = 0 pero P (A) > 0; e igual para la P (B | A). Mas simple: la informacion

de que uno de ellos se ha realizado es suficiente para saber que el otro no se ha realizado.

Ejemplo 1.25. se elige una carta de una baraja de 40. Los sucesos A =“rey” y B =“copas”

son independientes, pues P (A) = 4/40 = 1/10, P (B) = 10/40 = 1/4, y P (AB) = 1/40.

2Esto es una igualdad numerica, no una formula.

1.8. Experimentos independientes 29

Ejemplo 1.26. se lanza un dado equiprobable. Los sucesos “el punto es mayor que 2” y “el

punto es par” son independientes.

P (par > 2) = P (4, 6) =1

P (par) = P (2, 4, 6) =1

P (> 2) = P (3, 4, 5, 6) =2

Ejemplo 1.27. Se lanza un dado dos veces. Sabiendo que la suma de los puntos es 7 calcu-

lemos la probabilidad de que la primera tirada fuese 1

P (X1 = 1 | X1 +X2 = 7) =P (X1 = 1, X2 = 6)

P (X1 +X2 = 7)

6= P (X1 = 1)

y obviamente resulta lo mismo para cualquier otro valor de la primera tirada: el resultado de

la primera tirada es independiente de la suma si esta es 7. No ası para cualquier otro valor

fijado de la suma: en el caso extremo P (X1 = 6 | X1 +X2 = 12) = 1

Definicion 1.11. En general n sucesos son independientes si para cada eleccion de k de

ellos (k = 2, ..., n) es:

P (Ai1Ai2 ...Aik) = P (Ai1)P (Ai2)...P (Aik)

En particular:

P (A1A2...An) = P (A1)P (A2)...P (An)

Los sucesos independientes surgen de modo natural en los experimentos independientes, que

estudiamos ahora.

1.8. Experimentos independientes

Supongamos, sin perdida de generalidad, 2 experimentos aleatorios (Ω1,F1, P1) y (Ω2,F2, P2).

Nos interesamos ahora en el estudio conjunto de ambos, es decir, sean realizados simultanea-

mente o en sucesion los dos experimentos anteriores formando el experimento conjunto

(Ω,F , P ), entonces:

El espacio muestral es Ω = Ω1×Ω2, constituido por todos los pares ordenados (ω1, ω2)

de resultados de uno y otro.

Los sucesos F son los engendrados por los A1 ×A2 con A1 ∈ F1 y A2 ∈ F2.

La probabilidad P sobre los sucesos de F esta determinada por las P (A1 ×A2), pero

estas no estan en general determinadas por las P1 y P2: dependen de la conexion fısica

que haya entre los experimentos. Salvo en el caso especialmente importante en que

los experimentos parciales sean fısicamente independientes.

Proposicion 1.3. Si los experimentos (Ω1,F1, P1) y (Ω2,F2, P2) son independientes, la

distribucion de probabilidades en el experimento conjunto (Ω,F , P ) esta determinada por las

P1 y P2 y es

P (A1 ×A2) = P1(A1)P2(A2)

Demostracion. Si los experimentos son independientes los sucesos de F de la forma A1×Ω2

(que solo dependen del primer experimento: el suceso se realiza si sucede A1 en el primero

no importa cual sea el resultado del segundo) y Ω1 × A2 (que solo dependen del segundo

experimento: el suceso se realiza si sucede A2 en el segundo no importa cual sea el resultado

del primero) son necesariamente independientes (cf 1.7).

Pero es obvio que

A1 ×A2 = (A1 × Ω2) ∩ (Ω1 ×A2)

y si los (A1 × Ω2) y (Ω1 ×A2) son independientes

P (A1 ×A2) = P ((A1 × Ω2) ∩ (Ω1 ×A2))

= P (A1 × Ω2)P (Ω1 ×A2)

Pero P (A1 × Ω2) = P1 (A1) y P (Ω1 ×A2) = P2(A2) ası que

P (A1 ×A2) = P1(A1)P2(A2)

Proposicion 1.4. En general, en un experimento compuesto de n independientes, si Ai es

un suceso del experimento i-esimo, es

P (A1 ×A2 × · · · ×An) = P1(A1)P2(A2)...Pn(An).

Ejemplo 1.28. Se lanza una moneda con probabilidad p de cara n veces. El experimento

esta compuesto por los n (lanzamientos) parciales. En cada experimento parcial es Ωi =

c,+ con P (c) = p y P (+) = 1 − p. Cada resultado del experimento conjunto es de la

forma (ω1, ω2, ..., ωn) con ωi = c o +. Como los resultados de las tiradas son fısicamente

independientes

P (ω1, ω2, ..., ωn) = P (ω1)P (ω2) · · ·P (ωn)

1.9. Ejercicios propuestos 31

Por ejemplo, la probabilidad de que las k primeras tiradas sean cara y las n− k ultimas cruz

P (c, c,(k)· · ·, c,+,+,

(n−k)· · · ,+) = P (c)P (c)

(k)· · ·P (c)P (+)P (+)

(n−k)· · · P (+)

= pk(1− p)n−k

y obviamente es la misma para cada disposicion prefijada de k caras y n − k cruces en

las n tiradas. Igual da si se tiran n monedas iguales y se calcula la probabilidad de que k

seleccionadas muestren cara y las restantes cruz.

Como el numero de resultados con k caras es(nk

)y cada uno de ellos tiene la misma proba-

bilidad anterior, la probabilidad de obtener k caras es

P (k caras) =

)pk(1− p)n−k 0 ≤ k ≤ n

Ejemplo 1.29. Como los nucleos radioactivos decaen independientemente unos de otros (ex-

cepto cuando se produce una reaccion en cadena por fision), y la probabilidad de decaimiento

en un intervalo de tiempo (0, t) es la misma para cada uno, sea pt, la probabilidad de que

decaigan k seleccionados en dicho intervalo es

pkt (1− pt)n−k

y la probabilidad de que decaigan k nucleos es

P (k nucleos) =

)pkt (1− pt)n−k 0 ≤ k ≤ n

1.9. Ejercicios propuestos

Seccion 1.3

1. Deducir una formula para P (A ∪ B) en el caso general (es decir cuando A ∩ B 6= φ y

no vale el primer axioma).

2. Tenemos un dado equiprobable (la probabilidad de cada punto es 1/6) y lo trucamos

para conseguir que la probabilidad de tener 6 sea el doble que la de no tenerlo, y los

demas puntos tengan la misma probabilidad (pero obviamente distinta a la inicial).

Calcular la probabilidad de tener par.

3. En un dado trucado es P (2) = P (4) = P (6) = p y P (1) = P (3) = P (5) = q; ademas

P (par) = P (impar) + 0.1 Calcular estas probabilidades.

4. Halle el valor de la constante c si Ω tiene n resultados y sus probabilidades fuesen

P (ωi) = ic, (i = 1, .., n). (sugerencia: tenga en cuenta que∑n

x=1 x = n(n+ 1)/2 ).

Seccion 1.4:

5. Un jugador muy experto expreso su sorpresa a Galileo por observar que, al jugar con 3

dados, la suma 10 aparece con mas frecuencia que la 9, y, sin embargo, segun el habıa

igual numero de casos favorables: ”suma 9”=126, 135, 144, 225, 234, 333, ”suma

10”=136, 145, 226, 235, 244, 334. Galileo, en sus Considerazione Sopra il Giuoco dei

Dadi mostro que esto no era ası. ¿Que respondio Galileo?

6. En un lote de N piezas hay Np defectuosas y N (1− p) no defectuosas (0 < p < 1

es la fraccion de defectuosas). Si se eligen n con reemplazamiento (cada una elegida

se devuelve al lote para la siguiente extraccion), ¿cual es la probabilidad de obtener k

defectuosas? (0 ≤ k ≤ n).

7. (cont.) Si se eligen n sin reemplazamiento (cada una elegida no se devuelve al lote

para la siguiente extraccion; o lo que es igual, se sacan las n a la vez), ¿cual es la

probabilidad de obtener k defectuosas? (0 ≤ k ≤ mın (n,Np)).

8. ¿Cual es la probabilidad de que en n lanzamientos de un dado equilibrado aparezca el

3 al menos una vez?

9. Se elige un punto al azar en un cuadrado de lado `, y con el como centro se dibuja

un cırculo de radio r (siendo 2r < `). ¿Cual es la probabilidad de que un vertice del

cuadrado quede dentro del cırculo?

10. A lo largo de cierta falla se producen terremotos. Los que tienen su epicentro a menos

de 10 km de cierta presa, localizada 1 km fuera de la falla, son peligrosos. Suponiendo

que los epicentros se localizan al azar en cualquier segmento que se considere de la

falla, ¿que probabilidad hay de que un terremoto peligroso tenga su epicentro a menos

de 5 km de la presa?

11. Sea una circunferencia en el plano z = 0 de R3 con centro en el origen y radio r, y

sea el punto (0, 0, d). Desde dicho punto se hace un sondeo para intentar cortar a la

circunferencia, pero toma una inclinacion aleatoria respecto al eje z de angulo ϕ ∈ (0, c)

(no importa en que direccion). ¿Probabilidad de cortar al cuerpo?

Seccion 1.6:

12. Supongamos que en una pregunta de test con m alternativas si el alumno no sabe

la respuesta intenta acertarla eligiendo al azar. Sea p la probabilidad de que sepa

la respuesta, y 1 la de que sabiendola conteste correctamente. Calcule la probabi-

lidad de que un alumno que haya contestado correctamente supiese en realidad la

respuesta. (sugerencia: denote S=”sabe la respuesta”, N=”no sabe”, S∗=”responde

correctamente”, N∗=”no responde correctamente”)

13. En un sistema de comunicacion digital, un 1 se transmite con probabilidad p y un 0

con probabilidad 1− p. Debido al ruido de los canales de transmision, al transmitir un

0 se puede recibir un 1 con probabilidad β y al transmitir un 1 se puede recibir un 0

con probabilidad α. Suponiendo que se recibe un 1, ¿cual es la probabilidad de que se

haya emitido un 1?

14. En cierto yacimiento se preve, a partir de un modelo estadıstico global, que el 30 % de

los bloques de explotacion son de mineral, pero sin poder asegurar, ante cada bloque

particular, si lo es o no. Para resolver este problema se pone a punto un metodo de

estimacion que, contrastado sobre un cierto numero de bloques, da los siguientes resul-

tados: cuando un bloque es de mineral el metodo acierta el 80 % de las veces, y cuando

es de esteril el 75 %. a) ¿Que proporcion de bloques seran clasificados como mine-

ral? b) Calcular los valores predictivos del metodo. (Denote M=“bloque de mineral”,

M∗=“bloque estimado como mineral”, E=“bloque de esteril”, E∗=“bloque estimado

como esteril”)

Seccion 1.7:

15. Si A y B son independientes, compruebe que tambien lo son: Ac y B; A y Bc; Ac y Bc.

16. Disene un experimento para realizar un sorteo justo (P (ganar) = P (perder)) con una

moneda trucada (P (cara) 6= P (cruz)).

Seccion 1.8:

17. (vea el ejemplo 1.28) Se tira una moneda con probabilidad p de cara n veces (o n

monedas iguales). a) Calcular la probabilidad de obtener menos de k caras. b) de no

obtener ninguna cara. c) de obtener por lo menos una cara.

18. En el dado del ejercicio 2 la probabilidad de los puntos es P (1) = P (2) = · · · = P (5) =

1/15 y P (6) = 10/15 ¿Cual es la probabilidad de que en n lanzamientos el 6 aparezca

k veces (0 ≤ k ≤ n).? (vea tambien el ejercicio 8)

19. Cierto sistema consta de n componentes independientes montados en serie. El sistema

funciona mientras funcionen todos. Los componentes funcionan independientemente y

cada uno tiene una probabilidad p de fallar. Calcule la fiabilidad del sistema, es decir,

la probabilidad de que no falle.

20. Idem si el sistema consta de n componentes independientes montados en paralelo, y

entonces el sistema funciona mientras funcione al menos uno. (sugerencia: calcule la

probabilidad del suceso complementario ”fallan todos”).

21. Asigne probabilidades a cada uno de los resultados del experimento “tirar una moneda

con probabilidad p de cara hasta que salga cara”. Compruebe que la suma es 1. Cal-

cule la probabilidad de que salga cara en un numero par de tiradas. (sugerencia: los

resultados posibles son Ω = c,+c,+ + c, .... Tenga en cuenta la independencia de las

tiradas. Ademas∑∞

x=k rx = rk/(1− r) si |r| < 1).

Capıtulo 2

Variables Aleatorias

2.1. Variable aleatoria

Nos interesamos de ahora en adelante en las distribuciones de probabilidades numericas

(R,B, P ) (cf. Seccion 1.3): el conjunto de resultados es R y los sucesos B son los engendrados

por los intervalos de R.

El modo natural de construirlas es mediante el concepto de variable aleatoria: los resultados

de los experimentos poseen propiedades que se pueden medir y nos interesamos en sus valores.

Definicion 2.1. Sea una distribucion de probabilidades (Ω,F , P ). Una variable aleatoria

es una funcion X : Ω→ R tal que

∀B ∈ B X−1(B) ∈ F

donde X−1(B) = ω ∈ Ω | X (ω) ∈ B.

Es decir, todo suceso numerico es la imagen de un suceso del experimento. En todas las

situaciones en que, de ahora en adelante, utilicemos las Vas, nunca sera necesario plantearse

si efectivamente la particular funcion numerica de los resultados satisface la condicion de la

definicion. Para nuestros propositos basta saber que si Ω es finito o numerable cualquier fun-

cion definida sobre Ω es una Va. Y si Ω es no numerable cualquier funcion continua, excepto,

a lo sumo, en un numero finito o numerable de puntos, es una Va. En estas condiciones si

X e Y son Vas definidas sobre el mismo Ω tambien lo son, por ejemplo, X2, X + Y , XY ,

mın(X,Y ), etc.

Ejemplo 2.1. En 3 lanzamientos de una moneda el espacio muestral es

Ω = (ccc) , (cc+) , (c+ c) , (+cc) , (c+ +) , (+c+) , (+ + c) , (+ + +)

36 Capıtulo 2. Variables Aleatorias

La funcion X = “numero de caras” toma los valores:

X (ccc) = 3

X (cc+) = X (c+ c) = X (+cc) = 2

X (c+ +) = X (+c+) = X (+ + c) = 1

X (+ + +) = 0

Algunas preimagenes son

X−1(2) = (cc+) , (c+ c) , (+cc)

X−1((−∞, 1]) = (c+ +) , (+c+) , (+ + c) , (+ + +)

X−1((−∞, 1)) = (+ + +)

Ejemplo 2.2. Mas general, en n lanzamientos de una moneda el espacio muestral es Ω =

(x1, x2, ..., xn) : xi = c o +. La funcion X = “numero de caras” esta definida sobre los 2n

elementos de Ω y sus valores posibles son 0, 1, 2, ..., n. Si el numero de caras en el resultado

particular (x1, x2, ..., xn) es x entonces X(x1, x2, ..., xn) = x.

Ejemplo 2.3. Un experimento analogo al anterior es “el numero de nucleos radioactivos,

de un total de n, que decaen en un intervalo de tiempo fijado (0, t).

Ejemplo 2.4. El numero de veces que hay que lanzar una moneda hasta obtener cara.

Ejemplo 2.5. El angulo que forma la aguja de una ruleta continua respecto al origen.

Ejemplo 2.6. El tiempo que transcurre, desde un instante de observacion inicial, hasta que

decae un nucleo.

El nombre variable aleatoria para una funcion debe entenderse en el sentido de variable

dependiente (de los resultados del experimento). Denotaremos las variables aleatorias con

letras mayusculas, como X, Y, Z,... (en seguida veremos que necesitamos la notacion habitual

en Analisis para las funciones, como f , g o F , con otro proposito) y con las minusculas co-

rrespondientes sus valores, por ejemplo, X (ω) = x.

Como se dijo al principio cada variable aleatoria representa1 una distribucion de probabili-

dades sobre R.

Definicion 2.2. Sea la Va X definida sobre (Ω,F , P ). Su distribucion de probabili-

dadeses (R,B, PX) definida por

PX(B) = P (X−1(B)) ∀B ∈ B1Con mas precision, equivale: se prueba que para cada distribucion de probabilidades numerica es posible

construir una variable aleatoria que tenga esa distribucion.

2.1. Variable aleatoria 37

En las aplicaciones, salvo casos muy simples, esta conexion entre las probabilidades de los

sucesos del experimento (lado derecho de la formula anterior) y las probabilidades de los

sucesos de R (lado izquierdo) no se hace explıcita y la PX(B) se da directamente o se trata

de modelizar a partir de un conjunto de observaciones experimentales de X.

Para simplificar la notacion escribiremos P (X ∈ B) en lugar de PX(B). Con ella represen-

tamos la pregunta: cuando se haga el experimento y se mida el valor de X en el

resultado ¿cual es la probabilidad de que el valor medido sea un numero del

intervalo B?

Mas particularmente escribiremos:

P (a < X < b) si B = (a, b)

P (a < X ≤ b) si B = (a, b]

P (X ≤ b) si B = (−∞, b]

P (X > b) si B = (b,+∞); etc.

Experimentalmente P (a < X < b), por ejemplo, representa la proporcion de veces que, a

larga, el valor medido de X esta en (a, b); P (X ≤ b) en (−∞, b], etc.

Todas las formulas generales de la probabilidad, definidas para conjuntos arbitrarios, se

traducen sin dificultad. Por ejemplo:

P (−∞ < X < +∞) = 1

P (X ≤ x+ h) = P (X ≤ x) + P (x < X ≤ x+ h) h > 0 (2.1)

pues (−∞, x+ h] = (−∞, x] ∪ (x, x+ h] y los dos intervalos de la derecha son disjuntos.

P (X > x) = 1− P (X ≤ x) (2.2)

Definicion 2.3. (Variable aleatoria discreta) Si el conjunto de valores posibles de la

funcion X (el conjunto de imagenes, o recorrido, denotado X (Ω)) es numerable (finito o

infinito) la variable se llama discreta.

Ejemplo 2.7. las variables de los ejemplos 2 y 3 con valores posibles 0, 1, 2, ...n. La del

ejemplo 4 con valores posibles 1, 2, 3, ....

Definicion 2.4. (Variable aleatoria continua) Si el conjunto de valores posibles de la

funcion X es no numerable (un intervalo de R, acotado o no), la variable se llama continua.

Ejemplo 2.8. la del ejemplo 5 con valores posibles [0, 2π]. La del ejemplo 6 con valores

posibles (0,+∞).

2.2. Funcion de distribucion

Nuestro interes en el trabajo con las variables aleatorias es conocer su distribucion de pro-

babilidades, sin que en la mayor parte de las aplicaciones nos importe la forma de la propia

funcion X. Puede ser ademas que diferentes variables aleatorias, medidas en experimento dis-

tintos, tengan la misma distribucion, o ley de probabilidades. La ventaja de las variables

aleatorias es que dicha distribucion (que es una funcion de conjuntos) se puede especificar de

modo mas comodo por medio de ciertas funciones reales de variable real (por una formula).

Definicion 2.5. La funcion de distribucion2 de la variable aleatoria X es

F (x) = P (X ≤ x) ∀x ∈ R

Se prueba que la distribucion de probabilidades P (X ∈ B) esta determinada por la funcion

de distribucion F , es decir, la probabilidad de cualquier B se puede calcular a partir de las

probabilidades de los intervalos (−∞, x].

Ejemplo 2.9. Para (a, b], de (2.1)

P (a < X ≤ b) = F (b)− F (a) (2.3)

Ejemplo 2.10. Para (b,+∞), de (2.2):

P (X > b) = 1− F (b)

De la definicion se sigue que F es monotona no decreciente, pues de (2.3)

F (x+ h)− F (x) = P (x < X ≤ x+ h) ≥ 0 h > 0 (2.4)

y tiene lımites F (−∞) = P (X ≤ −∞) = P (φ) = 0. y F (+∞) = P (X ≤ +∞) = P (R) = 1.

Ademas una funcion de distribucion siempre es continua por la derecha:

lımh→0+

F (x+ h) = lımh→0+

P (X ≤ x+ h) = P (X ≤ x) = F (x)

(x pertenece a todos los intervalos (−∞, x + h] por pequeno que sea h > 0). Pero no tiene

por que serlo por la izquierda

lımh→0+

F (x− h) = lımh→0+

P (X ≤ x− h) = P (X < x)

2Tambien se suele llamar la funcion de distribucion acumulada

2.3. Variables discretas 39

(x no pertenece a ninguno de los intervalos (−∞, x− h] por pequeno que sea h > 0). Como

P (X ≤ x) = P (X < x)+P (X = x) la continuidad de F (x) en x (los lımites por la izquierda

y derecha coinciden) es equivalente a P (X = x) = 0.

Si X es discreta se ve facilmente que F (x) es discontinua en cada uno de sus valores posibles

x ∈ X (Ω), en los cuales es P (X = x) > 0, y de valor constante entre cada 2 puntos de

discontinuidad.

Si X es continua, en todos los casos que nosotros vamos a estudiar F (x) es continua.

Segun que X sea discreta o continua existen otras funciones equivalentes a la F mas comodas

y que estudiamos a continuacion.

2.3. Variables discretas

Definicion 2.6. Si la variable X es discreta, es decir, su conjunto de valores posibles es

numerable, sea S ≡ X (Ω), su funcion de masa de probabilidad es

f (x) = P (X = x) ∀x ∈ S

y cero en otro caso.

La P (X ∈ B) se calcula sumando los valores de f (x) en los puntos de S que pertenecen a

P (X ∈ B) =∑

x∈B∩Sf (x)

y se sigue que ∑x∈S

f (x) = 1

y recıprocamente, cualquier funcion f (x) > 0 sobre un conjunto numerable S tal que∑x∈S f (x) = 1 es una funcion de masa.

En particular la F es

F (x) =∑

u∈S;u≤xf (u) ∀x ∈ R

Ejemplo 2.11. La funcion de masa uniforme, o equiprobable, es

f (x) =1

nx = 1, 2, ..., n

La funcion de distribucion es

F (x) =

0 x < 1kn k ≤ x < k + 1 k ∈ 1, 2, . . . , n− 11 x ≥ n

Ejemplo 2.12. La funcion de masa de Bernoulli de parametro p ∈ (0, 1) es

f (x) = px (1− p)1−x x = 0, 1

La funcion de distribucion es

F (x) =

0 x < 0

1− p 0 ≤ x < 1

1 x ≥ 1

El modelo basico que da lugar a esta clase de variables aleatorias es un experimento con solo

2 resultados posibles, digamos cara y cruz, con probabilidades respectivas p y 1 − p, que se

realiza una vez. La variable aleatoria es X (cara) = 1 y X (cruz) = 0.

Ejemplo 2.13. La funcion de masa binomial de parametros n ∈ N y p ∈ (0, 1) es

f(x) =

)px(1− p)n−x x = 0, 1, ..., n

Efectivamente f (x) > 0 y (formula del binomio de Newton):

[p+ (1− p)]n =n∑x=0

)px(1− p)n−x = 1

El conjunto de valores posibles de una Va con esta funcion de masa es 0, 1, 2, ..., n.

El modelo basico que da lugar a esta clase de variables aleatorias es un experimento como el

del ejemplo anterior (de Bernoulli) que se realiza n veces independientemente. La variable

aleatoria X =“numero de caras en los n lanzamientos”, es binomial.

Ejemplo 2.14. La funcion de masa geometrica de parametro p ∈ (0, 1) es

f(x) = (1− p)x−1p x = 1, 2, 3, ...

Efectivamente f(x) > 0 y

∞∑x=1

(1− p)x−1p =p

1− p

∞∑x=1

(1− p)x =p

1− p× 1− p

1− (1− p)= 1

El modelo basico que da lugar a esta clase de variables aleatorias es el siguiente: un experi-

mento con solo 2 resultados posibles, digamos cara y cruz, con probabilidades respectivas p y

1− p, se realiza independientemente hasta obtener cara. La variable aleatoria X =“numero

de tiradas hasta que aparece cara” es geometrica.

Efectivamente, los valores posibles de X son los enteros 1, 2, 3.... El valor X = x se observa

si las primeras x−1 tiradas son cruz y la tirada x es cara. La probabilidad de esta disposicion

particular es (por la independencia de los resultados parciales que la componen) (1− p)x−1p.

2.3. Variables discretas 41

0 2 4 6 8 100

p = 0.2

0 2 4 6 8 100

p = 0.5

0 2 4 6 8 100

p = 0.8

Figura 2.1: Funciones de masa binomiales.

Ejemplo 2.15. La funcion de masa de Poisson de parametro λ > 0 es

f(x) = e−λλx

x!x = 0, 1, 2, ...

Efectivamente∞∑x=0

e−λλx

recordando que

eλ = 1 + λ+λ2

2!+λ3

3!+ · · ·

Las variables aleatorias de Poisson aparecen en muchos sistemas de la naturaleza y la vida

cotidiana en los que nos interesamos en el numero de acontecimientos de cierta clase que

aparecen en intervalos de observacion fijos, temporales o espaciales: numero de clientes que

llegan a una ventanilla en demanda de servicio, o de terremotos de cierta intensidad, o de

accidentes graves, distribucion espacial de animales, plantas, galaxias etc. En el Capıtulo 4

la estudiaremos con mas detalle.

2.4. Variables continuas

Definicion 2.7. Si la variable aleatoria es continua, es decir, el conjunto de sus valores

posibles X (Ω) es no numerable (un intervalo de R, que puede ser acotado o no), en todos los

casos que vamos a estudiar existe una funcion integrable f (x) ≥ 0 ∀x ∈ R (0, ∀x /∈ X (Ω)),

llamada de densidad de probabilidad, tal que

P (X ∈ B) =

∫Bf (u) du (2.5)

Se sigue que ∫Rf (u) du = 1

y recıprocamente, cualquier funcion integrable f (x) ≥ 0 ∀x ∈ R que satisfaga la formula

anterior es la funcion de densidad de una variable aleatoria.

La relacion con F es (formula (2.5) con B ≡ (−∞, x])

F (x) = P (X ≤ x) =

−∞f (u) du (2.6)

de manera que F es continua (primer teorema fundamental del calculo integral). Ademas en

cada x en que f sea continua (como f es Riemann integrable a lo mas tiene una cantidad

numerable de discontinuidades)

F ′ (x) = f (x) (2.7)

es decir, F es una funcion primitiva de f .

Ejemplo 2.16. Se elige un punto al azar en el cırculo x2 + y2 ≤ 1 y se define la Va

R=distancia del punto al centro, con recorrido [0, 1]. Hallemos su funcion de distribucion.

Sea r ∈ [0, 1] fijado. El suceso R ≤ r se realiza si el punto cae dentro del cırculo interior de

radio r y su probabilidad es el cociente de las superficies de dicho cırculo y el total (cf 1.4.2)

FR (r) = P (R ≤ r) =πr2

π= r2 r ∈ [0, 1]

ası que la densidad de R es

fR (r) = F ′R (r) = 2r r ∈ [0, 1]

Ejemplo 2.17. (cont.) En el mismo experimento sea Φ el angulo que forma el radio vector

del punto con el eje de abscisas, con recorrido [0, 2π]. El suceso Φ ≤ ϕ se realiza si el punto

cae dentro del sector, medido desde el eje de abscisas, de amplitud ϕ y su probabilidad es el

cociente de las superficies de dicho sector y del cırculo

FΦ (ϕ) = P (Φ ≤ ϕ) =ϕ/2

2πϕ ∈ [0, 2π]

2.4. Variables continuas 43

ası que la densidad de Φ es

fΦ (ϕ) = F ′R (ϕ) =1

2πϕ ∈ [0, 2π]

De (2.3) y (2.5)

P (x1 < X ≤ x2) =

∫ x2

f (x) dx = F (x2)− F (x1) (2.8)

De (2.5), en particular, es

P (X = x) =

xf(u)du = 0 ∀x

Esto es ası formalmente (propiedad de la integral de Riemann), pero tambien conforme con

la realidad experimental: pues los valores de una X continua solo se observan a una precision

dada y la frecuencia relativa de cada uno de ellos tiende a cero a medida que la precision

aumenta. Ası pues, con las variables continuas con las que vamos a trabajar es

P (x1 < X < x2) = P (x1 ≤ X < x2) = P (x1 < X ≤ x2) = P (x1 ≤ X ≤ x2)

y en particular F (x) = P (X ≤ x) = P (X < x).

Tengase presente que f (x) (a diferencia de la funcion de masa de una variable discreta) no

es una probabilidad, y puede tomar valores arbitrariamente grandes.

Ejemplo 2.18. La funcion de densidad f (x) = − ln (x) para x ∈ (0, 1). Efectivamente es

una densidad pues f (x) > 0 para x ∈ (0, 1) y∫ 1

0− ln (x) dx = [−x (lnx− 1)]10 = 1

Ademas, en este caso, f (x) no esta acotada

lımx→0+

(− ln (x)) =∞

Sin embargo, de (2.7) y (2.8) con h > 0

f (x) = lımh→0

F (x+ h)− F (x)

h= lım

P (x < X ≤ x+ h)

la ultima fraccion es el cociente de la masa de probabilidad en el intervalo, P (x < X ≤ x+h),

dividida por la longitud h, es decir la densidad de probabilidad.

Del lımite se sigue que

P (x < X ≤ x+ h) = f (x)h+ r (h) (2.9)

lımh→0

y puede decirse que, salvo un infinitesimo de orden superior a h

P (x < X ≤ x+ h) ≈ f (x)h

Ejemplo 2.19. (cont.) Se elige un punto al azar en el cırculo x2 + y2 ≤ 1 y se define la Va

R distancia del punto al centro, con recorrido [0, 1]. Hallemos su densidad directamente. Sea

r ∈ [0, 1] fijado. El suceso r < R ≤ r+h se realiza si el punto cae entre los cırculos de radios

r y r + h. Su probabilidad es el cociente de las superficies de dicha corona y del cırculo

P (r < R ≤ r + h) =π (r + h)2 − πr2

π= 2rh+ h2

ası que, de (2.9)

fR (r)h+ r (h) = 2rh+ h2

y resulta

fR (r) = 2r r ∈ [0, 1]

Definicion 2.8. La funcion inversa de la F (x) = p, (que existe ya que F es estrictamente

creciente y continua), se llama funcion de cuantiles:

x = F−1 (p) p ∈ (0, 1)

y el numero x se llama el cuantil de orden p y se denota tambien como xp.

En particular el cuantil x0.5 se llama la mediana.

Ejemplo 2.20. la funcion de densidad uniforme en (a, b) es

f (x) =1

b− ax ∈ (a, b)

y cero en otro caso. Es inmediato que∫Rf (x) dx =

−∞0× dx+

b− adx+

∫ +∞

b0× dx

b− a

El conjunto de valores posible de una variable aleatoria con esta densidad es (a, b). Su funcion

de distribucion y de cuantiles son

F (x) =

0 x ≤ a∫ x

b− adu =

x− ab− a

x ∈ (a, b)

1 x ≥ b

x = F−1 (p) = a+ p (b− a) p ∈ (0, 1)

2.4. Variables continuas 45

Ejemplo 2.21. la funcion de densidad exponencial (de parametro λ > 0) es

f (x) = λ exp (−λx) x > 0

y cero en otro caso. ∫Rf (x) dx =

−∞0× dx+

∫ +∞

0λ exp (−λx) dx

= [− exp (−λx)]+∞0 = 1

El conjunto de valores posibles de una variable aleatoria con esta densidad es (0,+∞). Su

funcion de distribucion y de cuantiles son

F (x) =

0 x ≤ 0∫ x

0λ exp (−λu) du = 1− exp (−λx) x > 0

x = F−1 (p) = − 1

λln (1− p) p ∈ (0, 1)

0 2 4 6 8 100

f(t)λ=1

λ=1/2

Figura 2.2: Densidades exponenciales.

Ejemplo 2.22. la funcion de densidad de Gauss, o normal, de parametros µ ∈ R y σ > 0,

f (x) =1

2πexp

(x− µσ

−∞ < x < +∞

En el Capıtulo 4 se hara un estudio detallado.

0 2 4 6 8 100

λ=1/2

Figura 2.3: Funciones de distribucion exponenciales.

Ejemplo 2.23. la funcion de densidad de Cauchy es

f (x) =1

π (1 + x2)−∞ < x < +∞

Efectivamente f (x) > 0 y∫ +∞

−∞

π (1 + x2)=

π[arctan (x)]+∞−∞ =

[π2−(−π

El conjunto de valores posibles de una variable aleatoria con esta densidad es (−∞,+∞).

Su funcion de distribucion y de cuantiles son

F (x) =

x∫−∞

π (1 + u2)=

πarctan (x) +

2x ∈ R

x = F−1 (p) = tan

(p− 1

))p ∈ (0, 1)

2.5. Variables mixtas

Una Va X es mixta si es una mezcla de discreta y continua: su funcion de distribucion es

continua salvo en un conjunto numerable S.

2.5. Variables mixtas 47

−10 −5 0 5 100

Figura 2.4: Densidad de Cauchy.

Ejemplo 2.24. Se elige un punto al azar en el (0, 1) y se define la VA X = “distancia del

punto al origen” si el punto cae en (0, 1/2) y X = 1/2 si el punto cae en [1/2, 1). La funcion

de distribucion de X es:

F (x) =

0 x ≤ 0

x x ∈ (0, 1/2)

1 x ≥ 1/2

El recorrido de X es (0, 1/2) con densidad f (x) = 1 y el punto 1/2 con masa P (X = 1/2) =

Ejemplo 2.25. En un sistema en el que las llegadas de clientes y los tiempos de servicio

son aleatorios, la Va X =“tiempo de espera para el servicio” es mixta. Si al llegar un cliente

el sistema esta desocupado el tiempo de espera es cero y P (X = 0) = p (podemos interpretar

el valor de p como la proporcion de tiempo que, a la larga, el sistema esta desocupado). Pero

si al llegar un cliente el sistema esta ocupado su tiempo de espera toma valores en (0, a) (a

es el tiempo maximo de espera) con una densidad f (x) tal que∫ a

0 f (x) dx = 1− p.

2.6. Variable aleatoria bidimensional

Definicion 2.9. Dos variables aleatorias medidas simultaneamente sobre los resultados del

mismo experimento definen una variable aleatoria bidimensional, sea (X,Y ) : Ω→ R2.

Ejemplo 2.26. Sea un experimento con 3 resultados posibles, a, b y c, con probabilidades

respectivas pa, pb y pc, (pa + pb + pc = 1). Se realiza n veces independientemente. Se definen

las Vas X = “numero de veces que resulto a”, e Y = “numero de veces que resulto b”.

El recorrido de la Va (X,Y ) es el conjunto (x, y) | x, y ∈ 0, 1, 2, ...n, x+ y ≤ n. El de X

y el de Y es 0, 1, 2, ...n.

Ejemplo 2.27. En el experimento de elegir un punto al azar en el cırculo x2 + y2 ≤ 1.

Las coordenadas cartesianas (X,Y ) del punto tienen recorrido (x, y) | x2 + y2 ≤ 1. Las

coordenadas polares (R,Φ) del punto tienen recorrido [0, 1]× [0, 2π].

Como en cada realizacion del experimento no podemos asegurar el resultado ω ∈ Ω que se

va a obtener, tampoco podemos asegurar el punto (X (ω) , Y (ω)) ∈ R2 que va a resultar, y

nuestro interes se dirige a calcular la probabilidad de que pertenezca a uno u otro conjunto

del plano numerico.

Definicion 2.10. Sea la Va (X,Y ) definida sobre (Ω,F , P ). Su distribucion de probabi-

lidades es (R2,B2, PX,Y ) definida por

PX,Y (B) = P ((X,Y )−1 (B)) ∀B ∈ B2

En las aplicaciones, salvo casos muy simples, esta conexion entre las probabilidades de los

sucesos del experimento (lado derecho de la formula anterior) y las probabilidades de los

sucesos de R2 (lado izquierdo) no se hace explıcita y la PX,Y (B) se da directamente.

Para simplificar la notacion escribiremos P ((X,Y ) ∈ B) en lugar de PX,Y (B). Con ella

representamos la pregunta: cuando se haga el experimento y se midan los valores

de X y de Y en el resultado ¿cual es la probabilidad de que el punto obtenido

este en el conjunto B del plano numerico?

Mas particularmente escribiremos:

P (X ∈ B1, Y ∈ B2) si B = B1 ×B2 con B1 ∈ B y B2 ∈ B

P (a < X < b, c < Y < d) si B = (a, b)× (c, d)

P (X ≤ a, Y ≤ b) si B = (−∞, a]× (−∞, b] etc.

2.7. Variable aleatoria bidimensional discreta 49

2.6.1. Funcion de distribucion conjunta

Nuestro interes es conocer esta distribucion que, como en el caso unidimensional, se puede

especificar de modo mas comodo por medio de ciertas funciones reales de variables reales

(vale decir por una formula).

Definicion 2.11. La funcion de distribucion conjunta de la variable (X,Y ) es

F (x, y) = P (X ≤ x, Y ≤ y) ∀x, y ∈ R (2.10)

Es decir, la probabilidad de cualquier B se puede calcular a partir de las probabilidades de

los intervalos (−∞, x]× (−∞, y].

Por ejemplo, para B = (x, x+ h]× (y, y + k] , (h > 0, k > 0) es (compruebelo dibujando la

figura):

P (x < X ≤ x+h, y < Y ≤ y+k) = F (x+h, y+k)−F (x+h, y)−F (x, y+k)+F (x, y) (2.11)

Se prueba que F (x, y) es continua por la derecha y monotona no decreciente en cada

una de las variables, y que tiene lımites F (−∞, y) = F (x,−∞) = F (−∞,−∞) = 0 y

F (+∞,+∞) = 1. Solo estas propiedades no bastan para que una F (x, y) sea una funcion

de distribucion; ademas ha de ser

42F (x, y) = F (x+ h, y + k)− F (x+ h, y)− F (x, y + k) + F (x, y) ≥ 0 (2.12)

Las funciones de distribucion de cada una de las variable X e Y , sean FX (x) y FY (y), se

llaman marginales, y estan determinadas por la F (x, y):

F (x,+∞) = P (X ≤ x, Y ≤ +∞) = P (X ≤ x) = FX (x)

F (+∞, y) = P (X ≤ +∞, Y ≤ y) = P (Y ≤ y) = FY (y)

Sin embargo, en general, las marginales no determinan la F (x, y).

2.7. Variable aleatoria bidimensional discreta

Definicion 2.12. Si X e Y son ambas discretas con recorrido conjunto S, la funcion

de masa conjunta, equivalente a la F (x, y), es

f (x, y) = P (X = x, Y = y) ∀ (x, y) ∈ S

y cero en otro caso.

Se sigue que ∑(x,y)∈S

f (x, y) = 1

Cualquier probabilidad se calcula ası

P ((X,Y ) ∈ B) =∑

(x,y)∈B∩S

f (x, y)

Ademas las funciones de masa, marginales, de X e Y son

fX (x) =∑y

f (x, y) (2.13)

fY (y) =∑x

f (x, y)

Ejemplo 2.28. Sea (X,Y ) la Va del ejemplo 2.26. Obtengamos la f(x,y). Para ello hemos

de sumar las probabilidades de todos los resultados (n-tuplas) con dicha composicion: x de

tipo a e y de tipo b (y naturalmente n− x− y de tipo c) cualquiera que sea el orden en que

hayan aparecido. Pero para cada resultado particular la probabilidad es, por la independencia

de los ensayos, pxapybpn−x−yc , y hay(

)(n− xy

x!y!(n− x− y)!

distintos con dicha composicion (primero se eligen, entre los numeros 1 a n, las x posiciones

de las a, que se multiplican por las elecciones para las y entre las n − x restantes). En

conclusion:

f(x, y) =n!

x!y!(n− x− y)!pxap

ybpn−x−yc x, y ∈ 0, 1, 2, ...n, x+ y ≤ n

La Va (X,Y ) se denomina trinomial de parametros (n, pa, pb, pc). Es claro que tanto X

como Y son binomiales de parametros (n, pa) y (n, pb) respectivamente.

2.7.1. Condicionales

Si y es un valor fijado del recorrido de la Va Y , por lo tanto con P (Y = y) = fY (y) > 0,

recordando la formula de la probabilidad condicional (Seccion 1.5) es

P (X = x | Y = y) =P (X = x, Y = y)

P (Y = y)=f (x, y)

fY (y)

y se ve que la funcion de la derecha, de argumento x y parametro y, es una funcion de masa,

pues, usando (2.13)1

fY (y)

f (x, y) =1

fY (y)× fY (y) = 1

2.8. Variable aleatoria bidimensional continua 51

Definicion 2.13. Sea (X,Y ) discreta con masa f (x, y). Para cada valor Y = y fijado del

recorrido de Y la Va (X | Y = y) se llama condicional y su funcion de masa es

f(x | y) =f(x, y)

fY (y)∀x ∈ R

Conviene observar que hay tantas Vas condicionales como valores puedan fijarse en el reco-

rrido de Y . Naturalmente todo lo dicho puede repetirse cambiando los papeles de X e Y ,

obteniendose las f(y | x).

Ejemplo 2.29. (cont. del 2.28) Sea fijado 0 < y < n.La Va (X | Y = y) tiene recorrido

0, 1, ..., n− y. Su fm es:

f(x | y) =

)(n−xy

n−x−y(ny

)pyb (1− pb)n−y

(n− yx

pa + pc

)x(1− pa

pa + pc

)n−y−xResulta que (X | Y = y) es una Va binomial de parametros (n− y) y pa/(pa + pc).

Efectivamente, fijados los Y = y resultados de tipo b, cada uno de los n − y restantes solo

pueden ser de tipo a o c con probabilidades ahora:

P (ω = a | ω 6= b) =P (ω = a)

P (ω = a) + P (ω = c)=

papa + pc

y analogamente para c.

2.8. Variable aleatoria bidimensional continua

Definicion 2.14. Si X e Y son ambas continuas, en todos los casos que vamos a estudiar

existe una funcion integrable f (x, y) ≥ 0 (cero en todo (x, y) que no sea del recorrido de

(X,Y )), llamada de densidad conjunta, tal que

P ((X,Y ) ∈ B) =

∫ ∫Bf (u, v) dudv ∀B ∈ B2 (2.14)

Se sigue que ∫ ∫R2

f (u, v) dudv = 1

En particular tomando B = (−∞, x]× (−∞, y] resulta que

F (x, y) = P (X ≤ x, Y ≤ y) =

−∞

−∞f (u, v) dudv

de manera que F es continua. Y en cada (x, y) en que f (x, y) sea continua

∂2F (x, y)

∂x∂y= f (x, y) (2.15)

De (2.11) y (2.15)

lımh→0k→0

P (x < X ≤ x+ h, y < Y ≤ y + k)

hk= lım

h→0k→0

42F (x, y)

hk=∂2F (x, y)

∂x∂y= f(x, y)

la primera fraccion de la izquierda es el cociente de la masa de probabilidad en el rectangulo,

P (x < X ≤ x + h, y < Y ≤ y + k), dividida por la superficie hk, es decir la densidad de

probabilidad.

Del lımite se sigue que

P (x < X ≤ x+ h, y < Y ≤ y + k) = f (x, y)hk + r (hk) (2.16)

lımh→0k→0

r (hk)

y puede decirse que, que salvo un infinitesimo de orden superior a hk, es

P (x < X ≤ x+ h, y < Y ≤ y + k) ≈ f(x, y)hk

La funcion de densidad, marginal, de X se deduce de

FX (x) = P (X ≤ x, Y ≤ +∞) =

−∞

(∫ +∞

−∞f (u, v) dv

fX (x) = F′X (x) =

∫ +∞

−∞f (x, v) dv (2.17)

y analogamente

fY (y) =

∫ +∞

−∞f (u, y) du

De (2.14), en particular, resulta (propiedad de la integral de Riemann) que si B es un

conjunto de superficie nula (un punto o una curva por ejemplo) es

P ((X,Y ) ∈ B) =

∫ ∫Bf (u, v) dudv = 0

ası que, con las variables continuas con las que vamos a trabajar es

P (a ≤ X ≤ b, c ≤ Y ≤ d) = P (a < X < b, c < Y < d)

P (X ≤ a, Y ≤ b) = P (X < a, Y < b)

2.8. Variable aleatoria bidimensional continua 53

Ejemplo 2.30. Sean (X,Y ) la coordenadas de un punto elegido al azar en el cırculo x2+y2 ≤1. Si (x, y) y (x+ h, y + k) son puntos del cırculo

P (x < X ≤ x+ h, y < Y ≤ y + k) =hk

(cociente de superficies por ser el punto elegido al azar; Seccion 1.4.2). Se sigue de (2.16)

f (x, y)hk + r (hk) =hk

es decir

f (x, y) =1

πx2 + y2 ≤ 1

que es una densidad uniforme, o equiprobable, en el cırculo.

La densidad marginal de la X se obtiene con

fX (x) =

∫ +∞

−∞f (x, y) dy =

∫ +√

1−x2

−√

1−x2

πdy =

1− x2

πx ∈ [−1, 1]

pues f (x, y) = 0 para x fijado e y /∈[−√

1− x2,+√

1− x2]. La de la Y es obviamente

analoga.

2.8.1. Condicionales

Si y es un valor fijado del recorrido de la Va Y tal que fY (y) > 0, la funcion

f (x, y)

fY (y)

de argumento x y parametro y, es una funcion de densidad, pues, usando (2.17)

fY (y)

∫Rf (x, y) dx =

fY (y)× fY (y) = 1

Definicion 2.15. Sea (X,Y ) continua con densidad f (x, y). Para cada valor Y = y fijado

tal que fY (y) > 0 la Va (X | Y = y) se llama condicional y su funcion de densidad es

f(x | y) =f(x, y)

fY (y)∀x ∈ R

Conviene observar que hay tantas Vas condicionales como valores puedan fijarse en el reco-

rrido de Y con fY (y) > 0. Naturalmente todo lo dicho puede repetirse cambiando los papeles

de X e Y , obteniendose las f(y | x).

Ejemplo 2.31. Sean (X,Y ) la coordenadas de un punto elegido al azar en el cırculo x2+y2 ≤1. La densidad conjunta y la marginal de la X son (ejemplo 30)

f (x, y) =1

πx2 + y2 ≤ 1

fX (x) =2√

1− x2

πx ∈ [−1, 1]

y las densidades condicionales de (Y | X = x), para cada x ∈ (−1, 1) (pues para x = ±1 es

fX (x) = 0) resultan

f(y | x) =f(x, y)

fX(x)=

1−x2π

1− x2y ∈

[−√

1− x2,+√

1− x2]

de manera que las (Y | X = x) son uniformes, o equiprobables (y naturalmente lo mismo

sucede para las (X | Y = y)).

2.9. Variables independientes

Vimos en la seccion 2.6.1 que la distribucion de probabilidades de (X,Y ) determina las de

X e Y por separado (marginales), pero estas, en general, no determinan aquella. Salvo en el

caso siguiente:

Definicion 2.16. Las variables X e Y son independientes si

P (X ∈ A, Y ∈ B) = P (X ∈ A)P (Y ∈ B) ∀A,B ∈ B

Proposicion 2.1. Las siguientes condiciones, todas equivalentes, son necesarias y suficientes

para la independencia:

(i) con las funciones de distribucion:

F (x, y) = FX(x)FY (y)

(ii) con las funciones de masa o densidad:

f(x, y) = fX(x)fY (y)

(iii) con las condicionales:

f(x | y) = fX(x) ∀y

que a su vez equivale a:

f(y | x) = fY (y) ∀x

2.9. Variables independientes 55

Una condicion necesaria, pero no suficiente, para la independencia, es que el recorrido de

(X,Y ) sea el producto cartesiano de los de X e Y (intuitivamente: si el recorrido de una

de las variables, sea la (X | Y = y), depende de cual sea el valor y fijado, hay una clara

dependencia).

Ejemplo 2.32. Si la Va (X,Y ) tiene densidad f(x, y) = e−(x+y) si x, y > 0, entonces X

e Y son independientes, pues basta observar que f(x, y) se factoriza en el producto de 2

funciones cada una dependiendo de solo una de las variables (este resultado es de validez

general).

Ejemplo 2.33. Las coordenadas cartesianas (X,Y ) de un punto elegido al azar en el cırculo

x2 + y2 ≤ 1 no son independientes, pues basta observar que su recorrido no es un rectangulo

del plano.

Como en el caso de la independencia de sucesos (cf. secciones 1.7 y 1.8) la de variables

aleatorias es muy importante cuando se conoce a priori, mas que su constatacion a posteriori.

Ejemplo 2.34. Se elige un punto al azar en el cırculo x2 + y2 ≤ 1. Las coordenadas polares

(R,Φ) del punto son obviamente independientes: la distancia del punto al centro es indepen-

diente del radio sobre el que se situa el punto. Como las densidades marginales, obtenidas

en los ejemplos 2.16 y 2.17 son

fR (r) =

∫ 2π

πdϕ = 2r r ∈ [0, 1]

fΦ (ϕ) =

πdr =

2πϕ ∈ [0, 2π]

la densidad conjunta es

fR,Φ (r, ϕ) = fR (r) fΦ (ϕ) =r

π(r, ϕ) ∈ [0, 1]× [0, 2π]

Vease tambien el ejemplo 2.47.

Ejemplo 2.35. Un modo trivial de construir Vas independientes es a partir de experimentos

independientes (Seccion 1.8). Si (Ω1,F1, P1) y (Ω2,F2, P2) son independientes, entonces sen-

das variables X e Y definidas respectivamente sobre Ω1 y Ω2 definen a su vez una conjunta

(X,Y ) sobre Ω1 × Ω2, ası

(X,Y ) (ω1, ω2) = (X (ω1) , Y (ω2))

resultando independientes. Esta construccion sera muy importante en Estadıstica

Proposicion 2.2. Si X e Y son independientes entonces tambien lo son g (X) y h (Y ) para

cualesquiera funciones g y h.

Demostracion.

P (g(X) ∈ A, h(Y ) ∈ B)

= P (X ∈ g−1(A), Y ∈ h−1(B))

= P (X ∈ g−1(A))P (Y ∈ h−1(B))

= P (g(X) ∈ A)P (h(Y ) ∈ B)

2.10. Generalizacion

La generalizacion a variables n−dimensionales (X1, X2, ..., Xn) : Ω→ Rn es inmediata.

La distribucion de probabilidades de la variable (X1, X2, ..., Xn) se puede especificar por la

funcion de distribucion F (x1, x2, ..., xn), o por la de masa o densidad conjunta f (x1, x2, ..., xn)

(segun que las componentes Xi sean discretas o continuas). Esta determina todas las margi-

nales, en particular las f1 (x1), f2 (x2), · · · fn (xn), pero no al contrario en general.

Salvo si las n variables (X1, X2, ..., Xn) son independientes, en cuyo caso

f (x1, x2, ..., xn) = f1 (x1) f2 (x2) · · · fn (xn)

es decir, en este caso las marginales determinan la conjunta.

Se pueba que si las n variables (X1, X2, ..., Xn) son independientes entonces tambien lo son

g (X1, X2, ..., Xk) y h (Xk+1, Xk+2, ..., Xn). Y en general cualesquiera funciones de subcon-

juntos disjuntos de las n.

2.11. Funciones de Variables Aleatorias

Nos interesamos ahora en la deduccion de la ley de probabilidades de una Va definida como

funcion de otras, a partir del conocimiento de la ley de probabilidades de estas y de la propia

relacion funcional. Suponemos en todos los casos que las variables implicadas son continuas.

2.11.1. Funcion de una variable

Sea la Va X con densidad fX y la Y = g(X). Nos proponemos hallar la densidad de Y . La

funcion de distribucion de Y se obtiene ası:

FY (y) = P (g(X) ≤ y) = P (X ∈ g−1((−∞, y]) =

∫g−1((−∞,y])

fX(x)dx (2.18)

2.11. Funciones de Variables Aleatorias 57

donde g−1((−∞, y]) = x ∈ R : g (x) ≤ y. Y entonces la densidad fY de Y es:

fY (y) = F′Y (y)

Ejemplo 2.36. Sea X continua con densidad fX y sea Y = X2. Hallemos la densidad de Y

FY (y) = P(X2 ≤ y

)= P (−√y ≤ X ≤ √y) =

∫ +√y

−√yfX (x) dx

y la densidad resulta (Regla de Leibnitz: derivacion bajo el signo integral):

fY (y) = F ′Y (y) =1

2√yfX (√y)−

)fX (−√y)

[fX (√y) + fX (−√y)]

Ejemplo 2.37. (cont.) Sea en particular X uniforme, con densidad fX (x) = 1 para x ∈(0, 1). Entonces Y = X2 tiene recorrido (0, 1) y

fY (y) =1

[fX (√y) + fX (−√y)]

[1 + 0]

y ∈ (0, 1)

Ejemplo 2.38. Se elige un punto X al azar (es decir, con densidad uniforme) en una barra

de longitud 1 y se rompe por dicho punto. Sea Y la longitud del trozo mas grande. Obtengamos

la densidad de Y .

La posicion del punto de rotura es una variable aleatoria X con densidad fX (x) = 1 para

x ∈ (0, 1). La longitud del trozo mas grande es la variable aleatoria

1−X si 0 < X ≤ 1/2

X si 1/2 < X < 1

El recorrido de Y es (1/2, 1). Sea un valor fijado y del recorrido. Entonces

FY (y) = P (Y ≤ y) = P (1− y ≤ X ≤ y) = FX (y)− FX (1− y)

= y − (1− y) = 2y − 1 y ∈ (1/2, 1)

fY (y) = F′Y (y) = 2 y ∈ (1/2, 1)

0 0,5 1 0

1−y y

Y=1−X Y=X

Figura 2.5: Ejemplo 2.38: rotura de la barra.

Funciones monotonas

En particular, si g es monotona creciente g−1((−∞, y]) = (−∞, g−1 (y)] y (2.18) queda

FY (y) =

∫ g−1(y)

−∞fX(x)dx

y resulta

fY (y) =(g−1)′

(y)fX(g−1(y))

Y si decreciente g−1((−∞, y]) = [g−1 (y) ,+∞) y

FY (y) =

∫ +∞

g−1(y)fX(x)dx

y resulta

fY (y) = −(g−1)′

(y)fX(g−1(y))

observar que en este caso al ser g decreciente tambien lo es g−1 y(g−1)′

(y) < 0.

Ambos casos se reunen en la formula:

fY (y) =∣∣∣(g−1

)′(y)∣∣∣ fX(g−1(y)) (2.19)

Ejemplo 2.39. Sea X continua con densidad fX (x) y sea Y = a + bX (b 6= 0). Hallemos

la densidad de Y . Como

g−1 (y) =y − ab

resulta

fY (y) =1

(y − ab

)(2.20)

Ejemplo 2.40. Sea Y = 1/X. La funcion g es monotona y g−1 (y) = 1/y ası que

fY (y) =∣∣∣(g−1

)′(y)∣∣∣ fX(g−1(y))

Simulacion de Vas

Sea X con distribucion uniforme en (0, 1), es decir funcion de distribucion FX (x) = x y

densidad fX (x) = 1 para x ∈ (0, 1). Sea F (·) una funcion de distribucion continua y f (·) la

densidad correspondiente. Hallemos la densidad fY (y) de la variable aleatoria Y = F−1 (X).

Como g−1 (y) = F (y) entonces∣∣∣(g−1

)′(y)∣∣∣ = F ′(y) = f (y). Ademas fX(g−1(y)) = 1.

Resulta:

fY (y) =∣∣∣(g−1

)′(y)∣∣∣ fX(g−1(y)) = f (y) y ∈ (0, 1) .

Ası que la Y tiene la densidad f dada. Recıprocamente, si Y tiene distribucion F entonces

X = F (Y ) tiene funcion de distribucion uniforme en (0, 1).

Este es el algoritmo basico para simular valores de una variable aleatoria continua con

distribucion F usando un generador de numeros uniformes en (0, 1).

Ejemplo 2.41. Para simular valores de una variable aleatoria Y exponencial de parametro

λ, como F (y) = 1− exp (−λy) se usa Y = − (1/λ) ln (1−X) con X uniforme en (0, 1).

2.11.2. Funcion de varias Vas

Sean la Va (X1, X2, ..., Xn) con densidad f (x1, x2, ..., xn) y la Y = g(X1, X2, ..., Xn).

En algunos casos particulares un simple argumento probabilista da la solucion:

Ejemplo 2.42. Obtengamos la FD de Y = max(X1, X2, ..., Xn).

FY (y) = P (max(X1, X2, ..., Xn) ≤ y)

= P (todas las coordenadas son ≤ y)

= P (X1 ≤ y,X2 ≤ y, ..., Xn ≤ y)

Si en particular las Xi fuesen independientes con la misma funcion de distribucion FX (x)

entonces:

FY (y) = [FX(y)]n

resultado valido sean las variables discretas o continuas.

Si ademas fuesen continuas con densidad fX (x) la densidad del maximo es

fY (y) = n [FX(y)]n−1 fX (y)

Ejemplo 2.43. (cont.) Obtengamos ahora la de Y = mın(X1, X2, ..., Xn).

FY (y) = P (mın(X1, X2, ..., Xn) ≤ y)

= P (al menos una coordenada es ≤ y)

= 1− P (todas son > y)

= 1− P (X1 > y,X2 > y, ...,Xn > y)

Si en particular las Xi fuesen independientes con la misma funcion de distribucion FX (x)

entonces:

FY (y) = 1− [1− FX(y)]n

resultado valido sean las variables discretas o continuas.

Si ademas fuesen continuas con densidad fX (x) la densidad del mınimo es

fY (y) = n [1− FX(y)]n−1 fX (y)

En general la FD de Y se obtiene ası:

FY (y) = P (g(X1, X2, ..., Xn) ≤ y)

= P ((X1, X2, ..., Xn) ∈ g−1(−∞, y])

∫· · ·∫

g−1(−∞,y]

f(x1, x2, ..., xn)dx1dx2...dxn

donde g−1(−∞, y] = (x1, x2, .., xn) ∈ Rn : g (x1, x2, .., xn) ≤ y, y donde f(x1, x2, ..., xn) es

la densidad de (X1, X2, ..., Xn)

La densidad fY (y) de Y es

fY (y) = F′Y (y)

Ejemplo 2.44. (Suma) Sea (X1, X2) con densidad f(x1, x2). Obtengamos la densidad de

Y = X1 +X2.

g−1(−∞, y] = (x1, x2) ∈ R2 : x1 + x2 ≤ y

FY (y) =

∫ +∞

−∞

[∫ y−x1

−∞f(x1, x2)dx2

fY (y) = F′Y (y) =

∫ +∞

−∞f(x1, y − x1)dx1

En particular, si las Vas son independientes

fY (y) =

∫ +∞

−∞f1(x1)f2(y − x1)dx1

(convolucion de las densidades).

Ejemplo 2.45. (Cociente). Sea (X1, X2) con densidad f(x1, x2). Obtengamos la densidad

de Y = X1/X2.

g−1(−∞, y] = (x1, x2) ∈ R2 : x2 < 0, x1 ≥ x2y ∪ (x1, x2) ∈ R2 : x2 > 0, x1 ≤ x2y

FY (y) =

−∞

[∫ +∞

x2yf(x1, x2)dx1

]dx2 +

∫ +∞

[∫ x2y

−∞f(x1, x2)dx1

fY (y) =

−∞−x2f(yx2, x2)dx2 +

∫ +∞

0x2f(yx2, x2)dx2

∫ +∞

−∞|x2| f(yx2, x2)dx2

2.11.3. Transformacion general de Vas continuas

Recordemos que si (X1, X2, ..., Xn) es continua con densidad fX(x1, x2, ..., xn) entonces

P ((X1, X2, ..., Xn) ∈ A) =

∫· · ·∫

fX(x1, x2, ..., xn)dx1...dxn ∀A ∈ Bn

Sean n nuevas variables:Y1 = g1(X1, X2, ..., Xn)

Y2 = g2(X1, X2, ..., Xn)

· · ·Yn = gn(X1, X2, ..., Xn)

siendo la transformacion g : Rn → Rn continua, biunıvoca y diferenciable. Nos proponemos

hallar la densidad fY (y1, y2, ..., yn) de (Y1, Y2, ..., Yn).

Sea la tranformacion inversa

X1 = h1(Y1, Y2, ..., Yn)

X2 = h2(Y1, Y2, ..., Yn)

· · ·Xn = hn(Y1, Y2, ..., Yn)

entonces ∀A ∈ Bn

P ((X1, X2, ..., Xn) ∈ A) =

∫· · ·∫

fX(x1, x2, ..., xn)dx1...dxn

∫· · ·∫

fX(h1, h2, ..., hn) |J | dy1dy2...dyn

(Teorema del cambio de variable en integrales multiples: hemos cambiado las x por las y)

donde T (A) ∈ Bn es el conjunto transformado del A y

J = det

∂h1∂y1

· · · ∂h1∂yn

· · · · · · · · ·∂hn∂y1

· · · ∂hn∂yn

Pero la correspondencia es biunıvoca ası que

P ((X1, X2, ..., Xn) ∈ A) = P ((Y1, Y2, ..., Yn) ∈ T (A))

y como

P ((Y1, Y2, ..., Yn) ∈ T (A)) =

∫· · ·∫

fY (y1, y2, ..., yn)dy1dy2...dyn

resulta

fY (y1, y2, ..., yn) = fX(h1, h2, ..., hn) |J |

Ejemplo 2.46. Sea (X,Y ) con densidad uniforme fX,Y (x, y) = 1π en el cırculo x2 +y2 ≤ 1,

y sean (R,Φ) (coordenadas polares)

R =√X2 + Y 2

Φ = arctanY

La transformacion inversa es

X = R cos Φ

Y = R sin Φ

J = det

(cosϕ −r sinϕ

sinϕ r cosϕ

y resulta

fR,Φ (r, ϕ) = fX,Y (r cosϕ, r sinϕ) r =r

πr ∈ [0, 1], ϕ ∈ [0, 2π]

Las densidades marginales son

fR (r) =

∫ 2π

πdϕ = 2r r ∈ [0, 1]

fΦ (ϕ) =

πdr =

2πϕ ∈ [0, 2π]

y las variables R y Φ son independientes pues fR,Φ (r, ϕ) = fR (r) fΦ (ϕ).

2.11.4. Transformaciones lineales

Un caso particular importante del anterior es el de las transformaciones lineales:Y1

donde A es una matriz n× n de constantes. La transformacion es biunıvoca si, y solo si, A

es no singular. En cuyo caso:

J = det A−1 = (det A)−1

Resultando:

fY (y1, y2, ..., yn) =1

|det A|fX(

c1jyj ,∑j

c2jyj , ...,∑j

cnjyj)

donde (cij) = A−1.

Ejemplo 2.47. Sea la Va (X1, X2) con densidad fX(x1, x2). Sea (Y1, Y2) una rotacion de

angulo α de las primeras definida por:

(cosα senα

− senα cosα

y como

A−1 =

(cosα − senα

senα cosα

y detA = 1, la densidad de (Y1, Y2) es:

fY (y1, y2) = fX(y1 cosα− y2 senα, y1 senα+ y2 cosα)

Secciones 2.1, 2.2, 2.3 y 2.4:

1. Un recipiente de volumen V contiene n moleculas de un gas ideal. El numero de ellas

que en un instante cualquiera se hallan en una parte de volumen v fluctua, es decir,

es una variable aleatoria Z. Halle su funcion de masa de probabilidades si, dado el

equilibrio, para cada una de las n la probabilidad de estar en v es p = v/V .

2. (muestreo con reemplazamiento) Una urna contiene r bolas rojas y b blancas. Se extraen

n, una tras otra, devolviendo la anterior antes de extraer la siguiente. Deduzca la

funcion de masa de la variable aleatoria X =“numero de bolas rojas entre las n”.

(sugerencia: ejercicio propuesto 6 del capıtulo 1)

3. (muestreo sin reemplazamiento) Una urna contiene r bolas rojas y b blancas. Se extraen

n a la vez, o una tras otra sin devolver la anterior antes de extraer la siguiente. Deduzca

la funcion de masa de la variable aleatoria X =“numero de bolas rojas entre las n”.

(sugerencia: ejercicio propuesto 7 del capıtulo 1)

4. Sea X una Va geometrica de parametro p (ejemplo 2.14). Compruebe que P (X >

x + y | X > x) = P (X > y) (propiedad de “perdida de memoria” , que entre las Vas

discretas solo posee esta).

5. La ley del decaimiento radioactivo puede deducirse de una unica hipotesis fısica experi-

mentalmente constrastable: El decaimiento radioactivo es un proceso sin memoria.

Ello quiere decir que si X es el tiempo de vida de un nucleo radioactivo (tiempo que

transcurre, a partir de un instante inicial cualquiera, hasta que decae) entonces

P (X > x+ y | X > x) = P (X > y) ∀x, y > 0

es decir, dado que ha sobrevivido al tiempo x la probabilidad de que aun sobreviva

un tiempo adicional y es independiente de x. Compruebe que la formula anterior se

satisface si X tiene densidad exponencial de parametro λ (que entre las Vas continuas

es la unica sin memoria).

6. (cont.) Halle el cuantil x0.5 (la mediana), es decir el tiempo x tal que con probabilidad

1/2 un atomo decae antes de que transcurra x (el periodo de semidesintegracion o half

7. El tiempo de vida del radio Ra226 es una variable aleatoria X exponencial de parametro

λ = 4.327× 10−4 anos−1 Calcule su periodo de semidesintegracion.

8. Calcule la probabilidad de que el tiempo de vida de un atomo de cualquier substancia

radioactiva supere 1/λ (su vida media teorica como se vera en el capıtulo 3)

9. Considere un mol de una substancia radioactiva. Los tiempo de vida de cada uno de

los n = 6.022 × 1023 atomos son variables aleatorias exponenciales independientes de

parametro λ. ¿Cual es la funcion de masa de la variable aleatoria Z =“numero de

atomos que decaen en un intervalo de t anos” ¿Y la de los que sobreviven?

10. Sea la variable aleatoria X con funcion de densidad f(x) = k sen(x) si x ∈(0, π2

cero en otro caso. a) obtenga el valor de k. b) obtenga la funcion de distribucion de

X. c) calcule P (π4 < X < π2 ).

11. Se elige un punto al azar en un segmento de longitud a, y se define la Va X =“distancia

del punto elegido al centro del segmento”. a) calcule la funcion de distribucion. b)

calcule la funcion de densidad.

12. Se elige un punto al azar en un cuadrado de lado 2a y se define X =”distancia del

punto al lado mas proximo”. a) calcule la funcion de distribucion. b) calcule la funcion

de densidad.

13. Desde un foco F del plano se emiten partıculas que son detectadas cuando alcanzan

una pantalla situada a distancia 1 (vease la figura 13). Sea O el pie de la perpendicular

desde F a la pantalla. Las trayectorias forman un angulo aleatorio Φ con OF , que

se supone equiprobable (es decir, con densidad constante) en (−π/2, π/2), y alcanzan

la pantalla en un punto de abscisa aleatoria X respecto de O. a) Halle la funcion de

distribucion de X b) halle la funcion de densidad de X c) ¿Cual es la probabilidad

de que el punto de impacto de una partıcula diste de O menos de 1/2? d) ¿Cual es la

distancia x tal que P (|X| < x) = 1/2?

Seccion 2.11:

14. Sea X uniforme en (0, 1). Obtenga la densidad de Y = a+ bX con b > 0. (sugerencia:

vea el ejemplo 2.39)

15. Sea X uniforme en (0, 1). Obtenga la densidad de Y = 1/X (sugerencia: vea el ejemplo

16. Si U es una Va normal de parametros µ = 0 y σ = 1 (ejemplo 2.22)

fU (u) =1√2πe−

2 −∞ < u < +∞

halle la densidad de la Va Z = U2 (sugerencia: use el ejemplo 2.37).

17. Se eligen n puntos al azar en (0, 1) y se define X =“abscisa del mas cercano al origen”.

a) calcule la funcion de distribucion. b) calcule la funcion de densidad. c) calcule la

funcion de cuantiles. d) hallar el mınimo numero de puntos para que x0.5 sea menor

que 0.1 (sugerencia: use el ejemplo 2.43).

Figura 2.6: Diagrama del ejercicio 13.

18. Se eligen n puntos al azar en (0, 1) y se define X =“abscisa del mas lejano al origen”.

a) calcule la funcion de distribucion. b) calcule la funcion de densidad. c) calcule la

funcion de cuantiles. d) hallar el mınimo numero de puntos para que x0.5 sea mayor

que 0.9 (sugerencia: use el ejemplo 2.43)

Capıtulo 3

Valores Esperados

3.1. Esperanza de una variable aleatoria

Definicion 3.1. La esperanza de una Va X, denotada E (X), es el numero 1:

- Si X es discreta con recorrido S y funcion de masa f (x)

E (X) =∑x∈S

xf (x) (3.1)

- Si X es continua con densidad f (x)

E (X) =

∫Rxf (x) dx (3.2)

Tambien se llama el valor esperado de X, aunque como se ve en los ejemplos no tiene

por que coincidir con ninguno de los valores posibles de X. O la media teorica de X en

contraposicion a la media experimental (ver 3.2). E (X) tiene, en cualquier caso, las mismas

unidades que la magnitud X.

Ejemplo 3.1. Si X es de Bernoulli de parametro p, es decir, con funcion de masa f (x) =

px (1− p)1−x si x ∈ 0, 1, entonces:

E (X) =

1∑x=0

xf (x) = 0× (1− p) + 1× p = p

Ejemplo 3.2. Si X es binomial de parametros n y p, es decir, con funcion de masa

f (x) =

)px (1− p)n−x x = 0, 1, .., n

1Ademas la serie, o la integral, deben ser absolutamente convergentes: en otras palabras, E (X) carecerıa

de sentido si su valor dependiera del orden o reagrupamieno de los terminos. La misma cuestion incide en la

interpretacion experimental que se vera en la seccion 3.2.

68 Capıtulo 3. Valores Esperados

entonces

E (X) =n∑x=0

)px (1− p)n−x = np

(ver ejemplo 3.19).

Ejemplo 3.3. Si X es geometrica de parametro p, es decir, con funcion de masa

f (x) = p (1− p)x−1 x = 1, 2, ...

entonces

E (X) =∞∑x=1

xp (1− p)x−1 =1

(ver ejercicio propuesto 11).

Ejemplo 3.4. Si X es de Poisson de parametro λ, es decir, con funcion de masa

f (x) = e−λλx

x!x = 0, 1, 2, ..

entonces

E (X) =∞∑x=0

xe−λλx

x!= λ

(ver ejercicio propuesto 12).

Ejemplo 3.5. Si X es exponencial, con densidad

f (x) = λe−λx x > 0

y cero en otro caso

E (X) =

∫ ∞0

λxe−λxdx

Integrando por partes con

u = x→ du = dx

v = −e−λx → dv = λe−λxdx

resulta

E (X) =[−xe−λx

∫ ∞0

e−λxdx =1

lımt→∞

te−λt = 0

y (funcion de densidad) ∫ ∞0

λe−λxdx = 1

Proposicion 3.1. Si X tiene densidad simetrica respecto de c, es decir f(c − x) =

f (c+ x), y existe la E (X), entonces E (X) = c

3.2. Interpretacion experimental 69

Demostracion. Pues (c− x) f (x) en (−∞, c) es simetrica a (x− c) f (x) en (c,+∞) y

entonces ∫ c

−∞(c− x) f (x) dx =

∫ +∞

c(x− c) f (x) dx

y reordenando queda

(∫ c

−∞f (x) dx+

∫ +∞

cf (x) dx

−∞xf (x) dx+

∫ +∞

cxf (x) dx

es decir

∫Rf (x) dx =

∫Rxf (x) dx

pero la primera integral vale 1 y la segunda es E (X) ası que

E (X) = c

Ejemplo 3.6. Si X es normal de parametros µ y σ, es decir, con funcion de densidad

f (x) =1

2πe−

(x− µ)2

2σ2 −∞ < x < +∞

el calculo directo es sencillo (integrando por partes; ver tambien ejercicio 14) y resulta

E (X) = µ, que es el centro de simetrıa de la f (x).

Ejemplo 3.7. Si X tiene densidad de Cauchy

f(x) =1

1 + x2−∞ < x < +∞

aunque es simetrica respecto de 0, carece de esperanza, pues:∫ +∞

1 + x2dx = lım

t→∞

1 + x2dx = lım

t→∞

2ln(1 + t2

3.2. Interpretacion experimental

Para cada suceso A, la tendencia a la estabilidad de la frecuencia experimental, f(A) = nA/n,

a medida que n → ∞ (siendo nA el numero de veces que sucedio A en n realizaciones del

experimento), se modeliza mediante la P (A). Esto no es mas que un caso particular del

comportamiento de los promedios experimentales de los valores observados xi de una variable

aleatoria X con esperanza E (X).

Si (x1, x2, ..., xn, ...) son observaciones independientes de una variable X, discreta o con-

tinua, con esperanza E (X), es un hecho empırico la convergencia del promedio (o media)

experimental al teorico

lımn→∞

n∑i=1

xi = E (X)

Con mas precision, un teorema importante de la Probabilidad, la Ley Fuerte de los Grandes

Numeros, de Borel y Kolmogorov, afirma que las series (1/n)∑xi convergen a E (X) con

probabilidad 1.

En la practica experimental puede suceder que la funcion de masa o densidad f (x) de la

variable aleatoria X que se mide en el experimento sea desconocida, o que sea de forma

conocida pero dependa de parametros desconocidos, lo que impide calcular el valor de E (X)

segun la definicion 3.1. Sin embargo la convergencia descrita justifica su aproximacion con el

promedio experimental (1/n)∑xi de n de observaciones de X, y, naturalmente, habremos

de acotar el error de la aproximacion.

Ejemplo 3.8. (cont. del 3.1) En el experimento de lanzar una vez una moneda con pro-

babilidad p de cara, la variable aleatoria X (c) = 1 y X (+) = 0 tiene funcion de masa de

Bernoulli.

A una sucesion de n tiradas corresponde otra (x1, x2, ..., xn) de observaciones de X (de ceros

y unos).∑n

i=1 xi es el total de caras en las n tiradas. El promedio experimental

n∑i=1

representa entonces la frecuencia relativa de caras que, como se sabe, converge a la probabi-

lidad de cara p, es decir, al promedio teorico E (X).

Ejemplo 3.9. (cont. del 3.2) En el experimento de lanzar m veces una moneda con proba-

bilidad p de cara, la variable aleatoria X =“numero de caras” tiene funcion de masa binomial

de parametros m y p.

A una sucesion de n experimentos corresponde otra (x1, x2, ..., xn) de observaciones de X

(de numeros de caras, entre 0 y m).∑n

i=1 xi es el total de caras en los n experimentos, que

equivalen en conjunto a nm lanzamientos de la moneda. El promedio experimental

n∑i=1

representa entonces la frecuencia relativa de caras que (ejemplo anterior) converge, si n →∞, a la probabilidad de cara p. Por lo tanto

n∑i=1

converge a mp, es decir, al promedio teorico E (X).

Recordar, del Analisis, que si un → u y g (·) es continua en u entonces g (un) → g (u). En

nuestro caso es un = 1n

∑ni=1 xi y u = E (X)

3.2. Interpretacion experimental 71

Ejemplo 3.10. (cont. del 3.3) En el experimento de lanzar una moneda, con probabilidad

p de cara, hasta que sale cara, la variable aleatoria X =“numero de tiradas” tiene funcion

de masa geometrica. A una sucesion de n experimentos corresponde otra (x1, x2, ..., xn) de

observaciones de X y

n∑i=1

converge a E (X) = 1/p.

La funcion g : un → 1/un es continua en u si u 6= 0. Entonces

n∑xi→ 1

E (X)= p

Observar que∑n

i=1 xi es el total de lanzamientos efectuados en el conjunto de los n experi-

mentos para obtener en total n caras y entonces

n∑xi

es la frecuencia relativa de caras, que converge, si n→∞, a la probabilidad de cara p.

Se suele llamar a la E (X) de una Va geometrica el periodo de retorno del suceso que

se observa (cara en el ejemplo) y a la propia variable el tiempo de espera para observar

suceso. Si la probabilidad de cara es p = 1/2 el periodo de retorno de cara es 1/p = 2: en

promedio cada 2 lanzamientos de obtiene una cara.

Ejemplo 3.11. (cont. del 3.5) El tiempo de vida X de un nucleo radioactivo, desde un

instante t = 0, tiene una funcion de densidad exponencial

f (x) = λe−λx x > 0

y E (X) = 1/λ representa la vida media teorica. En una sucesion (x1, x2, ..., xn) de observa-

ciones de X (tiempos de vida experimentales) la vida total de los n nucleos ha sido∑n

i=1 xi

y el promedio

n∑i=1

es la vida media experimental, que converge a la teorica 1/λ si n→∞. Y n/∑n

i=1 xi converge

a λ (que es el numero promedio teorico de decaimientos por unidad de tiempo).

El nombre de esperanza tiene su origen en los juegos de azar (cuyo analisis, desde el siglo

XVI, contribuyo al desarrollo de la Teorıa de Probabilidades), con el sentido de beneficio

esperado.

Ejemplo 3.12. En una ruleta con 37 sectores, del 0 al 36, apostamos 1 euro a par. Si sale

par recibimos 2 euros (el apostado mas 1 de beneficio). Si sale impar perdemos el euro. Si

sale 0 gana siempre la banca. ¿Que esperarıamos ganar apostando siempre par?

El beneficio en cada apuesta es una Va X con P (X = 1) = 1837 y P (X = −1) = 19

37 , y por lo

E(X) = (+1)× 18

37+ (−1)× 19

37= − 1

37= −0.027

A la larga, jugando muchas veces ası, habremos perdido 2.7 centimos por cada euro apostado.

Ejemplo 3.13. (Martingalas)¿Hay estrategias para ganar? Una clasica sugiere doblar la

apuesta cada vez. Si la apuesta inicial es 1 y se pierden n consecutivas la perdida total es

1 + 2 + 4 + · · ·+ 2n−1 = 2n − 1

En la apuesta n+ 1 la cantidad apostada es 2n y si ahora se gana el beneficio total es

2n − (2n − 1) = 1

Un inconveniente, al menos, de esta estrategia, es que para poder seguirla necesitamos un

capital a priori infinito (en realidad no hay tal juego: seguimos hasta ganar). Estudiemos

entonces una alternativa mas realista: ¿cual es el beneficio esperado en rondas de n apuestas

como maximo (es decir, disponemos de un capital maximo 2n − 1) ?

Si la probabilidad de ganar en cada apuesta es p, la probabilidad de perder n consecutivas es

(1− p)n y el beneficio es − (2n − 1). Y la de no perder n apuestas consecutivas (es decir, de

ganar en alguna de las n − 1 anteriores y retirarnos) es 1 − (1− p)n y el beneficio es 1. El

beneficio esperado es

1× [1− (1− p)n]− (2n − 1)× (1− p)n

= 1− 2n (1− p)n

= 0 si p = 1/2

< 0 si p < 1/2

> 0 si p > 1/2

de manera que si p < 1/2 y el capital es finito el beneficio promedio (y el total) de muchas

rondas es negativo.

El lector curioso puede buscar en Internet la paradoja de Parrondo2: existen juegos de es-

peranza negativa (perdedores a la larga) que, sin embargo, jugados alternativamente resultan

en uno de esperanza positiva.

2Profesor de Fısica de la UCM

3.3. Esperanza de una funcion de una variable 73

3.3. Esperanza de una funcion de una variable

Notacion: Desde ahora y hasta el final del Capıtulo usamos en las Proposiciones y Teoremas

la notacion correspondiente al caso continuo; para el discreto se sustituye la integral por una

Sea Y = g (X) una variable aleatoria definida como funcion de otraX. Segun 3.2 su esperanza

se calcula ası

E (Y ) =

∫RyfY (y) dy

Sin embargo no es preciso conocer fY (y) para calcularla. Se prueba que

Teorema 3.1. Si Y = g (X) con densidades fY (y) y fX (x), y existe E (Y ) entonces∫RyfY (y) dy =

∫Rg (x) fX (x) dx

es decir

E (Y ) = E (g (X))

en el sentido de que la esperanza en cada lado de la igualdad se toma segun la ley respectiva.

Naturalmente E (g (X)) es el valor al que convergen, con probabilidad 1, los promedios

experimentales

lımn→∞

n∑i=1

g (xi) = E (g (X))

de los valores de la funcion g (·) en n observaciones independientes (x1, x2, ..., xn, ...) de

una variable X, discreta o continua.

Ejemplo 3.14. Se elige un punto X al azar en una barra de longitud 1 (es decir, con

densidad fX (x) = 1 para x ∈ (0, 1)) y se rompe por dicho punto. Sea Y la longitud del trozo

mas grande. Calculemos E (Y ).

La longitud del trozo mas grande es la variable aleatoria

1−X si 0 < X ≤ 1/2

X si 1/2 < X < 1

y su esperanza se calcula ası:

E(Y ) =

0g(x)fX(x)dx =

∫ 1/2

0(1− x)dx+

1/2xdx =

En el ejemplo 2.38 hallamos que la densidad de Y es fY (y) = 2 para y ∈ (1/2, 1) y entonces

E(Y ) =

1/2yfY (y)dy =

1/22ydy =

Ejemplo 3.15. Sea X uniforme en (a, b), y sea Y = 1/X. Entonces:

E(Y ) =

b− adx =

ln b− ln a

b− a

definido solo si a > 0. De manera que si, por ejemplo, X es uniforme en (0, 1), no existe la

Corolario 3.1. (Linealidad de la esperanza) En particular si Y = a+ bX:

E (a+ bX) =

(a+ bx) f (x) dx = a

∫Rf (x) dx+ b

∫Rxf (x) dx = a+ bE (X) (3.3)

Ejemplo 3.16. Si E (X) = c entonces E (X − c) = 0.

Ejemplo 3.17. (cont. del 3.14) la longitud del trozo mas pequeno es 1−Y ası que su longitud

promedio es 1− E (Y ) = 1/4.

3.4. Esperanza de una funcion de varias variables

La esperanza de la variable aleatoria Z = g (X,Y ) funcion de la (X,Y ) segun (3.2) es

E (Z) =

∫RzfZ (z) dz

Sin embargo no es preciso conocer fZ para calcularla. Se prueba que

Teorema 3.2. Sea Z = g (X,Y ) con densidades fZ (z) y f (x, y). Si E (Z) existe, entonces∫RzfZ (z) dz =

∫ ∫R2

g (x, y) f (x, y) dxdy

es decir

E (Z) = E (g (X,Y ))

en el sentido de que la esperanza de cada termino se toma segun la ley respectiva.

El resultado se generaliza de modo obvio a una funcion Z = g (X1, X2, ..., Xn).

Ejemplo 3.18. En el experimento de elegir un punto al azar en el cırculo x2 + y2 ≤ 1 la

distancia del punto al centro es R =√X2 + Y 2. En el ejemplo 2.16 hallamos que fR (r) = 2r

para r ∈ [0, 1], y en el ejemplo 2.30 hallamos que f (x, y) = 1/π para x2+y2 ≤ 1. La distancia

esperada del punto al centro es

X2 + Y 2)

∫∫x2+y2≤1

√x2 + y2dxdy =

o tambien

E (R) =

02r2dr =

3.4. Esperanza de una funcion de varias variables 75

Nos interesa en particular el caso g (X1, X2, ..., Xn) =∑aiXi.

Proposicion 3.2. (Esperanza de una combinacion lineal)

aiE (Xi)

Demostracion. Basta probarlo para 2 variables:

E (aX + bY ) =

∫ ∫R2

(ax+ by) f (x, y) dxdy

(∫Rf (x, y) dy

)dx+ b

(∫Rf (x, y) dx

∫RxfX (x) dx+ b

∫RyfY (y) dy

= aE (X) + bE (Y ) .

Observar que esto es ası sean las Xi dependientes o independientes.

Ejemplo 3.19. (Esperanza de la binomial) Una Va X binomial de parametros n y p

cuenta el total de exitos en n ensayos independientes, en cada uno de los cuales la proba-

bilidad de exito es p. Si Xi representa el resultado de cada ensayo, con P (Xi = 1) = p y

P (Xi = 0) = 1− p, entonces X =∑n

i=1Xi y

E (X) =n∑i=1

E (Xi) = np

pues (variables de Bernoulli) E (Xi) = p

Ejemplo 3.20. (Coleccion de cromos) Hay N cromos distintos para hacer la coleccion.

Supongamos que cada vez que compramos uno la probabilidad de que sea cualquiera de ellos

es 1/N . ¿Cual es el numero promedio de cromos que hay que comprar para conseguir los N?

Sea Xk (1 ≤ k ≤ N) el numero de cromos que hay que comprar hasta conseguir un k-esimo

distinto. Entonces el numero de cromos que hay que comprar para completar la coleccion es

X1 +X2 + · · ·+XN

Obviamente X1 = 1

Nos faltan N − 1 cada uno de ellos con probabilidad 1/N . Al comprar uno la probabilidad

de que sea distinto del que tenemos es p = (N − 1) /N . La Va X2, numero de cromos que

hay que comprar hasta conseguir uno distinto del que tenemos, es geometrica de parametro

p (ejemplo 3.3) ası que E (X2) = 1/p = N/ (N − 1).

Ahora nos faltan N−2 cada uno de ellos con probabilidad 1/N . Al comprar uno la probabilidad

de que sea distinto de los que tenemos es p = (N − 2) /N . La Va X3 es geometrica de

parametro p ası que E (X3) = 1/p = N/ (N − 2).

Y ası sucesivamente, de manera que

E (X1 +X2 + · · ·+XN ) = E (X1) + E (X2) + · · ·+ E (XN )

= 1 +N

N − 1+

N − 2+ · · ·+ N

N − (N − 2)+

N − (N − 1)

3+ · · ·+ 1

N − 1+

)Por ejemplo si N = 50 resulta aproximadamente el valor 225, si N = 100 el valor 519 y si

N = 1000 el valor 7485

Naturalmente podemos tener suerte y acabar la coleccion enseguida, pero si un numero n muy

grande de personas hace la coleccion, el total de cromos que ha vendido la editorial dividido

por n converge a la esperanza (ası que si N = 100 y n = 1000 la editorial habra vendido

aproximadamente 519000 cromos).

3.5. Varianza de una variable aleatoria

Definicion 3.2. Se llama la varianza de X y se denota V ar (X) a la esperanza de (X − E (X))2:

V ar (X) = E(

(X − E (X))2)

(x− E (X))2 f (x) dx (3.4)

La raiz cuadrada positiva de la varianza√V ar (X) se llama la desviacion tıpica de X.

√V ar (X) tiene, en cualquier caso, las mismas unidades que la magnitud X.

Segun la definicion 3.2 la varianza es tanto mas pequena cuanto mas se concentre f (x)

alrededor de E (X) (en cuyo caso los valores grandes de (x− E (X))2 del integrando, corres-

pondientes a valores de x distantes de E (X), tendran un peso f (x) despreciable. Experi-

mentalmente ello se reflejara en una mayor homogeneidad (menor dispersion) de los valores

experimentales (x1, x2, ..., xn, ...) (ver Seccion 3.6).

Observese que V ar (X) ≥ 0 y que V ar (X) = 0 si y solo si X es una constante, es decir

P (X = a) = 1.

Proposicion 3.3. Una expresion alternativa es

V ar (X) = E(X2)− (E (X))2 (3.5)

3.5. Varianza de una variable aleatoria 77

Demostracion. Desarrollando el cuadrado y teniendo en cuenta la Proposicion 3.2:

(X − E (X))2)

= E(X2 + (E (X))2 − 2E (X)X

+ (E (X))2 − 2 (E (X))2

= E(X2)− (E (X))2

Corolario 3.2. Como V ar (X) ≥ 0 siempre es

E(X2)≥ (E (X))2

Proposicion 3.4. Si a y b son constantes

V ar (aX + b) = a2V ar (X)

Demostracion. como

(E (aX + b))2 = (aE (X) + b)2

= a2 (E (X))2 + b2 + 2abE (X)

(aX + b)2)

= E(a2X2 + b2 + 2abX

)= a2E

+ b2 + 2abE (X)

restando miembro a miembro y teniendo en cuenta (3.5)

V ar (aX + b) = a2V ar (X)

Ejemplo 3.21. (cont. del ejemplo 1) la varianza de una variable aleatoria X de Bernoulli,

con funcion de masa f (x) = px (1− p)1−x si x ∈ 0, 1 es:

V ar (X) = E(

(X − p)2)

(x− p)2 f (x) = (0− p)2 × (1− p) + (1− p)2 × p

= p (1− p)

o tambien, como E (X) = p y

x2f (x) = 02 × (1− p) + 12 × p = p

resulta de (3.5)

V ar (X) = E(X2)− (E (X))2 = p (1− p)

Ejemplo 3.22. para hallar la varianza de una variable aleatoria X con funcion de densidad

exponencial

f (x) = λe−λx x > 0

y cero en otro caso, calculamos primero

∫ ∞0

x2λe−λxdx

por partes, con

u = x2 → du = 2xdx

dv = λe−λxdx→ v = −e−λx

y queda

=[−x2e−λx

∫ ∞0

xe−λxdx =2

pues limt→∞t2e−λt = 0 y (ejemplo 5)∫ ∞

0λxe−λxdx =

La varianza resulta

V ar (X) = E(X2)− (E (X))2 =

λ2 −1

3.6. Interpretacion experimental

Sean (x1, x2, ..., xn, ...) son observaciones experimentales de una variable X, discreta o con-

tinua, con esperanza E (X) y varianza V ar (X). Denotemos

n∑i=1

La variabilidad, o dispersion, de la muestra se puede medir por el promedio experimental

(xi − x)2

y en la medida en que los valores individuales xi sean similares (y por lo tanto poco distintos

3.7. Acotacion de Tchebychev 79

de su promedio x) la medida de variabilidad anterior sera pequena. Pero

n∑i=1

(xi − x)2 =1

n∑i=1

(x2i + (x)2 − 2xxi

n∑i=1

x2i + (x)2 − 2 (x)2

n∑i=1

x2i −

n∑i=1

y como empıricamente

lımn→∞

n∑i=1

xi = E (X)

lımn→∞

n∑i=1

x2i = E

resulta

lımn→∞

n∑i=1

(xi − x)2 = E(X2)− (E (X))2 = V ar (X)

Ası que cuanto menor sea la varianza V ar (X) menor es la dispersion de la muestra.

Ejemplo 3.23. (cont. del 3.21) V ar (X) = p (1− p) es maxima si p = 1/2, y tiende a

cero si p → 0 o p → 1. La homogeneidad de la sucesion de ceros y unos (x1, x2, ..., xn)

correspondiente a los lanzamientos de una moneda es maxima si p → 0 o p → 1 y mınima

si p = 1/2.

3.7. Acotacion de Tchebychev

Proposicion 3.5 (Acotacion de Markov). Sea X una variable aleatoria no negativa, es decir

tal que P (X ≥ 0) = 1, y esperanza E (X). Entonces ∀ε > 0:

P (X ≥ ε) ≤ E(X)

Demostracion.

E(X) =

∫ +∞

0xf(x)dx ≥

∫ ∞ε

xf(x)dx

≥ ε

∫ ∞ε

f(x)dx = εP (X ≥ ε)

Corolario 3.3 (Acotacion de Tchebychev). Ahora si X es arbitraria, (X − E(X))2 es no

negativa y E(

(X − E(X))2)

= V ar (X). Entonces ∀ε > 0:

P (|X − E (X)| ≥ ε) = P(

(X − E(X))2 ≥ ε2)≤ V ar(X)

o tambien

P (|X − E (X)| < ε) ≥ 1− V ar(X)

Este resultado aclara el analisis hecho despues de la Definicion 3.2 a proposito de la varianza.

La probabilidad del suceso |X − E (X)| < ε, es decir, de que los valores de X se hallen en

un entorno ε de su esperanza E (X), es tanto mayor cuanto menor es V ar (X).

3.8. Varianza de una combinacion lineal de Vas independien-

Proposicion 3.6. Si (X1, X2, ..., Xn) son independientes entonces

E (Xi)

Demostracion. Basta probarlo para 2 variables X e Y . Por ser independientes es f (x, y) =

fX (x) fY (y) y entonces

E (XY ) =

∫ ∫R2

xyf (x, y) dxdy =

∫RxfX (x) dx

∫RyfY (y) dy

= E (X)E (Y )

Tengase en cuenta que para variables X e Y no independientes puede ser

E (XY ) = E (X)E (Y ) .

En general dos variables aleatorias X e Y que verifican la igualdad anterior se llaman inco-

rreladas(ver 3.9). Por lo tanto el conjunto de las variables aleatorias independientes es un

subconjunto del conjunto de las variables aleatorias incorreladas.

Proposicion 3.7. (Combiacion lineal de Vas independientes) Si las n variables

(X1, X2, ..., Xn) son independientes (o al menos incorreladas)

V ar(∑

a2iV ar (Xi)

3.9. La covarianza 81

Demostracion. Basta probarlo para dos variables X e Y :

V ar (aX + bY ) = E(

(aX + bY )2)− (E (aX + bY ))2

y como

(aX + bY )2)

= E(a2X2 + b2Y 2 + 2abXY

)= a2E

+ b2E(Y 2)

+ 2abE (XY )

(E (aX + bY ))2 = (aE (X) + bE (Y ))2

= a2 (E (X))2 + b2 (E (Y ))2 + 2abE (X)E (Y )

resulta

V ar (aX + bY ) = a2V ar (X) + b2V ar (Y ) + 2ab (E (XY )− E (X)E (Y )) (3.6)

y como E (XY ) = E (X)E (Y ) resulta

V ar (aX + bY ) = a2V ar (X) + b2V ar (Y )

Ejemplo 3.24. (cont. del 3.19) (Varianza de la binomial) como X =∑n

i=1Xi y las Xi

son independientes

V ar (X) =n∑i=1

V ar (Xi) = np (1− p)

pues (variables de Bernoulli) V ar (Xi) = p (1− p)

3.9. La covarianza

Definicion 3.3. (La covarianza) La esperanza de la funcion (X − E (X)) (Y − E (Y )) se

llama la covarianza entre X e Y y se denota Cov (X,Y ):

Cov (X,Y ) = E ((X − E (X)) (Y − E (Y )))

Proposicion 3.8. una expresion alternativa es (desarrollando el corchete y tomando la

esperanza de cada termino):

Cov (X,Y ) = E (XY )− E (X)E (Y )

Corolario 3.4. Si X e Y son independientes o incorreladas

Cov (X,Y ) = 0

Proposicion 3.9. Las siguientes propiedades son de comprobacion inmediata

Cov (aX, bY ) = abCov (Y,X)

Cov (X,Y ) = Cov (Y,X)

Cov (X,X) = V ar (X)

Cov (a,X) = 0

Cov (a, b) = 0

Ahora la formula (3.6) se puede escribir

V ar (aX + bY ) = a2V ar (X) + b2V ar (Y ) + 2abCov (X,Y )

y se generaliza facilmente a (teniendo en cuenta las propiedades anteriores y la proposicion

Proposicion 3.10. (Varianza de una combinacion lineal de Vas)

V ar(∑

∑∑aiajCov (Xi, Xj)

a2iV ar (Xi) + 2

∑∑aiaj

Cov (Xi, Xj)

En particular, si la variables son independientes o incorreladas la expresion de la varianza es

la Proposicion 3.7.

Proposicion 3.11. (Desigualdad de Cauchy-Schwarz)

(E (XY ))2 ≤ E(X2)E(Y 2)

Demostracion. De

(aX + Y )2)

= E(aX2 + 2aXY + Y 2

)= a2E

+ 2aE (XY ) + E(Y 2)≥ 0 ∀a ∈ R

resulta que la ecuacion cuadratica en a tiene una solucion real (si = 0) o ninguna (si > 0) y

por ello su discriminante ha de ser

(E (XY ))2 − E(X2)E(Y 2)≤ 0

resultando lo propuesto.

En calidad de variables X e Y usemos en particular las (X − E (X)) e (Y − E (Y )) la

desigualdad queda en la forma

(Cov (X,Y ))2 ≤ V ar (X)V ar (Y )

o tambien

|Cov (X,Y )| ≤√V ar (X)

√V ar (Y ) (3.7)

3.10. Esperanza condicional 83

Proposicion 3.12. Si Y = aX + b entonces

(Cov (X,Y ))2 = V ar (X)V ar (Y )

Demostracion. Resulta inmediatamente de la Proposicion 3.9

Cov (X,Y ) = Cov (X, aX + b) = aCov (X,X) = aV ar (X)

V ar (Y ) = V ar (aX + b) = a2V ar (X)

Definicion 3.4. Se llama el coeficiente de correlacion, denotado Corr (X,Y ), de las Vas X

Corr (X,Y ) =Cov (X,Y )√

V ar (X)V ar (Y )

Se sigue de (3.7) que

|Corr (X,Y )| ≤ 1

Ademas Corr (X,Y ) = ±1 si Y = aX + b (el signo es el de a) y Corr (X,Y ) = 0 si son

independientes (o incorreladas).

3.10. Esperanza condicional

Sea la Va condicional (Y | X = x) con densidad o masa f (y | x) (secciones 2.7.1 y 2.8.1).

Entonces (Definicion 3.1)

E (Y | x) =

∫Ryf (y | x) dy

Esta formula puede verse tambien como una funcion de X, es decir, como una Va.

Definicion 3.5. Se llama esperanza condicional a la Va E (Y | X) : Ω→ R tal que

ω 7−→ E (Y | X (ω)) =

∫Ryf (y | X (ω)) dy

Proposicion 3.13.

E (E (Y | X)) = E (Y )

Demostracion. Usando el teorema 3.1

E (E (Y | X)) =

∫RE (Y | x) fX (x) dx

∫Ryf (y | x) fX (x) dxdy

(∫Rf (x, y) dx

)dy∫

RyfY (y) dy

Ejemplo 3.25. (Problema del ladron de Bagdad) Un ladron esta encerrado en un

calabozo con 3 puertas. Una de las puertas lo devuelve al calabozo despues de un dıa de

viaje. Otra lo devuelve despues de tres dıas de viaje. La ultima lo lleva a la libertad. Calcular

el numero esperado de dıas de encierro si cada vez elige una puerta de las tres con igual

probabilidad.

Sea N el numero de intentos hasta salir (1, 2, ...) y Ti la duracion de cada intento

(0, 1 o 3 dıas). El total de dıas preso es

X =N∑i=1

Observar que esta es una suma de un numero aleatorio de sumandos. Para calcular su

esperanza hacemos

E (X | N = n) = E

(n∑i=1

n∑i=1

E (Ti) =4n

pues la duracion esperada de cada intento es

E (Ti) = 0× 1

3+ (3 + 1)× 1

Aplicando ahora el teorema anterior

E (X) = E (E (X | N)) =4

3E (N) = 4

pues el numero de intentos N es una Va geometrica de parametro p = 1/3 y E (N) = 1/p = 3.

Seccion 3.1:

1. Sea un experimento cualquiera (Ω,F , P ), un suceso A ∈ F de probabilidad P (A) y la

Va IA : Ω → R tal que IA (ω) = 1 si ω ∈ A y IA (ω) = 0 si ω /∈ A (llamada funcion

indicatriz del conjunto A). Calcule E (IA).

2. (cont.) suponga que P (A) = 0.1 Si hacemos el experimento 100 veces independiente-

mente ¿Cual es el numero esperado de ellas que sucedera A?

3. (cont.) ¿Cual es el numero esperado de veces que hay que hacer el experimento para

que suceda A? (el periodo de retorno de A).

4. Si los caudales maximos anuales de un rio en anos sucesivos son independientes y si la

probabilidad de que el caudal maximo exceda el valor x en un ano cualquiera es 0.01

¿cual es el perido de retorno del caudal x? (de otra manera: ¿cada cuantos anos, en

promedio, se excede x?)

5. (cont.) Supongamos que para cierto rio su caudal maximo anual es una VA X (en

m3 s−1) con funcion de distribucion

F (x) = 1− e−0.01x x > 0

Hallar el valor de caudal maximo x con periodo de retorno de 100 anos

Seccion 3.2:

6. Jugamos a la ruleta (ejemplo 3.12) apostando a par 1 euro de entrada y doblando la

apuesta cada vez en rondas de 10 como maximo (ejemplo 3.13). A la larga, de cada mil

rondas que juguemos ¿cuantas ganamos y que cantidad en total? ¿cuantas perdemos y

que cantidad en total?

7. En un examen tipo test se dan m respuestas posibles por cada pregunta. Si se valora

con un punto cada respuesta correcta, ¿que puntuacion habra que dar a las respues-

tas incorrectas para que, en promedio, las personas que resuelvan el examen al azar

obtengan un cero?

Seccion 3.3:

8. Demostrar que E(

(X − c)2)

es mınimo si c = E (X)

Secciones 3.3 y 3.5:

9. Sea X una Va cualquiera con esperanza E (X) = µ y desviacion tıpica√V ar(X) = σ.

Calcule la esperanza y la varianza de la variable

U =X − µσ

10. Calcular la esperanza y la varianza de una variable aleatoria X con funcion de masa

f(x) = 1/n si x ∈ 1, 2, ..., n y cero en otro caso (discreta uniforme, o equiprobable).

(sugerencia:∑n

x=1 x = n(n+ 1)/2 y∑n

x=1 x2 =

(2n3 + 3n2 + n

11. Calcule la esperanza y la varianza de una Va geometrica de parametro p usando

∞∑x=1

x (1− p)x−1 p = −p ddp

( ∞∑x=1

(1− p)x)

12. Calcule la esperanza de una Va de Poisson de parametro λ derivando respecto a λ en

ambos miembros de∞∑x=0

x!= eλ.

Calcule tambien la varianza.

13. Calcule la esperanza y la varianza de una variable aleatoria X con funcion de densidad

f(x) = 1/(b−a) para x ∈ (a, b) y cero en otro caso (continua uniforme, o equiprobable).

14. Calcule la esperanza de una Va normal de parametros µ y σ derivando respecto de µ

∫Re−

(x− µ)2

2σ2 dx = 1

15. Calcule la varianza de una Va normal de parametros µ y σ derivando respecto de σ en

1√2π

∫Re−

(x− µ)2

2σ2 dx = σ

Seccion 3.8:

16. (Ley del decaimiento) Si inicialmente hay N (0) atomos radiactivos, y si para cada

uno de ellos la probabilidad de decaer en el intervalo (0, t] es F (t) = 1 − exp (−λt)independientemente unos de otros, halle la esperanza del numero N (t) de atomos que

sobreviven al tiempo t (vea el ejercicio 9 del capıtulo 2).

17. Se desea financiar una campana de n sondeos. El resultado de cada sondeo es una

Va Xi con P (Xi = 1) = p (exito) y P (Xi = 0) = 1 − p (fracaso). El numero total

de sondeos con exito es X =∑Xi. Se supone que los resultados de los sondeos son

independientes a) encontrar la esperanza y la varianza del numero de sondeos con

exito. b) si la campana tiene un coste fijo c0, cada perforacion con exito cuesta 2c y

cada una fallida c, encontrar la esperanza y la varianza del coste total de la campana.

18. Se lanzan 36 dados equiprobables. Calcule el valor esperado y la varianza de la suma

S de los puntos obtenidos. (sugerencia: ejercicio 10 de este capıtulo).

19. (cont.) La Va S es discreta con valores posibles 36, 37, ..., 216. El calculo exacto de

una probabilidad como

P (|S − 126| < 30) = P (96 < S < 156)

exige conocer la funcion de masa, que no es difıcil pero si penoso. Acote la probabilidad

anterior mediante la acotacion de Tchebychev.

20. Segun la teorıa cinetica de Maxwell y Boltzman las componentes (Vx, Vy, Vz) de la ve-

locidad de las moleculas de un gas ideal en equilibrio son Vas independientes con den-

sidad normal de parametros E (Vx) = E (Vy) = E (Vz) = µ y V ar (Vx) = V ar (Vy) =

V ar (Vz) = kT/m, donde k es la constante de Boltzman, T la temperatura y m la masa

de una molecula

a) Como las moleculas no tienen una direccion preferente de movimiento ¿cual debe

ser el valor de µ y cuales sus unidades en el S.I.?

b) Tomando el valor k = 1.38 × 10−23 J K−1 y el valor 0.028 kg mol−1 para la masa

molecular del nitrogeno ¿cuanto vale la desviacion tıpica, con sus unidades, para el

nitrogeno a T = 300 K?

c) Calcule la energıa cinetica esperada de una molecula de un gas ideal a temperatura

21. Varillas cilındricas de acero tienen una longitud X con E (X) = 10 cm y V ar (X) =

0.0052 cm2, y una seccion de area A con E (A) = 1 cm2 y V ar (A) = 0.012 cm4. Ademas

X y A son independientes. Hallar la esperanza y desviacion tıpica del volumen V = XA

de una varilla.

22. (cont.) El peso de cada varilla es Z = 8V g. Calcular la esperanza y la desviacion tıpica

del peso de un lote de 100 varillas.

23. Esperanza del mınimo Se eligen n puntos Xi al azar en (0, 1) y se define Y =“abscisa

del mas cercano al origen”. Calcular E (Y ) (ver ejercicio propuesto 17 del capıtulo 2).

24. Esperanza del mınimo Se eligen 3 puntos al azar en el cırculo x2 +y2 ≤ 1 y se define

Y =“distancia del mas proximo al origen”. Calcular E (Y ) (vea el anterior y tenga en

cuenta ejemplo 2.34).

25. Esperanza del maximo Se eligen n puntosXi al azar en (0, 1) y se define Y =“abscisa

del mas lejano al origen”. Calcular E (Y ) (ver ejercicio propuesto 18 del capıtulo 2).

Capıtulo 4

Modelos principales

4.1. Variable aleatoria normal

La funcion

f(x) =1

2πexp

(x− µσ

)2]−∞ < x < +∞

es la densidad llamada normal o de Gauss de parametros −∞ < µ < +∞ y σ > 0. (Se

prueba que su integral vale 1 en el Apendice B.1).

La funcion es simetrica alrededor de µ, es decir f(µ−x) = f(µ+x). Tiene un unico maximo en

µ, de valor f(µ) = 1/(σ√

que aumenta cuando σ disminuye. Y decrece asintoticamente

hacia el valor 0 para x→ ±∞, tanto mas rapidamente cuanto menor sea σ. La probabilidad

se concentra entonces alrededor de µ cuando σ disminuye.

Su esperanza y varianza son E(X) = µ y V ar(X) = σ2 (Capıtulo 3: ejemplo 3.6 y ejercicios

14 y 15).

Una variable aleatoria X con esta densidad se indica1 X ∼ N(µ, σ).

Proposicion 4.1. Si X ∼ N(µ, σ) entonces U = a+ bX ∼ N(a+ bµ, |b|σ)

Demostracion. la densidad de U = a+ bX es (ejemplo 2.39) :

fU (u) =1

(u− ab

|b|σ√

2πexp

( u−ab − µσ

|b|σ√

2πexp

(u− (a+ bµ)

−∞ < u < +∞

1Y tambien X ∼ N(µ, σ2).

90 Capıtulo 4. Modelos principales

es decir, a+ bX ∼ N(a+ bµ, |b|σ).

Corolario 4.1. En particular la densidad de U = (X − µ) /σ es N (0, 1).

Proposicion 4.2. (reproductividad) Si Xi ∼ N (µi, σi) e independientes entonces X =∑ni=1 αiXi ∼ N

(∑αiµi,

√∑α2iσ

Demostracion. (ver Apendice B.1.2)

σ = 0.5

σ = 1

σ = 2

Figura 4.1: Densidades normales con igual µ y distintas σ.

4.2. Calculo de probabilidades

Si X ∼ N(µ, σ) para calcular la probabilidad2:

P (X < b) =

−∞

2πexp

(x− µσ

hay que usar aproximaciones numericas, pues el integrando carece de primitiva simple (que

permitirıa usar la regla de Barrow).

Pero si X ∼ N (µ, σ) entonces (corolario 4.1)

2Recordar que para una variable continua la probabilidad en cada intervalo vale lo mismo se incluyan o

no los puntos extremos.

4.2. Calculo de probabilidades 91

U =X − µσ

es N (0, 1). Y como los sucesos X < b y X−µσ < b−µ

σ son equivalentes (la realizacion de uno

equivale a la del otro)3

P (X < b) = P

(X − µσ

<b− µσ

b− µσ

)y se concluye que para aproximar las probabilidades de una X ∼ N (µ, σ) basta aproximar

las de una U ∼ N (0, 1).

Suele denotarse P (U < u) = Φ (u). Con ello

P (a < X < b) = Φ

(b− µσ

)− Φ

(a− µσ

)En la tabla C.1 se dan los valores de

Φ(u) =

−∞

1√2π

para u ∈ (0.00, 3.4) y los demas se deducen de la simetrıa de la densidad normal:

Φ(−u) = 1− Φ(u)⇐⇒ P (U < −u) = P (U > u)

Ejemplo 4.1. sea X ∼ N(1000, 50). Para calcular la P (900 < X < 1050):

P (900 < X < 1050) = P

(900− 1000

50< U <

1050− 1000

)= Φ (1)− Φ (−2)

= 0.8413− (1− 0.9772) = 0.8185

Ejemplo 4.2. (cont.) encontremos el numero x tal que P (|X − 1000| < x) = 0.9

P (|X − 1000| < x) = P (−x < X − 1000 < x) = P(− x

50< U <

)− Φ

(− x

)= 0.9

)−[1− Φ

)]= 2Φ

)− 1 = 0.9

resulta que Φ(x50

)= 0.95 y con ayuda de la tabla C.1 se halla que Φ (1.64) = 0.94950 (valor

mas proximo) ası que x = 50× 1.64 = 82.

Observese que, para cada numero real k > 0, P (|X − µ| < kσ) = Φ(k)− Φ(−k), de manera

que, para cualquier Va normal, la probabilidad en el intervalo (µ − kσ, µ + kσ) es la

misma; en particular, los valores correspondientes a k = 1, 2, 3 y 4, son respectivamente

0.6827, 0.9545, 0.9973 y 0.9999

3El suceso X < b representa todos los numeros x tales que x < b, y si x < b entonces x−µσ

< b−µσ

recıprocamente.

µ−σ µ µ+σµ−2σ µ µ+2σµ−3σ µ µ+3σ

68.27%

95.45%

99.73%

Figura 4.2: Probabilidad para distintos intervalos (µ− kσ, µ+ kσ).

4.3. Teorema Central del Lımite

La distribucion de probabilidades de una suma de variables aleatorias∑n

i=1Xi depende en

general de cual sea la de las Xi. Sin embargo el siguiente teorema afirma que, en condiciones

muy generales y si n es suficientemente grande, la distribucion se puede aproximar con una

normal.

Teorema 4.1. (Teorema Central del Lımite) Sean Xi independientes y con la misma

distribucion (discretas o continuas); en particular E(Xi) = µ y V ar(Xi) = σ2. Sea Sn =∑ni=1Xi. con esperanza nµ y varianza nσ2. Entonces

lımn→∞

(Sn − nµσ√n≤ u

)= Φ(u) ∀u ∈ R

En la practica: si n es suficientemente grande pueden aproximarse las probabilidades relati-

vas a la variable aleatoria Sn como si fuese una normal de esperanza nµ y de varianza

nσ2, pues:

P (Sn ≤ x) = P

(Sn − nµσ√n≤ x− nµ

σ√n

)≈ Φ

(x− nµσ√n

)(4.1)

Lo anterior se dice ası: Sn es asintoticamente N (nµ, σ√n).

Si Sn es discreta y toma valores en el conjunto de los numeros enteros, la aproximacion

4.3. Teorema Central del Lımite 93

mejora notablemente usando la llamada correccion de continuidad

P (Sn ≤ x) ≈ Φ

(x+ 0.5− nµ

σ√n

)(4.2)

En el siguiente apartado se mostrara, en un caso particular, la mejora conseguida al introducir

la correccion de continuidad.

El Teorema justifica tambien el hecho de que las variables normales resulten ser el modelo

adecuado para las magnitudes cuyos valores son el resultado de la suma de un numero muy

grande de factores aleatorios independientes, cada uno de los cuales ejerce una pequena

contribucion al valor final. Como en los dos ejemplos que siguen.

Ejemplo 4.3. Observando una gota de agua al microscopio el botanico Robert Brown des-

cubrio en 1827 el movimiento caotico de pequenas partıculas suspendidas (como granos de

polen, motas de polvo; diametro del orden de 0.5 × 10−6 m). Einstein postulo en 1905 que

ello era debido a los impactos (del orden de 1020 s−1) de las moleculas de agua (diametro

del orden de 0.3 × 10−9 m), y que fijada la posicion de la partıcula en cualquier instante,

las componentes X(t), Y (t) y Z(t) del vector posicion transcurrido un tiempo t, pueden

modelizarse como variables aleatorias normales, fısicamente independientes, y parametros:

E(X(t)) = E(Y (t)) = E(Z(t)) = 0

V ar(X(t)) = V ar(Y (t)) = V ar(Z(t)) =

3NAπηr

donde R es la constante universal de los gases, NA el numero de Avogadro, T la temperatura,

η la viscosidad y r el radio de la partıcula. La esperanza cero refleja la isotropıa del sistema:

no hay una direccion preferente de impactos. La varianza refleja la incertidumbre sobre la

posicion de la partıcula respecto a su posicion inicial: creciente con el tiempo t debido a los

impactos, y con la temperatura T (la energıa de las moleculas que impactan).

Como las esperanzas son cero resulta

E(X2 (t)

(Y 2 (t)

(Z2 (t)

3NAπηr

Ası que, fijado el tiempo t y conocidos los valores de η, T , r y R, se puede aproximar

estadısticamente el desplazamiento cuadratico esperado por un promedio experimental de n

desplazamientos observados (distancias entre las posiciones inicial y final); por ejemplo segun

el eje x

E(X2 (t)

)≈ 1

n∑i=1

x2i (t)

y de aquı se obtiene una aproximacion experimental del valor de NA, hazana por la que

Perrin recibio en 1926 el premio Nobel de Fısica.

Ejemplo 4.4. Sea µ el valor de cierta constante que se trata de medir. No es posible predecir

el valor de cada medida individual, pues se ve afectada por gran numero de perturbaciones

inevitables cuyo resultado neto es un error de medida aleatorio. El modelo que describe la

situacion es:

Y = µ+ U

donde Y es la variable aleatoria “valor medido” y U la variable aleatoria “error de medida”.

Ademas la densidad de probabilidad de U , en virtud del Teorema Central del Lımite, es

normal, con E(U) = 0 (si el aparato esta bien calibrado: las medidas son exactas, no hay

error sistematico) y V ar(U) = σ2 (mayor precision del aparato cuanto menor sea). En

consecuencia la densidad de probabilidad de Y es tambien normal, con E(Y ) = µ y V ar(Y ) =

4.4. Variable aleatoria binomial

La funcion de distribucion binomial es (ejemplos 2.13, 3.19 y 3.24):

P (X ≤ k) =

x=k∑x=0

)px(1− p)n−x (4.3)

Hay una dificultad practica4 para calcularla para valores grandes de n. Sin embargo la

aproximacion de la anterior probabilidad mediante la funcion de distribucion normal, basada

en el Teorema Central del Lımite, es sencilla.

Segun el modelo basico una Va X binomial de parametros n y p, representa el numero de

exitos en n ensayos independientes con probabilidad p de exito en cada uno. Pero X tambien

se puede representar ası:

n∑i=1

donde cada una de las n variables aleatorias independientes Xi representa el resultado del

correspondiente ensayo, con

P (Xi = 1) = p

P (Xi = 0) = 1− p

y como

E(Xi) = p

V ar(Xi) = p(1− p)4El calculo con precision arbitraria se realiza por medio de la funcion euleriana beta.

4.4. Variable aleatoria binomial 95

entonces (Proposiciones 3.2 y 3.7)

E(X) =

n∑i=1

E (Xi) = np

V ar(X) =

n∑i=1

V ar (Xi) = np(1− p)

Ahora, si n es suficientemente grande se aplica a (4.3) la aproximacion (4.2), es decir, se

pueden aproximar las probabilidades relativas a X como si fuese una N(np,√np(1− p)):

P (X ≤ k) =x=k∑x=0

)px(1− p)n−x ≈ Φ

(k + 0.5− np√np(1− p)

0 2 4 6 8 100

p = 0.2, n=10

0 10 20 30 40 500

p = 0.2, n=50

Figura 4.3: Funciones de masa binomiales y su aproximacion por funciones de densidad

normales N(np,√np(1− p)).

En la practica suele aceptarse que la aproximacion es suficiente en cuanto mınnp, n(1−p) >10, de modo que el caso mas favorable se tiene cuanto mas proximo sea p a 1/2 (con p = 1/2

se prueba que el maximo error que se comete es menor que 1/√n).

En la figura 4.4 se muestra la aproximacion de una funcion de distribucion binomial, Fn,

de parametros p = 0.5 y n = 20 por una funcion de distribucion normal, F , de media

µ = np = 10 y varianza σ = np(1 − p) = 5 (teorema central del lımite). En la parte de la

derecha se representa una ampliacion en el entorno de x = 9. En esta ampliacion se observa

que F (9.5) (correccion de continuidad) esta mucho mas proximo a Fn(9) que F (9).

0 5 10 15 200

6 8 9 10 12

Fn(9) ≈ F(9.5)

Figura 4.4: Correccion de continuidad.

Ejemplo 4.5. se lanza una moneda equilibrada 900 veces. ¿que probabilidad hay de obtener

mas de 495 caras? La VA X, numero de caras, es B(900, 1/2), con E(X) = 450 y V ar(X) =

P (X > 495) = 1− P (X ≤ 495) = 1−k=495∑k=0

≈ 1− Φ

(495 + 0.5− 450√

495+0.5−450√225

= 3.0333 y en la tabla C.1 se lee Φ (3.03) = 0.99878 ası que P (X > 495) ≈1− 0.99878 = 0.00122

4.5. Variable aleatoria de Poisson

La funcion de masa de Poisson es (ejemplo 2.15)

f(x) = e−λλx

x!x = 0, 1, 2, ...

Su esperanza y varianza son (Capıtulo 3, ejercicio 12) E (X) = λ y V ar (X) = λ.

Proposicion 4.3. (reproductividad) Si Xi son Poisson de parametros λi e independientes,

entonces∑Xi es Poisson

∑λi.

4.5. Variable aleatoria de Poisson 97

Demostracion. Basta probarlo para dos, sean X e Y de parametros λ y µ

P (X + Y = z) =z∑j=0

P (X = z − j, Y = j) =z∑j=0

P (X = z − j)P (Y = j)

z∑j=0

e−λλz−j

(z − j)!e−µ

j!=e−(λ+µ)

z∑j=0

)λz−jµj

= e−(λ+µ) (λ+ µ)z

Proposicion 4.4. (Convergencia de la Binomial) Si X es Binomial (n, p) entonces

)px(1− p)n−x = e−λ

para n→∞, p→ 0 y np = λ.

Demostracion. Efectivamente (si n→∞ y p = λ/n)

lımn→∞

)px(1− p)n−x = lım

n→∞

n(n− 1) · · · [n− (x− 1)]

)x(1− λ

)n−x=

x!lımn→∞

n(n− 1) · · · [n− (x− 1)]

(1− λ

)n−x=

x!e−λ

lımn→∞

n(n− 1) · · · [n− (x− 1)]

lımn→∞

(1− λ

)n= e−λ

lımn→∞

(1− λ

)−x= 1

La validez empırica del modelo de Poisson en el numero de accidentes de tal o cual clase

se justifica en esta convergencia (ley de los sucesos raros): el tamano n de la poblacion

susceptible de accidente es muy grande y la probabilidad p de accidente muy pequena.

Esta convergencia tiene gran interes teorico, como veremos en la siguiente seccion, y tam-

bien ocasionalmente practico: se acepta una aproximacion suficiente de la funcion de masa

binomial por la de Poisson si (p < 0.1 , n > 50 , np < 10).

Ejemplo 4.6. Supongase que en una poblacion numerosa el tanto por uno de individuos que

poseen cierta propiedad es de p = 0.01 . Calculemos la probabilidad de que en una muestra

al azar de 200 individuos, al menos 4 posean la propiedad.

Si suponemos que cada una de las 200 extracciones sucesivas no cambian apreciablemente la

proporcion en la poblacion (o sea, que si es N el tamano de la poblacion, Np n), entonces

la VA X, numero de individuos en la muestra que poseen la propiedad, es B(200, 0.01) y:

P (X ≥ 4) = 1− P (X ≤ 3) = 1−3∑

)(0.01)x(0.99)200−x

≈ 1−3∑

e−2 2x

x!= 1− 0.85712 = 0.14288

(Con 4 cifras exactas la binomial da el valor 0.1420).

4.6. Procesos de Poisson

Considere sucesos que se producen en instantes de tiempo tales como las llegadas de los

clientes a un servidor, de partıculas a un detector, de accidentes, terremotos, averıas ...

Podemos estudiarlos mediante una funcion de conteo N (t) ≡ N(0, t] definida para t > 0

y cuyo valor es el numero de sucesos que se han producido en el intervalo (0, t]. El tiempo

0 significa el elegido para comenzar las observaciones. Para cada tiempo t tenemos una Va

discreta N (t) cuyos valores posibles son 0, 1, 2, ... La familia de Vas N (t) , t > 0 es un

proceso aleatorio.

Procesos semejantes pueden estudiarse en el plano, o el espacio, y la funcion de conteo es

ahora N (v) cuyo valor es el numero de sucesos (puntos) que se han producido en el conjunto

Cuando somos nosotros los que realizamos un mismo ensayo n veces, nos interesamos en el

numero de ellas en que ha ocurrido cierto suceso. Sin embargo, ahora el suceso de interes

ocurre independientemente de cualquier ensayo deliberado, en instantes de tiempo o puntos

del espacio. Construiremos un modelo para esta nueva clase de situaciones como un lımite

de la primera mas sencilla, imaginando cierta disponibilidad infinita de ensayos.

Sea V un conjunto acotado (de la recta, del plano,...) de medida (longitud, superficie,...)

med(V ), en el cual se situaran al azar (con densidad uniforme) n puntos. Cada uno de ellos

tiene la misma probabilidad med(v)med(V ) de caer dentro de un subconjunto fijado v ⊂ V . Por lo

tanto, el numero de puntos, de entre los n, que se incluiran en v es una Va N (v) binomial

de parametros n y p = med(v)med(V ) .

Ahora, si n → ∞ y med(V ) → ∞ de manera que λ = nmed(V ) (el numero de puntos por

unidad de medida o densidad espacial de puntos) permanezca constante, la distribucion de

4.6. Procesos de Poisson 99

la Va N (v) converge a la de Poisson de parametro λmed(v), con:

P (N (v) = x) = e−λmed(v) (λmed(v))x

x!x = 0, 1, 2, ..

y es la misma para todos los subconjuntos de la misma medida med(v), cualquiera que sea

su forma y posicion dentro de V .

Ademas, se prueba que para cualquier eleccion de k ≥ 2 subconjuntos no solapados, las k

VAs N (vi) son independientes (intuitivamente: si de un total de n puntos se sabe que ni

estan en vi, las oportunidades para vj , no solapado, son n−ni, ası que las variables N (vi) y

N (vj) son dependientes. Pero ello deja de ser ası si n ni : hay practicamente las mismas

oportunidades para vj antes de fijar los ni en vi que despues).

Basandonos en la construccion precedente hacemos la siguiente

Definicion 4.1. Un proceso aleatorio de puntos N (t) en R es de Poisson de intensidad λ

(numero promedio teorico de puntos por unidad de medida) sı:

1) N (0) = 0 (los sucesos se comienzan a contar a partir del tiempo 0).

2) en cualquier intervalo (a, b] el numero de puntos N(a, b] = N (b) − N (a) es una Va de

Poisson de parametro λ (b− a) (homogeneidad).

3) los numeros de puntos en intervalos no solapados son Vas independientes.

De este simple par de axiomas se concluye una estructura muy rica.

Proposicion 4.5. Si N(a, b] = 1 la posicion del punto en el intervalo es al azar. Esto es,

∀(a1, b1] ⊆ (a, b]

P (N(a1, b1] = 1 | N(a, b] = 1) =b1 − a1

b− a

Demostracion.

P (N(a1, b1] = 1 | N(a, b] = 1) =P (N(a1, b1] = 1, N(a, b] = 1)

P (N(a, b] = 1)

=P (N(a1, b1] = 1, N(a, a1] = 0, N(b1, b] = 0)

P (N(a, b] = 1)

=P (N(a1, b1] = 1)P (N(a, a1] = 0)P (N(b1, b] = 0)

P (N(a, b] = 1)

=e−λ(b1−a1)λ (b1 − a1)× e−λ(a1−a) × e−λ(b−b1)

e−λ(b−a)λ (b− a)=b1 − a1

b− a

donde la tercera igualdad es consecuencia de la independencia y la cuarta de la distribucion

de Poisson en cada intervalo.

Proposicion 4.6. fijado un origen t arbitrario, la distancia al punto mas proximo, o tiempo

de espera, es una Va exponencial de parametro λ, independiente de dicho origen.

Demostracion. Sea X la distancia (desde t) al punto mas proximo (a la derecha). Obte-

nemos su funcion de distribucion:

F (x) = P (X ≤ x) = P (N(t, t+ x] ≥ 1)

= 1− P (N(t, t+ x] = 0)

= 1− exp(−λx) x > 0

ası que X tiene densidad exponencial de parametro λ.

Corolario 4.2. Como t es arbitrario, si se elige en particular en un punto del proceso resulta

que las longitudes de los intervalos entre puntos (los tiempos de espera) X1, X2, ... siguen

la misma ley exponencial de parametro λ. Se prueba ademas que son independientes.

Ası que desde que se inicia la observacion del proceso en t = 0 el tiempo de espera hasta que

se produce el primer punto es una Va X1 exponencial de parametro λ. El tiempo de espera

desde X1 hasta que se produce el siguiente es de nuevo una Va X2 exponencial de parametro

λ independiente de la anterior, etc.

La esperanza del tiempo de espera es (esperanza de la exponencial) E (Xi) = 1/λ y el numero

esperado de puntos por unidad de tiempo es (esperanza de la de Poisson) λ.

Ejemplo 4.7. (Paradoja del tiempo de espera) Suponga que los vehıculos de una red de

transporte urbano llegan a la parada segun un proceso de Poisson con una frecuencia teorica

de 1 cada 15 min. Si llegamos a la parada en un instante arbitrario ¿cual es el tiempo medio

de espera hasta que llegue el proximo vehıculo?

Como λ = 1/15 min−1 los tiempos de espera (intervalos entre vehıculos) son Vas exponen-

ciales independientes de parametro 1/λ = 15 min y la respuesta la da la Proposicion 6: el

tiempo medio de espera hasta que llegue el proximo vehıculo es de 15 min.

Sin embargo la intuicion sugiere que deberıan ser 7.5 min (interpretando instante arbitrario

como al azar en el intervalo medio de 15). La paradoja se deshace si comprendemos que no

todos los intervalos son indenticos al medio y que es mas probable que nuestro instante se

halle en uno largo (que ocupan mas tiempo del proceso) que en uno corto.

La paradoja no es una caracterıstica del proceso de Poisson. Se prueba que si Xi son tiem-

pos de espera independientes con la misma distribucion y se elige un instante arbitrario, la

longitud esperada E (Y ) del intervalo que lo contiene es

E (Y ) = E (X) +V ar (X)

4.6. Procesos de Poisson 101

Si los Xi son constantes de valor c es E (X) = c, V ar (X) = 0 y E (Y ) = c: el tiempo de

espera medio es c/2.

Si los Xi son exponenciales es E (X) = 1/λ, V ar (X) = 1/λ2 y E (Y ) = 2/λ: el tiempo de

espera medio es 1/λ.

Proposicion 4.7. Si los tiempos de espera en un proceso de puntos son Vas Xi exponenciales

independientes de parametro λ entonces el proceso es de Poisson de intensidad λ.

Proposicion 4.8. Si Ni (t) son procesos de Poisson independientes de intensidades λi en-

tonces N (t) =∑Ni (t) es un proceso de Poisson de intensidad λ =

∑λi.

Ejemplo 4.8. (Accidentes nucleares)5 El numero de accidentes en el reactor nuclear i

a lo largo del tiempo puede modelizarse como un proceso de Poisson Ni (t) con

P (Ni (t) = x) = e−λt(λt)x

x!x = 0, 1, ...

Si tomamos como unidad de medida un ano, el parametro λ es el numero esperado de acci-

dentes en un reactor en un ano cualquiera

E (Ni (1)) = λ

El numero de accidentes en un parque de n reactores es N (t) =∑n

i=1Ni y es Poisson de

parametro nλ (numero esperado de accidentes en un ano cualquiera en el conjunto de n

reactores).

La estimacion de λ debe basarse en la experiencia historica:

Un calculo del numero de anos de operacion (del total de reactores que han operado u operan

desde 1954) es 15000 anos.

Considerando los accidentes de nivel de gravedad 5 o superior (dano en el nucleo), desde 1954

se han producido 4 accidentes (Chernobil, Three Miles Island, Wind Scale Pille y Fukushima).

Resulta una estimacion de λ para gravedad 5 o superior

15000= 2.6667× 10−4 accidentes/ano

Actualmente hay n = 442 reactores de distinta antiguedad y suponiendo constante este nume-

ro (aunque las previsiones indican que puede crecer hasta los 600):

El numero esperado de accidentes graves en los proximos 20 anos es

E (N (20)) = nλt = 442× (4/15000)× 20 = 2.3573

5Thomas Rose. Probability of nuclear accidents. University College, London, 2011

La probabilidad de al menos un accidente grave en los proximos 20 anos es

P (N(20) ≥ 1) = 1− P (N(20) = 0) = 1− e−nλt

= 1− exp (−2.3573) = 0.90532

4.7. Variables relacionadas con la Normal

4.7.1. Lognormal

La Va X es lognormal de parametros µ y σ, lo que denotaremos X ∼ LN(µ, σ), si su densidad

f(x) =1

xσ√

2πexp

(lnx− µ

y se comprueba facilmente que entonces Y = ln(X) es N(µ, σ). Sus esperanza y varianza

E(X) = exp

)V ar(X) = exp

(2µ+ σ2

) (exp(σ2)− 1

)Proposicion 4.9. (forma multiplicativa del TCL) Sean Vas Xi cualesquiera, indepen-

dientes e identicamente distribuidas, con E(lnXi) = µ y V ar(lnXi) = σ2. Entonces la Va∏Xi es asintoticamente LN(nµ,

√nσ).

Demostracion. Se sigue de que

Xi =∑

es asintoticamente N(nµ,√nσ).

Ejemplo 4.9. Consideremos una cantidad inicial µ que se divide aleatoriamente en 2 partes

eligiendo un numero X1 al azar en (0, 1): los tamanos resultantes son µX1 y µ (1−X1)

(observe que 1 − X1 tambien es un numero al azar en (0, 1)). Ahora cada una de ellas

vuelve a dividirse de igual modo: por ejemplo la primera resulta en µX1X2 y µX1 (1−X2).

Despues de n divisiones, el tamano de cualquier fragmento es de la forma µ∏Xi, con las Xi

uniformes en (0, 1). Para n grande la distribucion de dichos tamanos es aproximadamente

lognormal. El modelo es de aplicacion en la teorıa de la fragmentacion de partıculas, donde

interesa la distribucion de las dimensiones de estas.

4.7. Variables relacionadas con la Normal 103

0 5 10 15 200

Figura 4.5: Densidades ji-cuadrado.

4.7.2. Ji-cuadrado

Si U ∼ N (0, 1) la densidad de U2 se llama ji-cuadrado de parametro 1 (Capıtulo 2 ejercicio

Proposicion 4.10. Sean Ui ∼ N(0, 1), i = 1, 2, ..., k, independientes. La densidad de X =∑ki=1 U

2i es:

f(x) =1

2k/2Γ(k2 )xk2−1 exp

)x > 0

y se llama ji-cuadrado de parametro k, denotado X ∼ χ2(k).

Demostracion. (Apendice B.2).

Su esperanza y varianza son E(X) = k y V ar(X) = 2k. En la figura 4.7.1 se muestran las

funciones de densidad de X ∼ χ2(k) para tres valores distintos de k.

Corolario 4.3. (reproductividad) si Xi ∼ χ2(ki), i = 1, 2, ..., n y son independientes,

entonces X =∑Xi ∼ χ2(

∑ki).

El calculo de probabilidades con la densidad ji-cuadrado se realiza aproximando numerica-

mente las integrales. Para nuestras aplicaciones nos serviremos de la tabla C.2. En ella se

dan, para algunos valores de α y del parametro k, los cuantiles xα, es decir P (X < xα) = α.

Ejemplo 4.10. (cont. del 4.3) La rapidez de las moleculas es la Va V =√V 2x + V 2

y + V 2z

cuya densidad de probabilidades, llamada de Maxwell, puede deducirse con las tecnicas de la

seccion y es

fV (v) =

σ3exp

(−v2/

(2σ2))

v > 0 (σ = kT/m)

El calculo de probabilidades puede hacerse mediante la relacion de su funcion de distribucion

con la χ2 (3):

P (V < v) = P(√

V 2x + V 2

y + V 2z < v

(V 2x + V 2

y + V 2z < v2

(V 2x + V 2

y + V 2z

σ2<v2

(χ2 (3) <

)pues Vx/σ ∼ N (0, 1) y V 2

x /σ2 ∼ χ2 (1) y analogamente para las otras componentes que

ademas son independientes.

1. El voltaje medido en un circuito es una VA X ∼ N(120, 2) V. a) ¿Probabilidad de

que 3 medidas independientes esten en el intervalo (119.4, 121.2)? b) ¿Que lımites

simetricos deben tomarse alrededor de 120 para que incluyan una medida cualquiera

con probabilidad de 0.8?

2. El peso de cierto empaquetado es una VA X ∼ N(150, 1/4), y el intervalo de tolerancia

admitido es (149.2, 150.4). En lotes de 100, ¿cual es el numero promedio de aceptables?

3. Segun el fabricante cierto tipo de cables tiene un lımite de elasticidad X ∼ N (50, 5)

N/mm2. a) ¿Cual es la probabilidad de rotura de un cable si se va a cargar con 40

N/mm2? (o de otra manera: ¿que proporcion de cables tienen un lımite menor que

40?). b) ¿Cual es la carga maxima para que dicha probabilidad sea 0.05?

4. La longitud de ciertas piezas mecanizadas es N(0.9, σ) y los lımites de especificacion

son 0.9 ± 0.005, ¿cual es la desviacion tıpica σ con la que se obtendrıan a la larga 3

defectuosas de 1000?.

En los 3 ejercicios siguientes use la Proposicion 4.2 ( suma de normales independientes).

5. En una edificacion la carga total sustentada por los cimientos es la suma de la carga

de la estructura mas la de ocupacion. Suponiendo que estas son, para cierta clase de

construcciones, Vas independientes, respectivamente X ∼ N(100, 10) e Y ∼ N(40, 10)

(en Tm), ¿para que carga han de disenarse los cimientos, de manera que la probabilidad

de que sea excedida por la carga total sea de 0.01?.

6. Una pala carga camiones. El peso de cada palada es una Va W normal de media µW = 3

Tm y desviacion σW = 0.1 Tm. a) Hallar la proporcion de paladas de mas de 3.1 Tm

b) Cada camion recibe n = 10 paladas, cuyo peso total es∑10

i=1Wi. Calcule el valor w

tal que la probabilidad de que el peso total de las 10 paladas sea superior a w es igual

a 0.01.

Seccion 4.3:

En los ejercicios siguientes use el Teorema Central del Lımite para aproximar las pro-

babilidades pedidas.

7. Un examen tipo test tiene 30 preguntas, cada una con 5 respuestas posibles. ¿Cual debe

ser el numero de respuestas acertadas para que la probabilidad de que un ignorante,

eligiendo al azar, las obtenga o supere sea del 0.05?

8. (cont. del ejercicio 19 del Capıtulo 3) Se lanza 36 veces un dado equiprobable. Sea S

la suma de los puntos obtenidos. Aproxime la probabilidad P (|S − 126| < 30).

9. (cont. de los ejercicios 21 y 22 del Capıtulo 3) Hallar aproximadamente la probabilidad

de que el peso∑100

i=1 Zi de un lote de n = 100 varillas sea mayor que 8016 g.

10. El tiempo de vida de cierta clase de baterıas es una Va X con E (X) = 40 h y√V ar (X) = 20 h. Cuando una baterıa falla se reemplaza. Suponiendo que hay un

stock de 25 baterıas, y que sus tiempos de vida Xi son independientes, aproximar con

el TCL la probabilidad de que se consiga superar un tiempo de operacion de 1100 h.

11. El tiempo de vida de cierto componente es una Va X con E (X) = 100 h y√V ar(X) =

30 h. El componente es crıtico para la operacion de un sistema y debe ser reemplazado

inmediatamente cuando falla. ¿cuantos componentes debe haber en stock para que la

probabilidad de que el sistema este operativo durante al menos 10000 h sea del 0.95?

Seccion 4.6:

12. Los clientes llegan a una tienda de acuerdo con un proceso de Poisson de tasa 4 por

hora. a) Si la tienda abre a las 10 ¿cual es la probabilidad de que lleguen 4 o menos

antes de las 11 y 12 o menos antes de las 13? b) ¿Cual es el tiempo esperado entre

llegadas de clientes?

13. (cont. del ejemplo 4.8) Repita los calculos para accidentes de nivel 4 o superior (Cher-

nobil, Three Miles Island, Wind Scale Pille, Fukushima, Kyshtym, Saint Laurent des

Eaux y Tokaimura).

14. Los cristales de cierto mineral aparecen dispersos aleatoriamente en las secciones de

una roca, con una densidad promedio de 7 por dm2 . a) ¿probabilidad de que en una

seccion de 1cm2 no se encuentren cristales? b) ¿probabilidad de que en ninguna de 10

secciones no solapadas de 1 cm2 se encuentren cristales?

15. Sea un proceso de Poisson en el plano de intensidad λ. Situados en un punto arbitrario

(que podrıa ser uno del proceso) se mide la distancia X al mas proximo del proceso.

Encontrar la densidad de X (obtenga primero la funcion de distribucion: X ≤ x si en

el cırculo de radio x hay al menos un punto y tenga en cuenta que el numero de puntos

N (v) en un conjunto v es de Poisson de parametros λ×area(v)).

Seccion 4.7:

En los ejercicios siguientes use la distribucion ji-cuadrado

16. (continuacion del ejercicio 20 del Capıtulo 3) Tomando el valor k = 1.38× 10−23 J K−1

y el valor 0.028 kg mol−1 para la masa molecular del nitrogeno la desviacion tıpica de

las componentes de la velocidad de las moleculas de nitrogeno a T = 300 K resulto

= 298.39 m s−1

Ahora (ejemplo 4.10) si V es la rapidez de las moleculas

P (V < v) = P(√

V 2x + V 2

y + V 2z < v

(V 2x + V 2

y + V 2z < v2

(V 2x + V 2

y + V 2z

σ2<v2

(χ2 (3) <

)Calcule el valor v tal que P (V < v) = 0.95

17. (cont.) ¿Para que temperatura T es v = 103 m s−1?

18. Los errores de posicion horizontal X e Y de un GPS son Vas N (0, σ) donde σ mide la

precision del GPS. El error radial es Z =√X2 + Y 2 y se prueba que su distribucion

(llamada de Rayleigh) es

P (Z < z) = 1− exp(−z2/2σ2

)z > 0

Si se fijan z y α, para que sea P (Z < z) = α el GPS tiene que tener una precision σ:

1− exp(−z2/2σ2

)= α→ σ =

z√−2 ln (1− α)

En particular el σ para queP (Z < 5 m) = 0.95 es

P (Z < 5 m) = 0.95→ σ =5√

−2 ln 0.05= 2.0427 m

Obtenga el resultado anterior usando la distribucion ji-cuadrado de Z2/σ2

Capıtulo 5

Estimacion

5.1. El metodo estadıstico

La teorıa de probabilidades estudiada en los capıtulos anteriores se ha desarrollado para

servir de modelo de las regularidades estadısticas que se pueden observar en las sucesiones

de experimentos aleatorios. Nuestro objetivo ahora es aplicar dicha teorıa a problemas de

inferencia estadıstica.

La ciencia progresa por medio de experimentos. El investigador realiza un experimento y

obtiene datos. En base a los datos se extraen conclusiones que se intentan llevar mas alla del

experimento particular: a la clase de todos los experimentos similares. Esta extension de lo

particular a lo general se llama inferencia inductiva, y es como progresa el conocimiento.

En una inferencia inductiva (concluir sobre el todo desde una parte) nunca puede haber

certeza absoluta. Sin embargo si el experimento se realiza de acuerdo con ciertos principios

es posible medir el grado de incertidumbre en terminos de probabilidad. Los ingredientes que

entran en juego son los siguientes:

1. La poblacion es el conjunto de referencia, real o hipotetico, que se investiga.

2. Sobre los individuos de la poblacion hay definida una funcion numerica, o variable, y

se trata de averiguar cuales son las proporciones de sus valores, cual es su valor medio,

3. Para ello se dispondra de una muestra, es decir, de un subconjunto de individuos de

la poblacion elegidos mediante un procedimiento aleatorio determinado.

4. Por medio de los valores de la variable en la muestra se hara una estimacion de la

magnitud que interesa de la poblacion.

108 Capıtulo 5. Estimacion

5. Por ultimo, usando argumentos de la teorıa de probabilidades sera posible medir el

error de la aproximacion (lo que se estudiara en el proximo Capıtulo).

Ejemplo 5.1. En un control de calidad la poblacion consiste en el conjunto de las N piezas

de un lote numeroso de las cuales r = Np son defectuosas e interesa averiguar la fraccion

desconocida (0 < p < 1) de defectuosas. En este caso el procedimiento aleatorio habitual para

construir la muestra es la eleccion al azar y sin reemplazamiento de n piezas del lote. La

muestra ası construida es una Va (X1, X2, ..., Xn) donde Xi es la calidad de la i-esima pieza

(1 si defectuosa y 0 si no). El numero de defectuosas que se obtiene es la Va X =∑n

con funcion de masa

P (X = x) =

)(N − rn− x

) 0 ≤ x ≤ mın (n, r)

y probaremos mas adelante que E (X) = np.

Realizado el experimento resulta la muestra particular (x1, x2, ..., xn) y el total de defectuosas

x =∑n

i=1 xi. La proporcion experimental x/n puede servir para aproximar la teorica r/N

y con mayor seguridad cuanto mayor sea n. El problema sera estudiado con mas detalle en

5.12 y veremos en el proximo capıtulo como es posible medir el error de la aproximacion.

Ejemplo 5.2. Como se sabe, cada medida de una magnitud fısica incorpora un error alea-

torio inevitable. La operacion de medida se describe por el modelo

X = µ+ U

donde µ es el valor desconocido que se mide y U es la variable aleatoria error.

Generalmente vale suponer que U ∼ N(0, σ) (el error se debe a la adicion de un gran numero

de pequenos factores independientes y se aplica el teorema central del lımite), de donde se

sigue que X ∼ N(µ, σ). El que E(U) = 0 indica que las medidas son exactas (no hay error

sistematico). Ademas cuanto menor sea σ mayor es la precision.

En el enfoque estadıstico la poblacion en este caso es hipotetica e infinita. Las n medidas xi

(realizadas independientemente en las mismas condiciones experimentales) son otras tantas

observaciones de Vas Xi independientes y con la misma distribucion. Se conviene en una

situacion como esta que la poblacion coincide con (o esta descrita por) la variable aleatoria

X. La magnitud poblacional a estimar es µ, promedio teorico de X. Y una posible estimacion

es el promedio experimental de n medidas particulares independientes (x1, x2, ..., xn):

n∑i=1

5.2. Muestra aleatoria simple. Estadısticos 109

que converge a E(X) = µ si n → ∞. Tambien veremos mas adelante como acotar el error

de aproximacion cualquiera que sea el n utilizado.

En el primer ejemplo la aleatoriedad se introduce deliberadamente, por medio del muestreo1.

En el segundo es intrınseca a la poblacion.

Sea como sea, el resultado es que en cada problema de Estadıstica tratamos con un conjunto

de variables aleatorias (X1, X2, ..., Xn) que miden el valor de la propiedad de interes en cada

individuo de la poblacion que forma parte de la muestra. Y que con el valor observado de

alguna funcion adecuada de la muestra realizamos la aproximacion.

Es muy importante darse cuenta enseguida de que:

1. en la practica dispondremos de un n finito, eventualmente pequeno, lo que hace im-

prescindible acotar el error de las aproximaciones.

2. el valor numerico de cada aproximacion depende de los valores particulares (x1, x2,

...xn) y estos cambian de muestra a muestra (son realizaciones de la variable aleatoria

(X1, X2, ..., Xn)). Ası pues, el valor numerico de cada aproximacion es, a su vez, una

realizacion de una variable aleatoria.

3. estudiando esta variable aleatoria (su esperanza, su varianza, ...) es como se hallara la

solucion al problema planteado en el punto 1.

5.2. Muestra aleatoria simple. Estadısticos

El problema estadıstico mas general es el descrito en el ejemplo 5.2: un experimento aleatorio

en el que se mide una Va X realizado n veces independientemente. La Va puede ser discreta

o continua y su distribucion de probabilidades de forma conocida pero desconocidos sus

parametros, o completamente desconocida.

Definicion 5.1. (muestra aleatoria simple) Sea una variable aleatoria X con densidad,

o masa, f(x). Si el experimento en el que se mide X se realiza n veces independientemente

(o lo que es igual, se realizan n experimentos identicos e independientes), se obtienen n

variables aleatorias independientes Xi con la misma f (x) que la X. Se llama muestra

aleatoria simple de X a (X1, X2, ..., Xn).

En lo que sigue consideraremos siempre, salvo que se indique lo contrario, este tipo de

muestra. Observese que, en particular, E (Xi) = E (X) y V ar (Xi) = V ar (X).

1Esto es lo que podemos llamar el metodo estadıstico.

Una vez realizadas las n observaciones se tienen n numeros, sea (x1, x2, ..., xn), que se llaman

la muestra, a secas.

Ejemplo 5.3. En el ejemplo 5.2 las medidas (X1, X2, ..., Xn) constituyen una muestra alea-

toria de tamano n de la variable aleatoria X ∼ N(µ, σ) cuyos parametros son desconocidos.

Cada Xi ∼ N(µ, σ) y ademas son independientes.

La muestra (X1, X2, ..., Xn) del ejemplo 1 no es una muestra aleatoria simple, pues las Vas Xi

no son independientes obviamente. Para que lo fuese habrıa que haber realizado el muestreo

con reemplazamiento.

Definicion 5.2. (estadıstico) Sea una muestra aleatoria (X1, X2, ..., Xn) de una Va X. Se

llama estadıstico a cualquier Va T = g(X1, X2, ..., Xn) definida como funcion de la muestra

y que no incluya ningun parametro desconocido.

En definitiva con cada muestra (x1, x2, ..., xn) se puede calcular el numero t = g(x1, x2, ..., xn).

Sin embargo estos numeros cambian de muestra a muestra: son realizaciones de la Va T , cuya

ley de probabilidades depende de la de X, de g y de n.

Ejemplo 5.4. En el ejemplo 5.2 cada elemento Xi de la muestra aleatoria (X1, X2, ..., Xn)

tiene densidad N (µ, σ). El estadıstico X = 1n

∑Xi tiene una densidad tambien normal (pues

es una combinacion lineal de normales independientes; ver proposicion 4.2), de parametros

µ y σ/√n . Y el numero x es el valor del estadıstico en la muestra particular.

Dos estadısticos importantes son la media y la varianza de la muestra, que se definen a

continuacion.

5.3. La media muestral

Definicion 5.3. Sea X cualquiera, con E (X) = µ y V ar (X) = σ2, y sea (X1, X2, ..., Xn)

una muestra aleatoria. El estadıstico 1n

∑ni=1Xi se llama la media muestral y se denota

n∑i=1

Proposicion 5.1.

V ar(X)

5.4. La varianza muestral 111

Demostracion. Como la esperanza de una suma es la suma de las esperanzas:

n∑i=1

E (Xi) = µ

Y como la varianza de una suma de variables independientes es la suma de las varianzas:

V ar(X)

= V ar

n∑i=1

V ar (Xi) =σ2

5.4. La varianza muestral

Definicion 5.4. Sea una muestra (X1, X2, ...Xn) de una variable aleatoria X cualquiera,

con E(X) = µ y V ar(X) = σ2. El estadıstico 1n−1

∑ni=1

(Xi −X

)2se llama la varianza

muestral y se denota S2:

n− 1

n∑i=1

(Xi −X

)2La desviacion tıpica muestral es

√√√√ 1

n− 1

n∑i=1

(Xi −X

)2Una expresion alternativa que puede ser util para el calculo de la varianza muestral es

n− 1

n∑i=1

(Xi −X

n− 1

[n∑i=1

X2i + n

(X)2 − 2X

n∑i=1

n− 1

[n∑i=1

X2i − n

n− 1

[n∑i=1

X2i −

(∑Xi

Aunque hay que utilizarla con precaucion porque puede dar lugar a resultados erroneos si los

dos numeros de la ultima diferencia son muy grandes y desbordan la precision del procesador.

Un caso particular interesante es aquel en el queX solo toma los valores 0 o 1 con P (X = 1) =

p y P (X = 0) = 1 − p (X representa la frecuencia relativa de unos en la muestra con

= E (X) = p). En en este caso Xi = X2i y, entonces

n∑i=1

Xi = nX.

Con lo que la varianza muestral se puede escribir:

n− 1

n∑i=1

(Xi −X

n− 1

[n∑i=1

X2i − n

n− 1

[nX − n

n− 1X(1−X

)(5.1)

Proposicion 5.2.

V ar(S2) =E(

(X − µ)4)

n− n− 3

n(n− 1)σ4

Demostracion. Se probara solamente la primera.

n− 1

(n∑i=1

X2i − nX

n− 1

(n∑i=1

)− nE

n− 1

(n∑i=1

(V ar (Xi) + (E (Xi))

2)− n

+(E(X))2))

n− 1

(nσ2 + nµ2 − nσ

n− nµ2

)= σ2

5.5. Convergencia en probabilidad

La distribucion de probabilidades de un estadıstico depende de:

1. la distribucion de la variable X que se muestrea.

2. la forma del estadıstico (la funcion g de la muestra).

3. el tamano n de la muestra.

La deduccion de su distribucion se hace en general con las tecnicas del cambio de variable del

Capıtulo 2 y tendremos necesidad mas adelante de referirnos a importantes casos particulares.

Nos interesa ahora estudiar como cambia esa distribucion en muchos estadısticos (como X

y S2 por ejemplo) cuando n→∞.

Para enfatizar que estudiamos su dependencia de n (es decir n variable y todo lo demas

fijo) escribiremos (solamente cuando se analice el comportamiento de los estadısticos cuando

n→∞) Xn y S2n.

5.5. Convergencia en probabilidad 113

Para cualquier variable aleatoria Z con esperanza E (Z) y varianza V ar (Z) la acotacion de

Tchebychev es (ver 3.7):

P (|Z − E (Z)| < ε) ≥ 1− V ar (Z)

ε2∀ε > 0

Apliquemoslo en particular a la sucesion Xn, para la que hemos hallado que

V ar(Xn

donde con µ y σ2 hemos denotado la esperanza y varianza de la poblacion X muestreada:

P(∣∣Xn − µ

∣∣ < ε)≥ 1− σ2

nε2∀ε > 0

y entonces

lımn→∞

P(∣∣Xn − µ

∣∣ < ε)

= 1 ∀ε > 0

resultado que se enuncia: la sucesion de medias muestrales converge en probabilidad2 a

Ası que, cualquiera que sea la variable X muestreada, la distribucion de Xn se concentra mas

y mas alrededor de µ a medida que se aumenta n. Esto aclara el comportamiento empırico

de los valores de Xn con n creciente y se justifica su uso en la aproximacion de µ.

Ejemplo 5.5. Si X es de Bernoulli de parametro p entonces X representa la frecuencia

relativa de unos en la muestra con E(Xn

)= E (X) = p, y V ar

)= V ar (X) /n =

p (1− p) /n.

P(∣∣Xn − p

∣∣ < ε)≥ 1− p (1− p)

nε2∀ε > 0

y por lo tanto

lımn→∞

P(∣∣Xn − p

∣∣ < ε)

= 1 ∀ε > 0

que aclara el comportamiento empırico de la frecuencia relativa como aproximacion de una

probabilidad.

Otro ejemplo es el de la varianza muestral S2n, para la cual E

)= σ2 y V ar

)→ 0 si

n→∞ (Proposicion 5.2). Ası que

lımn→∞

P(∣∣S2

n − σ2∣∣ < ε

)= 1 ∀ε > 0

y la sucesion de varianzas muestrales converge en probabilidad a V ar(X) = σ2, lo que

justifica el uso de S2n para la aproximacion experimental de σ2.

2Como se comento en 3.2, la Ley fuerte de los grandes numeros de Borel y Kolmogorov asegura que

P(lımn→∞Xn = µ

)= 1, lo que implica ya la convergencia en probabilidad.

Teorema 5.1. (de la aplicacion continua) se prueba que si la sucesion Zn converge a

c en probabilidad, y si g (·) es continua en c, entonces la sucesion g(Zn) converge a g(c) en

probabilidad.

Ejemplo 5.6. La desviacion tıpica de la muestra

Sn =√S2n =

√√√√ 1

n− 1

n∑i=1

(Xi −Xn

)2converge en probabilidad a la desviacion tıpica de la variable muestreada σ =

√V ar (X).

Ejemplo 5.7. El tiempo de vida X de un nucleo radioactivo tiene densidad exponencial

f (x) = λ exp(−λx) x > 0

y como Xn = 1n

∑ni=1Xi converge en probabilidad a E (X) = 1/λ (vida media teorica de un

nucleo), entonces1

=n∑ni=1Xi

converge en probabilidad a λ (numero promedio de nucleos que decaen en la unidad de tiem-

5.6. Estimadores

Sea una Va X en estudio, cuya ley de probabilidades (masa o densidad) suponemos de forma

conocida pero desconocido alguno de sus parametros θ (p si binomial; µ y σ si normal,.. etc.)

y denotaremos3 f(x | θ). Nos interesa hallar, a partir de una muestra de observaciones de

X, un valor aproximado de θ.

Definicion 5.5. Sea (X1, X2, ..., Xn) una muestra aleatoria de X. Un estimador puntual

de θ es un estadıstico T = g(X1, X2, ..., Xn) cuyo valor en una muestra se usara como

aproximacion de θ. La Va T − θ es el error de estimacion. Cada valor particular t =

g(x1, x2, ..., xn) se llama una estimacion de θ y con ella se cometera un error t−θ de valor

desconocido.

El problema de la estimacion puntual de un parametro consiste en elegir el estimador que

mejor aproxime, en un sentido a precisar, el valor desconocido de θ. En general, cuanto

mas concentrada este la ley de probabilidades del error T − θ en torno a cero (es decir,

la de T en torno a θ) mejor sera el estimador. A este proposito estudiamos ahora algunas

propiedades que nos ayuden en la eleccion. Por ultimo estudiaremos metodos de construccion

de estimadores.3La notacion no debe entenderse como condicional: solo enfatiza que depende del parametro.

5.7. Sesgo de un estimador 115

5.7. Sesgo de un estimador

Definicion 5.6. El estimador T es insesgado para el parametro θ si E (T − θ) = 0, lo que

equivale a E(T ) = θ.

Cuando E (T − θ) = b, es decir E(T ) = θ + b, el estimador es sesgado, y la cantidad b se

llama el sesgo.

Ejemplo 5.8. Cualquiera que sea la ley f de X, los estimadores X y S2 son siempre insesga-

dos para E(X) y V ar(X) respectivamente (interpretando ahora estos como los “parametros”

a estimar).

Ejemplo 5.9. En particular: Si X es de Bernoulli, es decir, con funcion de masa f (x) =

px (1− p)1−x para x ∈ 0, 1, X es insesgado para E(X) = p. Si X tiene densidad exponen-

cial de parametro λ entonces X es insesgado para E(X) = 1/λ. Si X tiene densidad normal

de parametros µ y σ, entonces X es insesgado para E(X) = µ y S2 para V ar(X) = σ2.

Si el estimador tiene sesgo positivo (negativo) las estimaciones sobreestiman (infraestiman)

en promedio el valor del parametro.

No siempre existen estimadores insesgados para un parametro, y cuando existen no tienen

por que ser unicos.

Ejemplo 5.10. Si T1 y T2 son insesgados para θ, tambien lo son T = αT1 + (1 − α)T2,

∀α ∈ R, pues

E (T ) = αE (T1) + (1− α)E (T2)

= αθ + (1− α) θ = θ

En ocasiones se buscara un estimador para una funcion h (θ) de θ, por ejemplo θ2 o√θ: Si

T es insesgado para θ, en general h(T ) no lo es para h(θ).

Ejemplo 5.11. Cualquiera que sea X con E(X) = µ y V ar(X) = σ2, aunque X es insesgado

para µ sin embargo(X)2

es sesgado para µ2, pues

E((X)2)

=(E(X))2

+ V ar(X)

= µ2 +σ2

y el sesgo vale σ2/n. Un estimador insesgado de µ2 es evidentemente

(X)2 − S2

Ejemplo 5.12. Cualquiera que sea X el estimador S2 es insesgado para V ar(X) = σ2. Pero

S (la desviacion tıpica de la muestra) es sesgado para σ (la desviacion tıpica de X). De:

V ar (S) = E(S2)− (E (S))2 > 0

resulta

(E (S))2 < E(S2)

y entonces

E (S) <√E (S2) = σ

Es decir, S infraestima σ (tiene sesgo negativo).

Ejemplo 5.13. Si X tiene densidad exponencial de parametro λ

f (x) = λ exp (−λx) x > 0

entonces X es insesgado para E(X) = 1/λ, pero 1/X es sesgado para λ. Efectivamente, se

prueba que en este caso

n− 1λ

Es decir, 1X

sobreestima λ (tiene sesgo positivo).

Un estimador insesgado de λ es entoncesn− 1

5.8. Varianza de un estimador

La propiedad de ser insesgado no es determinante, por si sola, para la eleccion de un esti-

mador: expresa la ausencia de errores sistematicos. Sin embargo, la magnitud de los valores

particulares del error T − θ pudiera ser excesiva. Una medida promedio de dicha magnitud

es la siguiente.

Definicion 5.7. Se llama error cuadratico medio del estimador T a:

E((T − θ)2

)= V ar(T − θ) + (E(T − θ))2

= V ar(T ) + b2

Cuando el estimador es insesgado tal cantidad es V ar(T ).

Ante un estimador insesgado de gran error cuadratico y otro ligeramente sesgado de pequeno

error cuadratico pudiera ser preferible el segundo: a la larga las estimaciones estarıan mas

concentradas en un entorno de θ.

Ante dos estimadores insesgados se preferira el de menor varianza. Sin embargo, a tamano

de muestra n fijado, hay una cota inferior para la varianza de los estimadores insesgados de

un parametro:

5.8. Varianza de un estimador 117

Teorema 5.2 (Cota de Frechet-Cramer-Rao). Sea X con densidad o masa f(x | θ) tal

que el conjunto C = x ∈ R : f(x | θ) > 0 (es decir, el conjunto de valores posibles, o

recorrido, de X) es independiente de θ. Sea T cualquier estimador insesgado de m (θ), es

decir, E (T ) = m (θ). Entonces

V ar (T ) ≥ (m′ (θ))2

nI (θ)

I(θ) = E

∂θln f(X | θ)

Demostracion. Ver Complementos.

Corolario 5.1. Si T es insesgado de θ, es decir m (θ) = θ, queda

V ar(T ) ≥ 1

nI(θ)

Nota: una expresion alternativa es

I(θ) = −E(∂2

∂θ2 ln f(X | θ))

Observar que f(X | θ) es la Va que resulta de transformar la X con la funcion f . Se llama

a nI (θ) la cantidad de informacion (de Fisher) en la muestra (X1, X2..., Xn) para el

parametro θ.

Proposicion 5.3. Si existe un estimador insesgado cuya varianza alcance la cota se prueba

que es unico, y se llama eficiente.

Demostracion. ver Complementos.

Ejemplo 5.14. Estudiemos la cota para los estimadores insesgados de µ cuando X es

N(µ, σ).

f(x | µ) =1

2πexp

(x− µσ

ln f(x | µ) = − ln(σ√

2π)− 1

(x− µσ

∂µln f(x | µ) =

x− µσ2

I(µ) = E

((X − µσ2

(E (X − µ)2

y la varianza de cualquier estimador T insesgado de µ, es V ar(T ) ≥ σ2/n. Resulta ası que

X, insesgado de E(X) = µ y cuya varianza es V ar(X)/n = σ2/n, alcanza la cota cuando

X es normal.

Ejemplo 5.15. Estudiemos la cota para los estimadores insesgados de p cuando X es de

Bernoulli.

f(x | p) = px(1− p)1−x x = 0, 1

ln f(x | p) = x ln p+ (1− x) ln(1− p)∂

∂pln f(x | p) =

p− (1− x)

1− p=

x− pp (1− p)

I (p) = E

∂pln f(X)

(X − p)2)

[p (1− p)]2

=V ar (X)

[p (1− p)]2=

p (1− p)[p (1− p)]2

p (1− p)

y la varianza de cualquier estimador T insesgado de p es V ar (T ) ≥ p(1 − p)/n. Resulta

ası que X, insesgado de E (X) = p y cuya varianza es V ar (X) /n = p (1− p) /n, alcanza la

cota cuando X es de Bernoulli.

5.9. Estimadores consistentes

Particularizamos ahora el estudio de la Seccion 5.5 (Convergencia en probabilidad) a una

sucesion de estimadores. Como allı, para enfatizar que estudiamos su dependencia de n (es

decir n variable y todo lo demas fijo) escribiremos Tn.

Definicion 5.8. La sucesion de estimadores Tn es consistente para θ si converge en pro-

babilidad a θ, es decir:

lımn−→∞

P (|Tn − θ| < ε) = 1 ∀ε > 0

En 5.5 se comprobo que una condicion suficiente para ello es que E(Tn) = θ (insesgado) y

V ar(Tn)→ 0 cuando n→∞.

Ejemplo 5.16. Xn es consistente para E(X) = µ cualquiera que sea X. Pues E(Xn

y V ar(Xn

)= σ2/n→ 0

Ejemplo 5.17. En particular, si X es de Bernoulli entonces Xn (la frecuencia relativa) es

consistente para la probabilidad p.

Ejemplo 5.18. S2n es consistente para V ar(X) = σ2 cualquiera que sea X. Pues E(S2

n) = σ2

y V ar(S2n)→ 0 si n→∞.

Ejemplo 5.19. (cont. del 5.13) Si X tiene densidad exponencial de parametro λ entonces

Tn =n− 1

es insesgado para λ. Se prueba que

(n− 1)2 (n− 2)λ2

5.9. Estimadores consistentes 119

y entonces

(n− 1

n− 2

y resulta que Tn es consistente para λ.

Un estimador sesgado puede ser insesgado en el lımite:

Definicion 5.9. La sucesion de estimadores Tn es asintoticamente insesgada para θ si:

lımn−→∞

E(Tn) = θ

Ejemplo 5.20. Cualquiera que sea X con E(X) = µ y V ar(X) = σ2 el estimador(Xn

)2es asintoticamente insesgado para µ2, pues

)2)= µ2 +

n→ µ2 cuando n→∞

Recordemos (Definicion 5.7) que el error cuadratico medio de un estimador se descompone

en el sesgo y la varianza

E((Tn − θ)2

)= V ar(Tn) + b2n

(donde bn es el sesgo, dependiente de n) y de aquı se deduce que:

Proposicion 5.4.

lımn→∞

(Tn − θ)2)

equivale a

lımn→∞

bn = 0

lımn→∞

V ar(Tn) = 0

Proposicion 5.5. Una condicion suficiente para que Tn sea consistente para θ es que sea

asintoticamente insesgado y V ar(Tn)→ 0 cuando n→∞.

Demostracion. Para cualquier variable aleatoria no negativa Z de esperanza E (Z) la

acotacion de Markov (seccion 3.7) es

P (Z < ε) ≥ 1− E (Z)

ε2∀ε > 0

y eligiendo Z = |Tn − θ|

P (|Tn − θ| < ε) ≥ 1− E (|Tn − θ|)ε2

→ 1 si n→∞

pues E (|Tn − θ|) ≤ E(|Tn − θ|2

)= bn + V ar (Tn)→ 0.

Ejemplo 5.21. (cont.) El estimador(Xn

)2es consistente para µ2, pues es asintoticamen-

te insesgado y se prueba que V ar((Xn

)2) → 0. Ello se concluye tambien de que Xn es

consistente para µ y g (u) = u2 es continua (Teorema 5.1).

5.10. El metodo de maxima verosimilitud

Sea una Va X con densidad o masa f(x | θ) de forma conocida, que depende de un parametro

desconocido θ ∈ Θ ⊆ R, y sea x ≡ (x1, x2, ..., xn) la muestra observada. La densidad o masa

de probabilidad que le corresponde a x es (por la independencia)

f(x | θ) =∏

f(xi | θ)

aunque no podemos calcular su valor pues desconocemos el de θ. Desde el punto de vista

del problema de estimacion la consideraremos como una funcion de θ en la que los xi de la

muestra son numeros fijados.

Definicion 5.10. Se llama funcion de verosimilitud a la funcion

L(θ | x) =∏

f(xi | θ) θ ∈ Θ

Definicion 5.11. El metodo de maxima verosimilitud (abrev. MV) consiste en elegir

como estimacion de θ, el θ ∈ Θ tal que

L(θ | x

)= max

θ∈ΘL(θ | x)

Intuitivamente el metodo elige como estimacion el valor del parametro que da mayor proba-

bilidad a la muestra observada. Como es natural el valor de la estimacion es una funcion de

los numeros de la muestra, es decir θ = g (x).

Ejemplo 5.22. Sea una Va de Bernoulli, es decir con funcion de masa f (x | p) = px (1− p)1−x

para x = 0, 1 y donde p ∈ (0, 1). Si se ha obtenido la muestra x = (1110101110), su proba-

bilidad es L (p | x) = [f (1 | p)]7 [f (0 | p)]3 = p7 (1− p)3, que es maxima para p = g(x) = 0.7

(ver figura 5.10).

En el muestreo resulta un estimador T = g (X), donde X ≡ (X1, X2, ..., Xn), llamado de

MV y cuyas propiedades estudiaremos en una seccion posterior.

En la practica, al estar definida L como un producto, suele ser mas comodo maximizar lnL,

ya que al ser el logaritmo una funcion monotona, alcanza sus valores extremos en los mismos

puntos que L: θ = arg maxθ∈Θ L (θ | x)=arg maxθ∈Θ lnL (θ | x). Por lo tanto, habitualmente,

la forma mas comoda de obtener θ es resolviendo el siguiente problema de optimizacion:

lnL(θ | x

)= max

θ∈ΘlnL(θ | (x1, x2, ..., xn))

Si L es diferenciable, el maximo, si existe, sera una solucion θ de

∂θlnL(θ | x) = 0

5.10. El metodo de maxima verosimilitud 121

0 0.2 0.4 0.6 0.7 0.8 1 0

2.5x 10

Figura 5.1: Dibujo de la funcion de verosimilitud L (p | x) = p7 (1− p)3 (ejemplo 5.22). La

funcion determina la probabilidad del resultado observado para diferentes valores de p

si ademas (∂2

∂θ2 lnL(θ | x)

)θ=θ

Ejemplo 5.23. Si X es de Bernoulli, con funcion de masa f (x | p) = px (1− p)1−x para

x ∈ 0, 1, y p ∈ (0, 1)

L(p | x) =∏

pxi(1− p)1−xi

= p∑xi(1− p)n−

lnL(p | x) =∑

xi ln p+(n−

)ln(1− p)

∂plnL(p | x) =

∑xi −

1− p

p− n (1− x)

1− p= 0

Si x = 0 o x = 1 (si todos los xi fuesen iguales a 0 o a 1, lo que no es imposible) no hay

solucion. En otro caso la solucion es

(frecuencia relativa de “exitos” en la muestra) que corresponde a un maximo, pues

∂p2lnL = −nx

p2− n (1− x)

(1− p)2 < 0 ∀p

El estimador es X.

Ejemplo 5.24. Sea X con densidad exponencial f (x | λ) = λ exp (−λx) para x > 0 (con

λ > 0). Obtengamos el estimador MV de λ.

L(λ | x) =∏

λ exp (−λxi)

= λn exp(−λ∑

)d lnL (λ | x)

λ−∑

xi = 0

cuya solucion es

λ =n∑xi

que corresponde a un maximo pues

d2 lnL (λ)

dλ2 = − n

λ2 < 0 ∀λ

El estimador es 1/X, que es sesgado (ejemplo 5.13).

En ocasiones para resolver el problema de optimizacion hay que recurrir a otros argumentos:

Ejemplo 5.25. Sea X con densidad uniforme f(x | θ) = 1/θ (0 < x < θ). La verosimilitud

es L(θ | x) = (1/θ)n y alcanza su maximo cuando θ es mınimo. Pero θ no puede ser menor

que la mayor observacion de la muestra, ası que θ = max(x1, x2, ..., xn). El estimador es

max(X1, X2, ..., Xn).

Teorema 5.3 (invariacion). Sea una funcion cualquiera h : Θ −→ R. Si T es el estimador

MV de θ, entonces h(T ) lo es de h(θ).

Ejemplo 5.26. Si X es de Bernoulli el estimador MV de E (X) = p es X. Entonces el de

V ar(X) = p(1− p) es X(1−X).

Mientras que X es insesgado para p, X(1−X) es sesgado para p (1− p):

E(X(1−X)

)=n− 1

np (1− p)

Como n−1n < 1 resulta que X(1−X) infraestima p (1− p). El estimador corregido para que

sea insesgado es nn−1X(1−X).

Ejemplo 5.27. Si X tiene densidad exponencial de parametro λ, el estimador MV de λ es

1/X y el de E (X) = 1/λ es X.

Mientras que X es insesgado para 1/λ, 1/X es sesgado para λ (ejemplo 5.13). El estimador

corregido esn− 1

5.10. El metodo de maxima verosimilitud 123

En los ejemplos se ve que los estimadores MV no tienen por que ser insesgados. Naturalmente

usaremos el estimador corregido cuando sea posible.

Se prueba que el estimador eficiente, si existe, coincide con el de maxima verosimilitud.

Tambien se puede demostrar4 que los estimadores MV son consistentes.

5.10.1. Generalizacion

Si la densidad o masa f(x | θ) de X depende de un numero finito de parametros desconocidos

θ = (θ1, θ2, ..., θk) ∈ Θ ⊆ Rk se ha de hallar el θ ∈ Θ tal que

lnL(θ | x

)= max

θ∈ΘlnL(θ | x)

Si L es diferenciable, el maximo, si existe, satisfara el sistema de ecuaciones (que puede no

ser lineal y deba resolverse numericamente):

∂θjlnL(θ | x) = 0 j = 1, 2, ..., k

Una solucion θ de dicho sistema correspondera a un maximo si la matriz hessiana

∂θi∂θjlnL(θ | x)

particularizada en θ =θ es definida negativa.

Ejemplo 5.28. Sea X normal N(µ, σ) siendo ambos parametros desconocidos.

L(µ, σ | x) =1(

2π)n exp

[− 1

∑(xi − µ)2

]lnL(µ, σ | x) = −n lnσ − n ln

√2π − 1

∑(xi − µ)2

igualando a cero la derivadas primeras resulta el sistema

∂µlnL =

∑(xi − µ) = 0

∂σlnL = −n

∑(xi − µ)2 = 0

con solucion

µ = x

∑(xi − x)2

4Para ello han de satisfacerse una serie de condiciones muy generales entre las cuales una es que el recorrido

de X (es decir, el conjunto de valores x tales que f (x | θ) > 0) no dependa de θ. No se cumple para la X del

ejemplo 5.25

Para comprobar que corresponde a un maximo formamos la matriz hessiana

∂µ2lnL

∂µ∂σlnL

∂σ2lnL

−2∑

(xi − µ)

−2∑

(xi − µ)

(n− 3

∑(xi − µ)2

y particularizando (µ, σ) en (µ, σ):

−n2∑

(xi − x)20

0−2n2∑(xi − x)2

y como h11 < 0 y detH > 0 (una matriz es definida negativa si los menores principales

alternan en signo, con signo negativo si la dimension es impar y positivo si par) la solucion

corresponde a un maximo.

Ejemplo 5.29. (cont.) En este problema la solucion puede hallarse de un modo mas directo.

Cualquiera que sea el valor de σ, el valor de µ que hace maximo

lnL(µ, σ | x) = −n lnσ − n ln√

2π − 1

∑(xi − µ)2

es el que hace mınimo a ∑(xi − µ)2

resultando (igualando a cero la derivada primera) µ = x. Ahora el valor de σ que hace

maximo

lnL(σ | x) = −n lnσ − n ln√

2π − 1

∑(xi − x)2

se obtiene igualando a cero la derivada pimera respecto de σ.

Teorema 5.4. Sea θ ≡ (θ1, θ2, ..., θk) ∈ Θ ⊆ Rk y una funcion cualquiera h : Θ → Rj

(1 ≤ j ≤ k). Si T ≡ (T1, T2, ..., Tk) es el estimador MV de θ entonces h (T) lo es de h (θ)

5.11. El metodo de los momentos

Se llama a mk ≡ E(Xk)

el momento teorico de orden k de la Va X. Si (X1, X2, ..., Xn)

es una muestra aleatoria de X se llama a

n∑i=1

el momento muestral de orden k.

Proposicion 5.6. Los momentos muestrales son estimadores 1) insesgados y 2) consistentes

para los teoricos, 3) con distribucion asıntoticamente normal.

5.11. El metodo de los momentos 125

Demostracion. 1) Insesgados:

E (Ak) = E

n∑i=1

E (Xi)k = mk

2) Consistentes: si las Xi son independientes tambien lo son las (Xi)k y

V ar (Ak) = V ar

n∑i=1

(Xi)k)

(E(X2k

)−(E(Xk))2

m2k −m2k

n→ 0 si n→∞

3) Como Ak es una combinacion lineal de Vas independientes con igual distribucion se aplica

el teorema central del lımite.

Definicion 5.12. El estimador por el metodo de los momentos de cualquier funcion

h(m1,m2, ...,mk) es h (A1, A2, ..., Ak).

De que los Ak sean insesgados para los mk no se sigue naturalmente que el estimador sea

insesgado. Sin embargo se prueba el siguiente teorema:

Teorema 5.5. Si h : Rk −→ R es una funcion continua, entonces h (A1, A2, ..., Ak) es un

estimador consistente de h(m1,m2, ...,mk), con distribucion asintoticamente normal.

Veamos la implementacion del metodo:

Con una muestra particular (x1, x2, ..., xn) se obtiene una estimacion h (a1, a2, ..., ak) donde

n∑i=1

y en particular a1 = x y a2 = 1n

∑(xi)

Entonces, si X es cualquiera, la estimacion de µ = E(X) es µ = x y la estimacion de

σ2 = V ar(X) = E(X2)− (E(X))2 = h (m1,m2)

σ2 = h (a1, a2) =1

∑(xi)

2 − (x)2 =1

∑(xi − x)2

Si la funcion de masa o densidad de la Va X depende de un parametro θ, para obtener una

estimacion θ:

1. se calcula E (X) = g (θ)

2. se resuelve θ = g−1 (E (X))

3. se hace θ = g−1 (x)

Ejemplo 5.30. Si X tiene densidad f (x) = λ exp (−λx) entonces E (X) = 1/λ. Resolviendo

se obtiene λ = 1/E (X) y finalmente λ = 1/x.

Si la funcion de masa o densidad de la Va X depende de 2 parametros θ1 y θ2 :

1. se calcula E (X) = g1 (θ1, θ2) y V ar (X) = g2 (θ1, θ2)

2. se resuelve (supuesta solucion unica) θ1 = h1 (E (X) , V ar (X)) y θ2 = h2 (E (X) , V ar (X))

3. se hace θ1 = h1

(x, n−1

∑(xi − x)2

)y θ2 = h2

(x, n−1

∑(xi − x)2

)Ejemplo 5.31. Si X tiene densidad uniforme en (a, b) es E(X) = (a + b)/2 y V ar(X) =

(b−a)2/12. De aquı resulta que a = E(X)−√

3V ar(X) y b = E(X)+√

3V ar(X). Entonces:

a = x−√

∑(xi − x)2

b = x+

∑(xi − x)2

La generalizacion a mas de 2 parametros es obvia.

Estos estimadores pueden servir tambien para tener un valor inicial en la busqueda del

estimador de maxima verosimilitud cuando el problema de optimizacion ha de resolverse por

metodos numericos

5.12. Muestreo sin reemplazamiento

Cuando se muestrea una poblacion finita de tamano N el muestreo suele hacerse sin reem-

plazamiento lo que resulta en que la muestra (X1, X2, ..., Xn) no es simple: sus elementos Xi

no son independientes y, en general, no tienen igual distribucion.

Sea como sea todas las definiciones y principios de estimacion que se han estudiado antes

siguen vigentes y lo unico que cambia es el modo de calcularlos, que era muy sencillo y

general cuando las Xi eran independientes y con identica distribucion, y que ahora hay que

resolver cada vez.

5.12. Muestreo sin reemplazamiento 127

Ejemplo 5.32. (Control de calidad) Cada una de las N piezas de un lote numeroso es

defectuosa o no (anotado con 1 y 0 respectivamente). En total hay r = Np defectuosas e

interesa averiguar la fraccion desconocida (0 < p < 1) de defectuosas. Se eligen n piezas al

azar y sin reemplazamiento resultando la muestra (X1, X2, ..., Xn) donde Xi es la calidad

de la i-esima pieza.

Obviamente las Xi no son independientes. Sin embargo sus distribuciones marginales son

identicas.

P (X1 = 1) = p

P (X2 = 1) = P (X2 = 1 | X1 = 0)P (X1 = 0) + P (X2 = 1 | X1 = 1)P (X1 = 1)

N − 1

N − rN

+r − 1

N − 1

=Nr − r

(N − 1)N=

y por induccion P (Xi = 1) = p.

Consideremos el estadıstico X =∑n

i=1Xi, numero total de defectuosas obtenidas. En-

tonces

E (X) =∑

E (Xi) = np

(como en la binomial), aunque las Xi no son independientes.

Por lo tanto un estimador insesgado de p es la proporcion experimental

y un estimador insesgado de r es

Por su parte la estimacion MV de r es el entero r que maximiza

P (X = x) =

)(N − rn− x

) 0 ≤ x ≤ mın(n, r)

es decir que maximiza (r

)(N − rn− x

)y se prueba que resulta como estimador el mayor entero menor o igual que

n(N + 1)

que es sesgado.

Las varianzas de dichos estimadores se calculan a partir de que

V ar (X) = np (1− p)(

1− n− 1

N − 1

)que ademas si n N vale aproximadamente np (1− p).

Ejemplo 5.33. (El problema de los tanques alemanes) Consideremos una poblacion

cuyo tamano N (numero de elementos) es desconocido y ha de ser estimado. Suponemos

ademas que cada individuo esta identificado por un numero, desde el 1 hasta el N . Se eli-

gen n individuos al azar y sin reemplazamiento (X1, X2, ..., Xn). Cada Xi es el numero de

identificacion del individuo seleccionado.

Como en el anterior ejemplo, obviamente la Xi no son independientes y sin embargo sus

distribuciones marginales son identicas.

P (X1 = k) =1

Nk = 1, 2, ...N

P (X2 = k) =

N∑j=1

P (X2 = k | X1 = j)P (Y1 = j)

=N∑j=1j 6=k

P (X2 = k | X1 = j)P (X1 = j)

=N∑j=1j 6=k

N − 1

y por induccion P (Xi = k) = 1/N .

Consideremos el estadıstico X(n) = max (X1, X2, ..., Xn). Se prueba (ver Complementos) que

E(X(n)

y entonces un estimador insesgado de N es

TN =n+ 1

nX(n) − 1

Se prueba ademas que su varianza (mınima) es

V ar (TN ) =1

(N − n) (N + 1)

Puede probarse que el estimador MV de N es X(n) y por lo tanto es sesgado.

El problema se conoce en la literatura estadıstica como el problema de los tanques ale-

manes debido a su aplicacion para estimar cuantos estaban produciendo durante la segunda

guerra mundial:

Segun las informaciones del espionaje aliado los alemanes estaban produciendo unos 1400

tanques al mes entre junio de 1940 y septiembre de 1942. Sin embargo usando el estimador

TN con los numeros de serie de las cajas de cambio de los tanques capturados o destruidos

el numero estimado era 256 al mes. Despues de la guerra, cuando se obtuvieron los datos

reales de produccion, el numero resulto ser 255 (los sovieticos habıan llegado por su parte a

una estimacion similar).

1. Xm y Xn son las medias de muestras independientes de tamanos m y n de una Va X.

Construya con ellas la media de la muestra total de tamano m+ n.

2. En la muestra (x1, x2, ..., xn) de la Va discreta X han aparecido los valores distin-

tos (a1, a2, ..., ak) cada uno repetido (n1, n2, ..., nk) veces respectivamente (obviamente∑ki=1 ni = n). Expresar x y s2 por medio de la muestra agrupada.

3. El numero de defectos en probetas de 1 cm2 de cierta aleacion es una variable aleatoria

X. Se examinan 20 probetas en busca de defectos, con los resultados

defectos 0 1 2 3 4 5 6

probetas 4 3 5 2 4 1 1 = 20

a) calcule la media y la desviacion tıpica de la muestra. b) en otra muestra de 10

probetas resulto x = 1.4 defectos/cm2. calcule la media de la muestra total de 30

probetas.

4. Cada medida del radio r de un cırculo es de la forma X = r + U , donde U es la

variable aleatoria error de medida, con E(U) = 0 y V ar(U) = σ2 desconocida. Entonces

un estimador insesgado de r es X, construido a partir de n medidas independientes.

Construya un estimador insesgado del area del cırculo (vea el ejemplo 5.11).

5. Sean T1 y T2 estimadores independientes insesgados de θ. Entonces (ver ejemplo 10)

T = αT1 + (1− α)T2 es tambien insesgado ∀α. Hallar α para que V ar (T ) sea mınima

si V ar (T1) = σ21 y V ar (T2) = σ2

2 (los estimadores tienen diferente precision).

6. (cont.) Particularice para el caso en que T1 ≡ Xm y T2 ≡ Xn (medias muestrales de

tamanos m y n de una poblacion X con E (X) = µ y V ar (X) = σ2.

Seccion 5.9:

7. El metodo de Montecarlo. Si g (x) es integrable Riemann

0g (x) dx = lım

n→∞

n∑k=1

)Es decir, se usa una particion del [0, 1] en n de longitud 1/n (a saber [0, 1/n], [1/n, 2/n],

... [(n− 1) /n, 1]) y se evalua la funcion en los extremos derechos. Por lo tanto, si n es

suficientemente grande∫ 1

0g (x) dx ≈ 1

n∑k=1

g (xk)

e I se aproxima por un promedio de g en n puntos xk = k/n equiespaciados.

Vamos a construir ahora una aproximacion estadıstica de I, es decir, un estimador:

para ello elegiremos los puntos (x1, x2, ..., xn) de la particion como una muestra de

una variable aleatoria X con densidad uniforme en (0, 1). El estimador (llamado de

Montecarlo) es

n∑k=1

g (Xk)

donde Xk son variables aleatorias independientes con densidad uniforme en (0, 1). Com-

pruebe que el estimador es insesgado y consistente para I.

8. (cont.) Construya un estimador de Montecarlo para

∫ π/2

0sin (x) dx

(sugerencia: cambie primero la integral al (0, 1)).

9. Si X ∼ N(µ, σ) el estimador de MV y momentos de σ2 es 1n

∑ni=1

(Xi −X

)2. Com-

pruebe que es sesgado y corrıjalo.

10. La resistencia a la rotura de cierto tipo de cables de acero, expresada en Kg, se su-

pone que es una VA X ∼ N(µ, σ). Una muestra de 5 cables ha dado los valores

(533, 552, 539, 564, 541). Obtenga las estimaciones MV de µ y σ.

11. Sea una Va X geometrica de parametro p. Su funcion de masa es

f(x) = (1− p)x−1p x = 1, 2, ...

y se prueba que E(X) = p−1. Hallar los estimadores MV de p y de E(X) (periodo de

retorno) a partir de una muestra de tamano n.

12. Sea una Va X de Poisson de parametro λ. Su funcion de masa es

f(x) = e−λλx

x!x = 0, 1, ...

y se prueba que E(X) = V ar(X) = λ. Hallar el estimador MV de λ con una muestra

de tamano n y comprobar que su varianza alcanza la cota FCR.

13. En cierto proceso industrial el numero de paradas mensuales por averıa es una Va de

Poisson de parametro λ. Si X representa el numero de paradas en un mes, el coste

provocado es C = 3X+X2. Hallar el estimador MV del coste promedio E (C) a partir

de n observaciones independientes de X, comprobar que es sesgado y corregirlo para

que sea insesgado.

14. El intervalo de tiempo entre llegadas sucesivas de vehıculos a una parada (tiempo de

espera) tiene densidad exponencial de parametro λ. En una muestra de n = 10 valores

de X ha resultado un tiempo total∑xi = 30.4 min. Hallar las estimaciones de MV

(corregidas para el sesgo si es preciso) de E (X) y de λ.

15. Si X tiene densidad exponencial f(x) = λ exp(−λx) si x > 0, el estimador MV de

E(X) = 1/λ con una muestra de tamano n es X. Obtenga el estimador MV de

V ar(X) = 1/λ2, compruebe que es sesgado y corrija su sesgo.

16. La variable X tiene una funcion de distribucion F (x) = 1 − exp(− x2

)x > 0

(de Rayleigh) y su esperanza es E (X) = σ√

π2 . a) Halle la estimacion de maxima

verosimilitud de σ con una muestra (x1, x2, ..., xn) . b) halle la estimacion de maxima

verosimilitud de E (X) c) halle la estimaciones de σ y E (X) por el metodo de los

momentos d) Calcule las estimaciones anteriores con la muestra (2.5, 3.5, 2.1, 5.6, 2.2,

2.6, 3.1, 4.5, 3.5, 1.4).

17. Una Va gamma de parametros θ y λ tiene densidad

f(x) =λθ

Γ(θ)xθ−1e−λx x > 0

y su esperanza y varianza son

E(X) =θ

V ar(X) =θ

No hay un solucion explıcita para las estimaciones MV de los parametros, que deben

obtenerse numericamente. Estımelos por el metodo de los momentos a partir de la

muestra (22.60, 8.59, 28.91, 10.96, 10.63, 14.33, 23.06, 12.66, 15.05, 11.14, 19.50, 9.95).

18. El control de recepcion de ciertas piezas se realiza clasificandolas en pequenas, normales

y grandes, siendo las proporciones aceptables en cada caso p1 = p3 = 0.025, p2 = 0.95

. Se sospecha que estas proporciones pueden haber cambiado en la forma p1 = p3 =

0.025 + ω, p2 = 0.95 − 2ω. Se decide analizar 5000 piezas obteniendose x1 = 278,

x2 = 4428 y x3 = 294. Obtener la estimacion MV de ω. (sugerencia: maximice la

probabilidad de la muestra observada).

19. La duracion X, en horas, de ciertos componentes sigue una densidad exponencial de

parametro λ. De una muestra aleatoria de 10 componentes se sabe que 6 duraron

menos de 85 h y 4 mas. a) Obtener la estimacion MV de la vida media. b) idem para

la P (X > 100). (sugerencia: maximice la probabilidad de la muestra observada).

Ejercicios complementarios:

20. Sea una muestra aleatoria (X1, X2, ..., Xn) de una Va X con f desconocida. Se desea

estimar E(X) y para ello vamos a utilizar deliberadamente un estimador de la forma

T =∑λiXi. Halle los λi que hacen el estimador insesgado y de varianza mınima.

(sugerencia: minimice la varianza sujeta a la condicion de insesgamiento usando los

multiplicadores de Lagrange).

21. Sea X ∼ N (µ, 1). En una muestra de n valores de X se sabe que en m de ellos

resulto X < 0 y en n−m resulto X > 0. Hallar la estimacion MV de µ Particularizar

si n = 10 y m = 6

22. Invariacion funcional Sea X con densidad f (x | θ) y sea Y = g (X) con g monotona

y que no depende de θ. Entonces (ver (2.19)) la densidad de Y es

fY (y | θ) =∣∣∣(g−1

)′(y)∣∣∣ fX(g−1(y) | θ)

y resulta que la funcion de verosimilitud de Y solo se diferencia de la de X por el factor∣∣∣(g−1)′

(y)∣∣∣: la estimacion de MV de θ es la misma con la muestra de X que con la de

Si Y ∼ LN(µ, σ) (lognormal de parametros µ y σ), es decir X = lnY ∼ N(µ, σ). La

densidad de Y es

f(y) =1

yσ√

2πexp

(−(ln y − µ)2

)y > 0

y se prueba que

E(Y ) = exp(µ+ σ2/2)

V ar(Y ) = exp(2µ+ σ2)(expσ2 − 1)

Halle los estimadores MV de E (Y ) y V ar (Y ) a partir de una muestra (Y1, Y2, ..., Yn)

aplicando las propiedades de invariacion anterior y teorema 5.

Capıtulo 6

Intervalos. Pruebas de hipotesis

6.1. Intervalos de confianza

Un estimador T de un parametro desconocido θ proporciona al calcularlo con la muestra

particular un valor aproximado t, pero no da informacion sobre el error |t− θ|. Una solucion

a este problema son los intervalos de confianza.

Definicion 6.1. Sea una Va X con densidad f(x | θ) siendo el parametro θ desconocido. Si

T1 y T2 son estadısticos tales que:

P (T1 < θ < T2) = 1− α

se llama a (T1, T2) un intervalo aleatorio para θ de probabilidad 1 1− α.

Cada realizacion (t1, t2) con una muestra particular se llama un intervalo para θ de con-

fianza 1− α.

Diferentes muestras produciran diferentes realizaciones (t1, t2) y, a la larga, en el 100 (1− α) %

de los intervalos ası construidos se realizara el suceso θ ∈ (T1, T2).

Antes de obtener la muestra y calcular el valor del intervalo hay una probabilidad 1 − αde que incluya a θ, pero despues de obtener la muestra, (t1, t2) incluira o no a θ, lo que

nos sera desconocido, y expresaremos nuestra conviccion al respecto diciendo que hay una

confianza 1−α de que lo incluya. Un intervalo sera tanto mas provechoso cuanto mayor sea

1− α y menor longitud tenga.

Definicion 6.2. (Metodo Pivotal) El metodo para construir intervalos de confianza que

1Denotar la probabilidad con 1− α en lugar de con una unica letra, como α o p tiene una ventaja que se

apreciara mas adelante cuando se presenten las pruebas de hipotesis.

134 Capıtulo 6. Intervalos. Pruebas de hipotesis

vamos a usar, llamado pivotal, se basa en una variable aleatoria (llamada pivote) adecuada

a cada problema, sea g (T, θ), tal que:

1) es una funcion de un estadıstico T y de θ.

2) en cuanto funcion de θ es continua y monotona.

3) su distribucion de probabilidades es completamente conocida (no depende de θ).

Entonces fijado 1 − α (generalmente 0.95 o 0.99) pueden calcularse con dicha distribucion

numeros a y b tales que

P (a < g (T, θ) < b) = 1− α

y de aquı, “despejando” θ, lo que es posible ya que g es biunıvoca respecto de θ, resultara un

intervalo

P (T1 < θ < T2) = 1− α

En general habra infinitos (a, b) que contengan probabilidad 1−α, y generalmente se elige el

que da

P (g (T, θ) < a) = P (g (T, θ) > b) =α

Ejemplo 6.1. Si X ∼ N (µ, σ) y σ es conocida entonces

g(X,µ

)=X − µσ/√n

es una variable pivote, pues es monotona en µ y con distribucion N (0, 1). Fijado 1 − α se

conoce el numero u1−α/2 tal que Φ(u1−α/2

)= 1− α/2 y Φ

(−u1−α/2

)= α/2 y

(−u1−α/2 <

X − µσ/√n< u1−α/2

)= 1− α (6.1)

y “despejando” µ

(+u1−α/2 >

−X + µ

σ/√n

> −u1−α/2

(X + u1−α/2

σ√n> µ > X − u1−α/2

σ√n

)pues al multiplicar por −1 la desigualdad cambia de sentido. Reescribiendo la ultima en el

orden natural

(X − u1−α/2

σ√n< µ < X + u1−α/2

σ√n

)= 1− α

Aquı(X ± u1−α/2

σ√n

)es un intervalo aleatorio para µ: a la larga el 100 (1− α) % de sus

valores(x± u1−α/2

σ√n

)calculados con diferentes muestras realizaran el suceso (incluiran a

µ). Ahora, si en una muestra particular se obtiene el valor x diremos que

µ ∈(x± u1−α/2

σ√n

)con una confianza del 100 (1− α) %.

6.2. Intervalos para la normal 135

Ejemplo 6.2. Si, por ejemplo, X ∼ N (µ, 3) y la muestra es (1.2, 3.4, 0.6, 5.6) entonces

x = 2.7 y si elegimos 1− α = 0.95 es u1−α/2 = u0.975 = 1.96 y

µ ∈(

2.7± 1.96× 3√4

)= (−0.24, 5.64)

con una confianza del 95 %.

Si se desea aumentar la confianza al 99 %, es decir 1−α = 0.99, es u1−α/2 = u0.995 = 2.58 y

µ ∈(

2.7± 2.58× 3√4

)= (−1.17, 6.57)

Tambien puede interesar calcular un lımite inferior o superior para θ (o intervalos unilaterales,

mientras que los anteriores son bilaterales):

Definicion 6.3. Si T es un estadıstico tal que

P (T < θ) = 1− α

T es un lımite inferior para θ de probabilidad 1 − α. Cada realizacion t es un lımite

inferior para θ de confianza 1− α.

P (θ < T ) = 1− α

T es un lımite superior para θ de probabilidad 1 − α. Cada realizacion t es un lımite

superior para θ de confianza 1− α.

El calculo se hara como en el caso bilateral mediante la variable pivote.

Ejemplo 6.3. (cont.) un lımite superior de confianza 1 − α para µ es evidentemente µ <

x+ u1−ασ√n

. Si se elige 1− α = 0.95, es u0.95 ≈ 1.64 y con la muestra del ejemplo 2 resulta

2.7 + 1.64 3√4

= 5.16 concluyendose que µ < 5.16 con una confianza del 95 %.

6.2. Intervalos para la normal

6.2.1. Intervalos para µ

Como ya se sabe (ejemplo 6.1) una variable pivote para µ cuando σ es conocida es

X − µσ/√n∼ N (0, 1)

y el intervalo de confianza 1− α para µ resulta(x± u1−α/2

σ√n

Sin embargo, cuando σ es desconocida, el intervalo anterior es inutil pues no se puede

calcular su valor. La idea natural es modificar la variable pivote sustituyendo el σ desconocido

por su estimador S (la desviacion tıpica muestral) y la consecuencia es (ver Complementos)

que la nueva variable, que ya no es N (0, 1), sin embargo tambien tiene una densidad de

probabilidad completamente conocida, llamada t de Student de parametro (n− 1)

X − µS/√n∼ t (n− 1)

Para nuestro proposito basta saber que las densidades de Student dependen de un parametro

k, sea f (t | k), y tienen forma simetrica alrededor del origen, con maximo en 0 y decreciendo

asintoticamente para t = ±∞, tanto mas rapidamente cuanto mayor sea k. Ademas

lımk→∞

f(t | k) =1√2πe−

es decir, la densidad normal de media 0 y varianza 1. El calculo de probabilidades con la t

de Student se realiza aproximando numericamente las integrales. Para nuestras aplicaciones

nos serviremos de la tabla C.3 en la que se dan, para algunos valores de α y del parametro

k, los cuantiles tα, es decir P (T < tα) = α; tengase en cuenta ademas que, de la simetrıa

respecto al origen, P (T < t) = 1− P (T < −t).

Fijada una probabilidad 1− α se conoce entonces el cuantil t1−α/2 tal que

(−t1−α/2 <

X − µS/√n< t1−α/2

)= 1− α (6.2)

y “despejando” µ (ejemplo 1) queda

(X − t1−α/2

S√n< µ < X + t1−α/2

)= 1− α

Ahora, si en una muestra particular se obtienen los valores x de X y s de S, un intervalo de

confianza 1− α para µ es 2 3 (x± t1−α/2

)2Muchos de estos intervalos estan recogidos en las Normas Industriales. Por ejemplo este para µ corresponde

a la UNE 66040:2003 (ISO 2602:1980)

3En Metrologıa (ver p.e. www.cem.es y The NIST Reference on Constants, Units and Uncertainty

www.nist.gov) la notacion habitual es simplemente: (x± s/√n) U.

−5 0 50

N(0,1)

Student(5)

Figura 6.1: Densidades Student(5) y N(0, 1)

Analogamente se obtienen los lımites superior e inferior

µ < x+ t1−αs√n

µ > x− t1−αs√n

Ejemplo 6.4. Se dispone de la muestra (18, 22, 21, 23, 21, 22, 21, 21, 18, 19) de medidas de la

concentracion de arsenico en µg/L en un agua para consumo. Aceptando valido un modelo

X ∼ N (µ, σ), construyamos un intervalo de confianza 1− α = 0.95 para µ.

La estimacion del valor medio µ es

∑xi =

10= 20.6 µg /L

la estimacion de σ2 es

n− 1

∑(xi − x)2 =

n− 1

(∑x2i −

(∑xi

(4270− 1

10× 2062

)= 2.9333

y la de σ

s =√

2.9333 = 1.7127 µg /L

En la distribucion de Student de parametro n− 1 = 9 es t1−α/2 = t0.975 = 2.2622, ası que

t1−α/2s√n

= 2.2622× 1.7127√10

= 1.2252

es decir, con una confianza del 95 %

µ ∈ (20.6± 1.23) µg /L

Ejemplo 6.5. (cont) Obtengamos ahora un lımite superior. Con 1− α = 0.95 en la distri-

bucion de Student de parametro n− 1 = 9 es t1−α = t0.95 = 1.8331, ası que

x+ t1−αs√n

= 20.6 + 1.8331× 1.7127√10

= 21.593

es decir, con una confianza del 95 % es

µ < 21.6 µg /L

6.2.2. Tamanos de muestra

En el caso σ conocida la formula (6.1) puede reescribirse

(∣∣X − µ∣∣ < u1−α/2σ√n

)= 1− α

mostrando que

ε = u1−α/2σ√n

es una cota del error de aproximacion∣∣X − µ∣∣. Es decir, con confianza 1−α el error cometido

al aproximar µ por x es inferior a ε.

Es sencillo ahora responder a: ¿que tamano n de muestra hay que utilizar para, con confianza

1− α, aproximar µ con un error menor que ε dado?

ε = u1−α/2σ√n→ n =

(u1−α/2

Ejemplo 6.6. (cont. del 6.2) Con X ∼ N (µ, 3) y la muestra de tamano 4 se estimo µ

por x = 2.7 con una cota de error ε = 1.96 3√4

= 2.94 para la confianza del 95 %, es decir

µ ∈ (2.7± 2.94) con dicha confianza. Si se deseamos aproximar con una cota ε = 1.5 se

necesita utilizar una muestra de tamano

= 15.3664

es decir, la media x de una muestra de 16 observaciones aproximara µ con un error menor

que 1.5 y confianza del 95 %.

Sin embargo en el caso σ desconocida hay que utilizar la formula (6.2), que puede reescribirse:

(∣∣X − µ∣∣ < t1−α/2S√n

)= 1− α

y la cota del error de estimacion

ε = t1−α/2S√n

es aleatoria (depende de los valores de la muestra). Sin embargo en la practica, si se trabaja

con muestras relativamente grandes 4: 1) los valores de S seran a su vez relativamente

estables (recuerdese que S converge en probabilidad a σ) y, basandose en la experiencia

previa o en una muestra piloto, se tendra una idea de su orden de magnitud, digamos un

valor aproximado s0. 2) Y como ademas entonces t1−α/2 → u1−α/2 se tiene que el tamano n

de muestra que hay que utilizar para, con confianza 1− α, aproximar µ con un error menor

que ε dado es del orden de

n =(u1−α/2

6.2.3. Intervalos para σ

Sea S2 la varianza muestral, estimador de σ2. Una variable pivote, con densidad ji-cuadrado

de parametro (n− 1) es (ver Complementos):

(n− 1)S2

σ2∼ χ2 (n− 1)

Fijada una probabilidad 1 − α se conocen los cuantiles χ2α/2 y χ2

1−α/2 (las densidades ji-

cuadrado no son simetricas) tales que

(χ2α/2 <

(n− 1)S2

σ2< χ2

1−α/2

)= 1− α

y “despejando” σ

χ2α/2

(n− 1)S2>

χ21−α/2

√n− 1

χ2α/2

> σ > S

√n− 1

χ21−α/2

pues al tomar el recıproco la desigualdad cambia de sentido. Reescribiendo la ultima en el

orden natural

√n− 1

χ21−α/2

< σ < S

√n− 1

χ2α/2

)= 1− α

Ahora, si en la muestra particular se obtiene el valor s de S, un intervalo de confianza 1−αpara σ es (

√n− 1

χ21−α/2

√n− 1

χ2α/2

)4Este argumento se utiliza en los llamados metodos de Monte-Carlo.

Ejemplo 6.7. (cont. del 6.4) la estimacion de σ resulto

s = 1.7127 µg /L

Con 1− α = 0.95 en la distribucion ji-cuadrado de parametro n− 1 = 9 es χ2α/2 = χ2

0.025 =

2.7004 y χ21−α/2 = χ2

0.975 = 19.0228

√n− 1

χ21−α/2

= 1.7127×√

19.0228= 1.1781

√n− 1

χ2α/2

= 1.7127×√

2.7004= 3.1267

σ ∈ (1.18, 3.13) µg /L

Analogamente se obtienen los lımites inferior y superior que resultan ser

σ > s

√n− 1

χ21−α

σ < s

√n− 1

Ejemplo 6.8. (cont.) Con 1−α = 0.95 en la distribucion ji-cuadrado de parametro n−1 = 9

es χ2α = χ2

0.05 = 3.3251

√n− 1

= 1.7127×√

3.3251= 1.645

σ < 1.65 µg /L

6.3. Intervalos asintoticos

Una variable pivote para E (X) = µ si el tamano de muestra es suficientemente

grande puede obtenerse por cualquiera de los dos argumentos siguientes:

1 Basados en el Teorema Central del Lımite (no parametricos):

Cualquiera que sea la ley de X (conocida o no), con E(X) = µ y V ar (X) = σ2, segun el

teorema 4.1 es ∑Xi − nµσ√n

=X − µσ/√n→ N(0, 1) si n→∞

6.3. Intervalos asintoticos 141

Puede probarse 5 que si la σ, generalmente desconocida, se sustituye por cualquier estimador

T que converja en probabilidad a σ, la convergencia a la N (0, 1) sigue siendo cierta. Ası que

X − µT/√n→ N(0, 1) si n→∞

es una variable pivote para µ. El intervalo de probabilidad 1−α para µ tiene la forma general:(X ± u1−α/2

)Ejemplo 6.9. En particular, cualquiera que sea X, la desviacion tıpica muestral S converge

en probabilidad a σ (ejemplo 5.6) y (X ± u1−α/2

)es un intervalo de probabilidad 1− α para E (X) = µ.

Ejemplo 6.10. Si X es de Poisson de parametro λ es E (X) = V ar (X) = λ (ver 4.5), es

decir, con la notacion de arriba µ ≡ λ y σ ≡√λ y por lo tanto

X − λ√λ/n

→ N(0, 1) si n→∞

y ahora podemos sustituir el σ ≡√λ por cualquier estimador que converja en probabilidad a√

λ y el mas eficiente (mejor que S) es√X de manera que

X − λ√X/n

→ N(0, 1) si n→∞

y X ± u1−α/2

es un intervalo de probabilidad 1− α para λ.

2 Basados en el estimador MV (parametricos):

En condiciones muy generales (vease la nota de la Seccion 5.10 relativa a la consistencia de

los estimadores MV) se prueba el siguiente teorema:

Teorema 6.1. Sea Tn el estimador MV del parametro θ para un tamano de muestra n. La

funcion de distribucion deTn − θ√

nI(θ)

5En virtud del llamado lema de Slutsky.

converge, cuando n −→ ∞, a la N(0, 1). El resultado anterior vale aun si se sustituye I(θ)

por un estimador consistente TI de I(θ). De forma que:

Tn − θ√1

converge, cuando n −→∞, a la N(0, 1).

Corolario 6.1. La variable aleatoriaTn − θ√

es una variable pivote para θ. En consecuencia un intervalo de probabilidad 1 − α para θ

tiene la forma general: (Tn ± u1−α/2

)Ejemplo 6.11. Si X es de Bernoulli, el estimador MV de p es X e I (p) = [p(1− p)]−1

(ejemplo 5.15). Entonces:

X − p√p(1− p)/n

−→ N(0, 1) si n −→∞

Y aun, como el estimador MV de I(p) es TI =[X(1−X)

]−1:

X − p√X(1−X)/n

−→ N(0, 1) si n −→∞

Entonces X ± u1−α/2

√X(1−X)

es un intervalo de probabilidad 1− α para p.

Ejemplo 6.12. Si X es N(µ, σ), el estimador MV de µ es X e I (µ) = 1σ2 (ejemplo 5.14).

Entonces:X − µσ/√n−→ N(0, 1) si n −→∞

Y aun, como el estimador MV de I(µ) es TI = 1S2 :

X − µS/√n−→ N(0, 1) si n −→∞

Entonces el intervalo de probabilidad 1− α para µ tiene la forma:(X ± u1−α/2

)Intervalo identico al obtenido en el ejemplo 6.9

6.4. Intervalos para p 143

6.4. Intervalos para p

Si X ∼ B(1, p), es decir P (X = 1) = p y P (X = 0) = 1 − p, con E (X) = p y V ar (X) =

p (1− p), y (X1, X2, ..., Xn) una muestra aleatoria simple, el estimador MV de p es X, que

ademas es insesgado y eficiente. Para construir un intervalo de confianza para p, cualquiera

que sea el valor de n, no existe en este caso una Va pivote y es preciso recurrir a un metodo

mas general 6. Nosotros nos conformaremos con la solucion aproximada, valida para n→∞,

obtenida en el ejemplo 6.11. Solucion aproximada que tiene gran valor practico como veremos

en la proxima subseccion.

Observese, por otro lado, que el intervalo obtenido en el ejemplo 6.11 tambien se puede

obtener basandose en el Teorema Central del Lımite. La variable pivote en este caso serıa:

X − µS/√n≡ X − p√

X(1−X)/n→ N(0, 1) si n→∞

ya que (ver 5.1)

n− 1X(1−X

)≈√X(1−X

)si n→∞

y el intervalo de probabilidad 1− α para p es 7:(X ± u1−α/2

√X(1−X)/n

), (6.4)

que coincide con (6.3).

Como ya se dijo en 4.4 en la practica suele aceptarse que la aproximacion es suficiente en

cuanto mınnp, n(1 − p) > 10, de modo que el caso mas favorable se tiene cuanto mas

proximo sea p a 1/2.

La semilongitud del intervalo resultante

ε = u1−α/2

√X(1−X

)/n (6.5)

es aleatoria. Sin embargo el mayor valor que puede tomarX(1−X

)es 0.25 (cuandoX = 0.5)

ası que, para tener una semilongitud no mayor que ε0 dada se necesita

(u1−α/2

(Ademas habra de ser suficientemente grande como para que valga la aproximacion que

justifica el intervalo).

Ejemplo 6.13. con 1 − α = 0.95 es u0.975 = 1.96, si queremos ε ≤ 0.02 resulta n =

(1.96/0.02)2 0.25 = 2401 y si ε ≤ 0.01 resulta n = (1.96/0.01)2 0.25 = 9604.

6Llamado de Clopper y Pearson.7Es posible aun incluir una correccion de continuidad como se vio en 4.4 restando y sumando 1/ (2n) a los

lımites inferior y superior respectivamente.

6.4.1. Aplicacion al muestreo de poblaciones finitas

Sea una poblacion de N individuos de los cuales Np son de cierta clase (0 < p < 1 es su

fraccion desconocida). Para estimar p tomaremos una muestra (X1, X2, ..., Xn) sin reem-

plazamiento. Cada Xi vale 1 si el individuo seleccionado es de la clase de interes y 0 en

otro caso. Una estimador insesgado de p es (ver ejemplo 5.32) la proporcion experimental

X =∑Xi/n.

Ahora deseamos construir un intervalo de confianza para p y veremos que para ello se puede

utilizar, bajo ciertas condiciones, el resultado de la seccion precedente 8.

Dicho resultado se aplica a una muestra aleatoria (X1, X2, ..., Xn) en la que P (Xi = 1) = p y

las Xi son independientes (muestra aleatoria simple; la distribucion de∑Xi es binomial).

Estas condiciones se verificarıan si la muestra se hubiese tomado con reemplazamiento

(cada individuo se devuelve a la poblacion para la siguiente extraccion).

Sin embargo en la muestra sin reemplazamiento, aunque sigue siendo cierto que P (Xi = 1) =

p, las Xi no son independientes (ahora la distribucion de∑Xi es hipergeometrica). En

particular las probabilidades condicionales no son iguales a la incondicionales (como exige la

independencia):

(Xk+1 = 1 |

k∑i=1

)=Np−

∑ki=1 xi

N − k

Sin embargo, con n fija

Np−∑k

i=1 xiN − k

∑ki=1 xi/N

1− k/N→ p si N →∞

Ası que en esas condiciones (n << N ; en la practica se usa en cuanto n < 0.1N) las Xi

son practicamente independientes 9. Si ademas n es suficientemente grande este argumento

justifica el uso del intervalo (6.4) para p cuando se muestrea sin reemplazamiento una po-

blacion finita, sea para estimar la calidad de un lote de piezas, sea para realizar un sondeo

de opinion.

Ejemplo 6.14. la mayor parte de los sondeos se realizan con 1 − α = 0.95 y entonces

u1−α/2 = u0.975 = 1.96, y si se encuestan n = 1000 personas el error es menor que (caso

peor de (6.5) con X = 0.5)

ε = 1.96

√0.25

1000= 0.031

8Un intervalo exacto para p, cualquiera que sean los valores de n y N , puede construirse con el metodo de

Clopper y Pearson para la hipergeometrica.9De otra manera: en estas condiciones la funcion de masa hipergeometrica converge a la funcion de masa

binomial.

6.5. Intervalos de tolerancia para la normal 145

aproximadamente del 3 %. Observese que ello es independiente del tamano N >> n de la

poblacion investigada.

6.5. Intervalos de tolerancia para la normal

Consideremos el caso X ∼ N (µ, σ) donde µ y σ son desconocidas e intentemos estimar,

a partir de una muestra de X, un intervalo (xL, xU ) tal que P (xL < X < xU ) = p fijada.

P (xL < X < xU ) = P

(xL − µσ

< U <xU − µσ

(−u(1+p)/2 < U < u(1+p)/2

donde U ∼ N (0, 1), resulta

xL = µ− u(1+p)/2σ

xU = µ+ u(1+p)/2σ

y ahora, como µ y σ son desconocidos podrıamos sustituirlos por sus estimaciones x y s,

resultando el(x− u(1+p)/2s, x+ u(1+p)/2s

), pero ello no asegura en absoluto el contenido de

probabilidad p a este intervalo (dependiendo de x y s puede ser menor, igual o mayor que

p). Una solucion son los llamados intervalos de tolerancia 10 que definimos a continuacion.

Definicion 6.4. Sea una variable aleatoria X y sean 1−α y p fijados. Un intervalo (xL, xU )

construido a partir de una muestra de X en el que

P (xL < X < xU ) ≥ p

con confianza 1− α, se llama intervalo de tolerancia de contenido p.

Para el caso X ∼ N (µ, σ) donde µ y σ son desconocidas, el intervalo es de la forma xL =

x − ks y xU = x + ks. El valor de k depende del contenido p, de la confianza 1 − α y del

tamano de muestra n. No hay una expresion explıcita y debe ser aproximado numericamente

(ver Complementos).

En la tabla C.4 se dan los valores de k correspondientes a algunos valores de p, 1− α y n.

Ejemplo 6.15. Se dispone de una muestra de n = 25 obleas de silicio y se mide su resisti-

vidad (en Ω cm) resultando x = 97.07 y s = 0.0268. Calculemos un intervalo de tolerancia

con p = 0.95 y 1− α = 0.99

10El nombre proviene de las primeras aplicaciones a problemas de control de calidad industrial.

En la tabla C.4 se lee k = 2.984 ası que

xL = 97.07− 2.984× 0.0268 = 96.99

xU = 97.07 + 2.984× 0.0268 = 97.15

con una seguridad del 99 % el 95 % de las obleas producidas tienen una resistividad en

(96.99, 97.15) Ω cm.

Definicion 6.5. Sea una variable aleatoria X y sean 1− α y p fijados. Un lımite xU cons-

truido a partir de una muestra de X tal que

P (X < xU ) ≥ p

con confianza 1− α, se llama lımite de tolerancia superior de contenido p

Un lımite xL construido a partir de una muestra de X tal que

P (xL < X) ≥ p

con confianza 1− α, se llama lımite de tolerancia inferior de contenido p.

Para el caso X ∼ N (µ, σ) donde µ y σ son desconocidas, el lımite superior es de la forma

xU = x+ ks y el inferior xL = x− ks. El valor de k depende del contenido p, de la confianza

1− α y del tamano de muestra n, y es el mismo para ambos lımites. Su expresion explıcita

se da en los Complementos.

En la tabla C.5 se dan los valores de k correspondientes a algunos valores de p, 1− α y n.

Ejemplo 6.16. (cont. del 6.4) hallemos un lımite superior de contenido p = 0.95 y confianza

1− α = 0.95

Con n = 10 en la tabla C.5 se lee k = 2.911

x+ ks = 20.6 + 2.911× 1.7127 = 25.586

ası que, con una confianza del 95 % el 95 % de los valores de X son menores que 25.6µg /L

En estudios de contaminacion se determina un lımite superior en una poblacion no contami-

nada (por ejemplo, el 95 % de las medidas en una poblacion no contaminada esta por debajo

del valor xS). Despues, si una medida de control del contaminante resulta por encima de xS,

ello es una indicacion de posible contaminacion.

Ejemplo 6.17. (cont. del 6.15) Hallemos lımites superior e inferior de contenido p = 0.95

y confianza 1− α = 0.99

6.6. Pruebas de hipotesis 147

Con n = 25 en la tabla C.5 se lee k = 2.633, ası que con una confianza del 99 % el 95 % de

las obleas tienen una resistividad por debajo de

x+ ks = 97.07 + 2.633× 0.0268 = 97.141 Ω cm

Y con una seguridad del 99 % el 95 % de las obleas tienen una resistividad superior a

xL = 97.07− 2.633× 0.0268 = 96.999 Ω cm

6.6. Pruebas de hipotesis

6.6.1. Metodologıa general

Formular y comprobar hipotesis es parte esencial de la investigacion cientıfica. En la metodo-

logıa estadıstica las hipotesis se traducen en preguntas sobre la distribucion de las variables

aleatorias implicadas, como, por ejemplo: ¿es X normal?, ¿es µX = 1?, ¿es p = 12?, ¿es

µX = µY ?, ¿siguen X e Y la misma ley de probabilidades?, ¿son X e Y independientes? etc.

En esta seccion se va a explicar cual es la metodologıa empleada en las pruebas sobre parame-

tros (µ, σ, p, ...) de distribuciones conocidas. En primer lugar presentaremos un ejemplo

introductorio.

Ejemplo 6.18. (cont. del 6.4) El lımite de la concentracion media, µ, de arsenico en agua

potable en Espana (Real Decreto 140/2003) es de 10 µg/L. Se debe decidir si el agua del

ejemplo 6.4 es apta para consumo (µ < 10 µg/L) o no (µ ≥ 10 µg/L). Hay pues dos

hipotesis sobre el valor de µ:

H0: el agua no es apta para consumo (µ ≥ 10 µg/L),

H1: el agua es apta para consumo (µ < 10 µg/L).

Un lımite superior de probabilidad 0.95 para el parametro µ desconocido es (ver 6.2.1)

LS = X + t0.95S√n

A la larga (usando muchas muestras diferentes) el suceso µ < LS se realiza el 95 % de las

veces (es decir, el valor calculado `S de LS estara por encima del valor fijo y desconocido

µ). Si resultase `S < 10 podrıamos concluir que tambien µ < 10.

Rechazaremos pues H0 (elegimos la hipotesis H1) si `S < 10 (con la confianza de que, a la

larga, la decision sera erronea menos del 5 % de la veces11). No rechazaremos H0 si `S ≥ 10

(con la confianza de que, a la larga, la decision sera correcta al menos el 95 % de la veces).

Con la muestra del ejemplo 6.4 se obtuvo un lımite superior `S = 21.6 µg/L para µ con una

confianza del 95 %. Como `S > 10 lo prudente es no rechazar H0. El resultado de la prueba

es que el agua no es apta para consumo.

¿Que hubiera sucedido si se hubiera situado el lımite para la concentracion media de As en

agua potable en 25 µg/L (hasta diciembre de 2003 el lımite legal en Espana era de 50 µg/L)?

Las hipotesis son ahora:

H0: el agua no es apta para consumo ( µ ≥ 25 µg/L),

H1: el agua es apta para consumo ( µ < 25 µg/L).

Como `S = 21.6 < 25 se rechaza H0 y se concluye (con la confianza de que, a la larga, la

decision sera erronea menos del 5 % de la veces) que el agua es apta para consumo.

Siempre que se disponga de un intervalo de confianza sobre un parametro es posible utilizar

un razonamiento semejante para decidir entre dos hipotesis.

A continuacion se explica una metodologıa mas general que recibe el nombre de pruebas de

hipotesis y en la que se valoran de modo mas explıcito todos los riesgos.

Sea la Va X con funcion de densidad o masa f(x | θ) que depende del parametro θ ∈ Θ

desconocido y una particion Θ = Θ0 ∪Θ1 y Θ0 ∩Θ1 = ∅.

Se trata de comprobar hasta que punto las observaciones experimentales son estadısticamente

compatibles con las hipotesis

H0 : θ ∈ Θ0

H1 : θ ∈ Θ1

La hipotesis H0 suele llamarse nula y H1 es la alternativa.

Criterio fundamental: Las hipotesis se formulan en cada problema con la intencion de

rechazar H0 solo si la evidencia en su contra es alta.

Por tanto la hipotesis nula se acepta por defecto y solo se rechazara si se encuentra evidencia

suficiente en su contra en un experimento bien disenado. El diseno del experimento se realiza

11Como P (LS > µ) = 0.95 entonces P (LS ≤ µ) = 1 − P (LS > µ) = 1 − 0.95 = 0.05. Ademas

P (LS < 10) ≤ P (LS ≤ µ) si µ ≥ 10 por ser la funcion de distribucion monotona no decreciente. Se con-

cluye que P (LS < 10) ≤ 0.05 si µ ≥ 10. Hemos decidido rechazar H0 si LS < 10, pero si en realidad fuese

µ ≥ 10 entonces H0 es cierta y la decision serıa erronea: la probabilidad de cometer tal error es como maximo

0.05. Por lo tanto la probabilidad de no cometerlo (no rechazar H0 correctamente) es como mınimo de 0.95.

antes de disponer de los datos y nunca a la vista de estos.

Ejemplo 6.19. Un zahorı afirma que es capaz de descubrir la presencia de agua. El tiene

que convencernos de que no es un impostor. Si p es su proporcion de aciertos a la larga, las

hipotesis son

H0 : p = 1/2

H1 : p > 1/2.

Ejemplo 6.20. Se sugiere que un nuevo tratamiento A es mas eficaz que el habitual B para

tratar una enfermedad. Los ensayos clınicos para determinarlo se disenan de manera que un

grupo de pacientes recibe el A, y otro grupo recibe el B. Ambos grupos son semejantes en

cuanto a edades, sexos y caracterısticas de la enfermedad. Ademas ni enfermos ni medicos

saben cual es uno u otro grupo (ensayos doble ciego). Los grupos son de centenares o miles de

pacientes. Ensayos similares se realizan para determinar si una medicina es eficaz: el grupo

A recibe la medicina y el B recibe un placebo. Si pA y pB son las proporciones de curacion,

las hipotesis son

H0 : pA = pB

H1 : pA 6= pB

Ejemplo 6.21. (Origen de la masa) El modelo estandar de fısica de partıculas describe

las partıculas fundamentales y las fuerzas (electromagnetica, debil y fuerte) entre ellas. Para

completar el modelo se ha postulado que las partıculas adquieren su masa interaccionando con

un campo (de Higgs) que impregna el vacio y que una excitacion suficientemente energetica

de este campo debe producir un nuevo tipo de partıcula masiva, el boson de Higgs (H). Dicho

de otro modo, el Boson de Higgs constituye el cuanto del campo de Higgs (la mas pequena

excitacion posible de este campo). Uno de los principales objetivos del LHC del CERN es

someter a prueba esta teorıa.

El LHC hace colisionar dos haces de protones que giran en su anillo en direcciones opuestas

a velocidad proxima a la de la luz, produciendose en su cruce decenas a centenares de otras

partıculas. Unos detectores identifican los candidatos (eventos) que se ajustan a los diferentes

modos de decaimiento del H que predice su teorıa. Estos eventos pueden haber sido producidos

por el H, pero tambien pueden ser el resultado de los procesos ya conocidos (fondo). Las

hipotesis que se consideran son:

H0 : el numero observado de eventos es una mera fluctuacion estadıstica del fondo.

H1 : el numero observado de eventos es debido a la produccion del H.

Definicion 6.6. Para realizar la prueba se usara un estadıstico T construido con una mues-

tra de X llamado estadıstico de prueba12 cuya ley de probabilidades sea conocida para

12en ingles test statistic

cada valor de θ.

La forma de T debe permitirnos discriminar que valores tendera a tomar si θ ∈ Θ0 y cuales

si θ ∈ Θ1 para poder decidir en consecuencia.

Definicion 6.7. Se llama region crıtica al subconjunto C de los valores posibles de T tal

que si T ∈ C se rechazara H0.

Dependiendo del problema las formas habituales de la region crıtica son T > c, T < c

(pruebas unilaterales) y |T | > c (pruebas bilaterales).

Ejemplo 6.22. (cont. del 6.19) Para realizar la prueba se le presentaran n botes tapados,

algunos de los cuales contienen agua y otros no, y se le pide que los identifique. Cada vez

que decide se realiza una Va Xi que vale 1 si acierta, con probabilidad p, y 0 si falla, con

probabilidad 1− p. Se decidira a la vista del numero total de aciertos X =∑Xi.

Si p > 1/2 la variable X tendera a tomar valores mas altos (mas proximos a n) que si

p = 1/2.

Se fijara entonces un numero de aciertos c y una region crıtica de la forma X > c: si este

suceso se realiza se rechazara H0. Sin embargo podemos equivocarnos: en realidad p = 1/2 y

por azar resulta X > c, un numero de aciertos alto.

Ejemplo 6.23. Sea X ∼ N (µ, σ) con µ desconocida y σ conocida, y la prueba:

H0 : µ ≤ µ0

H1 : µ > µ0

En principio para decidir sirve X −µ0, que tendera a tomar valores relativamente mas altos

bajo H1 (mayores que cero, pues entonces X tiende a tomar valores mayores que µ0) que bajo

H0 (proximos a cero o negativos, pues entonces X tiende a valer µ0 o menos). Equivalente

a ella y con ley conocida (en particular N (0, 1) si µ = µ0) es:

T =X − µ0

σ/√n

La region crıtica debe ser de la forma T > c, o lo que es igual X > µ0 + cσ/√n, donde c

esta por determinar.

Una vez especificada la region crıtica C, la prueba se realiza calculando el valor de T en la

muestra, sea t, y: si t ∈ C se rechaza H0, mientras que si t /∈ C no se rechaza H0.

Pero cualquiera que sea la regla de decision que se adopte (T y C) pueden resultar los

siguientes casos al realizar la prueba:

H0 es cierta H1 es cierta

no se rechaza H0 correcto error II

se rechaza H0 error I correcto

Podemos errar pues de dos formas y en cada caso con diferentes probabilidades segun el

verdadero valor de θ:

La probabilidad de rechazar H0 indebidamente (error I) es

P (T ∈ C | θ ∈ Θ0)

La probabilidad de aceptar H0 indebidamente (error II) es

P (T /∈ C | θ ∈ Θ1)

Lo ideal serıa elegir C para que dichas probabilidades fuesen lo mas pequenas posible. Sin

embargo no pueden controlarse a la vez y ademas, en general, unas aumentan cuando las

otras disminuyen.

El comportamiento de la prueba para cada valor posible de θ (en particular las probabilidades

de error anteriores) queda resumido por la funcion siguiente:

Definicion 6.8. Sea T el estadıstico de prueba y C la region crıtica. La funcion de po-

tencia13 de la prueba es

P (T ∈ C | θ) ∀θ ∈ Θ

La funcion de potencia ideal valdrıa 0 si θ ∈ Θ0 y 1 si θ ∈ Θ1.

Ejemplo 6.24. (cont del 6.23) La funcion de potencia se calcula ası:

(X − µ0

σ/√n> c | µ

(X − µσ/√n

+µ− µ0

σ/√n> c | µ

(X − µσ/√n> c− µ− µ0

σ/√n| µ)

= 1− Φ

(c− µ− µ0

σ/√n

)∀µ

y sus valores dependen del c que se utilice.

En base al Criterio fundamental adoptado antes nuestro interes debe ser controlar la

probabilidad de error de tipo I, rechazar H0 indebidamente.

13En el control estadıstico de la calidad se suele emplear la curva de eficacia o curva OC (operation charac-

teristic curve): P (T /∈ C | θ) ∀θ ∈ Θ.

Definicion 6.9. Se llama nivel de significacion α a la maxima probabilidad que se desea

de rechazar H0 cuando es cierta:

supθ∈Θ0

P (T ∈ C | θ) = α

Ejemplo 6.25. (cont. del 6.24) Hallemos el valor de

supµ≤µ0

(X − µ0

σ/√n> c | µ

)= sup

µ≤µ0

(1− Φ

(c− µ− µ0

σ/√n

))es decir, la mayor probabilidad de rechazar H0 erroneamente.

Si µ = µ0 entonces P(X−µ0σ/√n> c | µ0

)= 1− Φ (c)

Y si µ < µ0 como c− µ−µ0σ/√n> c es Φ

(c− µ−µ0

σ/√n

)> Φ (c) y entonces P

(X−µ0σ/√n> c | µ < µ0

1− Φ (c)

Ası pues

supµ≤µ0

(X − µ0

σ/√n> c | µ

)= 1− Φ (c)

y si se quiere que valga α entonces el c que hay que utilizar es

1− Φ (c) = α→ c = Φ−1 (1− α) = u1−α

En particular si se elige α = 0.05 entonces c = u0.95 = 1.64

Ahora, con la C ası determinada, el suceso T ∈ C es improbable bajo H0 (maxima proba-

bilidad α elegida pequena): si se realiza en la muestra lo mas prudente es rechazar H0, y

se dice en ese caso que la muestra es significativa al nivel α. Al contrario, si T /∈ C no

rechazamos H0: la muestra es compatible con H0, con probabilidad 1− α.

Ejemplo 6.26. (cont. del 6.25) Sea en particular X ∼ N (µ, 1) y la prueba

H0 : µ ≤ 0

H1 : µ > 0

Si con una muestra de tamano n = 16 resulto x = 0.5, el estadıstico de prueba toma el valor

t =0.5− 0

Si se elige α = 0.05 entonces c = u0.95 = 1.64. Y como t > 1.64 se debe rechazar H0: la

discrepancia de la muestra con H0 es significativa al 5 %.

Ejemplo 6.27. (cont. del 6.26) Las funciones de potencia con α = 0.05 y muestras de

tamano n = 16 y n = 50 se dibujan en la figura 6.2.

−0.5 0 0.5 1 1.5

Función de potencia

α=0.05

Figura 6.2: Funciones de potencia con α = 0.05 y muestras de tamano n = 16 y n = 50 para

una distribucion X ∼ N(µ, 1).

Tengase en cuenta que si T es discreta no se puede hallar en general una region crıtica de

nivel de significacion cualquiera.

Ejemplo 6.28. (cont. del 6.22) El valor de c en P (X > c | p = 1/2) = α no puede ser

cualquiera. Si H0 es cierta X es una Va binomial de parametros (10, 1/2) y:

P (T > 6 | p = 1/2) =

)10 10∑k=7

)≈ 0.172

P (T > 7 | p = 1/2) =

)10 10∑k=8

)≈ 0.0547

P (T > 8 | p = 1/2) =

)10 10∑k=9

)≈ 0.0107

de manera que si aceptamos p > 1/2 si identifica 8 o mas, el riesgo de equivocarnos es

aproximadamente del 5 %.

El valor del nivel de significacion α que se usa en una prueba es convencional y su eleccion

depende del ambito de aplicacion (puede estar fijado por normas industriales de calidad) y

de las consecuencias de los errores. En la investigacion cientıfica es mas adecuado el llamado

nivel crıtico.

Definicion 6.10. Sea t el valor observado en la muestra del estadıstico de prueba T . El

nivel crıtico14 de t, denotado p, es el valor de significacion que resulta si se usase t como

lımite de la region crıtica. Un valor α > p conducirıa a rechazar H0 y uno menor a no

rechazar.

Ejemplo 6.29. (cont. del 6.25) Para calcular el lımite c de la region crıtica de nivel α

utilizamos P (T > c | µ = µ0) = α. Para calcular el nivel crıtico de t hallamos el valor de

P (T > t | µ = µ0)

El valor observado es t = 2 y como P (T > 2 | µ = 0) = 1 − Φ (2) = 0.02275, el valor

p = 0.02275 es el nivel crıtico de t. Cualquier eleccion de α mayor que este valor conducirıa

a rechazar H0, y cualquiera menor a no rechazar.

En algunos campos, como en fısica de partıculas y astrofısica, es habitual expresar el nivel

crıtico p en unidades n de desviacion tıpica de la N (0, 1) y se dice: “la significacion es de

nσ”. Si la prueba es unilateral (region crıtica T > c o T < c) de nivel p, el calculo del n

equivalente es

p = 1− Φ (n)→ n = Φ−1 (1− p)

y si bilateral (region crıtica |T | > c)

p = 2 (1− Φ (n))→ n = Φ−1(

1− p

)Ejemplo 6.30. (cont. del 6.21) Una evidencia de la existencia del boson serıa un numero es-

tadısticamente significativo de eventos por encima de la prediccion del fondo. La significacion

se cuantifica por el valor calculado de la probabilidad (valor crıtico p) de que una fluctuacion

del fondo (H0) produzca un exceso de eventos como el observado en el experimento.

En Agosto de 2012 el CERN comunico que en los ultimos experimentos el valor de significa-

cion ha alcanzado los 5.8σ, es decir, la probabilidad de que bajo H0 resulte una fluctuacion

del fondo igual o mayor que lo observado es de 3.3× 10−9.

“These results confirm the very low probability for an excess as large or larger than that

observed to arise from a statistical fluctuation of the background. The excess constitutes the

observation of a new particle with a mass near 125 GeV, manifesting itself in decays to

two photons or ZZ. These two decay modes indicate that the new particle is a boson; the

two-photon decay implies that its spin is different from one” ( CMS-HIG-12-028; CERN-PH-

EP-2012-220).

14En ingles p-value.

6.6.2. Parametros de poblaciones normales

Pruebas sobre la media

Sea X ∼ N(µ, σ). Tomemos como referencia la prueba (bilateral)

H0 : µ = µ0

H1 : µ 6= µ0

Para las alternativas (unilaterales) µ > µ0 o µ < µ0 se cambia adecuadamente la region

crıtica.

Si σ es conocido un estadıstico de prueba es

T =X − µ0

σ/√n

que tiende a valer 0 si µ = µ0 (pues X siempre estima el verdadero µ) y alejarse de 0 en otro

La region crıtica es de la forma |T | > c. Ademas si µ = µ0 la variable T es N(0, 1) y para

una significacion α resulta c = u1−α/2:

(∣∣X − µ0

∣∣σ/√n

> u1−α/2 | µ0

Si σ es desconocida el estadıstico es:

T =X − µ0

S/√n

que si µ = µ0 tiene distribucion de Student (n − 1) y para una significacion α resulta

c = t1−α/2:

(∣∣X − µ0

∣∣S/√n

> t1−α/2 | µ0

Ejemplo 6.31. (cont. del 6.18) En las pruebas de hipotesis es importante elegir adecuada-

mente cual es la hipotesis por defecto (H0) y cual la alternativa (H1). De esta eleccion puede

depender el resultado: si, por ejemplo, en el ejemplo 6.18 se hubiera puesto el lımite para la

potabilidad en 20 µg/L, las hipotesis serıan:

H1: el agua es apta para consumo (µ < 20 µg/L).

Al ser una prueba unilateral por la izquierda, el lımite c de la region crıtica de nivel de

significacion 0.05 sera c = −t0.95 = −1.8331. Como x−20s/√n

= 20.6−201.7127/

= 1.1078 > −t0.95,

el valor del estadıstico de prueba no esta en la region crıtica y no se rechaza H0. La prueba

indica que no hay evidencia suficiente para afirmar que el agua es apta para consumo.

Si ahora se intercambian las hipotesis:

H0: el agua es apta para consumo (µ < 20 µg/L),

la prueba se transforma en una prueba unilateral por la derecha. En este caso el lımite c

de la region crıtica de nivel de significacion 0.05 sera c = t0.95 = 1.8331. Al verificarsex−20s/√n

= 20.6−201.7127/

= 1.1078 < t0.95, el valor del estadıstico de prueba no esta en la region

crıtica y no se rechaza H0. La prueba indica que no hay evidencia suficiente para afirmar

que el agua no es apta para consumo.

Observacion 6.1. En el ejemplo 6.31, utilizando la misma muestra, se ha llegado a dos con-

clusiones distintas al intercambiar las hipotesis. En el primer caso se concluye que el agua no

es apta para consumo y en el segundo que sı lo es. En este ejemplo la eleccion adecuada de

las hipotesis es la primera (H0: agua no potable, H1: agua potable). Como se ha visto mas

arriba, las pruebas se disenan de forma que la hipotesis H0 se rechace solo si la evidencia

estadıstica en su contra es muy alta, por lo que H0 debe ser la hipotesis mas conservadora

y segura. Conservadora en el sentido de que es lo que suponemos (experiencia previa con

problemas similares, homogeneidad, ...) que sucede antes de realizar la prueba. Por ejemplo,

en el caso que nos ocupa, si se esta haciendo la medicion a la salida de un foco de contami-

nacion, lo razonable es suponer a priori que el agua esta contaminada. Segura en el sentido

de que, dado que las pruebas de hipotesis se disenan con el objetivo de minimizar la maxima

probabilidad de rechazar H0 cuando es cierta (error I). Es mas seguro, volviendo a nuestro

ejemplo, minimizar la probabilidad de concluir que el agua no esta contaminada cuando

realmente lo esta, que minimizar la probabilidad de concluir que el agua esta contaminada

cuando realmente no lo esta.

Observacion 6.2. En la primera prueba del ejemplo 6.31 (H0: µ ≥ 20 µg/L, H1:µ <

20 µg/L) se podrıa haber utilizado el lımite superior de confianza del 95 % calculado en el

ejemplo 6.18, obteniendose el mismo resultado: `S = 21.6, `S ≥ 20 y se rechaza H0. Observese

que en ambos casos se esta haciendo el mismo calculo:

1. En el caso de la prueba unilateral por la izquierda, la region crıtica esta determinada

por T < −t0.95, que para una muestra cualquiera se convierte en

x < 20− t0.95s√n

2. En el caso del lımite superior de confianza la region crıtica esta determinada por “µS <

20”. Como por otro lado µs = x+ t0.95s√n

, se tiene que

20 > x+ t0.95s√n,

que es equivalente a (6.6).

Por lo tanto la prueba de 6.18, con LS = X + t0.95S√n< µ0 como region crıtica, es la misma

que la de 6.31 con T = X−µ0S/√n< −t0.95 = t0.05 como region crıtica.

Siguiendo el mismo razonamiento, la segunda prueba (H0: µ < 20 µg/L, H1:µ ≥ 20 µg/L)

se podrıa haber resuelto calculando un lımite inferior de confianza del 95 %.

Comparacion de dos medias

Sean X ∼ N(µX , σX) e Y ∼ N(µY , σY ), de las que se han tomado sendas muestras inde-

pendientes de tamanos m y n, y la prueba:

H0 : µX = µY

H1 : µX 6= µY

Si σX y σY son conocidos, el estadıstico de prueba es

T =X − Y√σ2Xm +

con distribucion N (0, 1) si H0 es cierta.

Si σX = σY = σ y conocido, el estadıstico de prueba es

T =X − Y

1m + 1

con distribucion N (0, 1) si H0 es cierta.

Si σX = σY = σ y desconocido, el estadıstico de prueba es

T =X − Y

1m + 1

S2 =(m− 1)S2

X + (n− 1)S2Y

m+ n− 2

es el estimador de σ2 (media ponderada de los estimadores S2X y S2

Y con cada muestra). La

distribucion de T cuando H0 es cierta es Student (m+ n− 2).

Si σX 6= σY y desconocidos, el estadıstico de prueba es

T =X − Y√S2Xm +

con distribucion Student (ν) si H0 es cierta, y donde ν se estima por

ν∗ =

[S2Xm +

1m−1

La region crıtica es de la forma, en todos los casos, |T | > c donde c = u1−α/2 o c = t1−α/2

segun sea la distribucion de T la normal o Student.

Comparacion de k medias

Sean k variables Xi ∼ N(µi, σi), y la prueba:

H0 : µi = µ ∀i

H1 : µi 6= µ para al menos un i

Puesto que ya sabemos comparar 2 medias, parece que todo se reduce a efectuar, una tras

otra, las r =(k2

)pruebas por pares, de nivel α, posibles. Sin embargo la prueba conjunta no

serıa de nivel α. Pues si H0 fuese correcta, la probabilidad de no rechazar ninguna de las r

pruebas, supuestas independientes, es (1−α)r, y la de rechazar al menos una, y por lo tanto

rechazar H0, es 1− (1− α)r 6= α.

Una solucion conveniente a esta prueba se tiene mediante la tecnica denominada de Analisis

de la Varianza.

Pruebas sobre la varianza

Tomemos como referencia la prueba:

H0 : σ2 = σ20

H1 : σ2 6= σ20

Para las alternativas σ2 > σ20 o σ2 < σ2

0 se cambia adecuadamente la region crıtica.

El estadıstico es

T =(n− 1)S2

con distribucion ji-cuadrado (n− 1) cuando H0 es cierta. La region crıtica es de la forma C =

(0, c1)∪ (c2,+∞). Y para una significacion de α, adoptando el criterio de dejar probabilidad

α/2 a cada lado, resulta c1 = χ2α/2 y c2 = χ2

1−α/2.

6.6.3. Pruebas sobre la binomial

Sea X Bernoulli de parametro p. Un estadıstico de prueba para p es∑Xi el total de exitos

en n observaciones independientes de X, con distribucion binomial de parametros n y p. Los

ejemplos 6.19, 6.22 y 6.28 ilustran las pruebas unilaterales.

Para la prueba:

H0 : p = p0

H1 : p 6= p0

la region crıtica de nivel α como maximo (como T es discreta no puede hallarse en general

una region crıtica de nivel exactamente α) esta lımitada por los numeros c1 y c2 tales que

Xi ≤ c1 | p0

)≤ α

Xi ≥ c2 | p0

)≤ α

Si n→∞ puede utilizarse la aproximacion de la binomial por la normal (seccion 4.4).

El estadıstico de prueba es:

∑Xi − np0√np0(1− p0)

=X − p0√

p0(1− p0)/n

con distribucion N (0, 1) si p = p0 y n → ∞. Para la prueba bilateral, la region crıtica de

nivel α es |T | > u1−α/2.

Comparacion de dos proporciones

Sean X e Y Bernoulli de parametros p1 y p2. Y sea la prueba

H0 : p1 = p2

H1 : p1 6= p2

Sean X e Y las estimaciones de p1 y p2 con sendas muestras independientes de tamanos m

y n. Si H0 es cierta el estimador del valor comun y desconocido de p es

p =mX + nY

El estadıstico de prueba es

T =X − Y√

p(1− p)√

1m + 1

que tiende a valer cero si H0 es cierta y alejarse de cero en otro caso. Ademas si H0 es cierta

y m→∞ y n→∞ su distribucion es N (0, 1). La region crıtica de nivel α es |T | > u1−α/2.

6.6.4. Muestreo de aceptacion

La presencia de unidades defectuosas en la fabricacion en serie supone un compromiso entre

calidad y coste. El fabricante debe suministrar las calidades pactadas y el cliente debe tolerar

que en los lotes que adquiere haya un cierto numero de items defectuosos.

Uno de los problemas que aborda el control estadıstico de la calidad es el muestreo

de aceptacion: el cliente acepta o rechaza un lote enviado por el fabricante mediante una

prueba basada en una muestra aleatoria de los items del lote.

Se dice que el muestreo es por atributos si lo que se juzga es la proporcion p de items

defectuosos. Y por variables si lo que se juzga es la calidad media µ de los items del lote.

Muestreo por atributos

Sea X el numero de items defectuosos en una muestra aleatoria de tamano n del lote de

tamano N.

En todo lo que sigue supondremos (ver seccion 6.4.1) que n es mucho mas pequeno que N

de manera que la distribucion de probabilidades de X puede aproximarse por una binomial

de parametros n y p (la proporcion real de defectos en el lote).

Supongamos que el nivel de calidad aceptable es p0. Y que el lote se rechaza si X > c, donde

c se determina, para una nivel de significacion α, por

P (X ≤ c | p0) =

c∑x=0

)px0 (1− p0)n−x = 1− α

Ejemplo 6.32. Por ejemplo si la calidad pactada es p0 = 0.02, n = 100 y se elige α = 0.05

se ha de hallar c para que

P (X ≤ c | p0 = 0.02) =c∑

)0.02x × 0.98100−x = 0.95

y resulta c = 5 (calculado en Matlab con binoinv(0.95,100,0.02); tengase en cuenta que

para evaluar la funcion de distribucion binomial no puede usarse la aproximacion con la

normal por ser p demasiado pequeno: en la seccion 4.4 se dio como regla que habrıa de ser

mın (np, n (1− p)) > 10).

Sin embargo el comprador tambien corre un riesgo de aceptar lotes de mala calidad. Si por

ejemplo fuese en realidad p = 0.06 la probabilidad de aceptar el lote es

P (X ≤ 5 | p = 0.06) =5∑

)0.06x × 0.94100−x = 0.44

Un plan de muestreo simple por atributos15 trata de conciliar los intereses del fabricante

y del comprador. Para ello:

1. Se pactan dos puntos de la curva de aceptacion de la prueba:

El riesgo del fabricante: (p0, 1− α) donde p0 es el nivel de calidad base y α la

maxima probabilidad de rechazar un lote de igual calidad o superior (p ≤ p0)

El riesgo del cliente: (p1, β) donde p1 es el nivel de calidad lımite y β la maxima

probabilidad de aceptar un lote de igual calidad o inferior (p ≥ p1).

2. Se determinan el tamano de muestra n y el numero c tales que

P (T ≤ c | p1) =∑c

)px1 (1− p1)n−x = β

P (T ≤ c | p0) =∑c

)px0 (1− p0)n−x = 1− α

La solucion del sistema no-lineal (6.7) debe hallarse numericamente (ver Complementos).

Hallada la solucion la curva de eficacia (curva caracterıstica o curva OC) de la prueba

(probabilidad de aceptacion en funcion de p) es

P (T ≤ c | p) =c∑

)px (1− p)n−x ∀p ∈ (0, 1)

Ejemplo 6.33. Por ejemplo si se impone p0 = 0.02 con α = 0.05 y p1 = 0.06 con P (T ≤c | p1) = 0.1 la solucion del sistema es n = 195 y c = 7. La curva de eficacia de esta prueba

se ha dibujado en la figura 6.3

Efectivamente (recordar que como X es discreta la solucion solo puede ser aproximada):

P (X ≤ 7 | p0 = 0.02) =7∑

)× 0.02x × 0.98195−x = 0.956

P (X ≤ 7 | p0 = 0.06) =

7∑x=0

)× 0.06x × 0.94195−x = 0.096

15La norma UNE 66.020 (equivalente a las MIL STD 105D e IS0 2859) recoge las soluciones para este

muestreo simple y otros.

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.080

p defectos

Curva OC n=195 c=7

Figura 6.3: Curva de eficacia de la prueba del ejemplo 6.33

Muestreo por variables

SeaX el valor de una medida de la calidad de los items del lote (longitud, peso, concentracion,

voltaje, ...). La situacion que vamos a considerar, la mas comun, es X ∼ N (µ, σ), donde el

parametro µ es desconocido y σ es conocida. Se trata de realizar una prueba sobre la calidad

media µ a partir de una muestra de X de tamano n.

El estadıstico de prueba es

T =X − µ0

σ/√n

Segun lo que signifique mejor o peor calidad la prueba es (con sus correspondientes alterna-

tivas):

H0 : µ ≤ µ0 (mejor cuanto menor µ) con region crıtica de la forma T > c

H0 : µ ≥ µ0 (mejor cuanto mayor µ) con region crıtica T < c

Sin embargo en las pruebas resueltas convencionalmente solo se tiene en cuenta el riesgo del

cliente.

Un plan de muestreo simple por variables16 trata de conciliar los intereses del fabricante

16La norma UNE 66.030 (equivalente a las MIL STD 414D e IS0 3951) recoge las soluciones para este

muestreo simple y otros.

y del cliente. Para ello:

1. Se pactan dos puntos de la curva de aceptacion de la prueba:

El riesgo del fabricante: (µ0, 1− α) donde µ0 es el nivel de calidad base y 1− α la

probabilidad de aceptar un lote de igual calidad o superior.

El riesgo del cliente: (µ1, β) donde µ1 es el nivel de calidad lımite y β la probabilidad

de aceptar un lote de igual calidad o inferior.

2. Se determina el lımite c de la region crıtica y el tamano de muestra n que satisfacen

ambos riesgos.

En la situacion mejor cuanto menor µ se acepta un lote si T < c. La solucion es

(X − µ0

σ/√n< c | µ0

)= 1− α→ c = u1−α

(X − µ0

σ/√n< u1−α | µ1

(X − µ1

σ/√n< u1−α −

µ1 − µ0

σ/√n| µ1

u1−α −µ1 − µ0

σ/√n

n = σ2

(u1−α − uβµ1 − µ0

Ejemplo 6.34. Se controlan los niveles de emision de formaldehido de paneles para cons-

truccion. El lote suministrado es satisfactorio si el nivel de emision es menor que µ0 = 0.3

ppm. Se desea un plan de muestreo que de una probabilidad de aceptacion del 0.95 a los

lotes con 0.3 ppm, y una probabilidad de aceptacion de 0.10 a los lotes con 0.4 ppm. De la

experiencia previa se sabe que σ = 0.10 ppm

Aquı mejor calidad significa menor valor de µ.

c = u0.95 = Φ−1 (0.95) = 1.64

u0.10 = −Φ−1 (0.90) = −1.28

n = 0.12 ×(

1.64+1.280.1

)2= 8.526 4

El plan es: rechazar el lote si en una muestra de tamano n = 9 la media de la muestra es

x > 0.3 + 1.64× 0.1/√

9 ≈ 0.355 ppm. En la figura 6.4 se ha dibujado la curva de eficacia de

la prueba.

0.25 0.3 0.35 0.4 0.450

Curva OC n=9, c=1.64

β(µ1)

α(µ0)

Figura 6.4: Curva de eficacia correspondiente a la prueba del ejemplo 6.34

1. La longitud nominal de ciertas piezas mecanizadas es de 10 cm y la de las fabricadas

es X ∼ N (µ, σ). La varianza del proceso es aproximadamente estable y de los datos

historicos se puede suponer que σ = 0.3 cm. Por otra parte el valor de µ cambia

con ajustes en el proceso. Una muestra de 100 piezas tiene una media de 10.2 cm a)

construya un intervalo del 95 % para el valor actual de µ. b) ¿que tamano de muestra

hay que usar para tener una cota ε = 0.01?

2. En un celebre experimento Cavendish realizo en 1798 (utilizando una balanza de tor-

sion) 29 medidas de la densidad media de la Tierra ρT . La muestra (aquı se da ordenada

en valores crecientes) es (en g/cm3):

4.88 5.07 5.1 5.26 5.27 5.29 5.29 5.3 5.34 5.34

5.36 5.39 5.42 5.44 5.46 5.47 5.5 5.53 5.55 5.57

5.58 5.61 5.62 5.63 5.65 5.68 5.75 5.79 5.85

Suponiendo que corresponden a un modelo X = ρT + U con U ∼ N (0, σ) estime el

valor de ρT y obtenga la cota del error con una confianza del 95 %.

3. Para comprobar la variabilidad en el tiempo de explosion de cierto tipo de detona-

dor se obtuvo la muestra (en milisegundos por debajo de 2.7 s) (11, 23, 25, 9, 2, 6,

−2, 2,−6, 8, 9, 19, 0, 2). Suponiendo que el tiempo de explosion es una variable alea-

toria N (µ, σ) hallar un lımite superior de confianza del 90 % para σ.

4. Sea X con densidad exponencial f(x) = λ exp(−λx) para x > 0. Una variable pivote

para λ, a partir de una muestra de tamano n, es 2nλX con densidad χ2(2n). Construir

un intervalo bilateral de confianza 1− α para λ.

5. El intervalo de tiempo X entre llegadas sucesivas de los vehıculos a una parada tiene

densidad exponencial de parametro λ. En una muestra de n = 10 valores de X ha

resultado un tiempo total de∑xi = 30.4 minutos. Construir un lımite superior de

confianza 1−α = 0.95 para E (X) (tiempo medio de espera) y otro para λ (frecuencia

de llegadas).

Seccion 6.3:

6. En uno de los primeros experimentos sobre la radioactividad (1910) Rutherford, Geiger

y Bateman observaron una fuente de polonio (recien descubierto por Marıa Curie)

durante 2608 intervalos de 7.5 segundos cada uno, registrandose con un detector el

numero x de particulas alfa emitidas cada intervalo, con los resultados

x 0 1 2 3 4 5 6 7 8 9 10 11 12

n (x) 57 203 383 525 532 408 273 139 45 27 10 4 2 2608

Los autores propusieron como modelo plausible para la funcion de masa desconocida

del numero X de particulas emitidas en el intervalo el de Poisson

f (x) = exp (−λ)λx

x!x = 0, 1, 2, ...

en el que, como se sabe E (X) = λ. Estime el valor de λ y obtenga la cota del error

Seccion 6.4:

7. La proporcion p de componentes de calidad aceptable es desconocida. En una mues-

tra inicial de 30 componentes han resultado 26 aceptables. a) usando este resultado

preliminar ¿que tamano de muestra hay que tomar para construir un intervalo del

99 % para p de longitud aproximada ±0.02? b) construya el intervalo si finalmente se

examinan 2000 resultando 1640 aceptables.

8. Para realizar un sondeo de opinion en Espana (poblacion 45 millones) se entrevista

a 1000 personas obteniendo con una confianza del 95 % un error menor del 3 %. a)

¿Cuantas personas habrıa que entrevistar en USA (poblacion 350 millones) para tener

igual error?. b) ¿Cuantas personas habrıa que entrevistar para tener un error menor

del 2 %?

Seccion 6.5:

9. Un fabricante de componentes manufacturados, en un proceso estable bien modelado

por una distribucion normal, tiene unos lımites de especificacion de (0.42 ± 0.02) cm.

Se inspeccionan n = 20 componentes resultando

x = 0.42328 cm

s = 0.01776 cm

a) construya un intervalo de confianza 95 % para µ. b) construya un intervalo de

tolerancia cubriendo el 99 % de la poblacion con confianza del 95 %. c) ¿el proceso es

satisfactorio?

10. La resistencia a la rotura de cierto tipo de cables de acero, expresada en Kg, se su-

pone que es una VA X ∼ N(µ, σ). Una muestra de 5 cables ha dado los valores

(533, 552, 539, 564, 541). a) construir intervalos del 95 % para la resistencia media y la

variabilidad. b) estimar con una confianza del 99 % la tension que soportan el 95 % de

los cables, es decir, el lımite inferior de tolerancia para la resistencia.

Seccion 6.6:

Seccion 6.6.1:

11. Sea X ∼ N (µ, 1) y la prueba

H0 : µ ≤ 0

H1 : µ > 0

Con una muestra de tamano n = 16 y α = 0.05 calcule el valor de la funcion de

potencia en el valor µ = 0.5

12. (cont.) Halle n para que el valor de la funcion de potencia en µ = 0.5 sea 0.8

Seccion 6.6.2:

13. En una muestra de tamano n = 20 de una Va normal ha resultado x = 23.6 y s = 10.2.

Realizar la prueba H0 : µ = 20 frente a H1 : µ > 20 con α = 0.05.

14. (cont.) Realizar la prueba σ = 15 frente a σ < 15 con α = 0.05.

15. La distribucion de una poblacion X es N (µ, 20). Hallar el valor crıtico p para la prueba

H0 : µ = 50 si en una muestra de tamano 64 ha resultado (a) x = 52.5 (b) x = 57.5

16. En cierta reaccion quımica el reactante usado debe tener un pH de 8.20 El metodo para

medir el pH se sabe que da medidas insesgadas con distribucion normal de σ = 0.05

Una muestra de 10 medidas ha resultado en

8.18, 8.17, 8.16, 8.15, 8.17, 8.21, 8.22, 8.16, 8.19, 8.18

(a) ¿Cual es el nivel crıtico de la prueba? (b) ¿Que conclusion se obtiene con α = 0.05?

17. (cont.) Se compara el pH de dos muestras para decidir si es igual.

A: 6.24, 6.31, 6.28, 6.30, 6.25, 6.26, 6.24, 6.29, 6.22, 6.28

B: 6.27, 6.25, 6.33, 6.27, 6.24, 6.31, 6.28, 6.29, 6.34, 6.27

¿Cual es el nivel crıtico de la prueba? ¿Cual es la conclusion si α = 0.05?

18. Segun la ley 76/211/EEC de la Union Europea (Council Directive on the approxi-

mation of the laws of the Member States relating to the making-up by weight or by

volume of certain prepackaged products) para probar si el contenido medio de un lote

de preenvasados corresponde al nominal µ0se tomara una muestra de n = 20 y se re-

chazara el lote si x < µ0 − t0.995s√n

donde x y s son la media y desviacion tıpica de la

muestra y t0.995 es el cuantil de la distribucion de Student de parametro (n− 1).

¿Que prueba de hipotesis convencional se esta utilizando? ¿Cual es la probabilidad de

rechazar indebidamente un lote de contenido medio µ0?

19. (cont.) Realizar la prueba si el contenido nominal es de 1000 ml y en la muestra de 20

ha resultado∑xi = 20072.0 ml y

∑x2i = 20153540.0 ml2

Seccion 6.6.3:

20. Cierta propuesta necesita superar el 50 % de los votantes. En una muestra de 1000

hubo 490 a favor. ¿Es evidencia suficiente, con α = 0.05, de que no saldra adelante?

(realice la prueba usando la aproximacion normal).

21. En un lote de m = 100 unidades del provedor A se han hallado 4 defectos, y en otro de

n = 120 del B se han hallado 6. ¿Es evidencia suficiente para rechazar, con α = 0.05,

la misma calidad? (realice la prueba usando la aproximacion normal)

Seccion 6.6.4:

22. La Directiva 76/116/EEC sobre abonos especifica que el nitrato amonico debe tener

un contenido mınimo en nitrogeno del 20 %. Un fabricante expide lotes de sacos en los

que la concentracion de nitrogeno es normal de media µ y desviacion tıpica σ = 1.5 %.

Determine un plan de muestreo tal que un lote con una concentracion media 2.5σ por

encima del contenido mınimo se acepte con una probabilidad de 0.95 y un lote con

una concentracion media 1.5σ por encima del contenido mınimo se acepte con una

probabilidad de 0.10

Otras pruebas:

23. Si X es exponencial de parametro λ entonces para probar

H0 : λ ≤ λ0

H1 : λ > λ0

puede usarse T = 2nλ0X, que si λ = λ0 tiene una distribucion χ2(2n). Determine la

region crıtica de nivel α.

24. (cont.) La prueba anterior sobre λ equivale a otra sobre E (X) = 1/λ. ¿Cual?

25. (cont.) El intervalo de tiempo X entre llegadas sucesivas de los vehıculos a una parada

tiene densidad exponencial de parametro λ. En una muestra de n = 10 ha resultado

x = 3.04 min. Pruebe con α = 0.05 si dicho valor es compatible con H0 : el tiempo

medio de espera E (X) es de 5 min o mas.

Capıtulo 7

Modelo lineal

7.1. Modelo lineal simple

Para explicar la variabilidad experimental de las medidas del valor de una magnitud cons-

tante µ hemos considerado el modelo

Y = µ+ U

donde Y es la Va valor medido y U es la Va error.

Ahora vamos a estudiar una situacion mas general en la que lo que se mide es una funcion

µ (x) de una variable independiente x, no aleatoria, cuyo valor se fija para realizar el

experimento. Y en particular cuando la funcion µ (x) tiene una forma especialmente sencilla.

Definicion 7.1. Se denomina modelo lineal simple a

Y (x) = β0 + β1x+ U

donde la variable aleatoria Y (x) depende de la variable independiente no aleatoria x, y la

variable aleatoria U representa el error de medida o en general el efecto de otros factores,

aparte de x, sobre la Y .

El modelo es lineal en los parametros β0 y β1 desconocidos (x puede ser cualquier otra

f (x) que no incluya ningun parametro desconocido).

Ejemplo 7.1. Y (x) = β0 + β1 sin (x) + U es un modelo lineal.

Ejemplo 7.2. Una partıcula se mueve en linea recta a velocidad constante v que deseamos

conocer. La ecuacion del movimiento es s (t) = s (0) + vt, de manera que conociendo las

posiciones s (t1) y s (t2) en dos tiempos distintos, deducirıamos el valor de v ası:

s (t2)− s (t1)

t2 − t1= v

170 Capıtulo 7. Modelo lineal

en otras palabras: dos puntos (t1, s (t1)) y (t2, s (t2)) determinan la recta s (t) = s (0)+vt. Sin

embargo si las medidas de s (t) son con error (y las de t sin error), sean y (t1) = s (t1) + u1

e y (t2) = s (t2) + u2, esto ya no es ası, pues entonces

y (t2)− y (t1)

t2 − t1= v +

u2 − u1

t2 − t1y ahora la recta s(t) = s(0) + vt esta enmascarada por los errores que se han anadido en

cada medida.

La situacion corresponde a un modelo lineal simple

Y (t) = β0 + β1t+ U

con β0 = s (0) y β1 = v. Para poder filtrar lo errores (estimar los parametros) se precisan

mas de 2 medidas (cuantas mas mejor). Por ejempo, si se dispone de la muestra

t (s) 1.0 2.0 3.0 4.0 5.0 6.0

y (mm) 11 19 33 40 49 61

la imagen es

0 1 2 3 4 5 6 70

Figura 7.1: Puntos de la muestra del ejemplo 7.2

Ejemplo 7.3. Para estudiar la variacion del rendimiento Y de un proceso con la temperatura

x, se dispone de la siguiente muestra:

x C 45 50 55 60 65 70 75 80 85 90

y% 43 45 48 51 55 57 59 63 66 68

7.1. Modelo lineal simple 171

cuya imagen es que sugiere como plausible un modelo

40 50 60 70 80 9040

x (temperatura ºC)

Figura 7.2: Puntos de la muestra del ejemplo 7.3

Y = β0 + β1x+ U

7.1.1. Estimacion de mınimos cuadrados

Segun las hipotesis adicionales sobre la Va U la estimacion puede hacerse de una u otra

forma. La hipotesis mas simple es

E (U) = 0

V ar (U) = σ2

que equivale a

E (Y (x)) = µ (x) = β0 + β1x (7.1)

V ar (Y (x)) = σ2

Para la estimacion de los parametros β0, β1 y σ dispondremos de n observaciones indepen-

dientes de Y (x) en otros tantos valores fijados de x, muestra que denotaremos en lo sucesivo

((x1, y1), (x2, y2), ...(xn, yn)).

Denotaremos b0 y b1 las estimaciones con la muestra de β0 y β11.

1Las estimaciones, segun la notacion introducida en el capıtulo 5, se deberıan denotar con β0 y β1 pero,

para aligerar la notacion, las llamamos b0 y b1.

La funcion desconocida µ (x) = β0 +β1x se estimara por la µ (x) = b0 +b1x que hace mınimo

el valor de

q (b0, b1) =n∑i=1

[yi − (b0 + b1xi)]2

yi− (b0 + b1xi) es la diferencia entre la ordenada observada yi en la abscisa xi y la calculada

con la recta en la misma abscisa: la funcion buscada (recta de mınimos cuadrados) es la que

ajusta mejor las ordenadas observadas.

Para hallar los numeros b0 y b1 que hacen mınimo el valor de q se resuelve el sistema:

∂q (b0, b1)

∂b0= −2

n∑i=1

[yi − (b0 + b1xi)] = 0

∂q (b0, b1)

∂b1= −2

n∑i=1

xi [yi − (b0 + b1xi)] = 0

es decir

b0n+ b1

n∑i=1

xi + b1

n∑i=1

o en forma matricial (

n∑xi∑

xi∑x2i

( ∑yi∑xiyi

)(7.3)

El determinante de la matriz del sistema es:

x2i −

(∑xi

∑(xi − x)2 ≥ 0

Si n ≥ 2 y al menos 2 abscisas xi son distintas, entonces∑

(xi − x)2 > 0: la matriz tiene

inversa y la solucion es unica, lo que suponemos en todo lo que sigue.

La solucion corresponde a un mınimo2 pues la matriz hessiana:

∂b20

∂b0∂b1∂2q

∂b0∂b1

∂b21

(2n 2nx

2nx 2∑x2i

es definida positiva:

∂b20= 2n > 0

detH = 4n∑

x2i − 4n2x2 = 4n

∑(xi − x)2 > 0

2La funcion cuadratica z = q (b0, b1) es no negativa. Su grafica (es decir, el conjunto de los puntos

(b0, b1, z) ∈ R3 tales que z = q (b0, b1)) es un paraboloide elıptico. La funcion tiene por tanto un mıni-

mo global, el vertice del paraboloide, cuyas coordenadas (b0, b1) son la solucion del problema de mınimos

cuadrados.

Compruebese que la solucion puede escribirse:

∑(xi − x) (yi − y)∑

(xi − x)2 =

∑xiyi − (

∑xi) (

∑yi) /n∑

x2i − (

∑xi)

2 /n(7.4)

b0 = y − b1x

El metodo de mınimos cuadrados no proporciona una estimacion de σ2. Veremos que una

adecuada (el estimador correspondiente es insesgado) es

n− 2

n∑i=1

[yi − (b0 + b1xi)]2 (7.5)

que tambien puede escribirse (compruebese, sustituyendo b0 por su valor en (7.4) y operando)

n− 2

[n∑i=1

(yi − y)2 − b21n∑i=1

(xi − x)2

](7.6)

aunque es una formula mas suceptible a los errores de redondeo.

Ejemplo 7.4. (cont. del 2)∑ti = 21,

∑t2i = 91,

∑yi = 213,

∑y2i = 9293,

∑tiyi = 919∑(

ti − t)

(yi − y) = 919− 21× 213/6∑(yi − y)2 = 9293− 2132/6 = 1731.5∑(ti − t

)2= 91− 212/6 = 17.5

b1 =919− 21× 213/6

17.5= 9.9143

b0 = y − b1t = 213/6− 9.9143× 21/6 = 0.79995

s2 =1731.5− 9.91432 × 17.5

4= 2.8416

s = 1.6857

En conclusion, la estimacion de la velocidad es b1 = 9.91 mm s−1, la posicion inicial b0 = 0.8

mm y la desviacion tıpica del error U en las medidas de posicion s = 1.69 mm

Ejemplo 7.5. (cont. del 3)∑xi = 675,

∑x2i = 47625,

∑yi = 555,

∑y2i = 31483,

∑xiyi =

38645∑(xi − x) (yi − y) = 38645− 675× 555/10∑(xi − x)2 = 2062.5,

∑(yi − y)2 = 680.5

b1 =38645− 675× 555/10

2062.5=

1182.5

2062.5= 0.5733

b0 = y − b1x = 55.5− 0.5733× 67.5 = 16.8023

0 1 2 3 4 5 6 70

Figura 7.3: Recta de regresion para la muestra del ejemplo 7.4

√680.5− 0.57332 × 2062.5

8= 0.5627

40 50 60 70 80 9035

x (temperatura ºC)

Figura 7.4: Recta de regresion para la muestra del ejemplo 7.5

En conclusion, la estimacion de la variacion del rendimiento esperado con la temperatura

(en el rango de temperaturas entre 40 C y 100 C aproximadamente) es

µ (x) = 16.80 + 0.5733x%

(por cada incremento de la temperatura en 1 C el rendimiento esperado aumenta un 0.57 %).

Para una temperatura de 50 C el rendimiento esperado se estima de

µ (50) = 16.80 + 0.5733× 50 ≈ 45.5 %

La estimacion de la variabilidad del rendimiento a cualquier temperatura es s = 0.5627 %.

7.1.2. Propiedades de los estimadores

La muestra ((x1, y1), (x2, y2), ...(xn, yn)) es una realizacion particular de la muestra aleatoria

((x1, Y1), (x2, Y2), ...(xn, Yn)), en la que las Yi son independientes, con

E (Yi) = β0 + β1xi

V ar (Yi) = σ2

y las estimaciones b0 y b1 (7.4) son realizaciones particulares de los estimadores

∑(xi − x)

(Yi − Y

)∑(xi − x)2 (7.7)

B0 = Y −B1x

Se prueba (utilizando las hipotesis 7.1) que dichos estimadores son insesgados (ver Comple-

mentos):

E (B1) = β1

E (B0) = β0

y por lo tanto, en un x arbitrario

E (B0 +B1x) = β0 + β1x

Se prueba (ver Complementos) que sus varianzas son

V ar (B1) =σ2∑

(xi − x)2 (7.8)

V ar (B0) =

( ∑x2i

(xi − x)2

y (tengase en cuenta que B0 y B1 no son independientes):

V ar (B0 +B1x) = σ2

(x− x)2∑(xi − x)2

)(7.9)

Por ultimo, la estimacion (7.5) es el valor particular en la muestra del estimador

n− 2

n∑i=1

[Yi − (B0 +B1xi)]2 (7.10)

que tambien puede escribirse (ver (7.6))

n− 2

[n∑i=1

(Yi − Y

)2 −B21

n∑i=1

(xi − x)2

](7.11)

y se prueba (ver Complementos) que

7.2. Estimacion de maxima verosimilitud

Suponemos ahora que Y (x) ∼ N(β0 + β1x, σ) (es decir, ademas de las hipotesis (7.1) la

distribucion de Y (x) en cada x fijado es normal). Podemos entonces estimar los parametros

mediante Maxima Verosimilitud.

La densidad de probabilidad en cada yi es

f (yi) =1

2πexp

(− 1

2σ2[yi − (β0 + β1xi)]

)y la funcion de verosimilitud resulta

L (β0, β1, σ) =

(− 1

n∑i=1

[yi − (β0 + β1xi)]2

Es evidente que, cualquiera que sea σ, los valores b0 y b1 de β0 y β1 que hacen maximo L

son los que hacen mınimo an∑i=1

[yi − (β0 + β1xi)]2

es decir, coinciden con las estimaciones de mınimos cuadrados obtenidas antes.

En cuanto a la estimacion de σ2 resulta:

σ2 =1

n∑i=1

[yi − (b0 + b1xi)]2

que no coincide con la (7.5) insesgada que vamos a usar (esta es obviamente sesgada).

7.3. Intervalos de confianza 177

7.3. Intervalos de confianza

En la hipotesis Y (x) ∼ N(β0 + β1x, σ) el modelo lineal generaliza el caso estudiado en el

capıtulo 6 de una variable Y ∼ N (µ, σ) a una variable Y (x) ∼ N (µ (x) , σ). Como allı,

se pueden acotar los errores de estimacion (intervalos de confianza) y realizar predicciones

sobre las observaciones futuras de Y (x) en cada x fijado (intervalos de tolerancia).

7.3.1. Para los parametros β0 y β1

Los estimadores B0 y B1 (7.7), funciones lineales de las Yi ∼ N(β0 +β1xi, σ) independientes,

son tambien normales, con esperanzas β0 y β1 y las varianzas dadas en (7.8). Por lo tanto

B1 − β1

√1∑

(xi − x)2

∼ N(0, 1)

y si se sutituye σ por su estimador S se prueba que

B1 − β1

√1∑

(xi − x)2

∼ t (n− 2)

de donde, con confianza 1− α

β1 ∈

(b1 ± t1−α/2 × s

√1∑

(xi − x)2

)y analogamente para β0.

Ejemplo 7.6. (cont. del 4) La estimacion de la velocidad v = β1 de la partıcula re-

sulto 9.91 mm s−1. Hallemos una cota del error de estimacion con confianza 1−α = 0.95 En

la tabla C.3 se lee t0.975 (4) = 2.7764 y con los valores de s = 1.6857 y∑(

ti − t)2

= 17.5

allı obtenidos

t1−α/2 × s√

1∑(ti − t

)2 = 2.7764× 1.6857×√

17.5= 1.1188

resulta, con una confianza del 95 %

v = (9.91± 1.12) mm s−1

7.3.2. Para el parametro σ

Se prueba que(n− 2)S2

σ2∼ χ2 (n− 2)

y entonces, con confianza 1− α

σ ∈

√n− 2

χ21−α/2

√n− 2

χ2α/2

7.3.3. Para la recta µ (x) = β0 + β1x

El estimador B0 + B1x, insesgado de β0 + β1x, como es una funcion lineal de las Yi inde-

pendientes con distribucion normal, tiene tambien una distribucion normal, con la varianza

dada en (7.9)

E (B0 +B1x) = β0 + β1x

V ar (B0 +B1x) = σ2

(x− x)2∑(xi − x)2

]Por tanto la variable aleatoria

(B0 +B1x)− (β0 + β1x)

(x− x)2∑(xi − x)2

∼ N(0, 1)

y si se sustituye σ por su estimador S se prueba que

(B0 +B1x)− (β0 + β1x)

(x− x)2∑(xi − x)2

∼ t (n− 2)

Finalmente, con confianza (1− α) es3:

β0 + β1x ∈

((b0 + b1x)± t1−α/2 × s

(x− x)2∑(xi − x)2

Ejemplo 7.7. (cont. del 5). Hallemos un intervalo para el rendimiento esperado a la tem-

peratura de 50 C con 1− α = 0.99

Para una temperatura de 50 C el rendimiento esperado se estimo de

µ (50) = 16.80 + 0.5733× 50 ≈ 45.5 %

En la tabla C.3 se lee t0.995 (8) = 3.3554 y

t1−α/2 × s

(x− x)2∑(xi − x)2 = 3.3554× 0.5627×

(50− 67.5)2

2062.5= 0.9412

3El intervalo, funcion de x, es de la forma (b0 + b1x) ± ε (x) donde y = ε (x) es una hiperbola de eje real

vertical, centro (x, y) y vertices ±t1−α/2s/√n.

7.4. Intervalos de tolerancia para Y (x) 179

µ (50) = 45.5± 0.94 %

En la figura se han dibujado los intervalos de confianza de µ(x) = β0 + β1x para x desde 40

hasta 95 C

40 50 60 70 80 9035

x (temperatura ºC)

Figura 7.5: intervalos de confianza de µ(x) = β0 + β1x para x desde 40 hasta 95C (ejemplo

7.4. Intervalos de tolerancia para Y (x)

Un intervalo de tolerancia para Y (x) en un x fijado, de contenido p y confianza 1−α, ambos

valores especificados, esta dado por dos numeros yL y yS tales que

P (yL < Y (x) < yS) ≥ p

con confianza 1− α. Es decir, al menos el 100p% de los valores de Y medidos en el x fijado

se hallaran dentro del intervalo (yL, yS) con dicha confianza. El intervalo es de la forma

yL = (b0 + b1x)− ks

yS = (b0 + b1x) + ks

y la solucion k debe hallarse numericamente (ver Complementos). Ademas depende de p,

1 − α, n, el punto x y las abscisas de la muestra (x1, ..., xn), por lo que no es posible

una tabulacion como para la variable normal (ver Capıtulo 6).

Una solucion aproximada es

k = u(1+p)/2

√n− 2

2−d4(

2u2(1+p)/2 − 3

(x− x)2∑(xi − x)2

donde u(1+p)/2 es el cuantil de la N (0, 1) y χ2α el de la ji-cuadrado de parametro (n− 2)

Ejemplo 7.8. (cont.) calculemos un intervalo de tolerancia aproximado en x = 50 con

p = 0.95 y 1− α = 0.99

u(1+p)/2 = u0.975 = 1.96, χ2α (n− 2) = χ2

0.01 (8) = 1.6465

(50− 67.5)2

2062.5= 0.2485

2−d4(

2u2(1+p)/2 − 3

= 1 +0.2485

0.24852 ×(2× 1.962 − 3

= 1.1122

k = 1.96×√

1.6465× 1.1122 = 4.8051

Con una confianza del 99 % al menos el 95 % de los valores del rendimiento Y a la tempera-

tura de x = 50 C estaran dentro del intervalo

µ(50)± k × s =

45.5± 4.8051× 0.5627 = (42.80, 48.20) %

es decir, con dicha confianza

P (42.80 < Y (50) < 48.20) ≥ 0.95

En la figura se han dibujado desde x = 40 hasta x = 95

7.5. Interpretacion geometrica

Consideremos las matrices

... ...

)(7.12)

7.5. Interpretacion geometrica 181

40 50 60 70 80 9035

x (temperatura ºC)

Figura 7.6: Intervalos de tolerancia para Y (x), con x variando entre 40 y 95 (ejemplo 7.8)

donde b0 y b1 son numeros a determinar.

Si los n ≥ 2 puntos (xi, yi) estan sobre una recta entonces el sistema y =b01 + b1x = Xb

es compatible y determinado (dos ecuaciones distintas determinan la recta, las demas son

combinaciones lineales de aquellas): geometricamente el vector y pertenece al subespacio de

Rn engendrado por las columnas de X.

Si no estan sobre una recta el sistema es incompatible. Hallemos en este caso el vector

y = Xb de dicho subespacio (combinacion lineal de las columnas de X) mas proximo al y

en el sentido de la norma euclidea, es decir, tal que:

mın ‖y −Xb‖2 = mın

n∑i=1

[yi − (b0 + b1xi)]2

Ello equivale a que y −Xb sea ortogonal al subespacio engendrado por las columnas de X:

XT (y −Xb) = 0

(donde 0 es un vector columna con dos ceros). Resulta el sistema (compruebe que es identico

al (7.3)):

XTXb = XTy (7.13)

El rango de XTX es el de X y el sistema tiene solucion unica si, y solo si, el rango de X es

2, es decir si al menos hay 2 abscisas xi distintas. En ese caso

b =(XTX

)−1XTy (7.14)

Se prueba que el sistema (7.13) es formalmente la solucion de mınimos cuadrados del pro-

blema mas general modelo lineal multiple

Y (x) = β0 + β1x1 + β2x2 + · · ·+ βkxk + U

donde la variable aleatoria Y es la variable dependiente, las variables no aleatorias xi son

las variables independientes, fijadas para el experimento, y la variable aleatoria U representa

el error de medida o en general el efecto de otros factores, aparte de las x, sobre la Y . La

matrices correspondientes a una muestra (xi1, xi2, ..., xik, yi) (i = 1, 2, ..n) son

1 x11 x12 ... x1k

1 x21 x22 ... x2k

... ... ... ... ...

1 xn1 xn2 ... xnk

7.6. Valoracion del ajuste

Usaremos ahora una notacion mas breve, frecuente en los textos de estadıstica: yi ≡ b0+b1xi.

Con ella la estimacion de σ2 es (formula (7.5))

(n− 2) s2 =n∑i=1

(yi − yi)2

que tambien puede escribirse (ver (7.6))

(n− 2) s2 =n∑i=1

(yi − y)2 − b21n∑i=1

(xi − x)2

Ademas

n∑i=1

(xi − x)2 =

n∑i=1

(yi − y)2

(pues (yi − y) = (b0 + b1xi − y) = (y − b1x+ b1xi − y) = b1 (xi − x)).

En conclusionn∑i=1

(yi − yi)2 =n∑i=1

(yi − y)2 −n∑i=1

(yi − y)2

Se llama suma de cuadrados residual a

ssres =∑

(yi − yi)2

7.6. Valoracion del ajuste 183

suma de cuadrados total a

sstot =∑

(yi − y)2

y suma de cuadrados explicada a

ssex =∑

(yi − y)2

En resumen

ssres = sstot − ssex

Como ssres ≥ 0 es ssex ≤ sstot.

Definicion 7.2. El coeficiente de determinacion R2 es la proporcion de la suma de

cuadrados total explicada por la recta de mınimos cuadrados

R2 =ssexsstot

De la definicion resulta que 0 ≤ R2 ≤ 1.

Ademas cuanto menor sea ssres, es decir, cuanto mejor se ajusten los puntos a la recta, mayor

es el valor de R2.

En un caso extremo, el valor mınimo de ssres se tiene si los puntos estan sobre una recta (ni

horizontal ni vertical) y es ssres = 0, por lo tanto ssex = sstot, y entonces R2 = 1.

Y en el otro, el valor maximo de ssres se tiene si ssres =sstot (cuando ssex = 0) y entonces

R2 = 0.

Definicion 7.3. El coeficiente de correlacion lineal de la muestra es

∑(xi − x) (yi − y)√∑

(xi − x)2∑ (yi − y)2(7.15)

Observar que su signo es el de la pendiente b1 de la recta. Y que no esta definido si∑(yi − y)2 = 0 (en cuyo caso los puntos estan sobre una recta horizontal) o si

∑(xi − x)2 =

0 (en cuyo caso los puntos estan sobre una recta vertical).

Con el puede ponerse

ssex = b21∑

(xi − x)2 =(∑

(xi − x) (yi − y))2∑(xi − x)2 = r2sstot

ası que

ssres = sstot − ssex = sstot(1− r2

)Como ssres ≥ 0 es claro que |r| ≤ 1 (desigualdad de Schwarz en (7.15)).

Los puntos (xi, yi) estan sobre una recta (ni horizontal ni vertical) si, y solo si, ssres = 0, es

decir, si |r| = 1.

Ademas de la definicion de R2 resulta que

R2 = r2

Ejemplo 7.9. (cont. del 5)∑xi = 675,

∑x2i = 47625,

∑yi = 555,

∑y2i = 31483,

∑xiyi =

38645∑(xi − x) (yi − y) = 38645− 675× 555/10 = 1182.5∑(xi − x)2 = 2062.5,

∑(yi − y)2 = 680.5

b1 =38645− 675× 555/10

2062.5=

1182.5

2062.5= 0.5733

b0 = y − b1x = 55.5− 0.5733× 67.5 = 16.8023

ssres = 680.5− 0.57332 × 2062.5 = 2.533

sstot∑

(yi − y)2 680.5

ssres∑

(yi − yi)2 2.533

ssex 677.967

R2 =ssexsstot

=677.967

680.5= 0.996

es decir la recta ajustada explica el 99.6 % de la variabilidad en los valores del rendimiento.

Ademas

r =1182.5√

2062.5× 680.5= 0.9981

7.7. Regresion lineal simple

Supongamos ahora una Va bidimensional (X,Y ). Para estudiar la relacion entre ambas

variables se dispone de una muestra de n observaciones (xi, yi) en la que, a diferencia de

lo supuesto en el modelo lineal, ninguna de las dos es controlada o fijada.

Ahora nos interesamos en alguna de las dos Vas condicionales (Y | X = x) o (X | Y = y) y

en particular en sus esperanzas E (Y | X = x) o E (X | Y = y) (ver 3.10).

Consideremos el caso en que la densidad conjunta f (x, y) es normal. Se prueba que queda de-

terminada por X ∼ N (µX , σX) e Y ∼ N (µY , σY ) y ademas por el coeficiente de correlacion

ρ entre ambas (en el sentido de la definicion 3.4)

ρ =σXYσXσY

7.7. Regresion lineal simple 185

donde σXY = Cov (X,Y )

Se prueba que la Va condicional (Y | X = x) es normal con

E (Y | X = x) = µY +σYσX

ρ (x− µX)

V ar (Y | X = x) = σ2Y

(1− ρ2

)y la (X | Y = y) es normal con

E (X | Y = y) = µX +σXσY

ρ (y − µY )

V ar (X | Y = y) = σ2X

(1− ρ2

)Las dos funciones E (Y | X = x) y E (X | Y = y) se llaman historicamente funciones de

regresion lineal.

Puede verse entonces que la Va (Y | X = x) satisface las hipotesis del modelo lineal simple

con distribucion normal (seccion 7.2) pues su esperanza es de la forma

E (Y | X = x) = β0 + β1x

β0 = µY − β1µX

β1 = ρσYσX

y su varianza es constante (no depende de x)

V ar (Y | X = x) = σ2Y

(1− ρ2

)Y lo mismo puede decirse de la (X | Y = y), cuya esperanza es

E (X | Y = y) = α0 + α1y

α0 = µX − α1µY

α1 =σXσY

y varianza constante

V ar (X | Y = y) = σ2X

(1− ρ2

)En conclusion, el metodo de mınimos cuadrados para la estimacion con la muestra de n ob-

servaciones (xi, yi) de la funcion E (Y | X = x) = β0 + β1x conduce a una solucion formal-

mente identica a la del modelo lineal simple (7.4). Y otra analoga para la E (X | Y = y) =

α0 + α1x. Todo lo dicho en las secciones 7.3 hasta la 7.6 inclusive es de aplicacion al caso.

Ademas ahora las formulas del modelo lineal admiten una reescritura en terminos de esti-

maciones de los parametros de la Va (X,Y ):

Las estimaciones de µX y µY son x e y.

Las estimaciones de σ2X y σ2

Y son s2X y s2

Y (varianzas de la muestra).

Una estimacion insesgada de σXY = E ((X − µX) (Y − µY )) es

sXY =1

n− 1

∑(xi − x) (yi − y)

y una estimacion (sesgada) de ρ es el coeficiente de correlacion lineal de la muestra (7.15)

r =sXYsXsY

∑(xi − x) (yi − y)√∑

(xi − x)2∑ (yi − y)2

En la regresion de Y sobre X, E (Y | X = x) = β0 + β1x:

La estimacion b1 del coeficiente β1 = ρ σYσX es

∑(xi − x) (yi − y)∑

(xi − x)2 = rsYsX

La estimacion b0 del coeficiente β0 = µY − β1µX es

b0 = y − b1x

La recta estimada es

b0 + b1x = y + rXYsYsX

(x− x)

y analogamente en la de X sobre Y .

Secciones 7.1, 7.3 y 7.4:

1. Para estudiar la corrosion de cierta aleacion se ha realizado un experimento controlado

en el que se mide la ganancia en peso de la muestra Y (en %) (que indıca la cantidad

de oxıgeno que ha reaccionado) a distintos tiempos de exposicion x (en h)

x 1 2 2.5 3 3.5 4

y 0.02 0.03 0.035 0.042 0.05 0.054

a) grafique los puntos, ajuste un modelo lineal y calcule R2. b) Calcule un intervalo

de confianza del 95 % para la ganancia esperada a x = 3.2 h c) Calcule un intervalo

de tolerancia de contenido 0.9 con confianza 95 % en x = 3.2 h.

2. Para estudiar la relacion entre la longitud (en cm) nominal (x) y real (y) de ciertas

piezas mecanizadas en serie se ha obtenido la siguiente muestra:

x y14 0.262 0.262 0.24512 0.496 0.512 0.49034 0.743 0.744 0.751

1 0.976 1.010 1.004

114 1.265 1.254 1.252

112 1.498 1.518 1.504

134 1.738 1.759 1.750

2 2.005 1.992 1.992

a) grafique los puntos, ajuste un modelo lineal y calcule R2. b) Calcule un intervalo

de confianza 95 % para la longitud media fabricada correspondiente a la nominal de 1

cm . c) calcule un intervalo de tolerancia de contenido 0.99 y confianza 0.95 para las

longitudes fabricadas correspondientes a la nominal de 1 cm .

Secciones 7.1, 7.3 y 7.5:

3. Un metodo para medir g (aceleracion de la gravedad) consiste en un electroiman que

sujeta una bola de acero a distancia fijada d del suelo. Cuando se interrumpe la corriente

se libera la bola, que cae, y automaticamente se pone en marcha un cronometro. Cuando

la bola llega al suelo golpea un sensor que detiene el cronometro, obteniendose el tiempo

de caida t.

La ecuacion del movimiento es d = 12gt

2, de donde t =√

1/g√

2d. Sin embargo, en

la medida de los tiempos t para cada valor de d fijado hay 2 fuentes posibles de error

de valor desconocido: uno sistematico debido a que el campo del electroiman no se

extingue inmediatamente, y otro experimental o aleatorio U . El modelo que describe

el experimento es

Y = β0 + β1

√2d+ U

donde Y es el tiempo medido, β0 es el error sistematico, β1 = 1/√g y U es el error

experimental, con E (U) = 0 y V ar (U) = σ2.

Se dispone de la muestra

d (m) 0.20 1.00 2.00 3.00 5.00

y (s) 0.26 0.50 0.68 0.82 1.07

a) Estimar los parametros β0 y β1. Estimar g a partir de β1. Interpretar el valor

estimado de β0. b) dibujar los puntos experimentales y la funcion ajustada, en ejes

(d, y) y (√

2d, y). c) estimar la desviacion tıpica σ del error experimental, y la desviacion

tıpica del estimador de β1.

4. (cont.) Escribir la matriz X (segun (7.12)) correspondiente a una muestra ((d1, y1),

(d2, y2), ...(dn, yn)) para el problema

Y = β0 + β1

√2d+ U

5. Recta por el origen: sea el modelo

Y = βx+ U

con E (U) = 0 y V ar (U) = σ2 que equivale a E (Y ) = βx y V ar (Y ) = σ2. Dada

la muestra ((x1, y1), (x2, y2), ...(xn, yn)) hallar la estimacion b de β de modo que sea

mınimo el valor de

q (b) =

n∑i=1

[yi − bxi]2

6. (cont.) Escribir la matriz X segun (7.13) correspondiente a una muestra ((x1, y1),

(x2, y2), ...(xn, yn)) para el problema

Y = β1x+ U

Seccion 7.7:

7. De una muestra se conocen los siguientes datos: r = 0.9; sX = 1.2; sY = 2.1; x = 5;

y = 10 A partir de los mismos, obtenganse las rectas de regresion mınimo cuadraticas

de X sobre Y y de Y sobre X.

8. A partir de una muestra de valores de las variables X e Y , se ha determinado la

regresion de Y sobre X, obteniendose

b0 = 10, b1 = 0.45, R2 = 0.9 y x = 20. Calcular la recta de X sobre Y .

9. Demostrar que r es invariante a cambios de origen y escala. Usando este resultado

demostrar que el coeficiente de correlacion de los puntos (xi, yi) es el mismo que el de

los puntos (yi, yi).

10. Se dispone de 4 muestras distintas de tamano n = 11 (las 1,2 y 3 con identicos valores

de x). Calcule en cada caso la recta de mınimos cuadrados, realizando el dibujo de los

puntos con su recta, y halle el valor de r.

1− 3 1 2 3 4 4

obs x y y y x y

1 10.0 8.04 9.14 7.46 8.0 6.58

2 8.0 6.95 8.14 6.77 8.0 5.76

3 13.0 7.58 8.74 12.74 8.0 7.71

4 9.0 8.81 8.77 7.11 8.0 8.84

5 11.0 8.33 9.26 7.81 8.0 8.47

6 14.0 9.96 8.10 8.84 8.0 7.04

7 6.0 7.24 6.13 6.08 8.0 5.25

8 4.0 4.26 3.10 5.39 19.0 12.50

9 12.0 10.84 9.13 8.15 8.0 5.56

10 7.0 4.82 7.26 6.42 8.0 7.91

11 5.0 5.68 4.74 5.73 8.0 6.89

11. Tomemos la funcion y = x2. Elijamos n abscisas xi simetricas respecto al origen, de

modo que∑xi = 0, y sus correspondientes ordenadas yi = x2

i . Ası que los n puntos

(xi, yi) estan sobre la parabola. Calcule el coeficiente de correlacion lineal.

Seccion 7.5:

12. Halle el polinomio Pm(x) =∑m

j=0 bjxj de grado m que aproxima en el sentido de

mınimos cuadrado la muestra (xi, yi) de n observaciones, es decir que hace mınimo el

valor de:

n∑i=1

[yi − Pm(xi)]2 =

n∑i=1

yi − m∑j=0

(sugerencia: ver (7.13) y forme las matrices X y XTX correspondientes).

13. Ajuste un polinomio a los siguientes datos:

x 1 2 3 4 5 6 7 8 9 10

y 20.6 30.8 55 71.4 97.3 131.8 156.3 197.3 238.7 291.7

14. En 1973 el ingeniero holandes J.R. de Jong propuso el siguiente modelo para el tiempo

T que se tarda en realizar una tarea manual simple en funcion del numero de veces

que se ha practicado: T ≈ ts−n donde T es el tiempo, n el numero de veces y t y s

parametros que dependen de la tarea y el individuo. Estime t y s con los siguientes

T 22.4 21.3 19.7 15.6 15.2 13.9 13.7

n 0 1 2 3 4 5 6

(sugerencia: linearize el modelo).

Capıtulo 8

Modelizacion

8.1. Introduccion

La ley de probabilidades de la Va con la que se trabaja puede ser de forma conocida pero

desconocidos sus parametros o completamente desconocida.

Cuando es de forma conocida el problema se reduce a estimar los parametros a partir de

una muestra como hemos estudiado en los capıtulos anteriores. Por ejemplo la ley binomial

corresponde a un experimento muy concreto, o la normal a la que suelen ajustarse los erro-

res de medida; muchas veces la ley se deduce de un modelo fısico que despues ha de ser

comprobado experimentalmente, como la exponencial para el tiempo de vida de los atomos

radiactivos, la normal para la velocidad de las moleculas de un gas ideal, o la de Maxwell

para su rapidez.

En muchas ocasiones, sin embargo, la ley es completamente desconocida y se plantea el

problema de la aproximacion de alguna de las funciones equivalentes F (distribucion), f

(masa o densidad) o F−1 (cuantiles) que determinan su distribucion de probabilidades, sin

recurrir a ninguna forma particular: lo que se llama una estimacion no parametrica.

Por ultimo una estimacion no parametrica puede servir para elegir un modelo parametrico,

comparando el ajuste de aquella con el candidato parametrico.

8.2. La funcion de distribucion empırica

Como se sabe, la especificacion de la distribucion de probabilidades de X, sea esta discreta

o continua, puede hacerse con la funcion de distribucion:

F (x) = P (X ≤ x) ∀x ∈ R

192 Capıtulo 8. Modelizacion

Una estimacion obvia de F a partir de una muestra (x1, x2, ..., xn) de X se obtiene estimando

la probabilidad por la correspondiente frecuencia relativa experimental:

Definicion 8.1. La funcion de distribucion empırica es

F (x) =n(≤ x)

n∀x ∈ R

donde n(≤ x) denota el numero de elementos de la muestra que son menores o iguales que

Para construir con facilidad F conviene basarse en la muestra ordenada en valores crecien-

tes, que denotamos (x(1), x(2), ...x(n)). Por medio de ella la funcion de distribucion empırica

F (x) =

0 si x < x(1)

k/n si x(k) ≤ x < x(k+1)

1 si x ≥ x(n)

y se ve que equivale a una asignacion de masa de probabilidad 1/n a cada elemento de la

muestra.

Ejemplo 8.1. supongamos la muestra ficticia (3, 5, 1, 5, 8, 7, 6). La muestra ordenada es

(1, 3, 5, 5, 6, 7, 8). La funcion de distribucion empırica es

F (x) =

0 x < 1

1/7 1 ≤ x < 3

2/7 3 ≤ x < 5

4/7 5 ≤ x < 6

5/7 6 ≤ x < 7

6/7 7 ≤ x < 8

1 x ≥ 8

Ejemplo 8.2. Se dispone de una muestra de 106 observaciones de la variable aleatoria T ,

tiempo en minutos entre cada 2 llegadas consecutivas de camiones a un punto de carga desde

un instante de observacion inicial:

(8, 30, 17, 65, 8, 38, 35, 4, 19, 7, 14, 12, 4, 5, 4, 2, 7, 5, 12, 50,

33, 10, 15, 3, 10, 1, 5, 30, 41, 21, 31, 1, 18, 12, 5, 24, 7, 6, 31, 0,

4, 2, 20, 1, 30, 2, 1, 3, 12, 12, 9, 28, 6, 50, 63, 5, 17, 11, 24, 0,

47, 90, 13, 21, 55, 43, 5, 19, 47, 24, 4, 6, 27, 4, 6, 37, 16, 41, 68, 11,

5, 28, 42, 3, 42, 8, 52, 2, 11, 41, 4, 35, 21, 3, 17, 10, 16, 0, 69, 105,

8.2. La funcion de distribucion empırica 193

0 1 2 3 4 5 6 7 8 90

Figura 8.1: Funcion de distribucion empırica (ejemplo 8.1)

45, 23, 5, 10, 12, 17).

El primer camion llego 8 min despues del comienzo de las observaciones; el segundo 30 min

despues del primero, el tercero 17 despues del segundo...

La muestra ordenada es:

(0, 0, 0, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 4, 4, 4, 4, 4,

4, 4, 5, 5, 5, 5, 5, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8, 8, 8,

9, 10, 10, 10, 10, 11, 11, 11, 12, 12, 12, 12, 12, 12, 13, 14, 15, 16, 16, 17,

17, 17, 17, 18, 19, 19, 20, 21, 21, 21, 23, 24, 24, 24, 27, 28, 28, 30, 30, 30,

31, 31, 33, 35, 35, 37, 38, 41, 41, 41, 42, 42, 43, 45, 47, 47, 50, 50, 52, 55,

63, 65, 68, 69, 90, 105)

Es decir, t(1) = t(2) = t(3) = 0, t(4) = · · · = t(7) = 1, ...,, t(106) = 105.

La funcion de distribucion empırica es:

F (t) =

0 t < 0

3/106 0 ≤ t < 1

7/106 1 ≤ t < 2

11/106 2 ≤ t < 3

105/106 90 ≤ t < 105

1 t ≥ 105

0 20 40 60 80 100 1200

t (minutos)

Figura 8.2: Funcion de distribucion empırica (ejemplo 8.2)

Las propiedades del estimador F se dan en los Complementos.

8.3. La funcion de masa empırica

Sea una Va discreta X cuya funcion de masa desconocida f (x) = P (X = x) deseamos

aproximar a partir de una muestra (x1, x2, ..., xn). Una estimacion no parametrica de f

a partir de una muestra (x1, x2, ..., xn) de X se obtiene estimando la probabilidad por la

correspondiente frecuencia relativa experimental.

Definicion 8.2. Si en la muestra hay k valores distintos S = a1, a2, ..., ak se agrupan

segun sus repeticiones. La muestra agrupada es (n (x) , x ∈ S) , donde n (x) es el numero de

elementos de la muestra que son iguales a x, y∑

x∈S n (x) = n.

La funcion de masa empırica es

f (x) =n (x)

nx ∈ S

Las propiedades del estimador f se dan en los Complementos.

Ejemplo 8.3. Rutherford, Geiger y Bateman (Phil. Mag., 1910) observaron una substancia

radioactiva durante 2608 intervalos de 7.5 segundos cada uno, registrandose con un detector

el numero x de particulas alfa emitidas cada intervalo, con los resultados

8.4. La funcion de densidad empırica 195

x 0 1 2 3 4 5 6 7 8 9 10 11 12

n (x) 57 203 383 525 532 408 273 139 45 27 10 4 2

En la tabla 8.1 se calculan las frecuencias relativas (funcion de masa empırica) de cada valor

x observado, y en la figura 8.3 se muestra la grafica correspondiente. Los autores propusieron

como modelo plausible para la funcion de masa desconocida el de Poisson

f (x) = exp (−λ)λx

x!x = 0, 1, 2, ...

en el cual la estimacion MV de λ es x (ejercicio 8 del capıtulo 6)

12∑x=0

x× n (x) = 3.87 cuentas/7.5 s.

En la tabla 8.1 y en la figura 8.3 se incluye para comparacion dicho modelo:

f (x) = exp (−3.87)(3.87)x

x!x = 0, 1, 2, ...

x n (x) freq. rel. Poisson

0 57 0.0219 0.0209

1 203 0.0778 0.0807

2 383 0.1469 0.1562

3 525 0.2013 0.2015

4 532 0.2040 0.1949

5 408 0.1564 0.1509

6 273 0.1047 0.0973

7 139 0.0533 0.0538

8 45 0.0173 0.0260

9 27 0.0104 0.0112

10 10 0.0038 0.0043

11 4 0.0015 0.0015

12 2 0.0008 0.0005

2608 1 0.9998

Tabla 8.1: Comparacion entre la funcion de masa empırica (frecuencia relativa) del ejemplo

8.3 y la funcion de masa de Poisson con λ = 3.87

8.4. La funcion de densidad empırica

Sea una Va continua X cuya funcion de densidad desconocida f deseamos aproximar a

partir de una muestra (x1, x2, ..., xn).

0 1 2 3 4 5 6 7 8 9 10 11 120

número de cuentas

Freq. relativa

Poisson

Figura 8.3: Dibujo de los valores de la comparacion entre la funcion de masa empırica del

ejemplo 8.3 y una funcion de masa de Poisson con λ = 3.87 (tabla 8.1).

f(x) = F ′(x) = lımh→0

F (x+ h)− F (x)

para aproximar f(x) debemos estimar F (x + h) − F (x) con un valor de h suficientemente

pequeno. Una estimacion serıa entonces

F (x+ h)− F (x) =n(x, x+ h]

donde n(x, x + h] denota el numero de elementos de la muestra que estan en el intervalo

(x, x+ h]. Finalmente

f(x) =F (x+ h)− F (x)

h=n(x, x+ h]

La dificultad para llevar a la practica la idea anterior esta en que n es finito con lo que, si h

es demasiado pequeno, en el intervalo (x, x + h] no habra ningun elemento de la muestra o

habra tan solo uno.

Debemos conformarnos entonces con utilizar un valor de h no demasiado pequeno que per-

mita estimar la probabilidad F (x+ h)−F (x). Ello significa que en lugar de aproximar f(x)

estaremos aproximando su valor medio en el intervalo, pues

F (x+ h)− F (x)

h=P (x < X ≤ x+ h)

∫ x+h

xf (u) du

El metodo de trabajo habitual es el siguiente:

8.4. La funcion de densidad empırica 197

1. se elige el valor adecuado de h en funcion de la muestra disponible. Para ello hay

diversos criterios orientativos. Por ejemplo

h ≈ 3.5s

donde s es la desviacion tıpica de la muestra.

2. se elige un origen a0 ≤ mın (x1, x2, ..., xn).

3. se consideran a partir del origen intervalos1 de longitud h hasta cubrir la muestra

(llamados tambien clases; bins en ingles):

I1 = [a0, a0 + h], I2 = (a0 + h, a0 + 2h], ...Im = (a0 + (m− 1)h, a0 +mh]

de manera que m es el entero mas pequeno que verifica a0 +mh ≥ max (x1, x2, ..., xn).

4. en cada uno de dichos m intervalos Ij se estima la densidad media de probabilidad con

(j = 1, ...,m)

donde nj es el numero de elementos de la muestra incluidos en el intervalo Ij (ası que∑mj=1 nj = n).

Se llama histograma (o funcion de densidad empırica) a la funcion

f (x) =

0 x < a0

x ∈ Ij

0 x > a0 +mh

que es efectivamente una funcion de densidad:∫Rf (x) dx =

m∑j=1

∫ a0+jh

a0+(j−1)hf (x) dx =

m∑j=1

njnh× h =

m∑j=1

nj = 1

Ejemplo 8.4. (cont. del 8.2) Construyamos un histograma de la muestra de 106 intervalos

de tiempo entre llegadas sucesivas de camiones a un punto de carga. Tomaremos x0 = 0. La

desviacion tıpica muestral es s = 20.33 min y resulta como valor orientativo

h =3.5× 20.33

106= 15.035

y tomaremos h = 15. Resultan los intervalos: [0, 15], (15, 30], (30, 45], ...(90, 105]. Ahora los

valores nj de observaciones en cada intervalo se hallan con comodidad sobre la muestra

ordenada. Los calculos se resumen en la tabla 8.2.

Ij njnjn

[0, 15] 57 0.5377 0.0358

(15, 30] 23 0.2170 0.0145

(30, 45] 14 0.1321 0.0088

(45, 60] 6 0.0566 0.0038

(60, 75] 4 0.0377 0.0025

(75, 90] 1 0.0094 0.0006

(90, 105] 1 0.0094 0.0006

Tabla 8.2: Valores del histograma para la muestra del ejemplo 8.2

0 20 40 60 80 100 1200

tiempo entre llegadas en min

Figura 8.4: Histograma obtenido a partir de la muestra del ejemplo 8.2. Comparacion con

un modelo exponencial con λ = 0.05.

La forma del histograma sugiere que un modelo plausible para la densidad f puede ser el

exponencial

f (t) = λ exp (−λt) t > 0

y como el valor de la media muestral es t = 20.38 min, la estimacion MV de λ es 1/t = 0.05

camiones/min. En la figura 8.4 se ha superpuesto al histograma dicho modelo:

f (t) = 0.05 exp (−0.05t) t > 0

1Se usan intervalos (a, b] para que cada observacion xi se incluya en uno solo, pero tambien podrıamos

utilizar intervalos [a, b). Teoricamente son equivalentes pues para una variable continua P (a < X < b) =

P (a ≤ X < b) = P (a < X ≤ b) = P (a ≤ X ≤ b)

8.5. La funcion de cuantiles empırica 199

Ejemplo 8.5. (cont.) La funcion de distribucion correspondiente es

F (t) = 1− exp(−0.05t) t > 0

y en la figura 8.5 se superpone a la funcion de distribucion empırica calculada en el ejemplo

0 20 40 60 80 100 1200

t (minutos)

Figura 8.5: Funcion de distribucion empırica obtenida a partir de la muestra del ejemplo 8.2

comparada con la funcion de distribucion exponencial de λ = 0.05.

8.5. La funcion de cuantiles empırica

Sea ahora X continua. Entonces su funcion de distribucion F es continua y existe la funcion

inversa x = F−1(p), p ∈ (0, 1), llamada funcion de cuantiles y que suele denotarse x = Q(p).

Como una estimacion de F es la funcion de distribucion empırica F , entonces una estimacion

de Q deberıa ser la inversa de F . Pero esta carece de inversa: si x(k) 6= x(k+1) y se elige

p = k/n, entonces el valor inverso de F (x) = k/n podrıa ser cualquier x de [x(k), x(k+1)).

Ejemplo 8.6. para la muestra (1, 3, 5, 5, 6, 7, 8) es F (x) = 4/7 si x ∈ [5, 6).

La solucion mas utilizada consiste en suavizar F sustituyendo los tramos horizontales por

otros inclinados que sı permitan la inversion, del siguiente modo:

Se asocia a cada x(k) la probabilidad

x(k) 7−→ pk =k − 0.5

nk = 1, 2, ..., n

y, para k = 1, 2, ..., n − 1, se conecta el par de puntos(x(k),

k−0.5n

)y(x(k+1),

(k+1)−0.5n

)mediante un segmento de recta.

Ejemplo 8.7. En la figura 8.7 se muestra la funcion de distribucion empırica y la suaviza-

cion lineal propuesta para la muestra (1, 3, 5, 5, 6, 7, 8):

0 1 2 3 4 5 6 7 8 90

función de distribución empírica

suavización lineal

Figura 8.6: Suavizacion lineal

Ahora si p ∈ [k−0.5n , (k+1)−0.5

n ) determinamos la abscisa x = Q(p) que le corresponde inter-

polando: la ecuacion de la recta es

x− x(k)

x(k+1) − x(k)=

p− k−0.5n

(k+1)−0.5n − k−0.5

=p− k−0.5

= np− k + 0.5

y resulta

x = Q(p) = x(k) + (np− k + 0.5)(x(k+1) − x(k)

)Ademas si p < 1−0.5

n es Q(p) = x(1), y si p > n−0.5n es Q(p) = x(n).

En la practica, dado p ∈ (0, 1) primero hay que averiguar el segmento para interpolacion, es

decir el k tal quek − 0.5

n≤ p < (k + 1)− 0.5

o lo que es igual

k ≤ np+ 0.5 < k + 1

y resulta que k es la parte entera de np+ 0.5. Reunimos todo ello en una definicion:

8.5. La funcion de cuantiles empırica 201

Definicion 8.3 (cuantil empırico). Sea (x(1), x(2), ..., x(n)) una muestra ordenada de tamano

n de un variable aleatoria continua X. Para p ∈ (0, 1), sea

np+ 0.5 = k + r

donde k es la parte entera y r ∈ [0, 1) la fraccionaria. El cuantil empırico de orden p es

Q(p) = x(k) + r(x(k+1) − x(k)

)Ademas, si k = 0 entonces Q(p) = x(1) y si k = n entonces Q(p) = x(n).

Ejemplo 8.8. con la muestra (1, 3, 5, 5, 6, 7, 8) para p = 1/4 es

2= 2 +

ası que Q(1/4) = x(2) + 0.25(x(3) − x(2)) = 3 + 0.25(5− 3) = 3.5

Y para p = 3/4 es

2= 5 +

ası que Q(3/4) = x(5) + 0.75(x(6) − x(5)) = 6 + 0.75(7− 6) = 6.75

0 1 2 3 4 5 6 7 8 90

Figura 8.7: Valores de la funcion de cuantiles empırica para p = 1/4 y p = 3/4

Ejemplo 8.9. (cont. del 8.5):

para p = 1/4 es

106× 1

2= 27 + 0

ası que Q(1/4) = x(27) = 5 min

para p = 3/4 es

106× 3

2= 80 + 0

ası que Q(3/4) = x(80) = 30 min

para p = 0.8 es

106× 0.8 +1

2= 85 + 0.3

ası que Q(0.8) = x(85) + 0.3(x(86) − x(85)) = 35 + 0.3(37− 35) = 35.6 min

Se llaman primero, segundo y tercer cuartil a Q(1/4), Q(1/2) y Q(3/4), y se denotan

tambien q1, q2 y q3.

Se llaman percentiles a los Q(p) correspondientes a p = 0.01, 0.02, ..., 0.99.

Nota: La asociacion x(k) → pk = (k − 0.5) /n significa que por definicion x(k) es el cuantil

de orden pk. Otros criterios para interpolar el cuantil Q(p) de una muestra de tamano n de

una magnitud continua se obtienen con otras elecciones de las probabilidades pk. Ademas de

la anterior otra comun en ingenierıa es pk = k/ (n+ 1). Con cualquiera de ellas si n→∞ el

cuantil Q(p) tiende a partir la muestra ordenada en proporciones p y 1−p (es decir, converge

en probabilidad a Q(p)).

8.6. Modelizacion con los cuantiles

Sea la muestra ordenada (x(1), x(2), ..., x(n)), es decir los cuantiles estimados x(k) = Q(pk)

correspondientes a las probabilidades pk (k = 1, 2, ..., n). Si la funcion de cuantiles teorica

de la variable aleatoria X de la que proviene la muestra es x = Q(p), los cuantiles teoricos

correspondientes son Q (pk) y tenderan a ser aproximadamente iguales a sus estimaciones

(tanto mas cuanto mayor sea n), es decir

x(k) ≈ Q(pk) k = 1, 2, ...n

y resulta que los puntos (Q(pk), x(k)) (teoricos,empıricos) se ajustaran aproximadamente a

una recta de pendiente 450 que pasa por el origen.

Se llama grafico cuantil-cuantil (qq-plot) al de los puntos (Q(pk), x(k)) para comprobar si

cierto modelo teorico Q(p) es adecuado a la muestra.

En principio, para calcular los Q(pk) habrıa que conocer, o estimar, los parametros del

modelo. Sin embargo muchas veces Q(p) depende linealmente de solo uno o dos parametros

desconocidos, sea Q(p) = a+ bQ0(p), donde Q0 (p) no depende ya de ningun parametro, de

manera que el grafico de los puntos (Q0(pk), x(k)) se ajustara a una recta. Si ello es ası su

8.6. Modelizacion con los cuantiles 203

pendiente b y su ordenada a pueden estimarse entonces por mınimos cuadrados, y de sus

valores deducir los parametros del modelo Q (p).

Ejemplo 8.10. Si X es exponencial de parametro λ

F (x) = 1− exp(−λx) = p

x = − 1

λln (1− p)

ası que Q0 (p) = − ln (1− p) y los puntos (− ln (1− pk) , x(k)) deberıan ajustarse a una recta

de pendiente b = λ−1 y ordenada 0.

Ejemplo 8.11. Si X es normal de parametros µ y σ

F (x) = Φ

(x− µσ

x = σΦ−1(p) + µ

ası que Q0 (p) = Φ−1 (p) y los puntos (Φ−1(pk), x(k)) deberıan ajustarse a una recta de

pendiente b = σ y ordenada a = µ.

Nota: hemos construido el grafico poniendo en abscisas los valores Q(pk) (teoricos) y en

ordenadas los x(k) (experimentales) y la recta de mınimos cuadrados es la convencional

(minimizando las desviaciones de las x(k) sobre la recta). En muchos paquetes de software

estadıstico los ejes pueden estar al reves, pero la recta de ajuste debe ser siempre en el mismo

sentido (experimentales sobre teoricos). Tambien es frecuente graficar las posiciones de los

Q (pk) con los valores de pk (graficos probabilısticos).

8.6.1. Estimacion de los parametros

Las estimaciones de mınimos cuadrados de los parametros a y b de Q (p) = a + bQ0 (p), a

partir de los n puntos (Q0 (pi) , x(i)) son:

∑x(i)Q0 (pi)−

(∑x(i)

)(∑Q0 (pi)) /n∑

Q20 (pi)− (

∑Q0 (pi))

a =(∑

x(i) − b∑

Q0 (pi))/n

Ejemplo 8.12. Construyamos como ejercicio el grafico cuantil-cuantil para la muestra fic-

ticia (1, 3, 5, 5, 6, 7, 8) con un modelo gaussiano. Como n = 7 las probabilidades asociadas a

cada elemento de la muestra (cuantiles empıricos) con pk = (k − 0.5)/7 son

pk = (0.0714, 0.2143, 0.3571, 0.5000, 0.6429, 0.7857, 0.9286)

y los cuantiles teoricos con la N(0, 1) correspondientes a estas probabilidades son

Φ−1(pk) = (−1.4652,−0.7916,−0.3661, 0, 0.3661, 0.7916, 1.4652)

−1.5 −1 −0.5 0 0.5 1 1.51

Φ−1

Figura 8.8: Dibujo de los puntos (Φ−1(pk), x(k)) (qq-plot) y de la recta de ajuste de mınimos

cuadrados para la muestra del ejemplo 8.12.

En la figura 8.8 se muestra el grafico (Φ−1(pk), x(k)) en el que se incluye la recta de ajuste

de mınimos cuadrados.

La recta de ajuste de mınimos cuadrados es (en este caso es Q0 = 0)

∑x(i) × Φ−1 (pi)∑

(Φ−1 (pi))2 = 2.3712

a = x =1

∑x(i) = 5

Si se considerase que el ajuste es satisfactorio, se modelizarıa la variable aleatoria X de la

que proviene la muestra como gaussiana con µ estimada 5 y σ estimada 2.37

Ejemplo 8.13. (cont. del 8.5) En la figura 8.9 se muestra el qq-plot de la muestra de 106

intervalos de tiempo entre llegadas sucesivas de camiones a un punto de carga suponiendo

un modelo exponencial.

Como n = 106 las probabilidades asociadas a cada elemento de la muestra (cuantiles empıri-

cos) con pk = (k − 0.5)/106 son

pk = (0.0047, 0.0142, 0.0236, ..., 0.9858, 0.9953)

y los cuantiles teoricos con la Q0 (p) = − ln (1− p) correspondientes a estas probabilidades

Q0(pk) = (0.0047, 0.0143, 0.0239, ..., 4.2580, 5.3566)

8.7. Resumen y comparacion de muestras 205

0 1 2 3 4 5 6−20

−log(1−pk))

Figura 8.9: Dibujo de los puntos (Φ−1(pk), x(k)) (qq-plot) y de la recta de ajuste de mınimos

cuadrados para la muestra del ejemplo 8.2.

Los parametros de la recta de mınimos cuadrados son b = 20.5564 y a = −0.1119, que pasa

practicamente por el origen. La pendiente teorica es λ−1 ası que el parametro λ estimado por

mınimos cuadrados es λ = 1/b = 0.0486 (recordar que la estimacion de maxima verosimilitud

de λ−1 = E (X) para la exponencial es x, que en la muestra vale 20.3774 ası que la estimacion

de maxima verosimilitud de λ es 0.0491)

8.7. Resumen y comparacion de muestras

El objetivo es resumir en unos pocos numeros aspectos relevantes de la muestra. Debe quedar

claro que ningun resumen de este tipo puede sustituir (equivaler) a la muestra.

Sea una muestra ordenada (x(1), x(2), ..., x(n)) de una variable aleatoria X continua.

8.7.1. Centro

El punto central de la muestra ordenada se llama la mediana. Segun que n sea par o impar

se calcula ası:

xm =x(k) + x(k+1)

2n = 2k

xm = x(k+1) n = 2k + 1

y se comprueba que, tal como se han definido los cuantiles empıricos, coincide con q2.

La mediana de una muestra de una variable aleatoria continua X es tambien una estimacion

de la mediana de la poblacion X, que se define como el numero m tal que

P (X < m) = P (X > m) =1

Ejemplo 8.14. en la muestra del ejemplo 8.13 es xm = (x(53) + x(54))/2 = 12 min

8.7.2. Dispersion

La dispersion total de la muestra es su rango, igual a x(n) − x(1).

Una medida mas robusta, es decir menos influenciada por los valores alejados del centro es

el rango intercuartılico, igual a q3− q1 (es decir, es la amplitud del intervalo que contiene

el 50 % central).

Ejemplo 8.15. (cont.) el rango intercuartılico es 30− 5 = 25.min

8.7.3. Simetrıa

Para medir el grado de simetrıa de la muestra (mas precisamente del 50 % central) puede

usarse la posicion de la mediana entre los cuartiles. Si q3 − xm = xm − q1 la muestra es

simetrica. Si q3− xm > xm− q1 es asimetrica a la derecha, y en otro caso hacia la izquierda.

En resumen un coeficiente de simetrıa es

(q3 − xm)− (xm − q1) = q3 + q1 − 2xm

que sera menor, igual o mayor que cero segun que la muestra sea asimetrica a la izquierda,

simetrica o asimetrica a la derecha. Para que la medida no dependa de la escala se puede

dividir por el rango intercuartılico, obteniendose ası el coeficiente de simetrıa (de Galton):

cg =q3 + q1 − 2xm

q3 − q1

Ejemplo 8.16. (cont)

cg =30 + 5− 2× 12

30− 5= 0.44

y es asimetrica a la derecha (los datos a la derecha de la mediana se extienden mas lejos que

a la izquierda).

8.7.4. Valores atıpicos

Es frecuente que en la muestra aparezcan datos distantes del centro, en las colas de la

distribucion. Pueden ser valores extremos legıtimos, pero tambien pueden deberse a errores

de transcripcion o medida, o porque se han tomado en circunstancias distintas de los demas.

Un criterio simple es considerar atıpicas en principio las observaciones menores que

`i = q1 − 1.5 (q3 − q1)

o mayores que

`s = q3 + 1.5 (q3 − q1)

Ejemplo 8.17. (cont)

`i = 5− 1.5(30− 5) = −32.5

`s = 30 + 1.5(30− 5) = 67.5

y los valores 68, 69, 90 y 105 son atıpicos.

Nota: el siguiente parrafo extraıdo de http://exploringdata.cqu.edu.au/ozone.htm es alec-

cionador:

En 1985 tres investigadores (Farman, Gardinar y Shanklin) estaban perplejos porque datos

recogidos por el British Antarctic Survey mostraban que los niveles de ozono en la Antartida

habıan caido un 10 % por debajo de los normales. La pregunta era por que el satelite Nimbus

7, que llevaba instrumentos a bordo para medirlos no lo habıa detectado. Cuando examinaron

los datos del satelite no tardaron en darse cuenta que habıa ya registrado concentraciones tan

bajas durante anos, pero el ordenador habıa sido programado para desecharlas!. El satelite

Nimbus 7 habıa recogido evidencias de los bajos niveles de ozono desde 1976. El dano causado

a la atmosfera por los clorofluorcarbonos no habıa sido detectado y tratado durante 9 anos

porque los valores atıpicos habıan sido desechados sin ser examinados.

Moraleja: las observaciones atıpicas pueden ser las mas valiosas de una muestra.

8.7.5. Diagramas de caja (box-plot)

Es una representacion grafica de la muestra en la que se reflejan simultaneamente su centro,

dispersion, simetrıa, recorrido y posibles valores atıpicos.

Supongamos que la escala de valores de la variable se traza verticalmente:

1. Se dibuja un rectangulo, de anchura horizontal arbitraria, altura vertical q3−q1, y cuyos

lados horizontales se situan segun la escala vertical en q1 y q3. Se senala la posicion de

2. Se trazan lineas verticales desde q1 hasta el dato mas pequeno no atıpico (es decir en

el intervalo [`i, q1] ), y desde q3 hasta el dato mas grande no atıpico (es decir en el

intervalo [q3, `s] ).

3. Se senala la posicion de los datos atıpicos.

Ejemplo 8.18. La muestra ordenada (2.30956, 2.30986, 2.31001, 2.3101, 2.3101, 2.31017,

2.31024, 2.31028, 2.31163) corresponde a las medidas hechas por Raleigh en 1895 de la masa

(en gramos) del nitrogeno obtenido de la atmosfera (eliminando el oxıgeno, dioxido de car-

bono y vapor de agua) contenido en cierto volumen en condiciones especıficas de presion y

temperatura.

Para p = 1/4

2= 2 + 0.75

ası que q1 = 2.30986 + 0.75× (2.31001− 2.30986) = 2.3099725 g

Para p = 3/4

2= 7 + 0.25

ası que q3 = 2.31024 + 0.25× (2.31028− 2.31024) = 2.31025 g

Y para p = 1/2 la mediana es q2 = x(5) = 2.3101 g

El lımite inferior de valores atıpicos es

li = 2.3099725− 1.5× (2.31025− 2.3099725) = 2.309556

y el lımite superior

ls = 2.31025 + 1.5× (2.31025− 2.3099725) = 2.310666

resultando que x(9) es atıpico.

Los diagramas de caja son de gran utilidad para comparar muestras.

Ejemplo 8.19. (continuacion) La muestra ordenada (2.29816, 2.29849, 2.29869, 2.29889,

2.2989, 2.2994, 2.30054, 2.30074, 2.30143, 2.30182) corresponde a las medidas hechas por

Rayleigh de la masa (en gramos) del nitrogeno obtenido por medio de una reaccion quımi-

ca (a partir de urea), contenido en el mismo volumen que la muestra anterior en iguales

condiciones de presion y temperatura. Cualquiera que fuese la procedencia del nitrogeno, a

2.3096

2.3098

2.3102

2.3104

2.3106

2.3108

2.3112

2.3114

2.3116

Nitró

Figura 8.10: Diagrama de caja o box-plot correspondiente a la muestra del ejemplo 8.18

igualdad de volumen, presion y temperatura deberıa haber, aparte la variabilidad experimen-

tal, la misma masa.

En la figura 8.11 se comparan los box-plot de ambas muestras en los que se aprecia claramente

la mayor masa de las medidas de procedencia atmosferica, ası como su menor variabilidad

experimental. Rayleigh (y Ramsay) concluyeron que en la atmosfera habıa otro gas, hasta

entonces desconocido, lo que les llevo al descubrimiento del argon (0.94 % de Ar en el aire).

Ejemplo 8.20. En 1879 Michelson realizo 100 medidas de la velocidad de la luz en el aire

usando una modificacion de un metodo propuesto por Foucault. El objetivo del experimento

era medir la variacion de la velocidad de la luz con el movimiento del sistema inercial (la

Tierra). El experimento (para el que Michelson invento el interferometro optico) fue negativo,

y puso las bases de la Teorıa de la Relatividad.

La medidas se realizaron, en fechas sucesivas y con ajustes del sistema experimental, en cinco

grupos de 20 medidas cada uno. Los valores obtenidos se dan a continuacion ordenados. La

unidad son 1000 Km/s y se les ha restado 299 (es decir, el numero 0.65 corresponde a una

medida de 299.65× 103 Km/s).

g1 =(0.65, 0.74, 0.76, 0.81, 0.85, 0.85, 0.88, 0.90, 0.93, 0.93,

0.95, 0.96, 0.96, 0.98, 0.98, 0.98, 1.00, 1.00, 1.00, 1.07).

g2 =(0.76, 0.79, 0.79, 0.80, 0.80, 0.80, 0.81, 0.83, 0.83, 0.84,

0.85, 0.88, 0.88, 0.88, 0.88, 0.90, 0.94, 0.94, 0.96, 0.96)

Químico Atmosférico

Nitró

Figura 8.11: Diagramas de caja (o box-plot) del ejemplo 8.19

g3 =(0.62, 0.72, 0.72, 0.84, 0.84, 0.84, 0.84, 0.84, 0.85, 0.85,

0.86, 0.86, 0.87, 0.88, 0.88, 0.88, 0.88, 0.91, 0.95, 0.97)

g4 =(0.72, 0.74, 0.75, 0.76, 0.76, 0.77, 0.78, 0.80, 0.81, 0.81,

0.82, 0.84, 0.85, 0.85, 0.86, 0.88, 0.89, 0.89, 0.91, 0.92)

g5 =(0.74, 0.76, 0.78, 0.79, 0.80, 0.81, 0.81, 0.81, 0.81, 0.81,

0.81, 0.82, 0.84, 0.85, 0.87, 0.87, 0.87, 0.89, 0.94, 0.95)

Secciones 8.2, 8.3 y 8.4

1. Suponiendo que

(3, 7, 1, 2, 10, 11, 7, 6, 8, 8, 7),

es la muestra de una variable aleatoria discreta, X, de la que se desconoce su distribu-

cion. Se pide:

a) Determinar la funcion de distribucion empırica de X.

b) Determinar la funcion de masa empırica de X.

1 2 3 4 5299.6

299.65

299.75

299.85

299.95

300.05V

Figura 8.12: Diagramas de caja (o box-plot) del ejemplo 8.20

2. La siguiente muestra, proporcionada por la Agencia Estatal de Meteorologıa (AEMET),

se corresponde con las precipitaciones medias en la Espana peninsular (media de todos

los pluviometros peninsulares de la AEMET expresada en mm) durante los 24 anos

hidrologicos que van desde 1989/90 a 2012/13.

(560, 602, 498, 542, 505, 453, 706, 682, 628, 460, 474, 664,

495, 595, 637, 403, 542, 597, 505, 510, 646, 542, 362, 593).

Utilizando la muestra anterior, se pide:

a) Determinar la funcion de distribucion empırica de la variable aleatoria X = “pre-

cipitacion media en Espana”.

b) Determinar la funcion de densidad empırica de X, dibujando el histograma co-

rrespondiente.

3. La European Agency for Safety and Health at Work fija un OEL (occupational exposure

limit: lımite de exposicion profesional) para el plomo en el aire de 150µg m−3. Para

controlar los valores X de contaminacion en un laboratorio se han muestreado 15

puntos resultando: 208, 4, 579, 59, 115, 309, 132, 371, 22, 15, 120, 80, 19, 68, 7.

a) Calcule los cuartiles, el coeficiente de simetrıa y los valores atıpicos.

b) Dibuje el box-plot de la muestra de X.

c) Sea Y = log (X). Calcule los cuartiles, el coeficiente de simetrıa y los valores atıpicos.

d) Dibuje el box-plot de la muestra de Y .

e) Dibuje el qq-plot de la muestra de Y suponiendo un modelo normal.

f) Estime los parametros del modelo normal ajustando una recta al qq-plot anterior y

tambien los de maxima verosimilitud.

4. La muestra ordenada corresponde a las 29 medidas de la densidad media de la Tierra

ρT (g cm3) del experimento de Cavendish (ejercicio propuesto 2 del capıtulo 6):

4.88 5.07 5.1 5.26 5.27 5.29 5.29 5.3 5.34 5.34

5.36 5.39 5.42 5.44 5.46 5.47 5.5 5.53 5.55 5.57

5.58 5.61 5.62 5.63 5.65 5.68 5.75 5.79 5.85

a) calcule y dibuje 2 histogramas: ambos con el mismo valor de h pero con origen de

clases distintos: uno a0 = 4.88 y otro a0 = 4.84.

b) dibuje el qq-plot suponiendo un modelo normal.

Apendice A

Soluciones a los Ejercicios

A.1. Capıtulo 1

1. A∪B = (ABc)∪(BAc)∪(AB) y los tres sucesos entre parentesis son disjuntos. Ası que,

aplicando el axioma 1

P (A ∪B) = P (ABc) + P (BAc) + P (AB)

Ademas A = (ABc) ∪ (AB) y como los 2 sucesos entre parentesis son disjuntos se

deduce que

P (ABc) = P (A)− P (AB)

y analogamente

P (AcB) = P (B)− P (AB)

Finalmente, sustituyendo arriba

P (A ∪B) = P (A) + P (B)− P (AB)

P (1) = P (2) = · · · = P (5) = p→ P (1, 2, 3, 4, 5) = 5p

P (6) = 2P (1, 2, 3, 4, 5)→ P (6) = 10p

1 = P (6) + P (1, 2, 3, 4, 5)→ 1 = 15p

y resulta p = 1/15. Entonces

P (2, 4, 6) = 12p = 4/5

214 Soluciones a los Ejercicios

P (par) + P (impar) = 1→ 3p+ 3q = 1

P (par)− P (impar) = 0.1→ 3p− 3q = 0.1

y resulta p = 11/60, q = 3/20

n∑i=1

P (ωi) = c

n∑i=1

i = cn(n+ 1)

2→ c =

n(n+ 1)

5. Los casos favorables (entre parentesis) son: ”suma 9”=126(6), 135(6), 144(3), 225(3),

234(6), 333(1), total 25; ”suma 10”=136(6), 145(6), 226(3), 235(6), 244(3), 334(3),total 27. Los casos posibles son 63 = 216. Resultan P (”suma 9”) = 25/216 y P (”suma 10”) =

27/216.

6. El numero de resultados es |Ω| = Nn y son equiprobables.

Las k defectuosas pueden aparecer en k posiciones distintas del total de las n extrac-

ciones, ası que hay

)distribuciones distintas. En cada una de estas las k defec-

tuosas pueden obtenerse de (Np)k formas distintas y con ellas las n − k defectuosas

de (N (1− p))n−k formas distintas. Ası que el numero de resultados distintos con k

defectuosas es |Ak| =(n

)(Np)k (N (1− p))n−k = Nn

)pk (1− p)n−k.

La probabilidad de pedida es

P (k) =|Ak||Ω|

)pk (1− p)n−k

para 0 ≤ k ≤ n.

7. El numero de resultados es |Ω| =(Nn

)muestras distintas de n piezas, y son equiproba-

De ellos hay |Ak| =(Npk

)(N−Npn−k

)con exactamente k piezas defectuosas (de entre las

Np) y n− k no defectuosas (de entre las N −Np).

La probabilidad pedida es

P (k) =

)(N(1−p)n−k

) k = 0, 1, ...,mın (n,Np)

8. El numero de resultados es |Ω| = 6n y son equiprobables (no lo serıan si el dado no fuese

equilibrado). Calculemos la probabilidad de que el 3 aparezca k veces (0 ≤ k ≤ n).

Los k treses pueden aparecer en k posiciones distintas de las n totales, ası que hay(n

)distribuciones. En cada una de estas ademas las n − k posiciones distintas de 3

A.1. Capıtulo 1 215

pueden ocuparse de 5n−k formas distintas. Ası que el numero de resultados con k treses

es |Ak| =(n

)5n−k. La probabilidad de k treses es

P (k) =|Ak||Ω|

)5n−k

)n−kLa probabilidad de que aparezca el tres al menos una vez se calcula ası

P (≥ 1) =n∑k=1

Sin embargo es mucho mas facil a partir del suceso complementario que en este caso

es que no aparezca ningun 3 cuya probabilidad es

P (0) =

)n−0

)nası que la pedida es

P (≥ 1) = 1− P (0) = 1−(

)n9. Un vertice queda dentro si el punto dista de el a lo mas r, es decir si queda dentro del

cuarto de cırculo con centro en el vertice y radio r. El area total de la region favorable

es πr2, ası pues la probabilidad es πr2/`2.

La probabilidad es la misma en el siguiente experimento: se deja caer al azar un disco

circular de radio r sobre una malla de puntos, cuadrada de paso `. ¿Probabilidad de

que el disco caiga sobre un nodo?

Y la misma si se supone que el disco esta fijo y lo que se elige aleatoriamente es la

malla. En esta forma se puede suponer que el disco es un cuerpo a localizar y la malla

es una de sondeos.

10. Los terremotos peligrosos se producen en un segmento de la falla de longitud (teorema

de Pitagoras) 2×√

102 − 12 y de ellos los que tienen su epicentro a menos de 5 km se

producen en un segmento de longitud 2 ×√

52 − 12. Como los epicentros se localizan

al azar la probabilidad es(

2×√

52 − 12)/(

2×√

102 − 12)

= 0.49237

11. La distancia, en el plano z = 0, del punto de corte al origen es d tanϕ

P (corta) = P (d tanϕ < r) = P (ϕ < arctan(r/d))

=arctan(r/d)

P (S | S∗) =P (S∗ | S)P (S)

P (S∗ | S)P (S) + P (S∗ | N)P (N)

p+ 1m (1− p)

13. Sean los sucesos S = “se transmite un 1”, S′ = “se recibe un 1”, N = “se transmite un

0” y N ′ = “se recibe un 0”. En el enunciado se indica que: P (S) = p, P (N) = 1 − p,P (S′|N) = β y P (N ′|S) = α. La probabilidad pedida sera:

P (S|S′) =P (S′|S)P (S)

P (S′|S)P (S) + P (S′|N)P (N)=

(1− α)p

(1− α)p+ β(1− p).

14. a) Denotemos M=“bloque de mineral”, M∗=“bloque estimado como de mineral”,

E=“bloque de esteril”, E∗=“bloque estimado como de esteril”. Calculemos P (M∗)

por medio de la formula de la probabilidad total:

P (M∗) = P (M∗ |M)P (M) + P (M∗ | E)P (E)

= 0.80× 0.30 + 0.25× 0.70

= 0.415

Observar que, aunque la previson es de un 30 % de bloques de mineral, con el metodo

de estimacion se tratarıan como mineral un 41.5 % . Solo si fuese P (M∗ | M) = 1 y

P (E∗ | E) = 1 serıa P (M∗) = P (M).

P (M | M∗) =P (M∗ |M)P (M)

P (M∗)=

0.80× 0.30

0.415= 0.578

P (E | M∗) = 1− P (M |M∗) = 1− 0.578

y analogamente tendrıamos:

P (E | E∗) =P (E∗ | E)P (E)

P (E∗)=

0.75× 0.70

1− 0.415= 0.897

P (M | E∗) = 1− P (E | E∗) = 1− 0.897

15. El Ac y el B (tenga en cuenta que A y B son independientes, es decir P (AB) =

P (A)P (B)):

como B = AcB ∪AB y estos son incompatibles

P (AcB) = P (B)− P (AB)

= P (B)− P (A)P (B)

= (1− P (A))P (B)

= P (Ac)P (B)

El Ac y el Bc:

P (AcBc) = P ((A ∪B)c) = 1− P (A ∪B)

= 1− (P (A) + P (B)− P (AB))

= 1− (P (A) + P (B)− P (A)P (B))

= (1− P (A)) (1− P (B))

= P (Ac)P (Bc)

16. Un procedimiento para realizar un sorteo justo es el siguiente:

a) Se efectuan dos lanzamientos de la moneda.

b) Si los dos resultados son iguales se vuelve a lanzar la moneda otras dos veces hasta

conseguir dos resultados distintos.

c) Si el primer resultado es cara (c) y el segundo cruz (+) se gana, si el primer

resultado es cruz y el segundo cara se pierde.

El sorteo es justo porque P (c,+) = P (+, c) = P (c)P (+) debido que obtener

cruz y obtener cara son dos sucesos independientes.

17. a) P (menos de k caras) =

k−1∑i=0

)pi(1− p)n−i

b) P (0 caras) = (1− p)n =(n0

)p0(1− p)n−0 = (1− p)n

c) P (al menos 1cara) = 1 − P (0 caras) = 1 − (1− p)n tambien igual a

n∑i=1

)pi(1 −

p)n−i

18. (vea el 8) los 6n resultados posibles no son equiprobables: la probabilidad de cada resul-

tado depende de su composicion. Como los dados son independientes la probabilidad

de un resultado particular es P (ω1, ω2, ..., ωn) = P (ω1)P (ω2) · · ·P (ωn). Entonces

cada resultado con k seises tiene probabilidad(

)k ( 115

)n−k. Ademas el numero de

resultados con k seises es

)5n−k. Por lo tanto la probabilidad de k seises es

P (k) =

)5n−k

)k ( 1

)n−k=

)k (1− 10

)n−kLa solucion se obtiene mas facilmente razonando como en el ejemplo 28: en cada lan-

zamiento del dado solo interesa si sale 6 (“cara” con probabilidad p = 10/15) o si no

sale 6 (“cruz” con probabilidad 1− p = 1− 10/15). La probabilidad de k seises (caras)

P (k) =

)pk (1− p)n−k

19. El sistema funciona mientras funcionen todos, cada uno con probabilidad 1− p e inde-

pendientes:

P (funciona) = (1− p)n

20. El sistema funciona mientras funcione al menos uno, cada uno con probabilidad 1− pe independientes:

P (funciona) = P (al menos uno)

= 1− P (ninguno)

= 1− pn

21. P (c) = p, P (+c) = P (+)P (c) = (1− p)p, P (+ + c) = P (+)P (+)P (c) = (1− p)2p etc.

Y en general, la probabilidad de necesitar k tiradas exactamente para que salga cara

P (k) = (1− p)k−1p k = 1, 2, ...

∞∑k=1

(1− p)k−1p = p∞∑k=0

(1− p)k = p1

1− (1− p)= 1

P (par) =

∞∑k=1

P (2k) =

∞∑k=1

(1− p)2k−1p

1− p

∞∑k=1

(1− p)2k =p

1− p(1− p)2

1− (1− p)2

=1− p2− p

A.2. Capıtulo 2

1. En cada instante cada una de las n moleculas puede estar en v con probabilidad p o no

estar en v con probabilidad 1 − p, independientemente unas de otras. Claramente la

variable aleatoria Z es de tipo binomial:

P (Z = z) =

)z (1− v

)n−zz = 0, 1, ...n

2. Para cada una de las bolas extraidas su probabilidad de ser roja es

P (roja) =r

r + b= p

El numero X de bolas rojas entre las n es claramente una variable binomial (ver ejemplo

2.13) de parametros n y p, ası que la funcion de masa es

P (X = k) =

)pk(1− p)n−k k = 0, 1, ..., n

3. Obtenemos en primer lugar la probabilidad de extraer las x primeras bolas rojas y las

n− x siguientes blancas (M = r + b):

P (r1 · · · rxb1 · · · bn−x)

r − 1

M − 1· · · r − (x− 1)

M − (x− 1)

M − xb− 1

M − (x+ 1)· · · b− (n− x− 1)

M − (n− 1)(A.1)

=(M − n)!

(r − x)!

(b− (n− x))!

No es difıcil comprobar que la probabilidad es la misma para cualquier extraccion de

x bolas rojas y n − x bolas blancas (para cada una de estas extracciones, al calcular

su probabilidad, se obtiene una fraccion con un denominador identico al de A.1 y un

numerador con los mismos factores que A.1 pero en distinto orden, por lo tanto tambien

identico).

Como hay

)extracciones distintas con x bolas rojas y n − x bolas blancas. La

probabilidad de obtener una cualquiera de ellas es:

P (X = x) =

)(M − n)!

(r − x)!

(b− (n− x))!

n− x

P (X > a) =p

1− p

∞∑x=a+1

(1− p)x =p

1− p(1− p)a+1

= (1− p)a

P (X > x+ y | X > x) =P (X > x+ y)

P (X > x)

=(1− p)x+y

(1− p)x= (1− p)y

= P (X > y)

Tambien vale:

P (X > x+ y | X ≥ x) =P (X > x+ y)

P (X ≥ x)

=(1− p)x+y

(1− p)x−1 = (1− p)y−1

= P (X ≥ y)

5. Si X es exponencial su funcion de distribucion es (ejemplo 2.21)

F (x) = 1− exp (−λx)

y por lo tanto

P (X > x) = exp (−λx)

Aplicando la formula de la probabilidad condicional:

P (X > x+ y | X > x) =P (X > x+ y,X > x)

P (X > x)=P (X > x+ y)

P (X > x)

=exp (−λ (x+ y))

exp (−λx)= exp (−λy)

= P (X > y)

6. La funcion de cuantiles de la exponencial es (ejemplo 2.21) xp = − 1λ ln (1− p) y para

p = 1/2 resulta x0.5 = ln(2)/λ. Si inicialmente hay n atomos, al cabo del tiempo x0.5

hay en promedio n/2.

7. Si λ = 4.327× 10−4 anos−1 entonces x0.5 = ln (2) /λ = 1601.9 anos.

)= exp

(−λ× 1

)= exp (−1) ≈ 0.37

9. Para cada uno de los n atomos la probabilidad de decaer en (0, t] es F (t) = P (X ≤ t) =

1 − exp (−λt) independientemente unos de otros. El numero de los que decaen es

una Va discreta Z con valores posibles 0, 1, ...n. Su funcion de masa es binomial

de parametros n y F (t).

Para cada uno de los n atomos la probabilidad de sobrevivir a t es P (X > t) =

exp (−λt) independientemente unos de otros. El numero de los que sobreviven es una

Va discreta n − Z con valores posibles 0, 1, ...n. Su funcion de masa es binomial de

parametros n y 1− F (t).

10. a) k = 1. b)

F (x) =

0 x ≤ 0

1− cosx 0 < x < π/2

1 x ≥ π/2

c) cos(π/4) = 0.70711

11. El recorrido de X es [0, a/2]. Para x fijado es X ≤ x si el punto cae en el intervalo

[a/2 − x, a/2 + x] del segmento y por ser el punto elegido a azar (equiprobable), la

probabilidad es el cociente de longitudes

F (x) =

0 x < 0

a0 ≤ x ≤ a

1 x > a2

f(x) =

ax ∈ [0, a2 ]

0 x /∈ [0, a2 ]

12. El recorrido de X es [0, a]. Para cada x ∈ [0, a] la distancia X es menor o igual que x

si el punto cae en cualquier lugar entre el cuadrado de lado 2a y el cuadrado inscrito

de lado 2(a− x) y por ser el punto elegido a azar (equiprobable), la probabilidad es el

cociente de superficies

F (x) =

0 x < 0

(2a− x)x

a20 ≤ x ≤ a

1 x > a

f(x) =

2 (a− x)

a2x ∈ [0, a]

0 x /∈ [0, a]

13. La VaX tiene recorrido (−∞,+∞). La variable aleatoria Φ toma valores en (−π/2, π/2)

con densidad constante (equiprobable), es decir fΦ (ϕ) = 1/π

F (x) = P (X ≤ x) = P(−π

2< Φ ≤ arctanx

(arctanx+

f (x) = F ′ (x) =1

π (1 + x2)−∞ < x < +∞

que es una densidad de Cauchy.

(|X| < 1

2< X <

)− F

(arctan

)− 1

(arctan

2− arctan

))≈ 0.295

P (|X| < x) = P (−x < X < x) = F (x)− F (−x)

(arctanx+

)− 1

(arctan (−x) +

π(arctanx− arctan (−x)) =

y ha de ser1

π(arctanx− arctan (−x)) =

y como (arctanx− arctan (−x)) = 2 arctanx resulta

πarctanx =

2→ arctanx =

4→ x = 1

14. La Va X tiene densidad fX (x) = 1 para x ∈ (0, 1). La Va Y = a + bX (con b > 0)

tiene recorrido (a, a+ b) y su densidad es

fY (y) =1

(y − ab

by ∈ (a, a+ b)

tambien uniforme.

15. La Va X tiene densidad fX (x) = 1 para x ∈ (0, 1). La Y = 1/X tiene valores posibles

(1,∞) y su densidad es

fY (y) =1

y2y > 1

16. La Va U tiene densidad

fU (u) =1√2πe−

2 −∞ < u < +∞

y la Z = U2 con recorrido (0,+∞) tiene densidad

fZ(z) =1

[fX(√z)

+ fX(−√z)]

=1√2πz−

12 exp

)z > 0

17. La posicion de cada punto es una Va Xi con distribucion F (x) = x y densidad f (x) = 1

para x ∈ (0, 1). Ademas las Xi son independientes. La Va Y = mın (X1, X2, ..., Xn)

tiene recorrido (0, 1) y su distribucion y densidad son

FY (y) = 1− [1− F (y)]n = 1− [1− y]n y ∈ (0, 1)

fY (y) = F ′Y (y) = n [1− y]n−1 y ∈ (0, 1)

La funcion de cuantiles es la inversa de FY (y) = p

1− [1− y]n = p→ y = 1− (1− p)1/n

Si p = 1/2 el cuantil correspondiente (la mediana) es

y0.5 = 1− 2−1/n

Es decir, hay probabilidad 1/2 de que el mınimo Y sea menor que y0.5.

Para que y0.5 = 0.1 ha de ser 1− 2−1/n = 0.1, y resulta n = 6.5788

Es decir, si se lanzan 7 puntos hay probabilidad 1/2 de que el mınimo sea menor que

18. La posicion de cada punto es una Va Xi con distribucion F (x) = x y densidad f (x) = 1

para x ∈ (0, 1). Ademas las Xi son independientes. La Va Y = max (X1, X2, ..., Xn)

tiene recorrido (0, 1) y su distribucion y densidad son

FY (y) = [F (y)]n = yn y ∈ (0, 1)

fY (y) = F ′Y (y) = nyn−1 y ∈ (0, 1)

La funcion de cuantiles es la inversa de FY (y) = p

yn = p→ y = p1/n

Si p = 1/2 el cuantil correspondiente (la mediana) es

y0.5 = 2−1/n

Es decir, hay probabilidad 1/2 de que el maximo Y sea menor que y0.5.

Para que y0.5 = 0.9 ha de ser 2−1/n = 0.9, y resulta n = 6.5788

Es decir, si se lanzan 7 puntos hay probabilidad 1/2 de que el maximo sea mayor que

A.3. Capıtulo 3

1. E (IA) = 1× P (A) + 0× P (Ac) = P (A)

2. El numero de veces que sucede A es una Va binomial de parametros n = 100 y p = 0.1

ası que el numero esperado de veces que sucedera A es np = 10

3. El numero de veces que hay que hacer el experimento hasta que suceda A es una Va

geometrica de parametro p = 0.1 y su esperanza es 1/p = 10 (a la larga y en promedio

1 de cada diez veces sucede A).

4. El numero de anos que han de transcurrir es una Va geometrica de parametro p = 0.01

y su esperanza es 1/p = 100, ası que, a la larga una vez cada 100 anos el caudal maximo

excede el valor x.

5. El periodo de retorno de 100 anos corresponde a una probabilidad de excedencia p =

0.01 ası que

P (X > x) = 1− F (x) = e−0.01x = 0.01

x = − 1

0.01ln (0.01) = 460.5 m3 s−1

cada 100 anos aproximadamente el caudal maximo excede el valor anterior.

6. La probabilidad de par es p = 1837 = 0.48649

La probabilidad de perder las 10 es(1− 18

)10= 1.275× 10−3 y la perdida es −(210 −

1) = −1023.0

Es decir, a la larga aproximadamente 1 de cada mil rondas perdemos 1023 euros.

Y 999 de cada 1000 ganamos 1 euro cada una.

7. La variable aleatoria

1 si se acierta la pregunta

0 si se falla la pregunta

es una variable de Bernoulli de parametro p = 1/m que representa la puntuacion en

una pregunta en el caso de que las preguntas incorrectas se puntuen con cero puntos,

E(X) = p = 1/m. Por lo tanto con este sistema de puntuacion en un examen de n

preguntas, contestando al azar, se obtendrıa, en promedio, una puntuacion de n/m. Se

busca una variable aleatoria Y ,

1 si se acierta la pregunta

α si se falla la pregunta,

tal que E(Y ) = 0. Para determinar Y hay que hallar el valor de α que haga E(Y ) = 0:

E(Y ) = 1× p+ α× (1− p) =1

(1− 1

de donde se deduce

α = − 1/m

(m− 1)/m= − 1

m− 1.

Por lo tanto, en un examen tipo test con m respuestas posibles a cada pregunta, las

respuestas incorrectas se deben evaluar con −1/(m − 1) puntos si se quiere que, en

promedio, las respuestas contestadas al azar no sumen ningun punto.

8. Como E(

(X − c)2)

es una funcion continua y diferenciable de c y la esperanza es una

operacion lineal

(X − c)2)

= −2E (X − c) = 0→ E (X)− c = 0

ası que el mınimo se tiene para c = E (X)

Tambien ası:

Denotando µ = E (X)

(X − c)2)

(X − µ+ µ− c)2)

(X − µ)2 + (µ− c)2 + 2 (µ− c) (X − µ))

(X − µ)2)

+ (µ− c)2

E ((µ− c) (X − µ)) = (µ− c)E (X − µ) = 0

y como

(X − µ)2)

+ (µ− c)2 ≥ 0

resulta que es mınimo si c = µ y el valor mınimo es V ar (X) = E(

(X − µ)2)

E (U) =1

σE (X − µ) = 0

V ar (U) =1

σ2V ar (X − µ) =

σ2V ar (X) = 1

E (X) =1

n∑x=1

x =n (n+ 1)

2n=n+ 1

n∑x=1

(2n3 + 3n2 + n

=2n2 + 3n+ 1

V ar (X) = E(X2)− (E (X))2 =

2n2 + 3n+ 1

6−(n+ 1

=n2 − 1

E (X) =∞∑x=1

x (1− p)x−1 p = −p ddp

( ∞∑x=1

(1− p)x)

= −p ddp

(1− pp

Derivando otra vez se halla que E(X2)

= 2−pp2

y por lo tanto V ar (X) = 1−pp2

∞∑x=0

xλx−1

x!= eλ →

∞∑x=0

xe−λλx

x!= λ

E (X) = λ

Derivando otra vez se halla que E(X2)

= λ2 + λ y por lo tanto

V ar (X) =(λ2 + λ

)− λ2 = λ

E(X) =

b− adx =

E(X2) =

b− adx =

b3 − a3

b− ay entonces:

V ar(X) =1

b3 − a3

b− a− (a+ b)2

(b− a)2

14. derivando:

(x− µ) e−

(x− µ)2

2σ2 dx = 0

reordenando:

∫Rxe−

(x− µ)2

2σ2 dx =µ

∫Re−

(x− µ)2

2σ2 dx

es decir E (X) = µ

15. derivando

1√2π

(x− µ)2

σ3e−

(x− µ)2

2σ2 dx = 1→ 1

(x− µ)2 e−

(x− µ)2

2σ2 dx = σ2

es decir V ar (X) = σ2

16. Para cada atomo la probabilidad de sobrevivir al tiempo t es 1 − F (t) = e−λt. El

numero N (t) de los que sobreviven es una Va binomial de parametros n = N (0) y

p = e−λt y su esperanza es np:

E (N (t)) = N (0) e−λt

17. Sea Xi = 1 si el sondeo i resulta en exito y Xi = 0 en otro caso. E(Xi) = p, y

V ar(Xi) = p(1− p).

El numero total de sondeos con exito es X =∑Xi. (y el de sondeos sin exito es n−X)

E(X) =∑

E(Xi) = np

V ar(X) =∑

V ar(Xi) = np(1− p)

b) El coste total es la Va C = c0 + 2cX + c(n−X) = c0 + cX + nc

E(C) = c0 + cnp+ nc

V ar(C) = c2np(1− p)

18. El resultado de cada dado es una Va Xi con masa f (x) = 1/6 para x ∈ 1, 2, .., 6. Su

esperanza y varianza son (ejercicio 10)

E (Xi) =6 + 1

V ar (Xi) =62 − 1

La suma de los puntos es

S = X1 +X2 + · · ·+X36

E (S) = E (X1 +X2 + · · ·+X36) =

36∑i=1

E (Xi) = 36× 7

2= 126

y como las Xi son independientes

V ar (S) = V ar (X1 +X2 + · · ·+X36) =36∑i=1

V ar (Xi) = 36× 35

12= 105

P (|S − E (S)| < ε) ≥ 1− V ar (S)

P (|S − 126| < 30) ≥ 1− 105

302= 0.883

En general la acotacion de Tchebychev es grosera. Veremos en el proximo Capıtulo que

la probabilidad que nos interesa se puede aproximar muy bien de otra manera.

µ = 0 m s−1

(1.38× 10−23 × 300

0.028× (6.022× 1023)−1

(1.38× 300

0.028× (6.022)−1

= 298.39 m s−1

2m(V 2x + V 2

y + V 2z

(E(V 2x

E (V ) = E (X)E (A) = 10 cm3

E(V 2)

= E(X2)E(A2)

=(V ar (X) + E2 (X)

) (V ar (A) + E2 (A)

(0.0052 + 102

) (0.012 + 12

)= 100.01

V ar (V ) = 100.01− 100 = 0.01√V ar (V ) = 0.1 cm3

)= 8000 g√

V ar(∑

64× 100× 0.01 = 8 g

23. La Va Y = mın (X1, X2, ..., Xn) tiene recorrido (0, 1) y densidad

fY (y) = F ′Y (y) = n (1− y)n−1 y ∈ (0, 1)

y entonces la esperanza

E (Y ) =

0ny(1− y)n−1dy

dv = n (1− y)n−1 → v = − (1− y)n

E (Y ) = [−y(1− y)n]10 +

0(1− y)ndy

E (Y ) =

0(1− y)ndy = − 1

[(1− y)n+1

24. La distancia de cada punto al centro del cırculo es una Va con distribucion

FR (y) = y2 y ∈ [0, 1]

La distribucion del mas proximo al origen (del mınimo) es

FY (y) = 1− [1− FR(y)]3

ası que

FY (y) = 1−[1− y2

]3La densidad del mınimo es

fY (y) = 6y[1− y2

(y + y5 − 2y3

)y ∈ [0, 1]

y su esperanza es

E (Y ) = 6

0y(y + y5 − 2y3

)dy = 6

7− 2

35≈ 0.46

25. La Va Y = max (X1, X2, ..., Xn) tiene recorrido (0, 1) y densidad

fY (y) = F ′Y (y) = nyn−1 y ∈ (0, 1)

E (Y ) =

0nyndy =

A.4. Capıtulo 4

P (119.4 < X < 121.2) = P

(119.4− 120

2< U <

121.2− 120

)= P (−0.3 < U < 0.6) = Φ (0.6)− Φ (−0.3)

= 0.72575− (1− 0.61791) = 0.34366

Y la probabilidad de que 3 medidas independientes esten en el intervalo es 0.343663 ≈0.04

P (120− a < X < 120 + a) = P

(−a2< U <

)= 0.8

por lo tanto

)− Φ

)−[1− Φ

)]= 2Φ

)− 1 = 0.8

)= 0.9 y tomando el valor de la tabla Φ (1.28) = 0.89973 resulta a = 2.56. Es

P (117.44 < X < 122.56) = 0.8

2. La probabilidad de que un empaquetado se aceptable es

P (149.2 < X < 150.4) = P

(149.2− 150

1/4< U <

150.4− 150

)= P (−3.2 < U < 1.6) = Φ (1.6)− Φ (−3.2)

= 0.94520− (1− 0.99931) = 0.94451

Si la cualidad de aceptable de cada uno del lote es independiente de los demas, con

la misma probabilidad anterior, el numero Z de aceptables en el lote es una variable

binomial, de parametros n = 100 y p = 0.94451, y su valor promedio es np = 100 ×0.94451 ≈ 94

P (X < 40) = P

40− 50

5= −2

)= Φ (−2) = 1− 0.97725 = 0.02275

P (X < x) = P

x− 50

(x− 50

)= 0.05

con ayuda de la tabla (valores de Φ mayores que 0.5) hay que hallar el numero u tal

que Φ (u) = 0.95, es decir

(x− 50

)= 1− Φ

(−x− 50

)= 0.05→ Φ

(−x− 50

)= 0.95

y el valor mas aproximado es Φ (1.64) = 0.94950 ası que

−x− 50

5= 1.64→ x = 50− 5× 1.64 = 41.8 N/mm2

P (0.9− 0.005 < X < 0.9 + 0.005) = P

(−0.005

σ< U <

(0.005

)− Φ

(−0.005

)= 0.997

por lo tanto (fuera del intervalo queda una probabilidad 0.003 y en cada cola 0.0015)

(0.005

)= 0.9985

y el valor mas aproximado, con ayuda de la tabla, es Φ (2.97) = 0.99851 ası que

σ= 2.97→ σ =

2.97= 1.6835× 10−3

5. Como X e Y son normales independientes, la carga total Z = X + Y es normal, con

E(Z) = E(X) + E(Y ) y V ar(Z) = V ar(X) + V ar(Y ) resultando Z ∼ N(140, 10√

Buscamos el numero z tal que

P (Z > z) = P (U >z − 140

2) = 1− Φ

(z − 140

)= 0.01

ası que Φ(z−14010√

)= 0.99 y el valor mas aproximado es Φ (2.33) = 0.99010 ası que

z − 140

2= 2.33

y resulta z = 172.95 Tm.

P (W > 3.1) = P

3.1− 3

0.1= 1

)= 1− Φ (1) = 1− 0.84134 = 0.15866

(n∑i=1

Wi > w

w − n× µWσW√n

)= 1− Φ

(w − n× µWσW√n

)= 0.01

ası que

(w − n× µWσW√n

)= 0.99

y el valor mas aproximado con ayuda de la tabla es Φ (2.33) = 0.99010 ası que

w = n× µW + 2.33σW√n

= 10× 3 + 2.33× 0.1×√

10 = 30.737 Tm

7. Si Xi denota el resultado de cada pregunta, es P (Xi = 1) = 15 y P (Xi = 0) = 4

Ademas E (Xi) = 15 y V ar (Xi) = 1

5 ×45 . El numero de aciertos en 30 preguntas es∑30

i=1Xi, con distribucion binomial de parametros 30 y 15 . Su esperanza y varianza son:

(30∑i=1

)= 30× 1

(30∑i=1

)= 30× 1

Se pide hallar x tal que

(30∑i=1

Xi ≥ x

)= 0.05

o lo que es igual

(30∑i=1

Xi < x

(30∑i=1

Xi ≤ x− 1

)= 0.95

y usando la aproximacion normal

(30∑i=1

Xi ≤ x− 1

)≈ Φ

x− 1 + 0.5− 30× 15√

30× 15 ×

= 0.95

x− 1 + 0.5− 30× 15√

30× 15 ×

= 1.64→ x = 10.0931

8. S =∑n

i=1Xi es asintoticamente N(126,√

P (S ≤ s) ≈ Φ

(s+ 0.5− 126√

P (|S − 126| < 30) = P (96 < S < 156)

= P (96 < S ≤ 155)

= P (S ≤ 155)− P (S ≤ 96)

P (S ≤ 155) ≈ Φ

(155 + 0.5− 126√

)= Φ (2.879) ≈ 0.99801

leyendo Φ (2.88) = 0.99801

P (S ≤ 96) ≈ Φ

(96 + 0.5− 126√

)= Φ (−2.879) ≈ 1− 0.99801

= 0.00199

y resulta

P (|S − 126| < 30) ≈ 0.99801− 0.00199 = 0.99602

(en el Ejercicio 19 del Capıtulo 3 se obtuvo mediante la acotacion de Tchebychev

P (|S − 126| < 30) ≥ 0.883).

)= 8000 g

V ar(∑

)= 64 g2√

V ar(∑

)= 8 g

Zi > 8016)

= 1− P(∑

Zi ≤ 8016)≈ 1− Φ

(8016− 8000

)= 1− 0.97725 = 0.02275

Como las Zi y por lo tanto la∑Zi son variables continuas no hay que usar la correccion

de continuidad para aproximar con el teorema central del lımite.

(25∑i=1

25∑i=1

E (Xi) = 25× 40

(25∑i=1

25∑i=1

V ar (Xi) = 25× 202

(n∑i=1

Xi > 1100

)= 1− P

(n∑i=1

Xi ≤ 1100

)≈ 1− Φ

(1100− 25× 40

20×√

)= 1− 0.84134 = 0.15866

Como lasXi y por lo tanto la∑Xi son variables continuas no hay que usar la correccion

de continuidad para aproximar con el teorema central del lımite.

11. El tiempo que el sistema esta operativo es∑n

i=1Xi. Su esperanza y varianza son

(n∑i=1

)= 100n

(n∑i=1

)= 302n

y se pide n para que

(n∑i=1

Xi ≤ 10000

)= 0.05

(n∑i=1

Xi ≤ 10000

)≈ Φ

(10000− 100n

30√n

)= 0.05

y ha de ser10000− 100n

30√n

= −1.64

Las soluciones de

10000− 100n+ 1.64× 30√n = 0

son√n = 10.249,−9.757 y solo vale la primera. Ası n = 10.2492 ≈ 105.

12. a)

P (N (1) ≤ 4, N (3) ≤ 12) =

4∑x=0

P (N (1) = x,N (3)−N (1) ≤ 12− x)

4∑x=0

P (N (1) = x)P (N (3)−N (1) ≤ 12− x)

e−4 4x

12−x∑y=0

e−8 8y

= 0.4575

b) El tiempo de espera entre llegadas es 1/λ = 1/4 = 0.25 h

15000= 4.6667× 10−4 accidentes/ano

El numero esperado de accidentes de gravedad 4 o superior en los proximos 20 anos es

E (N(20)) = nλt = 442× (7/15000)× 20 = 4.1253

La probabilidad de que se produzca al menos un accidente de gravedad 4 o superior en

los proximos 20 anos es

P (N(20) ≥ 1) = 1− P (N(20) = 0) = 1− e−nλt

= 1− exp (−4.1253) = 0.9838

14. a) el numero N (v) de cristales en secciones de 0.01 dm2 es una Va de Poisson de

parametro λ = 7× 0.01 = 0.07 y por lo tanto P (N (v) = 0) = exp (−0.07) = 0.93239.

b) como las 10 secciones no se solapan las VAs Ni (v) son independientes, y P (N1 (v) =

0, N2 (v) = 0, ..., N10 (v) = 0) = 0.9323910 = 0.49656

15. La probababilidad de que en un conjunto v haya al menos un punto es

P (N (v) ≥ 1) = 1− P (N (v) = 0)

= 1− exp(−λπx2

pues v es en nuestro caso un cırculo de area πx2 y N (v) es Poisson de parametro λπx2.

Por lo tanto

F (x) = 1− exp(−λπx2

)x > 0

y derivando resulta la densidad:

f(x) = 2λπx exp(−λπx2

)x > 0

16. Para una ji-cuadrado de parametro 3 se lee en la tabla C.2 que

P(χ2 (3) < 7.8147

)= 0.95

asi puesv2

σ2= 7.8147

v = σ√

7.8147 = 298.39√

7.8147 = 834.14 m s−1

7.8147 = 103(1.38× T

0.028× (6.022)−1

√7.8147

→ T = 431.15 K

P (Z < z) = P(Z2 < z2

(χ2 (2) <

Para una ji-cuadrado de parametro 3 se lee en la tabla C.2 que

P(χ2 (2) < 5.9915

)= 0.95

y ası, con z = 5 m

σ2= 5.9915→ σ =

5√5.9915

= 2.0427 m

A.5. Capıtulo 5

1. Denotando las muestras (X1, X2, ..., Xm) y (Xm+1, Xm+2, ..., Xm+n) es∑m

i=1Xi =

mXm y∑m+n

i=m+1Xi = nXn

m+n∑i=1

Xi =mXm + nXn

(media ponderada de las Xm y Xn).

n∑i=1

k∑i=1

(media ponderada de las ai).

n− 1

n∑i=1

(xi − x)2 =1

n− 1

k∑i=1

ni (ai − x)2

n− 1

(k∑i=1

nia2i − nx2

20∑i=1

7∑i=1

=4× 0 + 3× 1 + 5× 2 + 2× 3 + 4× 4 + 1× 5 + 1× 6

= 2.3 defectos/cm2

7∑i=1

nia2i = 4× 02 + 3× 12 + 5× 22 + 2× 32 + 4× 42 + 1× 52 + 1× 62 = 166

n− 1

(k∑i=1

nia2i − nx2

20− 1

(166− 20× 2.32

)= 3.1684

s = 1.78 defectos/cm2

b) La media de la muestra total de 30 probetas es la ponderada

20× 2.3 + 10× 1.4

30= 2 defectos/cm2

= E (X) = r

= V ar(X)

+(E(X))2

=V ar (X)

n+ (E (X))2

ası que el sesgo es σ2/n

b) un estimador insesgado para σ2/n es S2/n. Resulta que un estimador insesgado de

area es π[(X)2 − S2/n

V ar (T ) = α2V ar (T1) + (1− α)2 V ar (T2)

= α2σ21 + (1− α)2 σ2

dαV ar (T ) = 2ασ2

1 − 2 (1− α)σ22 = 0

α =σ2

σ21 + σ2

que corresponde a un mınimo pues

dα2V ar (T ) = 2σ2

1 + 2σ22 > 0

El estimador de varianza mınima es

T =σ2

σ21 + σ2

T1 +σ2

σ21 + σ2

que se puede escribir tambien

+ 1σ22

media ponderada en la que el peso que se da a cada estimador, T1 y T2, es tanto mayor

cuanto mas preciso es (cuanto menor es su varianza). Es interesante destacar que ante

dos medidas de diferente precision de una magnitud lo mas adecuado no es descartar

la menos precisa sino combinarlas en una que sera mas precisa que las primeras.

V ar (T1) = V ar(Xm

V ar (T2) = V ar(Xn

T =mσ2

mσ2 + n

Xm +nσ2

mσ2 + n

m+ nXm +

m+ nXn

es decir, la media muestral de la muestra total de tamano m+ n.

7. Sea X con densidad uniforme en (0, 1), es decir, f (x) = 1 si x ∈ (0, 1) y cero en otro

caso. Entonces

E (g (X)) =

0g (x) f (x) dx =

0g (x) dx = I

y por lo tanto

E (T ) = E

n∑k=1

g (Xi)

n∑k=1

E (g (Xi)) = I

ası que T es insesgado. Y como

V ar (T ) = V ar

n∑k=1

g (Xi)

n∑k=1

V ar (g (Xi)) =V ar (g (X))

que tiende a cero si n→∞, resulta que es consistente.

πx→ I =

0sin(π

y el estimador es

n∑i=1

sin(π

n∑i=1

sin (Xi)

n∑i=1

(Xi −X

)2=n− 1

n∑i=1

(Xi −X

)2)=n− 1

nE(S2)

=n− 1

y como n−1n < 1 resulta que el estimador infraestima σ2 (sesgo negativo). En todo

caso como lımn→∞n−1n = 1 es asintoticamente insesgado. El estimador corregido es

obviamente S2.

10. La estimacion de MV de µ es

∑xi =

533 + 552 + 539 + 564 + 541

5= 545.8 Kg

Para estimar σ calculamos∑(xi − x)2 =

n∑i=1

x2i −

(∑xi

)2= 1490091− 27292

5= 602.8

La estimacion de maxima verosimilitud de σ2 es

∑(xi − x)2 =

5= 120.56

que como sabemos es sesgado. La estimacion insesgada es

n− 1

∑(xi − x)2 =

4= 150.7

y la estimacion correspondiente de σ es

s = 12.276 Kg

L(p) = (1− p)∑xi−npn

lnL =(∑

xi − n)

ln(1− p) + n ln p

dp= −

∑xi − n

1− p+n

p =n∑xi

que es la frecuencia relativa de caras (n) en el total de tiradas (∑xi). El estimador

MV de E(X) = p−1 es X

L(λ) =∏(

e−λλxi

)= e−nλλ

(∏ 1

)lnL = −nλ+

∑xi lnλ+ ln

(∏ 1

)d lnL

dλ= −n+

λ = x

d2 lnL

dλ2 = −nxλ2 < 0 ∀λ

El estimador es X.

Hallemos la cota

ln f (x) = −λ+ x lnλ− lnx!

d ln f (x)

dλ= −1 +

λ=x− λλ

I(λ) = E

(d ln f (X)

(X − λ)2)

λ2 =λ

λ2 =1

pues E (X) = λ y V ar (X) = E(

(X − λ)2)

= λ. La cota es

nI(λ)=λ

y como V ar(X)

= V ar (X) /n = λ/n resulta que el estimador alcanza la cota.

E(C) = E(3X +X2

)= 3E(X) + E(X2) = 3E(X) + V ar(X) + (E(X))2

= 3λ+ λ+ λ2 = 4λ+ λ2

y como el estimador MV de λ es X el de E(C) es 4X+(X)2

. Calculamos su esperanza

4X +(X)2)

= 4E(X)

+ E((X)2)

= 4E(X)

+ V ar(X)

+(E(X))2

= 4E (X) +V ar (X)

n+ (E (X))2

= 4λ+λ

n+ λ2

y el sesgo vale λ/n. Entonces 4X +(X)2 −X/n es insesgado.

14. El estimador MV de E (X) = 1/λ es X que es insegado. La estimacion del tiempo medio

de espera es x = 30.410 = 3.04 min. El estimador MV de λ es 1/X que es sesgado. El

estimador insesgado es (ejemplo 13)n− 1

X. La estimacion insesgada de λ (frecuencia

de llegadas) es 910 ×

1030.4 = 0.296 llegadas/min (la estimacion sesgada es 10

30.4 = 0.329

llegadas/min).

15. Si el estimador de 1/λ es X el de 1/λ2 es, por la propiedad de invariacion,(X)2

Calculamos su esperanza

E((X)2)

= V ar(X) +(E(X)

nλ2 +1

λ2 =1

)ası que un estimador insesgado es

16. a)

f (x) = F ′ (x) =x

σ2exp

(− x2

)x > 0

L (σ) =∏

f (xi) =∏ xi

σ2exp

(− x2

σ2nexp

(−∑x2i

)∏xi

lnL (σ) = −2n lnσ −∑x2i

2σ2+∑

igualando a cero la derivada

dσlnL (σ) = −2n

∑x2i

σ3= 0→ σ =

∑x2i

la solucion es

∑x2i

que corresponde a un maximo pues(d2

dσ2lnL (σ)

= − 8n2∑x2i

b) la estimacionde MV de E (X) es σ√

c) la estimacion de E (X) por el metodos de los momentos es x. Y como σ =√

2πE (X)

la estimacion de σ por el metodo de los momentos es

d) estimaciones de maxima verosimilitud

∑x2i =

√109.94

20= 2.3446

E (X) = σ

2= 2.9385

estimaciones de momentos

E (X) = x = 3.1

πx = 2.4734

λ =E (X)

V ar (X)=

E (X2)− (E (X))2

θ = λE (X)

Las estimaciones son

x2 − (x)2=

∑xi∑

x2i −

1n (∑xi)

θ = λx

Con la muestra es

∑xi∑

x2i −

1n (∑xi)

2 =187.38

3380.69740− 187.382

= 0.4120

θ = λx = 6.4340

Las estimaciones de MV calculadas con Matlabr son λ = 0.4576 y θ = 7.1449

18. La probabilidad de obtener en n ensayos independientes los valores x1, x2 y x3 de las

3 clases, con probabilidades p1, p2 y p3 de cada clase es(5000

)(5000− x1

)px11 p

Como funcion de ω

L (ω) =

)(5000− x1

)(0.025 + ω)x1+x3 (0.95− 2ω)x2

El ω que maximiza se obtiene ası

lnL = lnC + (x1 + x3) ln (0.025 + ω) + x2 ln (0.95− 2ω)

(x1 + x3)

(0.025 + ω)− 2x2

(0.95− 2ω)= 0

ω =(x1 + x3) (0.95)− 2x2 × 0.025

d2 lnL

dω2= − (x1 + x3)

(0.025 + ω)2 −4x2

(0.95− 2ω)2 < 0 ∀ω

Con la muestra resulta

ω =572× 0.95− 2× 4428× 0.025

2× 5000= 0.0322

19. El principio de maxima verosimilitud se basa en maximizar la probabilidad de la mues-

tra observada. Como la probabilidad de que un componente dure menos de 85 h es

[1− exp(−85λ)], la probabilidad de la muestra es (binomial)

L(λ) =

)[1− exp(−85λ)]6 [exp(−85λ)]4

lnL = lnC + 6 ln [1− exp(−85λ)]− 340λ

510 exp(−85λ)

1− exp(−85λ)= 340

exp(−85λ) =340

510 + 340= 0.4

λ = − ln 0.4

85≈ 1.08× 10−2 fallos/hora

y aun mas facil poniendo p = 1 − exp(−85λ) y hallando el estimador de p del que se

deducira (por la propiedad de invariacion) el de λ:

L(p) =

)p6(1− p)4

p− 4

1− p= 0

p = 0.6

λ = − 1

85ln (1− p) = − ln 0.4

Las estimaciones de E (X) y de P (X > 100), de nuevo por la invariacion, son:

E(X) =1

λ= 92.8 h

P (X > 100) = exp(−100λ) ≈ 0.34

20. como

λiE(Xi) = E(X)∑

para que el estimador sea insesgado ha de ser∑λi = 1. Busquemos ahora, en parti-

cular, cual tiene varianza mınima. Como:

V ar(∑

λ2iV ar(Xi) = V ar(X)

∑λ2i

se trata de hallar los λi que minimizan∑λ2i sujetos a

∑λi = 1. Como se sabe (metodo

de Lagrange) ello equivale a hallar los λi y c que minimizan q =∑λ2i − 2c (

∑λi − 1).

La solucion se obtiene del sistema:

∂λjq = 2λj − 2c = 0 j = 1, ..., n

∂cq =

∑λi − 1 = 0

resultando λj = 1/n. En conclusion, el estimador lineal insesgado de varianza mınima

21. P (X < 0) = P (U < −µ) = 1 − Φ (µ) y P (X > 0) = Φ (µ). La probabilidad de la

muestra es L (µ) =

)(1− Φ (µ))m (Φ (µ))n−m. Llamando θ = Φ (µ) es L (θ) =(

)(1− θ)m θn−m y la estimacion MV de θ es θ = n−m

n . Por lo tanto la de µ es

µ = Φ−1(n−mn

). Si n = 10 y m = 6 resulta µ = Φ−1 (0.4) = −Φ−1 (0.6) = −0.2533

22. Si Y ∼ LN(µ, σ) (lognormal de parametros µ y σ), entonces X = lnY ∼ N(µ, σ). Las

estimaciones de µ y σ son las mismas con la muestra de Y y con la de X. En la normal

se obtuvo

µ = x

∑(xi − x)2

E (Y ) y V ar (Y ) son funciones de µ y σ. Aplicando la propiedad de invariacion

E(Y ) = exp(µ+ σ2/2)

V ar(Y ) = exp(2µ+ σ2)(exp σ2 − 1)

A.6. Capıtulo 6

ε = u0.975 ×σ√n

= 1.96× 0.3√100

= 0.0588

µ ∈ (10.2± 0.0588) = (10.14, 10.26) cm

b) Para tener una cota ε = 0.01 con el 95 % hay que tomar un n

n =(u0.975 ×

(1.96× 0.3

= 3457.44.

Por lo tanto para asegurar un error menor que 0.01 con una confianza del 95 %

habra que tomar una muestra de tamano n = 3458.

2. La muestra corresponde al modelo X ∼ N (ρT , σ)

∑xi =

157.99

29= 5.4479

n− 1

∑(xi − x)2 =

n− 1

(∑x2i −

(∑xi

(862.0855− 157.992

)= 4.88167× 10−2

s =√

4.8817× 10−2 = 0.2209

Con 1− α = 0.95 es t0.975 (28) = 2.0484 y

ε = t1−α/2s√n

= 2.0484× 0.22√29

= 8.3683× 10−2

Ası que

ρT ∈ (5.45± 0.084) g cm−3

(El valor aceptado en la actualidad es 5.513 g cm−3)

((n− 1)S2

σ2> χ2

)= 1− α

resulta

(σ < S

√n− 1

)= 1− α

La media muestral vale

∑xi =

14= 7.7143 ms

La varianza y desviacion tıpica muestrales valen

n− 1

∑(xi − x)2 =

n− 1

(∑x2i −

(∑xi

(1950− 1

14(108)2

)= 85.9121

s = 9.2689 ms

Con 1− α = 0.90 es χ20.10 (13) = 7.0415 y

√n− 1

= 9.2689×√

7.0415= 12.5941

resultando

σ < 12.6 ms

P (χ2α/2 < 2nλX < χ2

1−α/2) = 1− α

se sigue un intervalo para el parametro λ

(χ2α/2

2nX< λ <

χ21−α/2

)= 1− α

y ,tomando el recıproco, para E(X) = 1/λ

χ21−α/2

χ2α/2

)= 1− α

5. Un lımite superior para el tiempo medio de espera E (X) = 1/λ es

)= 1− α

El tiempo medio estimado es x = 3.04 min. Con 1 − α = 0.95 es χ20.05 (20) = 10.8508

y resulta, con una seguridad del 95 %

2× 30.4

10.8508≈ 5.6 min

Un lımite superior para la frecuencia de llegadas λ es

χ21−α

)= 1− α

Con 1− α = 0.95 es χ20.95 (20) = 31.4104 y resulta, con una seguridad del 95 %

λ <31.4104

2× 30.4≈ 0.52 vehıculos/min

6. La estimacion MV de λ es x

12∑x=0

x× n (x) = 3.87 cuentas/7.5 s

Como n es grande formamos el intervalo aproximado del 95 % (ejemplo 10):

ε = u1−α/2

n= 1.96

√3.87

2608= 0.0755

y resulta, con una confianza del 95 %

λ ∈ (3.87± 0.076) cuentas/7.5 s

Comentario: Tengase en cuenta que E (X) = λ equivale al numero promedio teorico

de atomos que decaen en el intervalo, y depende del numero de atomos presentes en

el experimento: si inicialmente hay N (0) atomos, el numero de los que decaen en un

intervalo t es una Va binomial X (t) de parametros N (0) y p = 1− e−kt (donde k es la

constante de desintegracion del polonio). Su promedio es (ver ejercicio 15 del capıtulo

E (X (t)) = N (0)(

1− e−kt)

y ademas, si N (0)→∞ y p→ 0 pero N (0) p = λ constante, la Va binomial converge

a una de Poisson de parametro λ (proposicion 4 del capıtulo 4).

7. La estimacion inicial de p es x = 26/30 ≈ 0.87 y la cota del error cometido es, con

1− α = 0.99 y u1−α/2 = u0.995 ≈ 2.58

ε = u1−α/2√x (1− x) /n = 2.58

30× 4

30× 1

30= 0.160

Queremos reducirla a 0.02 aumentando el tamano n de muestra. La cota final depende

de n y del nuevo valor que resulte para x

ε = u1−α/2√x (1− x) /n

y la mas pesimista se obtendrıa con x = 1/2. Sin embargo, como el nuevo valor de

x no deberıa estar muy alejado del previo, usaremos este, y despejaremos n para que

ε = 0.02

n =(u1−α/2

x (1− x) =

30× 4

30= 1922.96

ası que, aproximadamente, habrıa que usar n = 1923

Si finalmente se uso n = 2000 y hubo 1640 aceptables la estimacion final de p es

x = 1640/2000 = 0.82 y la cota del error

ε = 2.58

√1640

2000× 360

2000× 1

2000= 0.022

ası que, con una confianza del 99 %

p ∈ (0.82± 0.022)

8. a) las mismas. b)

0.25 = 2401

9. a) El intervalo del 95 % para µ:

t1−α/2 (n− 1) = t0.975 (19) = 2.0930

x− t1−α/2s/√n = 0.42328− 2.0930× 0.01776√

20= 0.41497

x+ t1−α/2s/√n = 0.42328 + 2.0930× 0.01776√

20= 0.43159

Como el intervalo obtenido (0.4150, 0.4316) queda dentro del de especificacion (0.40, 0.44)

pareciera que el proceso es aceptable. Sin embargo es crucial notar que el intervalo ob-

tenido se refiere al valor medio µ, no a los valores individuales.

b) Para hallar el intervalo de tolerancia con p = 0.99, 1 − α = 0.95 y n = 20 en la

tabla C.4 se lee k = 3.621

xL = 0.42328− 3.621× 0.01776 = 0.358971

xS = 0.42328 + 3.621× 0.01776 = 0.487589

es decir, el 99 % de los componentes fabricados estan en (0.36, 0.49) cm con una con-

fianza del 95 %.

c) Los resultados indican que el proceso no es satisfactorio: una alta proporcion de

componentes queda fuera de los lımites de especificacion.

x = 545.8 Kg

s = 12.28 Kg

El intervalo del 95 % para µ es x ± t0.975s/√n donde t0.975(4) = 2.7764 y resulta

µ ∈ (530.55, 561.05) Kg.

El intervalo del 95 % para σ es

n−1χ21−α/2

, s√

n−1χ2α/2

)donde χ2

0.975(4) = 11.1433 y

χ20.025(4) = 0.4844 y resulta σ ∈ (7.36, 35.29) Kg.

Para hallar el lımite inferior de tolerancia con 1 − α = 0.99, p = 0.95 y n = 5, en la

tabla C.5 se lee k = 6.578 y el lımite inferior es

xL = 545.8− 6.578× 12.28 = 465.022

P (X > 465) ≥ 0.95

es decir, el 95 % de los cables tienen una resistencia mayor que 465 Kg

11. La funcion de potencia en un valor µ es

(X − µ0

σ/√n> c | µ

(X − µσ/√n

+µ− µ0

σ/√n> c | µ

(X − µσ/√n> c− µ− µ0

σ/√n| µ)

= 1− Φ

(c− µ− µ0

σ/√n

)∀µ

Con α = 0.05 es c = u0.95 = 1.64, y en µ = 0.5 resulta

1− Φ

(1.64− 0.5− 0

)= 1− Φ (−0.36) = 1− 0.3594 = 0.6406

1− Φ

(1.64− 0.5− 0

1/√n

)= 0.8

1.64− 0.5− 0

1/√n

= Φ−1 (0.2) = −Φ−1 (0.8) = −0.84

n = 4× (1.64 + 0.84)2 = 24.6

es decir n = 25

13. Variable de decision

T =X − µ0

S/√n

Region crıtica T > c (pues X estima µ y cuanto mayor sea este mayor tiende a ser T ).

Ademas T es Student(n− 1) si µ = µ0, y para que

P (T > c | µ0) = α

ha de ser c = t1−α.

t =x− µ0

s/√n

=23.6− 20

10.2/√

20= 1.5784

t0.95(19) = 1.7291

y como t no supera t1−α no se rechaza H0.

14. Variable de decision

T =(n− 1)S2

Region crıtica T < c (pues S2 estima σ2, y cuanto menor sea este menor tiende a ser

T ). Como T es ji-cuadrado(n− 1) si σ = σ0, para que

P (T < c | σ0) = α

ha de ser c = χ2α.

t =(n− 1)s2

=19× 104.04

225= 8.7856

χ20.05(19) = 10.1170

y se rechaza H0.

15. El estadıstico de prueba es

T =X − µ0

σ/√n

con distribucion N (0, 1) si H0 : µ = µ0 es cierta. La region crıtica es de la forma

|T | > c

Con x = 52.552.5− 50

20/√

P (|T | > 1) = P (T < −1) + P (T > 1)

= 2 (1− P (T ≤ 1)) = 2 (1− 0.84134)

= 0.31732

Con x = 57.552.5− 50

20/√

P (|T | > 3) = P (T < −3) + P (T > 3)

= 2 (1− P (T ≤ 3)) = 2 (1− 0.99865)

= 0.0027

T =X − µ0

σ/√n

con distribucion N (0, 1) si H0 : µ = µ0 es cierta. La region crıtica es de la forma

|T | > c

x = (8.18 + 8.17 + 8.16 + 8.15 + 8.17 + 8.21 + 8.22 + 8.16 + 8.19 + 8.18) /10 = 81.79

t = 8.179−8.200.05/

√10≈ −1.33

El nivel crıtico es P (|T | > 1.33) = 2 (1− P (T ≤ 1.33)) = 2 (1− 0.90824) = 0.18352

Con α = 0.05 no se rechaza.

T =X − Y

1m + 1

con distribucion N (0, 1) si H0 : µA = µB, y la region crıtica de la forma |T | > c

x = (6.24 + 6.31 + 6.28 + 6.30 + 6.25 + 6.26 + 6.24 + 6.29 + 6.22 + 6.28) /10 = 6.267

y = (6.27 + 6.25 + 6.33 + 6.27 + 6.24 + 6.31 + 6.28 + 6.29 + 6.34 + 6.27) /10 = 6.285

t =6.267− 6.285

0.05√

110 + 1

≈ −0.81

El nivel crıtico es p = P (|T | > 0.81) ≈ 2 (1− 0.79) = 0.42

Con α = 0.05 no se rechaza

18. H0 : µ ≥ µ0

H1 : µ < µ0

P (T < c | µ0) = α→ X < µ0 + tαs√n

= µ0 − t1−αs√n

La probabilidad de rechazar indebıdamente es α

19. Con la muestra resulta

x =20072

20= 1003.6 ml

n− 1

∑(xi − x)2 =

n− 1

(∑x2i − n (x)2

)= 22.1 ml

1− α = 0.995

t0.995 (19) = 2.8609

En la tabla de Student se lee t0.995 (19) = 2.8609 y como

x > 1000− 2.8609× 22.1√20

= 989.5 ml

se acepta el lote.

20. H0 : p ≤ 0.5

H1 : p > 0.5

Variable de decision

T =X − p0√

p0(1− p0)/n

La region crıtica es T > c (pues X estima p y cuanto mayor sea este mayor tendera a

ser T ). Ademas si p = p0 (y n suficientemente grande) T es aproximadamente N(0, 1),

y para que

P (T > c | p0) = α

ha de ser c = u1−α.

x = 490/1000 = 0.49

t =0.49− 0.5√

0.5× 0.5/1000= −0.63

Con α = 0.05 es u0.95 = 1.64 y no se rechaza H0.

xA = 0.04

xB = 0.05

220= 0.0455

t =0.04− 0.05

√0.0455× 0.9545

√1/100 + 1/120

= −0.3544

u0.975 = 1.96

y como |t| < 1.96 no se rechaza H0 (igual calidad).

22. Los dos puntos de la curva de eficacia son:

µ0 = 20 + 2.5× 1.5 = 23.75 % y la probabilidad de aceptar tal lote es 1− α = 0.95

µ1 = 20 + 1.5× 1.5 = 22.25 % y la probabilidad de aceptar tal lote es β = 0.10

En la situacion mejor cuanto mayor µ se acepta un lote si T > c. Para hallar c

(X − µ0

σ/√n> c | µ0

)= 1− α→ c = uα

y ahora para hallar n

(X − µ0

σ/√n> uα | µ1

(X − µ1

σ/√n> uα −

µ1 − µ0

σ/√n| µ1

uα −µ1 − µ0

σ/√n

= u1−β

n = σ2

(uα − u1−βµ1 − µ0

c = uα = u0.05 = −1.64

u1−β = u0.9 = 1.28

n = 1.52 ×(−1.64−1.28

)2= 19.1844

x > 23.75− 1.64× 1.5√19

= 23.19

Si en muestras de tamano 19 la media es mayor que 23.19 % se acepta el lote.

23. Como E(T ) = 2nλ0E(X) = 2nλ0E(X) = 2nλ0/λ, entonces T tendera a valer 2n si

λ = λ0 y a ser menor si λ > λ0. La region crıtica es de la forma T < c. Y c se determina

P (T < c | λ = λ0) = α

y como ademas T es χ2(2n) si λ = λ0, resulta c = χ2α(2n).

24. H0 : E (X) ≥ 1/λ0

H1 : E (X) < 1/λ0

25. χ20.05 (20) = 10.8509

t = 2× 10× 15 × 3.04 = 12.16

y como t no es menor que c no se rechaza H0

A.7. Capıtulo 7

1. a) n = 6,∑xi = 16,

∑yi = 0.231,

∑x2i = 48.5,

∑y2i = 0.0097,

∑xiyi = 0.6845

b1 = 0.0117, b0 = 0.0072

s = 0.0013

r = 0.9956

R2 = 0.991

0 1 2 3 4 50

tiempo(h)

Figura A.1: Evolucion de la corrosion.

Ver figura A.1

b) Para t = 3.2 h la ganancia esperada estimada es

µ (3.2) = 0.0072 + 0.0117× 3.2 ≈ 0.0445 %

t1−α/2× s

(x− x)2∑(xi − x)2 = 2.7764× 0.0013×

(3.2− 16/6)2

5.8333= 1.675 × 10−3

µ (3.2) = 0.0445± 0.0017 %

c) p = 0.9, u(1+p)/2 = u0.95 = 1.64

(3.2− 16/6)2

5.8333= 0.2154

0 0.5 1 1.5 2 2.50

longitud nominal (mm)

Figura A.2: Relacion entre las longitudes nominales y reales de ciertas piezas mecanizadas.

2−d4(

2u2(1+p)/2 − 3

= 1 +0.2154

0.21542 ×(2× 1.642 − 3

= 1.1031

χ20.05 (4) = 0.7107

k = u(1+p)/2

√n− 2

2−d4(

2u2(1+p)/2 − 3

= 1.64×

0.7107× 1.1031 = 4.2919

Con una confianza del 95 % al menos el 90 % de los valores de la ganancia Y despues

de x = 3.2 h estaran dentro del intervalo

µ(3.2)± k × s =

0.0445± 4.2919× 0.0013 = (0.0389, 0.0501) %

P (0.0389 < Y (3.2) < 0.0501) ≥ 0.90

2. a) n = 24,∑xi = 27,

∑yi = 27.0220,

∑x2i = 38.2500,

∑y2i = 38.2798,

∑xiyi =

38.2638

b1 = 0.9986, b0 = 0.0025

s = 0.0102

r = 0.9999

Ver figura A.2

b) Para x = 1 cm la longitud esperada estimada es

µ (1) = 0.0025 + 0.9986× 1 ≈ 1.0011 cm

t1−α/2×s

(x− x)2∑(xi − x)2 = 2.0739×0.0102×

(1− 27/24)2

7.8750= 4.420 ×10−3

µ (1) = 1.0011± 0.0044 cm

c) p = 0.99, u(1+p)/2 = u0.995 = 2.58

(1− 27/24)2

7.8750= 0.043651

2−d4(

2u2(1+p)/2 − 3

= 1 +0.043651

0.0436512 ×(2× 2.582 − 3

= 1.021

χ20.05 (22) = 12.3380

k = u(1+p)/2

√n− 2

2−d4(

2u2(1+p)/2 − 3

= 2.58×

12.3380× 1.021 = 3.5175

Con una confianza del 95 % al menos el 99 % de las longitud Y correspondientes a la

nominal de x = 1 cm estaran dentro del intervalo

µ(1)± k × s =

1.0011± 3.5175× 0.0102 = (0.965, 1.037) cm

P (0.965 < Y (1) < 1.037) ≥ 0.99

3. poniendo x =√

Y = β0 + β1x+ U

la muestra es

x (m) 0.6325 1.4142 2.0000 2.4495 3.1623

y (s) 0.26 0.50 0.68 0.82 1.07

0 2 4 60

0 1 2 30

Figura A.3: Curvas de regresion para la estimacion de g. Izquierda: ejes (d, y), derecha: ejes

2d, y).

∑xi = 9.6584; x = 1.9317;

∑x2i = 22.4;

∑(xi − x)2 =

∑x2i − (

∑xi)

2 /n = 3.7429∑yi = 3.3300; y = 0.6660;

∑y2i = 2.5973;

∑(yi − y)2 =

∑y2i − (

∑yi)

2 /n = 0.3795∑xiyi = 7.6238;

∑xiyi − (

∑xi) (

∑yi) /n = 1.1912

y resultan

b1 =1.1912

3.7429= 0.3183 m−1/2 s→ g = 1/0.31832 ≈ 9.87 m s−2

b0 = 0.6660− 0.3183× 1.9317 ≈ 0.05 s

Desde que se interrumpe la corriente hasta que se libera la bola transcurren 0.05 s (es

decir, el tiempo medido es superior en dicha cantidad al de caida mas el error aleatorio).

El error aleatorio esta caracterizado por una desviacion tıpica estimada de valor

√(∑(yi − y)2 − b21

∑(xi − x)2

)/ (n− 2) ≈ 0.01 s

Ver figura A.3

La desviacion tıpica estimada del estimador de β1√V ar (B1) =

s√∑(xi − x)2

=0.0114√3.7429

≈ 0.006 m−1/2 s

4. X =

... ...

q (b) =n∑i=1

[yi − bxi]2

Para hallar b que hace mınimo el valor de q:

q′ (b) = −2n∑i=1

xi [yi − bxi] = 0

y resulta

n∑i=1

que corresponde a un mınimo pues

q′′ (b) =

n∑i=1

x2i > 0

6. X =

µY (x) = y + rsYsX

(x− x) = 10 + 0.9× 2.1

1.2× (x− 5) = 2.125 + 1.575x

µX (y) = x+ rsXsY

(y − y) = 5 + 0.9× 1.2

2.1× (y − 10) = −0.143 + 0.514y

8. r =√

0.9 = 0.9487 (mismo signo que b1)

µY (x) = 10 + 0.45x = y + 0.45(x− x)

como µY (x) = y es y = 10 + 0.45× 20 = 19.0

b1 = rsYsX

a1 = rsXsY

0.45= 2

µX (y) = x+ a1(y − y) = 20 + 2(y − 19)

= −18 + 2y

0 5 10 15 200

Figura A.4: Rectas de regresion para cuatro muestras distintas.

∑(xi − x) (yi − y)√∑

(xi − x)2∑ (yi − y)2

a) Sea u = ax+ b y v = cy + d. Hallemos el coeficiente de correlacion lineal de u y v:

u = ax+ b y v = cy + d

ui − u = axi + b− (ax+ b) = a (xi − x)

vi − v = cyi + d− (cy + d) = c (yi − y)

∑(ui − u) (vi − v)√∑

(ui − u)2∑ (vi − v)2=

(xi − x) (yi − y)√a2∑

(xi − x)2 c2∑

(yi − y)2= rxy

b) Como yi = b0 + b1xi se sigue que rxy = ryy

10. En todas las muestras: x = 9.0, y = 7.5,∑

(xi − x)2 = 110,∑

(yi − y)2 = 41,

y = 3 + 0.5x y r = 0.816

La ensenanza es que nunca debe usarse solo el valor de r para concluir una relacion:

primero hay que estudiar el grafico de la muestra (diagrama de dispersion, figura A.4):

La (1) sugiere efectivamente una dependencia estadıstica lineal.

En la (2) hay dependencia funcional no lineal.

La (3) y la (4) ilustran la importancia que puede tener en los valores calculados un

unico un dato anomalo (outlier).

Una discusion muy clara en: http://en.wikipedia.org/wiki/Anscombe’s quartet

11. Resulta r = 0 pues∑

(xi − x) (yi − y) =∑xiyi−(

∑xi) (

∑yi) /n = 0 ya que

∑xiyi =∑

x3i = 0 (pues para cada xi hay otra xj = −xi) y

∑xi = 0. Pero los puntos son

funcionalmente dependientes. En general la incorrelacion (r = 0) solo significa ausencia

de relacion lineal.

1 x1 x2

1 ... xm11 x2 x2

2 ... xm2... ... ... ... ...

1 xn x2n ... xmn

y el sistema (sistema 7.13) XTXb = XTy queda

n∑xi

∑x2i ...

∑xmi∑

xi∑x2i

∑x3i ...

∑xm+1i

... ... ... ... ...∑xmi

∑xm+1i

∑xm+2i ...

∑xm+mi

∑yi∑yixi

...∑yix

con solucion unica si, y solo si, el rango de X es m+1: entre las n ≥ m+1 coordenadas

xi hay al menos m+ 1 distintas.

13. El diagrama de dispersion sugiere que un polinomio de segundo grado puede ajustar

satisfactoriamente los puntos. La matrices necesarias (sistema 7.13) son

1 4 16

1 5 25

1 6 36

1 7 49

1 8 64

1 9 81

1 10 100

b0b1b2

y la solucion del sistema(XTX

)b = XTy es

12.643

0 2 4 6 8 10 120

Figura A.5: Ajuste de mınimos cuadrados con un polinomio de 2o grado.

es decir, el polinomio y = 12.643 + 6.297x+ 2.125x2. Ver la figura A.5

En este problema el objetivo es meramente descriptivo (no se ha hecho ninguna hipote-

sis estadıstica). Con ese objetivo el modelo mas simple es el adecuado. Sin duda

podrıamos aumentar el ajuste aumentando el grado del polinomio (aumentando hasta

el grado 9 obtendrıamos una interpolacion: el polinomio de Lagrange).

T ≈ ts−n → lnT = ln t− n ln s

ası que poniendo

y = lnT, x = n, b0 = ln t, b1 = − ln s

y = b0 + b1x

Las matrices necesarias son (sistema 7.13)

ln (22.4)

ln (21.3)

ln (19.7)

ln (15.6)

ln (15.2)

ln (13.9)

ln (13.7)

y la solucion del sistema(XTX

)b = XTy es

(3.115

−9.243× 10−2

El modelo ajustado es

T = 22.54× 1.097−n.

Ver figuras A.6 y A.7.

0 1 2 3 4 5 6 7

log(T)

Figura A.6: Tiempo en que se tarda en hacer una tarea manual en funcion del numero de

veces que se realiza. Escala (n, log T ).

0 1 2 3 4 5 6 710

Figura A.7: Tiempo en que se tarda en hacer una tarea manual en funcion del numero de

veces que se realiza. Escala (n, T ).

A.8. Capıtulo 8

a) La muestra ordenada de valores de X es

(1, 2, 3, 6, 7, 7, 7, 8, 8, 10, 11).

1) A partir de la muestra ordenada se obtiene la funcion de distribucion empırica:

F (x) =

0 si x < 1

1/11 si 1 ≤ x < 2

2/11 si 2 ≤ x < 3

3/11 si 3 ≤ x < 6

4/11 si 6 ≤ x < 7

7/11 si 7 ≤ x < 8

9/11 si 8 ≤ x < 10

10/11 si 10 ≤ x < 11

1 si x ≥ 11

2) Tambien a partir de la muestra ordenada se obtiene la funcion de masa empıri-

f(x) =

1/11 si x = 1

1/11 si x = 2

1/11 si x = 3

1/11 si x = 6

3/11 si x = 7

2/11 si x = 8

1/11 si x = 10

1/11 si x = 11

0 ∀x ∈ < distinto a los anteriores

b) La muestra ordenada de valores de X es

(362, 403, 453, 460, 474, 495, 498, 505, 505, 510, 542, 542,

542, 560, 593, 595, 597, 602, 628, 637, 646, 664, 682, 706).

1) A partir de la muestra ordenada se obtiene la funcion de distribucion empırica:

F (x) =

0 si x < 362

1/24 si 362 ≤ x < 403

2/24 si 403 ≤ x < 453

3/24 si 453 ≤ x < 460

4/24 si 460 ≤ x < 474

5/24 si 474 ≤ x < 495

6/24 si 495 ≤ x < 498

7/24 si 498 ≤ x < 505

9/24 si 505 ≤ x < 510

10/24 si 510 ≤ x < 542

13/24 si 542 ≤ x < 560

14/24 si 560 ≤ x < 593

15/24 si 593 ≤ x < 595

16/24 si 595 ≤ x < 597

17/24 si 597 ≤ x < 602

18/24 si 602 ≤ x < 628

19/24 si 628 ≤ x < 637

20/24 si 637 ≤ x < 646

21/24 si 646 ≤ x < 664

22/24 si 664 ≤ x < 682

23/24 si 682 ≤ x < 706

1 si x ≥ 706

2) Tambien a partir de la muestra ordenada y tomando como origen x0 = 362 y

como longitud de las clases del histograma h = 3.5sn1/3 ≈ 106.84, la funcion de

densidad empırica es:

f(x) =

0 si x < 362

0.00156 si 362 ≤ x ≤ 468.84

0.00390 si 468.84 < x ≤ 575.68

0.00351 si 575.68 < x ≤ 682.52

0.00039 si 682 < x ≤ 789.36

0 si x ≥ 789.36

En la figura A.8 se dibuja el histograma.

c) a) La muestra ordenada de valores de X es

(4, 7, 15, 19, 22, 59, 68, 80, 115, 120, 132, 208, 309, 371, 579)

Con p = 0.25 es np+ 0.5 = 15× 0.25 + 0.5 = 4.25 ası que k = 4 y r = 0.25

350 400 450 500 550 600 650 700 750 8000

PluviometrÃa media en EspaÃ±a peninsular (mm)

Figura A.8: Histograma de la pluvometrıa media en Espana peninsular en el periodo 1989/90

- 2012/13

q1 = x(4) + 0.25×(x(5) − x(4)

)= 19 + 0.25× (22− 19) = 19.75

q2 = xm = x(8) = 80

Con p = 0.75 es np+ 0.5 = 15× 0.75 + 0.5 = 11.75 ası que k = 11 y r = 0.75

q3 = x(11) + 0.75×(x(12) − x(11)

)= 132 + 0.75× (208− 132) = 189

El coeficiente de simetrıa es

q3 + q1 − 2xmq3 − q1

=189 + 19.75− 2× 80

189− 19.75= 0.288

la muestra es asimetrica a la derecha (los datos a la derecha de la mediana se

extienden mas lejos que a la izquierda).

El lımite inferior de valores atıpicos es `i = q1 − 1.5 (q3 − q1) = 19.75 − 1.5 ×(189− 19.75) = −234.13 < x(1) ası que no hay atıpicos inferiores.

El lımite superior de valores atıpicos es `s = q3 + 1.5 (q3 − q1) = 189 + 1.5 ×(189− 19.75) = 442.88 < x(15) ası que 579 es atıpico.

b) Ver figura A.9.

c) La muestra ordenada de valores de Y = log (X) es

(1.3863, 1.9459, 2.7081, 2.9444, 3.0910, 4.0775, 4.2195, 4.3820,

4.7449, 4.7875, 4.8828, 5.3375, 5.7333, 5.9162, 6.3613)

Los valores de k y r para los cuantiles son los mismos de antes (solo dependen de

n y p) ası que

/ m3 )

Figura A.9: Diagrama de caja de una muestra de valores de la concentracion de plomo en el

q1 = y(4) + 0.25×(y(5) − y(4)

)= 2.9444 + 0.25× (3.0910− 2.9444) = 2.9811

q2 = ym = y(8) = 4.3820

q3 = y(11) + 0.75×(y(12) − y(11)

)= 4.8828 + 0.75× (5.3375− 4.8828) = 5.2238

El coeficiente de simetrıa es

q3 + q1 − 2ymq3 − q1

=5.2238 + 2.9811− 2× 4.3820

5.2238− 2.9811= −0.24930

la muestra es asimetrica a la izquierda (los datos a la izquierda de la mediana se

extienden mas lejos que a la derecha). Sin embargo es menos asimetrica que la de

valores de X.

El lımite inferior de valores atıpicos es `i = q1 − 1.5 (q3 − q1) = 2.9811 − 1.5 ×(5.2238− 2.9811) = −0.38 < y(1) ası que no hay atıpicos inferiores.

El lımite superior de valores atıpicos es `s = q3 + 1.5 (q3 − q1) = 5.2238 + 1.5 ×(5.2238− 2.9811) = 8.58 > y(15) ası que no hay atıpicos superiores.

d) Figura A.10.

e) Como n = 15 las probabilidades asociadas a cada elemento de la muestra

(cuantiles empıricos) con pk = (k − 0.5)/15 son

pk = (0.0333, 0.1000, 0.1667, 0.2333, 0.3000, 0.3667, 0.4333, 0.5000,

0.5667, 0.6333, 0.7000, 0.7667, 0.8333, 0.9000, 0.9667)

y los cuantiles teoricos con la N(0, 1) correspondientes a estas probabilidades son

Φ−1(pk) = (−1.8339,−1.2816,−0.9674,−0.7279,−0.5244,−0.3407,−0.1679, 0,

0.1679, 0.3407, 0.5244, 0.7279, 0.9674, 1.2816, 1.8339)

/ m3 )

Figura A.10: Diagrama de caja para el logaritmo de la concentracion de plomo en el aire

−2 −1.5 −1 −0.5 0 0.5 1 1.5 21

Φ−1(pk)

Figura A.11: qq-plot para el logaritmo de la concentracion de plomo suponiendo un modelo

normal.

Ver figura A.11.

f) Si Y = log (X) siguiese una distribucion N (µ, σ) su funcion de cuantiles Q (p)

es y = µ + σΦ−1(p). El grafico cuantil-cuantil (valores experimentales y(k) sobre

teoricos Φ−1 (pk)) sugiere que dicho modelo puede ser adecuado. Los parametros

de la recta de mınimos cuadrados son

∑y(i)Φ

−1 (pi)−(∑

) (∑Φ−1 (pi)

)/n∑

(Φ−1 (pi))2 − (

∑Φ−1 (pi))

2 /n= 1.4621

a =(∑

y(i) − b∑

Φ−1 (pi))/n = 4.1679

y entonces una estimacion de σ serıa 1.4621 y una de µ serıa 4.1679

Estas estimaciones coinciden apreciablemente con las de maxima verosimilitud en

la normal

µ = y =1

∑yi = 4.1679

σ = sy =

n− 1

∑(yi − y)2 = 1.4744

d) La desviacion tıpica de la muestra es s = 0.2209 y n = 29; Para elegir la anchura

de clases usamos

h ≈ 3.5s

3.5× 0.2209

291/3= 0.2517

y tomaremos h = 0.25

Con el origen en a0 = 4.88

Ij njnjn

[4.88, 5.13] 3 0.1034 0.4138

(5.13, 5.38] 8 0.2759 1.1034

(5.38, 5.63] 13 0.4483 1.7931

(5.63, 5.88] 5 0.1724 0.6897

Ver figura A.12.

Con el origen en a0 = 4.83

Ij njnjn

[4.83, 5.08] 2 0.0690 0.2759

(5.08, 5.33] 6 0.2069 0.8276

(5.33, 5.58] 13 0.4483 1.7931

(5.58, 5.83] 7 0.2414 0.9655

(5.83, 6.08] 1 0.0345 0.1379

Ver figura A.13.

El ejercicio ilustra claramente la debilidad del histograma: su dependencia de

los valores elegidos para a0 y h. Naturalmente cuanto mayor sea el tamano de

5 5.2 5.4 5.6 5.8 6 6.20

origen en 4.88

Figura A.12: Histograma del experimento de Cavendish con a0 = 4.88.

5 5.2 5.4 5.6 5.8 6 6.2 6.40

origen en 4.83

Figura A.13: Histograma del experimento de Cavendish con a0 = 4.83.

muestra n mas robusta sera la imagen (pues se podra elegir un valor de h pe-

queno y el desplazamiento del origen en un intervalo de longitud h tendra menos

importancia).

b) Con n = 29 las probabilidades asociadas a cada elemento de la muestra orde-

nada x(k) (cuantiles empıricos) son pk = (k−0.5)/29 (k = 1, 2, ..29) y los cuantiles

teoricos con la N(0, 1) correspondientes a estas probabilidades son Φ−1(pk).

k 1 2 3 4 5

pk 0.0172 0.0517 0.0862 0.1207 0.1552

Φ−1(pk) −2.1144 −1.6284 −1.3645 −1.1715 −1.0145

x(k) 4.88 5.07 5.10 5.26 5.27

k 6 7 8 9 10

pk 0.1897 0.2241 0.2586 0.2931 0.3276

Φ−1(pk) −0.8792 −0.7583 −0.6476 −0.5443 −0.4466

x(k) 5.29 5.29 5.30 5.34 5.34

k 11 12 13 14 15

pk 0.3621 0.3966 0.4310 0.4655 0.5000

Φ−1(pk) −0.3529 −0.2623 −0.1737 −0.0865 0

x(k) 5.36 5.39 5.42 5.44 5.46

k 16 17 18 19 20

pk 0.5345 0.5690 0.6034 0.6379 0.6724

Φ−1(pk) 0.0865 0.1737 0.2623 0.3529 0.4466

x(k) 5.47 5.50 5.53 5.55 5.57

k 21 22 23 24 25

pk 0.7069 0.7414 0.7759 0.8103 0.8448

Φ−1(pk) 0.5443 0.6476 0.7583 0.8792 1.0145

x(k) 5.58 5.61 5.62 5.63 5.65

k 26 27 28 29

pk 0.8793 0.9138 0.9483 0.9828

Φ−1(pk) 1.1715 1.3645 1.6284 2.1144

x(k) 5.68 5.75 5.79 5.85

Ver figura A.14.

−3 −2 −1 0 1 2 3

Cuantiles teóricos

píric

QQ−Plot modelo normal

Figura A.14: qq-plot del experimento de Cavendish suponiendo un modelo normal.

Apendice B

Complementos

B.1. Va Normal

La integral

∫ +∞

0e−x

es claramente convergente pues e−x2< e−x y la de esta ultima lo es. Para hallar su valor

hacemos

(∫ +∞

0e−x

(∫ +∞

0e−x

)(∫ +∞

0e−y

∫ +∞

0e−(x2+y2)/2dxdy

cambiando a polares

x = r cos θ

y = r sin θ

el jacobiano es

(∂x∂r

∂x∂θ

∂y∂r

∂y∂θ

(cos θ −r sin θ

sin θ r cos θ

)det J = r

y resulta

∫ π/2

(∫ +∞

0re−r

)dθ =

Se concluye que (el integrando es una funcion par)∫ +∞

−∞e−x

2/2dx = 2

2π (B.1)

272 Complementos

y por lo tanto

1√2π

∫ +∞

−∞e−x

2/2dx = 1

Si U ∼ N (0, 1) una mayoracion frecuente en Fısica es

P (U > u) =

∫ ∞u

e−x2/2dx <

∫ ∞u

xe−x2/2dx =

ue−u

2/2 u > 0

B.1.1. Esperanza y varianza

Calculemos la esperanza y varianza de una variable aleatoria U ∼ N (0, 1):

E (U) =1√2π

∫ +∞

−∞ue−u

2/2du =1√2π

[−e−u2/2

−∞= 0

V ar (U) =1√2π

∫ +∞

−∞u2e−u

integrando por partes con

dv = ue−u2/2du→ v = −e−u2/2

resulta

V ar (U) =[−ue−u2/2

−∞+

1√2π

∫ +∞

−∞e−u

2/2du = 1

pues el primer termino de la derecha vale 0 y el segundo es la densidad.

Ahora si X = σU + µ ∼ N (µ, σ) y resulta

E (X) = µ

V ar (X) = σ2

B.1.2. Reproductividad

Proposicion B.1. Si Xi son N (µi, σi) independientes entonces∑Xi es N(

∑µi,√∑

Demostracion. Basta probarlo para dos N (0, σ1) y N (0, σ2). La densidad de la suma es

(ejemplo 2.44):

fY (y) =

∫ +∞

−∞f1(x1)f2(y − x1)dx1

B.1. Va Normal 273

ası que

fY (y) =1

2πσ1σ2

∫ +∞

−∞exp

(− x2

(−(y − x1)2

2πσ1σ2exp

σ21 + σ2

)∫ +∞

−∞exp

2σ21σ

(√σ2

1 + σ22x1 −

σ21√

σ21 + σ2

)2 dx1

cambiando √σ2

1 + σ22x1 −

σ21√

σ21 + σ2

y = σ1σ2u

dx1 =σ1σ2√σ2

1 + σ22

la ultima integral vale√

2π y resulta

fY (y) =1

√2π√σ2

1 + σ22

σ21 + σ2

que es N(

0,√σ2

1 + σ22

Proposicion B.2. (Cramer) Sean X e Y Vas con valores en R e independientes. Si Z =

X + Y es normal entonces X e Y son normales.

B.1.3. Simulacion

Si U1 y U2 son Vas independientes uniformes en (0, 1), se definen:

X1 = (−2 logU1)12 cos(2πU2)

X2 = (−2 logU1)12 sen(2πU2)

La transformacion, del cuadrado unitario en todo el plano, es continua, biunıvoca y diferen-

ciable. La transformacion inversa es:

U1 = exp[−1

1 +X22

)]U2 = 1

2π arctan

) cuyo determinante jacobiano vale:

2πexp

1 +X22

)]de manera que, como la densidad conjunta de (U1, U2) es f(u1, u2) = 1 en el cuadrado, la de

(X1, X2) es (seccion 2.11.3):

f(x1, x2) =1

2πexp

)−∞ < x1, x2 < +∞

274 Complementos

es decir, X1 y X2 son N(0, 1) e independientes.

En conclusion, se obtienen 2 observaciones independientes de una Va N(0, 1) a partir de 2

numeros aleatorios u1 y u2, mediante la tranformacion (B.2). Por ultimo, si se desea una

N(µ, σ) se hace xσ + µ.

B.1.4. Aproximaciones

Por medio de la funcion gamma. Si U ∼ N (0, 1) entonces U2 ∼ χ2 (1) que es una Gamma(1/2, 1/2)

(ver Capıtulo 2 ejercicio 16). Se hace

P (−u < U < u) = P(U2 < u2

)u > 0

y entonces

P (U < u) =1

(1 + P

(U2 < u2

))u > 0

B.2. Va gamma

La funcion euleriana gamma se define mediante:

Γ(a) =

∫ ∞0

xa−1e−xdx

que converge para todo real a > 0. Se prueba (integrando por partes) que Γ(a+ 1) = aΓ(a).

Como Γ (1) = 1, resulta Γ(a+ 1) = a! para todo entero a ≥ 0.

Un valor notable es (cambiando x = u2/2 y teniendo en cuenta (B.1))

∫ ∞0

x−1/2e−xdx =√

∫ ∞0

e−u2/2du =

A partir de ella se define la densidad gamma de parametros (a, λ)1:

f(x) =λa

Γ(a)xa−1e−λx x > 0

Efectivamente (cambiando x = u/λ):∫ ∞0

Γ(a)xa−1e−λxdx =

∫ ∞0

ua−1e−udu = 1

Si X es Gamma(a, λ) es facil probar que

E (X) =a

V ar (X) =a

1Se denota tambien 1/λ en lugar de λ (por ejemplo Matlab)

B.2. Va gamma 275

B.2.1. Casos particulares

Si a = 1 resulta la exponencial de parametro λ.

La Gamma(a/2, 1/2) se llama ji-cuadrado de parametro a, denotada χ2(a):

f(x) =(1/2)a/2

Γ(a/2)xa/2−1e−x/2 x > 0

Proposicion B.3. Si X es Poisson de parametro λ

P (X ≤ k) = P (Y > λ)

donde Y es Gamma(k + 1, 1).

Demostracion. La densidad gamma de parametros a = k + 1 y λ = 1

f(y) =1

k!yke−y y > 0

Sea Y una Va con esta densidad. Calculemos

P (Y > λ) =

∫ λ

k!uke−udu

Integrando repetidamente por partes

∫ λ

k!uke−udu =

ke−u

∫ λ

k!uk−1e−udu

= −λke−λ

∫ λ

(k − 1)!uk−1e−udu

(λke−λ

k!+λk−1e−λ

(k − 1)!

∫ λ

(k − 2)!uk−2e−udu

(λke−λ

k!+λk−1e−λ

(k − 1)!+ · · ·+ λk−1e−λ

(k − (k − 1))!

∫ λ

0e−udu

(λke−λ

k!+λk−1e−λ

(k − 1)!+ · · ·+ λe−λ

1− e−λ)

= 1−

(λke−λ

k!+λk−1e−λ

(k − 1)!+ · · ·+ λe−λ

1!+ e−λ

)= 1− P (X ≤ k)

donde X es una Va de Poisson de parametro λ.

276 Complementos

B.2.2. Reproductividad

Proposicion B.4. Si Xi son Gamma(ai, λ) independientes entonces∑Xi es Gamma(

∑ai, λ).

Demostracion. Basta probarlo para dos. Sean X1 ∼Gamma(a1, λ) y X2 ∼Gamma(a2, λ)

independientes. La densidad de la suma es (ejemplo 2.44):

fY (y) =

∫ +∞

−∞f1(x1)f2(y − x1)dx1

y como

f1(x1) =λa1

Γ(a1)xa1−1

1 exp (−λx1) x1 > 0

f2(y − x1) =λa2

Γ(a2)(y − x1)a2−1 exp (−λ (y − x1)) 0 < x1 < y

pues f2 (y − x1) = 0 si y − x1 < 0.

fY (y) =λa1+a2

Γ(a1)Γ(a2)exp (−λy)

0xa1−1

1 (y − x1)a2−1 dx1

cambiando x1 = yt la integral queda

ya1+a2−1

0ta1−1 (1− t)a2−1 dt = ya1+a2−1 Γ(a1)Γ(a2)

Γ(a1 + a2)

y resulta

fY (y) =λa1+a2

Γ(a1 + a2)exp (−λy) y > 0

es decir, Gamma(a1 + a2, λ).

Corolario B.1. En particular si Xi son exponenciales independientes de parametro λ en-

tonces∑n

i=1Xi es Gamma(n, λ):

f(x) =λn

Γ(n)xn−1e−λx x > 0

B.3. Va beta

La funcion euleriana beta se define mediante:

B(a, b) =

0xa−1(1− x)b−1dx =

Γ(a)Γ(b)

Γ(a+ b)= B(b, a)

donde a, b > 0.

A partir de ella se define la densidad beta de parametros (a, b) mediante

f (x) =1

B (a, b)xa−1(1− x)b−1 0 < x < 1

B.4. Varianza de un estimador 277

(la funcion de distribucion se llama en Analisis la beta incompleta).

Si X es beta(a, b) es facil probar que

E (X) =a

V ar (X) =ab

(a+ b)2 (a+ b+ 1)

B.3.1. Casos particulares

La beta(1, 1) es la uniforme en (0, 1)

Si a y b son numeros naturales, integrando repetidamente por partes la funcion de distribucion

beta(a, b) se obtiene:

B(a, b)

0ta−1(1− t)b−1dt = 1−

a−1∑i=0

(a+ b− 1

)xi(1− x)a+b−1−i

Por lo tanto, denotando x = p, a = k + 1 y b = n − k, y si X es una Va binomial de

parametros n y p :

P (X ≤ k) =

k∑i=0

)pi(1− p)n−i = 1− 1

B(k + 1, n− k)

0tk(1− t)n−k−1dt = P (W > p)

donde W es beta(k + 1, n− k)

Si X es una Va de Student de parametro k entonces

P (|X| < x) = P

x2 + k2

)x > 0

donde W es beta(1/2, k/2)

B.4. Varianza de un estimador

Sea X con densidad f(x | θ), tal que el conjunto C = x ∈ R : f(x | θ) > 0 no depende

de θ. Ademas se supone legıtima la derivacion bajo el signo de integral. Sea una muestra

(X1, X2..., Xn) con densidad f(x1, x2, ..., xn | θ) =∏f(xi | θ).

Definicion B.1. Se llama cantidad de informacion (de Fisher) en la muestra (X1, X2..., Xn)

para el parametro θ a:

In(θ) = E

∂θln f(X1, X2, ..., Xn | θ)

278 Complementos

En particular si n = 1 denotaremos:

I(θ) = E

∂θln f(X | θ)

Proposicion B.5. E(∂∂θ ln f(X | θ)

Demostracion. Como∫C f(x | θ)dx = 1, derivando respecto de θ:∫

∂θf(x | θ)dx =

∫Cf(x | θ) ∂

∂θln f(x | θ)dx

∂θln f(X | θ)

Corolario B.2. Expresion alternativa: I(θ) = −E(∂2

∂θ2ln f(X | θ)

)Demostracion. derivando una vez mas∫

∂θ2 f(x | θ)dx =

∂θf(x | θ) ∂

∂θln f(x | θ)dx+

∫Cf(x | θ) ∂

∂θ2 ln f(x | θ)dx

∂θf(x | θ) ∂

∂θln f(x | θ)dx+ E

∂θ2 ln f(X | θ))

y como ∫C

∂θf(x | θ)

∂θln f(x | θ)dx =

∫Cf(x | θ)

∂θln f(x | θ)

resulta

∂θln f(x | θ)

= −E(∂2

∂θ2 ln f(X | θ))

Corolario B.3. I(θ) = V ar(∂∂θ ln f(X | θ)

Corolario B.4. E(∂∂θ ln f(X1, X2, ..., Xn | θ)

)= 0, pues:

∂θln f(X1, X2, ..., Xn | θ)

∂θln∏

f(Xi | θ))

∂θln f(Xi | θ)

B.4. Varianza de un estimador 279

Corolario B.5.

In(θ) = V ar

∂θln f(X1, X2, ..., Xn | θ)

)= V ar

(∑ ∂

∂θln f(Xi | θ)

∑V ar

∂θln f(Xi | θ)

)= nI(θ)

Teorema B.1 (Cota de Frechet-Cramer-Rao). Sea X con densidad f(x | θ) tal que el

conjunto C = x ∈ R : f(x | θ) > 0 es independiente de θ. Sea T = g(X1, X2..., Xn) un

estimador insesgado de g (θ), es decir, E (T ) = g (θ). Entonces:

V ar(T ) ≥ (g′ (θ))2

nI(θ)

Demostracion. derivando respecto de θ en

g (θ) =

∫C· · ·∫CTf(x1, x2, ..., xn | θ)dx1 · · · dxn

g′ (θ) =

∫C· · ·∫CT∂

∂θf(x1, x2, ..., xn | θ)dx1 · · · dxn

∫C· · ·∫CTf(x1, x2, ..., xn | θ)

∂θln f(x1, x2, ..., xn | θ)dx1 · · · dxn

∂θln f(X1, X2, ..., Xn | θ)

Aplicando la desigualdad de Cauchy-Schwarz:(Cov

∂θln f(X1, X2, ..., Xn | θ)

=(g′ (θ)

)2≤ V ar(T )nI(θ)

Corolario B.6. Si E(T ) = θ

V ar(T ) ≥ 1

nI(θ)

Como (Cov (U, V ))2 = V ar (U)V ar (V ) si y solo si U = a+ bV resulta:

Corolario B.7. Se alcanza la igualdad si, y solo si, T es una funcion lineal de ∂∂θ ln f(X1, X2, ..., Xn |

280 Complementos

Corolario B.8. Puede obtenerse una acotacion semejante a la del Teorema para el error

cuadratico medio de cualquier estimador T de g(θ). Como:

(T − g(θ))2)

= V ar(T ) + b2(θ) ≥ V ar(T )

resulta:

(T − g(θ))2)≥ (g′(θ) + b′(θ))2

nI(θ)

Proposicion B.6. Si existe un estimador insesgado con varianza igual a la cota, es unico.

Demostracion. Supongamos que hubiese dos, T1 y T2 con V ar(T1) = V ar(T2) = c2.

Formamos el (T1 + T2)/2 tambien insesgado, y cuya varianza no puede ser inferior a c2:

(T1 + T2

(c2 + Cov(T1, T2)

)≥ c2

Es decir, Cov(T1, T2) ≥ c2. Pero segun la desigualdad de Schwarz es |Cov(T1, T2)| ≤ c2,

ası que Cov(T1, T2) = c2 y esto sucede si, y solo si T1 = aT2 + b. Y como E(T1) = E(T2)

resulta que a = 1 y b = 0.

Observacion B.1. Debe enfatizarse que si no se cumplen las condiciones del Teorema,

fundamentalmente que el recorrido C de X no dependa de θ, podrıan hallarse estimadores

con varianza inferior a la cota.

Ejemplo B.1. Sea f (x | θ) = exp (θ − x) si x ≥ θ y cero en otro caso. En el punto x = θ

no existe la derivada y la∫fdx = 1 no puede diferenciarse de la manera habitual; de hecho∫ ∂f

∂θ dx = 1. En este caso puede haber estimadores insesgado con varianza inferior a la cota

(calculada con las modificaciones precisas); por ejemplo θ = X(1) − 1n

B.5. Estimadores en la exponencial

Sea X con f(x) = λ exp(−λx). Estudiamos los estimadores insesgados de θ = 1/λ

ln f = ln(θ−1 exp(−θ−1X)

)= − ln θ − θ−1X

(d ln f

= E(−θ−1 + θ−2X

)2= θ−4E(X − θ)2

= θ−2

asi que cualquier estimador insesgado de 1/λ tiene

V ar(T ) ≥ 1

nθ−2 =1

En particular E(X) = 1/λ y V ar(X) = 1/(nλ2). Ası que X es el eficiente.

B.5. Estimadores en la exponencial 281

Estudiamos ahora los estimadores insesgados de λ

ln f = ln (λ exp(−λX)) = lnλ− λX

(d ln f

λ−X

asi que cualquier estimador insesgado de λ tiene

V ar(T ) ≥ λ2

Comod ln f(Xi)

λ−Xi

si existe un estimador insesgado de varianza mınima ha de ser funcion lineal de Xi. Pero

ninguna funcion lineal de Xi puede tener tener esperanza λ, ası que no puede alcanzarse la

Estudiemos el estimador 1/X de λ. La densidad de nX (ver reproductividad de la gamma)

es gamma de parametros n y λ:

f(x) =λn

Γ(n)xn−1 exp(−λx) x > 0

y resulta

n− 1

ası que

T =n− 1

es insesgado para λ. Ademas

(n− 1) (n− 2)

(n− 1)2 (n− 2)

(n− 1

n− 2

Puede probarse que este es el estimador insesgado de varianza mınima, aunque como ya se

ha visto no alcanza la cota.

282 Complementos

B.6. Muestreo sin reemplazamiento

B.6.1. Control de Calidad

Cada una de las N piezas de un lote es defectuosa o no (anotado con 1 y 0 respectivamente).

En total hay r = Np defectuosas e interesa averiguar la fraccion desconocida (0 < p < 1) de

defectuosas. Se eligen n piezas al azar y sin reemplazamiento: las

)muestras distintas

son equiprobables. Si se extraen sucesivamente se define la Va (X1, X2, ..., Xn) donde Xi es

la calidad de la i-esima pieza.

Obviamente la Xi no son independientes. Sin embargo todas sus distribuciones marginales

(univariantes, bivariantes, etc.) son identicas. Por ejemplo, las univariantes:

P (X1 = 1) = p

P (X2 = 1) = P (X2 = 1 | X1 = 0)P (X1 = 0) + P (X2 = 1 | X1 = 1)P (X1 = 1)

N − 1

N − rN

+r − 1

N − 1

=Nr − r

(N − 1)N=

y por induccion P (Xi = 1) = p. Ası que E (Xi) = p y V ar (Xi) = p (1− p)

Las covarianzas valen

Cov (Xi, Xj) = E (XiXj)− E (Xi)E (Xj) = P (Xi = 1, Xj = 1)−( rN

y como

P (Xi = 1, Xj = 1) = P (Xj = 1 | Xi = 1)P (Xi = 1)

=r − 1

N − 1

resulta

Cov (Xi, Xj) = − r

N − rN (N − 1)

= −p (1− p)N − 1

Consideremos la Va X =∑n

i=1Xi, numero total de efectuosas obtenidas. Su funcion de

masa es (en lo que sigue suponemos 0 ≤ x ≤ n)

P (X = x) =

)(N − rn− x

) 0 ≤ x ≤ n

B.6. Muestreo sin reemplazamiento 283

Su esperanza se calcula facilmente ası

E (X) =n∑i=1

E (Xi) = np

Y tambien calculando con la funcion de masa:

E (X) =n∑x=0

)(N − rn− x

) = rn∑x=1

(r − 1

x− 1

)(N − rn− x

n−1∑x=0

(r − 1

)((N − 1)− (r − 1)

(n− 1)− x

n−1∑x=0

(r − 1

)((N − 1)− (r − 1)

(n− 1)− x

)(N − 1

n− 1

Su varianza se calcula facilmente ası

V ar (X) =n∑i=1

V ar (Xi) +n∑i 6=j

Cov (Xi, Xj) = np (1− p)− n (n− 1)p (1− p)N − 1

= np (1− p) N − nN − 1

Para calcularla con la funcion de masa, primero

E (X (X − 1)) =n∑x=0

x (x− 1)

)(N − rn− x

) = r (r − 1)n∑x=2

(r − 2

x− 2

)(N − rn− x

= r (r − 1)

n−2∑x=0

(r − 2

)((N − 2)− (r − 2)

(n− 2)− x

=r (r − 1)n (n− 1)

N (N − 1)

n−2∑x=0

(r − 2

)((N − 2)− (r − 2)

(n− 2)− x

)(N − 2

n− 2

r (r − 1)n (n− 1)

N (N − 1)

284 Complementos

y entonces

V ar (X) =r (r − 1)n (n− 1)

N (N − 1)+nr

N−(nrN

= np (1− p) N − nN − 1

Un estimador insesgado de p es la proporcion experimental

p (X) =X

y un estimador insesgado de r es

r (X) =X

Ademas

V ar (p (X)) =V ar (X)

n2= p (1− p) N − n

n (N − 1)

que tiende a cero si n tiende a N .

Por su parte la estimacion MV de r es el entero r que maximiza

L (r) =

)(N − rn− x

Dependiendo de r puede ser L (r) ≷ L (r − 1). Buscando entonces el que hace L (r) ≥L (r − 1)

L (r) ≥ L (r − 1)→ r

r − x(N − r + 1− (n− x))

N − r + 1≥ 1

r ≤ x

n(N + 1)

y el estimador r (X) es el mayor entero menor o igual que

n(N + 1)

B.6.2. El problema de los tanques alemanes

Consideremos una poblacion cuyo tamano N (numero de individuos) es desconocido y ha de

ser estimado. Suponemos ademas que cada individuo esta identificado por un numero, desde

el 1 hasta el N . Se eligen n individuos al azar y sin reemplazamiento: las

)muestras

distintas son equiprobables. Si se extraen sucesivamente se define la Va (X1, X2, ..., Xn) donde

Xi es el numero del i-esimo individuo.

Las Xi no son independientes y sus distribuciones marginales son identicas.

P (X1 = k) =1

Nk = 1, 2, ...N

B.6. Muestreo sin reemplazamiento 285

P (X2 = k) =N∑j=1

P (X2 = k | X1 = j)P (Y1 = j)

=N∑j=1j 6=k

N − 1

y por induccion P (Xi = k) = 1/N .

Consideremos el estadıstico X(n) = max (X1, X2, ..., Xn). Su recorrido es n, n + 1, .., N.Obtenemos su funcion de distribucion:

P (max (X1, X2, ..., Xn) ≤ j) = P (todos ≤ j) =

) j = n, n+ 1, .., N

y ahora la funcion de masa

P(X(n) = j

)= P (max (X1, X2, ..., Xn) = j)

= P (max (X1, X2, ..., Xn) ≤ j)− P (max (X1, X2, ..., Xn) ≤ j − 1)

)−(j − 1

(j − 1

n− 1

) j = n, n+ 1, .., N

Calculamos su esperanza

E(X(n)

N∑j=n

(j − 1

n− 1

) = nN∑j=n

)y como

1 =N+1∑j=n+1

(j − 1

)(N + 1

) =N∑j=n

)(N + 1

)resulta

E(X(n)

(N + 1

) = nN + 1

Por lo tanto un estimador insesgado de N es

N (X) =n+ 1

nX(n) − 1

286 Complementos

Se prueba ademas que su varianza (mınima) es

V ar(N (X)

(N − n) (N + 1)

La estimacion MV de N es el N que hace maxima la probabilidad del x(n) observado:

L (N) =

(x(n) − 1

n− 1

)y como L (N) aumenta cuando N disminuye y este no puede ser menor que x(n) resulta que

N = x(n).

B.7. Va Student

La densidad de Student de parametro k es

f(t) =Γ(k+1

)√kπΓ

) (1 +t2

)− k+12

−∞ < t < +∞

Si T es Student de parametro k, denotado T ∼ t(k), su esperanza y varianza son:

E(Y ) = 0 n > 1

V ar(Y ) =k

k − 2k > 2

Proposicion B.7. Si U ∼ N(0, 1) y V ∼ χ2(k), independientes, entonces

T =U√V/k

∼ t(k)

Demostracion. La densidad de U es

fU (u) =1√2π

)−∞ < u < +∞

La densidad de V es

fV (v) =1

2k/2Γ(k2 )vk2−1 exp

)v > 0

Denotemos Z =√V/k con valores en (0,+∞). Hallamos su densidad

FZ (z) = P (Z ≤ z) = P(V ≤ kz2

∫ kz2

0f (v) dv

B.8. Muestreo de Vas normales 287

y resulta

fZ (z) = 2kzfV(kz2)

2k2−1

Γ(k2 )kk2 zk−1 exp

(−kz

)z > 0

La densidad de T = U/Z (cociente de Vas independientes: ejemplo 2.45) resulta

fT (t) =

∫ +∞

0zfU (tz)fZ(z)dz

=1√2π

2k2−1

Γ(k2 )kk2

∫ +∞

0zk exp

(−(t2 + k

cambiando (t2 + k

z2 = u→ z =

t2 + k

2√udu

y resulta

fT (t) =1√

kπΓ(k2 )

)− k+12∫ +∞

0uk−12 exp (−u) du

=Γ(k+1

)√kπΓ(k2 )

)− k+12

−∞ < t < +∞

B.8. Muestreo de Vas normales

Si X ∼ N (µ, σ) la demostracion de que

(n− 1)S2

σ2∼ χ2 (n− 1)

X − µS/√n∼ t (n− 1)

es laboriosa y exige una serie de resultados previos.

B.8.1. Matrices de Vas

Definicion B.2. Si X = [Xij ]m×n es una matriz de Vas, se define

E (X) = [E (Xij)]m×n

288 Complementos

Proposicion B.8. Se prueba inmediatamente que E (A + BX) = A + BE (X).

Definicion B.3. Sea el vector aleatorio X = (X1, X2, ..., Xn)T . Su esperanza es el vector

µ = E (X) = (E (X1) , E (X2) , ..., E (Xn))T

y su varianza es la matriz

Σ = V ar (X) = E(XXT

)− E (X)E

Proposicion B.9.

σ11 σ12 · · · σ1n

σ21 σ22 · · · σ2n

· · · · · · · · · · · ·σk1 σk2 · · · σnn

donde σij = Cov(Xi, Xj), y σii = σ2

i = V ar (Xi).

Demostracion.

V ar (X) = E(XXT

)− E (X)E

= E(XXT

)− µµT

(X− µ) (X− µ)T)

= E[(Xi − µi)

(Xj − µj

)]n×n

=[E((Xi − µi)

(Xj − µj

))]n×n

Corolario B.9. Si Σ es diagonal las Vas Xi son incorreladas.

Proposicion B.10. Si Y = c + AX entonces

E (Y) = c + Aµ

V ar (Y) = AΣAT

Demostracion. es inmediata.

Proposicion B.11. Σ es definida positiva (semidefinida si algunas de las Xi son combina-

ciones lineales de las otras).

Demostracion. tomando en la proposicion anterior A ≡ aTn×1

V ar(aTX

)= aTΣa

V ar(aTX

)= V ar

(∑aiXi

)> 0 ∀a ∈ Rn

Proposicion B.12. Sea X con V ar (X) = Σ. Existe una rotacion Y = PTX tal que las Yi

son incorreladas.

Demostracion. como Σ es simetrica entonces Σ= PΛPT con P ortogonal (vectores propios

unitarios de Σ) y Λ diagonal (valores propios; ademas como es definida positiva los valores

propios son positivos). Poniendo Y = PTX entonces

V ar (Y) = PTΣP = PT(PΛPT

)P = Λ

B.8.2. VA normal n-dimensional

La Va X = (X1, X2, ..., Xk)T es normal n-dimensional, denotado X ∼ N(µ,Σ) si su densidad

es de la forma:

fX(x1, x2, ...xn) =1

|Σ|12 (2π)

2(x− µ)T Σ−1 (x− µ)

](x1, x2, ...xn) ∈ Rn

donde x =(x1, x2, ...xn)T , µ =(µ1, µ2, ..., µn)T , Σ =V ar (X) y |Σ| = det Σ

Σ−1 es definida positiva por serlo Σ ası que (x− µ)T Σ−1 (x− µ)>0, la forma cuadratica

del exponente es definida positiva.

Se sigue que el conjunto de puntos (x1, x2, ...xn) ∈ Rn tales que fX(x1, x2, ...xn) = c (super-

ficies de igual densidad) es el que hace

(x− µ)T Σ−1 (x− µ) = −2 ln(c |Σ|

12 (2π)

)y es un elipsoide de centro µ y ejes ortogonales (Σ es simetrica) en las direcciones de los

valores propios de Σ.

Tengase en cuenta que pueden ser todas las Xi normales pero no serlo X, salvo si son

independientes.

Proposicion B.13. Las Xi son independientes si y solo si Σ es diagonal (en otras palabras:

la incorrelacion equivale a la independencia si X es normal).

Demostracion. Si Σ = diag(σ2

1, σ22, ..., σ

)entonces

(x− µ)T Σ−1 (x− µ) =∑(

xi − µiσi

|Σ|12 =

∏σ−1i

ası que la densidad se factoriza en el producto de n densidades normales N (µi, σi).

290 Complementos

Proposicion B.14. Sea X ∼ N((µ,Σ), y sea Y = AX con An×n no singular. Entonces

Y ∼ N((Aµ,AΣAT )

Demostracion. La densidad de Y es (ver 2.11.4)

fY(y1, y2, ...yn) =1

|A| |Σ|12 (2π)

(A−1y − µ

)TΣ−1

(A−1y − µ

)](y1, y2, ...yn) ∈ Rn

y como

µY = Aµ→ µ = A−1µY

queda (A−1y − µ

)TΣ−1

(A−1y − µ

(A−1 (y − µY)

)TΣ−1A−1 (y − µY)

= ((y − µY))T(A−1

)TΣ−1A−1 (y − µY)

= ((y − µY))T(AΣAT

)−1(y − µY)

y la matriz de covarianzas es efectivamente

ΣY= AΣAT

|ΣY|= |A|2 |Σ|

ası que

fY(y1, y2, ...yn) =1

((2π)n |ΣY|)12

2((y − µY))T Σ−1

Y (y − µY)

](y1, y2, ...yn) ∈ Rn

Corolario B.10. Sea X ∼ N((µ, σI), es decir las Xi son independientes y con igual va-

rianza. Si Y = AX es una rotacion cualquiera, entonces Y ∼ N((Aµ, σI), es decir las Yi

son independientes.

Demostracion. en la proposicion previa

ΣY=σAIAT = σI

Geometricamente: las superficies de igual densidad (la forma cuadratica del exponente) son

esferas.

El Corolario B.10 y la Proposicion B.13 dan lugar al:

Corolario B.11. Sea X ∼ N((µ,Σ). Si Σ= PΛPT (descomposicion espectral) entonces

Y = PTX ∼ N((PTµ,Λ) y las Vas Yi son independientes.

B.8.3. Distribuciones en el muestreo

Sea X ∼ N((0, σI) (muestra aleatoria). Usaremos el corolario B.10 eligiendo una rotacion

particular:

La identidad: ∑(Xi − µ)2 =

∑(Xi −X

)2+ n(X − µ)2

admite una interpretacion geometrica simple: es el teorema de Pitagoras aplicado al triangulo

formado por los vectores (X− µ) ,(X−X

)y(X− µ

), ası que

(X−X

)⊥(X− µ

El(X− µ

)esta confinado al subespacio definido por el 1 = (1, 1, ..., 1) y el

(X−X

)al subes-

pacio ortogonal de dimension n− 1.

Puede elegirse una nueva base mediante rotacion de la inicial tal que uno de sus ejes (digamos

el n) coincida con el 1 y los n− 1 restantes se hallen en el subespacio ortogonal citado. Si A

es la matriz de rotacion (ver Nota al pie):

Y = A (X− µ) =(Y1, Y2, ..., Yn−1,

√n(X − µ

))∼ N (0, σI)

A(X− µ

)=(0, 0, ..., 0,

√n(X − µ

))pues (rotacion)∥∥A (X− µ

)∥∥2=∥∥(X− µ

)∥∥2= n(X − µ)2

A(X−X

)= (Y1, Y2, ..., Yn−1, 0)

Resulta pues ∑(Xi − µ)2 =

n−1∑Y 2i + n(X − µ)2

Hemos conseguido pues la representacion

n∑i=1

(Xi −X

n−1∑i=1

donde las Yi ∼ N (0, σ) independientes. Y por lo tanto

Teorema B.2.(n− 1)S2

σ2∼ χ2 (n− 1)

Demostracion.

(n− 1)S2

n−1∑(Yiσ

y la suma de la derecha es de los cuadrados de n− 1 Vas N (0, 1) independientes.

292 Complementos

Teorema B.3.

X − µS/√n∼ t (n− 1)

Demostracion.

X − µS/√n

X−µσ/√n√S2

=U√Vn−1

∼ t (n− 1)

donde U ∼ N (0, 1) y V ∼ χ2 (n− 1) y son independientes (ver proposicion B.7).

Construyamos explicitamente la matriz de rotacion A (obtenida por primera vez por Hel-

mert).

Sean los vectores x = (x1, x2, ..., xn), x = (x, x, ..., x) = x (1, 1, ..., 1) = x1 respecto de la base

canonica de Rn. El x−x es ortogonal al 1, pues (los sımbolos representan ahora las corres-

pondientes matrices columna) (x−x)T 1 =∑

(xi − x) = 0. Ası que el x−x esta confinado

en un subespacio (hiperplano) de dimension n− 1 ortogonal al del 1. Para cada vector y de

este subespacio es∑yi = 0. Una nueva base de Rn es

1 0 0 · · · 0 1

−1 1 0 · · · 0 1

0 −1 1 · · · 0 1

· · · · · · · · · · · · · · · · · ·0 0 0 · · · 1 1

0 0 0 · · · −1 1

donde las n− 1 primeras columnas son una base del subespacio y la ultima del ortogonal. A

partir de ella construimos otra ortogonal mediante Gram-Schmidt

13 · · · 1

n−1 1

−1 12

13 · · · 1

n−1 1

0 −1 13 · · · 1

n−1 1

0 0 −1 · · · · · · · · ·· · · · · · · · · · · · · · · · · ·0 0 0 · · · 1

n−1 1

0 0 0 · · · −1 1

y esta en ortonormal

1√2·3

1√3·4 · · · 1√

n(n−1)

−1√2

1√2·3

1√3·4 · · · 1√

n(n−1)

0 −2√2·3

1√3·4 · · · 1√

n(n−1)

0 0 −3√3·4 · · · · · · · · ·

· · · · · · · · · · · · · · · · · ·0 0 0 · · · 1√

n(n−1)

0 0 0 · · · −(n−1)√n(n−1)

B.8.4. Sesgo de S

Como se sabe S2 es insesgado para σ2 pero S es sesgado y E (S) < σ (ejemplo 5.12).

Calculamos el sesgo para X ∼ N (µ, σ).

La distribucion de (n− 1)S2/σ2 es ji-cuadrado de parametro (n− 1) (es decir Gamma((n− 1) /2, 1/2):

f(x) =(1/2)(n−1)/2

Γ((n− 1) /2)x(n−1)/2−1e−x/2 x > 0

y entonces

√n− 1

∫ ∞0

√xf (x) dx =

∫ ∞0

(1/2)(n−1)/2

Γ((n− 1) /2)x(n−1)/2−1e−x/2dx

=(1/2)(n−1)/2

Γ((n− 1) /2)

∫ ∞0

xn/2−1e−x/2dx

Cambiando u = x/2 ∫ ∞0

xn/2−1e−x/2dx = 2

∫ ∞0

(2u)n/2−1 e−udu

2n/2∫ ∞

0un/2−1e−udx = 2n/2Γ

)y resulta

E (S) =

√2Γ(n2

)√(n− 1)Γ

(n−1

)σPara n = 5 el sesgo de S es de −0.06σ

Para n = 100 el sesgo de S es de −0.003σ

El desarrollo asintotico es

E (S) =

(1− 1

4n− 7

)σ n→∞

294 Complementos

B.9. Intervalos de tolerancia

Consideramos el caso X ∼ N (µ, σ) donde µ y σ son desconocidas.

Para valores fijados de x y s sea el intervalo

(x− ks, x+ ks)

donde k esta por determinar.

Sea p fijado. Como P (x− ks < X < x+ ks) es monotona creciente con k, hay un unico k

tal que

P (x− ks < X < x+ ks) = p

Ademas

P (x− ks < X < x+ ks) = P

(x− µσ− k s

σ<X − µσ

<x− µσ

(−k s

σ<X − µσ

− x− µσ

((U − z)2 < k2 s

con U ∼ N (0, 1) y z = x−µσ . Se prueba que (U − z)2 ∼ χ2

tiene una distribucion llamada

ji-cuadrado descentrada, de parametros 1 y δ = z2.

Si χ21:p

denota el cuantil p en esa distribucion, es

σ2= χ2

σ2≥ χ2

((U − z)2 < k2 s

)≥ p

Sin embargo x y s son valores particulares de las variables aleatorias independientes X y S.

Entonces z lo es de la Z ∼ N (0, 1/√n) y s2 de la S2, independiente de la Z. Se busca por

lo tanto el k tal que

σ2≥ χ2

= 1− α

o lo que es igual

(Q ≥

(n− 1)χ21:p

)= 1− α

B.9. Intervalos de tolerancia 295

donde Q = (n−1)S2

σ2 es ji-cuadrado(n− 1) independiente de Z. Finalmente (ver Nota 1):

(Q ≥

(n− 1)χ21:p

∫ ∞−∞

(Q ≥

(n− 1)χ21:p

)fZ (z) dz (B.3)

∫ ∞0

(Q ≥

(n− 1)χ21:p

)fZ (z) dz

∫ ∞0

(Q ≥

(n− 1)χ21:p

)e−nz

2/2dz = 1− α

ecuacion integral en k que debe resolverse numericamente.

Nota 1:

Sean X e Y son variables continuas independientes cualesquiera y sea una funcion g (·)

P (Y ≥ g (X)) =

∫ +∞

−∞

(∫ +∞

g(x)f (x, y) dy

∫ +∞

−∞

(∫ +∞

g(x)fY (y) dy

)fX (x) dx

∫ +∞

−∞(P (Y ≥ g (x))) fX (x) dx

B.9.1. Lımites de tolerancia

Obtengamos un lımite superior para el caso X ∼ N (µ, σ) donde µ y σ son desconocidas.

Se trata de hallar el k tal que, con una confianza 1− α, sea

P (X < x+ ks) ≥ p

Para valores fijados de x, s y k el contenido de probabilidad del intervalo es

P (X < x+ ks) =

∫ x+ks

−∞

2πexp

(x− µσ

Sera igual a p si

x+ ks = µ+ σup

donde up = Φ−1 (p) es el cuantil p de la N (0, 1).

Y sera mayor o igual a p si

x+ ks ≥ µ+ σup

Pero x y s son valores particulares de las variables aleatorias X y S, y la integral lo es de la

variable aleatoria

A (k) =

∫ X+kS

−∞

2πexp

(x− µσ

296 Complementos

y se busca k para que

P (A (k) ≥ p) = P(X + kS ≥ µ+ upσ

)= 1− α

P(X + kS ≥ µ+ upσ

X−µσ/√n−√nup

≥ −k√n

= 1− α

y se prueba que la Va

X−µσ/√n−√nup

tiene una densidad llamada t de Student descentrada de parametros (n− 1) y δ = −√nup

ambos conocidos. Es posible entonces calcular con dicha densidad el cuantil tα (n− 1,−√nup)

tal que

P (T ≥ tα) = 1− α

y resulta finalmente

k = − tα (n− 1,−√nup)√

n=t1−α (n− 1,

√nup)√

n(B.4)

teniendo en cuenta que para variables de Student descentradas es P (T (δ) < t) = P (T (−δ) > −t).

Mediante un argumento analogo se prueba que el k para un lımite inferior, de la forma x−ks,de contenido p y confianza 1− α es el mismo de antes.

B.10. Muestreo por atributos (pruebas de hipotesis)

Hay que determinar n y c tales que

P (T ≤ c | p1) =∑c

)px1 (1− p1)n−x = β

P (T ≤ c | p0) =∑c

)px0 (1− p0)n−x = 1− α

Hallada la solucion la curva de eficacia de la prueba (probabilidad de aceptacion en funcion

de p) es

β (p) = P (T ≤ c | p) =c∑

)px (1− p)n−x

La solucion del sistema no-lineal debe hallarse numericamente. Conviene para ello expresar la

funcion de distribucion binomial mediante la funcion beta incompleta (evitando ası trabajar

en numeros enteros). Se prueba (integrando por partes reiteradas veces):

c∑x=0

)px (1− p)n−x = (n− c)

)∫ 1−p

0tn−c−1 (1− t)c dt

B.11. Modelo lineal 297

y entonces el sistema es

(n− c)(nc

) ∫ 1−p10 tn−c−1 (1− t)c dt = β

(n− c)(nc

) ∫ 1−p00 tn−c−1 (1− t)c dt = 1− α

Valores iniciales para los algoritmos iterativos de solucion pueden ser los de la aproximacion

normal de la binomial:

c∑x=0

)px1 (1− p1)n−x ≈ Φ

(c− np1√np1 (1− p1)

c∑x=0

)px0 (1− p0)n−x ≈ Φ

(c− np0√np0 (1− p0)

)= 1− α

que resultan

(Φ−1 (1− α)

√p0 (1− p0)− Φ−1 (β)

√p1 (1− p1)

(p1 − p0)

c = Φ−1 (β)√np1 (1− p1) + np1

B.11. Modelo lineal

Las Yi de la muestra son independientes con distribucion normal y parametros

E (Yi) = β0 + β1xi

V ar (Yi) = σ2

Los estimadores B0, B1 y B0 +B1x son combinaciones lineales de las Yi, sea

n∑i=1

donde los αi son distintos en cada caso, ası que:

1. B0, B1 y B0 +B1x son variables aleatorias normales.

2. sus esperanzas se calculan ası

(n∑i=1

n∑i=1

αiE (Yi) =n∑i=1

αi (β0 + β1xi)

3. y sus varianzas se calculan ası

(n∑i=1

n∑i=1

α2iV ar (Yi) = σ2

n∑i=1

298 Complementos

B.11.1. Estimador B1 de β1

Como∑

(xi − x) = 0 el estimador B1 puede escribirse

∑(xi − x)

(Yi − Y

)∑(xj − x)2 =

∑(xi − x)Yi∑(xj − x)2 (B.5)

y resulta

E (B1) =

∑(xi − x)E (Yi)∑

(xj − x)2 =

∑(xi − x) (β0 + β1xi)∑

(xj − x)2 = β1

pues∑

(xi − x)xi =∑

(xi − x)2. En cuanto a la varianza

V ar (B1) =

∑(xi − x)2 V ar (Yi)(∑

(xj − x)2)2 =

σ2∑(xj − x)2

B.11.2. Estimador B0 de β0

B0 = Y −B1x

y como

∑E (Yi) =

∑(β0 + β1xi) = β0 + β1x

y E (B1) = β1 resulta

E (B0) = E(Y −B1x

)= β0

En cuanto a la varianza, como

n∑i=1

Yi −∑n

i=1 (xi − x)Yi∑(xj − x)2 x =

n∑i=1

n− (xi − x)∑

(xj − x)2x

)Yi (B.6)

resulta

V ar (B0) =n∑i=1

n− (xi − x)∑

(xj − x)2x

V ar (Yi) = σ2

( ∑x2i

(xi − x)2

B.11.3. Estimador B0 +B1x de β0 + β1x

Naturalmente

E (B0 +B1x) = E (B0) + E (B1)x = β0 + β1x

B.11. Modelo lineal 299

Y tambien, expresando B0 +B1x como combinacion lineal de las Yi

B0 +B1x = Y +B1 (x− x) (B.7)

∑Yi +

∑(xi − x)Yi∑(xj − x)2 (x− x)

=n∑i=1

(xi − x) (x− x)∑(xj − x)2

V ar (B0 +B1x) = V ar

n∑i=1

(xi − x) (x− x)∑(xj − x)2

= σ2∑(

(xi − x) (x− x)∑(xj − x)2

(x− x)2∑(xi − x)2

B.11.4. Estimador S2 de σ2

Elevando al cuadrado y sumando en la identidad

Yi − (β0 + β1xi) = (Yi − (B0 +B1xi)) + ((B0 +B1xi)− (β0 + β1xi))

queda ∑(Yi − (β0 + β1xi))

(Yi − (B0 +B1xi))2 +

∑((B0 +B1xi)− (β0 + β1xi))

2 (B.8)

pues ∑(Yi − (B0 +B1xi)) ((B0 +B1xi)− (β0 + β1xi)) = 0

ya que (sistema de mınimos cuadrados)∑(Yi − (B0 +B1xi)) = 0∑

(Yi − (B0 +B1xi))xi = 0

Reordenando (B.8):∑(Yi − (B0 +B1xi))

2 =∑

(Yi − (β0 + β1xi))2 −

∑((B0 +B1xi)− (β0 + β1xi))

300 Complementos

y tomando esperanzas

(Yi − (B0 +B1xi))2)

= E(∑

(Yi − (β0 + β1xi))2)− E

(∑((B0 +B1xi)− (β0 + β1xi))

(Yi − (β0 + β1xi))2)−∑

((B0 +B1xi)− (β0 + β1xi))2)

= nV ar (Yi)−∑

V ar (B0 +B1xi)

= nσ2 −∑

(xi − x)2∑(xj − x)2

)= nσ2 − 2σ2

ası que

n− 2

∑(Yi − (B0 +B1xi))

B.11.5. Distribuciones en el muestreo

La deduccion de las distribuciones es analoga a la de la seccion 8.3.

La formula (B.8)∑(Yi − (β0 + β1xi))

2 =∑

(Yi − (B0 +B1xi))2 +

∑((B0 +B1xi)− (β0 + β1xi))

es el teorema de Pitagoras aplicado al triangulo formado por los vectores (Y −Xβ) , (Y −XB)

y (XB−Xβ), ası que (Y −XB) ⊥ (XB−Xβ).

El (XB−Xβ) esta confinado al subespacio de dimension 2 engendrado por las columnas de

X y el (Y −XB) esta en el subespacio ortogonal al anterior, de dimension n− 2.

Si Y ∼ N(Xβ, σI) (muestra aleatoria) la distribucion de (XB−Xβ) es normal bidimen-

sional y la del (Y −XB) normal (n− 2) dimensional. Ademas son independientes por la

ortogonalidad.

B1, B0 y B0+B1x tienen distribucion normal por ser combinaciones lineales de las Yi. Ademas

por ser combinaciones de las componentes de (XB−Xβ) son independientes de (Y −XB)

y entonces de ‖Y −XB‖2 y de S2.

La distribucion(n− 2)S2

σ2∼ χ2 (n− 2)

y las distribuciones de Student de parametro (n− 2) de

B0 − β0

√ ∑x2i

(xi−x)2

,B1 − β1

1∑(xi−x)2

,(B0 +B1x)− (β0 + β1x)

√1n + (x−x)2∑

(xi−x)2

son inmediatas.

B.12. Intervalos de tolerancia en el modelo lineal 301

B.12. Intervalos de tolerancia en el modelo lineal

Las demostraciones siguen punto por punto el argumento de la seccion B.9.

B.12.1. Unilateral

Obtengamos un lımite superior para el caso Y (x) ∼ N (µ (x) , σ) donde µ (x) = β0 + β1x

y σ son desconocidas. Se trata de hallar el k tal que, con una confianza 1− α, sea

P (Y (x) < µ (x) + ks) ≥ p

Para valores fijados de µ (x), s y k el contenido de probabilidad del intervalo es

P (Y (x) < µ (x) + ks) =

∫ µ(x)+ks

−∞

2πexp

(z − µ (x)

Sera igual a p si

µ (x) + ks = µ (x) + upσ

donde up = Φ−1 (p) es el cuantil p de la N (0, 1).

Y sera mayor o igual a p si

µ (x) + ks ≥ µ (x) + upσ

Pero µ (x) y s son valores particulares de las variables aleatorias B0 +B1x y S, y la integral

lo es de la variable aleatoria

A (k) =

∫ (B0+B1x)+kS

−∞

2πexp

(z − µ (x)

y se busca k para que

P (A (k) ≥ p) = P ((B0 +B1x) + kS ≥ µ (x) + upσ) = 1− α

Pero(B0 +B1x)− µ (x)

σd∼ N (0, 1)

(x− x)2∑(xi − x)2

y(n− 2)S2

σ2∼ χ2 (n− 2)

302 Complementos

e independientes. Entonces

P ((B0 +B1x)− µ (x)− upσ ≥ −kS) = P

((B0 +B1x)− µ (x)

σd− up

d≥ −k S

((B0+B1x)−µ(x)

σd − upd

≥ −k/d

)= 1− α

donde la Va

T =(B0+B1x)−µ(x)

σd − upd

tiene una densidad t de Student descentrada de parametros (n− 2) y δ = −up/d ambos

conocidos. Es posible entonces calcular con dicha densidad el cuantil tα (n− 2,−up/d) tal

P (T ≥ tα) = 1− α

y resulta finalmente

k = −tα (n− 2,−up/d)× d = t1−α (n− 2, up/d)× d

teniendo en cuenta que para variables de Student descentradas es P (T (δ) < t) = P (T (−δ) > −t).

Observar que k depende de p, 1− α, n y d (es decir, de las abscisas xi y de x).

Mediante un argumento analogo se prueba que el k para un lımite inferior, de la forma

µ (x)− ks, de contenido p y confianza 1− α es el mismo de antes.

B.12.2. Bilateral

El intervalo es de la forma

(µ (x)− ks, µ (x) + ks)

donde k esta por determinar.

Para valores fijados de µ (x) y s como P (µ (x)− ks < Y (x) < µ (x) + ks) es monotona cre-

ciente con k, hay un unico k que da contenido p. Ademas

P (µ (x)− ks < Y (x) < µ (x) + ks) = P

(µ (x)− µ (x)

σ− k s

σ<Y (x)− µ (x)

σ<µ (x)− µ (x)

(−k s

σ<Y (x)− µ (x)

σ− µ (x)− µ (x)

σ< +k

((U − z)2 < k2 s

U =Y (x)− µ (x)

σ∼ N (0, 1)

B.12. Intervalos de tolerancia en el modelo lineal 303

z =µ (x)− µ (x)

ası que (U − z)2 ∼ χ21

es una ji-cuadrado descentrada de parametros 1 y δ = z2. Y si

χ21:p

denota el cuantil p en esa distribucion, es

σ2= χ2

Resulta que si

σ2≥ χ2

((U − z)2 < k2 s

)≥ p

Sin embargo µ (x) y s son valores particulares de las variables aleatorias B0 + B1x y S.

Entonces z lo es de la

Z =(B0 +B1x)− µ (x)

σ∼ N (0, d) (B.9)

(x− x)2∑(xi − x)2

y (n− 2)S2/σ2 ∼ χ2n−2 independiente de Z.

Se busca por lo tanto el k tal que

(Q ≥

(n− 2)χ21:p

)= 1− α

donde Q = (n−2)S2

σ2 es ji-cuadrado (n− 2) independiente de Z. Ahora:

(Q ≥

(n− 2)χ21:p

∫ ∞−∞

(Q ≥

(n− 2)χ21:p

)fZ (z) dz

∫ ∞0

(Q ≥

(n− 2)χ21:p

)fZ (z) dz

∫ ∞0

(n− 2)χ21:p

2d2 dz = 1− α

ecuacion integral que debe resolverse numericamente.

304 Complementos

B.12.3. Aproximacion de Wallis

En general, si X e Y son Vas independientes puede escribirse

PX,Y (X > Y ) =

∫PX (X > y) fY (y) dy

= EY (PX (X > Y ))

y ası

(Q ≥

(n− 2)χ21:p

))= 1− α

Poniendo V = Z2 entonces E (V ) = d2 y V ar (V ) = 2d4 (pues V/d2 ∼ χ2 (1); ver (B.9)).

Ahora si

g (V ) = PQ

(n− 2)χ21:p (V )

)desarrollando g (V ) en serie de Taylor alrededor de E (V ) = d2

g (V ) = g(d2)

+(V − d2

)g′(d2)

(V − d2

)2g′′(d2)

+ · · ·

y tomando esperanzas

E (g (V )) = g(d2)

+O(d4)

usando entonces

E (g (V )) ≈ g(d2)

(n− 2)χ21:p

)≈ 1− α

y como Q ∼ χ2 (n− 2) resulta

√√√√(n− 2)χ21:p (d2)

χ2(n−2):α

Por ultimo, el cuantil de la ji-cuadrado descentrada se puede aproximar con (Bowker)

√χ2

1:p (d2) ≈ u (1+p)2

2−d4(

2u (1+p)2

− 3)

El mismo argumento puede seguirse con facilidad para obtener una aproximacion al k del

intervalo de tolerancia bilateral de la normal (seccion B.9).

Apendice C

Tablas

Como ya se ha explicado en los capıtulos 4 y 6 los valores de las funciones de distribucion

de las Vas normal, ji-cuadrado y Student en un punto de la recta real no se pueden calcular

analıticamente, hay que aproximar numericamente las integrales de la funcion de densidad

en el intervalo correspondiente. La mayorıa de los lenguajes de programacion disponen de

bibliotecas con funciones que realizan las aproximaciones anteriores. En particular, la “Sta-

tistics Toolbox” de Matlabr contiene las funciones normcdf, chi2cdf y tcdf para aproximar

las funciones de distribucion antes citadas; y las funciones norminv, chi2inv y tinv para cal-

cular las correspondientes funciones de cuantiles. Utilizando las funciones normcdf, chi2inv

y tinv se han construido las tablas C.1, C.2 y C.3. El objeto de estas tablas es que los estu-

diantes puedan resolver ejercicios (con menor precision) en los momentos en que no tienen

acceso a un ordenador (especialmente durante la realizacion de examenes).

Tambien se adjuntan dos tablas para calcular los valores de k (factores de tolerancia) en el

caso de intervalos de tolerancia bilaterales y unilaterales (ver 6.5). En este caso es mas difıcil

encontrar funciones que los calculen. Las tablas C.4 y C.5 se han construido programando

en Matlabr la resolucion numerica de la ecuacion (B.3) en el primer caso y calculando el

valor de k a partir de (B.4) con la funcion nctinv en el segundo caso.

306 Tablas

u 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

0.0 0.50000 0.50399 0.50798 0.51197 0.51595 0.51994 0.52392 0.52790 0.53188 0.53586

0.1 0.53983 0.54380 0.54776 0.55172 0.55567 0.55962 0.56356 0.56749 0.57142 0.57535

0.2 0.57926 0.58317 0.58706 0.59095 0.59483 0.59871 0.60257 0.60642 0.61026 0.61409

0.3 0.61791 0.62172 0.62552 0.62930 0.63307 0.63683 0.64058 0.64431 0.64803 0.65173

0.4 0.65542 0.65910 0.66276 0.66640 0.67003 0.67364 0.67724 0.68082 0.68439 0.68793

0.5 0.69146 0.69497 0.69847 0.70194 0.70540 0.70884 0.71226 0.71566 0.71904 0.72240

0.6 0.72575 0.72907 0.73237 0.73565 0.73891 0.74215 0.74537 0.74857 0.75175 0.75490

0.7 0.75804 0.76115 0.76424 0.76730 0.77035 0.77337 0.77637 0.77935 0.78230 0.78524

0.8 0.78814 0.79103 0.79389 0.79673 0.79955 0.80234 0.80511 0.80785 0.81057 0.81327

0.9 0.81594 0.81859 0.82121 0.82381 0.82639 0.82894 0.83147 0.83398 0.83646 0.83891

1.0 0.84134 0.84375 0.84614 0.84849 0.85083 0.85314 0.85543 0.85769 0.85993 0.86214

1.1 0.86433 0.86650 0.86864 0.87076 0.87286 0.87493 0.87698 0.87900 0.88100 0.88298

1.2 0.88493 0.88686 0.88877 0.89065 0.89251 0.89435 0.89617 0.89796 0.89973 0.90147

1.3 0.90320 0.90490 0.90658 0.90824 0.90988 0.91149 0.91309 0.91466 0.91621 0.91774

1.4 0.91924 0.92073 0.92220 0.92364 0.92507 0.92647 0.92785 0.92922 0.93056 0.93189

1.5 0.93319 0.93448 0.93574 0.93699 0.93822 0.93943 0.94062 0.94179 0.94295 0.94408

1.6 0.94520 0.94630 0.94738 0.94845 0.94950 0.95053 0.95154 0.95254 0.95352 0.95449

1.7 0.95543 0.95637 0.95728 0.95818 0.95907 0.95994 0.96080 0.96164 0.96246 0.96327

1.8 0.96407 0.96485 0.96562 0.96638 0.96712 0.96784 0.96856 0.96926 0.96995 0.97062

1.9 0.97128 0.97193 0.97257 0.97320 0.97381 0.97441 0.97500 0.97558 0.97615 0.97670

2.0 0.97725 0.97778 0.97831 0.97882 0.97932 0.97982 0.98030 0.98077 0.98124 0.98169

2.1 0.98214 0.98257 0.98300 0.98341 0.98382 0.98422 0.98461 0.98500 0.98537 0.98574

2.2 0.98610 0.98645 0.98679 0.98713 0.98745 0.98778 0.98809 0.98840 0.98870 0.98899

2.3 0.98928 0.98956 0.98983 0.99010 0.99036 0.99061 0.99086 0.99111 0.99134 0.99158

2.4 0.99180 0.99202 0.99224 0.99245 0.99266 0.99286 0.99305 0.99324 0.99343 0.99361

2.5 0.99379 0.99396 0.99413 0.99430 0.99446 0.99461 0.99477 0.99492 0.99506 0.99520

2.6 0.99534 0.99547 0.99560 0.99573 0.99585 0.99598 0.99609 0.99621 0.99632 0.99643

2.7 0.99653 0.99664 0.99674 0.99683 0.99693 0.99702 0.99711 0.99720 0.99728 0.99736

2.8 0.99744 0.99752 0.99760 0.99767 0.99774 0.99781 0.99788 0.99795 0.99801 0.99807

2.9 0.99813 0.99819 0.99825 0.99831 0.99836 0.99841 0.99846 0.99851 0.99856 0.99861

3.0 0.99865 0.99869 0.99874 0.99878 0.99882 0.99886 0.99889 0.99893 0.99896 0.99900

3.1 0.99903 0.99906 0.99910 0.99913 0.99916 0.99918 0.99921 0.99924 0.99926 0.99929

3.2 0.99931 0.99934 0.99936 0.99938 0.99940 0.99942 0.99944 0.99946 0.99948 0.99950

3.3 0.99952 0.99953 0.99955 0.99957 0.99958 0.99960 0.99961 0.99962 0.99964 0.99965

3.4 0.99966 0.99968 0.99969 0.99970 0.99971 0.99972 0.99973 0.99974 0.99975 0.99976

Tabla I

Función de distribución normal F(u)

Tabla C.1: Valores de la funcion de distribucion de U ∼ N(0, 1)

Tablas 307

k 0.010 0.025 0.050 0.100 0.900 0.950 0.975 0.990 0.999

1 0.0002 0.0010 0.0039 0.0158 2.7055 3.8415 5.0239 6.6349 10.8276

2 0.0201 0.0506 0.1026 0.2107 4.6052 5.9915 7.3778 9.2103 13.8155

3 0.1148 0.2158 0.3518 0.5844 6.2514 7.8147 9.3484 11.3449 16.2662

4 0.2971 0.4844 0.7107 1.0636 7.7794 9.4877 11.1433 13.2767 18.4668

5 0.5543 0.8312 1.1455 1.6103 9.2364 11.0705 12.8325 15.0863 20.5150

6 0.8721 1.2373 1.6354 2.2041 10.6446 12.5916 14.4494 16.8119 22.4577

7 1.2390 1.6899 2.1673 2.8331 12.0170 14.0671 16.0128 18.4753 24.3219

8 1.6465 2.1797 2.7326 3.4895 13.3616 15.5073 17.5345 20.0902 26.1245

9 2.0879 2.7004 3.3251 4.1682 14.6837 16.9190 19.0228 21.6660 27.8772

10 2.5582 3.2470 3.9403 4.8652 15.9872 18.3070 20.4832 23.2093 29.5883

11 3.0535 3.8157 4.5748 5.5778 17.2750 19.6751 21.9200 24.7250 31.2641

12 3.5706 4.4038 5.2260 6.3038 18.5493 21.0261 23.3367 26.2170 32.9095

13 4.1069 5.0088 5.8919 7.0415 19.8119 22.3620 24.7356 27.6882 34.5282

14 4.6604 5.6287 6.5706 7.7895 21.0641 23.6848 26.1189 29.1412 36.1233

15 5.2293 6.2621 7.2609 8.5468 22.3071 24.9958 27.4884 30.5779 37.6973

16 5.8122 6.9077 7.9616 9.3122 23.5418 26.2962 28.8454 31.9999 39.2524

17 6.4078 7.5642 8.6718 10.0852 24.7690 27.5871 30.1910 33.4087 40.7902

18 7.0149 8.2307 9.3905 10.8649 25.9894 28.8693 31.5264 34.8053 42.3124

19 7.6327 8.9065 10.1170 11.6509 27.2036 30.1435 32.8523 36.1909 43.8202

20 8.2604 9.5908 10.8508 12.4426 28.4120 31.4104 34.1696 37.5662 45.3147

21 8.8972 10.2829 11.5913 13.2396 29.6151 32.6706 35.4789 38.9322 46.7970

22 9.5425 10.9823 12.3380 14.0415 30.8133 33.9244 36.7807 40.2894 48.2679

23 10.1957 11.6886 13.0905 14.8480 32.0069 35.1725 38.0756 41.6384 49.7282

24 10.8564 12.4012 13.8484 15.6587 33.1962 36.4150 39.3641 42.9798 51.1786

25 11.5240 13.1197 14.6114 16.4734 34.3816 37.6525 40.6465 44.3141 52.6197

26 12.1981 13.8439 15.3792 17.2919 35.5632 38.8851 41.9232 45.6417 54.0520

27 12.8785 14.5734 16.1514 18.1139 36.7412 40.1133 43.1945 46.9629 55.4760

28 13.5647 15.3079 16.9279 18.9392 37.9159 41.3371 44.4608 48.2782 56.8923

29 14.2565 16.0471 17.7084 19.7677 39.0875 42.5570 45.7223 49.5879 58.3012

30 14.9535 16.7908 18.4927 20.5992 40.2560 43.7730 46.9792 50.8922 59.7031

Cuantiles de la distribución c2(k)

Tabla II

Tabla C.2: Valores de la funcion de cuantiles de una Va χ2(k)

308 Tablas

k 0.9 0.95 0.975 0.99 0.995

1 3.0777 6.3138 12.7062 31.8205 63.6567

2 1.8856 2.9200 4.3027 6.9646 9.9248

3 1.6377 2.3534 3.1824 4.5407 5.8409

4 1.5332 2.1318 2.7764 3.7469 4.6041

5 1.4759 2.0150 2.5706 3.3649 4.0321

6 1.4398 1.9432 2.4469 3.1427 3.7074

7 1.4149 1.8946 2.3646 2.9980 3.4995

8 1.3968 1.8595 2.3060 2.8965 3.3554

9 1.3830 1.8331 2.2622 2.8214 3.2498

10 1.3722 1.8125 2.2281 2.7638 3.1693

11 1.3634 1.7959 2.2010 2.7181 3.1058

12 1.3562 1.7823 2.1788 2.6810 3.0545

13 1.3502 1.7709 2.1604 2.6503 3.0123

14 1.3450 1.7613 2.1448 2.6245 2.9768

15 1.3406 1.7531 2.1314 2.6025 2.9467

16 1.3368 1.7459 2.1199 2.5835 2.9208

17 1.3334 1.7396 2.1098 2.5669 2.8982

18 1.3304 1.7341 2.1009 2.5524 2.8784

19 1.3277 1.7291 2.0930 2.5395 2.8609

20 1.3253 1.7247 2.0860 2.5280 2.8453

21 1.3232 1.7207 2.0796 2.5176 2.8314

22 1.3212 1.7171 2.0739 2.5083 2.8188

23 1.3195 1.7139 2.0687 2.4999 2.8073

24 1.3178 1.7109 2.0639 2.4922 2.7969

25 1.3163 1.7081 2.0595 2.4851 2.7874

26 1.3150 1.7056 2.0555 2.4786 2.7787

27 1.3137 1.7033 2.0518 2.4727 2.7707

28 1.3125 1.7011 2.0484 2.4671 2.7633

29 1.3114 1.6991 2.0452 2.4620 2.7564

30 1.3104 1.6973 2.0423 2.4573 2.7500

40 1.3031 1.6839 2.0211 2.4233 2.7045

60 1.2958 1.6706 2.0003 2.3901 2.6603

120 1.2886 1.6577 1.9799 2.3578 2.6174

500 1.2832 1.6479 1.9647 2.3338 2.5857

Tabla III

Cuantiles de la distribución t(k)

Tabla C.3: Valores de la funcion de cuantiles de una Va t(k)

Tablas 309

Tabla C.4: Factores de tolerancia bilateral para la normal

310 Tablas

Tabla C.5: Factores de tolerancia unilateral para la normal

Indice alfabetico

Acotacion de Tchebychev, 80

Aleatorio, 15

Bayes, formula, 26

Bernoulli, distribucion, 40

Binomial, distribucion, 40

Box-plot, 183

Cauchy, distribucion, 45

Cauchy-Schwarz, desigualdad, 82

Convergencia en probabilidad, 113

Correccion de continuidad, 93

Correlacion, coeficiente, 83

Cota de Frechet-Cramer-Rao, 118

Covarianza, 81

Cuantil, 44

Cuantil empırico, 177

Cuartiles, 178

Desviacion tıpica, 76

Diagramas de caja, 183

Equiprobabilidad, 21

cuadratico medio, 118

de estimacion, 116

Espacio muestral, 18

Especificidad, 26

Esperanza

condicional, 83

de la binomial, 67, 75

de la dist. de Bernoulli, 67

de la dist. de Poisson, 68

de la dist. geometrica, 68

de la exponencial, 68

de la normal, 69

de una combinacion lineal, 75

de una funcion de una variable, 73

de una funcion de varias variables, 74

definicion, 67

linealidad, 74

Estadıstico, 110

Estadıstico de prueba, 150

Estimacion, 116

Estimacion

de mınimos cuadrados, 191

Estimador

consistente, 119

de mınimos cuadrados, 195

eficiente, 118

insesgado, 116

insesgado en el lımite, 120

sesgado, 116

Estimador puntual, 115

Experimentos

aleatorios, 15

independientes, 30

Exponencial, distribucion, 45

Fisher (cantidad de informacion), 118

Forma multiplicativa del TCL, 102

Funcion

de cuantiles, 44

de cuantiles empırica, 177

de densidad condicional, 53

de densidad conjunta, 51

de densidad de probabilidad, 42

312 INDICE ALFABETICO

de densidad empırica, 173

de densidad marginal, 52

de distribucion, 38

de distribucion conjunta, 49

de distribucion empırica, 167, 168

de distribucion marginal, 49

de masa condicional, 51

de masa conjunta, 49

de masa de probabilidad, 39

de masa empırica, 170

de masa marginal, 50

de regresion lineal, 205

de una variable aleatoria, 56

de verosimilitud, 121

Gauss, distribucion, 45

Geometrica, distribucion, 40

Grafico

cuantil-cuantil, 178

Hipotesis

alternativa, 149

nula, 149

Histograma, 173

Intervalo

aleatorio, 135

de confianza, 135

de confianza asintotico, 142

de confianza en dist. normales, 137

de confianza para β0, 197

de confianza para β0 + β1x, 198

de confianza para β1, 197

de confianza para p, 145

de tolerancia, 147

de tolerancia para Y (x), 200

Lımite

de tolerancia inferior, 148

de tolerancia superior, 148

inferior de confianza, 137

inferior de probabilidad, 137

superior de confianza, 137

superior de probabilidad, 137

Metodo

de los momentos, 126

de maxima verosimilitud, 121

estadıstico, 107

pivotal, 135

experimental, 69

muestral, 110

teorica, 67

Mediana, 44, 181

Modelo

lineal multiple, 202

lineal simple, 189

Momento

muestral, 126

teorico, 126

Muestra, 107

Muestra

aleatoria simple, 109

centro, 181

ordenada, 168

rango, 182

significativa al nivel α, 153

simetrıa, 182

tamano, 140

valores atıpicos, 183

Muestreo

de poblaciones finitas, 146

sin reemplazamiento, 128

Nivel de significacion, 152

Normal, distribucion, 45

Numerable, conjunto, 19

Paradoja

del tiempo de espera, 100

Percentiles, 178

INDICE ALFABETICO 313

Periodo de retorno, 71

Poblacion, 107

Poisson, distribucion, 41

Probabilidad

asignacion, 21

condicional, 23

definicion, 20

distribucion, 20, 36, 38

experimental, 15

ley, 38

total, formula, 25

Procesos de Poisson, 98, 99

Qq-plot, 178

Rango intercuartılico, 182

Region crıtica, 150

Regresion lineal simple, 204

Reproductividad, 90

Sensibilidad, 26

Sesgo de un estimador, 116

Suceso, 18

Suceso

elemental, 19

imposible, 19

seguro, 19

Sucesos

excluyentes, 19

incompatibles, 19

independientes, 28

Teorema

central del lımite, 92

Tiempo de espera, 71

Trinomial, distribucion, 50

Uniforme, distribucion, 39, 44

Valor predicitivo

negativo, 27

positivo, 27

Variabilidad

experimental, 78

Variable aleatoria

bidimensional, 48

bidimensional continua, 51

bidimensional discreta, 49

condicional continua, 53

condicional discreta, 50

continua, 37

de Gauss, 89

de Poisson, 96

definicion, 35

discreta, 37

Ji-cuadrado, 103

lognormal, 102

mixta, 46

normal, 89

Variables aleatorias

incorreladas, 80

independientes, 54, 56

Varianza

de la binomial, 81

de la distrib. de Bernoulli, 77

de la exponencial, 78

de un estimador, 117

de una c. l. de Vas. idptes., 80

de una c.l. de Vas., 82

definicion, 76

muestral, 111

Probabilidad y Estad...

Documents

Transcript of Probabilidad y Estad...

Equilibrium states Letf : M → M continuous transformation M compact space φ : M → continuous function Topological pressure P( f,φ) of f for the potential.

M Π M I G R G H [ Q

AHP-400S / AHP-500-3S - alpha-pack.com.hkalpha-pack.com.hk/wp-content/uploads/2016/02/AHP-400S-Eng.pdf · Pulling wheels open by means of pneumatic switches. The sealing wheels open

E XPECTATION M AXIMIZATION M EETS S AMPLING IN M OTIF F INDING Zhizhuo Zhang.

v=0 M v 2μ gL m M m

Discussion Carbohydrates. Nomenclature (D)-glucose (2R,3S,4R,5R)-2,3,4,5,6-pentahydroxyhexanal Dextrose α-pyranose form: α-(D)-glucopyranose β-pyranose.

EISC Máquinas de Turing - cime.cl · L es un lenguaje recursivamente enumerable (RE) si existe una MT M tal que L(M) = L. EISC Máquinas de Turing Definición 5 Sea M una máquina

Tablas estad´ısticas - Universidade da Coruñadm.udc.es/profesores/ricardo/Archivos/tablas_estadisticas.pdf · Distribución binomial. Función de masa de probabilidad (continuación).

M&M FRANGOS ENG. & CONTR. LTD

YCP10 - yamaha-motor-im.de · 65 Grad) und die Geschwindigkeit werden programm-gesteuert so eingerichtet, dass für jede verwendete Lotpaste optimale Bedingungen herrschen. 3S-Kopf:

Queues with Impatient Customers M/M/N+M (G) Palm/Erlang …iew3.technion.ac.il/serveng/References/5_Erlang_A.pdf · The Erlang-A (Palm, M/M/n+M) Model Simplest model with abandonment,

TheEssentialGuideTo QueueingTheory - Percona · W q P (W q > 0) = A M M ! M M Ä A M Ä 1 i= 1 A i i! + A M M ! M M Ä A TheEssentialGuideTo QueueingTheory. MeettheAuthor BaronSchwartz

PS-3S/4S/5S - Omron

3 . * / # ( $ % * / - / - . ' . * - · % 0 & $ * 4 o e o m s ã % ` o g m q r m s 5 o @ m s k = e z r m s p = o v [ - r m g v b \ = b n g h m g k x k \ = q t ä u t m p m k b v m

DISTRIBUSI TEGANGAN - Universitas Brawijaya · CONTOH SOAL HITUNG TEGANGAN DI TT A 1,5 M 660 kN 1,5 m 1,5 m 48 3 3 660 0,005 . 0,005 . . x p q M = ∆ = 3m A A 1,5 m 1,5 m =17 ,6kN

KEMIJA Rezultati državne mature 2010. - …dokumenti.ncvvo.hr/Dokumenti_centra/DM2010/Metrijska/kem.pdf · konfiguraciju valentne ljuske 3s² 3p³? M. 0,72: M (O) 0,60: ID. 0,53:

TEMA 2 CARACTER ISTICAS DE VARIABLES ALEATORIAS ...proman/ProbII/2016-2017/PDF/Tema2.pdf · CALCULO DE PROBABILIDADES II Grado en Estad stica TEMA 2 CARACTER ISTICAS DE VARIABLES

UNIVERSIDADE FEDERAL DE MINAS GERAIS CURSO DE ... · 2.2.5.1 Hidratação dos Silicatos (C 3S e βC 2S) ..... 27 2.2.5.2 Hidratação dos Aluminatos (C 3A e C 4AF ... Tabela 2.5:

Estadística II Tema 1: Distribución normal multivarianteverso.mat.uam.es/~joser.berrendero/cursos/Matematicas-e2/e2-tema1... · Estad stica II Tema 1: Distribuci on normal multivariante

M o m e n t u m Momentum is… Inertia in motion Mass x Velocity.