Distribuciones de probabilidad

27
1 Tema: Distribuciones de probabilidad Docente: A. Javier Pruñonosa Santana Datos de contacto: E-mail: [email protected] Distribución normal, binomial y de poisson

description

Introducción a bioestadística inferencial

Transcript of Distribuciones de probabilidad

Page 1: Distribuciones de probabilidad

1

Tema: Distribuciones de probabilidad

Docente: A. Javier Pruñonosa Santana

Datos de contacto: E-mail: [email protected]

Distribución normal, binomial y de poisson

Page 2: Distribuciones de probabilidad

2

1.- Conceptos de interés

Page 3: Distribuciones de probabilidad

3

Estadística inferencial

PoblaciónParámetros (μ, σ, etc)

MuestraEstimadores

(χ, s, etc)

Muestreo aleatorio

Inferencia

Estimador: Función de los valores de la muestra que poseemos que permiten obtener un valor aproximado de alguna característica de la población de la que se ha extraído la muestra (principio de los métodos paramétricos en bioestadística)

Parámetro: El valor de esa característica en la población

Page 4: Distribuciones de probabilidad

4

Distribución empírica Distribución de probabilidad

Datos observados (muestra) Probabilidad teórica (población)

12111098765432 12111098765432

-La mayoría de las distribuciones de probabilidad son descritas por uno o más parámetros (medias, desviaciones estándar, varianza…)

-En estadística muchas veces asumimos que las muestras proceden de una población que sigue una determinada distribución teórica de probabilidad (binomial, poisson, normal…), lo cual no se puede comprobar de manera definitiva.

¿Quién ha comprobado que la probabilidad de que salga cara al tirar una moneda al aire sea realmente = 0,5?

¿Por qué estas diferencias entre lo observado y lo esperado?

Page 5: Distribuciones de probabilidad

5

Tipos de distribuciones más utilizadas

Distribución binomial

Distribución de Poisson

oPara variables categóricas o cualitativas*. ¿Ej?

Distribución normal o de Gauss

Para variables numéricas o cuantitativas continuas*. ¿Ej?

Edad, TA, bilirrubina sérica, glicemia, peso, altura, etc.

Sexo, estado de salud, percepción de calidad, etc.

* Ojo: Recordar que estamos hablando de las variables dependientes o de respuesta

Page 6: Distribuciones de probabilidad

6

2.- Distribución binomial

Hace referencia a sucesos en los que sólo existen dos posibilidades

Se trata de sucesos mutuamente excluyentes

Ej: El lanzamiento de una moneda al aire; que un paciente padezca o no de una enfermedad; Que un test de positivo o no; Lograr o no un resultado esperado…

En todos estos planteamientos, no pueden ocurrir ambas situaciones al mismo tiempo (que el paciente esté sano y enfermo, o que la moneda caiga águila y cruz en un mismo lanzamiento)

Page 7: Distribuciones de probabilidad

7

n!p(k) = π k (1- π ) n-k (n – k )! k !

Ecuación de la binomial

k = Número de éxitos o sucesos favorables;

n = Número de intentos o ensayos;

π = Probabilidad esperada o teórica de éxito

Ejemplo: Si en una población la probabilidad de fumar es del 20% ¿Cuál es la probabilidad de que al entrevistar a diez personas tres sean fumadoras?

K= 3

n = 10

π = 0,20,2013

10!p(k=3) = 0,2 3 (0,8 )7 = 7! 3 !

Aplicando la fórmula diremos que esperamos que esto ocurra en algo más del 20% de las ocasiones

Ojo: Recordemos que 3! (tres factorial) = 3 x 2 x 1

Esperanza matemática (~media) = nπ Varianza = nπ (1- π)

Page 8: Distribuciones de probabilidad

8

0,00

0,05

0,10

0,15

0,20

0,25

0,30

0,35

0 1 2 3 4 5 6 7 8 9 10

k n pi prob (k)Prob acum

0 10 0,2 0,10737 0,1074

1 10 0,2 0,26844 0,3758

2 10 0,2 0,30199 0,6778

3 10 0,2 0,20133 0,8791

4 10 0,2 0,08808 0,9672

5 10 0,2 0,02642 0,9936

6 10 0,2 0,00551 0,9991

7 10 0,2 0,00079 0,9999

8 10 0,2 0,00007 1,0000

9 10 0,2 0,00000 1,0000

10 10 0,2 0,00000 1,0000

Probabilidad de encontrar de 0 a 10 fumadores entre 10 personas (prevalencia de fumadores = 0,2)

La distribución binomial es asimétrica, pero a medida que la proporción teórica se aproxima a 0,5 (o aumenta el tamaño de la muestra) se va haciendo más simétrica.

Veamos que pasa si graficamos los resultados del ejercicio previo

asumiendo π = 0,5 0,00

0,05

0,10

0,15

0,20

0,25

0,30

0 1 2 3 4 5 6 7 8 9 10

Page 9: Distribuciones de probabilidad

9

3.- Distribución Poisson

Cuando una distribución binomial (sucesos dicotómicos y mutuamente excluyentes) tiene un tamaño n grande (n ≥ 100) y la característica de interés es poco frecuente (π ≤ 0,05) existe una buena aproximación a la distribución binomial, que es la distribución de Poisson.

λ k

P (k) = e - λ

k!

Donde λ = n π e = 2,71828 (base de los logaritmos naturales)

μ = σ2 = λ

Para aplicar la distribución de Poisson nos basta con saber dos datos:

-Número de sucesos observados = k

- Número de sucesos esperados = λ

Page 10: Distribuciones de probabilidad

10

Recordar que:

El procedimiento de calcular lo esperado por la distribución de Poisson se podrá aplicar siempre que se cumplan dos condiciones:

-Tamaño de muestra grande (n ≥ 100)

- Suceso poco frecuente (π ≤ 0,05)

“Cuanto más frecuente sea el suceso y más pequeña la muestra, peor será la aproximación. En cambio, la binomial siempre puede aplicarse y proporciona datos exactos”

Tarea.- Calcular la posibilidad de encontrar entre 200 personas, 1 paciente con una enfermedad cuya probabilidad (π) es de 0,01.

Page 11: Distribuciones de probabilidad

11

Parámetros

Binomial Poisson

Error de la aproximación

de Poissonn k pi

50 1 0,1 0,0286 0,0337 0,0051

50 2 0,1 0,0779 0,0842 0,0063

50 5 0,1 0,1849 0,1755 -0,0095

100 1 0,1 0,0003 0,0005 0,0002

100 2 0,1 0,0016 0,0023 0,0006

100 5 0,1 0,0339 0,0378 0,0040

100 1 0,05 0,0312 0,0337 0,0025

100 2 0,05 0,0812 0,0842 0,0030

100 5 0,05 0,1800 0,1755 -0,0046

170 2 0,05 0,0065 0,0074 0,0009

170 5 0,05 0,0735 0,0752 0,0017

170 10 0,05 0,1130 0,1104 -0,0026

170 0 0,01 0,1811 0,1827 0,0016

170 2 0,01 0,2655 0,2640 -0,0015

Ejemplos de supuestos calculados por ambos métodos (binomial y Poisson), junto con el error que se comete al utilizar la aproximación más simple y menos exacta, que es la Poisson.

Criterios para la aplicación de la distribución de Poisson:

-Tamaño de muestra grande (n ≥ 100)

- Suceso poco frecuente (π ≤ 0,5)

Page 12: Distribuciones de probabilidad

12

4.- Distribución normal

Si tiramos dos dados unas mil veces, obtendríamos una gráfica similar a esta.

¿Por qué sucede esto?

¿Por qué la forma de campana?

¿Por qué los resultados 2 y 12 para x, son tan poco frecuentes?

“Siempre que existen muchos factores independientes que determinan un resultado, los valores extremos no suelen darse practicamente nunca en la realidad (ver Teorema central del límite)”, pues tienen que coincidir muchos factores independientes para que se den estos resultados”

¿Ejemplos de variables donde esta situación se cumpla?

Page 13: Distribuciones de probabilidad

13

Distribución normal o campana de GaussAspectos a tener en cuenta:

-La probabilidad de un suceso concreto es = 0;

-Permite calcular la probabilidad de ocurrencia de intervalos de valores debajo de la curva;

- La suma de todo el área bajo la curva tiene una probabilidad del 100%;-La altura de la ordenada corresponde a la densidad de probabilidad (p de que ocurra un intervalo específico de valores;

-Es una distribución continua: es la indicada para datos que siguen una escala, en teoría, continua (peso, talla, edad, colesterol, TA, bilirrubina, etc);

Page 14: Distribuciones de probabilidad

14

Distribución normal o campana de Gauss- La distribución normal teórica nunca se da exactamente, sólo hay aproximaciones a ella;

- Se expresa a través de la fórmula matemática

x E N (μ ; σ2 )

- El eje de las abscisas se extiende desde menos infinito hasta mas infinito;

Posee la ventaja de que otras distribuciones (binomial, poisson) se aproximan a ella bajo ciertas condiciones (ver más adelante);

También se aproximan a la normal la suma de varias distribuciones (muestras) uniformes, siempre que las muestras tengan tamaño suficiente (n > 30)

Page 15: Distribuciones de probabilidad

15

Características de a distribución normal

Coincide en ella la media, moda y mediana;

A +/- 1.96 desviaciones estándar de la media se encuentra el 95 % de la población (Por redondeo se usa 2)

A +/- 2.58 desviaciones estándar de la media se encuentra el 99 % de la población. (Por redondeo se usa 3)

AK QD

Page 16: Distribuciones de probabilidad

16

Tipificar o estandarizar la distribución normal

Consiste en transformar una determinada distribución normal en otra que tenga una media igual a 0 y una desviación estándar igual a 1

x - μ z = σ

Siendo x la antigua variable; z la nueva variable que sigue una distribución normal de media = 0 y desviación estándar = 1

Para volver la transformación a su estado original, utilizaremos la siguiente fórmula X = μ + σz

Eje “z”

Page 17: Distribuciones de probabilidad

17

Veamos algunos ejemplos sobre la utilidad de este procedimiento

Page 18: Distribuciones de probabilidad

18

Ejercicio: Si en una población normal, la edad media es de 40 años y la varianza de la edad es de 25, ¿cuál es la probabilidad de encontrar un individuo que tenga una edad superior a 30 años e inferior a 50 años?

x - μ z = σ

Paso 1: Tipificar la variable;

Paso 2: Identificar en la tabla de distribución “z” para variable normal (0 ; 1) el valor para los valores calculados;

Paso 3: Resuelva el ejercicio apoyándose en la gráfica de distribución normal

z (30) = (30 – 40) / √ 25 = -10 / 5 = - 2

0,0228

z (50) = (50 – 40) / √ 25 = 10 / 5 = 2

0,9772p(30 a 50) = 0,9772 – 0,0228 = 0,9544

Page 19: Distribuciones de probabilidad

19

X = μ + σz

Para este mismo ejercicio:

Calcule el rango de edades comprendido por debajo del primer cuartil.

Page 20: Distribuciones de probabilidad

20

Page 21: Distribuciones de probabilidad

21

5.- Teorema del límite central

“… “… aunque los valores que presenten los individuos de una población aunque los valores que presenten los individuos de una población no sigan una distribución normal, la distribución de los estimadores que no sigan una distribución normal, la distribución de los estimadores que se calculan en sucesivas muestras que se obtengan de estas se calculan en sucesivas muestras que se obtengan de estas poblaciones si que seguirán aproximadamente una distribución normal”poblaciones si que seguirán aproximadamente una distribución normal”

La única condición requerida es que la muestra sea grande y sea extraída de forma aleatoria de la población.

n Aproximación a la normal*

>60 Muy buena

30 – 60 Aceptable

< 30 ¿?

*Nos referimos a la adaptación de la distribución muestral de estimadores

Page 22: Distribuciones de probabilidad

22

Ej. Ilustrativo

Supongamos que tenemos a la mano la distribución de colesterol en sangre de la población Mexicana en una base de datos, y esta muestra una media = 200 mg/dl, con una desviación estándar de 35 mg/dl, mostrando una asimetría positiva.

Una persona se da a la tarea de extraer una muestra de tamaño n= 30 de esta base de datos y calcular la media de colesterol. Este procedimiento lo repite a diario tomando para ello nuevas muestras n=30.

Al final de 1000 días tendrá el registro de 1000 medias calculadas de colesterol, de 1000 muestras de n=30 Mexicanos ----- Distribución muestral de mediasDistribución muestral de medias, con media = 199,9media = 199,9 y desviación estándar = 6,38desviación estándar = 6,38 (simulación)

10 muestras 600 muestras 1000 muestras

Page 23: Distribuciones de probabilidad

23

Hallazgos

10 muestras 600 muestras 1000 muestras

-El colesterol en la población no sigue una distribución normal, pero la distribución muestral de las medias de colesterol si que la sigue;

-La media de las muestras es prácticamente la misma que la media poblacional (199,9 mg/dl ~ 200 mg/dl);

- Se ha reducido mucho la desviación estándar: en la población la desviación estándar = 35 mg/dl, en la distribución muestral = 6,38 mg/dl (error estándar de la mediaerror estándar de la media).

La misma se puede calcular a partir de s / √n = (35 mg/dl) / √ 30 = 6,39 (6,39 mg/dl ~ 6,38 mg/dl)

“Al hablar de individuos de una muestra, un valor z se interpretaba como el número de desviaciones estándar que un sujeto se separaba de la media; ahora, al hablar de muestras, un valor z se interpreta como el número de errores estándar que una media muestral se separa de la media poblacional”.

Page 24: Distribuciones de probabilidad

24

Esto posibilita que se puedan realizar inferencias estadísticas a partir de muestras usando las propiedades de la distribución normal

(a partir del cálculo de la media muestral y el error estándar de la media)

El 95% de las medias calculadas en las muestras estarán aproximadamente en el intervalo ± 2 errores estándar de la media poblacional

A +/- 1.96 errores estándar de la media poblacional se encuentra el 95 % de las medias muestrales.

A +/- 2.58 errores estándar de la media poblacional se encuentra el 99 % de las medias muestrales.

Page 25: Distribuciones de probabilidad

25

¿Cómo determinamos si los valores de una variable sigue una distribución normal?

Test de normalidad: Test Shapiro-Wilk W; Test Shapiro-Francia W; Test D´Agostino; Test de Kolmogorow-Smirnov; Test de Lillierfors.

Softwares de procesamiento de datos

Una regla fácil de aplicar, y que permite aceptar que una variable sigue una distribución normal, es verificar que se cumplan 3 requisitos:

1º Prácticamente el 100% de los valores deben de estar entre la media y 3 desviaciones estándar por encima y por debajo;

2º La distribución debe ser simétrica;

3º La distribución debe ser mesocúrtica;

Tarea: ¿Qué significa? ¿Cómo se comprueba?

Page 26: Distribuciones de probabilidad

26

Aproximación a las distribuciones Binomial y Poisson usando la distribución normal

Todo se basa en la utilización de la fórmula

Ejercicio 5.e

Page 27: Distribuciones de probabilidad

27

Ahora recién iniciamos con lo más interesante Ahora recién iniciamos con lo más interesante de todo este asunto!de todo este asunto!

Fin de la presentación