Distribuciones de probabilidad

Post on 07-Jun-2015

1.755 views 3 download

description

Introducción a bioestadística inferencial

Transcript of Distribuciones de probabilidad

1

Tema: Distribuciones de probabilidad

Docente: A. Javier Pruñonosa Santana

Datos de contacto: E-mail: momotombo26@gmail.com

Distribución normal, binomial y de poisson

2

1.- Conceptos de interés

3

Estadística inferencial

PoblaciónParámetros (μ, σ, etc)

MuestraEstimadores

(χ, s, etc)

Muestreo aleatorio

Inferencia

Estimador: Función de los valores de la muestra que poseemos que permiten obtener un valor aproximado de alguna característica de la población de la que se ha extraído la muestra (principio de los métodos paramétricos en bioestadística)

Parámetro: El valor de esa característica en la población

4

Distribución empírica Distribución de probabilidad

Datos observados (muestra) Probabilidad teórica (población)

12111098765432 12111098765432

-La mayoría de las distribuciones de probabilidad son descritas por uno o más parámetros (medias, desviaciones estándar, varianza…)

-En estadística muchas veces asumimos que las muestras proceden de una población que sigue una determinada distribución teórica de probabilidad (binomial, poisson, normal…), lo cual no se puede comprobar de manera definitiva.

¿Quién ha comprobado que la probabilidad de que salga cara al tirar una moneda al aire sea realmente = 0,5?

¿Por qué estas diferencias entre lo observado y lo esperado?

5

Tipos de distribuciones más utilizadas

Distribución binomial

Distribución de Poisson

oPara variables categóricas o cualitativas*. ¿Ej?

Distribución normal o de Gauss

Para variables numéricas o cuantitativas continuas*. ¿Ej?

Edad, TA, bilirrubina sérica, glicemia, peso, altura, etc.

Sexo, estado de salud, percepción de calidad, etc.

* Ojo: Recordar que estamos hablando de las variables dependientes o de respuesta

6

2.- Distribución binomial

Hace referencia a sucesos en los que sólo existen dos posibilidades

Se trata de sucesos mutuamente excluyentes

Ej: El lanzamiento de una moneda al aire; que un paciente padezca o no de una enfermedad; Que un test de positivo o no; Lograr o no un resultado esperado…

En todos estos planteamientos, no pueden ocurrir ambas situaciones al mismo tiempo (que el paciente esté sano y enfermo, o que la moneda caiga águila y cruz en un mismo lanzamiento)

7

n!p(k) = π k (1- π ) n-k (n – k )! k !

Ecuación de la binomial

k = Número de éxitos o sucesos favorables;

n = Número de intentos o ensayos;

π = Probabilidad esperada o teórica de éxito

Ejemplo: Si en una población la probabilidad de fumar es del 20% ¿Cuál es la probabilidad de que al entrevistar a diez personas tres sean fumadoras?

K= 3

n = 10

π = 0,20,2013

10!p(k=3) = 0,2 3 (0,8 )7 = 7! 3 !

Aplicando la fórmula diremos que esperamos que esto ocurra en algo más del 20% de las ocasiones

Ojo: Recordemos que 3! (tres factorial) = 3 x 2 x 1

Esperanza matemática (~media) = nπ Varianza = nπ (1- π)

8

0,00

0,05

0,10

0,15

0,20

0,25

0,30

0,35

0 1 2 3 4 5 6 7 8 9 10

k n pi prob (k)Prob acum

0 10 0,2 0,10737 0,1074

1 10 0,2 0,26844 0,3758

2 10 0,2 0,30199 0,6778

3 10 0,2 0,20133 0,8791

4 10 0,2 0,08808 0,9672

5 10 0,2 0,02642 0,9936

6 10 0,2 0,00551 0,9991

7 10 0,2 0,00079 0,9999

8 10 0,2 0,00007 1,0000

9 10 0,2 0,00000 1,0000

10 10 0,2 0,00000 1,0000

Probabilidad de encontrar de 0 a 10 fumadores entre 10 personas (prevalencia de fumadores = 0,2)

La distribución binomial es asimétrica, pero a medida que la proporción teórica se aproxima a 0,5 (o aumenta el tamaño de la muestra) se va haciendo más simétrica.

Veamos que pasa si graficamos los resultados del ejercicio previo

asumiendo π = 0,5 0,00

0,05

0,10

0,15

0,20

0,25

0,30

0 1 2 3 4 5 6 7 8 9 10

9

3.- Distribución Poisson

Cuando una distribución binomial (sucesos dicotómicos y mutuamente excluyentes) tiene un tamaño n grande (n ≥ 100) y la característica de interés es poco frecuente (π ≤ 0,05) existe una buena aproximación a la distribución binomial, que es la distribución de Poisson.

λ k

P (k) = e - λ

k!

Donde λ = n π e = 2,71828 (base de los logaritmos naturales)

μ = σ2 = λ

Para aplicar la distribución de Poisson nos basta con saber dos datos:

-Número de sucesos observados = k

- Número de sucesos esperados = λ

10

Recordar que:

El procedimiento de calcular lo esperado por la distribución de Poisson se podrá aplicar siempre que se cumplan dos condiciones:

-Tamaño de muestra grande (n ≥ 100)

- Suceso poco frecuente (π ≤ 0,05)

“Cuanto más frecuente sea el suceso y más pequeña la muestra, peor será la aproximación. En cambio, la binomial siempre puede aplicarse y proporciona datos exactos”

Tarea.- Calcular la posibilidad de encontrar entre 200 personas, 1 paciente con una enfermedad cuya probabilidad (π) es de 0,01.

11

Parámetros

Binomial Poisson

Error de la aproximación

de Poissonn k pi

50 1 0,1 0,0286 0,0337 0,0051

50 2 0,1 0,0779 0,0842 0,0063

50 5 0,1 0,1849 0,1755 -0,0095

100 1 0,1 0,0003 0,0005 0,0002

100 2 0,1 0,0016 0,0023 0,0006

100 5 0,1 0,0339 0,0378 0,0040

100 1 0,05 0,0312 0,0337 0,0025

100 2 0,05 0,0812 0,0842 0,0030

100 5 0,05 0,1800 0,1755 -0,0046

170 2 0,05 0,0065 0,0074 0,0009

170 5 0,05 0,0735 0,0752 0,0017

170 10 0,05 0,1130 0,1104 -0,0026

170 0 0,01 0,1811 0,1827 0,0016

170 2 0,01 0,2655 0,2640 -0,0015

Ejemplos de supuestos calculados por ambos métodos (binomial y Poisson), junto con el error que se comete al utilizar la aproximación más simple y menos exacta, que es la Poisson.

Criterios para la aplicación de la distribución de Poisson:

-Tamaño de muestra grande (n ≥ 100)

- Suceso poco frecuente (π ≤ 0,5)

12

4.- Distribución normal

Si tiramos dos dados unas mil veces, obtendríamos una gráfica similar a esta.

¿Por qué sucede esto?

¿Por qué la forma de campana?

¿Por qué los resultados 2 y 12 para x, son tan poco frecuentes?

“Siempre que existen muchos factores independientes que determinan un resultado, los valores extremos no suelen darse practicamente nunca en la realidad (ver Teorema central del límite)”, pues tienen que coincidir muchos factores independientes para que se den estos resultados”

¿Ejemplos de variables donde esta situación se cumpla?

13

Distribución normal o campana de GaussAspectos a tener en cuenta:

-La probabilidad de un suceso concreto es = 0;

-Permite calcular la probabilidad de ocurrencia de intervalos de valores debajo de la curva;

- La suma de todo el área bajo la curva tiene una probabilidad del 100%;-La altura de la ordenada corresponde a la densidad de probabilidad (p de que ocurra un intervalo específico de valores;

-Es una distribución continua: es la indicada para datos que siguen una escala, en teoría, continua (peso, talla, edad, colesterol, TA, bilirrubina, etc);

14

Distribución normal o campana de Gauss- La distribución normal teórica nunca se da exactamente, sólo hay aproximaciones a ella;

- Se expresa a través de la fórmula matemática

x E N (μ ; σ2 )

- El eje de las abscisas se extiende desde menos infinito hasta mas infinito;

Posee la ventaja de que otras distribuciones (binomial, poisson) se aproximan a ella bajo ciertas condiciones (ver más adelante);

También se aproximan a la normal la suma de varias distribuciones (muestras) uniformes, siempre que las muestras tengan tamaño suficiente (n > 30)

15

Características de a distribución normal

Coincide en ella la media, moda y mediana;

A +/- 1.96 desviaciones estándar de la media se encuentra el 95 % de la población (Por redondeo se usa 2)

A +/- 2.58 desviaciones estándar de la media se encuentra el 99 % de la población. (Por redondeo se usa 3)

AK QD

16

Tipificar o estandarizar la distribución normal

Consiste en transformar una determinada distribución normal en otra que tenga una media igual a 0 y una desviación estándar igual a 1

x - μ z = σ

Siendo x la antigua variable; z la nueva variable que sigue una distribución normal de media = 0 y desviación estándar = 1

Para volver la transformación a su estado original, utilizaremos la siguiente fórmula X = μ + σz

Eje “z”

17

Veamos algunos ejemplos sobre la utilidad de este procedimiento

18

Ejercicio: Si en una población normal, la edad media es de 40 años y la varianza de la edad es de 25, ¿cuál es la probabilidad de encontrar un individuo que tenga una edad superior a 30 años e inferior a 50 años?

x - μ z = σ

Paso 1: Tipificar la variable;

Paso 2: Identificar en la tabla de distribución “z” para variable normal (0 ; 1) el valor para los valores calculados;

Paso 3: Resuelva el ejercicio apoyándose en la gráfica de distribución normal

z (30) = (30 – 40) / √ 25 = -10 / 5 = - 2

0,0228

z (50) = (50 – 40) / √ 25 = 10 / 5 = 2

0,9772p(30 a 50) = 0,9772 – 0,0228 = 0,9544

19

X = μ + σz

Para este mismo ejercicio:

Calcule el rango de edades comprendido por debajo del primer cuartil.

20

21

5.- Teorema del límite central

“… “… aunque los valores que presenten los individuos de una población aunque los valores que presenten los individuos de una población no sigan una distribución normal, la distribución de los estimadores que no sigan una distribución normal, la distribución de los estimadores que se calculan en sucesivas muestras que se obtengan de estas se calculan en sucesivas muestras que se obtengan de estas poblaciones si que seguirán aproximadamente una distribución normal”poblaciones si que seguirán aproximadamente una distribución normal”

La única condición requerida es que la muestra sea grande y sea extraída de forma aleatoria de la población.

n Aproximación a la normal*

>60 Muy buena

30 – 60 Aceptable

< 30 ¿?

*Nos referimos a la adaptación de la distribución muestral de estimadores

22

Ej. Ilustrativo

Supongamos que tenemos a la mano la distribución de colesterol en sangre de la población Mexicana en una base de datos, y esta muestra una media = 200 mg/dl, con una desviación estándar de 35 mg/dl, mostrando una asimetría positiva.

Una persona se da a la tarea de extraer una muestra de tamaño n= 30 de esta base de datos y calcular la media de colesterol. Este procedimiento lo repite a diario tomando para ello nuevas muestras n=30.

Al final de 1000 días tendrá el registro de 1000 medias calculadas de colesterol, de 1000 muestras de n=30 Mexicanos ----- Distribución muestral de mediasDistribución muestral de medias, con media = 199,9media = 199,9 y desviación estándar = 6,38desviación estándar = 6,38 (simulación)

10 muestras 600 muestras 1000 muestras

23

Hallazgos

10 muestras 600 muestras 1000 muestras

-El colesterol en la población no sigue una distribución normal, pero la distribución muestral de las medias de colesterol si que la sigue;

-La media de las muestras es prácticamente la misma que la media poblacional (199,9 mg/dl ~ 200 mg/dl);

- Se ha reducido mucho la desviación estándar: en la población la desviación estándar = 35 mg/dl, en la distribución muestral = 6,38 mg/dl (error estándar de la mediaerror estándar de la media).

La misma se puede calcular a partir de s / √n = (35 mg/dl) / √ 30 = 6,39 (6,39 mg/dl ~ 6,38 mg/dl)

“Al hablar de individuos de una muestra, un valor z se interpretaba como el número de desviaciones estándar que un sujeto se separaba de la media; ahora, al hablar de muestras, un valor z se interpreta como el número de errores estándar que una media muestral se separa de la media poblacional”.

24

Esto posibilita que se puedan realizar inferencias estadísticas a partir de muestras usando las propiedades de la distribución normal

(a partir del cálculo de la media muestral y el error estándar de la media)

El 95% de las medias calculadas en las muestras estarán aproximadamente en el intervalo ± 2 errores estándar de la media poblacional

A +/- 1.96 errores estándar de la media poblacional se encuentra el 95 % de las medias muestrales.

A +/- 2.58 errores estándar de la media poblacional se encuentra el 99 % de las medias muestrales.

25

¿Cómo determinamos si los valores de una variable sigue una distribución normal?

Test de normalidad: Test Shapiro-Wilk W; Test Shapiro-Francia W; Test D´Agostino; Test de Kolmogorow-Smirnov; Test de Lillierfors.

Softwares de procesamiento de datos

Una regla fácil de aplicar, y que permite aceptar que una variable sigue una distribución normal, es verificar que se cumplan 3 requisitos:

1º Prácticamente el 100% de los valores deben de estar entre la media y 3 desviaciones estándar por encima y por debajo;

2º La distribución debe ser simétrica;

3º La distribución debe ser mesocúrtica;

Tarea: ¿Qué significa? ¿Cómo se comprueba?

26

Aproximación a las distribuciones Binomial y Poisson usando la distribución normal

Todo se basa en la utilización de la fórmula

Ejercicio 5.e

27

Ahora recién iniciamos con lo más interesante Ahora recién iniciamos con lo más interesante de todo este asunto!de todo este asunto!

Fin de la presentación