Download - Estadística Bayesiana - eva.fing.edu.uy · PDF file5 4. Conceptos bayesianos básicos 4.1. Teorema de Bayes Sea Y={yy y12,,, ' n} un vector de n observaciones cuya distribución de

Transcript
Page 1: Estadística Bayesiana - eva.fing.edu.uy · PDF file5 4. Conceptos bayesianos básicos 4.1. Teorema de Bayes Sea Y={yy y12,,, ' n} un vector de n observaciones cuya distribución de

ESTADÍSTICA BAYESIANA

NotasÍndice1. INTRODUCCIÓN.............................................................................................................12. ESTADÍSTICA BAYESIANA ............................................................................................23. ¿QUÉ ES LA INFERENCIA BAYESIANA?......................................................................34. CONCEPTOS BAYESIANOS BÁSICOS .........................................................................54.1. Teorema de Bayes ..................................................................................................................................... 54.2. Naturaleza secuencial del teorema de Bayes ............................................................................................ 74.3. Distribución a priori difusa o no informativa ............................................................................................... 74.4. Distribución a priori conjugada ................................................................................................................. 105. INFERENCIA BAYESIANA............................................................................................125.1. Estimación puntual ................................................................................................................................... 125.2. Intervalos de credibilidad o regiones veraces .......................................................................................... 165.3. Prueba de hipótesis para una muestra .................................................................................................... 175.4. Prueba de hipótesis para dos muestras................................................................................................... 186. CONCLUSIONES ..........................................................................................................207. BIBLIOGRAFÍA..............................................................................................................20

1. Introducción

Como anunciaba Lindley en el primer Congreso Internacional de Estadística Bayesiana, falta menos para el2021 año en el que el adjetivo bayesiano para la estadística sería superfluo al ser bayesianas todas lasaproximaciones a la estadística.El objetivo de la estadística, y en particular de la estadística Bayesiana, es proporcionar una metodologíapara analizar adecuadamente la información con la que se cuenta (análisis de datos) y decidir de manerarazonable sobre la mejor forma de actuar (teoría de decisión).

Figura 1. Diagrama de la Estadística

Tipos de inferencia: clásica y bayesiana• La toma de decisiones es un aspecto primordial en la vida de un profesional, por ejemplo, un médico

debe de tomar decisiones.• La metodología estadística clásica se puede ver como un conjunto de recetas que resultan apropiadas

en determinados casos y bajo ciertas condiciones.

Toma dedecisiones

Análisis dedatos

Inferencia Muestreo

Población

Muestra

Page 2: Estadística Bayesiana - eva.fing.edu.uy · PDF file5 4. Conceptos bayesianos básicos 4.1. Teorema de Bayes Sea Y={yy y12,,, ' n} un vector de n observaciones cuya distribución de

2

• Sin embargo, existe una metodología unificada y general que se deriva de analizar el proceso lógicoque debe de seguirse para tomar una decisión (teoría de la decisión), y que incluye como casoparticular al conjunto de recetas clásicas.

• La estadística esta basada en la teoría de probabilidades. Formalmente la probabilidad es una funciónque cumple con ciertas condiciones, pero en general puede entenderse como una medida ocuantificación de la incertidumbre.

• Aunque la definición de función de probabilidad es una, existen varias interpretaciones de laprobabilidad:(a) clásica: Supone que el experimento aleatorio produce resultados igualmente verosímiles (posibles)

y propone como medida de probabilidad el cociente entre los casos favorables y los casos totales,

( )Pr AnAn

=

(b) frecuentista: Supone que un experimento aleatorio puede ser repetido un número infinito de vecesbajo condiciones similares y propone como medida de probabilidad la proporción de veces queocurrió el evento de interés,

( )Pr lim An

nA

n∞=

(c) subjetiva: Es simplemente una medida de la incertidumbre, asociada a un evento, asignada por undecisor. En otras palabras, es un juicio personal sobre la verosimilitud de que ocurra un resultado.

( )Pr A =

• La metodología bayesiana está basada en la interpretación subjetiva de la probabilidad y tiene comopunto central el Teorema de Bayes.

Figura 2. Retrato del Reverendo Thomas Bayes (1702-1761)

2. Estadística bayesiana

El interés por el teorema de Bayes trasciende la aplicación clásica, especialmente cuando se amplía a otrocontexto en el que la probabilidad no se entiende exclusivamente como la frecuencia relativa de un sucesoa largo plazo, sino como el grado de convicción personal acerca de que el suceso ocurra o pueda ocurrir(definición subjetiva de la probabilidad). Afirmaciones del tipo "es muy probable que el partido X gane laspróximas elecciones", "es improbable que Juan haya sido quien llamó por teléfono" o "es probable que seencuentre un tratamiento eficaz para el sida en los próximos cinco años", normales en el lenguaje común,no pueden cuantificarse formalmente; resultan ajenas, por tanto, a una metodología que se desenvuelva enun marco frecuentista. Una cuantificación sobre base subjetiva resulta, sin embargo, familiar y fecunda parael enfoque bayesiano. Al admitir un manejo subjetivo de la probabilidad, el analista bayesiano podrá emitirjuicios de probabilidad sobre una hipótesis H y expresar por esa vía su grado de convicción al respecto,tanto antes como después de haber observado los datos. En su versión más elemental y en este contexto,el teorema de Bayes asume la forma siguiente:

( ) ( )( ) ( )Pr |

Pr | PrPrdatos H

H datos Hdatos

=

Page 3: Estadística Bayesiana - eva.fing.edu.uy · PDF file5 4. Conceptos bayesianos básicos 4.1. Teorema de Bayes Sea Y={yy y12,,, ' n} un vector de n observaciones cuya distribución de

3

La probabilidad a priori de una hipótesis, ( )Pr H , se ve transformada en una probabilidad a posteriori,

( )Pr |H datos , una vez incorporada la evidencia que aportan los datos. El caso considerado se

circunscribe a la situación más simple, aquella en que ( )Pr H representa un número único; sin embargo, sise consiguiera expresar la convicción inicial (y la incertidumbre) mediante una distribución deprobabilidades.Entonces una vez observados los datos, el teorema "devuelve" una nueva distribución, que no es otra cosaque la percepción probabilística original actualizada por los datos.Esta manera de razonar de la inferencia bayesiana, radicalmente diferente a la inferencia clásica ofrecuentista (que desdeña en lo formal toda información previa de la realidad que examina), es sin embargomuy cercana al modo de proceder cotidiano, e inductivo. Debe subrayarse que esta metodología, adiferencia del enfoque frecuentista, no tiene como finalidad producir una conclusión dicotómica (significacióno no significación, rechazo o aceptación, etc.) sino que cualquier información empírica, combinada con elconocimiento que ya se tenga del problema que se estudia, "actualiza" dicho conocimiento, y latrascendencia de dicha visión actualizada no depende de una regla mecánica.Los métodos bayesianos han sido cuestionados argumentando que, al incorporar las creencias oexpectativas personales del investigador, pueden ser caldo de cultivo para cualquier arbitrariedad omanipulación. Se podría argüir, por una parte, que el enfoque frecuentista no está exento de decisionessubjetivas (nivel de significación, usar una o dos colas, importancia que se concede a las diferencias, etc.);de hecho, la subjetividad (algo bien diferente de la arbitrariedad o el capricho) es un fenómeno inevitable,especialmente en un marco de incertidumbre como en el que operan las ciencias biológicas y sociales. Porotra parte, las "manipulaciones" son actos de deshonestidad, que pueden producirse en cualquier caso(incluyendo la posibilidad de que se inventen datos) y que no dependen de la metodología empleada sinode la honradez de los investigadores.Aunque las bases de la estadística bayesiana datan de hace más de dos siglos, no es hasta fechasrecientes cuando empieza a asistirse a un uso creciente de este enfoque en el ámbito de la investigación.Una de las razones que explican esta realidad y que a la vez anuncian un impetuoso desarrollo futuro es laabsoluta necesidad de cálculo computarizado para la resolución de algunos problemas de medianacomplejidad. Hoy ya existe software disponible (BUGS, macros para MINITAB, próxima versión de EPIDATy First Bayes, entre otros) que hace posible operar con estas técnicas y augura el "advenimiento de una eraBayesiana".El proceso intelectual asociado a la inferencia bayesiana es mucho más coherente con el pensamientousual del científico que el que ofrece el paradigma frecuentista. Los procedimientos bayesianos constituyenuna tecnología emergente de procesamiento y análisis de información para la que cabe esperar unapresencia cada vez más intensa en el campo de la aplicación de la estadística a la investigación clínica yepidemiológica.

3. ¿Qué es la inferencia bayesiana?

El marco teórico en que se aplica la inferencia bayesiana es similar a la clásica: hay un parámetropoblacional respecto al cual se desea realizar inferencias y se tiene un modelo que determina laprobabilidad de observar diferentes valores de X, bajo diferentes valores de los parámetros. Sin embargo, ladiferencia fundamental es que la inferencia bayesiana considera al parámetro como una variable aleatoria.Esto parecería que no tiene demasiada importancia, pero realmente si lo tiene pues conduce a unaaproximación diferente para realizar el modelamiento del problema y la inferencia propiamente dicha.Algunos ejemplos que justifican lo anterior son: la verdadera proporción de artículos defectuosos queproduce un proceso de manufactura puede fluctuar ligeramente pues depende de numerosos factores, laverdadera proporción de casas que se pierden por concepto de hipoteca varia dependiendo de lascondiciones económicas, la demanda promedio semanal de automóviles también fluctuará como unafunción de varios factores incluyendo la temporada.En esencia, la inferencia bayesiana esta basada en la distribución de probabilidad del parámetro dado los

datos (distribución a posteriori de probabilidad ( )Pr yθ , en lugar de la distribución de los datos dado el

parámetro. Esta diferencia conduce a inferencias mucho más naturales, lo único que se requiere para elproceso de inferencia bayesiana es la especificación previa de una distribución a priori de probabilidad

Page 4: Estadística Bayesiana - eva.fing.edu.uy · PDF file5 4. Conceptos bayesianos básicos 4.1. Teorema de Bayes Sea Y={yy y12,,, ' n} un vector de n observaciones cuya distribución de

4

( )Pr θ , la cual representa el conocimiento acerca del parámetro antes de obtener cualquier informaciónrespecto a los datos.La noción de la distribución a priori para el parámetro es el corazón del pensamiento bayesiano. El análisisbayesiano hace uso explícito de las probabilidades para cantidades inciertas (parámetros) en inferenciasbasadas en análisis estadísticos de datos.El análisis bayesiano lo podemos dividir en las siguientes etapas:1. Elección de un modelo de probabilidad completo. Elección de una distribución de probabilidad conjunta

para todas las cantidades observables y no observables. El modelo debe ser consistente con elconocimiento acerca del problema fundamental y el proceso de recolección de la información;

2. Condicionamiento de los datos observados. Calcular e interpretar la distribución a posteriori apropiadaque se define como la distribución de probabilidad condicional de las cantidades no observadas deinterés, dados los datos observados;

3. Evaluación del ajuste del modelo y las implicancias de la distribución a posteriori resultante. ¿Es elmodelo apropiado a los datos?, ¿son las conclusiones razonables?, ¿qué tan sensibles son losresultados a las suposiciones de modelamiento de la primera etapa?. Si fuese necesario, alterar oampliar el modelo, y repetir las tres etapas mencionadas.

La inferencia bayesiana se basa en el uso de una distribución de probabilidad para describir todas lascantidades desconocidas relevantes a un problema de estimación, la concreción técnica de este resultadoconsiste en lo siguiente:

Si se dispone de una colección de variables aleatorias intercambiables 1 2, , , nx x x… es decir que su

distribución sólo depende del valor de esas variables y no del orden en que han sido observadas, entoncesla distribución de probabilidad

( ) ( ) ( )1 21

, , , |n

n ii

f x x x f x dθ π θ θΘ

=

= ∏∫…

donde Θ es la distribución inicial

( )|if x θ es el modelo de probabilidad;

θ es el límite de alguna función de las observaciones; y

( )π θ es una distribución de probabilidad sobre la distribución inicial Θ .

El concepto de intercambiabilidad es más débil que el de muestra aleatoria simple. Por ejemplo, si lasvariables intercambiables ix toman el valor 0 ó 1, el teorema de representación toma la forma

( ) ( ) ( )11 2

1

, , , 1 iin

xxn

i

f x x x dθ θ π θ θ−

Θ=

= −∏∫…

donde: 1lim

n

ii

n

x

nθ =

∞=∑

Es importante notar que lo que quiere decir el anterior resultado es que siempre que se tenga una colecciónde variables intercambiables, y en una muestra aleatoria sencilla lo son, existe una distribución inicial sobreel parámetro θ . Además, el valor del parámetro puede obtenerse como límite de las frecuencias relativas.La aproximación bayesiana implica entonces, que la información muestral y la distribución inicial seactualizan mediante el teorema de Bayes para dar lugar a la distribución final.

( ) ( ) ( )( ) ( )

1 21 2

1 2

, , , || , , ,

, , , |n

nn

f x x xx x x

f x x x d

π θ θπ θ

π θ θ θΘ

=∫

……

Ahora todas las inferencias, la estimación por punto, la estimación por regiones veraces y los contrastes dehipótesis, se realizan mediante la distribución final.

Page 5: Estadística Bayesiana - eva.fing.edu.uy · PDF file5 4. Conceptos bayesianos básicos 4.1. Teorema de Bayes Sea Y={yy y12,,, ' n} un vector de n observaciones cuya distribución de

5

4. Conceptos bayesianos básicos

4.1. Teorema de Bayes

Sea 1 2, , , 'ny y y=Y … un vector de n observaciones cuya distribución de probabilidad ( )Pr |y θ

depende de k parámetros involucrados en el vector 1 2, , , 'nθ θ θ=θ … . Supóngase también que q tiene

una distribución de probabilidades ( )Pr θ . Entonces, la distribución de conjunta de θ e Y es:

( ) ( ) ( ) ( ) ( )Pr | Pr | Pr Pr | Pry y y yθ θ θ θ= =

de donde la distribución de probabilidad condicional de θ dado el vector de observaciones Y resulta:

( ) ( ) ( )( )

Pr | PrPr |

Pry

yy

θ θθ =

con ( )Pr 0y ≠

A esta ecuación se lo conoce como el teorema de Bayes, donde ( )Pr y es la distribución de probabilidad

marginal de Y y puede ser expresada como:

( )( ) ( )( ) ( )

Pr | PrPr

Pr | Pr

y d si es continuoy

y si es discreto

θ θ θ θ

θ θ θ

=

∫∑

donde la suma o integral es tomada sobre el espacio paramétrico de θ . De este modo, el teorema deBayes puede ser escrito como:

( ) ( ) ( ) ( ) ( )Pr | Pr | Pr Pr | Pry c y yθ θ θ θ θ= ≈ [1]

donde: ( )Pr θ representa lo que es conocido de θ antes de recolectar los datos y es llamada la

distribución a priori de θ ;

( )Pr | yθ representa lo que se conoce de θ después de recolectar los datos y es llamada la

distribución posterior de θ dado Y ;

c es una constante normalizadora necesaria para que ( )Pr | yθ sume o integre uno.

Dado que el vector de datos Y es conocido a través de la muestra, ( )Pr |Y θ es una función de θ y no de

Y . En este caso a ( )Pr |Y θ se le denomina función de verosimilitud de θ dado Y y se le denota por

( )|l θ Y . Entonces la formula de Bayes puede ser expresada como:

( ) ( ) ( )Pr Prl≈θ |y θ |y θ

Ejemplo. Sea el parámetro θ que a priori tiene una distribución uniforme en el intervalo [0,1] y la variablealeatoria Y que tiene una distribución de probabilidades binomial con parámetros m y θ , m conocido porconveniencia. Entonces se tienen las siguientes funciones de distribución:

( )

( ) ( )

Pr 1 0 1

Pr | 1 0,1, ,m yymy y m

y

θ θ

θ θ θ −

= ≤ ≤

= − =

Ahora, para una muestra aleatoria de tamaño n la función de verosimilitud estará dada por:

( ) ( )1

| 1 0,1, ,iin

nm yyi

ii

ml y y m i

yθ θ θ −

=

∑∑= − = ∀ ∏ …

Page 6: Estadística Bayesiana - eva.fing.edu.uy · PDF file5 4. Conceptos bayesianos básicos 4.1. Teorema de Bayes Sea Y={yy y12,,, ' n} un vector de n observaciones cuya distribución de

6

y aplicar el teorema de Bayes dado en [1], la distribución a posteriori de θ dada la muestra y quedaexpresada como:

( ) ( )

( )( )

1 1

!Pr | 1

! !

ii mn yyn n

i ii i

n my c

y m yθ θ θ −

= =

∑∑= −−∏ ∏

Esta expresión puede escribirse de la siguiente manera:

( ) ( )

( )( ) ( ) ( )1 1 1 1

1 1

!Pr | 1

! !

i iy nm yn n

i ii i

n my c

y m yθ θ θ+ − − + −

= =

∑ ∑= −−∏ ∏

que tiene la forma de una distribución beta con parámetros 1y i +∑

y 1nm y i − +∑

.

Luego el valor adecuado de la constante normalizadora c será:

( ) ( )( )

! !2!1 1

y m ynm i icn my nm yi i

−∏ ∏Γ +=

Γ + Γ − +∑ ∑

Nótese que es a través de ( )|l θ Y que los datos (información muestral) modifican el conocimiento previo

de q dado por ( )Pr θ . Este proceso de revisión de las probabilidades iniciales, dada la informaciónmuestral, se ilustra en la figura 3.

Figura 3.

Por ultimo, es conveniente señalar que la información muestral Y por lo general será introducida en elmodelo a través de estadísticas suficientes para θ , dado que estas contienen toda la información referentea los datos. Así, dado un conjunto de estadísticas suficientes t para los parámetros en θ , ( )Pr |y θ podrá

ser intercambiada por ( )Pr |t θ , para lo cual bastara con calcular la distribución condicional de t dadoθ .

Informacióninicial

Informaciónnueva

Distribucióna priori

Pr(θ)

Función deverosimilitudl(θ | y)

Teorema deBayes

Distribucióna posteriori

Page 7: Estadística Bayesiana - eva.fing.edu.uy · PDF file5 4. Conceptos bayesianos básicos 4.1. Teorema de Bayes Sea Y={yy y12,,, ' n} un vector de n observaciones cuya distribución de

7

Figura 4. Teorema de Bayes

4.2. Naturaleza secuencial del teorema de Bayes

Supóngase que se tiene una muestra inicial 1y . Entonces, por la fórmula de Bayes dada anteriormente setiene:

( ) ( ) ( )1 1Pr | | Pry l yθ θ θ∝

Ahora supóngase que se tiene una segunda muestra 2y independiente de la primera muestra, entonces:

( ) ( ) ( ) ( ) ( ) ( )( ) ( ) ( )

1 2 1 2 1 2

1 2 2 1

Pr | , | , Pr | | Pr

Pr | , | Pr |

y y l y y l y l y

y y l y y

θ θ θ θ θ θ

θ θ θ

∝ =

De esta manera, la distribución a posteriori obtenida con la primera muestra se convierte en la nuevadistribución a priori para ser corregida por la segunda muestra.En este proceso puede repetirse indefinidamente. Así, si se tienen r muestras independientes, ladistribución a posteriori puede ser recalculada secuencialmente para cada muestra de la siguiente manera:

( ) ( ) ( )1 2 1 2 1Pr | , , , | Pr | , , , 2 ,3, ,m m my y y l y y y y para m rθ θ θ −∝ =… … …

Nótese que ( )1 2| , , , my y yθ … podría también ser obtenido partiendo de ( )Pr θ y considerando al total

de las r muestras como una sola gran muestra.La naturaleza secuencial del teorema de Bayes, es tratada por Bernardo como un proceso de aprendizajeen términos de probabilidades, el cual permite incorporar al análisis de un problema de decisión, lainformación proporcionada por los datos experimentales relacionados con los sucesos (parámetros)inciertos relevantes.

4.3. Distribución a priori difusa o no informativaLa distribución a priori cumple un papel importante en el análisis bayesiano ya que mide el grado deconocimiento inicial que se tiene de los parámetros en estudio. Si bien su influencia disminuye a medida quemás información muestral es disponible, el uso de una u otra distribución a priori determinara ciertasdiferencias en la distribución a posteriori.Si se tiene un conocimiento previo sobre los parámetros, este se traducirá en una distribución a priori. Así,será posible plantear tantas distribuciones a priori como estados iniciales de conocimiento existan y losdiferentes resultados obtenidos en la distribución a posteriori bajo cada uno de los enfoques, adquirirán unaimportancia en relación con la convicción que tenga el investigador sobre cada estado inicial. Sin embargo,cuando nada es conocido sobre los parámetros, la selección de una distribución a priori adecuada adquiereuna connotación especial pues será necesario elegir una distribución a priori que no influya sobre ningunode los posibles valores de los parámetros en cuestión. Estas distribuciones a priori reciben el nombre dedifusas o no informativas y en esta sección se tratara algunos criterios para su selección.

Valoración a priori acerca de si la hipótesises verdadera antes de ver los datos

Factor de Bayes

Valoración a posteriori de quehipótesis nula sea verdadera

x x

Componente subjetivo

Componente de los datos (evidencia)

Probabilidad de la veracidad

Page 8: Estadística Bayesiana - eva.fing.edu.uy · PDF file5 4. Conceptos bayesianos básicos 4.1. Teorema de Bayes Sea Y={yy y12,,, ' n} un vector de n observaciones cuya distribución de

8

Método de Jeffreys

En situaciones generales, para un parámetro θ el método mas usado es el de Jeffreys (1961) que sugiereque, si un investigador es ignorante con respecto a un parámetro θ , entonces su opinión a cerca de θdado las evidencias X debe ser la misma que el de una parametrización para θ o cualquiertransformación uno a uno de θ , ( )g θ , una priori invariante sería:

( ) ( )Pr θ θ∝ I

donde ( )θI es la matriz de información de Fisher:

( ) ( )2

2

|Lnf yEθ

θθ

θ ∂

= − ∂ I

Si ( )1 2, , , 'nθ θ θ=θ … es un vector, entonces:

( ) ( )Pr detθ θ∝ I [2]

donde ( )θI es la matriz de información de Fisher de orden p p×

El elemento ( )i j de esta matriz es:

( )2

0

|i j

i j

Lnf yI E

θθ θ

∂= −

∂ ∂

Por transformación de variables, la densidad a priori ( )Pr θ es equivalente a la siguiente densidad a priori

para φ :

( ) ( )( )1Pr Pr dhdθφ θ φφ

−= = [3]

El principio general de Jeffreys consiste en que al aplicar el método para determinar la densidad a priori( )Pr θ , debe obtenerse un resultado equivalente en ( )Pr φ si se aplica la transformación del parámetro

para calcular ( )Pr φ a partir de ( )Pr θ en la ecuación [3] o si se obtiene ( )Pr φ directamente a partir delmétodo inicial. Es decir, debe cumplirse la siguiente igualdad:

( ) ( ) dI Idθφ θφ

=

Ejemplo. Sea la variable Y con una distribución ( ),B n θ

Page 9: Estadística Bayesiana - eva.fing.edu.uy · PDF file5 4. Conceptos bayesianos básicos 4.1. Teorema de Bayes Sea Y={yy y12,,, ' n} un vector de n observaciones cuya distribución de

9

( ) ( ) ( )

( ) ( ) ( )

( )

( )( )

( )( )( )

( ) ( )

2

22 2

2 22 2

22

| Pr | 1

log | log log log 1

log |1

log |1

1 1

11

n yynf y y

yn

f y y n yy

d f y y n yd

d f y y n yd

n yy n y n

y n y n

θ θ θ θ

θ θ θ

θθ θ θ

θθ θ θ

θθ θθ θ

θ θ θθ

− = = −

= + + − −

−= +

−= − +

−−− + = − − + − − −− + = −−

EE

E

o1n

θ θ−

Prescindiendo de n se obtiene que la distribución a priori de θ es:

( )Pr 1θ θ θ∝ −

esto es, ( )0,5 , 0,5Betaθ ≈ .

Ejemplo. Se aplicara el método de Jeffreys para calcular una distribución conjunta a priori para losparámetros de un modelo normal.

Sea ( )2,y N µ σ∼ , ambos parámetros desconocidos. Entonces:

( ) ( )

( ) ( )

2

2

2

2

1| exp22

1ln | ln ln22

yf y

yf y

µµσ

σπ µ

µµσ σ

σπ µ

−= −

−= − −

y la matriz de información de Fisher estará dada por:

( )( ) ( )

( ) ( )

2 2

2

0 2 2

2

ln | , ln | ,

ln | , ln | ,

f y f yE

f y f y

µ σ µ σµ µ σ

θµ σ µ σ

σ µ σ

∂ ∂ ∂ ∂ ∂ = − ∂ ∂ ∂ ∂ ∂

I

( )

( )

( ) ( )

2 3

0 2

3 2 4

21

2 31

y

Ey y

µσ σθ

µ µσ σ σ

− − −

= − − −− −

I

Page 10: Estadística Bayesiana - eva.fing.edu.uy · PDF file5 4. Conceptos bayesianos básicos 4.1. Teorema de Bayes Sea Y={yy y12,,, ' n} un vector de n observaciones cuya distribución de

10

( )2

0

2

1 0

20E σθ

σ

= −

I

Ahora, según la ecuación [2], la distribución a priori no informativa para ( ),θ µ σ= será:

( ) 4 2

2 1Pr ,µ σσ σ

∝ ∝

Nótese que aplicando las reglas anteriores, dado que µ es un parámetro de posición y σ un parámetro de

escala, las distribuciones a priori para µ y σ serian ( )Pr 1µ = y ( ) 1Pr σ σ −= , por lo que si se supone

independencia entre ambos parámetros se tendría ( ) ( ) ( ) 1Pr , Pr Prµ σ µ σ σ −= = en vez de 2σ .

Jeffreys resolvió este problema estableciendo que µ y σ deberían ser tratados a prioriindependientemente y por separado. Así, cuando el método de Jeffreys es aplicado al modelo normal conσ fijo, resulta una a priori uniforme para µ y cuando es aplicado con µ fijo, se obtiene la a priori

( ) 1Pr σ σ −= lo cual conduce a: ( ) 1Pr ,µ σ σ −= , que es lo más deseable.

4.4. Distribución a priori conjugadaEn este caso, la distribución a priori es determinada completamente por una función de densidad conocida.Berger presenta la siguiente definición para una familia conjugada: una clase P de distribuciones a priori esdenominada una familia conjugada para la clase de funciones de densidad F , si ( )Pr | yθ está en la clase

P para todo ( )|f y Fθ ∈ y ( )Pr Pθ ∈ .

En este caso, la distribución inicial dominará a la función de verosimilitud y ( )Pr | yθ tendrá la misma forma

que ( )Pr θ , con los parámetros corregidos por la información muestral.

Ejemplo. Sea el parámetro θ que a priori tiene una distribución beta con parámetros α y β la variablealeatoria Y que tiene una distribución de probabilidad binomial con parámetros m y θ , m conocido porconveniencia. Entonces se tienen las siguientes funciones de distribución:

( ) ( )( ) ( ) ( ) ( )

( ) ( )

110,1Pr 1

Pr | 1 0,1, ,m yy

I

my y m

y

βαα βθ θ θ θ

α β

θ θ θ

−−

Γ += −

Γ Γ

= − =

Ahora para una muestra aleatoria de tamaño n la función de verosimilitud estará dada por:

( ) ( )1

| 1 0,1, ,iin

mn yy

i

ml y y m i

yθ θ θ −

=

∑∑= − = ∀

∏ …

y al aplicar el teorema de Bayes, la distribución posterior de θ dada la muestra y queda expresada de lasiguiente manera:

( ) ( ) 11Pr | 1 ii mn yyy βαθ θ θ + − −+ − ∑∑∝ −

que tiene la forma de una distribución beta con parámetros ( )iyα +∑ y inm yβ + ∑ . Luego, la

distribución tiene la misma forma que la distribución a priori por lo que la clase de distribuciones a priori betaes una familia conjugada para la clase de funciones de densidad binomial.

Page 11: Estadística Bayesiana - eva.fing.edu.uy · PDF file5 4. Conceptos bayesianos básicos 4.1. Teorema de Bayes Sea Y={yy y12,,, ' n} un vector de n observaciones cuya distribución de

11

Otro caso importante es el de la distribución normal

Sea el parámetro θ con una distribución ( )0 0,N µ τ , donde 0µ y 0τ son parámetros conocidos y la

variable X con una distribución ( )2,N θ σ donde 2σ es un parámetro conocido. Entonces tenemos las

siguientes funciones de distribución:

( ) ( )

( ) ( )

2

0200

2

2

1 1Pr exp22

1 1Pr | exp22x

x

θ µθ

τπ τ

θθ

σπ σ

−= −

−= −

y al aplicar el teorema de Bayes, la distribución posterior de θ dada la muestra x queda expresada de lasiguiente manera:

( ) ( ) 21210

1 1Pr | exp22

xθ µ

θτπ τ

−= −

donde02 2

01

2 20

1 1

1 1

xµτ σ

µ

τ σ

+

=+

2 2 21 0

1 1 1τ τ σ

= +

Luego ( ) ( )21 1Pr | ,x Nθ µ τ∼ de donde se pueden sacar conclusiones:

Precisiones de las distribuciones a priori y a posteriori

Precisión = 1/varianzaPrecisión a posteriori = precisión a priori + precisión de los datos

2 2 21 0

1 1 1τ τ σ

= +

Otro caso importante es el de la distribución normal con múltiples observaciones

Sea 1 2, , , nx x x… un vector de n observaciones, siendo ix observaciones idénticamente distribuidas

( )( )

20 0

2

,

,

N

x N

θ µ τ

θ σ

Entonces al aplicar el teorema de Bayes, la distribución posterior de θ dada la muestra ix quedaexpresada de la siguiente manera:

( ) ( ) ( ) ( ) ( ) ( ) ( )( ) ( ) ( ) ( ) ( )

1 2

1

Pr | Pr Pr | Pr Pr | Pr | Pr |

Pr | Pr Pr | Pr Pr |

n

n

ii

x x x x x

x x x

θ θ θ θ θ θ θ

θ θ θ θ θ=

∝ =

∝ = ∏

Page 12: Estadística Bayesiana - eva.fing.edu.uy · PDF file5 4. Conceptos bayesianos básicos 4.1. Teorema de Bayes Sea Y={yy y12,,, ' n} un vector de n observaciones cuya distribución de

12

( ) ( ) ( )

( ) ( ) ( )

2 2

02 2

10

220

2 210

1 1Pr | exp exp2 2

1Pr | exp2

ni

i

n

ii

xx

nx x

θ µ θθ

τ σ

θ µθ θ

τ σ

=

=

− − ∝ − − − ∝ − + −

( )Pr | xθ depende únicamente de X a través de 1

n

iix

xn

==∑

, es decir, x es un estadístico suficiente del

modelo.

Ya que, ( )2| , |x N nθ θ σ∼ y considerando a x como una simple observación, se aplican los resultados

anteriores, luego:

( ) ( ) ( )21 2Pr | , , , Pr | | ,n n nx x x x Nθ θ θ µ τ=… ∼

donde02 2

0

2 20

1

1n

n x

n

µτ σ

µ

τ σ

+

=+

2 2 20

1 1

n

nτ τ σ

= +

NOTA: Si 2 20τ σ= entonces la distribución a priori tiene el mismo peso como una observación extra con el

valor 0µ . Es decir, si 0τ →∞ con n fijo, o conforme n→∞ con 20τ fijo, entonces:

( )2

Pr | | ,x N xnσθ θ

5. Inferencia bayesiana

Dado que la distribución posterior, contiene toda la información concerniente al parámetro de interés θ(información a priori y muestral), cualquier inferencia con respecto a θ consistirá en afirmaciones hechas apartir de dicha distribución.

5.1. Estimación puntualLa distribución posterior reemplaza la función de verosimilitud como una expresión que incorpora toda lainformación. ( )| yθΠ es un resumen completo de la información acerca del parámetro θ . Sin embargo,para algunas aplicaciones es deseable (o necesario) resumir esta información en alguna forma.Especialmente, si se desea proporcionar un simple “mejor” estimado del parámetro desconocido. (Nótese ladistinción con la estadística clásica en que los estimados puntuales de los parámetros son la consecuencianatural de una inferencia).

Por lo tanto, en el contexto bayesiano, ¿cómo se puede reducir la información en una ( )Pr | yθ a un simple“mejor” estimado?, ¿qué se debe entender por “mejor”?Existen dos formas de enfrentar el problema:(a) Estimador de Bayes posterior(b) Aproximación de teoría de decisión

Page 13: Estadística Bayesiana - eva.fing.edu.uy · PDF file5 4. Conceptos bayesianos básicos 4.1. Teorema de Bayes Sea Y={yy y12,,, ' n} un vector de n observaciones cuya distribución de

13

Estimador de Bayes posterior

El estimador de Bayes posterior se define de la siguiente manera:

Sean 1 2, , , nx x x… una muestra aleatoria de ( )|f x θ , donde θ es un valor de la variable aleatoria θ

con función de densidad ( )gθ i . El estimador de Bayes posterior de ( )τ θ con respecto a la priori ( )gθ i

es definida como ( )( )1 2| , , , nx x xτ θ …E .

Ejemplo. Sean 1 2, , , nx x x… una muestra aleatoria de ( ) ( )1| 1 xxf x θ θ θ −= − para 1,0x= y

( ) ( ) ( )0,1g Iθ θ θ= . ¿Cuáles son los estimadores de θ y ( )1θ θ− ?

( )( ) ( )

( ) ( )

( ) ( ) ( ) ( )

( )

( )( )

( )

( )

11 2 1

10

0,11 2 1

0

1

01 2 1

0

1 11 2

1

|| , , ,

|

1| , , ,

1

1| , , ,

1

2 , 1| , , ,

1 ,

ii

ii

ii

ii

n

ii

n n

ii

n xx

nn xx

n xx

nn xx

n n

i ii i

n n

i ii i

g f xf x x x

g f x d

If x x x

d

dx x x

d

B x n xx x x

B x n x

θ

θ

θ θθ

θ θ θ

θ θ θθ

θ θ θ

θ θ θ θθ

θ θ θ

θ

=

=

= =

=

=

∑∑ −=

∑∑ −

∑∑ −=

∑∑ −

+ − +

=

+ −

∏∫

∑ ∑

E

E

( )

1

11 2

1

1| , , ,

2

n

n

ii

n

xx x xθ

=

=

+

+=

∑…E

Luego el estimador a posteriori de Bayes de θ , 1

1

2

n

iix

n=

+

+

∑ es un estimador sesgado. El estimador máximo

verosímil de θ , 1

n

iix

n=∑

es un estimador insesgado.

( )( )( ) ( )

( )

1

01 2 1

0

1 11 | , , ,

1

ii

ii

n xx

nn xx

dx x x

d

θ θ θ θ θθ θ

θ θ θ

∑∑− −− =

∑∑ −

∫…E

Page 14: Estadística Bayesiana - eva.fing.edu.uy · PDF file5 4. Conceptos bayesianos básicos 4.1. Teorema de Bayes Sea Y={yy y12,,, ' n} un vector de n observaciones cuya distribución de

14

( )( ) ( )( )1 1

1 2

1 1

2 22

1 | , , ,4

1 1

n n

i ii i

n n n

i ii i

x n xn

x x xn

x n xθ θ = =

= =

Γ + Γ − +

Γ + − = =Γ +

Γ + Γ − +

∑ ∑

∑ ∑…E

( )( ) ( ) ( )1 1

1 2

1 11 | , , ,

3 2

n n

i ii i

n

x n xx x x

n nθ θ = =

+ − +

− =+ +

∑ ∑…E

estimador de ( )1θ θ− con respecto a la a priori uniforme.

Aproximacion a la teoría de la decisión

Para los bayesianos, el problema de estimación es un problema de decisión. Asociada con cada estimadora hay una pérdida ( ),L aθ que refleja la diferencia entre θ y a .

Se especifica una función de perdida ( ),L aθ que cuantifica las posibles penalidades en estimar θ por a .

Hay muchas funciones pérdida que se pueden usar. La elección en particular de una de ellas dependerá decontexto del problema. Las más usadas son:1. Pérdida cuadrática:

( ) ( ) 2,L a aθ θ= − ;

2. Pérdida error absoluto o lineal absoluta:

( ),L a aθ θ= − ;

3. Pérdida 0,1:

( )0

,1

aL a si

θθ

− ≤ ∈= − > ∈

4. Pérdida lineal: para g , 0h> :

( ) ( )( )

,g a a

L a sih a a

θ θθ

θ θ− >= − <

En cada uno de los casos anteriores, por la minimización de la pérdida esperada posterior, se obtienenformas simples para la regla de decisión de Bayes, que es considerado como el estimado punto de θ parala elección en particular de la función pérdida.

Nota: ( ),L aθ es la pérdida incurrida al adoptar la acción a cuando el verdadero estado de la naturaleza

es θ . ( )Pr ,a x es la perdida esperada posterior. Luego:

( ) ( )( ) ( ) ( ) ( ), Pr , , Pr |aR L a a x L a x dθ θ θ θ θ= = = ∫E

Regla de decisión de Bayes (estimador de Bayes): ( )d x es la acción que minimiza ( )Pr ,a x .

Riesgo de Bayes: ( ) ( )( ) ( ),RB d d x x x dxρ ρ= ∫Ejemplo. Sean 1 2, , , nx x x… una muestra aleatoria de una distribución normal, ( ),1N θ ,

( ) ( ) 2,L a aθ θ= − , y ( )0 ,1Nθ µ∼ .

(a) El estimador de Bayes posterior es la media de la distribución posterior de θ

Page 15: Estadística Bayesiana - eva.fing.edu.uy · PDF file5 4. Conceptos bayesianos básicos 4.1. Teorema de Bayes Sea Y={yy y12,,, ' n} un vector de n observaciones cuya distribución de

15

( )( ) ( )

( ) ( )

2 2

01

2 2

01

1 1 1 1exp exp2 22 2

|1 1 1 1exp exp

2 22 2

nn

ii

nn

ii

xf x

x d

θ θ µπ π

θ

θ θ µ θπ π

=

=−∞

− − − − = − − − −

∑∫

Considerando 0 0x µ= :

( )( )

( )

( )

2

1

2

1

2

1

1 1exp22

|1 1exp

22

1 1| exp2 12

1

n

ii

n

ii

ni

i

xf x

x d

xnf xn

n

θπ

θθ θ

π

θ θπ

=

=−∞

=

− − = − −

+ = − − + +

∑∫

( )

( )

1 20

1 2

, , ,1

1var , , ,1

ni

ni

n

xx x x

n

x x xn

θ

θ

=

=+

=+

∑…

E |

|

(b) Aproximación bayesiana

Cuando ( ) ( ) 2,L a aθ θ= − , la regla de Bayes (o estimador de Bayes ) es la media de ( ) ( )| Pr |x xθ θΠ = .

Por lo tanto; el estimador de Bayes o regla de Bayes con respecto a la perdida cuadrado del error es:

0 01 1

1 1

n n

i ii i

x x x

n n

µ= =

+ +=

+ +

∑ ∑

Es decir, en este caso, la decisión óptima que minimiza la pérdida esperada es ( )θ θ=E .

La mejor estimación de θ con pérdida cuadrática es la media de la distribución de θ en el momento deproducirse la estimación.

Si ( ) ( )( ) 2,L a w aθ θ θ= − , la regla de Bayes es:

( )( ) ( )( )( ) ( )( )

( )( ) ( )( ) ( )

|

|

|

|

x

x

E wd x

E w

w f x dd x

w f x d

θ

θ

θ θ

θ

θ θ θ θ

θ θ θ

Π

Π=

= ∫∫

Si ( ) 2,L a q aθ = − , cualquier mediana de ( )| xθΠ es un estimador de Bayes de θ .

Si ( ) ( )( )0

1

,K a

L aK a

θθ

θ−= −

si 00

aa

θθ− ≥− <

cualquier 0

0 1

KK K+

fractil de ( )| xθΠ es un estimador de Bayes

de θ .

Page 16: Estadística Bayesiana - eva.fing.edu.uy · PDF file5 4. Conceptos bayesianos básicos 4.1. Teorema de Bayes Sea Y={yy y12,,, ' n} un vector de n observaciones cuya distribución de

16

Resumen

En el contexto bayesiano, un estimado puntual de un parámetro es una simple estadística descriptiva de ladistribución posterior ( )| xθΠ .

Utilizando la calidad de un estimador a través de la función perdida, la metodología de la teoría de decisiónconduce a elecciones optimas de estimados puntuales. En particular, las elecciones más naturales defunción perdida conducen respectivamente a la media posterior, mediana y moda como estimadorespuntuales óptimos.

5.2. Intervalos de credibilidad o regiones veracesLa idea de una región veraz o intervalo de credibilidad es proporcionar el análogo de un intervalo deconfianza en estadística clásica. El razonamiento es que los estimados puntuales no proporcionan unamedida de la precisión de la estimación. Esto causa problemas en la estadística clásica desde que losparámetros no son considerados como aleatorios, por lo tanto no es posible dar un intervalo con lainterpretación que existe una cierta probabilidad que el parámetro este en el intervalo. En la teoríabayesiana, no hay dificultad para realizar esta aproximación porque los parámetros son tratados comoaleatorios.

Definición: Un conjunto veraz ( )100 1 α− para θ es un subconjunto C de θ tal que:

( ) ( ) ( )( ) ( )

( ) ( )|

|1 Pr |

|x C

CC

x d caso continuoC x dF

x caso discretoθ

θ

θ θα θ

θΠ

Π

− ≤ = = Π

∫∫ ∑

Un aspecto importante con los conjuntos veraces (y lo mismo sucede con los intervalos de confianza) esque ellos no son únicamente definidos.

Cualquier región con probabilidad ( )1 α− cumple la definición. Pero solamente se desea el intervalo quecontiene únicamente los valores “más posibles” del parámetro, por lo tanto es usual imponer una restricciónadicional que indica que el ancho del intervalo debe ser tan pequeño como sea posible.

Para hacer esto, uno debe considerar solo aquellos puntos con ( )| xθΠ más grandes. Esto conduce a unintervalo (o región) de la forma:

( ) ( ) : |C C x f xα θ θ γ= = ≥

donde γ es elegido para asegurar que ( )| 1C

f x dθ θ α= −∫La región C que cumple las anteriores condiciones se denomina “región de densidad posterior más grande”(HPD), máxima densidad.Generalmente, un HPD es encontrado por métodos numéricos, aunque para muchas distribucionesunivariadas a posteriori, los valores de la variable aleatoria correspondientes son tabulados para un rangode valores de α .

Ejemplo (media de una normal). Sean 1 2, , , nx x x… una muestra aleatoria de una distribución normal

( )2,N θ σ , con 2σ conocido, con una a priori para θ de la forma: ( )2,N b dθ ∼ .

Se sabe que:

2 2

2 2 2 2

1| ,1 1

b n xdx N n nd d

σθ

σ σ

+ + +

Si n→∞ , entonces 2

x zn

α

σ±

Page 17: Estadística Bayesiana - eva.fing.edu.uy · PDF file5 4. Conceptos bayesianos básicos 4.1. Teorema de Bayes Sea Y={yy y12,,, ' n} un vector de n observaciones cuya distribución de

17

luego el conjunto veraz es igual al de estadística clásica. Pero sus interpretaciones son distintas.

¿Cómo se obtiene el intervalo de mínima longitud (máxima densidad)?

Los pasos a seguir son:1. Localizar la moda de la función de densidad (posterior) de θ ;2. A partir de la moda trazar líneas rectas horizontales en forma descendiente hasta que se acumule

( )1 α− de probabilidad.

Figura 5. Distribución gamma

5.3. Prueba de hipótesis para una muestraPruebas de hipótesis son decisiones de la forma en que se deben elegir entre dos hipótesis diferentes

0 0

1 1

::

HH

θθ∈Ω

∈ΩSe considera el caso simple donde 0Ω y 1Ω consisten de puntos simples, por lo tanto la prueba es de laforma:

0 0

1 1

::

HH

θ θθ θ=

=

Aproximación clásica

Ejecutar la prueba utilizando la razón de verosimilitud

( )( )

1

0

|

|

f x

f x

θλ

θ=

Si λ asume valores grandes significa que los datos observados X son mas probables que hayan ocurridosi θ es el verdadero valor de θ en lugar de 0θ .

Aproximación bayesiana

La aproximación natural es realizar la prueba bajo las consideraciones en las probabilidades a posteriorirelativas de los valores formulados en las hipótesis. Es decir:

( )( )

( ) ( )( ) ( )

1 1 1

2 0 0

| |

| |B

f x f f x

f x f f x

θ θ θλ

θ θ θ= =

razón de apuestas a posteriori = razón de apuestas a priori x razón de verosimilitud

Si Bλ asume valores grandes significa que hay preferencia por 1H

Page 18: Estadística Bayesiana - eva.fing.edu.uy · PDF file5 4. Conceptos bayesianos básicos 4.1. Teorema de Bayes Sea Y={yy y12,,, ' n} un vector de n observaciones cuya distribución de

18

Definición: la razón ( )( )

11

0 0

|

|

f x

f x

θαα θ

= es la razón de apuestas a posteriori de 1H a 0H , y 1

0

Π

Π es la razón

de apuestas a priori. La cantidad:

( )( )( )( )

( ) ( )( ) ( )

( )( )

1

0

1

0

1 0 11 0

0 10 1 0

|

|

| |

| |

f x

f xrazon de apuestas a posterioriBrazon de apuestas a priori f

f

f x f f xB

f x f f x

θ

θ

θ

θ

θ θ θαλ

αθ θ θ

= =

Π= = = =

Π

se denomina factor de Bayes en favor de 1Θ .

B es una medida del peso de la información que contienen los datos en favor de 1H sobre 0H . Si B es

grande, este anula cualquier preferencia a priori por 0H . La preferencia a posteriori es 1H .

5.4. Prueba de hipótesis para dos muestrasA continuación se tratará el caso de dos muestras donde aplicaremos la prueba de hipótesis para dosmuestras. La forma general de hacerlo es generalizando el factor de Bayes para el caso de dos muestrasesto quiere decir en vez de tomar una distribución de probabilidad para una muestra ahora se tomará parados muestras, es decir una distribución conjunta:Dadas las hipótesis:

0 1 2

1 1 2

::

HH

µ µµ µ

= ≠

Sean 1 1 2, , , nx x xµ = … y 2 1 2, , , ny y yµ = … dos muestras independientes, entonces la distribución

a posteriori será para el caso discreto:

( ) ( ) ( )( ) ( )1 2 1 2

1 21 2 1 2

Pr , Pr | ,Pr , |

Pr , Pr | ,

xx

x

µ µ µ µµ µ

µ µ µ µ=∑∑

la distribución a posteriori será para el caso continuo:

( ) ( ) ( )( ) ( )

1 2 1 21 2

1 2 1 2 1 2

, | ,, |

, | ,

f f xf x

f f x d d

µ µ µ µµ µ

µ µ µ µ µ µ=∫∫

Y se procederá de manera similar que el caso de una muestra.Con fines prácticos, suponiendo que se trabaja con poblaciones normales y que las varianzas poblacionalesson conocidas, se puede tomar la prueba de hipótesis de otra forma:

El problema de dos muestras normales

Ahora se considerara la situación de dos muestras independientes con distribución normal:

( )( )

1 2

1 2

, , , ,

, , , ,n

n

x x x N

y y y N

λ φ

µ ψ

… ∼

… ∼Que son independientes, aunque realmente el valor de interés es la distribución a posteriori de:

δ λ µ= −

Page 19: Estadística Bayesiana - eva.fing.edu.uy · PDF file5 4. Conceptos bayesianos básicos 4.1. Teorema de Bayes Sea Y={yy y12,,, ' n} un vector de n observaciones cuya distribución de

19

El problema se da en situaciones comparativas, por ejemplo, al comparar los valores de colesterol entreniños y niñas.

Combinaciones pareadas

Antes de continuar, se debería tomar precauciones contra una posible mala aplicación del modelo. Sim n= y cada una de las x esta de algún sentido emparejados con las y , es decir que ix e iy deben

estar definidos: i i iw x y= − y entonces investigar los w como una muestra ( )1 2, , , ,nw w w N δ ω… ∼ ,

para algún ω . Esto se conoce como el método de comparaciones pareadas.

El caso cuando las varianzas son conocidas

En el caso del problema de dos muestras, se pueden presentar tres casos:1. Cuando φ y ψ son conocidos;

2. Cuando se sabe que φ ψ= pero se desconocen sus valores;

3. Cuando φ y ψ son desconocidos.

Ciñéndose al primer caso, ya que esta situación implica menor complejidad cuando las varianzas sonconocidas. Si λ y µ tienen como referencia unas a prioris independientes (constante) ( ) ( )Pr Pr 1λ µ= ≈entonces, como se ha visto anteriormente con varias observaciones normales con una a priori normal, la

distribución a posteriori para λ será ,N xmφ

y, de forma similar, la distribución a posteriori para µ será

,N ynψ

que es independientemente de λ . De lo cual se deduce:

,N x ym nφ ψδ λ µ = − − +

Información a priori importante

El método se generaliza para este caso cuando la información a priori importante esta disponible. Cuando ladistribución a priori para λ es ( )0 0,N λ φ entonces la distribución a posteriori es:

( )1 1,Nλ λ φ∼

donde:

111

1 0 mφφ φ

−−−

= + ; y

01 1

0

x

m

λλ φ φφ

= +

De modo semejante si la distribución a priori para µ es ( )0 0,N µ ϕ y entonces la distribución a posteriori

para µ es ( )1 1,N µ ϕ y donde 1ϕ y 1µ están definidos de modo semejante, como sigue:

( )1 1 1 1,Nδ λ µ λ µ φ ψ= − − +∼

y las inferencias se proceden igual que antes.

Page 20: Estadística Bayesiana - eva.fing.edu.uy · PDF file5 4. Conceptos bayesianos básicos 4.1. Teorema de Bayes Sea Y={yy y12,,, ' n} un vector de n observaciones cuya distribución de

20

6. Conclusiones

Los procedimientos basados en la distribución en el muestreo son ad hoc para prácticamente cadaaplicación o grupo de aplicaciones con los que se esté trabajando. En contraposición, los procedimientosbayesianos siempre funcionan de la misma manera; hay que determinar una distribución inicial que recoja lainformación que se tenga del problema, construir la distribución final y esta es la que recoge, en forma deuna distribución de probabilidad, la información suministrada por la muestra.Una crítica que suele hacerse a la aproximación bayesiana es que está influenciada por la distribucióninicial, pero es hoy perfectamente factible examinar el problema con una variedad de distribuciones iniciales,o bien emplear distribuciones iniciales objetivas, y en todo caso se debe tener en cuenta que para tamañosmuestrales grandes la verosimilitud domina a la distribución inicial por lo que las inferencias se ven pocoafectadas por la distribución inicial. A cambio, los métodos bayesianos siempre tratan la incertidumbremediante la probabilidad y la precisión de los mismos se mide siempre en términos de probabilidad.

7. Bibliografía

1. Berger JO. Statistical decision theory and Bayesian analysis. Springer-Verlag: New York, 1985.2. Bernardo JM. Intrinsic credible regions. An objetcive Bayesian approach to interval estimation. Test2005;14(2): 317-384 (disponible en http://www.uv.es/~bernardo/2005Test.pdf)3. Chu J. Bayesian function estimation using overcomplete dictionaries with application in genomics.Department of Statistical Science. Duke University, 2007 (disponible en www.stat.duke.edu/people/theses/jenhwa.html)4. Gunn LH. Bayesian order restricted methods with biomedical applications. Institute of Statistics andDecision Sciences. Duke University, 2004 (disponible en www.isds.duke.edu/people/theses/laura.ps).5. House LL. Nonparametric bayesian models in expression proteomic applications. Institute of Statistic andDecision Sciences. Duke University, 2006 (disponible en: http://www.isds.duke.edu/people/theses/leanna.pdf)6. O´Hagan A, Luce BR. A primer on bayesian statistics in health economics and outcomes Research.MEDTAP International Inc., 2003 (disponible en http://www.shef.ac.uk/content/1/c6/07/15/10/primer.pdf).7. Rodriguez A. Some advances in Bayesian nonparametric modelling. Institute of Statistic and DecisionSciences. Duke University, 2007 (disponible en: http://www.stat.duke.edu/people/theses/abel.pdf).8. Thornburg H. Introduction to bayesian statistics. CCRMA. Stanford University 2006 (disponible enhttp://ccrma.stanford.edu/~jos/bayes/bayes.pdf).9. Yupanqui Pacheco RM: Introducción a la estadística bayesiana. UNMSM. Facultad de CienciasMatemáticas. EAP de Estadística, Lima, 2005 (disponible en: http://sisbib.unmsm.edu.pe/bibvirtualdata/Tesis/Basic/yupanqui_pr/yupanqui_pr.pdf).10. http://halweb.uc3m.es/esp/Personal/personas/mwiper/docencia/Spanish/Bayesian_Methods/apuntes.html