Cap1-Probabilidad II P

Post on 20-Feb-2016

15 views 0 download

description

estadistica

Transcript of Cap1-Probabilidad II P

Introducción a la Teoría de Probabilidades

Carlos Almeida

Universidad de las Fuerzas Armadas - ESPE

Beca Prometeo

13 de enero de 2014

Índice

1. Introducción 1

2. Espacio de Probabilidad y Elementos aleatorios 2

2.1. σ-álgebras (tribu o σ-campos) y medidas . . . . . . . . . . . . 22.2. Funciones medibles y distribuciones . . . . . . . . . . . . . . . 4

3. Integración y Diferenciación 6

3.1. Integración . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63.2. Derivada de Radon-Nikodym . . . . . . . . . . . . . . . . . . . 10

4. Distribuciones y sus características 11

5. Esperanza Condicional 14

6. Resultados Asintóticos 17

6.1. Modos de convergencia . . . . . . . . . . . . . . . . . . . . . . 176.2. Convergencia de transformaciones . . . . . . . . . . . . . . . . 196.3. La(s) ley(es) de los grandes números . . . . . . . . . . . . . . 206.4. El teorema central de límite . . . . . . . . . . . . . . . . . . . 22

1. Introducción

Estas notas de curso son basadas en el capítulo 1 del libro: MathematicalStatistics de Jun Shao, 1998, Springer.

Este libro es la base del curso de estadística matemática de la Universityof Wisconsing-Madison y está pensado para un curso de 30 semanas a razón

1

de tres horas de clases más dos horas de discusión por semana de clases. Sepresupone buen conocimiento de análisis.

2. Espacio de Probabilidad y Elementos alea-torios

Experimento aleatorio: El resultado no puede ser predecido con certezaAxiomatización: A. N. Kolmogorov (1933), pero existen antecedentes, La-

place, Moivre, Markov.

2.1. σ-álgebras (tribu o σ-campos) y medidas

Ω: Elementos de interés, contiene todos los resultados posibles (Probabili-dad), espacio de muestras (Estadística)

Ejemplo: un conjunto de números, un subintervalo de la recta real, etc

2Ω: Conjunto de todos los subconjuntos de Ω

Denición 1. Sea F una colección de subconjuntos de Ω, F es una σ-álgebrasi:

1. ∅ ∈ F

2. Si A ∈ F , entonces AC ∈ F

3. Si Ai ∈ F , i = 1,2,. . . , entonces la unión ∪Ai ∈ F

Observaciones:

(Ω,F) : Espacio medible

A ∈ F : conjunto medible (eventos)

∩Ai ∈ F

∅,Ω y 2Ω son σ-álgebras

A ⊂ Ω tal que A 6= ∅ y A 6= Ω, ∅, A,AC ,Ω es σ-álgebra (la máspequeña que contiene A)

Sea σ(C) una colección de subconjuntos de Ω, la más pequeña σ-álgebraque contiene C, i.e.:

σ(C) =⋂B∈M

B, M = B : C ⊂ B, y B es una σ-álgebra

2

Sea O el conjunto de abiertos de R, a la σ-álgebra generada por O sellama Conjuntos de Borel o Borelianos

Denición 2. Sea (Ω,F) un espacio medible, A una función ν denida enF se llama medida si:

1. 0 ≤ ν(A) ≤ ∞ para cualquier A ∈ F

2. ν(∅) = 0

3. Si Ai ∈ F , i = 1,2,. . . , y los Ai's son disjuntos (i.e. Ai ∩ Aj = ∅ sii 6= j), entonces

ν

(∞⋃i=1

Ai

)=∞∑i=1

ν(Ai)

Observaciones:

(Ω,F , ν) : Espacio medido,

Si existe una sucesión A1 ⊂ A2 ⊂ . . . tal que lımAn = Ω y para todon, ν(An) <∞ se dice que la medida es σ-nita

Si ν(Ω) = 1, probabilidad y usualmente ν = P (o Q), (Ω,F , P ) sellamara espacio probabilizado

Ejemplos: Medida de conteo, medida de Lebesgue

Proposición 1. Sea (Ω,F , ν) un espacio medible

1. (Monotinicidad) Si ⊂ B, entonces ν(A) ≤ ν(B)

2. (Subaditividad) Para qualquier secuencia A1, A2, . . .

ν

(∞⋃i=1

Ai

)≤

∞∑i=1

ν(Ai)

3. (Continuidad) Si A1 ⊂ A2 ⊂ . . . (o A1 ⊃ A2 ⊃ . . . y ν(A1) < ∞),entonces

ν( lımn→∞

An) = lımn→∞

ν(An)

donde:

lımn→∞

An =n⋃

i=1

Ai

(o lım

n→∞An =

n⋂i=1

)

3

Proposición 2. En un espacio probabilizado (Ω,F , P ),

1. Sea F (x) := P ((−∞, x]) la función de probabilidad acumulada, enton-ces:

F (−∞) = lımx→−∞ F (x) = 0

F (∞) = lımx→∞ F (x) = 1

F no es decreciente, i.e. F (x) ≤ F (y)) si x < y

F es continua por la derecha, i.e lımy→x,y>x F (x) = F (y)

2. Si una función F sobre R satisface las cuatro propiedades de la parte 1entonces es la c.d.f. de una única medida de probabilidad sobre (R,B)

En la caso multidimensional, se dene el espacio medible producto y lamedida producto, para el caso de la σ-álgebra producto se dene como lagenerada por el producto cartesiano de las σ-álgebras, y la medida productoestá justicada el la proposición:

Ejemplo: medida de Lebesgue en (Rk,Bk)El concepto de c.d.f. se extiende a Rk y es denida por:

2.2. Funciones medibles y distribuciones

Considere una función (aplicación) f de Ω sobre un espacio más simpleΛ (usualmente Rk). Sea B ⊂ Λ, la imagen inversa de f se dena por:

La función inversa no necesita estar denida, y tenemos las siguientespropiedades:

4

Con esto se tiene la siguiente denición de función medible:

Si Λ = R y G = B (σ-álgebra de Borel), entonce se dice Borel medible oBorel función

Ejemplos:

función indicatriz

funciones simples

Una proposición importante:

5

Observación: Es difícil de encontrar funciones que no sean Borel

Sea (Ω,F , ν) un espacio medible f una función medible de (Ω,F) a (Λ,G),la medida inducida por f es la medida en G denida por:

La medida imagen, cuando se trata de una probabilidad (P X−1) esllamada ley de la distribución de X y usualmente es denotada por PX . y suc.d.f. por FX .

Ejemplos:

c.d.f. discreta

Distribución uniforme en [a, b]

Exponencial

3. Integración y Diferenciación

A diferencia que en cálculo elemental, aquí primero se introduce la inte-gración y luego la diferenciación

3.1. Integración

Se dene la integral de funciones de Borel con respecto a (w.r.t.) unamedida ν. La denición se hace por etapas,

1. Para funciones simples no negativas:

Con ai > 0, i = 1, . . . , k

6

Observaciones:∫ϕdν =∞ es posible

Diferentes representaciones de una función simple son posibles pe-ro todas dan la misma respuesta, entonces la denición es correcta

2. Funciones de Borel nonegativas:

Sea f una función de Borel no negativa:

Observaciones:

Cómo justicar el lado derecho de la denición

Para cualquier función f Borel medible, existe una secuencia defunciones simples ϕ1, ϕ2, . . . tal que 0 ≤ ϕ ≤ f para cualquier i y

lımn→∞

∫ϕndν =

∫fdν

3. Finalmente, para una función f medible cualquiera, se dene primero:

f+(ω) = maxf(ω), 0, f−(ω) = max−f(ω), 0

Observe que f+ y f− son Borel medibles no negativas, f(ω) = f+(ω)−f−(ω) y |f(ω)| = f+(ω) + f−(ω).

Observaciones:

7

Está bien denida, aunque puede tomar valores de ∞ o −∞.

Si∫f+dν y

∫f−dν y son ambas nitas, decimos que f es integra-

ble.

Diferentes notaciones:∫fdν,

∫f(ω)dν,

∫f(ω)dν(ω),

∫f(ω)ν(dω).

En espacios probabilizados,∫XdP es usualmente escrito como

EX o E(X).

Examples:

En un conjunto contable: ∫fdν =

∑ω∈Ω

f(ω)

En R, con respcto a la medida de Lebesgue, sobre un intervalo [a, b] laintegral coincide con la integral de Riemann cuando esta última estábien denida.

Propiedades:

Si una armación se cumple para todo ω ∈ Ω−N , con ν(N ) = 0, se diceque es casi en todas partes (a.e.) ν, Si la medida es de probabilidad, se dicecasi seguramente (a.s.)

|∫fdν| ≤

∫|f |dν

Si f > 0 (a.e.) entonces∫fdν ≥ 0

Si f = g (a.e.) entonces∫fdν =

∫gdν

Algunas veces se requiere saber si se puede intercambiar los límites conla integral:

Sea f1, f2, . . . y lımn→∞ fn, existe entonces, bajo que condiciones se daque:

8

La respuesta está en el siguiente teorema:

Ejercicio: Intercambio de la integral con la diferenciaciónEl siguiente teorema generaliza el de cambio de variables:

La importancia de este resultado está por ejemplo en que el en un espacioprobabilizado, si se dene una variable aleatoria X, el cálculo de la esperanzase puede hacer de la siguiente manera:

EX =

∫Ω

XdP =

∫RxdPX

o para una función de Borel g sobre los reales:

Eg(X) =

∫g(x)dPX =

∫xdPg(X)

También en algunos casos se puede intercambiar el orden de integración:

9

Este resultado puede extenderse de forma natural a la medida producto

3.2. Derivada de Radon-Nikodym

Sea (Ω,F , ν) un espacio medible y f una función de Borel no negativa,la función:

λ(A) =

∫A

fdν, A ∈ F

es una medida en (Ω,F). Observe además que

ν(A) = 0 implica λ(A) = 0

Si se da esta última propiedad se dice que λ es absolutamente continuacon relación a ν.

El teorema de Radon-Nikodim muestra que esta última es también unacondición suciente

f se llama derivada de Rdon-Nikodym o densidad de λ con respecto a ν,en el contexto de probabilidades a f se le conoce como función de densidadde probabilidades (p.d.f)

Cálculo con derivadas de R-N

10

4. Distribuciones y sus características

Discretas si son dominadas por alguna medida de conteo

Ver tabla 1

Continuas si son dominadas por la medida de Lebesgue

Ver Tabla 2

Existen p.d.f. que no son ni discretas ni continuas

Cambios de variable, ver ejemplos

Funciones generadosras de momentos:

EXk es el /k-esimo momento / de X

11

E|X|k es el k-esimo momento absoluto de X

Si µ = EX, E(X−µ)k es el k-esimo momento central de X, el segundomomento central es llamado varianza

En el caso multidimensional: matriz de varianzas-covarianzas es:

Var(X) = E(X − EX)>(X − EX)

Los momentos son interesantes características de las distribuciones, pe-ro estas no las determinan. Funciones que determinan las distribuciones seintroducen a continuación:

Tenemos los siguientes resultados:

12

13

5. Esperanza Condicional

En probabilidades básicas, se dene la probabilidad condicional P (B |A) = P (A∩B)/P (A) provisto que P (A) 6= 0, pero muchas veces necesitamosesta noción incluso en casos en los que P (A) = 0, ejemplo A = Y = c ,donde Y es una variable aleatoria real continua.

La σ-álgebra σ(Y ) contiene la ïnformación de Y ". El siguiente teoremacaracteriza la esperanza condicional:

Desarrollar el ejemplo 1.18Aplicado a funciones medibles, tenemos la siguiente proposición:

Además:

14

Esto esta en acuerdo con las deniciones usadas en probabilidades básicas.Algunas propiedades muy útiles de las probabilidades condicionales son:

Desarrollar el ejemplo del .estimador del error de media cuadrática"Independencia

15

El siguiente resultado es muy útil para chequear la independencia;

Observations:

X1, X2, . . . , XK son independientes si

FX(x1, x2, . . . , xK) = FX1(x1)FX2(x2)...FXK(xK)

fX(x1, x2, . . . , xK) = fX1(x1)fX2(x2)...fXK(xK)

Si X1, X2, . . . , XK son independientes y E|X1 . . . XK | <∞|$, entonces

E(X1 . . . XK) = EX1 . . . EXK

Independencia implica no correlación, pero el inverso no siempre escierto

Probabilidad Condicional

Se justica a con el siguiente teorema:

También se puede dada una colección de probabilidades condicionales,denir una probabilidad conjunta como sigue:

16

Desarrollar el Ejemplo 1.21

6. Resultados Asintóticos

Deniciones de convergencia, relaciones,principales resultadosLas leyes de los grandes númerosEl teorema central del límteSe estudia el comportamiento límite de variables aleatorias y sus distri-

buciones

6.1. Modos de convergencia

Se denen cuatro modos de convergencia de variables (vectores) aleato-rios:

17

El siguiente resultado describe las relaciones entre los diferentes modosde convergencia:

Desarrollar el ejemplo 1.22El resultado siguiente es muy útil para demostrar convergencia en distri-

bución:

18

Junto con la siguiente proposición, este teorema puede usarse para mos-trar la convergencia en ley.

6.2. Convergencia de transformaciones

Que pasa cuando se aplica una función g Borel medible a una sucesiónde variables aleatorias, se resume en el siguiente teorema

Presentar ejemplo 2.13,Observe que la convergencia conjunta en algunos casos no puede ser re-

lajada.Un resultado importante que puede evitar en algunos casos la exigencia

de la convergencia conjunta es:

19

6.3. La(s) ley(es) de los grandes números

20

Una versión ligeramente menos exigente se presenta en el siguiente teore-ma:

21

6.4. El teorema central de límite

Para aproximar las distribuciones tenemos uno de los as importantes re-sultados que permite trabajar en estadística:

Desarrollar el ejemplo 1.26

22