1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de...

51
1. Ap´ endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (Ω, F , P) donde Ω es un conjunto arbitrario, aunque en la Teor´ ıa de Probabilidad se le conoce como espacio muestral, y es el conjunto de posibles resultados de un experimento aleatorio. F es una σ-algebra de subconjuntos de Ω que satisface: 1. Ω F 2. Si A F , entonces A c F 3. Si A 1 ,A 2 , ..., A n F , entonces A 1 A 2 ... A n F P : F [0, 1] es una funci´ on conocida como medida de probabilidad que cumple: 1. P (Ω) = 1 2. P (A) 0 A F 3. Si A 1 ,A 2 , ... F y A i A j = ,i 6= j, entonces P ( S i=1 A i )= n i=1 P (A i ) Proposici´ on 1.1 (Algunas propiedades de P) (a) Si A B entonces P (A) P (B). (b) P ()=0 (c) P (A c )=1 - P (A) (d) P (A B)= P (A)+ P (B) - P (A B) (e) Desigualdad de Boole P ( S n i=1 A i ) n i=1 P (A i ) (f)F´ormulaAdici´on-Sustracci´on P ( S n i=1 A i )= n i=1 P (A i ) - i6=j P (A i A j )+ i 1 >i 2 >i 3 P (A i 1 A i 2 A i 3 )+ ... +(-1) n+1 P ( T n i=1 A i ) 1.2. Probabilidad Condicional e independencia Sean A y B en F tal que P (B) > 0. Entonces P (A|B)= P (A B) P (B) Proposici´ on: P (·|B) es una medida de probabilidad. Teorema de la probabilidad total: Sean B 1 ,B 2 , ..., B n F tales que B i B j = i 6= j y S n i=1 B i = Ω, entonces para A F : P (A)= n i=1 P (A|B i )P (B i ) Teorema de Bayes: P (B j |A)= P (ABj ) P (A) = P (A|B j )P (B j ) n i=1 P (A|B i )P (B i ) Definici´ on 1.1 Se dice que A y B F son independientes si s´olo si P (A B)= P (A)P (B) Definici´ on 1.2 Se dice que A 1 ,A 2 , ..., A n F son inpendientes (entre s´ ı) si y s´olo si

Transcript of 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de...

Page 1: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

1. Apendice: Repaso de probabilidad

1.1. Espacio de probabilidad

Es la terna (Ω,F ,P) donde Ω es un conjunto arbitrario, aunque en la Teorıa de Probabilidad sele conoce como espacio muestral, y es el conjunto de posibles resultados de un experimento aleatorio.

F es una σ-algebra de subconjuntos de Ω que satisface:

1. Ω ∈ F

2. Si A ∈ F , entonces Ac ∈ F

3. Si A1, A2, ..., An ∈ F , entonces A1 ∪A2 ∪ ... ∪An ∈ F

P : F → [0, 1] es una funcion conocida como medida de probabilidad que cumple:

1. P (Ω) = 1

2. P (A) ≥ 0 ∀ A ∈ F

3. Si A1, A2, ... ∈ F y Ai ∩Aj = ∅, i 6= j, entonces P (⋃∞i=1Ai) =

∑ni=1 P (Ai)

Proposicion 1.1 (Algunas propiedades de P)

(a) Si A ⊆ B entonces P (A) ≤ P (B).

(b) P (∅) = 0

(c) P (Ac) = 1− P (A)

(d) P (A ∪B) = P (A) + P (B)− P (A ∩B)

(e) Desigualdad de Boole P (⋃ni=1Ai) ≤

∑ni=1 P (Ai)

(f) Formula Adicion-Sustraccion P (⋃ni=1Ai) =

∑ni=1 P (Ai)−

∑i 6=j P (Ai∩Aj)+

∑i1>i2>i3

P (Ai1∩Ai2 ∩Ai3) + ...+ (−1)n+1P (

⋂ni=1Ai)

1.2. Probabilidad Condicional e independencia

Sean A y B en F tal que P (B) > 0. Entonces

P (A|B) =P (A ∩B)

P (B)

Proposicion: P (·|B) es una medida de probabilidad.

Teorema de la probabilidad total: Sean B1, B2, ..., Bn ∈ F tales que Bi ∩ Bj = ∅ ∀ i 6=j y

⋃ni=1Bi = Ω, entonces para A ∈ F : P (A) =

∑ni=1 P (A|Bi)P (Bi)

Teorema de Bayes: P (Bj |A) = P (A∩Bj)P (A) =

P (A|Bj)P (Bj)∑ni=1 P (A|Bi)P (Bi)

Definicion 1.1 Se dice que A y B ∈ F son independientes si solo si P (A ∩B) = P (A)P (B)

Definicion 1.2 Se dice que A1, A2, ..., An ∈ F son inpendientes (entre sı) si y solo si

Page 2: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

P (Ai ∩Aj) = P (Ai) ∩ P (Aj) para i 6= j.

P (Ai ∩Aj ∩Ak) = P (Ai) ∩ P (Aj) ∩ P (Ak) para i 6= j 6= k 6= i....

P (A1 ∩A2... ∩An) = P (A1) ∩ P (A2)... ∩ P (An)

Teorema 1.1 Si A y B son independientes entonces

1. A y Bc son independientes

2. Ac y B son independientes

3. Ac y Bc son independientes

1.3. Variables aleatorias

Sea (Ω,F ,P) un espacio de probabilidad. Una variable aleatoria es una funcion X : Ω→ R quees F −medible, es decir, que ∀x ∈ R, X−1(−∞, x] = ω ∈ Ω : X(ω) ≤ x ∈ F .

Asociada a toda variable aleatoria X se tiene la bien conocida funcion de distribucion.

Definicion 1.3 Sea (Ω,F ,P) un espacio de probabilidad y X : Ω → R una variable aleatoria. Lafuncion de distribucion de X es una funcion FX : R→ [0, 1] definida por

FX(x) = P(ω ∈ Ω : X(ω) ≤ x) := P(X ≤ x)

Sin embargo, generalmente se trabajara con variables aleatorias unicamente discretas o continuas.

Definicion 1.4 Se dice que fX : R→ [0, 1] es una funcion de densidad de probabilidad (asociada aX) si satisface

Para el caso de variables aleatorias discretas:fX(x) : R→ [0, 1], definida por fX(x) = P (X = x) y que cumple:

1. fX(x) ≥ 0 ∀ x ∈ R

2.∑

x fX(x) = 1

Para el caso de variables aleatorias continuas fX :

1. fX(x) ≥ 0 ∀ x ∈ R

2.∫∞−∞ fX(x)dx = 1

1.4. Caracterısticas numericas de variables aleatorias

1.4.1. Esperanza y varianza

La esperanza tambien se conoce como valor esperado o media, se denota como E(X) = µX y sedefine como:

E(X) =

∑xx · P(X = x) si X es discreta;∫∞−∞ x · fX(x)dx si X es continua

2

Page 3: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

Una vez definida la esperanza, se puede definir el concepto de varianza de la siguiente manera:

Si X es una variable aleatoria entonces su varianza esta dada por

V ar(X) = E[(X − E(X))2

]Proposicion 1.2 (Algunas propiedades de E(X)) Si X y Y son variables aleatorias, entonces

1. Si P(X ≥ 0) = 1, entonces E(X) ≥ 0

2. Si P(X ≥ Y ) = 1, entonces E(X) ≥ E(Y )

3. Si a y b son constantes reales, entonces E(aX + b) = aE(X) + b

4. Si X y Y son variables aleatorias independientes y g(·) es una funcion real entonces E[g(X)h(Y )] =E[g(X)]E[h(Y )]

Proposicion 1.3 (Algunas propiedades de V ar(X)) Si X es variable aleatoria, entonces

1. V ar(X) ≥ 0 y V ar(X) = 0⇔ P (X = c) = 1 donde c es una constante real

2. V ar(aX + b) = a2V ar(X)

3. V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X,Y )

4. V ar(X − Y ) = V ar(X) + V ar(Y )− 2Cov(X,Y )

DondeCov(X,Y ) = E[(X − E(X))(Y − E(Y ))] = E(XY )− E(X)E(Y )

Notese que Cov(X,X) = V ar(X).

Proposicion 1.4 Si X y Y son variables aleatorias independientes, entonces Cov(X,Y ) = 0

1.4.2. Ley del estadıstico inconsciente

Si X es una variable aleatoria, la ley de estadıstico inconsciente establece que si g(·) es unafuncion real, entonces

E[g(X)] =

∑xg(x) · P(X = x) si X es discreta;∫∞−∞ g(x) · fX(x)dx si X es continua

En virtud de la ley del estadıstico inconsciente se puede dar una expresion para la varianza

V ar(X) =

∑x

(x− µX)2 · P(X = x) si X es discreta;∫∞−∞(x− µX)2 · fX(x)dx si X es continua

3

Page 4: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

1.4.3. Momentos

El k-esimo momento de una variable aleatoria X se define como E(Xk) y debido a la ley delestadıstico inconsciente se puede calcular de la siguiente manera

E(Xk) =

∑xxk · P(X = x) si X es discreta;∫∞−∞ x

k · fX(x)dx si X es continua

Se puede dar una relacion de la varianza de una variable aletoria X con su segundo momentode la siguiente manera

V ar(X) = E[(X − µX)2

]= E

[X2 − 2µXX + µ2

X

]= E(X2)− 2µXE(X) + µ2

X = E(X2)− E2(X)

∴ V ar(X) = E(X2)− E2(X)

1.4.4. Funcion generadora de momentos

La funcion generadora de momentos de una variable aleatoria X, denotada por mX(t), se definecomo mX(t) = E

(etX).

Y utilizando la ley de estadıstico incosciente

mX(t) = E(etX)

=

∑xetx · P(X = x) si X es discreta;∫∞−∞ e

tx · fX(x)dx si X es continua

Esta funcion recibe el nombre de “generadora de momentos” debido a la siguiente observacion

E(etX)

= E[1 + tX +

(tX)2

2!+

(tX)3

3!+ . . .

]= 1 + tE(X) +

t2

2!E(X2) +

t3

3!E(X3) + . . .

Entonces, ∂∂tE(etX) = E(X) + tE(X2) + t2

2!E(X3) + . . ..

Evaluando en t = 0 se tiene que m′X(0) = E(X).

Tambien notese que ∂2

∂t2E(etX) = E(X2) + tE(X3) + . . ..

De nuevo, evaluando en t = 0 se tiene que m′′X(0) = E(X2).

En general m(k)X (0) = E(Xk), de aquı el nombre en particular.

Ejemplo 1.1 (Generadora de momentos de la distribucion Poisson)

Sea X una variable aleatoria con distribucion Poisson(λ). Calcular E(X) y E(X2).

fX(x) =e−λλx

x!I(x)0,1,2,.. con λ > 0

4

Page 5: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

mX(t) = E[etX ] =

∞∑x=0

etxe−λλx

x!

= e−λ∞∑x=0

(etλ)x

x!

= e−λeetλ

= e−λ(et−1)

∴ mX(t) = e−λ(et−1)

Derivando se llega a que

m′x(t) = eλ(et−1)λet

m′′x(t) = eλ(et−1)λet + λeteλ(et−1)λet

Evaluando en t = 0:

m′X(0) = eλ(et−1)λet = λ = E(X)

m′′X(0) = λ+ λ2 = E(X2)

Usando los resultados anteriores se puede obtener V ar(X)

V ar(X) = E[(X − E(X))2] = E(X2)− E2(X) = λ+ λ2 − λ2 = λ

∴ E(X) = λ = V ar(X)

1.4.5. Coeficiente de correlacion ρxy

Si X y Y son variables aleatorias, entonces se define el coeficiente de correlacion, denotado porρxy, de la siguiente manera

ρxy =Cov(X,Y )√V ar(X)V ar(Y )

Se puede probar que −1 ≤ ρxy ≤ 1.

1.4.6. Suma de variables aletorias

Considerense X1, . . . , Xn variables aleatorias independientes con f.d.p. fXi(xi). Se desea determi-

nar como se distribuye Y = X1 + · · ·+Xn =n∑j=1

Xj . Se utilizara la funcion generadora de momentos

para esto

5

Page 6: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

mY (t) = E[etY]

= E

expt n∑

j=1

Xj

= E

[etX1+···+tXn]

= E[etX1 · · · · · etXn

]= E

[etX1

]· · · · · E

[etXn

]= mX1(t) · · · · ·mXn(t)

=

n∏j=1

mXj (t)

∴ mY (t) =

n∏j=1

mXj (t)

Y si ademas X1, . . . , Xn son identicamente distribuidas, entonces

m∑nj=1Xj

(t) = (mX1(t))n

2. Introduccion

2.1. Conceptos Basicos

La teorıa de probabilidad permite modelar ciertos fenomenos que ocurren en la naturaleza. Elmodelo basico considera un espacio de probabilidad y una variable aleatoria X definida sobre eseespacio. Dada una variable aleatoria X se tiene asociada una funcion de densidad fX(x; θ), la cualactua en funcion de caracterısticas desconocidas llamadas parametros. Gracias a la funcion de den-sidad de probabilidad se pueden hacer aseveraciones como “el numero de accidentes que ocurren enel cruce Insurgentes y Reforma es una variable aleatoria X que tiene una distribucion Poisson(λ)”.Asimismo, se puede contestar cualquier pregunta probabilıstica relacionada con la variable aleatoriacomo: ¿cual es la probabilidad de que no haya accidentados en un dıa determinado? Sin embargo,las respuestas a estas preguntas quedan en terminos de parametros, por ejemplo si X ∼ Poisson(λ),P (X = 0) = e−λ, esta en funcion de λ, donde λ > 0. Si se conociera el valor de λ, serıa posi-ble obtener un valor numerico para las preguntas probabilısticas asociadas a la variable aleatoria.El objetivo sera dar una aproximacion para el valor del parametro con base en observaciones delfenomeno en cuestion.

Es decir, la estadıstica tendra la tarea de analizar e interpretar la informacion obtenida de unacierta poblacion con la finalidad de concluir sobre la ley de probabilidad que rige un fenomenoaleatorio. Este procedimiento se conoce como inferencia estadıstica o estadıstica matematica.

2.2. Enfoques

Descriptivo: Resumen y descripcion de un conjunto de datos mediante graficas y medidasdescriptivas.

Inferencial: Analisis e interpretacion de la informacion obtenida de una poblacion para hacerconclusiones generales acerca de las caracteristicas desconocidas de dicha poblacion.

6

Page 7: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

De acuerdo a lo que se desea conocer del parametro se tenen tres problemas en inferencia es-tadıstica:

1. Estimacion puntual: Consiste en obtener un valor numerico unico para el parametro.

2. Estimacion por intervalo: Consiste en obtener un rango de valores que el parametro puedetomar.

3. Pruebas de hipotesis: Consiste en contrastar dos aseveraciones acerca de la distribucion deuna variable aleatoria.

Definicion 2.1 Al conjunto de valores que el parametro θ puede tomar se le llama espacio parametri-co y se le denota por Θ.

Ejemplos:

En el caso de la distribucion Bernoulli Θ = [0, 1]

En el caso de la distribucion Poisson Θ = (0,∞)

Notacion:

En adelante, se usara la notacion f(x; θ) para la funcion de densidad de una variable aleatoria.

Θ especifica una familia de distribuciones: f∗ = f(x; θ) : θ ∈ Θ

Ejemplo:

Si X se distribuye Poisson(θ), entonces f∗ =f(x; θ) = e−θθx

x! : θ > 0

El procedimiento para obtener las observaciones con las cuales se intenta dar un pronostico paraθ debe ser tal que el experimento se realice siempre bajo las mismas condiciones y sin importar losresultados anteriores es decir se obtendran observaciones independientes. Cuando se ha obtenidouna muestra se tienen n observaciones numericas (x1, x2, . . . , xn), pero cuando se esta planificandoel procedimiento de muestreo y disenando el metodo para obtener inferencias aun no se sabe quevalores numericos se obtendran y deben considerarse n variables aleatorias X1, X2, . . . , Xn; estasvariables aleatorias seran independientes e identicamente distribuidas.

Definicion 2.2 Si X1, ..., Xn es un conjunto de variables aleatorias, independientes e identicamentedistribuidas, entonces se dice que X1, ..., Xn es una muestra aleatoria (m.a.).

Observacion:

Si X1, ..., Xn es una muestra aleatoria, entonces su funcion de densidad conjunta esta dada por

fX1,...,Xn(x1, ..., xn) =n∏i=1

f(xi; θ)

. La distribucion de la muestra aleatoria sera la funcion de densidad conjunta de las variablesaleatorias que componen la muestra aleatoria.

Definicion 2.3 El espacio de las muestras es el conjunto de valores que puede tomar la muestraaleatoria X1, ..., Xn y se denota por X

7

Page 8: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

Definicion 2.4 Una estadıstica o estadıstico es cualquier funcion de la muestra aleatoria queno dependa de parametros desconocidos.

Ejemplos:

T (X) =∑ni=1 Xin =: X media muestral

T (X) =∑ni=1(Xi−X)2

n−1 =: S2 varianza muestral

X(1) = min X1, X2, ..., Xn mınima estadıstica de orden

X(n) = max X1, X2, ..., Xn maxima estadıstica de orden

T (X) = 1n

∑ni=1X

ri r-esimo momento muestral

Proposicion 2.1 Si X1, ..., Xn es una muestra aleatoria de f(x, θ), entonces

E(X) = µ y V ar(X) =σ2

n

Demostracion:

E(X) = E(∑n

i=1Xi

n

)=

1

n

n∑i=1

E(Xi) =1

n· nµ = µ

∴ E(X) = µ

Ahora,

V ar(X) = V ar

(∑ni=1Xi

n

)=

1

n2

n∑i=1

V ar(Xi) =nσ2

n2=σ2

n

∴ V ar(X) =σ2

n

A continuacion se da una identidad que sera de utilidad mas adelante:

Proposicion 2.2 Si X1, ..., Xn es una muestra aleatoria de f(x, θ), entonces

n∑i=1

(Xi − µ)2 =n∑i=1

(Xi − X)2 + n(X − µ)2

Demostracion:

n∑i=1

(Xi − µ)2 =n∑i=1

(Xi − X + X − µ)2

=n∑i=1

((Xi − X)2 + 2(Xi − X)(X − µ) + (X − µ)2)

=

n∑i=1

(Xi − X)2 + 2(X − µ)

n∑i=1

(Xi − X) + n(X − µ)2

=n∑i=1

(Xi − X)2 + n(X − µ)2

Ahora se probara que E(S2) = σ2

8

Page 9: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

Proposicion 2.3 Si X1, ..., Xn es una muestra aleatoria de f(x, θ), entonces

E(S2) = σ2

Demostracion:

E(S2) =1

n− 1E

(n∑i=1

(Xi − X)2

)

=1

n− 1E

(n∑i=1

(Xi − µ)2 − n(X − µ)2

)

=1

n− 1

[n∑i=1

E((Xi − µ)2)− nE((X − µ)2)

]

=1

n− 1

[n∑i=1

V ar(Xi)− n · V ar(X)

]

=1

n− 1

(nσ2 − nσ2

n

)= σ2

Ejemplo:

Se quiere conocer la probabilidad θ de obtener sol con cierta moneda, es decir, se esta estudiandola variable aleatora que toma valores X = 1 si sale sol y X = 0 si sale aguila, donde θ = P (X = 1),y para ello se realizaran tres lanzamientos de la moneda. En este caso, f(x; θ) = θx(1 − θ)1−x conx = 0, 1; por lo tanto se esta considerando una muestra aleatoria de tamano tres de la distribucionBernoulli(θ)

Resultados x1, x2, x3 Distribucion x s2

s,s,s 1,1,1 θ3 1 0

a,a,s 0,0,1 θ(1− θ)2 1/3 1/3

a,s,a 0,1,0 θ(1− θ)2 1/3 1/3

s,a,a 1,0,0 θ(1− θ)2 1/3 1/3

s,s,a 1,1,0 θ2(1− θ) 2/3 1/3

a,s,s 0,1,1 θ2(1− θ) 2/3 1/3

s,a,s 1,0,1 θ2(1− θ) 2/3 1/3

a,a,a 0,0,0 (1− θ)3 0 0

Entonces, la funcion de densidad conjunta esta dada por

fX1,X2,X3(x1, x2, x3) =3∏i=1

f(x; θ) =3∏i=1

θxi(1− θ)1−xi = θ∑3i=1 xi(1− θ)3−xi

y la funcion de densidad de la media y varianza muestrales

fX(x) =

θ3 si x = 1;

(1− θ)3 si x = 0;

3θ(1− θ)2 si x = 1/3;

3θ2(1− θ) si x = 2/3

fS2(s2) =

θ3 + (1− θ)3 si s2 = 0;

3θ(1− θ)2 + 3θ2(1− θ) si s2 = 1/3

9

Page 10: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

2.3. Muestreo de la Distribucion Normal

Proposicion 2.4 Sea X1, . . . , Xn una muestra aleatoria de la ditribucion N(µ, σ2), entonces

X ∼ N(µ, σ2/n)

Demostracion:

Para demostrar esto se obtendra la funcion generadora de momentos de X

mX(t) =E(etX) = E(et·

∑ni=1 Xin

)= E

(n∏i=1

etnXi

)

=n∏i=1

E(etnXi)

pues X1, . . . , Xn son independientes

=n∏i=1

mXi (t/n)

=

n∏i=1

etnµ+ 1

2· t

2

n2 σ2

pues X1, . . . , Xn son identicamente distribuidas

=etµ+ 12t2 σ

2

n

∴ mX(t) = etµ+ 12t2 σ

2

n

∴ X ∼ N(µ,σ2

n)

A continuacion se recordaran dos distribuciones importantes: gamma y ji-cuadrada.

Distribucion Gamma

Se dice que X variable aleatoria continua tiene distribucion gamma con parametros r y λ sifuncion de densidad de probabilidad esta dada por

f(x; r, λ) =λr

Γ(r)xr−1e−λx, x > 0

donde Γ(r) =∫∞

0 xr−1e−xdx es conocida como la funcion gamma. Se denota X ∼ Gamma(r, λ).Ademas:

E(X) = rλ

V ar(X) = rλ2

mX(t) =(

λλ−t

)rRecordatorio:

La funcion gamma satisface

Γ(r + 1) = rΓ(r) y si r ∈ N entonces Γ(r + 1) = r!

10

Page 11: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

Distribucion Ji-Cuadrada

Se dice que X variable aleatoria continua tiene distribucion Ji-cuadrada con k grados de libertadsi funcion de densidad de probabilidad esta dada por

f(x; k) =

(12

)k/2Γ(k2

) x k2−1e−12x, x > 0

Se denota X ∼ χ2(k). Ademas:

E(X) = k/21/2 = k

V ar(X) = k/21/4 = 2k

mx(t) = ( 1/21/2−t)

k2 = ( 1

1−2t)k/2

Teorema 2.1 Sean X1, . . . , X−n variables aleatorias independientes tales que ∀iin1, . . . , n Xi ∼N(µi, σ

2i ). Entonces

n∑i=1

Z21 ∼ χ2

(n)

donde Zi = Xi−µiσi

Demostracion:

Se sabe que Zi ∼ N(0, 1), entonces

mZ2i(t) = E

(etZ

2i

)=

∫ ∞−∞

etz2i

1√2πe−z

2i /2 dzi

=

∫ ∞−∞

1√2πe−

12z2i (1−2t) dzi

=

√1

1− 2t

∫ ∞−∞

1√2π( 1

1−2t)e−

12z2i (1−2t) dzi

=

√1

1− 2t

∫ ∞−∞

1√2π( 1

1−2t)e− 1

2· 11/(1−2t)

z2i dzi

=

√1

1− 2t

∫ ∞−∞

1√2π( 1

1−2t)e− 1

2· 11/(1−2t)

z2i dzi

︸ ︷︷ ︸1

=

(1

1− 2t

)1/2

Entonces,

m∑ni=1 Z

2i(t) =

n∏i=1

mZ2i(t) =

n∏i=1

(1

1− 2t

)1/2

=

(1

1− 2t

)n/2Teorema 2.2 Considerese X1, . . . , Xn una muesra aleatoria de la distribucion N(µ, σ2). Entonces

11

Page 12: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

1. X y el vector (X1 − X, ..., Xn − X)son independientes.

2. X y S2 son independientes.

3. (n−1)S2

σ2 ∼ χ2(n−1)

4. E(S2) = σ2 y V ar(S2) = 2σ4

n−1

Demostracion:

1. La funcion generadora conjunta del vector aleatorio (X1 − X, ..., Xn − X) esta dada por

mX1−X,...,Xn−X(t1, ..., tn) =E(et1(X1−X)+...+tn(Xn−X)

)=E(e

∑ni=1 Xi(ti−t))

=E

(n∏i=1

eXi(ti−t)

)

=

n∏i=1

E(eXi(ti−t)

)=

n∏i=1

mXi(ti − t)

=∏

e(ti−t)µ+ 12

(ti−t)2σ2

=e12

∑ni1

(ti−t)2σ2

∴ mX1−X,...,Xn−X(t1, ..., tn) = e12

∑ni1

(ti−t)2σ2

Y recuerdese que la funcion generadora de momentos de X esta dada por

mX(t) = etµ+ 12t2 σ

2

n

Y por otro lado:

12

Page 13: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

mX,(X1−X,...,Xn−X)(t, t1, ..., tn) =E(etX+

∑ni=1 ti(Xi−X)

)=E

(etn

∑ni=1Xi+

∑ni=1 Xi(ti−t)

)=E

(e∑ni=1Xi(

tn

+(ti−t)))

=

n∏i=1

E(eXi(

tn

+(ti−t)))

=n∏i=1

mXi

(t

n+ (ti − t)

)

=n∏i=1

e(tn

+(ti−t))µ+ 12( t2 +(ti−t))

2σ2

=etµ+ 12

( t2nn2 +

∑ni=1(ti−t)2)2

=etµ+ 12t2 σ

2

n+ 1

2

∑ni=1(ti−t)2σ2

= etµ+ 12t2 σ

2

n︸ ︷︷ ︸mX(t)

· e12

∑ni=1(ti−t)2σ2︸ ︷︷ ︸

mX1−X,...,Xn−X(t1,...tn)

∴ mX,(X1−X,...,Xn−X)(t, t1, ..., tn) = mX(t) ·mX1−X,...,Xn−X(t1, ..., tn)

∴ X y el vector (X1 − X, ..., Xn − X) son independientes

2. X y S2 son independientes porque S2 =∑ni=1(Xi−X)2

n−1 es funcion de (X1 − X, ..., Xn − X)

3. Observese que

(n− 1)S2

σ2=

∑ni=1(Xi − X)2

σ2

Usando la identidad

n∑i=1

(Xi − µ)2 =n∑i=1

(Xi − X)2 + n(X − µ)2

se tiene que ∑ni=1(Xi − µ)2

σ2=

∑ni=1(Xi − X)2

σ2+n(X − µ)2

σ2

Pero notese que

n∑i=1

(Xi−µ)2

σ2 =∑n

i=1

(Xi−µσ

)2∼ χ2

(n) y tambien n(X−µ)2

σ2 =(X−µσ/√n

)2∼ χ2

(1); y

como X es independiente de X1 − X, ..., Xn − X, entonces∑ni=1(Xi − X)2

σ2∼ χ2

(n−1)

∴(n− 1)S2

σ2∼ χ2

(n−1)

13

Page 14: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

4. Anteriormente se probo que E(S2) = σ2, sin embargo se puede dar una prueba alternativa.

Como (n−1)S2

σ2 ∼ χ2(n−1), entonces

E[

(n− 1)S2

σ2

]= n− 1⇒ (n− 1)

σ2E(S2)

= n− 1⇒ E(S2)

= σ2

Tambien como (n−1)S2

σ2 ∼ χ2(n−1), entonces

V ar

((n− 1)S2

σ2

)= 2(n−1)⇒ (n− 1)2

σ4V ar(S2) = 2(n−1)⇒ V ar(S2) =

2(n− 1)σ4

(n− 1)2=

2σ4

n− 1

∴ V ar(S2)

=2σ4

n− 1

De nuevo, se hara un recordatorio de dos distribuciones de probabilidad importantes: la F deFisher y la t de Student.

Distribucion F de Fisher

Se dice que una variable aletoria X tiene la distribucion F de Fisher con parametros m y n sisu funcion de densidad esta dada por:

f(x;m,n) =Γ(m+n

2 )

Γ(m2 )Γ(n2 )

(mn

)m/2 xm−2

2

[1 + (mn )x]m+n

2

x > 0, m, n ∈ N+

Se denota como X ∼ F (m,n)

Teorema 2.3 Si U y V son variables aleatorias independientes tales que U ∼ χ2(m) y V ∼ χ2

(n),entonces

U/m

V/n∼ F (m,n)

Demostracion:

Para probar esta proposicion se utilizara el teorema de cambio de variable. Defınase

X =nU

mVy Y = V

La funcion de densidad conjunta de U y V esta dada por

fU,V (u, v) = fU (u)fV (v) =12

m/2

Γ(m2 )um2−1e−

12u

12

n/2

Γ(n2 )vn2−1e−

12v

=12

(m+n)/2

Γ(m2 )Γ(n2 )e−

12

(u+v)um2−1v

n2−1

Como U = mnXY y ademas V = Y , entonces el Jacobiano de la transfomacion esta dado por

J =

∣∣∣∣ mn y

mn x

0 1

∣∣∣∣ =m

ny

14

Page 15: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

Entonces, la funcion de densidad conjunta de (X,Y ) esta determinada por

fX,Y (x, y) =m

ny ·

(12)

m+n2

Γ(m2 )Γ(n2 )e−

12

(mnx+1)y

(mnxy)m

2−1yn2−1

=(1

2)m+n

2

Γ(m2 )Γ(n2 )

(mn

)m2ym+n

2−1x

m2−1e−

12

(mnx+1)y

Y como la densidad marginal de X esta dada por

fX(x) =

∫ ∞−∞

fX,Y (x, y)dy

fX(x) =(1

2)m+n

2

Γ(m2 )Γ(n2 )

(mn

)m2xm2−1

∫ ∞0

ym+n

2−1e−

12

(mnx+1)ydy

=(1

2)m+n

2

Γ(m2 )Γ(n2 )(m

n)m2 x

m2−1 ·

Γ(m+n2 )

[12(mn x+ 1)]

m+n2

=Γ(m+n

2 )

Γ(m2 )Γ(n2 )·

(mn )m2 x

m−22

(mn x+ 1)m+n

2

∴ X =nU

mV∼ F (m,n)

PeronU

mV=U/m

V/n

∴U/m

V/n∼ F (m,n)

Utilidad de la distribucion F

Sean X1, ..., Xm+1 una muestra aleatoria de la distribucion N(µx, σ2x) y Y1, ..., Yn+1 una muestra

aleatoria de la distribucion N(µy, σ2y), de tal manera que ambas muestras son independientes entre sı.

En este caso X = 1m+1

∑m+1i=1 , Y = 1

n+1

∑n+1i=1 , S2

x = 1m

∑m+1i=1 (Xi−X)2 y S2

y = 1n

∑n+1j=1 (Yj−Y )2.

Entonces,mS2

x

σ2x

∼ χ2(m) y

nS2y

σ2y

∼ χ2(n)

Entonces, por el teorema anteriorS2xσ2x

S2y

σ2y

∼ F (m,n)

Distribucion t de Student

Se dice que una variablea aleatoria continua X tiene distribucion t de Student si su funcion dedensidad esta dada por

15

Page 16: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

f(x; k) =Γ(k+1

2 )

Γ(k2 )

1√kπ

1

(1 + x2

k )k+1

2

con k = 1, 2, . . .

Se denota como X ∼ t(k).

Teorema 2.4 Si Z y U son variables aleatorias independientes tales que Z ∼ N(0, 1) y U ∼ χ2(k),

entonces Z√U/k∼ t(k)

Utilidad de la distribucion t

2.4. Estadısticos de orden

Sea X1, . . . , Xn una muestra aleatoria de f(x; θ). Considerese la muestra ordenada en formaascendente X(1) ≤ X(2) ≤ . . . ≤ X(n), sus elementos son llamados estadısticas de orden o estadısticosde orden. Sea X(i) =: Yi

1.

2.4.1. r-esima estadıstica de orden (Yr)

Sea X1, . . . , Xn una muestra aleatoria de f(x; θ) con funcion de distribucion F (x; θ) = F . Sedenotara por:

Y1 ≤ Y2 ≤ . . . ≤ Yna las estadısticas de orden correspondientes a X1, . . . , Xn.

Para obtener FYr(y) se debe notar que FYr(y) = P (Yr ≤ y). Sin embargo, el evento Yr ≤ yocurre si y solo si al menos r de las Xi’s son menores o iguales a y, es decir si

∑ni=1 Zi ≥ r, donde

Zi =

1 si Xi ≤ y0 si Xi > y

Notese que Zi ∼ Bernoulli[P(Xi ≤ y)︸ ︷︷ ︸F (y)

], entonces∑n

i=1 Zi ∼ Bin(n, F (y)). Por tanto,

FYr(y) = P (Yr ≤ y) = P

(n∑i=1

Zi ≥ r

)=

n∑j=r

(n

j

)[F (y)]j [1− F (y)]n−j

∴ FYr(y) =n∑j=r

(n

j

)[F (y)]j [1− F (y)]n−j

Ahora usando este resultado se obtendra distribucion de la mınima estadistica de orden Y1:

FY1(y) =n∑j=1

(n

j

)[F (y)]j [1− F (y)]n−j

=[F (y) + 1− F (y)]n − [1− F (y)]n

=1− [1− F (y)]n

Y derivando se obtendra la funcion de densidad

1Las Y ′i s no son independientes, pues si Yj ≥ y entonces Yj+1 ≥ y, y en general Yi no corresponde con Xi

16

Page 17: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

fY1(y) = n[1− F (y)]n−1f(y)

De la misma forma, se obtendra la distribucion de la maxima estadistica de orden Yn:

FYn(y) = [F (y)]n

Y derivando se obtendra la funcion de densidad

fYn(y) = n[F (y)]n−1f(y)

2.4.2. Distribucion conjunta de la mınima y maxima estadıstica de orden

Recuerdese que

P[a < X ≤ b, c ≤ Y ≤ d] = FX,Y (a, c) + FX,Y (b, d)− FX,Y (a, d)− FX,Y (b, c)

Entonces, P[Y1 ≤ y1, Yn ≤ yn] = FYn(yn)− FY1,Yn(y1, yn).

Ahora,

P(y1 < Y1, Yn ≤ yn) =P(y1 < X1 ≤ yn, y1 < X2 ≤ yn, . . . , y1 < Xn ≤ yn)

=

n∏i=1

P [y1 < Xi ≤ yn] =

n∏i=1

(F (yn)− F (y1))

=(F (yn)− F (y1))n

∴ P(y1 < Y1, Yn ≤ yn) = (F (yn)− F (y1))n

Igualando las ultimas ecuaciones

FYn(yn)− FY1,Yn(y1, yn) = (F (yn)− F (y1))n

Por lo tanto, FY1,Yn(y1, yn) = FYn(yn)− (F (yn)− F (y1))n.

∴ FY1,Yn(y1, yn) = [F (yn)]n − (F (yn)− F (y1))n

Para obtener fY1,Yn(y1, yn) se derivara la expresion anterior

∂y1FY1,Yn(y1, yn) = n(F (yn)− F (y1))n−1f(y1)

Y entonces

∂2

∂yn∂y1FY1,Yn(y1, yn) = nf(y1)(n− 1)(F (yn)− F (y1))n−2f(yn)

De esta forma se concluye que:

fY1,Yn(y1, yn) = n(n− 1)(F (yn)− F (y1))n−2f(y1)f(yn)

Ejemplo:

Sea X1, . . . , Xn una muestra aleatoria de la distribucion U(0, 1). Obtener

(a) fY1(y1)

17

Page 18: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

(b) fYn(yn)

(c) fY1Yn(y1, yn)

Solucion:

Se sabe que f(x) = I(x)(0,1) y F (y) =

∫ y0 dx = y. Entonces

(a) FY1(y) = 1− [1− F (y)]n = 1− [1− y]n y por tanto fY1(y) = n(1− y)n−1.

(b) FYn(y) = yn y por tanto fYn(y) = nyn−1.

(c) fY1Yn(y1, yn) = n(n− 1)(yn − y1)n−2I(y1)(0,1)I

(yn)(0,1)

Algunas utilidades que tienen estos estimadores es para calcular algunas funciones como el ran-go R := Yn − Y1 y el promedio T := Yn+Y1

2 .

Para obtener fR,T (r, t) se utilizara la siguiente igualdad

fR,T (r, t) = |J | fY1Yn(y−11 (r, t), y−1

n (r, t))

Para encontrar la distribucion conjunta del rango y el promedio notese lo siguiente:

Yn = R+Y1, sustiuyendo se tiene que T = Y1+R+Y12 = Y1 + R

2 . Por tanto Y1 = T − R2 , entonces

Yn = R+ Y1 = T + R2

(R, T ) 7→ (T − R2 , T + R

2 ) = (Y1, Yn) es la transformacion involucrada.

J =

∣∣∣∣ −1/2 11/2 1

∣∣∣∣ = −12 −

12 = −1

Entonces al sustituir se obtiene

fR,T (r, t) = n(n− 1)[F(t+

r

2

)− F

(t− r

2

)]n−2f(t− r

2

)f(t+

r

2

)3. Estimacion Puntual

El objetivo de la estimacion puntual es encontrar un valor numerico para θ.

Definicion 3.1 Sea X1, . . . , Xn una muestra aleatoria de f(x; θ). Un estimador es una estadısticaT (X) cuyos valores t(x) sirven para aproximar los valores de θ. A los valores del estimador, o sea,t(x), se les llama estimado o estimada.

Notacion: T (X) = θ︸︷︷︸estimador de θ

Ejemplo:

Si se tiene una poblacion N(µ, σ2), un posible estimador para µ es µ = X.

18

Page 19: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

3.1. Metodos de estimacion

3.1.1. Metodos de Momentos

Definicion 3.2 Sea X1, . . . , Xn una muestra aleatoria de f(x; θ). Se conoce a E(Xri ) como el r-

esimo momento poblacional y se denota por µr. Tambien, se conoce a∑ni=1X

ri

n como el r-esimomomento muestral y se le denota por Mr.

El metodo de estimacion por momentos consiste en igualar los momentos muestrales con losmomentos poblacionales y resolver para θ. Esto es µr = Mr.

De manera general, para X1, . . . , Xn una muestra aleatoria de f(x; θ1, θ2, ..., θk), en la estimacionpor momentos se resuelve el siguiente sistema de ecuaciones

µ1 = M1 µ2 = M2, . . . , µk = Mk︸ ︷︷ ︸k ecuaciones con k incognitas

La solucion a este sistema θ = (θ1, ...., θk) se conoce como el estimador por el metodo de momen-tos.

Ejemplos:

1. Sea X1, . . . , Xn una muestra aleatoria de la distribucion Poisson(θ). Como E(X) = θ, entonces

θ =∑ni=1Xin .

2. Sea X1, . . . , Xn una muestra aleatoria de la distribucion exp(θ). Como E(X) = 1θ , entonces

X = 1θ . Por tanto, θ = 1/X.

3. SeaX1, . . . , Xn una muestra aleatoria de la distribucionN(µ, σ2). Como E(X) = µ y V ar(X) =σ2, entonces E(X2) = µ2 + σ2. Por tanto, X = µ y X2 + σ2 = 1

n

∑ni=1X

2i . Es decir,

σ2 = 1n

∑ni=1X

2i − X2. Pero notese que

n∑i=1

(Xi − X)2 =n∑i=1

(X2i − 2XXi − X2)

=n∑i=1

X2i − 2X

n∑i=1

Xi + nX2

=n∑i=1

X2i − 2nX2 + +nX2 =

n∑i=1

X2i − nX2

∴1

n

n∑i=1

(Xi − X)2 =1

n

n∑i=1

X2i − X2

Entonces los estimadores por momentos para µ y σ2 son

µ = X y σ2 =1

n

n∑i=1

(Xi − X)2

19

Page 20: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

3.2. Metodo de Maxima Verosimilitud

Para comprender mejor este metodo se presenta primero el siguiente ejemplo.

Ejemplo:

Se tiene una gran urna llena de bolas negras y blancas, de las cuales se desconoce el numerode cada una de ellas, pero se sabe que la razon es de 3 a 1. Se desea estimar la proporcion debolas negras en la urna. Se toma una muestra de tamano 3, X1, X2, X3, con reemplazo. Notese queXi ∼ Bernoulli(θ).

Observaciones:

θ es la probabilidad de obtener bola negra, es decir, θ = P(Xi = 1).

θ solo puede tomar los valores 14 y 3

4 , debido a a que la razon establecida de 3:1.

X :=∑3

i=1Xi es el numero de bolas negras en la muestra. Y por tanto, X puede tomar losvalores x = 0, 1, 2, 3.

X ∼ Bin(n = 3, θ)

Valor de θ P (X = 0) P (X = 1) P (X = 2) P (X = 3)

θ = 1/4 27/64 27/64 9/64 1/64

θ = 3/4 1/64 9/64 27/64 27/64

Se escoge el valor de θ que maximiza la probabilidad de una muestra. Si en la muestra seobtuvieron 0 bolas negras, entonces θ = 1/4 porque es mas facil obtener (con este valor de θ) 0 bolasnegras que con θ = 3/4. Ahora si en la muestra se obtienen 2 bolas negras entonces θ = 3/4, ya quees mas probable obtener 2 bolas negras con θ = 3/4 que con θ = 1/4.

Definicion 3.3 Sea X1, . . . , Xn una muestra aleatoria de f(x; θ). Se define la funcion de verosimil-itud como la funcion de densidad conjunta de la muestra y se denota como L(θ). Es decir

L(θ) = fX1,...,Xn(x1, ..., xn; θ) =n∏i=1

fXi(xi; θ)

Definicion 3.4 Sea X1, . . . , Xn una muestra aleatoria de f(x; θ) y L(θ) la correspondiente verosimil-itud. θ = T (X) sera el estimador maximo verosimil si θ satisface que para cualquier θ ∈ Θ se tieneque L(θ) > L(θ).

3.2.1. Metodo General

Sea f(x; θ1, θ2, . . . , θk) una funcion de densidad con k parametros. Si (θ1, ...θk) satisface el sistema

∂L(θ1, θ2, ...θk)

∂θi= 0 i = 1, 2, ..., k

entonces (θ1, ...θk) es el estimador maximo verosimil de θ.

Notese que

∂θiLn(L(θ1, θ2, . . . , θk)) =

1

L(θ1, θ2, . . . , θk)· ∂∂θi

L(θ1, θ2, . . . , θk)

20

Page 21: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

Por tanto,

∂θiLn(L(θ1, θ2, . . . , θk)) = 0⇔ ∂

∂θiL(θ1, θ2, . . . , θk) = 0

Es decir, Ln(L(θ1, θ2, . . . , θk)) alcanza su maximo en el mismo punto que L(θ1, θ2, . . . , θk).

En virtud de la observacion anterior se define la log-verosimilitud de f(x; θ1, θ2, . . . , θk) como

l(θ1, θ2, . . . , θk) = Ln(L(θ1, θ2, . . . , θk))

Frecuentemente, por practicidad, se calcula el maximo de l(θ) en vez del de L(θ).

Ejemplo 3.1 (Muestra de Bernoulli(θ))

Sea X1, . . . , Xn una muestra aleatoria de la distribucion Bnlli(θ). Obtener el estimador maximoverosimil de θ.

L(θ) =n∏i=1

f(xi, θ) =n∏i=1

θxi(1− θ)1−xi = θ∑ni=1 xi(1− θ)1−

∑ni=1 xi

Entonces,

l(θ) = Ln(L(θ)) = Ln(θ∑ni=1 xi(1− θ)n−

∑ni=1 xi

)= Ln(θ)

n∑i=1

xi + Ln(1− θ)

(n−

n∑i=1

xi

)Luego,

∂θl(θ) =

∑ni=1 xiθ

−n−

∑ni=1 xi

1− θPor tanto,

∂θl(θ) = 0⇔

∑ni=1 xiθ

=n−

∑ni=1 xi

1− θ⇔ 1

θ− 1 =

n∑ni=1 xi

− 1⇔ 1

θ=

1

x⇔ θ = x

Ahora se verificara que sea un maximo

∂2l(θ)

∂θ2= −

∑ni=1 xiθ2

−n−

∑ni=1 xi

(1− θ)2= −

(∑ni=1 xiθ2

+n−

∑ni=1 xi

(1− θ)2

)< 0

∴ El estimador maximo verosimil de θ es θMV = X

Ejemplo 3.2 (Muestra de exp(θ))

Sea X1, . . . , Xn una muestra aleatoria de la distribucion exp(θ). Obtener el estimador maximoverosimil de θ.

L(θ) =

n∏i=1

f(xi, θ) =

n∏i=1

θe−θxiI(0,∞)(xi) = θne−θ∑ni=1 xi

n∏i=1

I(0,∞)(xi)

Entonces,

l(θ) = Ln(L(θ)) = Ln

(θne−θ

∑ni=1 xi

n∏i=1

I(0,∞)(xi)

)= nLn(θ)− θ

n∑i=1

xi +

n∑i=1

Ln(I(0,∞)(xi))

21

Page 22: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

Luego,

∂θl(θ) =

n

θ−

n∑i=1

xi

Por tanto,

∂θl(θ) = 0⇔ n

θ=

n∑i=1

xi ⇔1

θ=

∑ni=1 xin

⇔ 1

θ= x⇔ θ =

1

x

Ahora se verificara que sea un maximo

∂2l(θ)

∂θ2= − n

θ2< 0

∴ El estimador maximo verosimil de θ es θMV =1

X

Ejemplo 3.3 (Muestra de Poisson(θ))

Sea X1, . . . , Xn una muestra aleatoria de la distribucion Poisson(θ). Obtener el estimador maximoverosimil de θ.

L(θ) =n∏i=1

f(xi, θ) =n∏i=1

e−θθxi

xi!I0,1,2,...(xi) = e−nθθ

∑ni=1 xi

n∏i=1

I0,1,2,...(xi)

xi!

Entonces,

l(θ) = Ln(L(θ)) = Ln

(e−nθθ

∑ni=1 xi

n∏i=1

I0,1,2,...(xi)

xi!

)= −nθ+Ln(θ)

n∑i=1

xi+n∑i=1

Ln

(I0,1,2,...(xi)

xi!

)Luego,

∂θl(θ) = −n+

∑ni=1 xiθ

Por tanto,

∂θl(θ) = 0⇔ n =

∑ni=1 xiθ

⇔ θ =

∑ni=1 xin

⇔ θ = x

Ahora se verificara que sea un maximo

∂2l(θ)

∂θ2= −

∑ni=1 xiθ2

< 0

∴ El estimador maximo verosimil de θ es θMV = X

Ejemplo 3.4 (Metodologıa no estandar)

SeaX1, . . . , Xn una muestra aleatoria de la distribucion f(x; θ) = I[θ− 12,θ+ 1

2](x). Obtener el estimador

maximo verosimil de θ.

Ejemplo 3.5 (Muestra normal)

Sea X1, . . . , Xn una muestra aleatoria de la distribucion N(µ, σ2). Obtener los estimadores maximo-verosımiles de µ y σ2.

22

Page 23: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

3.2.2. Propiedad de invarianza de los Estimadores maximo-verosimiles

Proposicion 3.1 Si θ es el estimador maximo verosimil de θ, entonces τ(θ) es el estimador maximoverosımil de τ(θ)2.

Ejemplo:

Sea X1, . . . , Xn una muestra aleatoria de la distribucion N(µ, σ2). Se sabe que el estimadormaximo verosımil de µ es X. Para encontrar el estimador maximo verosımil de τ(µ) = sen (µ)

τ(µ) = τ(µ) = sen(µ) = sen(X)

Ejemplo:

Sea X1, . . . , Xn una muestra aleatoria de la distribucion Bnlli(θ). Se desea encontrar el estimadormaximo verosimil de τ(θ) = θ(1− θ). Se sabe que el estimador maximo verosımil de θ es θMV = X.Entonces

τ(θ)MV = τ(θMV ) = τ(X) = X(1− X)

3.2.3. Error cuadratico medio

Definicion 3.5 Sea T (X1, . . . , Xn) un estimador de τ(θ). Se define el error cuadratico medio(ECM) de T como

ECMT (θ) = E[(T − τ(θ))2]

Si se tienen dos estimadores T1(X) y T2(X) para τ(θ) y ECMT1(θ) < ECMT2(θ), entonces seelige a T1 como estimador para τ(θ).

Si se desarrolla la ecuacion E[(T (X)− τ(θ))2], entonces

ECMT (θ) = E[T 2 − 2τ(θ)T + (τ(θ))2]

= E(T 2)− 2τ(θ)E(T ) + τ2(θ)

= E(T 2)− E2(T ) + E2(T )− 2τ(θ)E(T ) + τ2(θ)

= V ar(T ) + [E(T )− τ(θ)︸ ︷︷ ︸sesgo de T

]2

A E(T)− τ(θ) se le conoce como sesgo de T . Es importante hacer notar que si el sesgo de T escero, entonces ECMT (θ) = V ar(T ).

Definicion 3.6 Un estimador T de τ(θ) es insesgado si E(T ) = τ(θ) (es decir, en promedio, elestimador es igual al parametro).

Nota: Si T es insesgado, entonces ECMT (θ) = V ar(T ).

Observaciones:

1. E[(T−τ(θ))2] =∫..∫

(t(x1, x2 . . . , xn)−τ(θ))2fX1(x1; θ)fX2(x2; θ) . . . fXn(xn; θ)dx1dx2 . . . dxn

2. El ECM es una medida de la dispersion de T alrededor de τ(θ).

2Esta propiedad fue demostrada por Zehna (1966) en el artıculo Invariance Property of Maximum LikelihoodEstimators en la revista Annals of Mathematical Statistics

23

Page 24: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

3. T1 y T2 pueden cruzarse, en general no se cumple que para todo θ ∈ Θ T1 < T2 (o T1 > T2).

Ejemplo:

Sea X1, . . . , Xn una muestra aleatoria de la distribucion N(µ, σ2). Considerense T1(X) = X es-timador para µ y T2(X) = S2 = 1

n−1

∑ni=1(Xi − X)2 y T3(X) = σ2

MV = 1n

∑ni=1(Xi − X)2 = n−1

n S2

estimadores para σ2.

¿Son insesgados?

Notese que E(T1(X)) = E(X) = µ. Por tanto T1 sı es insesgado.

Tambien notese que E(T2(X) = E(S2) = σ2. Por tanto T2 si es insesgado.

Sin embargo, E(T3(x)) = E[n−1n S2

]= n−1

n E[S2]

= n−1n σ2. Por tanto, T3 no es insesgado.

Para encontrar el error cuadratico medio de T1, T2 y T3:

Como T1 es insesgado, entonces ECMT1(µ, σ2) = V ar(X) = σ2

n .

Como T2 es insesgado, entonces ECMT2(µ, σ2) = V ar(S2) = 2σ4

n−1 .

Sin embargo, como T3 no es insesgado, entonces ECMT3(µ, σ2) = V ar(T3) + (sesgo2). Pero

V ar(T3) = V ar(n−1n S2

)= (n−1)2

n22σ4

n−1 = 2(n−1)n2 σ4. Y (sesgo)2 = (E(T3)−σ2)2 =

(n−1n σ2 − σ2

)2=(

n−1−nn

)2σ4 = σ4

n2 . Por tanto, ECMT3(µ, σ2) = 2(n−1)n2 σ4 + σ4

n2 = 2n−1n2 σ4.

Pero notese que

2

n<

2

n− 1⇒ 2

n− 1

n2<

2

n− 1⇒ 2n− 1

n2<

2

n− 1⇒ (2n− 1)σ4

n2<

2σ4

n− 1⇒ ECMT3 < ECMT2

Con esto se puede observar que aunque T2 es insesgado, T3 tiene un menor ECM, lo cual nosdemuestra que no siempre un estimador insesgado tendra el menor ECM.

3.3. Consistencia

Definicion 3.7 (Consistencia en ECM). Sea T1, T2, ..., Tn una sucesion de estimadores de τ(θ),donde Tn esta basado en una muestra de tamano n. Esta sucesion de estimadores de τ(θ) es consis-tente en error cuadratrico medio (ECM) si:

lımn→∞

E[(Tn − τ(θ))2] = 0

Ejemplo:

Sea X1, . . . , Xn una muestra aleatoria de la distribucion N(µ, σ2). Considerense los estimadoresXn = 1

n

∑ni=1Xi para µ y S2

n = 1n−1

∑ni=1(Xi − X)2 para σ2. Notese que

E[(Xn − µ)2] = V ar(Xn) =σ2

n

n→∞−→ 0

Por lo tanto Xn es consistente para µ. Tambien notese que

E[(S2n − σ2)2] = V ar(S2

n) =2σ4

n− 1

n→∞−→ 0

24

Page 25: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

Por lo tanto S2n es consistente para σ2.

El ECM es el estandar para medir la bondad del estimador. Una propiedad desable de unestimador es que nos proporcione, para muestras grandes, un error pequeno en la estimacion.

Definicion 3.8 Se dice que una sucesion de estimadores Tnn∈N es consistente simple y si solo si

∀ε > 0 lımn→∞

P(|Tn − τ(θ)| < ε) = 1

3.4. Suficiencia

Una estidıstica suficiente para un parametro θ es aquella que usa toda la informacion contenidaen la muestra con respecto a θ.

Una estadıstica suficiente enotnces conserva toda la informacion del parametro estimado, esdecir es suficiente conocer esa estadistica para saber todo acerca de θ

Una estadistica general condensa la informacion muestral. Para cada valor de t(x) de T (X) seobtiene un subconjunto de Θ

Una estadıstica suficiente es tal que condensa a Θ sin perder informacion de θ.

Ejemplo:

Se quiere conocer la probabilidad θ de obtener sol con una cierta moneda. Para ello se lanza lamoneda tres veces. Se definen dos estadısticas:

T1(X) = X2+X32

T2(X) =∑n

i=1Xi

Todos los posibles resultados de lanzar tres veces la moneda al aire son

(0, 0, 0), (0, 0, 1), (0, 1, 0), (1, 0, 0), (0, 1, 1), (1, 0, 1), (1, 1, 0), (1, 1, 1)

Entonces, los valores que tomarıan los dos estimadores considerados en todos los casos son

T1 =

0 (0, 0, 0), (1, 0, 0);1/2 (0, 0, 1), (0, 1, 0), (1, 1, 0), (1, 0, 1);1 (0, 1, 1), (1, 1, 1)

T2 =

0 (0, 0, 0);1 (0, 0, 1), (0, 1, 0), (1, 0, 0);2 (0, 1, 1), (1, 1, 0), (1, 0, 1);3 (1, 1, 1)

Se verificara si el estimador T1(X) = X2+X32 es suficiente o no

P(X1 = 0, X2 = 0, X3 = 0|T1(X) = 0) =P(X1 = 0, X2 = 0, X3 = 0, T1 = 0)

P (T1 = 0)

=(1− θ)3

(1− θ)2[1− θ + θ]= 1− θ

Es decir P(X1 = 0, X2 = 0, X3 = 0|T1(X) = 0) depende de θ, por lo tanto el estimador T1 no essuficiente.

25

Page 26: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

Definicion 3.9 Sea X1, . . . , Xn una muestra aleatoria de f(x; θ). La estadistica S(X) es suficientesi y solo si la funcion de densidad conjunta de X1, . . . , Xn dada S(X) = s no depende de θ paracualquier valor s.

3.5. Teorema de factorizacion

3.6. Estimadores insesgados

3.6.1. Propuesta de Cramer y Rao

Definicion 3.10 Sea X1, . . . , Xn una muestra aleatoria de f(x; θ) y sea T(X) un estimador inses-gado de τ(θ). Las siguientes se conocen como condiciones de regularidad:

El soporte de f(x; θ) se define como Sop(f) = x : f(x) > 0 y este es el mismo para toda θ.

Para todo x ∈ sop(f) ddθLnf(x; θ) existe.

ddθ

∫ ∫...∫T (x)f(x; θ)dx1, ..., dxn =

∫ ∫...∫

ddθT (x)f(x; θ)dx1, ..., dxn

ddθ

∫ ∫...∫f(x; θ)dx =

∫ ∫...∫

ddθf(x; θ)dx

0 < E[(

d Lnf(x;θ)dθ

)2]<∞

Definicion 3.11 La funcion score o funcion de puntaje se define como:

Sc(x; θ) =d

dθLnf(x; θ)

Definicion 3.12 La informacion esperada de Fisher se define como:

IX(θ) = E

[(d

dθLnf(X; θ)

)2]

= E[(Sc)2]

Observacion:

Sc(x; θ) =d

dθLnf(x; θ) =

f ′(x; θ)

f(x; θ)=

d

dθLn

n∏i=1

f(xi; θ) =

n∑i=1

d

dθLnf(xi; θ)

Proposicion 3.2 Si se satisfacen las condiciones de regularidad, entonces:

(a) E(Sc) = 0

(b) V ar(Sc) = IX(θ)

Demostracion:

26

Page 27: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

(a)

E(Sc) =

∫ ∫...

∫ (d

dθLnf(x; θ)

)f(x, θ)dx

=

∫ ∫...

∫f ′(x; θ)

f(x; θ)f(x; θ)dx

=

∫ ∫...

∫d

dθf(x; θ)dx

=d

∫ ∫...

∫f(x; θ)dx =

d

dθ1 = 0

∴ E(Sc) = 0

(b)V ar(Sc) = E(Sc2)− E2(Sc) = IX(θ)− 0 = IX(θ)

∴ V ar(Sc) = IX(θ)

Definicion 3.13 Si X es una variable aleatoria, entonces a

IX(θ) = E

[(d

dθLnf(x; θ)

)2]

se le conoce como informacion esperada de Fisher por unidad muestral.

Teorema 3.1 Si se cumplen las condiciones de regularidad, entonces:

IX(θ) = nIX(θ)

IX(θ) = −E[d2

dθ2 ln f(X; θ)]

IX(θ) = −nE[d2

dθ2 ln f(X; θ)]

Teorema 3.2 Sean X1, . . . , Xn una muestra aleatoria de f(x; θ) y T (X) un estimador insesgadode τ(θ). Si se satisfacen las condiciones de regularidad, entonces

V ar(T ) ≥ (τ ′(θ))2

IX(θ)︸ ︷︷ ︸CICR(τ(θ))

Esta desigualdad se conoce como la Desigualdad de Cramer-Rao

La igualdad se da si solo si:

n∑i=1

∂θLnf(xi; θ) = k(θ;n)[T ∗(x)− τ(θ)]

Ejemplo:

Sea X1, . . . , Xn una muestra aleatoria de la distribucion N(0, σ2). Para encontrar IX(σ2):

Lnf(x; θ) = Ln

(1√

2πσ2e−

12σ2 x

2)

= −1

2Ln(2π)− 1

2Ln(σ2)− 1

2σ2x2

27

Page 28: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

∂σ2Lnf(x;σ2) = − 1

2σ2+

x2

2(σ2)2

∂2

∂(σ2)2lnf(x;σ2) =

1

2(σ2)2− x2

(σ2)3

Entonces,

IX(σ2) = −nE[

∂2

∂(σ2)2Lnf(X;σ2)

]= n

[E(X2)

σ6− 1

2σ4

]= n

[σ2

σ6− 1

2σ4

]= n

[1

σ4− 1

2σ4

]=

n

2σ4

Entonces, la CICR para estimadores insesgados de σ2 es n2σ4

Ejemplo:

Sea X1, . . . , Xn una muestra aleatoria de la distribucion exp(θ). Para encontrar IX(θ):

Lnf(x; θ) = Ln(θe−θx

)= Ln(θ)− θx

∂θLnf(x; θ) =

1

θ− x

Entonces,

IX(θ) = −nE

[(∂

∂θLnf(X; θ)

)2]

= nE

[(1

θ−X

)2]

= n V ar(X) =n

θ2

Para encontrar la CICR para estimadores insesgados de θ:

τ1(θ) = θ ⇒ τ ′1(θ) = 1

Entonces,

CICR(θ) =1

IX(θ)=θ2

n

Para encontrar la CICR para estimadores insesgados de τ2(θ) = 1θ :

τ2(θ) =1

θ⇒ τ ′2(θ) = − 1

θ2

Entonces,

CICR(τ2(θ)) =1/θ4

IX(θ)=

1/θ4

n/θ2=

1

nθ2

Los estimadores basados en estadısticas suficientes son mejores que los que estan basados enestadısticas no suficientes.

3.7. Teorema de Rao-Blackwell

Sean T un estimador insesgado de τ(θ) y S un estimador suficiente. Defınase T ∗ := E(T |S).Entonces,

(a) T ∗ es una estadistica funcion de S (“hereda suficiencia”).

(b) T ∗ es insesgado.

(c) V ar(T ∗) ≤ V ar(T ).

28

Page 29: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

Ejemplo:

Sea X1, . . . , Xn una muestra aleatoria de la distribucion Bernoulli(θ).

S(X) =∑n

i=1Xi es una estadıstica sufienciente. y T (X) = X1 es un estimador insesgado de θ(pues E(X1) = θ).

Notese que

E(T |S = s) =E(X1 |n∑i=1

Xi = s)

=0 · P(X1 = 0|n∑i=1

Xi = s) + 1 · P(X1 = 1|n∑i=1

Xi = s)

=P(X1 = 1 |n∑i=1

Xi = s)

=P(X1 = 1,

∑ni=1Xi = s)

P(∑n

i=1Xi = s)

Donde∑n

i=1Xi ∼ Bin(n, θ). Pero

P(X1 = 1;∑n

i=1Xi = s)

P(∑n

i=1Xi = s)=

P(X1 = 1)P (∑n

i=2Xi = s− 1)(ns

)θs(1− θ)n−s

=θ(n−1s−1

)θs−1(1− θ)n−1−s+1(ns

)θs(1− θ)n−s

=

(n−1s−1

)(ns

) =

(n−1)!(s−1)!(n−s)!

n!s!(n−s)!

=s

n

Por lo tanto

T ∗(X) =

∑ni=1Xi

n= X

Se sabe que X es insesgado, es decir, E(X) = θ.

V ar(X) =θ(1− θ)

n≤ θ(1− θ) = V ar(X1)

3.8. Teorema de Lehmann-Sheffe

Un estimador insesgado funcion de la estadistica suficiente y completa sera el UMVUE.

Teorema 3.3 Sea X1 . . . , Xn una muestra aleatoria de f(x; θ) y sea S una estadıstica suficiente ycompleta. Sea T ∗ funcion de S tal que E(T ∗) = τ(θ) (T ∗ es insesgado de τ(θ)) entonces T ∗ es elUMVUE de τ(θ) y ademas es unico.

Demostracion:

Para probar la unicidad. Sea T ′ funcion de S tal que E(T ′) = τ(θ). Sea g(S) = T ∗−T ′. Noteseque

E[g(S)] = E(T ∗ − T ′) = E[T ∗]− E[T ′] = τ(θ)− τ(θ) = 0

∴ E[g(S)] = 0

Entonces, por la completez de S se tiene que P[g(S) = 0] = 1. De esta manera P[T ∗ = T ′] = 1y por tanto T ∗ es unico.

29

Page 30: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

Para probar que es UMVUE. Sea T tal que E[T ] = τ(θ). Recuerdese que E[T |S] es estimadorinsesgado de τ(θ), y es funcion de S. Entonces, si T ∗ := E[T |S], por el teorema de Rao-Blackwell: V ar(T ∗) ≤ V ar(T ).

Ejemplo:

Sea X1, . . . , Xn una muestra aleatoria de la distribucion exp(θ), donde θ > 0.

Como f(x; θ) = θe−θxI(x)(0,∞), entonces f(x; θ) es de la familia exponencial con d(x) = x. Entonces,

S(X) =∑n

i=1Xi es suficiente y completa.

Para encontrar UMVUE de θ y de τ(θ) = 1θ :

E(S) = E

(n∑i=1

Xi

)= nE(Xi) = n

1

θ=n

θ

Y como E[X] = 1θ , entonces barX es el UMVUE de 1

θ .

El UMVUE de θ sera de la forma k/∑n

i=1Xi. Entonces, observese que

E[

k∑ni=1Xi

]=E

[k

Y

]= kE

[1

Y

]=k

∫ ∞0

1

y

θn

Γ(n)yn−1e−θydy

=k

∫ ∞0

θn

Γ(n)yn−2e−θydy

=kθn

Γ(n)

Γ(n− 1)

θn−1

∫ ∞0

θn−1

Γ(n− 1)y(n−1)−1e−θydy︸ ︷︷ ︸1

=kθnΓ(n− 1)

θn−1Γ(n)= k

Γ(n− 1)

(n− 1)Γ(n− 1)θ−1=

n− 1

Entonces, para que k/Y sea insesgado, entonces k debe ser igual a n− 1. Por lo tanto,

T ∗(X) =n− 1∑ni=1Xi

es el UMVUE de θ.

Para encontrar la CICR para estimadores insesgados de θ:

30

Page 31: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

IX(θ) =nE

[(∂

∂θLnf(X; θ)

)2]

=nE

[(∂

∂θLnθe−θX

)2]

=nE

[(∂

∂θ(Lnθ − θX)

)2]

=nE

[(1

θ−X

)2]

=nV ar(X) =n

θ2

Entonces, la CICR es:(τ ′(θ))2

IX(θ)=

1

IX(θ)=θ2

n

El segundo momento de T ∗(X) = n−1∑ni=1 Xi

esta dado por:

E[

(n− 1)2

Y 2

]=(n− 1)2E

[1

Y 2

]=(n− 1)2

∫ ∞0

1

y2

θn

Γ(n)yn−1e−θydy

=(n− 1)2 θn

Γ(n)

∫ ∞0

yn−3e−θydy

=(n− 1)2 θn

Γ(n)

Γ(n− 2)

θn−2

∫ ∞0

θn−2

Γ(n− 2)y(n−2)−1e−θydy︸ ︷︷ ︸1

=(n− 1)2 θnΓ(n− 2)

θn−2Γ(n)= (n− 1)2 Γ(n− 2)

(n− 1)(n− 2)Γ(n− 2)θ−2=

(n− 1)θ2

n− 2

Entonces,

V ar(T ∗(X)) =(n− 1)θ2

n− 2− θ2 =

θ2

n− 2

es la varianza del UMVUE de θ.

Notese que

V ar(T ∗(X)) =θ2

n− 2>θ2

n= CICR(θ)

Ejemplo:

Sea X1, . . . , Xn una muestra aleatoria de la distribucion Poisson(θ). Sea τ(θ) = P(X = 0) = e−θ.

(a) Encontrar el estimador maximo verosımil de θ y τ(θ).

(b) Encontrar el estimador por momentos de θ.

(c) ¿Pertenece f a la familia exponencial?

31

Page 32: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

(d) Encontrar una estadıstica suficiente minimal y completa.

(e) Encontrar la CICR para estimadores insesgados de θ y τ(θ)

(f) ¿Existira otra funcion de θ, para la cual hay un estimador insesgado cuya varianza coincidecon la CICR? Si es ası encontrarlo.

(g) Encontrar un estimador insesgado de τ(θ) y usar el teorema de Rao-Blackwell para mejorarlo.

(h) Decir cuales son los UMVUES de θ y τ(θ), respectivamente.

Solucion:

(a)

L(θ) =n∏i=1

f(xi; θ) =n∏i=1

e−θθxi

xi!I(xi)0,1,... = e−nθθ

∑ni=1 xi

n∏i=1

I(xi)0,1,...

xi!

l(θ) = −nθ + (

n∑i=1

xi)Lnθ + Ln

n∏i=1

I(xi)0,1,...

xi!

∂θl(θ) = −n+

∑ni=1 xiθ

Entonces, ∂∂θ l(θ) = 0 si y solo si

−n+

∑ni=1 xiθ

= 0⇔ n =

∑ni=1 xiθ

⇔ θ =

∑ni=1 xin

.

Por lo tanto θM.V. = 1n

∑ni=1Xi = X. Para τ(θ), aplicando la propiedad de invarianza de los

estimadores maximo verosimiles τ(θM.V.) es estimador maximo versımil de τ(θ). Por lo tantoe−X es estimador maximo verosımil de τ(θ) = e−θ.

(b) Recuerdese que E(X) = θ, entonces el estimador por momentos esta dado por

θ =1

n

n∑i=1

Xi = X

(c) Como

f(x; θ) =e−θθx

x!I(x)0,1,...

si

a(θ) = e−θ b(x) =1

x!I(x)0,1,... c(θ) = Ln(θ) d(x) = x

Entonces,f(x; θ) = a(θ)b(x)ec(θ)d(x)

Por lo tanto pertenece a la familia exponenicial.

(d) Como f pertenece a la familia exponencial entonces T (x) =∑n

i=1 d(Xi) =∑n

i=1Xi es unaestadıstica suficiente minimal y completa.

32

Page 33: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

(e) La informacion esperada de Fisher esta dada por

IX(θ) =nE

[(∂

∂θLnf(X; θ)

)2]

=nE

[(∂

∂θLn

(e−θθX

X!

))2]

=nE

[(∂

∂θ(−θ +XLnθ − LnX!)

)2]

=nE

[(−1 +

X

θ

)2]

=nE

[(1

θ(X − θ)

)2]

=n

θ2E[(X − θ)2

]=

n

θ2V ar(X) =

θ2=n

θ

Para θ se tiene que

CICR(θ) =θ

n

Para τ(θ) = e−θ se tiene que

CICR(τ(θ)) =(τ ′(θ))2

=θe−2θ

n

(f) Utilizando la segunda parte del teorema de Cramer-Rao

n∑i=1

∂θLnf(xi; θ) =

n∑i=1

∂θLn

e−θθxi

xi!

=

n∑i=1

∂θ(−θ + xiLn(θ)− Ln(xi!))

=

n∑i=1

(−1 +

xiθ

)=− n+

1

θ

n∑i=1

xi = −n+n

θx =

−nθ

(θ − x)

Por tanto T ∗(X) = X es el UMVUE de θ.

(g) Considerese T (X) = I0(X1). Notese que E(T (X)) = E(I0(X1)) = P(X1 = 0) = e−θ.Por tanto T (X) es un estimador insesgado de τ(θ) y ya se vio que S(X) =

∑ni=1Xi es una

33

Page 34: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

estadıstica suficiente minimal y completa. Entonces,

E(T |S = s) =E(I0(X1)|S = s)

=P

(X1 = 0|

n∑i=1

Xi = s

)

=P(X1 = 0)P(

∑ni=2Xi = s)

P(∑n

i=1Xi = s)

=e−θ e

−(n−1)θ((n−1)θ)s

s!e−nθ(nθ)s

s!

=e−θe−(n−1)θ((n− 1)θ)s

e−nθ(nθ)s=e−θe−nθeθ(n− 1)sθs

e−nθnsθs=

(n− 1

n

)sEntonces, por el teorema de Rao-Blackwell T ∗(X) =

(n−1n

)∑ni=1Xi es el UMVUE de τ(θ).

(h) X es el UMVUE de θ y(n−1n

)∑ni=1 Xi es el UMVUE de τ(θ).

3.8.1. Propiedad de Invarianza de los estimadores maximo verosimil

Proposicion 3.3 Si θ es el estimador maximo verosimil de θ, entonces τ(θ) es el estimador maximoverosimil de τ(θ)

Demostracion:

Caso 1 : La transformacion θ 7→ τ(θ) es biyectiva

Sea γ = τ(θ), entonces θ = τ−1(γ) esta bien definida y es unica.

Ahora, la funcion de verosimilitud para τ(θ) escrita como funcion de γ esta dada por

L∗(γ) =n∏i=1

f(xi, τ−1(γ)) = L(τ−1(γ))

Por lo tanto

maxγ∈Γ

L∗(γ) = maxγ∈Γ

L(τ−1(γ)) = maxθ∈Θ

L(θ)

Entonces el maximo de L∗(γ) se alcanza en γ = τ(θ) = τ(θ), entonces el estimador maximoverosimil de τ(θ) es τ(θ).

Caso 2 : En general

Sea θ un parametro y Θ el espacio parametrico. Se desea encontrar el estimador maximo verosimilde τ(θ).

Definicion 3.14 La funcion de verosimilitud inducida por γ = τ(θ) esta dada por

L∗(γ) = maxL(θ)

34

Page 35: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

Cuando se estima θ se maximiza L(θ) como funcion de θ. Cuando se estima γ = τ(θ) se maximizala funcion de verosimilitud inducida (L∗) como funcion de γ.

Por lo tanto el estimador maximo evrosimil en γ es cualquier valor que maximiza a L∗, estoimplica que γ es tal que L∗(γ) ≥ L∗(γ) ∀γ ∈ Γ

Teorema 3.4 Sea θ = T (X) el estimador maximo verosimil en f(x; θ). Si τ(θ) es una tranforma-cion de θ ∈ Θ⇒ el estimador maximo verosimil de τ(θ) es τ(θ)

Demostacion:

P.D. L∗(τ(θ)) ≤ L∗(γ) para cualquier γ ∈ Γ

L∗(γ) = maxL(θ) ≤ maxL(θ) = L(θ) = maxL(θ) = L∗(τ(θ))

4. Estimacion por intervalo

En el capıtulo anterior se estudio el problema de estimacion puntual. En esta parte, se abor-dara el tema relacionada con la busqueda de un margen de variacion para el parametro, es decir, elproblema de estimacion por intervalo.

Se comenzara introduciendo el concepto de intervalo de confianza.

4.1. Intervalos de confianza

El problema consiste en lo siguiente: si θ ∈ Θ y se quiere disminuir el grado de desconocimientode θ, se debe seleccionar un subconjunto Θ1 de Θ en el cual pueda afirmarse con un margen de errorpequeno que se encuentra el valor de θ que caracteriza la distribucion de la poblacion.

Ejemplo:

Sea X1, . . . , Xn una muestra aleatoria de la distribucion N(µ, σ2) . Con σ2 conocida y µ de-sconocida. La estadistica T (X) = X tiene distribucion N(µ, σ2/n). Entonces,

Z :=X − µσ/√n∼ N(0, 1)

Notese que

P[−1.96 < Z < 1.96] = φ(1.96)−φ(−1.96) = φ(1.96)−(1−φ(1.96)) = 2·φ(1.96)−1 = 2(0.9725)−1 = 0.95

A partir de que se sabe que P[−1.96 < Z < 1.96] = 0.95, se obtiene lo siguiente:

−1.96 <X − µσ/√n< 1.96

si y solo si

−1.96σ√n< X − µ < 1.96

σ√n

si y solo si

X − 1.96σ√n< µ < X + 1.96

σ√n

De donde:

P[X − 1.96

σ√n< µ < X + 1.96

σ√n

]= 0.95

35

Page 36: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

Definicion 4.1 Un intervalo en el que al menos uno de los extremos es una variable aleatoria sellama intervalo aleatorio.

Lo que indica la expresion

P[X − 1.96

σ√n< µ < X + 1.96

σ√n

]= 0.95

es que hay una probabilidad de 0.95 de obtener una muestra tal que el intervalo(X − 1.96 σ√

n, X + 1.96 σ√

n

)incluya al valor de µ.

Una vez usada la distribucion de X para establecer la conclusion anterior, se obtiene un valorparticular de x, con base en una muestra, y se determina el intervalo numerico(

x− 1.96σ√n, x+ 1.96

σ√n

)En este caso no tiene sentido hablar de la probabilidad de que el intervalo aleatorio contenga alparametro, ya que no hay ninguna variable aleatoria. Ahora, el 0.95 expresa el margen de confianzacon el que se puede afirmar que el valor desconocido de µ esta entre los extremos del intervalo,en el sentido de que repitiendo el muestreo, un gran numero de veces, se obtendrıan intervalos dis-tintos, entre los cuales aproximadamente el 95 % de estos intervalos contendran el valor correcto de µ.

Por lo tanto, el intervalo numerico(x− 1.96 σ√

n, x+ 1.96 σ√

n

)se llama intervalo de confianza

para µ con un nivel del 95 %.

Si se desea un intervalo del 99 % de confianza en el caso anterior, primero se debe observar que:

P[−2.576 < Z < 2.576] = 0.99

Entonces, (x− 2.576

σ√n, x+ 2.576

σ√n

)es un intervalo del 99 % de confianza para µ.

Observese que a mayor nivel de confianza, mayor es la longitud del intervalo. Usualmente se fijaun nivel de confianza y se acepta el intervalo que resulte.

Observese tambien que en el primer ejemplo(x− 1.96 σ√

n, x+ 1.96 σ√

n

)no es el unico intervalo

del 95 % de confianza para µ, pues P[−1.74 < Z < 2.37)] = φ(2.37) − φ(−1.74) = φ(2.37) − 1 +φ(1.74) = 0.95. Sin embargo, el de longitud mınima es el originado por P[−1.96 < Z < 1.96] = 0.95.

En general, si se tiene para este problema que:

P[a <

X − µσ/√n< b

]= γ

Entonces,

a <X − µσ/√n< b⇔ a

σ√n< X − µ < b

σ√n⇔ X − b σ√

n< µ < X − a σ√

n

36

Page 37: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

Y se quiere minimizar la longitud del intervalo, es decir: (b − a) σ√n

con la restriccion de que

P[−1.96 < Z < 1.96] = 0.95, es decir, F (b)− F (a) = 0.95.

Se define la funcion L = b− a− λ(F (b)− F (a)− 0.95). Entonces,

∂L∂a

= 0⇔ −1 + λf(a) = 0⇔ λf(a) = 1 y tambien

∂L∂b

= 0⇔ −1 + λf(b) = 0⇔ λf(b) = 1

De donde f(a) = f(b), por tanto a = −b debido a la simetrıa de fZ . Es decir, la distancia b − asera minimizada (para un area fija) cuando f(a) = f(b).

Definicion 4.2 Sea X1, . . . , Xn una muestra aleatoria de la densidad f(x; θ). Sean T1(X) y T2(X)de forma que T1 ≤ T2 y P(T1 < τ(θ) < T2) = γ (γ no depende de θ). Entonces (T1, T2) es llamadoun intervalo aleatorio y (t1, t2) un valor del intervalo aleatorio es llamado un intervalo de confianza,o un intervalo de γ(100 %) de confianza para τ(θ).

Notese que alguna de las dos estadısticas (pero no ambas) T1(X) o T2(X) puede ser constante;es decir, alguno de los dos extremos del intervalo aleatorio (T1, T2) puede ser constante.

Definicion 4.3 Sea X1, . . . , Xn una muestra aleatoria de la densidad f(x; θ). Sean T1(X) una es-tadıstica para la cual P(T1 < τ(θ)) = γ; entonces T1 induce el intervalo de confianza unilateralinferior (t1(x),∞) con un nivel de confianza γ. De manera analoga, si T2(X) es una estadısticapara la cual P(τ(θ) < T2) = γ; entronces T2 induce el intervalo de confianza unilateral superior(−∞, t2(x)) con un nivel de confianza γ (γ no depende de θ).

Ejemplo:

Si X1, . . . , Xn es una muestra aleatoria de la distribucion N(θ, 9). Sean T1(X) := X − 6√n

y

T2(X) := X + 6√n

. Entonces (T1, T2) forma un intervalo de confianza para τ(θ) = θ cuyo nivel de

confianza γ = P[X − 6√n< θ < X + 6√

n] = P[−2 < X−θ

3/√n< 2] = φ(2) − φ(−2) = 2 · φ(2) − 1 =

2(0.9972)− 1 = 0.9544. Por ejemplo, si se tiene una muestra aleatoria de 25 observaciones, con una

media muestral de 17.5, entonces se dice que(

17.5− 6√25, 17.5 + 6√

25

)es un intervalo del 95.44 %

de confianza para θ.

Nota:

Si ya se ha determinado un intervalo de confianza para θ, entonces, se puede determinar unafamilia de intervalos de confianza. De manera mas especıfica, para un nivel de confianza del γ(100 %)dado; si se tiene un intervalo de confianza para θ al γ(100 %) de confianza, entonces se puede obtenerun intervalo con el mismo nivel de confianza para τ(θ) donde τ es una funcion creciente (estricta).Por ejemplo, si τ es una funcion creciente y (T1, T2) es un intervalo de confianza para θ, entonces(τ(T1), τ(T2)) es un intervalo de confianza para τ(θ) pues

γ = P[T1(X) < θ < T2(X)] = P[τ(T1(X)) < τ(θ) < τ(T2(X))]

En la siguiente subseccion se describira un metodo para encontrar intervalos de confianza. Dichametodologıa se conoce como el metodo de cantidades pivotales.

37

Page 38: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

4.2. Metodo pivotal para encontrar intervalos de confianza

Definicion 4.4 Sea X1, . . . , Xn una muestra aleatoria de la densidad f(x; θ). Sea Q = q(X1, X2, ..., Xn; θ)(es decir, una funcion de la muestra aleatoria y de θ). Si la distribucion de Q no depende de θ, en-tonces a Q se le llama cantidad pivotal.

Ejemplo:

Si X1, . . . , Xn es una muestra aleatoria de la distribucion N(θ, 1), τ(θ) = θ, X ∼ N(θ, 1n) En-

tonces, Q1 := (X−θ)1/√n∼ N(0, 1).Q1 es una cantidad pivotal. Tambien Q2 := X − θ es una cantidad

pivotal pues Q2 ∼ N(0, 1n) (su distribucion no depende de θ). Pero Q3 := X

θ no es una cantidadpivotal, pues Q3 ∼ N(1, 1

θ2n)

Sea Q = q(x1, . . . , xn; θ) una cantidad pivotal. Entonces, para cualquier γ ∈ (0, 1), existiran q1

y q2 que dependen de γ tal queP [q1 < Q < q2] = γ

Si para cada posible muestra (x1, . . . , xn) se cumple que q1 < q(x1, . . . , xn; θ) < q2 si y solo sit1 (x1, . . . , xn) < τ(θ) < t2 (x1, . . . , xn) para funciones t1 y t2 que no dependen de θ, entonces (t1, t2)es un intervalo del γ(100) % de confianza para τ(θ).

En este metodo, la desigualdad q1 < Q < q2 se reescribe, invierte o pivotea como t1(x) < τ(θ) <t2(x).

4.3. Intervalos de confianza para parametros de una poblacion normal

Primero se recordaran algunos resultados tecnicos para facilitar la construccion de dichos inter-valos. La demostracion de dichos resultados se omitira en virtud de que ya se han estudiado en elcapıtulo 1.

(a) Si X ∼ N(0, 1), entonces X2 ∼ χ2(1)

(b) Si X1, . . . , Xn son variables aleatorias independientes tales que para cualquier j ∈ 1, . . . , nXj ∼ χ2(mj), entonces X1 + · · ·+Xn ∼ χ2(m1 + · · ·+mn)

(c) Si X1, . . . , Xn son variables aleatorias independientes tales que para cualquier j ∈ 1, . . . , nXj ∼ N(µ, σ2), entonces

n∑j=1

(Xj − µ)2

σ2∼ χ2(n)

(d) Si X1, . . . , Xn son variables aleatorias independientes tales que para cualquier j ∈ 1, . . . , nXj ∼ N(µ, σ2), entonces

n− 1

σ2S2 ∼ χ2(n− 1)

(e) Si X,Y son variables aleatorias independientes tales que X ∼ N(0, 1) y Y ∼ χ2(k), entonces

X√Y/k

∼ t(k)

(f) Si X1, . . . , Xn es una muestra aleatoria de la distribucion N(µ, σ2), entonces

X − µS/√n∼ t(n− 1)

38

Page 39: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

(g) Si U, V son variables aleatorias independientes tales que U ∼ χ2(n) y V ∼ χ2(m), entonces

X/n

Y/m∼ F (n,m)

Ahora, se encontraran intervalos de confianza para algunas cantidades relacionadas con pobla-ciones Gaussianas.

4.3.1. Intervalos para la media

Caso 1: σ2 conocida.

Sea X1, . . . , Xn es una muestra aleatoria de la distribucion N(µ, σ2) con σ2 conocida.

Se sabe que X ∼ N(µ, σ2/n), entonces X−µσ/√n∼ N(0, 1).

La cantidad pivotal es Q = X−µσ/√n

. De aquı que Q ∼ N(0, 1).

Sean zα/2, z1−α/2 ∈ R tales que P(Q ≤ zα/2) = α/2 y P(Q ≤ z1−α/2) = 1− α/2.

Notese que P(zα/2 < Q < z1−α/2) = P(Q ≤ z1−α/2)− P(Q ≤ zα/2) = (1− α/2)− α/2 = 1− α.

∴ P(zα/2 < Q < z1−α/2) = 1− α

Tambien notese que por simetrıa de la densidad normal estandar zα/2 = −z1−α/2.

Por ejemplo, si 1− α = 0.95, entonces α = 0.05, entonces 1− α/2 = 0.975 y z0.975 = 1.96.

Entonces,

P(−z1−α/2 < Q < z1−α/2) = 1− α⇔ P(−z1−α/2 <

X − µσ/√n< z1−α/2

)= 1− α

⇔ P(−z1−α/2 ·

σ√n< X − µ < z1−α/2 ·

σ√n

)= 1− α

⇔ P(−z1−α/2 ·

σ√n− X < −µ < z1−α/2 ·

σ√n− X

)= 1− α

⇔ P(X − z1−α/2 ·

σ√n< µ < X + z1−α/2 ·

σ√n

)= 1− α

∴ Un intervalo del 100(1− α) % de confianza para µ cuando σ2 es conocida esta dado por(X − z1−α/2 ·

σ√n, X + z1−α/2 ·

σ√n

)Caso 2: σ2 desconocida.

Sea X1, . . . , Xn es una muestra aleatoria de la distribucion N(µ, σ2) donde µ y σ2 son descono-cidos.

Se sabe que X−µσ/√n∼ N(0, 1) y (n−1)S2

σ2 ∼ χ2(n− 1). Entonces,

39

Page 40: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

X−µσ/√n√

(n−1)S2

σ2

n−1

∼ t(n− 1)

Pero,

X−µσ/√n√

(n−1)S2

σ2

n−1

=

X−µσ/√n√S2

σ2

=

√n(X−µ)σSσ

=

√n(X − µ)

S=X − µS/√n, donde S :=

√S2

∴X − µS/√n∼ t(n− 1)

Es decir, la cantidad pivotal es Q = X−µS/√n

Entonces,

P(−t1−α/2n−1 < Q < t

1−α/2n−1

)= 1− α⇔ P

(−t1−α/2n−1 <

X − µS/√n< t

1−α/2n−1

)= 1− α

⇔ P(−t1−α/2n−1 · S√

n< X − µ < t

1−α/2n−1 · S√

n

)= 1− α

⇔ P(−X − t1−α/2n−1 · S√

n< −µ < −X + t

1−α/2n−1 · S√

n

)= 1− α

⇔ P(X − t1−α/2n−1 · S√

n< µ < X + t

1−α/2n−1 · S√

n

)= 1− α

∴ Un intervalo del 100(1− α) % de confianza para µ cuando σ2 es desconocida esta dado por(X − t1−α/2n−1 · S√

n, X + t

1−α/2n−1 · S√

n

)Donde t

1−α/2n−1 ∈ R es tal que P

(Y ≤ t1−α/2n−1

)= 1− α/2, donde Y ∼ t(n− 1).

4.3.2. Intervalo para la varianza

Sea X1, . . . , Xn es una muestra aleatoria de la distribucion N(µ, σ2) con µ y σ2 desconocidos.

Se sabe que (n−1)S2

σ2 ∼ χ2(n− 1).

Por tanto, la cantidad pivotal es Q = (n−1)S2

σ2 .

Se necesita determinar los cuantiles xα/2n−1, x

1−α/2n−1 ∈ R tales que

P(xα/2n−1 < Q < x

1−α/2n−1 ) = 1− α

Es decir, P(Q ≤ x1−α/2n−1 )− P(Q ≤ xα/2n−1) = (1− α/2)− (α/2) = 1− α.

40

Page 41: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

Ahora, P(xα/2n−1 < Q < x

1−α/2n−1 ) = 1− α⇔ P(x

α/2n−1 <

(n−1)S2

σ2 < x1−α/2n−1 ) = 1− α

⇔ P

(1

xα/2n−1

>σ2

(n− 1)S2>

1

x1−α/2n−1

)= 1− α⇔ P

((n− 1)S2

x1−α/2n−1

< σ2 <(n− 1)S2

xα/2n−1

)= 1− α

∴ Un intervalo del 100(1− α) % de confianza para σ2 esta dado por((n− 1)S2

x1−α/2n−1

,(n− 1)S2

xα/2n−1

)Por ejemplo, si n = 12 y 1−α = 0.99, entonces α = 0.01. Por tanto α/2 = 0.005 y 1−α/2 = 0.995.

Luego entonces, 0.99511 = 26.8 y x0.005

11 = 2.60.

4.3.3. Intervalo para la diferencia de medias de poblaciones independientes

Sean X1, . . . , Xn una muestra aleatoria de la distribucion N(µx, σ2x) y Y1, . . . , Ym una muestra

aleatoria de la distribucion N(µy, σ2y) donde Yj y Xi son independientes.

Caso 1: σ2x y σ2

y conocidas.

Se sabe que X ∼ N(µx, σ2x/n) y Y ∼ N(µy, σ

2y/m), entonces X − Y ∼ N

(µx − µy, σ

2xn +

σ2y

m

).

Por tanto,X − Y − (µx − µy)√

σ2xn +

σ2y

m

∼ N(0, 1)

Entonces, la cantidad pivotal esta dada por

Q =X − Y − (µx − µy)√

σ2xn +

σ2y

m

De aquı que

P(−z1−α/2 < Q < z1−α/2

)= 1− α⇔

P

−z1−α/2 <X − Y − (µx − µy)√

σ2xn +

σ2y

m

< z1−α/2

= 1− α⇔

P

−z1−α/2 ·

√σ2x

n+σ2y

m< X − Y − (µx − µy) < z1−α/2 ·

√σ2x

n+σ2y

m

= 1− α⇔

P

−(X − Y )− z1−α/2 ·

√σ2x

n+σ2y

m< −(µx − µy) < −(X − Y ) + z1−α/2 ·

√σ2x

n+σ2y

m

= 1− α⇔

P

(X − Y )− z1−α/2 ·

√σ2x

n+σ2y

m< µx − µy < (X − Y ) + z1−α/2 ·

√σ2x

n+σ2y

m

= 1− α

∴ Un intervalo del 100(1 − α) % de confianza para µx − µy, cuando σ2x y σ2

y son conocidas,esta dado por (X − Y )− z1−α/2 ·

√σ2x

n+σ2y

m, (X − Y ) + z1−α/2 ·

√σ2x

n+σ2y

m

41

Page 42: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

Caso 2: σ2x y σ2

y desconocidas pero σ2x = σ2

y = σ2

Se sabe que (n−1)S2x

σ2 ∼ χ2(n − 1) y(m−1)S2

y

σ2 ∼ χ2(m − 1), entonces (n−1)S2x

σ2 +(m−1)S2

y

σ2 ∼ χ2(n +m− 2).

∴1

σ2((n− 1)S2

x + (m− 1)S2y) ∼ χ2(n+m− 2)

Y tambien se sabe que

X − Y − (µx − µy)√σ2(

1n + 1

m

) ∼ N(0, 1)

Entonces,

X−Y−(µx−µy)√σ2( 1

n+ 1m)√

(n−1)S2x+(m−1)S2

y

σ2(n+m−2)

∼ t(m+n−2)

Pero,

X−Y−(µx−µy)√σ2( 1

n+ 1m)√

(n−1)S2x+(m−1)S2

y

σ2(n+m−2)

=X − Y − (µx − µy)√(1n + 1

m

) (n−1)S2x+(m−1)S2

y

n+m−2

=X − Y − (µx − µy)√(

1n + 1

m

)S2p

Donde S2p =

(n−1)S2x+(m−1)S2

y

n+m−2

Entonces,

X − Y − (µx − µy)√(1n + 1

m

)S2p

∼ t(m+n−2)

De aquı que Q =X−Y−(µx−µy)√

( 1n

+ 1m)S2

p

sea una cantidad pivotal tal que Q ∼ t(m+n−2)

Ahora,

P(−t1−α/2n+m−2 < Q < t

1−α/2n+m−2

)= 1− α⇔

P

−t1−α/2n+m−2 <X − Y − (µx − µy)√(

1n + 1

m

)S2p

< t1−α/2n+m−2

= 1− α⇔

P

(−(X − Y )− t1−α/2n+m−2

√(1

n+

1

m

)S2p < −(µx − µy) < −(X − Y ) + t

1−α/2n+m−2

√(1

n+

1

m

)S2p

)= 1−α⇔

P

((X − Y )− t1−α/2n+m−2

√(1

n+

1

m

)S2p < µx − µy < (X − Y ) + t

1−α/2n+m−2

√(1

n+

1

m

)S2p

)= 1− α

∴ Un intervalo del 100(1 − α) % de confianza para µx − µy, cuando σ2x y σ2

y son desconocidaspero σ2

x = σ2y = σ2, esta dado por(

(X − Y )− t1−α/2n+m−2

√(1

n+

1

m

)S2p , (X − Y ) + t

1−α/2n+m−2

√(1

n+

1

m

)S2p

)

42

Page 43: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

4.3.4. Intervalo para el cociente de varianzas de poblaciones independientes

Sean X1, . . . , Xn una muestra aleatoria de la distribucion N(µx, σ2x) y Y1, . . . , Yn una muestra

aleatoria de la distribucion N(µy, σ2y) donde Yj y Xi son independientes.

Se sabe que (n−1)S2x

σ2x∼ χ2(n− 1) y

(m−1)S2y

σ2y∼ χ2(m− 1), entonces

(n−1)S2x

σ2x

(m−1)S2y

σ2y

∼ F (n− 1,m− 1)

Pero

(n−1)S2x

σ2x

(m−1)S2y

σ2y

=n− 1

m− 1· S

2x

S2y

·σ2y

σ2x

De aquı que Q = (n−1)S2x

(m−1)S2y· σ

2y

σ2x

sea una cantidad pivotal tal que Q ∼ F (n− 1,m− 1).

Se necesita determinar los cuantiles fα/2n−1,m−1 f

1−α/2n−1,m−1

Ahora,

P(fα/2n−1,m−1 < Q < f

1−α/2n−1,m−1

)= 1− α⇔

P

(fα/2n−1,m−1 <

(n− 1)S2x

(m− 1)S2y

·σ2y

σ2x

< f1−α/2n−1,m−1

)= 1− α⇔

P

(fα/2n−1,m−1 ·

(m− 1)S2y

(n− 1)S2x

<σ2y

σ2x

< f1−α/2n−1,m−1 ·

(m− 1)S2y

(n− 1)S2x

)= 1− α⇔

P

(1

f1−α/2n−1,m−1

· (n− 1)S2x

(m− 1)S2y

<σ2x

σ2y

<1

fα/2n−1,m−1

· (n− 1)S2x

(m− 1)S2y

)= 1− α

∴ Un intervalo del 100(1− α) % de confianza para σ2xσ2y

esta dado por(1

f1−α/2n−1,m−1

· (n− 1)S2x

(m− 1)S2y

,1

fα/2n−1,m−1

· (n− 1)S2x

(m− 1)S2y

)

5. Pruebas de Hipotesis

Una dama inglesa aseguraba que podıa, al probar una tasa con te, saber si se habıa vertido enprimer lugar la infusion de te o la leche.

Este caso, conocido como “la dama del te”, fue expuesto por Fisher en su obra “El diseno deexperimentos”.

Para aceptar la afirmacion de la senora se procede a un experimento. Se le pedira probar yclasificar n pares de tazas de te, conteniendo cada par una taza preparada por cada uno de los dosprocedimientos en cuestion, primero el te y despues la leche, y viceversa. En el experimento se poneespecial cuidado en asegurar la semejanza bajo las condiciones en que se clasifican los pares de tazasde te y se procura la eliminacion de cualquier posible diferencia entre las tazas que resulte irrelevante

43

Page 44: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

para el problema. A la dama se le presentan aleatoriamente las tazas de cada par. Finalmente, sedeja un tiempo razonable entre intentos sucesivos, a fin de asegurar que la clasificacion de cada parde tazas de te es independiente de los pares de tazas precedentes.

Lo anterior se puede ver como la realizacion de

X1, X2, . . . , Xn; donde Xi ∼ Bnlli(p)

Xi =

1 si la clasificacion es correcta

0 si la clasificacion no es correcta

Fisher querıa probar las siguientes aseveraciones:

La dama es charlatana v.s. La dama tiene “poderes”

Si la dama es charlatana, entonces p = 12 (probabilidad de exito); si tiene poderes, entonces

p > 12

Definicion 5.1 Una hipotesis estadıstica es una aseveracion acerca de la distribucion de una omas variables aleatorias. A una hipotesis que especifica completamente la distribucion (en el ejem-plo p = 1

2) se le llama hipotesis simple. A una hipotesis que no es simple se le llama hipotesiscompuesta. En el ejemplo se tiene un contraste de una hipotesis simple contra una hipotesis com-puesta.

En particular a p = 12 se le llama hipotesis nula y a p > 1

2 hipotesis alternativa denotadaspor H0 y Ha, respectivamente. De hecho, el termino hipotesis nula fue introducido por Fisher pararepresentar la hipotesis defendida por el: la nula posibilidad de que la dama pudiera distinguir elorden en que se vertieron el te y la leche. Ası,

H0 : p =1

2v.s. Ha : p >

1

2

El problema es encontrar alguna evidencia que nos lleve a rechazar alguna, y, por lo tanto aceptarla otra.

Definicion 5.2 Una prueba de hipotesis es una regla de decision mediante la cual y, con baseen la muestra, nos lleva a aceptar o rechazar la hipotesis nula bajo consideracion.

Fisher considero los errores que podıa cometer:

1. Decir que la dama tenıa poderes cuando en realidad era charlatana, lo cual es equivalente arechazar H0 cuanto H0 es cierta.

2. Decir que la dama es charlatana cuando en realidad tenıa poderes, lo cual es equivalente aaceptar H0 cuando H0 es falsa.

A estos errores se les llamo respectivamente, error tipo I y error tipo II. Usualmente, se acos-tumbra representar estos errores en forma tabular como:

H0 cierta H0 falsa

Rechazar H0 Error tipo I Decision correcta

No rechazar H0 Decision correcta Error tipo II

44

Page 45: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

Suponga que n = 5, entonces T (X) =5∑i=1

Xi contabiliza el numero de exitos. Notese que T (X) ∼

Bin(5, p). Se podrıa decidir, por ejemplo, rechazar H0 si T = 5 o si T = 4 y no rechazarla si T = 0o T = 1. Esta regla de decision serıa una prueba de hipotesis.

Definicion 5.3 A la region C que lleva a rechazar la hipotesis nula se le llama region de rechazoo region crıtica (una vez especificada basta tomar una muestra y verificar si se encuentra en laregion critica o no).

Notese que en el ejemplo C = 4, 5.

Se usara la siguiente notacion:

γ: Prueba de hipotesis

C: Region crıtica

Θ: Espacio parametrico

Θ0: Espacio parametrico consistente con H0

Θ1: Espacio parametrico consistente con H1

Notese que una prueba de hipotesis y una region crıtica son equivalentes.

Ejemplo:

Considerese una muestra aleatoria X1, X2, . . . , Xn de la distribucion N(θ, 100); se desea probar

H0 : θ ≤ 75 v.s. Ha : θ > 75

En este caso,

Θ0 = θ : θ ≤ 75 Θ1 = θ : θ > 75

La siguiente es una region crıtica asociada a este problema

C = (x1, x2, x3) ∈: x21 + x2

2 + x23 ≥ 1

De esta manera, la prueba esta determinada: se van a considerar tres variables aleatorias X1, X2

y X3, si los valores observados son tales que x21 + x2

2 + x23 ≥ 1, entonces se rechaza la hipotesis nula,

en caso contrario, se acepta.

Por lo tanto, la prueba asociada serıa:

γ : Rechazar H0 si x21 + x2

2 + x23 ≥ 1.

Definicion 5.4 Se define el tamano de los errores como α = P(error tipo I) y β = P(error tipo I)

Definicion 5.5 Se define la potencia de una prueba γ como

πγ(θ) = P[Rechazar H0|θ] = P[(X1, . . . , Xn) ∈ C|θ]

45

Page 46: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

La funcion potencia juega el mismo papel que el error cuadratico medio en estimacion: sera elestandar para medir la “bondad” de una prueba.

La funcion potencia ideal vale 0 para θ ∈ Θ0 (hipotesis nula) y vale 1 para θ ∈ Θ1 (hipotesisalternatuva). Es decir,

P[Rechazar H0|θ] = 0 y P[Rechazar Ha|θ] = 1

La idea es no rechazar la hipotesis nula cuando es cierta, y rechazarla cuando es falsa.

Definicion 5.6 Sea γ una prueba de hipotesis H0 : θ ∈ Θ0. El tamano de la prueba se definecomo

maxθ∈Θ0

πγ(θ),

es decir, es el valor maximo de la potencia cuando H0 es cierta.

5.1. Hipotesis simple contra simple

Se tienen dos distribuciones completamente especifadas f0 = f(x; θ0) y f1 = f(x; θ1). Se tomauna muestra y se supone que viene de alguna de las dos distribuciones, es decir f0 o f1

Considerese una muestra aleatoria X1, . . . , Xn de f0 o f1 y se desea probar

H0 : Xi ∼ f0 v.s. Ha : Xi ∼ f1

Si se tiene una sola observacion x1 y las funciones f0 y f1 son tales que f0(x1) > f1(x1), entoncesse puede decidir que la observacion viene de f0.

La observacion vendra de f1 si f0(x1) < f1(x1) (es mas probables que la observacion venga def1 que de f0).

Pruebas mas potentes

Usualmente lo que se hace, es fijar el tamano de error tipo I y entonces buscar la prueba quetenga tamano de error tipo II mınimo (de entre todas las que tengan el mismo tamano de error tipo I).

En este caso Θ = θ0, θ1. Se quiere probar H0 : θ = θ0 v.s. Ha : θ = θ1 (simple vs. simple).

Sea γ una prueba asociada a este contraste de hipotesis y sea πγ(θ) la funcion potencia asociadaa dicha prueba.

Una buena prueba es tal que πγ(θ) = P (rechazar H0|H0) es pequena (idealmente cero) yπγ(θ) = P (rechazar H0|Ha) es grande (idealmente 1);

Observacion:

πγ(θ0) = tamano del error tipo I = tamano de la prueba

y

1− πγ(θ1) = P (no rechazar H0|Ha) = tamano del error tipo I

46

Page 47: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

Definicion 5.7 Una prueba γ∗ de H0 = θ = θ0 v.s. Ha = θ = θ1 se define como una prueba maspotente de tamano α (0 < α < 1) si y solo si:

(a) πγ∗(θ0) = α

(b) πγ∗(θ1) ≥ πγ∗(θ1) para cualquier otra prueba γ tal que πγ(θ0) = α

El siguiente resultado se utilizara para obtener pruebas mas potentes (o regiones optimas).

Proposicion 5.1 (Lema de Neyman-Pearson) Sea X1, . . . , Xn una muestra aleatoria de f(x; θ)donde θ ∈ Θ = θ0, θ1 y sean 0 < α < 1, k un numero positivo y C∗ tales que:

(i) P (X ∈ C∗|H0) = α

(ii) λ = L(θ0)L(θ1) =

n∏i=1

f(xi;θ0)

n∏i=1

f(xi;θ1)≤ k si X ∈ C∗

(iii) λ > k si X ∈ (C∗)c

entonces la prueba γ∗, asociada a C∗, es una prueba mas potente para probar H0 : θ = θ0 v.s.Ha : θ = θ1 (es decir, C∗ es la mejor region crıtica)

Demostracion: (en clase)

Ejemplo:

Sea X1, . . . Xn una muestra aleatoria de f(x; θ) = θe−θx, θ > 0

Θ = θ0, θ1 (θ0 > θ1)

H0 : θ = θ0 y Ha : θ = θ1

L(θ) =n∏i=1

θe−θxi = θnn∏i=1

e−θxi = θne∑ni=1 xi

L(θ0)

L(θ1)=θn0 e−θ0

∑ni=1 xi

θn1 e−θ1

∑ni=1 xi

=

(θ0

θ1

)ne−θ0

∑ni=1 xi+θ1

∑ni=1 xi

=

(θ0

θ1

)ne−(θ0−θ1)

∑ni=1 xi ≤ k ⇔ x ∈ C∗

⇒ e−(θ0−θ1)∑ni=1 xi ≤ k1

⇒ −(θ0 − θ1)

n∑i=1

xi ≤ k2 ⇒ (θ0 − θ1)n∑i=1

xi ≥ k2

⇒n∑i=1

xi ≥ k3 ⇔ se rechaza H0.

Entonces, la prueba de hipotesis queda establecida de la siguiente manera:

γ∗ : se rechaza H0 ⇔n∑i=1

Xi ≥ k

47

Page 48: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

C∗ = (X1, . . . , Xn)|n∑i=1

Xi ≥ k

πγ(θ) = P[rechazar H0|H0 es cierta] = P

[n∑i=1

Xi ≥ k|θ = θ0

]= 0.05

Peron∑i=1

Xi ∼ Gamma(n, θ0), entonces 1− P[n∑i=1

Xi ≥ k|θ = θ0

]= 0.05

Es decir, P (∑n

i=1Xi ≤ k|θ = θ0) = 0.95, y entonces se busca el cuantil k que acumula el 95 %de probabilidad en una Gamma(n, θ0).

El lema de Neyman-Pearson aun sirve para casos como el siguiente:Sea X1, . . . , Xn una muestra aleatoria de la distribucion N(0, σ2) y se desea probar

H0 : σ2 = σ20 v.s. Ha : σ2 > σ2

0

Θ0 = σ20 y Θ1 = σ2|σ2 > σ2

0Sea σ2

1 ∈ Θ1, es decir, σ21 > σ2

0 (σ2 es un valor represetativo y como solo se dispone de un metodopara probar hipotesis simple contra simple). Se probara

H0 : σ2 = σ20 v.s. Ha : σ2 = σ2

1

Por el lema de Neyman-Pearson, se considerara

L(σ20)

L(σ21)

=

(1

2πσ20

)n/2· exp(− 1

2σ20

∑ni=1 x

2i )(

12πσ2

1

)n/2· exp(− 1

2σ21

∑ni=1 x

2i )

≤ k

⇔(σ2

1

σ20

)n/2exp

(1

2

(1

σ21

− 1

σ20

) n∑i=1

x2i

)≤ k ⇔

n

2Ln

(σ2

1

σ20

)+

1

2

(1

σ21

− 1

σ20

) n∑i=1

x2i ≤ k1 = Ln(k)

(σ20 − σ2

1)n∑i=1

x2i ≤

[k1 −

n

2Ln

(σ2

1

σ20

)](σ2

1 − σ20) · 2

Pero como σ20 − σ2

1 < 0

∴n∑i=1

x2i ≥ k′

Definicion 5.8 γ∗ es una prueba uniformemente mas potente para probar

H0 : θ ∈ Θ0 v.s. Ha : θ ∈ Θ1

si:

(i) maxθ∈Θ0

πγ∗(θ) = α y

(ii) πγ∗(θ) ≥ πγ(θ) para todo θ ∈ Θ1 y para cualquier γ tal que πγ(θ) = α.

En palabras, de entre todas las pruebas de tamano α, la prueba uniformemente mas potente esaquella que maximiza la potencia para θ ∈ Θ1.

48

Page 49: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

5.2. Hipotesis compuestas

Supongase que se tiene una muestra aleatoria de f(x; θ) con θ ∈ Θ y se desea probar

H0 : θ ∈ Θ0 v.s. Ha : θ ∈ Θ1

donde Θ0 ⊆ Θ y Θ1 ⊆ Θ; Θ0 y Θ1 son disjuntos. Usualmente Θ1 = Θ−Θ0. Por ejemplo, si se tieneuna muestra aleatoria de una distribucion N(µ, 100) y se desea probar H0 : µ ≤ 75 v.s. Ha : µ > 75,aquı Θ0 = µ : µ ≤ 75; Θ = µ : −∞ < µ <∞ y Θ−Θ0 = µ : µ > 75.

Definicion 5.9 (Razon de verosimilitudes generalizada): Sea X1, ..., Xn una muestra aleato-ria de f(x; θ) y sea L(θ;x1, ..., xn) la funcion de verosimilitud, donde θ ∈ Θ. La razon de verosim-ilirudes generalizada se define como

λ =

maxθ∈Θ0

L(θ;x1, ..., xn)

maxθ∈Θ

L(θ;x1, ..., xn)

Observese que la expresion tomada en el denominador es el valor maximo que puede alcanzar Ldentro del campo de variacion de θ.

Notese que 0 ≤ λ ≤ 1. Como se esta considerando el cociente de dos cantidades no negativasλ ≥ 0; y como el maximo considerado en el denominador es sobre un conjunto de valores de θ mayoral considerado en el denominador, λ ≤ 1.

Notese tambien que λ es una funcion de x1, ..., xn de modo que cuando las observaciones sonsustituidas por se puede escribir Λ en vez de λ. Ası, el denominador de Λ es la funcion verosimilitudevaluada en el estimador maximo verosimil.

Proposicion 5.2 (Prueba de la razon de verosimilitudes generalizada o principio de la razon deverosimilitud generalizada)

“Rechazar H0 : θ ∈ Θ0 si y solo si λ ≤ k, donde k es alguna constante fija tal que 0 ≤ k ≤ 1”(La constante k se especifica fijando el tamano de la prueba y Λ es la estadıstica de prueba)

Intuitivamente, la prueba de la razon de verosimilitides generalizada tiene sentido ya que λtendera a ser mas pequena cuando H0 es falsa, debido a que el denominador de λ sera mayorque el numerador.

En general, se tendran buena pruebas con este metodo. El problema puede ser encontrar elmaxL(θ) o la distribucion de Λ, la cual es indispensable para la evaluacion de la potencia dela prueba

Ejemplo:

Sea X1, ..., Xn una muestra aleatoria de tamano n > 1 de una distribucion N(µ, σ2). Se quiereprobar H0 : µ = 0, σ2 > 0 v.s. Ha : µ 6= 0, σ2 > 0. En este caso Θ = (µ, σ2) : −∞ < µ < ∞, 0 <σ2 <∞ y Θ0 = (µ, σ2) : µ = 0, 0 < σ2 <∞.

Para θ ∈ Θ

L(θ) =

(1

2πσ2

)n/2exp

(− 1

2σ2

n∑i=1

(Xi − µ)2

).....(1)

49

Page 50: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

Para θ ∈ Θ0

L(θ) =

(1

2πσ2

)n/2exp

(− 1

2σ2

n∑i=1

X2i

).....(2)

Se va a obtener el numerador de λ:

Tomando logaritmos en (2)

logL(θ) = −n2

log 2πσ2 − 1

2σ2

n∑i=1

X2i

∂σ2logL(θ) = −n

2· 1

σ2+

∑ni=1X

2i

2(σ2)2= 0⇒ σ2 =

1

n

n∑i=1

X2i .

Entonces,

maxθ∈Θ0

L(θ) =

1

2π(∑n

i=1 X2i

n

)n/2 exp

− 1

2(∑n

i=1 X2i

n

) · n∑i=1

X2i

=

(n

2π∑n

i=1X2i

)n/2e−n/2

Ahora, se obtendra el denominador de λ:

Se sabe que para la distribucion Normal(µ, σ2) los estimadores maximo verosimil estan dadospor µ = X y σ2 = 1

n

∑ni=1(Xi − X)2. Sustituyendo en (1)

L(θ) =

[1

2π∑ni=1(Xi−X)2

n

]n/2exp

(−1

2

∑ni=1(Xi − X)2∑ni=1(Xi−X)2

n

)=

[n

2π∑n

i=1(Xi − X)2

]n/2e−n/2

(es la verosimilitud evaluada en los estimadores maximo verosımiles)

∴ λ =

maxθ∈Θ0

L(θ)

maxθ∈Θ

L(θ)=

[n

2π∑ni=1 X

2i

]n/2e−n/2[

n2π

∑ni=1(Xi−X)2

]n/2e−n/2

=

[∑ni=1(Xi − X)2∑n

i=1X2i

]n/2Pero,

n∑i=1

(Xi − X)2 =

n∑i=1

X2i − 2X

n∑i=1

Xi + nX2 =

n∑i=1

X2i − 2XnX + nX2 =

n∑i=1

X2i − 2nX2 + nX2

Entonces,∑n

i=1X2i =

∑ni=1(Xi − X)2 + nX

Por tanto,

λ =

( ∑ni=1(Xi − X)2∑n

i=1(Xi − X)2 + nX2

)n/2≤ k ⇔ 1(

1 + nX2∑ni=1(Xi−X)2

)n/2 ≤ k⇔ 1 +

nX2∑ni=1(Xi − X)2

≥ k−2/n ⇔√n|X|√∑n

i=1(Xi − X)2≥√k−2/n − 1

50

Page 51: 1. Ap endice: Repaso de probabilidad · 1. Ap endice: Repaso de probabilidad 1.1. Espacio de probabilidad Es la terna (;F;P) donde es un conjunto arbitrario, aunque en la Teor a de

⇔√n|X|√∑n

i=1(Xi−X)2

n−1

≥√

(n− 1)(k−2/n − 1) = k′

∴ La prueba de la razon de verosimilitudes generalizada establece lo siguiente:

”Rechazar H0 si y solo si

√n|X|√∑n

i=1(Xi−X)2

n−1

≥ k′”

donde k′ puede obtenerse fijando el tamano de la prueba α y conociendo la distribucion de laestadıstica de prueba. En este caso:

√nX√∑n

i=1(Xi−X)2

n−1

=

Xσ/n√(∑n

i=1(Xi−X)2

σ2

)/(n− 1)

∼ t(n− 1)

porque X ∼ N(µ, σ2

n ) y bajo H0 X ∼ N(0, σ2

n ). Entonces, Xσ/√n∼ N(0, 1) y (n−1)S2

σ2 =∑ni=1(Xi−X)2

σ2 ∼ χ2(n−1)

Como se menciono anteriormente, existen muchos casos en las que es muy difıcil encontrar ladistribucion de la razon de verosimilitudes. En estas circunstancias sera de utlidad el siguienteresultado, el cual establece la distribucion asintotica de:

Proposicion 5.3 Sea X1, ..., Xn una muestra aleatoria de f(x; θ) donde θ = (θ1, ..., θk). En la prue-ba de hipotesis H0 : θ1 = θ1, ..., θr = θr , θr+1, ..., θk. Donde θ1, θ

2, ..., θ

r son conocidos y θr+1, ..., θk

no estan especificados, −2 log λ ∼ χ2(r) cuando H0 es cierta y el tamano de la muestra n es grande.

En el resultado anterior, se supuso que 1 ≤ r ≤ k. Si r = k, entonces todos los parametros estanespecificados θ = (θ1, ..., θk) y por lo tanto, el espacio parametrico Θ es k−dimensional y como H0

especifica el valor de r de las componentes de θ, la dimension de Θ0 es k−r. Por lo tanto, los gradosde libertad de la distribucion asintotica de λ pueden ser pensadas de dos formas: como el numerode parametros especificados por H0 o como la diferencia entre las dimensiones de Θ y Θ0.

51