X ,,Xn are iid from a population µ and standard deviation...

37
Convergence in Distribution Undergraduate version of central limit theo- rem: if X 1 ,...,X n are iid from a population with mean μ and standard deviation σ then n 1/2 ( ¯ X μ)has approximately a normal dis- tribution. Also Binomial(n,p) random variable has ap- proximately a N (np,np(1 p)) distribution. Precise meaning of statements like “X and Y have approximately the same distribution”? Desired meaning: X and Y have nearly the same cdf. But care needed. 1

Transcript of X ,,Xn are iid from a population µ and standard deviation...

Page 1: X ,,Xn are iid from a population µ and standard deviation ...people.stat.sfu.ca/~lockhart/richard/890/06_3/lectures/Weak...Convergence in Distribution Undergraduate version of central

Convergence in Distribution

Undergraduate version of central limit theo-

rem: if X1, . . . , Xn are iid from a population

with mean µ and standard deviation σ then

n1/2(X −µ)/σ has approximately a normal dis-

tribution.

Also Binomial(n, p) random variable has ap-

proximately a N(np, np(1 − p)) distribution.

Precise meaning of statements like “X and Y

have approximately the same distribution”?

Desired meaning: X and Y have nearly the

same cdf.

But care needed.

1

Page 2: X ,,Xn are iid from a population µ and standard deviation ...people.stat.sfu.ca/~lockhart/richard/890/06_3/lectures/Weak...Convergence in Distribution Undergraduate version of central

Q1) If n is a large number is the N(0,1/n)

distribution close to the distribution of X ≡ 0?

Q2) Is N(0,1/n) close to the N(1/n,1/n) dis-

tribution?

Q3) Is N(0,1/n) close to N(1/√n,1/n) distri-

bution?

Q4) If Xn ≡ 2−n is the distribution of Xn close

to that of X ≡ 0?

2

Page 3: X ,,Xn are iid from a population µ and standard deviation ...people.stat.sfu.ca/~lockhart/richard/890/06_3/lectures/Weak...Convergence in Distribution Undergraduate version of central

Answers depend on how close close needs to

be so it’s a matter of definition.

In practice the usual sort of approximation we

want to make is to say that some random vari-

able X, say, has nearly some continuous distri-

bution, like N(0,1).

So: want to know probabilities like P(X > x)

are nearly P(N(0, 1) > x).

Real difficulty: case of discrete random vari-

ables or infinite dimensions: not done in this

course.

Mathematicians’ meaning of close:

Either they can provide an upper bound on

the distance between the two things or they

are talking about taking a limit.

In this course we take limits and use metrics.

3

Page 4: X ,,Xn are iid from a population µ and standard deviation ...people.stat.sfu.ca/~lockhart/richard/890/06_3/lectures/Weak...Convergence in Distribution Undergraduate version of central

Definition: A sequence of random variables

Xn taking values in a separable metric space

S, d converges in distribution to a random vari-

able X if

E(g(Xn)) → E(g(X))

for every bounded continuous function g map-

ping S to the real line.

Notation: : Xn ⇒ X.

Remark: This is abusive language. It is the

distributions that converge not the random vari-

ables.

Example: If U is Uniform and Xn = U , X =

1 − U then Xn converges in distribution to X.

Other Jargon: weak convergence, weak∗ con-

vergence, convergence in law.

4

Page 5: X ,,Xn are iid from a population µ and standard deviation ...people.stat.sfu.ca/~lockhart/richard/890/06_3/lectures/Weak...Convergence in Distribution Undergraduate version of central

General Properties:

If Xn ⇒ X and h is continuous from S1 to S2

then

Yn = h(Xn) ⇒ Y = h(X)

Theorem 1 (Slutsky) If Xn ⇒ X, Y ⇒ yo and

h is continuous from S1 × S2 to S3 at x, yo for

each x then

Zn = h(Xn, Yn) ⇒ Z = h(X, y)

5

Page 6: X ,,Xn are iid from a population µ and standard deviation ...people.stat.sfu.ca/~lockhart/richard/890/06_3/lectures/Weak...Convergence in Distribution Undergraduate version of central

We will begin by specializing to simplest case:

S is the real line and d(x, y) = |x − y|. In the

following we suppose that Xn, X are real valued

random variables.

Theorem 2 The following are equivalent:

1. Xn converges in distribution to X.

2. P(Xn ≤ x) → P(X ≤ x) for each x such

that P(X = x) = 0.

3. The limit of the characteristic functions of

Xn is the characteristic function of X:

E(eitXn) → E(eitX)

for every real t.

These are all implied by

MXn(t) →MX(t) < ∞for all |t| ≤ ǫ for some positive ǫ.

6

Page 7: X ,,Xn are iid from a population µ and standard deviation ...people.stat.sfu.ca/~lockhart/richard/890/06_3/lectures/Weak...Convergence in Distribution Undergraduate version of central

Now let’s go back to the questions I asked:

• Xn ∼ N(0,1/n) and X = 0. Then

P(Xn ≤ x) →

1 x > 00 x < 01/2 x = 0

Limit is cdf of X = 0 except for x = 0;

cdf of X is not continuous at x = 0. So:

Xn ⇒ X.

• Does Xn ∼ N(1/n,1/n) have distribution

close that of Yn ∼ N(0,1/n). Find a limit

X and prove both Xn ⇒ X and Yn ⇒ X.

Take X = 0. Then

E(etXn) = et/n+t2/(2n) → 1 = E(etX)

and

E(etYn) = et2/(2n) → 1

so that both Xn and Yn have the same limit

in distribution.

7

Page 8: X ,,Xn are iid from a population µ and standard deviation ...people.stat.sfu.ca/~lockhart/richard/890/06_3/lectures/Weak...Convergence in Distribution Undergraduate version of central

••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

N(0,1/n) vs X=0; n=10000

-3 -2 -1 0 1 2 3

0.0

0.2

0.4

0.6

0.8

1.0

X=0N(0,1/n)

••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

N(0,1/n) vs X=0; n=10000

-0.03 -0.02 -0.01 0.0 0.01 0.02 0.03

0.0

0.2

0.4

0.6

0.8

1.0

X=0N(0,1/n)

8

Page 9: X ,,Xn are iid from a population µ and standard deviation ...people.stat.sfu.ca/~lockhart/richard/890/06_3/lectures/Weak...Convergence in Distribution Undergraduate version of central

•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

N(1/n,1/n) vs N(0,1/n); n=10000

-3 -2 -1 0 1 2 3

0.0

0.2

0.4

0.6

0.8

1.0

N(0,1/n)N(1/n,1/n)

••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

N(1/n,1/n) vs N(0,1/n); n=10000

-0.03 -0.02 -0.01 0.0 0.01 0.02 0.03

0.0

0.2

0.4

0.6

0.8

1.0

N(0,1/n)N(1/n,1/n)

9

Page 10: X ,,Xn are iid from a population µ and standard deviation ...people.stat.sfu.ca/~lockhart/richard/890/06_3/lectures/Weak...Convergence in Distribution Undergraduate version of central

• Multiply both Xn and Yn by n1/2 and let

X ∼ N(0,1). Then√nXn ∼ N(n−1/2,1)

and√nYn ∼ N(0,1). Use characteristic

functions to prove that both√nXn and√

nYn converge to N(0,1) in distribution.

• If you now let Xn ∼ N(n−1/2,1/n) and

Yn ∼ N(0,1/n) then again both Xn and

Yn converge to 0 in distribution.

• If you multiply Xn and Yn in the previ-

ous point by n1/2 then n1/2Xn ∼ N(1,1)

and n1/2Yn ∼ N(0,1) so that n1/2Xn and

n1/2Yn are not close together in distribu-

tion.

• You can check that 2−n → 0 in distribution.

10

Page 11: X ,,Xn are iid from a population µ and standard deviation ...people.stat.sfu.ca/~lockhart/richard/890/06_3/lectures/Weak...Convergence in Distribution Undergraduate version of central

•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

N(1/sqrt(n),1/n) vs N(0,1/n); n=10000

-3 -2 -1 0 1 2 3

0.0

0.2

0.4

0.6

0.8

1.0

N(0,1/n)N(1/sqrt(n),1/n)

••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

N(1/sqrt(n),1/n) vs N(0,1/n); n=10000

-0.03 -0.02 -0.01 0.0 0.01 0.02 0.03

0.0

0.2

0.4

0.6

0.8

1.0

N(0,1/n)N(1/sqrt(n),1/n)

11

Page 12: X ,,Xn are iid from a population µ and standard deviation ...people.stat.sfu.ca/~lockhart/richard/890/06_3/lectures/Weak...Convergence in Distribution Undergraduate version of central

Summary: to derive approximate distributions:

Show sequence of rvs Xn converges weakly to

some X.

The limit distribution (i.e. dstbn of X) should

be non-trivial, like say N(0,1).

Don’t say: Xn is approximately N(1/n,1/n).

Do say: n1/2(Xn − 1/n) converges to N(0,1)

in distribution.

12

Page 13: X ,,Xn are iid from a population µ and standard deviation ...people.stat.sfu.ca/~lockhart/richard/890/06_3/lectures/Weak...Convergence in Distribution Undergraduate version of central

The Central Limit Theorem

Theorem 3 If X1, X2, · · · are iid with mean 0

and variance 1 then n1/2X converges in distri-

bution to N(0,1). That is,

P(n1/2X ≤ x) → 1√2π

∫ x

−∞e−y

2/2dy .

Proof: We will show

E(eitn1/2X) → e−t

2/2 .

This is the characteristic function of N(0,1)

so we are done by our theorem.

13

Page 14: X ,,Xn are iid from a population µ and standard deviation ...people.stat.sfu.ca/~lockhart/richard/890/06_3/lectures/Weak...Convergence in Distribution Undergraduate version of central

Some basic facts:

If Z ∼ N(0,1) then

E(

eitZ)

= e−t2/2

Theorem 4 If X is a real random variable with

E(|X|k) <∞ then the function

ψ(t) = E(

eitX)

has k continuous derivatives as a function of

the real variable t. (Real part and imaginary

part each have that many derivatives.) More-

over for 1 ≤ j ≤ k we find

ψ(j)(t) = ikE(

XkeitX)

Theorem 5 (Taylor Expansion) For such an

X:

ψ(t) = 1 +k

j=1

ijE(Xj)tj/j! +R(t)

where the remainder function R(t) satisfies

limt→0

R(t)/tk = 0

14

Page 15: X ,,Xn are iid from a population µ and standard deviation ...people.stat.sfu.ca/~lockhart/richard/890/06_3/lectures/Weak...Convergence in Distribution Undergraduate version of central

Finish proof: let ψ(t) = E(exp(itX1)):

E(eit√nX) = ψn(t/

√n)

Since variance is 1 and mean is 0:

ψ(t) = 1 − t2/2 +R(t)

where limt→0R(t)/t2 = 0.

Fix t, replace t by t/√n:

ψn(t/√n) = 1 − t2/(2n) +R(t/

√n)

Define xn = −t2/2 + 2nR(t/√n).

Notice xn → −t2/2 (by property of R) and use

xn → x implies

(1 + xn/n)n → ex

valid for all complex x.

Get

E(eitn1/2X) → e−t

2/2 .

to finish proof.

15

Page 16: X ,,Xn are iid from a population µ and standard deviation ...people.stat.sfu.ca/~lockhart/richard/890/06_3/lectures/Weak...Convergence in Distribution Undergraduate version of central

Proof of Theorem 4: do case k = 1.

Must show

limh→0

ψ(t+ h) − ψ(t)

h= iE(XeitX)

But

ψ(t+ h) − ψ(t)

h= E

ei(t+h)X − eitX

h

Fact:∣

ei(t+h)X − eitX

h

≤ |X|

for any t. By Dominated Convergence Theo-

rem can take limit inside integral to get

ψ′(t) = iE(XeitX)

16

Page 17: X ,,Xn are iid from a population µ and standard deviation ...people.stat.sfu.ca/~lockhart/richard/890/06_3/lectures/Weak...Convergence in Distribution Undergraduate version of central

Multivariate convergence in distribution

Definition: Xn ∈ Rp converges in distribution

to X ∈ Rp if

E(g(Xn)) → E(g(X))

for each bounded continuous real valued func-

tion g on Rp.

This is equivalent to either of

Cramer Wold Device: aTXn converges in dis-

tribution to aTX for each a ∈ Rp.

or

Convergence of characteristic functions:

E(eiaTXn) → E(eia

TX)

for each a ∈ Rp.

17

Page 18: X ,,Xn are iid from a population µ and standard deviation ...people.stat.sfu.ca/~lockhart/richard/890/06_3/lectures/Weak...Convergence in Distribution Undergraduate version of central

Extensions of the CLT

1. Y1, Y2, · · · iid in Rp, mean µ, variance Σ

then n1/2(Y − µ) ⇒ MVN(0,Σ).

2. Lyapunov CLT: for each n Xn1, . . . , Xnn in-

dependent rvs with

E(Xni) = 0 (1)

Var(∑

i

Xni) = 1 (2)

i

E(|Xni|3) → 0 (3)

then∑

iXni ⇒ N(0,1).

3. Lindeberg CLT: If conds (1), (2) and∑

E(X2ni1(|Xni| > ǫ)) → 0

each ǫ > 0 then∑

iXni ⇒ N(0,1). (Lya-

punov’s condition implies Lindeberg’s.)

4. Non-independent rvs: m-dependent CLT,

martingale CLT, CLT for mixing processes.

5. Not sums: Slutsky’s theorem, δ method.

18

Page 19: X ,,Xn are iid from a population µ and standard deviation ...people.stat.sfu.ca/~lockhart/richard/890/06_3/lectures/Weak...Convergence in Distribution Undergraduate version of central

Slutsky’s Theorem in Rp : If Xn ⇒ X and

Yn converges in distribution (or in probabil-

ity) to c, a constant, then Xn + Yn ⇒ X + c.

More generally, if f(x, y) is continuous then

f(Xn, Yn) ⇒ f(X, c).

Warning: hypothesis that limit of Yn constant

is essential.

Definition: Yn → Y in probability if ∀ǫ > 0:

P(d(Yn, Y ) > ǫ) → 0 .

Fact: for Y constant convergence in distribu-

tion and in probability are the same.

Always convergence in probability implies con-

vergence in distribution.

Both are weaker than almost sure convergence:

Definition: Yn → Y almost surely if

P(ω ∈ Ω : limn→∞Yn(ω) = Y (ω)) = 1 .

19

Page 20: X ,,Xn are iid from a population µ and standard deviation ...people.stat.sfu.ca/~lockhart/richard/890/06_3/lectures/Weak...Convergence in Distribution Undergraduate version of central

Theorem 6 (The delta method) Suppose:

• Sequence Yn → y, a constant.

• If Xn = an(Yn − y) then Xn ⇒ X for some

random variable X.

• f is ftn defined on a neighbourhood of y ∈Rp which is differentiable at y.

Then an(f(Yn)−f(y)) converges in distribution

to f ′(y)X.

If Xn ∈ Rp and f : Rp 7→ Rq then f ′ is q × p

matrix of first derivatives of components of f .

20

Page 21: X ,,Xn are iid from a population µ and standard deviation ...people.stat.sfu.ca/~lockhart/richard/890/06_3/lectures/Weak...Convergence in Distribution Undergraduate version of central

Proof: The function f : Rq → R

p is differen-

tiable at y ∈ Rq if there is a matrix Df such

that

limh→0

f(y + h) − f(y) −Dfh

||h||= 0

that is, for each ǫ > 0 there is a δ > 0 such

that ||h|| ≤ δ implies

||f(y + h) − f(y) −Dfh|| ≤ ǫ||h||.Define

Rn = an(f(Yn) − f(y)) − anDf (Yn − y)

and

Sn = anDf (Yn − y) = DfXn

According to Slutsky’s theorem

Sn ⇒ DfX

If we now prove Rn ⇒ 0 then by Slutsky’s the-

orem we find

an(f(Yn) − f(y)) = Sn +Rn ⇒ DfX

21

Page 22: X ,,Xn are iid from a population µ and standard deviation ...people.stat.sfu.ca/~lockhart/richard/890/06_3/lectures/Weak...Convergence in Distribution Undergraduate version of central

Now fix ǫ1, ǫ2 > 0. I claim there is K so big

that for all n

P(Bn) ≡ P(||an(Yn − y)|| > K) ≤ ǫ1.

Let δ > 0 be the value in the definition of

derivative corresponding to ǫ2/K. Choose N

so large that n ≥ N implies K/an ≤ δ.

For n ≥ N we have

||an(Yn − y)|| > K ⊃ ||Yn − y|| > δ⊃ ||Rn|| > ǫ2

so that n ≥ N implies

P(||Rn|| > ǫ2) ≤ ǫ1

which means Rn → 0 in probability. •

22

Page 23: X ,,Xn are iid from a population µ and standard deviation ...people.stat.sfu.ca/~lockhart/richard/890/06_3/lectures/Weak...Convergence in Distribution Undergraduate version of central

Example: Suppose X1, . . . , Xn are a sample

from a population with mean µ, variance σ2,

and third and fourth central moments µ3 and

µ4. Then

n1/2(s2 − σ2) ⇒ N(0, µ4 − σ4)

where ⇒ is notation for convergence in distri-

bution. For simplicity I define s2 = X2 − X2.

23

Page 24: X ,,Xn are iid from a population µ and standard deviation ...people.stat.sfu.ca/~lockhart/richard/890/06_3/lectures/Weak...Convergence in Distribution Undergraduate version of central

How to apply δ method:

1) Write statistic as a function of averages:

Define

Wi =

[

X2i

Xi

]

.

See that

Wn =

[

X2

X

]

Define

f(x1, x2) = x1 − x22

See that s2 = f(Wn).

2) Compute mean of your averages:

µW ≡ E(Wn) =

[

E(X2i )

E(Xi)

]

=

[

µ2 + σ2

µ

]

.

3) In δ method theorem take Yn = Wn and

y = E(Yn).

24

Page 25: X ,,Xn are iid from a population µ and standard deviation ...people.stat.sfu.ca/~lockhart/richard/890/06_3/lectures/Weak...Convergence in Distribution Undergraduate version of central

4) Take an = n1/2.

5) Use central limit theorem:

n1/2(Yn − y) ⇒MVN(0,Σ)

where Σ = Var(Wi).

6) To compute Σ take expected value of

(W − µW)(W − µW)T

There are 4 entries in this matrix. Top left

entry is

(X2 − µ2 − σ2)2

This has expectation:

E

(X2 − µ2 − σ2)2

= E(X4) − (µ2 + σ2)2 .

25

Page 26: X ,,Xn are iid from a population µ and standard deviation ...people.stat.sfu.ca/~lockhart/richard/890/06_3/lectures/Weak...Convergence in Distribution Undergraduate version of central

Using binomial expansion:

E(X4) = E(X − µ+ µ)4= µ4 + 4µµ3 + 6µ2σ2

+ 4µ3E(X − µ) + µ4 .

So

Σ11 = µ4 − σ4 + 4µµ3 + 4µ2σ2

Top right entry is expectation of

(X2 − µ2 − σ2)(X − µ)

which is

E(X3) − µE(X2)

Similar to 4th moment get

µ3 + 2µσ2

Lower right entry is σ2.

So

Σ =

[

µ4 − σ4 + 4µµ3 + 4µ2σ2 µ3 + 2µσ2

µ3 + 2µσ2 σ2

]

26

Page 27: X ,,Xn are iid from a population µ and standard deviation ...people.stat.sfu.ca/~lockhart/richard/890/06_3/lectures/Weak...Convergence in Distribution Undergraduate version of central

7) Compute derivative (gradient) of f : has

components (1,−2x2). Evaluate at y = (µ2 +

σ2, µ) to get

aT = (1,−2µ) .

This leads to

n1/2(s2 − σ2) ≈

n1/2[1,−2µ]

[

X2 − (µ2 + σ2)X − µ

]

which converges in distribution to

(1,−2µ)MVN(0,Σ) .

This rv is N(0, aTΣa) = N(0, µ4 − σ4).

27

Page 28: X ,,Xn are iid from a population µ and standard deviation ...people.stat.sfu.ca/~lockhart/richard/890/06_3/lectures/Weak...Convergence in Distribution Undergraduate version of central

Alternative approach worth pursuing. Suppose

c is constant.

Define X∗i = Xi − c.

Then: sample variance of X∗i is same as sample

variance of Xi.

Notice all central moments of X∗i same as for

Xi. Conclusion: no loss in µ = 0. In this case:

aT = (1,0)

and

Σ =

[

µ4 − σ4 µ3

µ3 σ2

]

.

Notice that

aTΣ = [µ4 − σ4, µ3]

and

aTΣa = µ4 − σ4 .

28

Page 29: X ,,Xn are iid from a population µ and standard deviation ...people.stat.sfu.ca/~lockhart/richard/890/06_3/lectures/Weak...Convergence in Distribution Undergraduate version of central

Special case: if population is N(µ, σ2) then

µ3 = 0 and µ4 = 3σ4. Our calculation has

n1/2(s2 − σ2) ⇒ N(0,2σ4)

You can divide through by σ2 and get

n1/2(s2

σ2− 1) ⇒ N(0,2)

In fact ns2/σ2 has a χ2n−1 distribution and so

the usual central limit theorem shows that

(n− 1)−1/2[ns2/σ2 − (n− 1)] ⇒ N(0,2)

(using mean of χ21 is 1 and variance is 2).

Factor out n to get√

n

n− 1n1/2(s2/σ2− 1)+ (n−1)−1/2 ⇒ N(0,2)

which is δ method calculation except for some

constants.

Difference is unimportant: Slutsky’s theorem.

29

Page 30: X ,,Xn are iid from a population µ and standard deviation ...people.stat.sfu.ca/~lockhart/richard/890/06_3/lectures/Weak...Convergence in Distribution Undergraduate version of central

Extending the ideas to higher dimensions.

W1,W2, · · · iid

Density f(x) = exp(−(x+ 1))1(x > −1) Mean

0 – shifted exponential.

Set Sk = W1 + · · · +Wk

Plot against k for k = 1..n.

Label x axis to run from 0 to 1.

Rescale vertical axes to fit in square.

30

Page 31: X ,,Xn are iid from a population µ and standard deviation ...people.stat.sfu.ca/~lockhart/richard/890/06_3/lectures/Weak...Convergence in Distribution Undergraduate version of central

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.4

0.8

n=100

k/n

S_k

/sqr

t(n)

0.0 0.2 0.4 0.6 0.8 1.0

−0.

20.

00.

20.

40.

6

n=400

k/n

S_k

/sqr

t(n)

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

n=1600

k/n

S_k

/sqr

t(n)

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

n=10000

k/n

S_k

/sqr

t(n)

31

Page 32: X ,,Xn are iid from a population µ and standard deviation ...people.stat.sfu.ca/~lockhart/richard/890/06_3/lectures/Weak...Convergence in Distribution Undergraduate version of central

Proof: of Slutsky’s Theorem:

First: why is it true?

If Xn ⇒ X and Yn ⇒ y then we will show

(Xn, Yn) ⇒ (X, y).

Point is that joint law of X, y is determined by

marginal laws!

Once this is done then

E(h(Xn, Yn)) → E(h(X, y))

by definition.

Note: You don’t need continuity for all x, y

but I will do only easy case.

32

Page 33: X ,,Xn are iid from a population µ and standard deviation ...people.stat.sfu.ca/~lockhart/richard/890/06_3/lectures/Weak...Convergence in Distribution Undergraduate version of central

Definition: A family Pα, α ∈ A of probability

measures on (S, d) is tight if for each ǫ > 0

there is a K compact in S such that for every

α ∈ A

P(K) ≥ 1 − ǫ

Theorem 7 If S is a complete separable met-

ric space then each probability measure P on

the Borel sets in S is tight.

Proof: Let x1, x2, · · · be dense in S.

For each n draw balls Bn,, Bn,2, · · · of radius

1/n around x1, x2, . . ..

Each point in S is in one of these balls because

the xj sequence is dense. That is:

S =∞⋃

j=1

Bn,j

33

Page 34: X ,,Xn are iid from a population µ and standard deviation ...people.stat.sfu.ca/~lockhart/richard/890/06_3/lectures/Weak...Convergence in Distribution Undergraduate version of central

Thus

1 = P(S) = limJ→∞

P

J⋃

j=1

Bn,j

Pick Jn so large that

P

Jn⋃

j=1

Bn,j

≥ 1 − ǫ/2n

Let Fn be the closure of⋃Jnj=1Bn,j.

Let K = ∩∞n=1Fn. I claim K is compact and

has probability at least 1 − ǫ.

First

P(K) = 1 − P(Kc)

= 1 − P(

F cn)

≥ 1 −∑

P(F cn)

≥ 1 −∑

ǫ/2n

= 1 − ǫ

(Incidentally you see that K is not empty!)

34

Page 35: X ,,Xn are iid from a population µ and standard deviation ...people.stat.sfu.ca/~lockhart/richard/890/06_3/lectures/Weak...Convergence in Distribution Undergraduate version of central

Second: K closed (intersection of closed sets).

Third: K is totally bounded since each Fn is a

cover of K by (closed) balls of radius 1/n.

So K is compact.

Theorem 8 If Xn converge in distribution to

some X in a complete separable metric space

S then the sequence Xn is tight.

Conversely:

Theorem 9 If the sequence Xn is tight then

every subsequence is also tight. There is a

subsequence Xnk and a random variable X such

that as k → ∞

Xnk ⇒ X.

Theorem 10 If there is a rv X such that ev-

ery subsequence of Xn has a further subsub-

sequence converging in distribution to X then

Xn ⇒ X.

35

Page 36: X ,,Xn are iid from a population µ and standard deviation ...people.stat.sfu.ca/~lockhart/richard/890/06_3/lectures/Weak...Convergence in Distribution Undergraduate version of central

Proof of Theorem 9: do Rp.

First assertion obvious. Let x1, x2, . . . be dense

in Rp. Find sequence n1,1 < n1,2 < · · · such

that the sequence Fn1,k(x1) has a limit which

we denote y1.

Exists because probabilities trapped in [0,1].

(Bolzano-Weierstrass).

Pick n2,1 < n2,2 < · · · a subsequence of the

n1,k such that Fn2,k(x2) has a limit which we

denote y2.

Continue picking subsequence nm+1,k from the

sequence nm,k so that Fnm+1,k(xm+1) has a

limit which we denote ym+1.

36

Page 37: X ,,Xn are iid from a population µ and standard deviation ...people.stat.sfu.ca/~lockhart/richard/890/06_3/lectures/Weak...Convergence in Distribution Undergraduate version of central

Trick: Diagonalization.

Consider the sequence

n1,1 < n2,2 < · · ·

After the kth entry all remaining are a subse-

quence of the kth subsequence nk,j. So

limk→∞

Fnk,k(xj) = yj

for each j.

Idea: would like to define FX(xj) = yj but

that might not give cdf. Instead set FX(x) =

infyj : xj > x.

Next: prove FX is cdf.

Then prove subsequence converges to FX.

37