Elementi di Probabilit a e Statisticausers.dma.unipi.it/~flandoli/Lista Enunciati.pdf · Ricordiamo...

32
Elementi di Probabilit` a e Statistica Lista di definizioni ed enunciati 1 Nozioni fondamentali di Calcolo delle Proba- bilit` a. Definizione 1.1 (Algebra di parti). Dato un insieme Ω, si chiama algebra di parti una famiglia F di sottinsiemi di Ω tale che: a) l’insieme vuoto e l’intero insieme Ω sono elementi di F ; b) se A ∈F , anche il suo complementare A c ∈F ; c) se A e B sono elementi di F , anche A B ∈F . Definizione 1.2 (Probabilit` a finitamente additiva). Data un’algebra F di parti di un insieme Ω , si chiama probabilit` a (finitamente additiva) una funzione P : F -→ [0, 1] tale che a) se A, B ∈F e A B = , allora P ( A B ) = P ( A ) + P ( B ) ; b) P(Ω) = 1. Gli elementi dell’algebra di parti F sono chiamati eventi , si chiama tra- scurabile un evento A tale che P(A) = 0 e si chiama quasi certo un evento A tale che P(A) = 1. Definizione 1.3 (σ-algebra di parti). Dato un insieme Ω, si chiama σ- algebra di parti una famiglia F di sottinsiemi di Ω tale che: a) l’insieme vuoto e l’intero insieme Ω sono elementi di F ; b) se A ∈F , anche il suo complementare A c ∈F ; c) se (A n ) n1 ` e una successione di elementi di F , anche S +n=1 A n ∈F . Definizione 1.4 (Probabilit` a). Assegnato un insieme Ω ed una σ-algebra F di parti di Ω, si chiama probabilit` a una funzione P : F -→ [0, 1] tale che a) se (A n ) n=1,2,... ` e una successione di elementi di F a due a due disgiunti, si ha P (S +n=1 A n ) = +n=1 P(A n ); b) P(Ω) = 1. Proposizione 1.5. Sia F una σ-algebra di parti di un insieme Ω e sia P : F -→ [0, 1] semplicemente additiva (e tale che P(Ω) = 1). Sono equivalenti le seguenti propriet`a: 1) P ` e σ-additiva; 2) A n A = P(A n ) P(A) (o anche P(A n ) P(A)); 3) A n A = P(A n ) P(A) (o anche P(A n ) P(A)) 1

Transcript of Elementi di Probabilit a e Statisticausers.dma.unipi.it/~flandoli/Lista Enunciati.pdf · Ricordiamo...

Page 1: Elementi di Probabilit a e Statisticausers.dma.unipi.it/~flandoli/Lista Enunciati.pdf · Ricordiamo che si chiama trascurabile un insieme che ha misura nulla; una propriet a veri

Elementi di Probabilita e Statistica

Lista di definizioni ed enunciati

1 Nozioni fondamentali di Calcolo delle Proba-bilita.

Definizione 1.1 (Algebra di parti). Dato un insieme Ω, si chiama algebradi parti una famiglia F di sottinsiemi di Ω tale che:

a) l’insieme vuoto ∅ e l’intero insieme Ω sono elementi di F ;b) se A ∈ F , anche il suo complementare Ac ∈ F ;c) se A e B sono elementi di F , anche A ∪B ∈ F .

Definizione 1.2 (Probabilita finitamente additiva). Data un’algebraF di parti di un insieme Ω , si chiama probabilita (finitamente additiva) unafunzione P : F −→ [0, 1] tale che

a) se A,B ∈ F e A ∩B = ∅ , allora P(A ∪B

)= P

(A)

+ P(B);

b) P(Ω) = 1.

Gli elementi dell’algebra di parti F sono chiamati eventi , si chiama tra-scurabile un evento A tale che P(A) = 0 e si chiama quasi certo un eventoA tale che P(A) = 1.

Definizione 1.3 (σ-algebra di parti). Dato un insieme Ω, si chiama σ-algebra di parti una famiglia F di sottinsiemi di Ω tale che:

a) l’insieme vuoto ∅ e l’intero insieme Ω sono elementi di F ;b) se A ∈ F , anche il suo complementare Ac ∈ F ;c) se (An)n≥1 e una successione di elementi di F , anche

⋃+∞n=1An ∈ F .

Definizione 1.4 (Probabilita). Assegnato un insieme Ω ed una σ-algebraF di parti di Ω, si chiama probabilita una funzione P : F −→ [0, 1] tale che

a) se (An)n=1,2,... e una successione di elementi di F a due a due disgiunti,si ha P

(⋃+∞n=1An

)=∑+∞

n=1 P(An) ;b) P(Ω) = 1.

Proposizione 1.5. Sia F una σ-algebra di parti di un insieme Ω e siaP : F −→ [0, 1] semplicemente additiva (e tale che P(Ω) = 1 ). Sonoequivalenti le seguenti proprieta:

1) P e σ-additiva;2) An ↑ A =⇒ P(An)→ P(A) (o anche P(An) ↑ P(A) );3) An ↓ A =⇒ P(An)→ P(A) (o anche P(An) ↓ P(A) )

1

Page 2: Elementi di Probabilit a e Statisticausers.dma.unipi.it/~flandoli/Lista Enunciati.pdf · Ricordiamo che si chiama trascurabile un insieme che ha misura nulla; una propriet a veri

4) An ↑ Ω =⇒ P(An)→ 1 ;5) An ↓ ∅ =⇒ P(An)→ 0 .

Nel caso in cui Ω sia un insieme finito e gli eventi elementari ωi sianoequiprobabili, si parla di distribuzione uniforme di probabilita su Ω: in questocaso si ottiene la formula

P(A) =]A

]Ω=|A||Ω|

dove con ]A o con |A| si indica la cardinalita (o numero degli elementi)dell’insieme A. La formula sopra scritta e anche chiamata rapporto tra casifavorevoli e casi possibili.

Proposizione 1.6. Siano k ed n due interi: il numero di applicazioni da1, . . . , k a 1, . . . , n e nk

Proposizione 1.7 (Permutazioni). Il numero di modi in cui si possonoordinare gli elementi di 1, . . . , n e n!

Proposizione 1.8 (Coefficiente binomiale). Siano 0 ≤ k ≤ n : il nu-mero di sottinsiemi di 1, . . . , n formati da k elementi e(

n

k

)=

n!

k! (n− k)!

Definizione 1.9. Assegnato uno spazio di probabilita(Ω,F ,P

)ed un

evento B non trascurabile, si chiama probabilita condizionata di A rispettoa B il numero

P(A∣∣B) =

P(A ∩B)

P(B)

Proposizione 1.10. Siano A1, . . . , An eventi, e supponiamo che A1 ∩ . . .∩An−1 sia non trascurabile: vale la formula

P(A1 ∩ . . . ∩An

)= P

(A1

).P(A2

∣∣A1

). . .P

(An∣∣A1 ∩ . . . ∩An−1

)Definizione 1.11 (Sistema di alternative). Si chiama sistema di alter-native una partizione di Ω in n eventi non trascurabili B1, . . . , Bn.

Ricordiamo che partizione significa che gli insiemi Bi sono a due a duedisgiunti e che la loro unione e l’intero insieme Ω.

2

Page 3: Elementi di Probabilit a e Statisticausers.dma.unipi.it/~flandoli/Lista Enunciati.pdf · Ricordiamo che si chiama trascurabile un insieme che ha misura nulla; una propriet a veri

Proposizione 1.12 (Formula di Bayes). Sia B1, . . . , Bn un sistema dialternative: assegnato una qualunque evento A non trascurabile, valgono leformule

P(A) =n∑i=1

P(A∣∣Bi)P

(Bi)

P(Bi∣∣A) =

P(A∣∣Bi)P

(Bi)∑n

j=1 P(A∣∣Bj)P

(Bj)

Definizione 1.13 (Indipendenza stocastica). Due eventi A e B sonodetti indipendenti se vale l’eguaglianza

P(A ∩B) = P(A).P(B)

Definizione 1.14 (Indipendenza di piu eventi). Assegnati n eventiA1, . . . , An, questi si dicono indipendenti se per ogni intero k con 2 ≤ k ≤ ne per ogni scelta di interi 1 ≤ i1 < i2 < . . . < ik ≤ n , vale l’eguaglianza

P(Ai1 ∩ · · · ∩Aik

)= P

(Ai1). .P

(Aik)

Proposizione 1.15. Gli eventi A1, . . . , An sono indipendenti se e solo se,per ogni possibile scelta di Bi = Ai oppure Bi = Aci , vale l’eguaglianza

P(B1 ∩ . . . ∩Bn

)= P

(B1

). .P

(Bn)

2 Probabilita e variabili aleatorie su uno spazionumerabile

Sia (an)n≥1 una successione di numeri positivi.

Proposizione 2.1. Sia v : IN→ IN una applicazione biunivoca: allora

+∞∑n=1

an =

+∞∑n=1

av(n)

Proposizione 2.2. Sia A1, A2, . . . una partizione di IN (non importa seformata di insiemi finiti o infiniti): vale la formula

+∞∑n=1

an =

+∞∑n=1

∑k∈An

ak

3

Page 4: Elementi di Probabilit a e Statisticausers.dma.unipi.it/~flandoli/Lista Enunciati.pdf · Ricordiamo che si chiama trascurabile un insieme che ha misura nulla; una propriet a veri

Queste due proprieta si estendono immediatamente alle serie assoluta-mente convergenti: ricordiamo che una serie numerica e detta assolutamenteconvergente se si ha

+∞∑n=1

∣∣an∣∣ < +∞

Consideriamo un insieme numerabile E = e1, e2, . . . sul quale sia definitauna misura m : per ogni insieme A ⊂ E si ha

m(A)

=∑ei∈A

m(ei)

Consideriamo ora una funzione f : E → IR.

Definizione 2.3 (Integrale). Si dice che la funzione f e integrabile se∑i

∣∣f(ei)∣∣m(ei) < +∞

ed in tal caso chiamiamo integrale di f il numero∫f dm =

∑i

f(ei) m(ei)

Indichiamo con L1 lo spazio delle funzioni integrabili. Osserviamo ancorache, se f e a valori positivi, ha sempre senso parlare di integrale di f , cioe∫f dm =

∑i≥1 f(ei)m(ei) ∈ [0,+∞].

1. se f, g ∈ L1, anche (af + g) ∈ L1 e∫

(af + g)dm = a∫f dm+

∫g dm;

2. se 0 ≤ f ≤ g , allora∫f dm ≤

∫g dm;

3. f e integrabile se e solo se∫|f | dm < +∞, inoltre

∣∣ ∫ f dm∣∣ ≤ ∫ |f |dm;

4. se 0 ≤ f e∫f dm = 0, allora f vale identicamente 0 eccetto eventual-

mente su un insieme trascurabile.

Ricordiamo che si chiama trascurabile un insieme che ha misura nulla;una proprieta verificata ovunque eccetto che su un insieme trascurabilee detta valere quasi ovunque (e si scrive q.o.), mentre in probabilita sipreferisce dire quasi certamente (e si scrive q.c.).

Teorema 2.4 (Beppo Levi). Sia (fn)n≥1 una successione crescente di fun-zioni positive, convergente ad f : la successione degli integrali

( ∫fn dm

)n≥1

converge (crescendo) a∫f dm.

In maniera piu sintetica si puo scrivere

0 ≤ fn , fn ↑ f =⇒∫fn dm ↑

∫f dm

4

Page 5: Elementi di Probabilit a e Statisticausers.dma.unipi.it/~flandoli/Lista Enunciati.pdf · Ricordiamo che si chiama trascurabile un insieme che ha misura nulla; una propriet a veri

Teorema 2.5 (Convergenza dominata). Sia (fn)n≥1 una successione difunzioni convergente puntualmente ad f e supponiamo che esista g positivaintegrabile tale che si abbia |fn| ≤ g qualunque sia n: vale allora la relazione

limn→∞

∫fn dm =

∫f dm

Teorema 2.6 (Diseguaglianza di Schwartz). Siano f, g tali che∫f2 dm < +∞ e

∫g2 dm < +∞ : allora il prodotto fg e integrabile e vale

la diseguaglianza ∣∣∣∣∫ fg dm

∣∣∣∣ ≤√∫

f2 dm

√∫g2 dm

Inoltre, se la diseguaglianza sopra scritta e una eguaglianza, le funzioni f eg coincidono a meno di una costante moltiplicativa (cioe esiste t reale taleche f(ei) = t g(ei) q.o.).

Consideriamo ora uno spazio di probabilita(Ω,F ,P

)nel quale l’insieme

Ω e supposto numerabile.

Definizione 2.7 (Variabile aleatoria). Assegnato uno spazio di proba-bilita

(Ω,F ,P

)con Ω numerabile, si chiama variabile aleatoria reale (di-

screta) una funzione X : Ω→ IR.

Definizione 2.8 (Legge di Probabilita). Si chiama legge di probabilita (oanche distribuzione di probabilita) della v.a. reale X la probabilita definitasui sottinsiemi di IR dalla formula

PX

(A)

= P(X−1(A)

)La probabilita PX viene anche chiamata la probabilita immagine (di P

mediante X) e indicata X(P). Quando due variabili aleatorie hanno la

stessa legge di probabilita sono dette equidistribuite (o anche isonome).Poiche Ω e numerabile, anche l’immagine di X e un sottinsieme (finito

o) numerabile della retta, cioe (x1, x2, . . .) ; per ogni punto xi , si consideriil numero p(xi) = P

X = xi

= P

(X−1(xi)

). Vale la formula:

PX

(A)

= P(X−1(A)

)=∑xi∈A

p(xi)

(infatti X−1(A) =⋃xi∈A

X = xi

).

Alla funzione x → p(x) = PX = x

viene dato il nome di funzione di

probabilita o anche densita discreta.

Osservazione 2.9. Assegnata una probabilita discreta Q su IR esiste unav.a. X la cui legge di probabilita sia Q.

5

Page 6: Elementi di Probabilit a e Statisticausers.dma.unipi.it/~flandoli/Lista Enunciati.pdf · Ricordiamo che si chiama trascurabile un insieme che ha misura nulla; una propriet a veri

Esempio 2.10 (Variabile Binomiale). La variabile Binomiale di para-metri n e p considera n ripetizioni indipendenti di un esperimento che haprobabilita p di successo e conta il numero dei successi ottenuti. Quandon = 1 viene anche chiamata di Bernoulli di parametro p.

I valori della v.a. binomiale sono gli interi 0, 1, . . . , n e vale, per 0 ≤k ≤ n, la formula

p(k) = PX = k

=

(n

k

)pk(1− p)n−k

Esempio 2.11 (Variabile di Poisson). La variabile di Poisson (di para-metro λ , λ > 0) e una variabile che assume tutti i valori interi positivi conprobabilita

p(n) = PX = n

= e−λ

λn

n!

Esempio 2.12 (Variabile Geometrica). La variabile Geometrica (di para-metro p , 0 < p < 1 ) considera ripetizioni consecutive di un esperimento cheha probabilita p di successo e conta il numero di prove che e stato necessarioeffettuare per ottenere un successo.

I valori possibili sono gli interi strettamente positivi e si ha

p(n) = PX = n

= (1− p)n−1p

Teorema 2.13 (Integrazione rispetto a una probabilita immagine).Siano X una v.a. discreta, PX = X

(P)

la sua legge di probabilita e ϕ :IR→ IR. ϕ e integrabile rispetto a PX se e solo se ϕX e integrabile rispettoa P, e in tal caso vale l’eguaglianza∫

IRϕ(x) dPX(x) =

∫Ωϕ(X(ω)

)dP(ω) (2.1)

Definizione 2.14 (Valore atteso). Data una v.a. reale discreta X, si diceche essa ha valore atteso se e integrabile rispetto a P, e in tal caso si chiamavalore atteso (o speranza matematica) l’integrale

E[X]

=

∫ΩX(ω) dP(ω) =

∑i

X(ωi)P(ωi)

SeX e a valori positivi, ha sempre senso scrivere E[X] =∫

ΩX(ω) dP(ω) ∈[0,+∞[.

Osservazione 2.15. Sia X una variabile aleatoria a valori interi positivi:vale la formula

E[X]

=∑n≥0

PX > n

=∑n≥1

PX ≥ n

6

Page 7: Elementi di Probabilit a e Statisticausers.dma.unipi.it/~flandoli/Lista Enunciati.pdf · Ricordiamo che si chiama trascurabile un insieme che ha misura nulla; una propriet a veri

Definizione 2.16 (Momenti). Sia 1 ≤ p < +∞ e X una v.a.: si chiamamomento assoluto di ordine p il numero

E[∣∣X∣∣p] =

∑i

|xi|p p(xi) ∈ [0,+∞]

e se questo numero risulta finito, si dice che X ammette momento di ordinep. Dato un intero positivo n, se X ammette momento di ordine n, si chiamamomento di ordine n il numero E

[Xn].

Proposizione 2.17. Siano 1 ≤ p < q < +∞: se X ha momento di ordineq, ammette anche momento di ordine p.

Definizione 2.18 (Varianza). Sia X una variabile aleatoria dotata di mo-mento secondo: si chiama Varianza di X il numero

V ar(X)

= E[(X −E[X]

)2]= E

[X2]−E[X]2

Lemma 2.19 (Diseguaglianza di Markov). Sia X una v.a. a valoripositivi e t una costante positiva: vale la diseguaglianza

tPX ≥ t

≤ E

[X]

Proposizione 2.20 (Diseguaglianza di Chebishev). Sia X una v.a.dotata di momento secondo: vale la diseguaglianza

t2 P∣∣X −E[X]

∣∣ ≥ t ≤ V ar(X)Corollario 2.21. La varianza di una v.a. X e eguale a 0 se e solo se X ecostante q.c.

Per semplicita di notazioni, trattiamo il caso di variabili aleatorie a valoriin IR2, sia dunque una variabile aleatoria doppia o bidimensionale, cioe unaapplicazione

(X,Y

): Ω−→IR2. La sua legge di probabilita (denotata PX,Y =

(X,Y )(P)

e una probabilita sui sottinsiemi di IR2.L’immagine di (X,Y ) e un sottinsieme numerabile di IR2 cioe un insieme

di punti

(xi, yj)∣∣ i ≥ 1, j ≥ 1

e la funzione di probabilita e definita da

p(xi, yj) = PX = xi, Y = yj

. Per ogni sottinsieme B ⊂ IR2 si ha

PX,Y

(B)

= P

(X,Y ) ∈ B

=∑

(xi,yj)∈B

p(xi, yj)

Il teorema di integrazione rispetto ad una misura immagine si traducenell’eguaglianza

E[ϕ(X,Y )

]=

∫Ωϕ(X(ω), Y (ω)

)dP(ω) =

∫∫IR2

ϕ(x, y) dPX,Y (x, y) =

7

Page 8: Elementi di Probabilit a e Statisticausers.dma.unipi.it/~flandoli/Lista Enunciati.pdf · Ricordiamo che si chiama trascurabile un insieme che ha misura nulla; una propriet a veri

=∑xi,yj

ϕ(xi, yj) p(xi, yj)

che si deve leggere: ϕ(X,Y ) e integrabile rispetto a P se e solo se ϕ eintegrabile rispetto a PX,Y , ed in tal caso e soddisfatta la formula scrittasopra.

Definizione 2.22 (Covarianza). Supponiamo che X ed Y ammettanomomento secondo: si chiama covarianza il numero

Cov(X,Y

)= E

[(X −E[X]

)(Y −E[Y ]

)]= E

[XY

]−E[X] E[Y ]

Se Cov(X,Y

)= 0, le due variabili sono dette incorrelate.

Proposizione 2.23. Siano X ,Y dotate di momento secondo: vale la dise-guaglianza ∣∣∣Cov(X,Y )∣∣∣ ≤√V ar(X)√V ar(Y )

Se X ,Y ammettono momento secondo e non sono costanti, si chiamacoefficiente di correlazione il numero

ρ(X,Y

)=

Cov(X,Y

)√V ar

(X)√

V ar(Y)

Proposizione 2.24 (Matrice delle covarianze). Sia(X1, . . . , Xn

)una

variabile aleatoria n–dimensionale, supponiamo che ogni componente Xi ab-bia momento secondo e indichiamo con C la matrice delle covarianze (cioeCij = Cov(Xi, Xj)).

La matrice C e simmetrica, semidefinita positiva; inoltre vale la formula

V ar( n∑i=1

aiXi

)=

n∑i,j=1

Cij aiaj

Torniamo ad una variabile doppia (X,Y ), la cui legge di probabilita eidentificata dalla funzione di probabilita p(xi, yj); ognuna delle due compo-nenti X ed Y e una v.a. reale, e indichiamo con pX(xi) = PX = xi (eanalogamente per pY ) le relative funzioni di probabilita.

Proposizione 2.25. Valgono le formule

pX(xi) =∑yj

p(xi, yj) pY (yj) =∑xi

p(xi, yj)

Definizione 2.26. Due variabili aleatorie X ed Y si dicono indipendenti se,scelti comunque due sottinsiemi A e B di IR, gli eventi X−1(A) e Y −1(B)sono indipendenti, cioe se vale la formula

PX ∈ A , Y ∈ B

= P

X ∈ A

PY ∈ B

8

Page 9: Elementi di Probabilit a e Statisticausers.dma.unipi.it/~flandoli/Lista Enunciati.pdf · Ricordiamo che si chiama trascurabile un insieme che ha misura nulla; una propriet a veri

Proposizione 2.27. Due variabili discrete X ed Y sono indipendenti se esolo se le relative funzioni di probabilita sono legate dalla formula

p(xi, yj) = pX(xi) pY (yj) (2.2)

Definizione 2.28 (Probabilita prodotto). Siano P1 e P2 due probabilitasui sottinsiemi di IR: si chiama probabilita prodotto (e si indica P1 ⊗P2) laprobabilita definita sui sottinsiemi di IR2 tale che, se A,B sono sottinsiemidi IR, si abbia

P1 ⊗P2

(A×B

)= P1

(A)

P2

(B)

Proposizione 2.29. Due variabili aleatorie X1, X2 sono indipendenti se esolo se la legge di probabilita congiunta e il prodotto delle singole leggi, cioese si ha

PX1,X2 = PX1 ⊗PX2

Di conseguenza si puo dire, per definizione, che n v.a. X1, . . . , Xn sonoindipendenti se la legge congiunta e il prodotto delle singole leggi, cioe se siha

PX1,...,Xn = PX1 ⊗ · · · ⊗PXn

Osservazione 2.30. Assegnate n probabilita (discrete) P1, . . . ,Pn , come sipossono costruire n v.a. indipendenti X1, . . . , Xn con legge rispettivamenteP1, . . . ,Pn , nel modo seguente.

Supponiamo che tutte le probabilita siano concentrate sullo stesso sottin-sieme numerabile C ⊂ IR , poniamo Ω = Cn (il prodotto cartesiano di C conse stesso n volte) e su di esso mettiamo la probabilita prodotto P1⊗· · ·⊗Pn ;sia poi Xi la proiezione canonica di indice i , cioe Xi(x1, . . . , xn) = xi . Eimmediato constatare che PXi = Xi(P) = Pi e che queste variabili sonoindipendenti.

Proposizione 2.31. Siano X,Y due v.a. indipendenti e f, g due funzionireali: le variabili f X e g Y sono indipendenti.

Proposizione 2.32. Dati n eventi(A1, . . . , An

), questi sono indipendenti

se e solo se le loro funzioni indicatrici(IA1 , . . . , IAn

)sono indipendenti come

variabili aleatorie.

Definizione 2.33. Data una famiglia qualsiasi di variabili aleatorie (Xi)i∈I ,queste si dicono indipendenti se ogni sottofamiglia finita

(Xi1 , . . . , Xin

)e

formata da variabili indipendenti.

Teorema 2.34. Siano X, Y due variabili indipendenti dotate di momentoprimo: anche XY ammette momento primo e vale la formula

E[XY

]= E

[X]E[Y]

9

Page 10: Elementi di Probabilit a e Statisticausers.dma.unipi.it/~flandoli/Lista Enunciati.pdf · Ricordiamo che si chiama trascurabile un insieme che ha misura nulla; una propriet a veri

Corollario 2.35. Due variabili indipendenti dotate di momento secondosono incorrelate

Proposizione 2.36 (Formula della convoluzione discreta). Siano X, Ydue v.a. indipendenti a valori interi (relativi) e sia Z = X + Y : vale laformula

pZ(n) = PZ = n

=

+∞∑h=−∞

pX(h)pY (n− h)

Consideriamo ora variabili aleatorie X, Y, . . . a valori interi positivi.

Definizione 2.37. Data una variabile aleatoria X a valori interi positivi, sichiama funzione generatrice delle probabilita la funzione GX(.) definita da

GX(t) =+∞∑n=0

tn p(n) = E[tX]

Proposizione 2.38. Valgono le seguenti proprieta:

1. GX(t) = GY (t) ⇐⇒ X eY sono equidistribuite;

2. X e Y indipendenti =⇒ GX+Y (t) = GX(t).GY (t).

Proposizione 2.39. Sia X una v.a. a valori interi positivi: valgono leseguenti eguaglianze

1. E[X]

= limt→1−G′X(t)

2. E[X(X − 1)

]= limt→1−G

′′X(t)

Riportiamo qua sotto una tabella delle funzioni generatrici delle piu u-suali variabili aleatorie a valori interi:

• X ∼ B(n, p) =⇒ GX(t) =[1 + p(t− 1)

]n;

• X Geometrica di parametro p =⇒ GX(t) = tp1−t(1−p) ;

• X di Poisson di parametro λ =⇒ GX(t) = eλ(t−1).

Teorema 2.40 (Legge dei grandi numeri per variabili Binomiali).Sia X1, X2, . . . una successione di v.a. di Bernoulli di parametro p : ponendoSn = X1 + · · ·+Xn , per ogni ε > 0, vale il seguente limite

limn→∞

P∣∣∣Sn

n− p∣∣∣ > ε

= 0

10

Page 11: Elementi di Probabilit a e Statisticausers.dma.unipi.it/~flandoli/Lista Enunciati.pdf · Ricordiamo che si chiama trascurabile un insieme che ha misura nulla; una propriet a veri

Osservazione 2.41. Piu in generale se le variabili X1, X2, . . . siano in-dipendenti, equidistribuite, dotate di momento secondo e con varianza σ2

strettamente positiva, ponendo E[Xi

]= m, si ha

limn→∞

P∣∣∣Sn

n−m

∣∣∣ > ε

= 0

Una famiglia (non necessariamente una successione)(Xi

)i∈I di varia-

bili aleatorie indipendenti ed equidistribuite verra d’ora innanzi indicata conl’abbreviazione i.i.d. .

Definizione 2.42 (Convergenza in Probabilita). Data una successionedi v.a.

(Xn

)n≥1

ed una v.a. X, si dice che la successione converge inprobabilita verso X se, per ogni ε > 0

limn→∞

P∣∣Xn −X

∣∣ ≥ ε = 0

Teorema 2.43. Nelle ipotesi del Teorema 2.40, dato ε > 0, esiste unacostante positiva H(p, ε) tale che si abbia

P∣∣∣Sn

n− p∣∣∣ > ε

≤ 2 exp

(− nH(p, ε)

)Lemma 2.44 (Formula di Stirling). Esiste una costante positiva c taleche per ogni intero n si abbia

n! = c(n

e

)n√n exp(θn) = c nn+ 1

2 e−n exp(θn)

dove 112n+1 ≤ θn ≤

112n

Il teorema di De Moivre-Laplace e un caso particolare del Teorema delLimite Centrale: di nuovo X1, X2, . . . e una successione di variabili indipen-denti di Bernoulli di parametro p e sia q = 1− p .

Teorema 2.45 (Limite Centrale per Variabili Binomiali). Presi duenumeri a, b con −∞ ≤ a < b ≤ +∞, si ha

limn→∞

Pa ≤ Sn − np√

npq≤ b

=1√2π

∫ b

ae−

x2

2 dx

Gli integrali della funzione e−x2

2 su un intervallo qualsiasi non possonovenire calcolati esplicitamente: per venire incontro a questa difficolta sono

state compilate delle tavole statistiche della funzione Φ(x) = 1√2π

∫ x−∞ e−

t2

2 dt

(per x positivo).

11

Page 12: Elementi di Probabilit a e Statisticausers.dma.unipi.it/~flandoli/Lista Enunciati.pdf · Ricordiamo che si chiama trascurabile un insieme che ha misura nulla; una propriet a veri

3 Inferenza statistica su uno spazio di Probabilitanumerabile

Definizione 3.1 (Modello statistico). Si chiama modello statistico una

terna(

Ω,F ,(Pθ , θ ∈ Θ

))dove Ω e un insieme, F una σ-algebra di parti di

Ω e, per ogni θ ∈ Θ , Pθ e una probabilita su(Ω,F

).

Supporremo sempre che a due parametri diversi θ1 e θ2 corrispondanodue probabilita diverse (come si usa dire, il modello e identificabile).

In un modello statistico si chiama trascurabile un evento A ∈ F trascu-rabile per ogni probabilita Pθ .

Definizione 3.2 (Verosimiglianza). Assegnato un modello statistico(Ω,F ,

(Pθ , θ ∈ Θ

))con Ω numerabile, si chiama verosimiglianza la funzione

L : Θ× Ω→ IR+ definita da

L(θ, ω) = Pθ(ω

)Definizione 3.3 (Campione). Sia

(mθ , θ ∈ Θ

)una famiglia parametriz-

zata di leggi di probabilita discrete tutte concentrate su un sottoinsiemenumerabile C di IR: si chiama campione di taglia n e legge mθ una famiglia(X1, . . . , Xn) di n variabili aleatorie indipendenti ciascuna con legge mθ.

Il modo canonico per rappresentare come modello statistico un campionedi legge

(mθ , θ ∈ Θ

)e il seguente: sia C l’insieme su cui sono concentrate

le probabilita mθ, e poniamo (per θ ∈ Θ e xi ∈ C), p(θ, xi) = mθ(xi

).

Poniamo poi Ω = Cn , F = P(Ω) e scegliamo come verosimiglianzaL(θ ; x1, . . . , xn) = p(θ, x1) · · · p(θ, xn)

Consideriamo come Xi la proiezione canonica di indice i da Ω su C: levariabili X1, . . . , Xn sono indipendenti e ciascuna con legge mθ.

Definizione 3.4 (Stima). Assegnato un modello statistico(Ω,F , (Pθ, θ ∈

Θ)), si chiama stima una variabile aleatoria U : Ω→ IR.

In genere una stima e accoppiata ad una funzione g : θ → IR.

Definizione 3.5 (Stima corretta). Assegnata una funzione g : Θ → IR,la stima U di g(θ) e detta corretta se, per ogni θ, U e Pθ-integrabile e si haEθ[U]

= g(θ).

Definizione 3.6 (Stima consistente). Sia(mθ, θ ∈ Θ

)una famiglia di

leggi di probabilita discrete su IR e consideriamo, per ogni n, un campioneX1, . . . , Xn di legge mθ; sia poi Un = hn(X1, . . . , Xn) una stima di g(θ)basata sulle osservazioni del campione n-simo. Si dice che la successione distime

(Un)n≥1

e consistente se, scelti comunque θ ∈ Θ ed ε > 0, si ha

limn→∞

Pθ∣∣Un − g(θ)

∣∣ > ε

= 0

12

Page 13: Elementi di Probabilit a e Statisticausers.dma.unipi.it/~flandoli/Lista Enunciati.pdf · Ricordiamo che si chiama trascurabile un insieme che ha misura nulla; una propriet a veri

Definizione 3.7 (Stima di massima verosimiglianza). Sia assegnatoun modello statistico

(Ω,F , (Pθ, θ ∈ Θ)

)tale che Θ ⊂ IR : si dice che U e

una stima di massima verosimiglianza se, per ogni ω ∈ Ω, si ha

L(U(ω), ω

)= sup

θ∈ΘL(θ, ω

)Usualmente la stima di massima verosimiglianza, se esiste, viene indicata

θ(ω).

Teorema 3.8. Sia(mθ , θ ∈ Θ

)una famiglia di leggi di probabilita concen-

trate sugli interi positivi, e supponiamo che Θ sia un intervallo di IR e che,ponendo p(θ, k) = mθ(k), questa si possa scrivere nella forma

p(θ, k) = c(θ) exp(θ T (k)

)g(k)

dove T : IN → IR. Consideriamo un campione infinito X1, X2, . . . di leggemθ e supponiamo che esista, per ogni n, la stima di massima verosimiglianzaθn relativa al campione di taglia n: allora la successione di stime

(θn)n≥1

econsistente.

Definizione 3.9 (Rischio). Sia U una stima della funzione g(θ): si chiamaRischio (quadratico) il numero

R(θ, U

)= Eθ

[(U − g(θ)

)2]Osserviamo ancora che, se U e corretta, R

(θ, U

)= V arθ

(U).

La definizione di rischio introduce un criterio di ordinamento parziale trale stime, piu precisamente diremo che

• U e preferibile a V se, per ogni θ, R(θ, U) ≤ R(θ, V );

• U e strettamente preferibile a V se e preferibile e, per almeno unparametro θ, R(θ, U) < R(θ, V );

• U e ammissibile se non esistono stime strettamente preferibili a U ;

• U e ottimale se e preferibile a ogni altra stima.

Definizione 3.10 (Riassunto esaustivo). Sia T : Ω → E una variabi-le aleatoria: si dice che T e un riassunto esaustivo se si puo scrivere laverosimiglianza nella forma

L(θ, ω

)= h(θ, T (ω)) k(ω)

Teorema 3.11. Sia T un riassunto esaustivo e U una stima di g(θ) : esi-ste una stima V della forma V (ω) = f

(T (ω)

)preferibile a U, inoltre V e

strettamente preferibile a meno che U non sia gia nella forma f T . Infine,se U e corretta, anche V e corretta.

13

Page 14: Elementi di Probabilit a e Statisticausers.dma.unipi.it/~flandoli/Lista Enunciati.pdf · Ricordiamo che si chiama trascurabile un insieme che ha misura nulla; una propriet a veri

Supponiamo assegnato un modello statistico, ed un numero α con 0 <α < 1; i valori tipici sono 0,1 ; 0,05 e 0,01.

Definizione 3.12 (Regione di Fiducia). Sia assegnato, per ogni ω ∈ Ω,un sottoinsieme dei parametri C(ω) ⊂ Θ: si dice che C(ω) e una regione difiducia per il parametro θ al livello (1− α) se, qualunque sia θ, si ha

Pθω∣∣ θ ∈ C(ω)

≥ 1− α

o (cio che e lo stesso) Pθω∣∣ θ /∈ C(ω)

≤ α.

Se Θ ⊆ IR e C(ω) e un intervallo, si parla di intervallo di fiducia.

Intervallo di fiducia per un campione di BernoulliConsideriamo un campione X1, . . . , Xn di legge di Bernoulli di parametro

θ e vogliamo individuare un intervallo di fiducia per il parametro θ: cerchia-mo un intervallo di fiducia della forma I =

[X(ω)− d , X(ω) + d

]-

Utilizzando la diseguaglianza di Chebishev si ricava l’intervallo di fiducia[X(ω)− 1√

4nα, X(ω) + 1√

4nα

], o (come si scrive piu sinteticamente) X(ω)±

1√4nα

.

Intervallo di fiducia approssimato mediante il teorema di DeMoivre-Laplace

Siamo nella stessa situazione dell’esercizio precedente, ma questa voltautilizziamo il fatto che

PθX1 + · · ·+Xn − nθ√

θ(1− θ)n≤ x

= Pθ

√n

X − θ√θ(1− θ)

≤ x≈ Φ(x)

Introduciamo una notazione: dato 0 < β < 1, chiamiamo qβ il numerotale che Φ(qβ) = β.

Dunque Pθ√

n |X−θ|√θ(1−θ)

> q1−α2

≈ α : si ottiene pertanto l’intervallo

di fiducia X(ω)±q1−α

2

2√n

.

Il primo passo da compiere, di fronte a un test statistico, e formulareun’ipotesi: questo si ottiene effettuando una partizione dell’insieme Θ deiparametri in due sottinsiemi non vuoti Θ0 e Θ1 corrispondenti rispettiva-mente ai parametri dell’ipotesi e a quelli dell’ alternativa.

Il secondo passo e pianificare un esperimento: questo equivale a scegliereun evento D ∈ F (detto regione critica) che consiste nell’insieme dei risultatiω che portano a rifiutare l’ipotesi.

Definizione 3.13 (Livello e potenza). Si chiama taglia di un test diregione critica D il numero

supθ∈Θ0

Pθ(D)

14

Page 15: Elementi di Probabilit a e Statisticausers.dma.unipi.it/~flandoli/Lista Enunciati.pdf · Ricordiamo che si chiama trascurabile un insieme che ha misura nulla; una propriet a veri

Si dice che il test e di livello α se la sua taglia e minore o eguale ad α.Si chiama potenza del test la funzione πD : Θ1 → [0, 1] definita da

θ−→Pθ(D).

Diremo che il test di regione critica D e piu potente del test di regionecritica D∗ se, per ogni θ ∈ Θ1, si ha Pθ(D) ≥ Pθ(D∗).

Quando Θ0 e ridotto a un solo punto (cioe Θ0 = θ0) si dice che l’ipotesie semplice; perfettamente analoga naturalmente e la definizione di alterna-tiva semplice.

Esempio 3.14. Dato un campione X1, . . . , Xn con legge di Bernoulli, piani-fichiamo il test dell’ipotesi sempliceH0

)θ = θ0 controH1

)θ 6= θ0 al livello

α. Scegliamo una regione critica della forma D =ω∣∣ ∣∣X(ω)− θ0

∣∣ > d

.Utilizzando la diseguaglianza di Chebishev, si ottiene per d il valore√θ0(1−θ0)

nα . Utilizzando l’approssimazione suggerita dal Teorema di De Moivre-

Laplace, si ottiene il valore d = q1−α2

√θ0(1−θ0)

n .

Lemma 3.15 (Lemma di Neyman-Pearson). Supponiamo assegnato unmodello statistico nel quale l’insieme Θ dei parametri e ridotto a due punti(Θ =

θ0, θ1

) e sia dato il test dell’ipotesi H0

)θ = θ0 contro H1

)θ = θ1.

Consideriamo l’insieme D cosı definito

D =ω ∈ Ω

∣∣L(θ0, ω) ≤ cL(θ1, ω)

dove c e una costante positiva. Allora

1. D e la regione critica di un test piu potente di ogni altro test di livelloPθ0(D)

;

2. vale la diseguaglianza Pθ1(D)≥ Pθ0

(D).

Quando l’insieme dei parametri Θ e un intervallo di IR (intervallo in sensolato, cioe anche una semiretta o tutta la retta) si parla di test unilatero sel’ipotesi e della forma H0

)θ ≤ θ0 o della forma H0

)θ ≥ θ0.

Definizione 3.16 (Rapporto di verosimiglianza crescente). Suppo-niamo assegnato un modello statistico nel quale l’insieme dei parametri Θe un intervallo di IR e sia T una variabile aleatoria reale definita su Ω: sidice che il modello e a rapporto di verosimiglianza crescente rispetto a T se,scelti comunque θ1 < θ2, esiste una funzione reale (strettamente) crescentea valori positivi fθ1,θ2 tale che valga l’eguaglianza

L(θ2, ω)

L(θ1, ω)= fθ1,θ2

(T (ω)

)

15

Page 16: Elementi di Probabilit a e Statisticausers.dma.unipi.it/~flandoli/Lista Enunciati.pdf · Ricordiamo che si chiama trascurabile un insieme che ha misura nulla; una propriet a veri

Teorema 3.17 (Test unilatero). Supponiamo che il modello sia a rapportodi verosimiglianza crescente rispetto a T e consideriamo il test unilateroH0

)θ ≤ θ0 contro l’alternativa H1

)θ > θ0 ; consideriamo poi l’insieme

D =ω∣∣T (ω) ≥ d

dove d e un opportuno numero. Il test di regione critica

D e tale che:

1. vale l’eguaglianza supθ≤θ0 Pθ(D)

= Pθ0(D)

;

2. D e piu potente di qualsiasi altro test D∗ con livello Pθ0(D).

4 Probabilita e variabili aleatorie su uno spaziogenerale

Definizione 4.1. Sia A una famiglia di parti di un insieme E: si chiamaσ-algebra generata da A la piu piccola σ-algebra contenente A: essa coincidecon l’intersezione di tutte le σ-algebre contenenti A.

Proposizione 4.2 (I boreliani). Sulla retta reale IR coincidono le σ-algebre generate, ad esempio, da queste famiglie di insiemi:

1. le semirette del tipo ]−∞, x] , al variare di x ∈ IR ;

2. gli intervalli semiaperti ]a, b] (oppure [a, b[ ) , con −∞ < a < b < +∞ ;

3. gli aperti di IR ;

4. i chiusi di IR .

La σ-algebra da essi generata e chiamata σ-algebra di Borel su IR (eindicata B(IR)) ed i relativi elementi sono detti boreliani.

Analoga e la definizione della σ-algebra B(IRn)

dei boreliani di IRn chee generata, ad esempio, dalle seguenti famiglie di insiemi:

1. gli aperti di IRn ;

2. i prodotti cartesiani A1× . . .×An , dove ogni Ai e un boreliano di IR ;

3. i prodotti cartesiani della forma ]−∞, x1]× . . .×]−∞, xn] .

Teorema 4.3 (Unicita di Probabilita). Siano P e Q due probabilitadefinite su una σ-algebra F di parti di un insieme E e supponiamo che P eQ coincidano su una famiglia I di parti tale che:

1) I genera F ;2) I e stabile per l’intersezione (finita).

Allora P e Q coincidono su tutto F .

Teorema 4.4 (Esistenza di Probabilita). Sia A un’algebra di parti di uninsieme E e sia P : A → [0, 1] una funzione σ-additiva (tale che P(E) = 1):P si prolunga (in un sol modo) alla σ-algebra F generata da A.

16

Page 17: Elementi di Probabilit a e Statisticausers.dma.unipi.it/~flandoli/Lista Enunciati.pdf · Ricordiamo che si chiama trascurabile un insieme che ha misura nulla; una propriet a veri

Definizione 4.5 (Funzione di ripartizione). Sia P una probabilita definitasu(IR,B(IR)

): si chiama funzione di ripartizione la funzione F : IR→ [0, 1]

definita da F (x) = P(]−∞, x]

).

Proposizione 4.6. La funzione di ripartizione sopra definita gode delleseguenti proprieta:

1. e crescente;

2. e continua a destra;

3. F (+∞) = limx→+∞ F (x) = 1 e F (−∞) = limx→−∞ F (x) = 0 .

Teorema 4.7 (Esistenza di una Probabilita su B(IR)). Assegnata unafunzione F : IR → [0, 1] con le proprieta 1), 2) e 3) sopra scritte, esisteuna ed una sola probabilita P su B(IR) tale che, per ogni x ∈ IR, si abbiaF (x) = P

(]−∞, x]

).

Esempio 4.8 (Probabilita discrete). Abbiamo gia incontrato le pro-babilita discrete (dette anche atomiche) su B(IR): P e concentrata sullasuccessione di punti (x1, x2, . . .) e, per ogni A ∈ B(IR) , vale l’eguaglianzaP(A) =

∑xi∈A p(xi) essendo p(xi) = P

(xi

).

In particolare la funzione di ripartizione soddisfa l’eguaglianza F (x) =∑xi≤x p(xi).

Esempio 4.9 (Probabilita diffusa). Ogni punto e trascurabile per laprobabilita P associata alla funzione di ripartizione F se e solo se F econtinua: questo e una conseguenza della formula P

(x)

= ∆F (x). Leprobabilita che godono di questa proprieta sono dette diffuse.

Definizione 4.10 (Spazio e applicazione misurabile). Si chiama spaziomisurabile una coppia

(E, E

)dove E e un insieme e E una σ-algebra di parti

di E. Dati due spazi misurabili(E, E

)e(F,F

), una applicazione f : E → F

e detta misurabile se, per ogni A ∈ F , f−1(A) ∈ E .

Proposizione 4.11. Con le notazioni della definizione precedente, se A euna famiglia di parti di F che genera la σ-algebra F , affinche una funzionef : E → F sia misurabile, e sufficiente che, per ogni A ∈ A , f−1(A) ∈ E.

Una funzione misurabile da(IR,B(IR)

)su(IR,B(IR)

)e detta boreliana.

Definizione 4.12 (Funzione semplice). Dato uno spazio misurable(E, E

),

si chiama semplice una funzione misurabile ϕ : E → IR che prende un nu-mero finito di valori (cioe la cui immagine e un insieme finito).

Definizione 4.13 (Integrale delle funzioni semplici). Sia ϕ una fun-zione semplice della forma ϕ =

∑ni=1 ai IAi : definiamo integrale di ϕ il

numero ∫Eϕ(x) dm(x) =

n∑i=1

ai m(Ai)

17

Page 18: Elementi di Probabilit a e Statisticausers.dma.unipi.it/~flandoli/Lista Enunciati.pdf · Ricordiamo che si chiama trascurabile un insieme che ha misura nulla; una propriet a veri

Teorema 4.14 (Approssimazione con funzioni semplici). Sia f unafunzione misurabile a valori positivi: esiste una successione di funzioni sem-plici (ϕn)n≥1 tale che

ϕn ↑ f

Definizione 4.15 (Integrale delle funzioni a valori positivi). Sia funa funzione misurabile a valori positivi e consideriamo una successione difunzioni semplici (ϕn)n≥1 tale che ϕn ↑ f : si definisce integrale di f ilnumero ∫

f dm = limn≥1

∫ϕn dm

Teorema 4.16 (Proprieta di Beppo Levi). Se (ϕn)n≥1 e (ψn)n≥1 sonodue successioni di funzioni semplici convergenti alla funzione f si ha

limn→∞

∫ϕn dm = lim

n→∞

∫ψn dm

Inoltre se (fn)n≥1 e una successione di funzioni misurabili a valori positivi,si ha

fn ↑ f =⇒∫fn dm ↑

∫f dm

Consideriamo ora una generica funzione misurabile f , e poniamo f+ =f ∨ 0 = max(f, 0) e f− = −(f ∧ 0) = −min(f, 0) : entrambe sono funzionimisurabili (e una verifica immediata) e si ha |f | = f+ + f− e f = f+ − f−.

Definizione 4.17 (Funzione integrabile e integrale). Si dice che lafunzione misurabile f e integrabile se

∫|f |dm < +∞, e in tal caso si chiama

integrale di f il numero∫f dm =

∫f+dm −

∫f−dm .

Teorema 4.18 (Convergenza dominata). Sia (fn)n≥1 una successione difunzioni misurabili convergente puntualmente ad f e supponiamo che esista gintegrabile a valori positivi tale che si abbia, per ogni x ∈ E , |fn(x)| ≤ g(x) :allora si ha

limn→∞

∫fn dm =

∫f dm .

Vale la diseguaglianza di Schwartz: se f2 e g2 sono integrabili, il prodottofg ∈ L1 e si ha

∣∣∣ ∫ fg dm∣∣∣ ≤√∫ f2 dm

√∫g2 dm .

18

Page 19: Elementi di Probabilit a e Statisticausers.dma.unipi.it/~flandoli/Lista Enunciati.pdf · Ricordiamo che si chiama trascurabile un insieme che ha misura nulla; una propriet a veri

Definizione 4.19 (Densita di probabilita). Si chiama densita di proba-bilita su IR una funzione reale f definita su IR, misurabile e a valori positivi,integrabile (secondo Lebesgue) e tale che

∫ +∞−∞ f(x) dx = 1.

Ad una densita f e associata una probabilita P su B(IR) mediante laformula

P(A) =

∫Af(x) dx

Teorema 4.20 (Integrazione rispetto a una misura definita da unadensita). Una funzione misurabile g definita su IR e integrabile rispetto aP se e solo se il prodotto gf e integrabile rispetto alla misura di Lebesgue,e in tal caso si ha ∫

g(x) dP(x) =

∫g(x)f(x) dx .

Analoga e la definizione di probabilita definita da una densita su(IRn,B(IRn)

), ed il relativo teorema di integrazione.

Proposizione 4.21 (Funzioni assolutamente continue). La probabilitaassociata ad una funzione di ripartizione F e definita da una densita se esolo se F e assolutamente continua, cioe per ogni ε > 0, esiste δ > 0 taleche, prese delle coppie di punti (xi, yi),∑

i≤n|xi − yi| < δ =⇒

∑i≤n

∣∣F (xi)− F (yi)∣∣ < ε

Definizione 4.22 (Variabile aleatoria reale). Assegnato uno spazio diProbabilita

(Ω,F ,P

), si chiama variabile aleatoria reale una applicazione

misurabile X : (Ω,F)→ (IR,B(IR)).

Definizione 4.23 (Legge di Probabilita). Si chiama legge di probabilita(o anche distribuzione di probabilita) di una variabile aleatoria reale Xl’immagine di P mediante X; si chiama funzione di ripartizione di X lafunzione di ripartizione della sua legge di probabilita.

Osservazione 4.24. Assegnata comunque una probabilita Q su(IR,B(IR)

),

esiste una variabile aleatoria X la cui legge di probabilita sia eguale a Q.

Teorema 4.25 (Integrazione rispetto ad una probabilita immagine).Sia ϕ : IR → IR boreliana: ϕ e integrabile rispetto a PX se e solo se ϕ Xe integrabile rispetto a P e in tal caso vale la formula∫

IRϕ(x) dPX(x) =

∫Ωϕ(X(ω)

)dP(ω) .

19

Page 20: Elementi di Probabilit a e Statisticausers.dma.unipi.it/~flandoli/Lista Enunciati.pdf · Ricordiamo che si chiama trascurabile un insieme che ha misura nulla; una propriet a veri

Ad esempio, il valore atteso di X (se esiste) e l’integrale

E[X]

=

∫ΩX(ω) dP(ω) =

∫IRx dPX(x)

Per definizione, si chiama variabile aleatoria doppia una applicazionemisurabile (X,Y ) :

(Ω,F

)→(IR2,B(IR2)

). Le componenti X e Y sono due

funzioni definite su Ω a valori reali.

Proposizione 4.26. La coppia (X,Y ) e una variabile aleatoria (cioe e mi-surabile come applicazione a valori in IR2) se e solo se entrambe le compo-nenti X e Y sono variabili aleatorie reali (cioe misurabili come applicazionia valori in IR).

La legge di probabilita della coppia (X,Y ) e l’immagine di P mediantel’applicazione (X,Y ): e quindi una probabilita su B(IR2). Il Teorema 4.25 siestende senza difficolta al caso vettoriale, in particolare presa ϕ : IR2 → IRboreliana e limitata, vale la formula∫

Ωϕ(X(ω), Y (ω)

)dP(ω) =

∫∫IR2

ϕ(x, y) dPX,Y (x, y)

Per poter estendere al caso generale i risultati della Proposizione 2.29 edel Teorema 2.34, dobbiamo pero insistere un poco sulla nozione di proba-bilita prodotto.

Definizione 4.27 (Probabilita prodotto). Siano P e Q due probabilitasu(IR,B(IR)

): si chiama probabilita prodotto (e si indica P⊗Q) la proba-

bilita su(IR2,B(IR2)

)tale che, presi comunque due sottinsiemi boreliani A

e B di IR, si abbia

P⊗Q(A×B

)= P

(A).Q

(B)

Se ϕ : IR2 → IR e boreliana e limitata (oppure a valori positivi) vale laformula di integrazione∫∫

IR2ϕ(x, y) dP⊗Q (x, y) =

∫IR

[∫IRϕ(x, y) dQ(y)

]dP(x)

E immediata l’estensione al caso generale della caratterizzazione provatanel caso delle variabili discrete con la Proposizione 2.29: piu precisamenteX e Y sono indipendenti se e solo se PX,Y = PX ⊗PY .

Teorema 4.28. Supponiamo che X ed Y siano indipendenti e dotate dimomento primo: anche XY ha valore atteso e vale la formula

E[XY

]= E

[X]E[Y]

20

Page 21: Elementi di Probabilit a e Statisticausers.dma.unipi.it/~flandoli/Lista Enunciati.pdf · Ricordiamo che si chiama trascurabile un insieme che ha misura nulla; una propriet a veri

Definizione 4.29. Si dice che la v.a. reale X ha densita f se la sua leggedi probabilia PX ha densita f , cioe se per ogni boreliano A vale la formula

PX ∈ A

= PX

(A)

=

∫Af(x) dx

Proposizione 4.30. Sia X una variabile aleatoria reale. Sono equivalentile due seguenti affermazioni:

1. X ha densita f ;

2. per ogni funzione reale ϕ boreliana e limitata, vale la formula

E[ϕ(X)

]=

∫IRϕ(x) f(x) dx

Proposizione 4.31. Sia (X,Y ) una variabile doppia con densita f(x, y):anche le componenti X ed Y ammettono densita f1 ed f2 che soddisfano leformule

f1(x) =

∫ +∞

−∞f(x, y)dy f2(y) =

∫ +∞

−∞f(x, y) dx

Proposizione 4.32. Sia (X,Y ) una variabile doppia con densita: le va-riabili X e Y sono indipendenti se e solo se tra le densita vale la seguenterelazione (quasi ovunque)

f(x, y) = f1(x) f2(y)

Proposizione 4.33 (Formula della convoluzione). Siano X,Y due va-riabili indipendenti con densita rispettivamente f1 ed f2 : la somma (X+Y )ha densita g data dalla formula

g(x) =

∫ +∞

−∞f1(x− y)f2(y) dy

Proposizione 4.34. Sia X una v.a. reale con densita f diversa da 0 suun aperto A ⊆ IR e sia h : A → B un diffeomorfismo. Consideriamo lavariabile Y = h(X) : essa ha densita g data da

g(y) =

0 se y /∈ Bf(h−1(y)

)∣∣dh−1(y)d y

∣∣ = f(x(y)

)∣∣dx(y)dy

∣∣ se y ∈ B

La formula per la trasformazione della densita di una v.a. vettorialeX mediante un diffeomorfismo e anch’essa conseguenza della formula delcambio di variabili per integrali (questa volta n-dimensionali) ed e del tutto

21

Page 22: Elementi di Probabilit a e Statisticausers.dma.unipi.it/~flandoli/Lista Enunciati.pdf · Ricordiamo che si chiama trascurabile un insieme che ha misura nulla; una propriet a veri

analoga alla formula 4.34: il termine∣∣dh−1(y)

d y

∣∣ e sostituito col valore assoluto

del determinante della matrice Jacobiana della funzione h−1.

Vediamo come si usa in concreto questa formula, limitandoci per sem-plicita al caso di una variabile doppia (X,Y ) con densita f diversa da 0sull’aperto A di IR2: consideriamo un diffeomorfismo h da A su B e sia(U, V ) = h(X,Y ). La coppia (U, V ) ha una densita g che si annulla fuori diB, mentre su B soddisfa la formula

g(u, v) = f(x(u, v), y(u, v)

).

∣∣∣∣∂x∂u ∂x∂v

∂y∂u

∂y∂v

∣∣∣∣dove con

∣∣∣∣a bc d

∣∣∣∣ si intende il valore assoluto del determinante della matrice[a bc d

].

Esempio 4.35 (Densita uniforme). Si chiama densita uniforme sull’inter-vallo ]a, b[ la densita definita da

f(x) =

1b−a per a < x < b

0 altrimenti

Se X e una v.a. con tale densita, si ha E[X] = a+b2 e V ar(X) = (b−a)2

12 .

La funzione Gamma e definita, per r > 0, da Γ(r) =∫ +∞

0 xr−1e−x dx.

Definizione 4.36. Si chiama densita Gamma di parametri r e λ , (r >0 , λ > 0), (e si indica Γ(r, λ)) la funzione definita da

f(x) =

1Γ(r) λ

rxr−1e−λx x > 0

0 x ≤ 0

Quando r = 1, la densita Γ(1, λ) si chiama piu semplicemente esponen-ziale di parametro λ.

Se X ∼ Γ(r, λ) e β > 0, vale la formula

E[Xβ]

=Γ(r + β)

Γ(r)λβ

Proposizione 4.37. Se X ∼ Γ(r1, λ) , Y ∼ Γ(r2, λ) e sono indipendenti,allora (X + Y ) ∼ Γ(r1 + r2, λ)

Abbiamo visto che∫ +∞−∞ e−

x2

2 dx =√

2π : ne segue che la funzione f(x) =

1√2π

e−x2

2 e una densita di probabilita, detta densita Normale o Gaussiana

N(0, 1) , e la funzione Φ(x) = 1√2π

∫ x−∞ e−

t2

2 dt e la relativa funzione diripartizione.

Per una variabile X ∼ N(0, 1) si ha E[X] = 0 e V ar(X)

= E[X2]

= 1.

22

Page 23: Elementi di Probabilit a e Statisticausers.dma.unipi.it/~flandoli/Lista Enunciati.pdf · Ricordiamo che si chiama trascurabile un insieme che ha misura nulla; una propriet a veri

Definizione 4.38 (Variabile Gaussiana). Si dice che la variabile X halegge gaussiana N(m,σ2)

(m ∈ IR , σ > 0

)se X−m

σ ha legge N(0, 1)

La densita di Y e la funzione g definita da

g(y) =1√2π σ

e−(y−m)2

2σ2

inoltre E[X] = m , V ar(X)

= σ2.

Proposizione 4.39. Se X ∼ N(m1, σ

21

), Y ∼ N

(m2, σ

22

)e sono indipen-

denti, allora (X + Y ) ∼ N(m1 +m2, σ

21 + σ2

2

).

Osservazione 4.40. Se X ∼ N(0, 1), allora X2 ∼ Γ(

12 ,

12

).

Ricordiamo la definizione di convergenza in probabilita:

Definizione 4.41 (Convergenza in probabilita). Si dice che la succes-sione di variabili aleatorie

(Xn

)n≥1

converge in probabilita alla v.a. X se,per ogni ε > 0 , si ha

limn→∞

P∣∣Xn −X

∣∣ > ε

= 0

Teorema 4.42 (Legge dei grandi numeri). Sia X1, X2, . . . una succes-sione di variabili aleatorie dotate di momento secondo, incorrelate, e sup-poniamo che E[Xi] = m per ogni i (cioe hanno tutte lo stesso valore atteso)e che esista una costante K tale che si abbia V ar(Xi) ≤ K qualunque sia i(cioe le varianze sono equilimitate). Allora, posto Sn = X1 + · · · + Xn , lasuccessione

(Snn

)n≥1

converge in probabilita ad m .

E usuale indicareXn = Snn (la media empirica delle variabiliX1, . . . , Xn ).

Esercizio 4.43. Sia (Xn)n≥1 una successione di variabili aleatorie dotatedi momento secondo e supponiamo che

limn→∞

E[Xn

]= c lim

n→∞V ar

(Xn

)= 0

La successione converge in probabilita a c .

Proposizione 4.44. Sia(Xn

)n≥1

una successione convergente in probabi-lita a c e sia g una funzione boreliana continua nel punto c : allora Yn =g(Xn) converge in probabilita a g(c).

Definizione 4.45 (Convergenza in legge). Si dice che la successione div.a.

(Xn

)n≥1

converge in legge (o anche in distribuzione) alla v.a. X se perogni f : IR→ IR continua e limitata, si ha

limn→∞

E[f(Xn

)]= E

[f(X)]

23

Page 24: Elementi di Probabilit a e Statisticausers.dma.unipi.it/~flandoli/Lista Enunciati.pdf · Ricordiamo che si chiama trascurabile un insieme che ha misura nulla; una propriet a veri

Proposizione 4.46. Siano Xn e X variabili aleatorie, Fn ed F le relativefunzioni di ripartizione; supponiamo inoltre che F sia continua. Allora sonoequivalenti le seguenti affermazioni:

a) la successione (Xn)n≥1 converge a X in legge;

b) per ogni x ∈ IR , si ha limn→∞ Fn(x) = F (x) .

Quello che viene qui enunciato e il Teorema Limite Centrale di PaulLevy :

Teorema 4.47. Sia X1, X2, . . . una successione di variabili indipendentiequidistribuite, dotate di momento primo µ e di varianza σ2 (diversa da 0):posto Sn = X1 + · · ·+Xn , la successione

Sn − nµ√nσ

=√n(Xn − µ

σ

)converge in legge alla variabile gaussiana N(0, 1) .

Definizione 4.48 (Quantile). Data una funzione di ripartizione F ed unnumero 0 < α < 1 , si chiama α-quantile di F il numero cosı definito

rα = infx ∈ IR

∣∣F (x) > α.

Definizione 4.49 (Legge chi-quadro). Si chiama legge chi-quadro a ngradi di liberta (e si indica χ2(n)) la legge Γ

(n2 ,

12

).

Se (X1, . . . , Xn) sono indipendenti gaussiane N(0, 1) , allora X21 +· · ·+X2

n

ha legge χ2(n) .

Definizione 4.50 (Legge di Student). Siano X ∼ N(0, 1) , Y ∼ χ2(n)indipendenti: si chiama legge di Student a n gradi di liberta (e si indica T (n))la legge di √

nX√Y

Definizione 4.51 (Legge di Fisher). Siano Cn e Cm due variabili in-dipendenti con legge rispettivamente χ2(n) e χ2(m) : si chiama legge diFisher Fn,m la legge di

Cn/n

Cm/m

5 Inferenza statistica su uno spazio di Probabilitagenerale

Definizione 5.1 (Modello Statistico). Si chiama modello statistico una

terna(

Ω,F ,(Pθ , θ ∈ Θ

))dove Ω e un insieme, F una σ-algebra di parti di

Ω e, per ogni θ ∈ Θ , Pθ e una probabilita su(Ω,F

).

24

Page 25: Elementi di Probabilit a e Statisticausers.dma.unipi.it/~flandoli/Lista Enunciati.pdf · Ricordiamo che si chiama trascurabile un insieme che ha misura nulla; una propriet a veri

Ipotesi 5.2 (Modello con densita). Supponiamo che il modello statisticosoddisfi le seguenti condizioni:

a) Ω e uno spazio euclideo IRn (o un sottinsieme misurabile di uno spazioeuclideo);

b) F e la σ-algebra di Borel su Ω ;

c) le probabilita Pθ ammettono densita rispetto alla misura di Lebesguen-dimensionale λ .

Definizione 5.3 (Verosimiglianza). Si chiama verosimiglianza una fun-zione L : Θ × Ω → IR+ tale che, fissato θ , L(θ, .) sia una versione delladensita di Pθ (rispetto alla misura di Lebesgue λ).

Definizione 5.4 (Campione). Sia(f(θ, .) , θ ∈ Θ

)una famiglia parametriz-

zata di densita di probabilita su IR: si chiama campione di taglia n e densitaf(θ, .) una famiglia di variabili aleatorie indipendenti, equidistribuite, aventidensita f(θ, .) (sotto Pθ ).

La costruzione canonica di un campione e la seguente: si prende Ω = IRn

e si considera come verosimiglianza la funzione

L(θ ;x1, . . . , xn

)=

n∏i=1

f(θ, xi)

Si definiscono infine come variabili Xi le proiezioni canoniche di indice i.Se ogni densita f(θ, .) si annulla fuori di un intervallo I ⊆ IR, conviene

considerare come spazio Ω = In anziche IRn.

Definizione 5.5 (Riassunto esaustivo). Una variabile aleatoria T : Ω→E e detta un riassunto esaustivo se si puo scrivere la verosimiglianza nellaforma

L(θ ;x1, . . . , xn

)= h

(θ , T (x1, . . . , xn)

)k(x1, . . . , xn)

Teorema 5.6. Sia T un riassunto esaustivo e U una stima di g(θ) : esisteuna stima V della forma V (x1, . . . , xn) = f

(T (x1, . . . , xn)

)preferibile a U,

inoltre V e strettamente preferibile a meno che U non sia gia nella formaf T . Infine, se U e corretta, anche V e corretta.

Definizione 5.7 (Stima di massima verosimiglianza). Sia assegnatoun modello statistico tale che Θ ⊂ IR : si dice che U e una stima di massimaverosimiglianza se, per quasi ogni (x1, . . . , xn) ∈ Ω, si ha

L(U(x1, . . . , xn) ;x1, . . . , xn

)= max

θ∈ΘL(θ ;x1, . . . , xn

)Ricordiamo che usualmente si indica θ la stima di massima verosimiglianza.

25

Page 26: Elementi di Probabilit a e Statisticausers.dma.unipi.it/~flandoli/Lista Enunciati.pdf · Ricordiamo che si chiama trascurabile un insieme che ha misura nulla; una propriet a veri

Teorema 5.8. Supponiamo che Θ sia un intervallo di IR e sia assegnatauna famiglia di densita

(f(θ, x) , θ ∈ Θ

)che si possano scrivere nella forma

f(θ, x) = c(θ) . exp(θ T (x)

). g(x)

con una opportuna applicazione T : IR → IR. Consideriamo un campioneinfinito X1, X2, . . . con densita f(θ, .) e supponiamo che esista, per ogni n, lastima di massima verosimiglianza θn relativa al campione di taglia n: allorala successione di stime

(θn)n≥1

e consistente.

Quando le densita verificano la condizione del Teorema 5.8, si dice chesi ha un modello esponenziale: la definizione puo essere estesa al caso adimensione maggiore di 1, supponendo Θ ⊆ IRk e che esista una applicazione(boreliana) T : IR→ IRk in modo che si abbia

f(θ, x) = c(θ). exp(〈θ, T (x)〉

).g(x)

dove 〈., .〉 e il prodotto scalare in IRk .

Lemma 5.9 (Lemma di Neyman-Pearson). Supponiamo assegnato unmodello statistico nel quale l’insieme Θ dei parametri e ridotto a due punti(Θ =

θ0, θ1

) e sia dato il test dell’ipotesi H0

)θ = θ0 contro H1

)θ = θ1.

Consideriamo l’insieme D cosı definito

D =

(x1, . . . , xn) ∈ Ω∣∣L(θ0 ;x1, . . . , xn)) ≤ cL(θ1 ;x1, . . . , xn))

dove c e una costante positiva. Allora

1. D e la regione critica di un test piu potente di ogni altro test di livelloPθ0(D)

;

2. vale la diseguaglianza Pθ1(D)≥ Pθ0

(D).

Osservazione 5.10 (Soglia di accettazione). Quando si pianifica un teststatistico, per prima cosa si sceglie un livello α (solitamente vicino a 0) e inseguito si sceglie una regione critica D che abbia livello α .

Spesso ci si trova in questa situazione: per ogni numero 0 < α < 1, eassegnata una regione critica Dα di livello α in modo tale che, se α1 ≤ α2 ,allora Dα1 ⊆ Dα2 . Inoltre ∪0<α<1Dα = Ω e ∩0<α<1Dα = ∅ .

Allora, per ogni ω ∈ Ω (cioe per ogni risultato dell’indagine statistica) eassegnato un numero α tale che, se α < α , ω /∈ Dα e se α > α , ω ∈ Dα .Tale numero α sara chiamato soglia di accettazione.

6 Inferenza statistica sui modelli gaussiani

Lemma 6.1. Sia X = (X1, . . . , Xn) un vettore aleatorio formato da n v.a.indipendenti con densita N(0, 1) , sia A una matrice n× n ortogonale (cioela matrice di un cambio di base) e sia Y = AX. Anche le componenti(Y1, . . . , Yn) sono indipendenti con densita N(0, 1) .

26

Page 27: Elementi di Probabilit a e Statisticausers.dma.unipi.it/~flandoli/Lista Enunciati.pdf · Ricordiamo che si chiama trascurabile un insieme che ha misura nulla; una propriet a veri

Se (X1, . . . , Xn) e un campione di n variabili aleatorie, indichiamo conX = X1+···+Xn

n la media empirica, e con

S2 =

∑i

(Xi − X

)2n− 1

(e naturalmente S ne e la radice quadrata). Se c’e pericolo di confusione(ad esempio se ci sono due campioni anche di taglia diversa (X1, . . . , Xn) e(Y1, . . . , Ym) ) indicheremo S2(X) e S2(Y ) .

Teorema 6.2. Siano X1, . . . , Xn indipendenti con densita N(m,σ2) . Sihanno i seguenti risultati:

a) le variabili X e S2 sono indipendenti;

b) X ha densita N(m, σ2

n ) e∑i≤n

(Xi−X

)2σ2 ha densita χ2(n− 1) ;

c) la variabile √n(X −m

)S

ha densita di Student T (n− 1) .

Consideriamo ora come modello statistico un campione di taglia n edensita N(m,σ2) .

Si ottiene un riassunto esaustivo con la variabile doppia(∑

iXi,∑

iX2i

)( se la media e nota con

∑i

(Xi −m

)2, se la varianza e nota con

∑iXi ).

Valgono le seguenti stime di massima verosimiglianza per i parametri:

1) m = X sempre;

2) σ2 =∑i

(Xi−m

)2n se m e nota;

3) σ2 =∑i

(Xi−X

)2n se m e sconosciuta.

Una stima corretta della varianza e data da

S2 =

∑i

(Xi − X

)2n− 1

Osservazione 6.3. L’ultima proprieta non e specifica delle variabili gaus-siane: infatti date n variabili X1, . . . , Xn indipendenti equidistribuite, dotatedi momento secondo, e sempre vero che

E[∑

i

(Xi − X

)2n− 1

]= V ar

(X1

)27

Page 28: Elementi di Probabilit a e Statisticausers.dma.unipi.it/~flandoli/Lista Enunciati.pdf · Ricordiamo che si chiama trascurabile un insieme che ha misura nulla; una propriet a veri

Supponiamo assegnato un campione X1, . . . , Xn di taglia n e densitagaussiana.

Esempio 6.4 (Intervallo di fiducia per la media). Vogliamo trovare unintervallo di fiducia al livello (1−α) per la media di un campione gaussiano,con varianza nota.

Consideriamo un intervallo di fiducia della forma [X(ω)− d , X(ω) + d] ,con d tale che

Pm∣∣X −m∣∣ > d

= Pm

√nσ

∣∣X −m∣∣∣ > d√n

σ

≤ α

Imponendo che la diseguaglianza sopra scritta sia un’eguaglianza si ot-tiene l’intervallo di fiducia X(ω)± q1−α/2 σ√

n.

Esempio 6.5 (Test unilatero). Consideriamo il test della forma H0

)m ≤

m0 contro H1

)m > m0 , con varianza nota, al livello α

Prendiamo m1 < m2 e scriviamo il rapporto delle verosimiglianze:

L(m2 ;x1, . . . , xn

)L(m1 ;x1, . . . , xn

) = exp[m2 −m1

σ2

(∑i

xi)−n(m2

2 −m21

)2σ2

]Questo risulta crescente rispetto alla v.a. X e pertanto la regione criticaviene della forma D =

X ≥ c

; e piu comodo scrivere la regione critica

nella formaX −m0 ≥ d

, e ricordando che (sotto Pm0 )

√nσ

(X −m0

)ha

densita N(0, 1) , si ottiene√nσ d = q1−α .

Esaminiamo ora il caso di test sulla media di un campione gaussiano convarianza sconosciuta, che e noto col nome di test di Student.

Definizione 6.6 (Legge di Student decentrata). Si chiama legge diStudent a n gradi di liberta decentrata di a (indicata anche T (n) decentratadi a ) la legge di √

n X√Y

dove X ∼ N(a, 1) , Y ∼ χ2(n) e sono indipendenti.

Le densita di Student decentrate di a , al variare di a , sono a rapporto diverosimiglianza crescente (rispetto alla identita, cioe alla variabile T (x) = xsu IR ).

Osservazione 6.7. La variabile aleatoria√n XS (sotto Pm,σ2

) ha legge di

Student T (n−1) decentrata di m√n

σ .

28

Page 29: Elementi di Probabilit a e Statisticausers.dma.unipi.it/~flandoli/Lista Enunciati.pdf · Ricordiamo che si chiama trascurabile un insieme che ha misura nulla; una propriet a veri

Esempio 6.8 (Test di Student unilatero). Consideriamo, al livello α,la regione critica di un test dell’ipotesi H0

)m ≤ 0 , σ qualsiasi , contro

l’alternativa H1

)m > 0 , σ qualsiasi.

La distribuzione di probabilita di√nXS e T (n − 1) decentrata di m

√n

σ ,e queste sono a rapporto di verosimiglianza crescente rispetto a m

σ : siamopertanto condotti a una regione critica della forma

D =√n X

S≥ d

=ω ∈ Ω

∣∣∣ √n X(ω)

S(ω)≥ d

con d = t(1−α, n−1).

Osservazione 6.9. Se il test e della forma

H0

)m ≤ m0 , σ qualsiasi contro H1

)m > m0 , σ qualsiasi

si ha una regione critica della forma

D =√n (X −m0

)S

≥ t(1−α, n−1)

Esempio 6.10 (Test di Student). Consideriamo il test

H0

)m = 0 , σ qualsiasi H1

)m 6= 0 , σ qualsiasi

al livello α .

La regione critica e della forma

D =√n ∣∣X −mo

∣∣S

≥ t(1−α2, n−1)

Esempio 6.11 (Intervallo di fiducia per la media, con varianza sco-nosciuta).

L’ intervallo di fiducia per la media al livello (1−α) , con varianza sco-nosciuta, e della forma

X(ω)±t(1−α

2, n−1) S(ω)√n

.

Prima di affrontare i test sulla varianza, osserviamo che valgono le seguentiproprieta:

• se m e noto,∑i

(Xi−m

)2σ2 ha densita χ2(n) ;

• se m e sconosciuto,∑i

(Xi−X

)2σ2 ha densita χ2(n− 1) .

29

Page 30: Elementi di Probabilit a e Statisticausers.dma.unipi.it/~flandoli/Lista Enunciati.pdf · Ricordiamo che si chiama trascurabile un insieme che ha misura nulla; una propriet a veri

Esempio 6.12 (Test sulla varianza con media sconosciuta). Consi-deriamo il test

H0

)σ2 ≤ σ2

0 ,m qualsiasi contro H1

)σ2 > σ2

0 ,m qualsiasi

al livello α .

Si tratta di un test unilatero sulla varianza, e si arriva alla regione critica

D =∑

i

(Xi −X

)2 ≥ ccon c scelto in modo tale che si abbia

Pm,σ20

∑i

(Xi −X

)2σ2

0

≥ c

σ20

= α

e si ottienec

σ20

= χ2(1−α , n−1).

Ci occupiamo ora del caso in cui l’osservazione statistica sia formata dadue campioni indipendenti X1, . . . , Xn (di legge N

(m1, σ

21

)) e Y1, . . . , Yk (di

legge N(m2, σ

22

)).

Esempio 6.13 (Confronto tra due varianze). Identifichiamo il test

H0

)σ2

1 ≤ σ22 contro H1

)σ2

1 > σ22

al livello α prescelto.

Se σ21 = σ2

2, la variabile

S2(X)

S2(Y )=

∑i

(Xi −X

)2/(n− 1)∑

j

(Yj − Y

)2/(k − 1)

ha legge di Fisher Fn−1 , k−1 (vedi 4.51).Se chiamiamo F(1− α , n, k) lo (1 − α)–quantile della legge Fn ,k , la

regione critica del test richiesto e data da

D =

∑i≤n

(Xi −X

)2/(n− 1)∑

j≤k

(Yj − Y

)2/(k − 1)

≥ F(1−α , n−1, k−1)

Definizione 6.14 (Problema di Behrens-Fisher). Si chiama problemadi Behrens-Fisher l’individuazione della regione critica del test dell’ipotesi

H0

)m1 = m2 contro H1

)m1 6= m2 .

30

Page 31: Elementi di Probabilit a e Statisticausers.dma.unipi.it/~flandoli/Lista Enunciati.pdf · Ricordiamo che si chiama trascurabile un insieme che ha misura nulla; una propriet a veri

Noi ci limitiamo al caso piu semplice nel quale si abbia σ21 = σ2

2 (cioe levarianze sono sconosciute, ma eguali).

Lemma 6.15. Se m1 = m2 e σ21 = σ2

2 , la variabile

Zn,k =X − Y√∑

i≤n(Xi −X

)2+∑

j≤k(Yj − Y

)2√n+ k − 2√

1n + 1

k

ha densita di Student T (n+ k − 2) .

La soluzione del problema di Behrens-Fisher e sostanzialmente un’estensionedel test di Student: se consideriamo l’ipotesi H0

)m1 = m2 , si considera

come regione critica (al livello α)

D =∣∣Zn,k∣∣ ≥ t(1−α

2, n+k−2)

mentre il test dell’ipotesi H0

)m1 ≤ m2 avra regione critica

D =Zn,k ≥ t(1−α , n+k−2)

.

Definizione 6.16 (Modelli lineari). Si chiama modello statistico lineareun modello nel quale l’osservazione e data da n variabili aleatorie X1, . . . , Xn

che si possano scrivere nella forma

Xi =k∑j=1

aij θj + σWi

con le seguenti proprieta:

a) k < n , (θ1, . . . , θk) ∈ IRk e σ > 0 ;

b) la matrice n×k , A = [aij ] e di rango massimo (e quindi l’applicazionelineare ad essa associata A : IRk → IRn e iniettiva;

c) le variabili W1, . . . ,Wn sono gaussiane N(0, 1) indipendenti.

Definizione 6.17 (Modello di regressione). Il modello e detto di regres-sione quando e della forma

Xi = θ1 + θ2zi + · · ·+ θkzk−1i + σWi

con z1 6= z2 6= · · · 6= zn (e k < n).

Per i modelli lineari useremo anche la notazione vettoriale X = Aθ+σW.

31

Page 32: Elementi di Probabilit a e Statisticausers.dma.unipi.it/~flandoli/Lista Enunciati.pdf · Ricordiamo che si chiama trascurabile un insieme che ha misura nulla; una propriet a veri

Lemma 6.18. Sia A : IRk → IRn una applicazione lineare iniettiva. Datox ∈ IRn , il punto y ∈ IRk che minimizza ‖x − Ay‖2 e dato da y = Ux ,

essendo U =(AtA

)−1At .

L’espressione della verosimiglianza del modello in forma vettoriale siscrive

L(θ, σ2 ; x

)= (2π)−

n2 exp

(− ‖x−Aθ‖2

2σ2− n log σ

)Vediamo le stime di massima verosimiglianza: la stima di θ e θ(x) = Ux(o, scritta come variabile aleatoria, θ = U X ), e la stima di σ2 e

σ2 =‖X−Aθ‖2

n=‖X−AU X‖2

n.

Teorema 6.19 (Teorema di Gauss Markov). U X e una stima correttadi θ , di rischio minimo tra tutte le stime lineari corrette. Inoltre

‖X−AU X‖2

n− k

e una stima corretta di σ2 .

32