Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di...

25
Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare risposte di una variabile dip. Modello classico di regressione lineare: Y |{z} n×k = X |{z} n×(p+1) β β β |{z} (p+1)×k + ρ ρ ρ |{z} n×k X var. indip. (predittori) (note) Y var. “risposta” ρ ρ ρ matrice di errore (o disturbo) β β β matrice incognita dei coeff. di regressione (regr. lineare in β β β ) 128

Transcript of Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di...

Page 1: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare

Analisi di Regressione Multivariata

Regressione: metodologia per dedurre info e per anticipare risposte di

una variabile dip.

Modello classico di regressione lineare:

Y|{z}n×k

= X|{z}n×(p+1)

βββ|{z}(p+1)×k

+ ρρρ|{z}n×k

X var. indip. (predittori) (note) Y var. “risposta”

ρρρ matrice di errore (o disturbo)

βββ matrice incognita dei coeff. di regressione (regr. lineare in βββ)

128

Page 2: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare

Caso unidimensionale

y = β0 + β1x1 + β2x2 + · · · + βpxp + r ⇔ y = [1, x]| {z }≡X

βββ + r

In piu dimensioni (n > 1, k = 1)

yi = β0xi,0 + β1xi,1 + β2xi,2 + · · · + βpxi,p + ri, i = 1, . . . , n

y = Xβββ + r

Ipotesi sul vettore di errore: E(r) = 0 ∈ Rn, Cov(r) = σ2 I|{z}

n×n

⇒ βββ e σ sono incognite

Funzione di regressione:

E(y) = Xβββ = β0xi,0 + β1xi,1 + β2xi,2 + · · · + βpxi,p

129

Page 3: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare

Esempio

Determinare il modello di regressione lineare per l’accostamento alla

linea retta (p = 1)

x 0 1 2 3 4

y 1 4 3 8 9

Sol. Si ha

X =

0BBBBBBBB@

1 0

1 1

1 2

1 3

1 4

1CCCCCCCCA

y =

0BBBBBBBB@

1

4

3

8

9

1CCCCCCCCA

⇒ y =

0BBBBBBBB@

1 0

1 1

1 2

1 3

1 4

1CCCCCCCCA

0@ β0

β1

1A+

0BBBBBB@

r1

r2...

r5

1CCCCCCA

130

Page 4: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare

Scopo dell’analisi di regressione

• Valutare l’importanza di ogni predittore in X

• Dare stime per la funzione di regressione E(y)

• Buona stima del modello per predire valori di y

131

Page 5: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare

Stime del vettore βββ rispettando il modello ?

Metodo dei Minimi Quadrati

Stima per βββ risolvendo il problema:

minb∈Rp

‖y −Xb‖2

dove

‖y−Xb‖2 = (y−Xb)T (y−Xb) =

nX

i=1

(yi −xi,0b0−xi,1b1−· · ·−xi,pbp)2

• bβββ soluzione del problema: stima di βββ

• bβββ consistente coi dati disponibili (‖y −Xbβββ‖2 minima possibile)

Residuo: br = y −Xbβββ (per stime di σ2)

132

Page 6: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare

Minimi Quadrati

Teorema. Se X ∈ Rn×(p+1) ha rango pieno (= p+ 1) allora

bβββ = (XTX)−1XTy

by = Xbβββ valori approssimanti (Fitted values)

y = by + br

Nota: XTbr = 0 ⇒ 1Tbr =

nX

i=1

ri = 0 da cui

y = 1n

nX

i=1

yi =1

n

nX

i=1

(byi + ri) =1

n

nX

i=1

byi +1

n

nX

i=1

ri = by

133

Page 7: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare

Esempio

x 0 1 2 3 4

y 1 4 3 8 9y = X

24 β0

β1

35+ r

X =

0BBBBBBBB@

1 0

1 1

1 2

1 3

1 4

1CCCCCCCCA

XTX =

24 5 10

10 30

35 XT y =

24 25

70

35

bβββ = (XTX)−1XT y =

24 1

2

35 ⇒ y = 1 + 2x

134

Page 8: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare

Coefficiente di determinazione

y = by + br ∈ Rn e byTbr = 0, da cui

yTy = (by + br)T (by + br) = byT by + brTbr = ‖by‖2 + ‖br‖2

Usando y = by (e aggiungo ny2 a entrambi i lati)

‖y‖2 − ny2 = ‖by‖2 − nby2+ ‖br‖2

‖y − y1‖2

| {z }somma di quadratiintorno alla media

= ‖by − by1‖2

| {z }regressione

somma dei quadrati

+ ‖br‖2

|{z}residuo

R2 : = 1 − ‖br‖2

‖y − y1‖2≡ ‖by − by1‖2

‖y − y1‖2

135

Page 9: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare

Coefficiente di determinazione

R2 = 1 − ‖br‖2

‖y − y1‖2≡ ‖by − by1‖2

‖y − y1‖2

e misura della variazione dei dati attribuibile alle var.predittrici

x1, . . . , xp

R2 = 1 se ri = 0 ∀i

R2 = 0 se bβ0 = y e bβi = 0 ∀i > 0

(cioe x1, . . . , xp non influiscono)

136

Page 10: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare

Proprieta campionarie della stima

• E(bβββ) = βββ stimatore corretto (unbiased)

• Cov(bβββ) = σ2(XTX)−1 (se X ortogonale, Cov(bβββ) = σ2I)

Proprieta campionarie del residuo

• E(br) = 0

• Cov(br) = σ2(I −X(XTX)−1XT )

• bβββ e br sono non correlate

• Posto

s2 :=‖br‖2

n− p− 1

si ha E(s2) = σ2

137

Page 11: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare

Perche la stima coi Minimi Quadrati e buona?

Proprieta di minima varianza della stima:

Teorema (dei Minimi quadrati di Gauss). Sia y = Xβββ + r con E(r) = 0 e

Cov(r) = σ2I con X rango massimo. Sia bβββ = (XTX)−1XT y.

Per ogni c, lo stimatore di cTβββ dato da

cT bβββ = c0bβ0 + c1bβ1 + · · · + cp

bβp

ha la piu piccola varianza possibile tra tutti gli stimatori lineari corretti

(non distorti) di cTβββ, nella forma

aTy = a1y1 + a2y2 + · · · + anyn

cT bβββ Best linear unbiased estimator (B.L.U.E.) di cTβββ

138

Page 12: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare

Intervalli di confidenza per βββ

y = Xβββ + r

Se r e Nn(0, σ2I), allora

bβββ e distribuita come Np+1(βββ, σ2(XTX)−1) e

Regione di confidenza al 100(1 − α)% per βββ:

(βββ − bβββ)TXTX(βββ − bβββ) ≤ (p+ 1)s2Fp+1,n−p−1(α)

Intervalli simultanei:

bβi ±qdV ar(bβi)

p(p+ 1)Fp+1,n−p−1(α), i = 0, . . . , p

dove dV ar(bβi) = (s2(XTX)−1)i,i

139

Page 13: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare

Esempio (Tab.7.1 JW).: Y = Xβββ + r

n = 20, p = 2

XTX =

0BB@

5.1523

0.2544 0.0512

−0.1463 −0.0172 0.0067

1CCA bβββ = (XTX)−1XT

y =

0BB@

30.967

2.634

0.045

1CCA

⇒ by = 30.967 + 2.634x1 + 0.045x2

s = 3.473, R2 = 0.834

Intervalli simultanei: (α = 0.05)

bβ2 ±qdV ar(β2)

p(p+ 1)Fp+1,n−p−1(α) = 0.045 ± 0.285 · 3.098

(−0.837, 0.927) ⇒ x2 non utile?

140

Page 14: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare

Test di ipotesi sull’influenza di X

Possibile ipotesi nulla: H0 : βq+1 = · · · = βp = 0

Posto βββ(2) = [βq+1, . . . , βp]T , riscrivo

X = [ X1|{z}n×(q+1)

, X2|{z}n×(p−q)

] βββ =

24 βββ(1)

βββ(2)

35

y = Xβββ + r = [X1, X2]

24 βββ(1)

βββ(2)

35+ r = X1βββ(1) +X2βββ(2) + r

Sotto l’ipotesi nulla H0 : βββ(2) = 0, y = X1βββ(1) + r

141

Page 15: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare

Test di ipotesi sull’influenza di X

X rango massimo e r in Nn(0, σ2I)

Definiamo:

Sres(X) = ‖br‖2 = ‖y −Xbβββ‖2 con bβββ = (XTX)−1XT y

Sres(X1) = ‖y −X1bβββ(1)‖2 con bβββ(1) = (XT

1 X1)−1XT

1 y

H0 : βββ(2) = 0 viene rifiutata (con livello di sign. 100α%) se

Sres(X1) − Sres(X)

(p− q)s2> Fp−q,n−p−1(α)

dove s2 = ‖br‖2

n−(p+1)

142

Page 16: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare

Esempio (es.7.23) n = 76, p = 8 y : Prezzo di vendita (SalePr)

Test sull’influenza delle singole variabili (q = 7):

F -value di rif.:p− q

n− p− 1Fp−q,n−p−1(α) =

1

67· F1,66(0.05) = 0.06

Variabile testataSres(X1) − Sres(X)

‖br‖2

2 0.2009

3 0.0134

4 0.0443

5 0.0274

6 0.0470

7 0.0253

8 0.0317

9 0.0100

143

Page 17: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare

Test sulla bonta della stima

Analisi del residuo br = y −Xbβββ? br stima di r (con r in Nn(0, σ2I))

Studio grafico del residuo:

• Grafico (bri, byi), i = 1, n, dove by = Xbβββ

• Grafico (bri, Xi,k), i = 1, n per qualche k

• Istogramma di br

144

Page 18: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare

Esempio: Campione di 79 aziende dal Forbes 500 del 1986

Per ogni compagnia:

x1 Assets: Amount of assets (in millions)

x2 Sales: Amount of sales (in millions)

x3 Profits: Profits (in millions)

x4 Cash Flow: Cash Flow (in millions)

x5 Employees: Number of employees (in thousands)

y : Market Value: Market Value of the company (in millions)

145

Page 19: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare

R = corr(X) :

R =

0BBBBBBBB@

1.0000 0.7464 0.6017 0.6409 0.5943

0.7464 1.0000 0.8137 0.8549 0.9240

0.6017 0.8137 1.0000 0.9887 0.7621

0.6409 0.8549 0.9887 1.0000 0.7866

0.5943 0.9240 0.7621 0.7866 1.0000

1CCCCCCCCA

Aggiungiamo la colonna di costanti: X = [1, X]

146

Page 20: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare

Stime:

β =

0BBBBBBBBBBB@

−95.6040

0.0955

0.2994

11.2520

−0.4771

6.2976

1CCCCCCCCCCCA

, R2 = 0.96, s = 2.20 · 103

147

Page 21: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare

Bonta del modello

−8000 −6000 −4000 −2000 0 2000 4000 6000 80000

5

10

15

20

25

30

35

40

45

−6000 −4000 −2000 0 2000 4000 6000

0.01

0.02

0.05

0.10

0.25

0.50

0.75

0.90

0.95

0.98

0.99

Data

Pro

ba

bili

ty

Normal Probability Plot

148

Page 22: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare

−2 0 2 4 6 8 10

x 104

−8000

−6000

−4000

−2000

0

2000

4000

6000

8000

(byi, ri)

149

Page 23: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare

Escludendo dati di IBM e General Electric:

−3000 −2000 −1000 0 1000 2000 3000 4000 5000 60000

5

10

15

20

25

30

−2000 −1000 0 1000 2000 3000 4000 5000

0.01

0.02

0.05

0.10

0.25

0.50

0.75

0.90

0.95

0.98

0.99

Data

Pro

ba

bili

ty

Normal Probability Plot

βT = (100.61, 0.093458,−0.19943,−3.0711, 4.3853, 34.889),

R2 = 0.72, s2 = 1.30 · 106

150

Page 24: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare

Escudendo dati di IBM e General Electric:

−2000 0 2000 4000 6000 8000 10000 12000−3000

−2000

−1000

0

1000

2000

3000

4000

5000

6000

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5

x 104

−3000

−2000

−1000

0

1000

2000

3000

4000

5000

6000

X1

err

ore

(byi, ri) (Assets, ri)

151

Page 25: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare

Previsione di un’osservazione

Fissato x0:

Secondo il modello di regressione: y0 = xT0 βββ + r0

y0: nuova risposta, r0 in N (0, σ2)

(nuova risposta y0) = (valore atteso di y0 in x0) + (nuovo errore)

• xT0bβββ stima corretta

• Varianza del residuo: V ar(y0 − xT0bβββ) = σ2(1 + xT

0 (XTX)−1x0)

• Per r in Nn(0, σ2I), intervallo di confidenza:

xT0bβββ ± tn−(p+1)(α/2)

qs2(1 + xT

0 (XTX)−1x0)

Esempio precedente:

xT0 = (1, 3100, 1800, 129, 350, 50) ⇒ intervallo : (565.87, 5263.0)

152