Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di...
Transcript of Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di...
Analisi di Regressione Multivariata
Regressione: metodologia per dedurre info e per anticipare risposte di
una variabile dip.
Modello classico di regressione lineare:
Y|{z}n×k
= X|{z}n×(p+1)
βββ|{z}(p+1)×k
+ ρρρ|{z}n×k
X var. indip. (predittori) (note) Y var. “risposta”
ρρρ matrice di errore (o disturbo)
βββ matrice incognita dei coeff. di regressione (regr. lineare in βββ)
128
Caso unidimensionale
y = β0 + β1x1 + β2x2 + · · · + βpxp + r ⇔ y = [1, x]| {z }≡X
βββ + r
In piu dimensioni (n > 1, k = 1)
yi = β0xi,0 + β1xi,1 + β2xi,2 + · · · + βpxi,p + ri, i = 1, . . . , n
y = Xβββ + r
Ipotesi sul vettore di errore: E(r) = 0 ∈ Rn, Cov(r) = σ2 I|{z}
n×n
⇒ βββ e σ sono incognite
Funzione di regressione:
E(y) = Xβββ = β0xi,0 + β1xi,1 + β2xi,2 + · · · + βpxi,p
129
Esempio
Determinare il modello di regressione lineare per l’accostamento alla
linea retta (p = 1)
x 0 1 2 3 4
y 1 4 3 8 9
Sol. Si ha
X =
0BBBBBBBB@
1 0
1 1
1 2
1 3
1 4
1CCCCCCCCA
y =
0BBBBBBBB@
1
4
3
8
9
1CCCCCCCCA
⇒ y =
0BBBBBBBB@
1 0
1 1
1 2
1 3
1 4
1CCCCCCCCA
0@ β0
β1
1A+
0BBBBBB@
r1
r2...
r5
1CCCCCCA
130
Scopo dell’analisi di regressione
• Valutare l’importanza di ogni predittore in X
• Dare stime per la funzione di regressione E(y)
• Buona stima del modello per predire valori di y
131
Stime del vettore βββ rispettando il modello ?
Metodo dei Minimi Quadrati
Stima per βββ risolvendo il problema:
minb∈Rp
‖y −Xb‖2
dove
‖y−Xb‖2 = (y−Xb)T (y−Xb) =
nX
i=1
(yi −xi,0b0−xi,1b1−· · ·−xi,pbp)2
• bβββ soluzione del problema: stima di βββ
• bβββ consistente coi dati disponibili (‖y −Xbβββ‖2 minima possibile)
Residuo: br = y −Xbβββ (per stime di σ2)
132
Minimi Quadrati
Teorema. Se X ∈ Rn×(p+1) ha rango pieno (= p+ 1) allora
bβββ = (XTX)−1XTy
by = Xbβββ valori approssimanti (Fitted values)
y = by + br
Nota: XTbr = 0 ⇒ 1Tbr =
nX
i=1
ri = 0 da cui
y = 1n
nX
i=1
yi =1
n
nX
i=1
(byi + ri) =1
n
nX
i=1
byi +1
n
nX
i=1
ri = by
133
Esempio
x 0 1 2 3 4
y 1 4 3 8 9y = X
24 β0
β1
35+ r
X =
0BBBBBBBB@
1 0
1 1
1 2
1 3
1 4
1CCCCCCCCA
XTX =
24 5 10
10 30
35 XT y =
24 25
70
35
bβββ = (XTX)−1XT y =
24 1
2
35 ⇒ y = 1 + 2x
134
Coefficiente di determinazione
y = by + br ∈ Rn e byTbr = 0, da cui
yTy = (by + br)T (by + br) = byT by + brTbr = ‖by‖2 + ‖br‖2
Usando y = by (e aggiungo ny2 a entrambi i lati)
‖y‖2 − ny2 = ‖by‖2 − nby2+ ‖br‖2
‖y − y1‖2
| {z }somma di quadratiintorno alla media
= ‖by − by1‖2
| {z }regressione
somma dei quadrati
+ ‖br‖2
|{z}residuo
R2 : = 1 − ‖br‖2
‖y − y1‖2≡ ‖by − by1‖2
‖y − y1‖2
135
Coefficiente di determinazione
R2 = 1 − ‖br‖2
‖y − y1‖2≡ ‖by − by1‖2
‖y − y1‖2
e misura della variazione dei dati attribuibile alle var.predittrici
x1, . . . , xp
R2 = 1 se ri = 0 ∀i
R2 = 0 se bβ0 = y e bβi = 0 ∀i > 0
(cioe x1, . . . , xp non influiscono)
136
Proprieta campionarie della stima
• E(bβββ) = βββ stimatore corretto (unbiased)
• Cov(bβββ) = σ2(XTX)−1 (se X ortogonale, Cov(bβββ) = σ2I)
Proprieta campionarie del residuo
• E(br) = 0
• Cov(br) = σ2(I −X(XTX)−1XT )
• bβββ e br sono non correlate
• Posto
s2 :=‖br‖2
n− p− 1
si ha E(s2) = σ2
137
Perche la stima coi Minimi Quadrati e buona?
Proprieta di minima varianza della stima:
Teorema (dei Minimi quadrati di Gauss). Sia y = Xβββ + r con E(r) = 0 e
Cov(r) = σ2I con X rango massimo. Sia bβββ = (XTX)−1XT y.
Per ogni c, lo stimatore di cTβββ dato da
cT bβββ = c0bβ0 + c1bβ1 + · · · + cp
bβp
ha la piu piccola varianza possibile tra tutti gli stimatori lineari corretti
(non distorti) di cTβββ, nella forma
aTy = a1y1 + a2y2 + · · · + anyn
cT bβββ Best linear unbiased estimator (B.L.U.E.) di cTβββ
138
Intervalli di confidenza per βββ
y = Xβββ + r
Se r e Nn(0, σ2I), allora
bβββ e distribuita come Np+1(βββ, σ2(XTX)−1) e
Regione di confidenza al 100(1 − α)% per βββ:
(βββ − bβββ)TXTX(βββ − bβββ) ≤ (p+ 1)s2Fp+1,n−p−1(α)
Intervalli simultanei:
bβi ±qdV ar(bβi)
p(p+ 1)Fp+1,n−p−1(α), i = 0, . . . , p
dove dV ar(bβi) = (s2(XTX)−1)i,i
139
Esempio (Tab.7.1 JW).: Y = Xβββ + r
n = 20, p = 2
XTX =
0BB@
5.1523
0.2544 0.0512
−0.1463 −0.0172 0.0067
1CCA bβββ = (XTX)−1XT
y =
0BB@
30.967
2.634
0.045
1CCA
⇒ by = 30.967 + 2.634x1 + 0.045x2
s = 3.473, R2 = 0.834
Intervalli simultanei: (α = 0.05)
bβ2 ±qdV ar(β2)
p(p+ 1)Fp+1,n−p−1(α) = 0.045 ± 0.285 · 3.098
(−0.837, 0.927) ⇒ x2 non utile?
140
Test di ipotesi sull’influenza di X
Possibile ipotesi nulla: H0 : βq+1 = · · · = βp = 0
Posto βββ(2) = [βq+1, . . . , βp]T , riscrivo
X = [ X1|{z}n×(q+1)
, X2|{z}n×(p−q)
] βββ =
24 βββ(1)
βββ(2)
35
y = Xβββ + r = [X1, X2]
24 βββ(1)
βββ(2)
35+ r = X1βββ(1) +X2βββ(2) + r
Sotto l’ipotesi nulla H0 : βββ(2) = 0, y = X1βββ(1) + r
141
Test di ipotesi sull’influenza di X
X rango massimo e r in Nn(0, σ2I)
Definiamo:
Sres(X) = ‖br‖2 = ‖y −Xbβββ‖2 con bβββ = (XTX)−1XT y
Sres(X1) = ‖y −X1bβββ(1)‖2 con bβββ(1) = (XT
1 X1)−1XT
1 y
H0 : βββ(2) = 0 viene rifiutata (con livello di sign. 100α%) se
Sres(X1) − Sres(X)
(p− q)s2> Fp−q,n−p−1(α)
dove s2 = ‖br‖2
n−(p+1)
142
Esempio (es.7.23) n = 76, p = 8 y : Prezzo di vendita (SalePr)
Test sull’influenza delle singole variabili (q = 7):
F -value di rif.:p− q
n− p− 1Fp−q,n−p−1(α) =
1
67· F1,66(0.05) = 0.06
Variabile testataSres(X1) − Sres(X)
‖br‖2
2 0.2009
3 0.0134
4 0.0443
5 0.0274
6 0.0470
7 0.0253
8 0.0317
9 0.0100
143
Test sulla bonta della stima
Analisi del residuo br = y −Xbβββ? br stima di r (con r in Nn(0, σ2I))
Studio grafico del residuo:
• Grafico (bri, byi), i = 1, n, dove by = Xbβββ
• Grafico (bri, Xi,k), i = 1, n per qualche k
• Istogramma di br
144
Esempio: Campione di 79 aziende dal Forbes 500 del 1986
Per ogni compagnia:
x1 Assets: Amount of assets (in millions)
x2 Sales: Amount of sales (in millions)
x3 Profits: Profits (in millions)
x4 Cash Flow: Cash Flow (in millions)
x5 Employees: Number of employees (in thousands)
y : Market Value: Market Value of the company (in millions)
145
R = corr(X) :
R =
0BBBBBBBB@
1.0000 0.7464 0.6017 0.6409 0.5943
0.7464 1.0000 0.8137 0.8549 0.9240
0.6017 0.8137 1.0000 0.9887 0.7621
0.6409 0.8549 0.9887 1.0000 0.7866
0.5943 0.9240 0.7621 0.7866 1.0000
1CCCCCCCCA
Aggiungiamo la colonna di costanti: X = [1, X]
146
Stime:
β =
0BBBBBBBBBBB@
−95.6040
0.0955
0.2994
11.2520
−0.4771
6.2976
1CCCCCCCCCCCA
, R2 = 0.96, s = 2.20 · 103
147
Bonta del modello
−8000 −6000 −4000 −2000 0 2000 4000 6000 80000
5
10
15
20
25
30
35
40
45
−6000 −4000 −2000 0 2000 4000 6000
0.01
0.02
0.05
0.10
0.25
0.50
0.75
0.90
0.95
0.98
0.99
Data
Pro
ba
bili
ty
Normal Probability Plot
148
−2 0 2 4 6 8 10
x 104
−8000
−6000
−4000
−2000
0
2000
4000
6000
8000
(byi, ri)
149
Escludendo dati di IBM e General Electric:
−3000 −2000 −1000 0 1000 2000 3000 4000 5000 60000
5
10
15
20
25
30
−2000 −1000 0 1000 2000 3000 4000 5000
0.01
0.02
0.05
0.10
0.25
0.50
0.75
0.90
0.95
0.98
0.99
Data
Pro
ba
bili
ty
Normal Probability Plot
βT = (100.61, 0.093458,−0.19943,−3.0711, 4.3853, 34.889),
R2 = 0.72, s2 = 1.30 · 106
150
Escudendo dati di IBM e General Electric:
−2000 0 2000 4000 6000 8000 10000 12000−3000
−2000
−1000
0
1000
2000
3000
4000
5000
6000
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5
x 104
−3000
−2000
−1000
0
1000
2000
3000
4000
5000
6000
X1
err
ore
(byi, ri) (Assets, ri)
151
Previsione di un’osservazione
Fissato x0:
Secondo il modello di regressione: y0 = xT0 βββ + r0
y0: nuova risposta, r0 in N (0, σ2)
(nuova risposta y0) = (valore atteso di y0 in x0) + (nuovo errore)
• xT0bβββ stima corretta
• Varianza del residuo: V ar(y0 − xT0bβββ) = σ2(1 + xT
0 (XTX)−1x0)
• Per r in Nn(0, σ2I), intervallo di confidenza:
xT0bβββ ± tn−(p+1)(α/2)
qs2(1 + xT
0 (XTX)−1x0)
Esempio precedente:
xT0 = (1, 3100, 1800, 129, 350, 50) ⇒ intervallo : (565.87, 5263.0)
152