Funzione di regressione - venus.unive. · PDF fileRegressione lineare semplice Regressione...
date post
16-Feb-2019Category
Documents
view
214download
0
Embed Size (px)
Transcript of Funzione di regressione - venus.unive. · PDF fileRegressione lineare semplice Regressione...
Regressione lineare semplice Regressione lineare multipla
Regressione lineare multipla
Scopo
Vogliamo porre in relazione la variabile risposta, Y con k, k > 1,variabili esplicative (o regressori, o predittori, o covariate):X1,X2 . . . , Xk .
Regressione lineare semplice Regressione lineare multipla
Funzione di regressione
E(Y |X1 = x1,X2 = x2, . . . ,Xk = xk) == (x1, x2, . . . , xk ,)
= 0 + 1x1 + 2x2 + + kxk
= 0 +k
j=1
jxj
con = [0, 1, . . . , k ] Rk+1
Regressione lineare semplice Regressione lineare multipla
Il modello statistico
Yi = 0 + 1xi ,1 + 2xi ,2 + + kxi ,k + i , i = 1, . . . , n
= 0 +k
j=1
jxi ,j + i
Regressione lineare semplice Regressione lineare multipla
E(i ) = 0 e Var(i ) = 2, i = 1, . . . , n (n rappresenta ladimensione delo campione).
Corr(i , j) = 0 i 6= jxi ,j , i = 1, . . . , n e j = 1, . . . , k rappresenta la determinazionedella variabile Xj sullunita statistica i-esima. Quantitadeterministica e nota senza errori di misurazione.
0 rappresenta il valore atteso di Y quandoX1 = X2 = = Xk = 0j , j = 1, . . . , k rappresenta la variazione della media di Ydovuta ad un incremento unitario di Xj a parita di ogni altracondizione, cioe quando il valore delle altre variabili restaimmutato
Regressione lineare semplice Regressione lineare multipla
Stima dei parametri
Supponiamo di disporre di n osservazioni campionarie:
(yi , xi ,1, . . . , xi ,j , . . . , xi ,k) i = 1, . . . , n
Otteniamo la stima di applicando il metodo dei minimiquadrati, cioe minimizzando rispetto a la funzione
S() =n
i=1
yi 0 kj=1
jxi ,j
2
Le stime di j , j = 0, . . . , k saranno indicate con bi e la stimadi sara data da
b = [b0, b1, . . . , bk ] Rk+1
Regressione lineare semplice Regressione lineare multipla
La stima della funzione di regressione sullunita statisticai-esima e data da
yi = (xi ,1, . . . , xi ,k ,b)
= b0 +k
i=1
bjxi ,j
I residui del modello si indicano con
ei = yi yi
La stima di 2 e data da
s2 =
ni=1 e
2i
n k 1
Regressione lineare semplice Regressione lineare multipla
Il modello in notazione matriciale
Premessa
Il modello di regressione lineare multipla che abbiamo introdotto inprecedenza come
Yi = 0 +k
j=1
jxi ,j + i , i = 1, . . . , n
puo essere riscritto come segue:
Yi = [1, xi ,1, . . . , xi ,k ] + i , i = 1, . . . , n
= xi + i , i = 1, . . . , n
con
xi = [1, xi ,1, . . . , xi ,k ] e = [0, 1, . . . , k ]
Regressione lineare semplice Regressione lineare multipla
Il modello in notazione matriciale
vettore delle n variabili casuali campionarie: Y = [Y1, . . . ,Yn]
vettore delle n osservazioni campionarie sulla variabile Y :y = [y1, . . . , yn]
matrice di regressione:
X =
1 x1 . . . x1,k...
......
1 xi ,1 . . . xi ,k...
......
1 xn,1 . . . xn.k
=
x1...xi...xn
ha dimensione n (k + 1)
Regressione lineare semplice Regressione lineare multipla
Il modello in notazione matriciale
Vettore dei disturbi aleatori: = [1, . . . , i , . . . , n] tale che
E() = 0 e = 2In
Regressione lineare semplice Regressione lineare multipla
Il modello in forma matriciale
In forma matriciale, quindi il modello puo essere scritto come:
Y = X + ,
ovveroE(Y|X) = X e Y|X = 2In
Regressione lineare semplice Regressione lineare multipla
Le stime in forma matriciale
Per stimare abbiamo minimizzato la funzione
S() =n
i=1
(yi 0 n
j=1
xi ,jj)2
la quale puo essere scritta in forma vettoriale come:
S() = (y X)(y X)
Regressione lineare semplice Regressione lineare multipla
Le stime in forma matriciale
Sotto condizioni assai generali (che vedremo fra poco), il vettoreche minimizza S() e
b = (XX)1Xy Rk+1.
Gli elementi che costituiscono i vettore b coincidono esattamentecon le stime che abbiamo definito in precedenza, cioe:
b = [b0, . . . , bk ].
Regressione lineare semplice Regressione lineare multipla
Le stime in forma matriciale
Attenzione
b e calcolabile sotto due condizioni:
n k + 1: il numero di osservazioni campionarie deve esserenon inferiore al numero dei coefficienti che vogliamo stimare.
Le colonne di X devono essere linearmente indipendenti.Questo significa che nessuna variabile Xj , j = 1, . . . , k, possaessere linearmente dipendente dalle altre k 1 variabiliesplicative e che nessun regressore possa assumere lo stessovalore su tutte le unita statistiche osservate.
Regressione lineare semplice Regressione lineare multipla
Le stime in forma matriciale
Il vettore dei residui e definito come
e = [e1, . . . , ei , . . . , en]
E facile verificare che
e = y Xb= y X(XX)1Xy= (In X(XX)1X)y= My
con M = (In X(XX)1X)
Regressione lineare semplice Regressione lineare multipla
Le stime in forma matriciale
Come abbiamo gia visto, la stima della varianza e data da
s2 =1
n k 1
ni=1
e2i
ovvero
=1
n k 1ee
Regressione lineare semplice Regressione lineare multipla
Lincertezza, che sciagura!
Abbiamo definito delle regole generali che ci permettono dicalcolare le stime b e s2 su qualsiasi campione osservato, sottocondizioni non particolarmente restrittive. Ma allora,
b e la determinazione campionaria di una particolare variabilecasuale k + 1-variata:
B = (XX)1XY = [B0,B1, . . . ,Bk ]
s2 e la determinazione campionaria di una particolare variabilecasuale:
S2 =1
n k 1EE
Anche i residui sono determinazioni di n variabili casuali:
E = MY Rn
Regressione lineare semplice Regressione lineare multipla
E facile verificare che
E(B) = e B = 2(XX)1
E(S2) = 2 e Var(S2) =24
n k 1Poniamo H = (XX)1 (con dimensione (k + 1) (k + 1)).Avremo quindi che
Var(Bj) = 2hj ,j , j = 0, . . . , k
Regressione lineare semplice Regressione lineare multipla
Possiamo stimare Var(Bj , j = 0, . . . , k)?
Stime:s2Bj = s
2hj ,j
Basta sostituire s2 a 2 nelle espressioni delle rispettivevarianze.
Stimatori:S2Bj = S
2hj ,j
Regressione lineare semplice Regressione lineare multipla
Generalmente siamo interessati (vedremo meglio in seguito) allostandard error degli stimatori:
SEBj =
Var(Bj)
stime degli standard error:
sBj =
s2Bj
stimatori degli standard error:
SBj =
S2Bj
Regressione lineare semplice Regressione lineare multipla
Correttezza
Gli stimatori dei parametri ignoti sono corretti: se potessimoripetere il campionamento allinfinito e a parita delle condizioni, lemedie delle stima ottenute coinciderebbero con i veri valori di j e2
Regressione lineare semplice Regressione lineare multipla
Osservazione
Dalla correttezza dello stimatore B di segue che
E(Ei ) = E (Yi ) E(xiB)= xi xE(B)= xi xi = 0 i = 1, . . . , n
e quindiE(E) = 0.
Regressione lineare semplice Regressione lineare multipla
Efficienza
Tra tutti gli stimatori di j , ottenibili come trasformazioni lineari diY e corretti, Bj sono i piu precisi, nel senso che hanno varianzaminima.
Regressione lineare semplice Regressione lineare multipla
Consistenza
Bj e S2, sono stimatori consistenti per j e
2 se sussistono tuttele condizioni che caratterizzano il modello di regressione linearesemplice e se
limn
1
nXX = C matrice definita positiva
Regressione lineare semplice Regressione lineare multipla
Varianza spiegata
Un modo comune di valutare la variabilita campionaria di Yconsiste nel calcolare
var(Y ) =1
n
ni=1
(yi y)2
Il numeratore della frazione che definisce var(Y ) si dice devianzatotale di Y :
DEVTOT =n
i=1
(yi y)2
Regressione lineare semplice Regressione lineare multipla
Varianza spiegata
Se nel modello di regressione compare lintercetta, e facileverificare che
y =1
n
ni=1
yi = y e e =1
n
ni=1
ei = 0
Ne segue che le varianze campionarie dei valori stimati dellaregressione e dei residui sono date da:
var(Y ) =1
n
ni=1
(yi y)2 var(E ) =1
n
ni=1
e2i
Regressione lineare semplice Regressione lineare multipla
Varianza spiegata
Possiamo quindi definire
DEVREG =n
i=1
(yi y)2 devianza di regressione
e
DEVRES =n
i=1
e2i devianza residua
Regressione lineare semplice Regressione lineare multipla
Varianza spiegata
Si puo dimostrare che
var(Y ) = var(Y ) + var(E ),
ovveroDEVTOT = DEVREG + DEVRES
Regressione lineare semplice Regressione lineare multipla
Varianza spiegata
Domanda
Supponiamo di approssimare yi , i = 1 con yi , i = 1, . . . , n.Quanta parte della variabilita di Y cogliere attraverso il modello diregressione?
Risposta
R2 =DEVREGDEVTOT
Coefficiente di determinazione lineare
= 1 DEVRESDEVTOT
Regressione lineare semplice Regressione lineare mul