Funzione di regressione - venus.unive. · PDF fileRegressione lineare semplice Regressione...

Click here to load reader

  • date post

    16-Feb-2019
  • Category

    Documents

  • view

    214
  • download

    0

Embed Size (px)

Transcript of Funzione di regressione - venus.unive. · PDF fileRegressione lineare semplice Regressione...

Regressione lineare semplice Regressione lineare multipla

Regressione lineare multipla

Scopo

Vogliamo porre in relazione la variabile risposta, Y con k, k > 1,variabili esplicative (o regressori, o predittori, o covariate):X1,X2 . . . , Xk .

Regressione lineare semplice Regressione lineare multipla

Funzione di regressione

E(Y |X1 = x1,X2 = x2, . . . ,Xk = xk) == (x1, x2, . . . , xk ,)

= 0 + 1x1 + 2x2 + + kxk

= 0 +k

j=1

jxj

con = [0, 1, . . . , k ] Rk+1

Regressione lineare semplice Regressione lineare multipla

Il modello statistico

Yi = 0 + 1xi ,1 + 2xi ,2 + + kxi ,k + i , i = 1, . . . , n

= 0 +k

j=1

jxi ,j + i

Regressione lineare semplice Regressione lineare multipla

E(i ) = 0 e Var(i ) = 2, i = 1, . . . , n (n rappresenta ladimensione delo campione).

Corr(i , j) = 0 i 6= jxi ,j , i = 1, . . . , n e j = 1, . . . , k rappresenta la determinazionedella variabile Xj sullunita statistica i-esima. Quantitadeterministica e nota senza errori di misurazione.

0 rappresenta il valore atteso di Y quandoX1 = X2 = = Xk = 0j , j = 1, . . . , k rappresenta la variazione della media di Ydovuta ad un incremento unitario di Xj a parita di ogni altracondizione, cioe quando il valore delle altre variabili restaimmutato

Regressione lineare semplice Regressione lineare multipla

Stima dei parametri

Supponiamo di disporre di n osservazioni campionarie:

(yi , xi ,1, . . . , xi ,j , . . . , xi ,k) i = 1, . . . , n

Otteniamo la stima di applicando il metodo dei minimiquadrati, cioe minimizzando rispetto a la funzione

S() =n

i=1

yi 0 kj=1

jxi ,j

2

Le stime di j , j = 0, . . . , k saranno indicate con bi e la stimadi sara data da

b = [b0, b1, . . . , bk ] Rk+1

Regressione lineare semplice Regressione lineare multipla

La stima della funzione di regressione sullunita statisticai-esima e data da

yi = (xi ,1, . . . , xi ,k ,b)

= b0 +k

i=1

bjxi ,j

I residui del modello si indicano con

ei = yi yi

La stima di 2 e data da

s2 =

ni=1 e

2i

n k 1

Regressione lineare semplice Regressione lineare multipla

Il modello in notazione matriciale

Premessa

Il modello di regressione lineare multipla che abbiamo introdotto inprecedenza come

Yi = 0 +k

j=1

jxi ,j + i , i = 1, . . . , n

puo essere riscritto come segue:

Yi = [1, xi ,1, . . . , xi ,k ] + i , i = 1, . . . , n

= xi + i , i = 1, . . . , n

con

xi = [1, xi ,1, . . . , xi ,k ] e = [0, 1, . . . , k ]

Regressione lineare semplice Regressione lineare multipla

Il modello in notazione matriciale

vettore delle n variabili casuali campionarie: Y = [Y1, . . . ,Yn]

vettore delle n osservazioni campionarie sulla variabile Y :y = [y1, . . . , yn]

matrice di regressione:

X =

1 x1 . . . x1,k...

......

1 xi ,1 . . . xi ,k...

......

1 xn,1 . . . xn.k

=

x1...xi...xn

ha dimensione n (k + 1)

Regressione lineare semplice Regressione lineare multipla

Il modello in notazione matriciale

Vettore dei disturbi aleatori: = [1, . . . , i , . . . , n] tale che

E() = 0 e = 2In

Regressione lineare semplice Regressione lineare multipla

Il modello in forma matriciale

In forma matriciale, quindi il modello puo essere scritto come:

Y = X + ,

ovveroE(Y|X) = X e Y|X = 2In

Regressione lineare semplice Regressione lineare multipla

Le stime in forma matriciale

Per stimare abbiamo minimizzato la funzione

S() =n

i=1

(yi 0 n

j=1

xi ,jj)2

la quale puo essere scritta in forma vettoriale come:

S() = (y X)(y X)

Regressione lineare semplice Regressione lineare multipla

Le stime in forma matriciale

Sotto condizioni assai generali (che vedremo fra poco), il vettoreche minimizza S() e

b = (XX)1Xy Rk+1.

Gli elementi che costituiscono i vettore b coincidono esattamentecon le stime che abbiamo definito in precedenza, cioe:

b = [b0, . . . , bk ].

Regressione lineare semplice Regressione lineare multipla

Le stime in forma matriciale

Attenzione

b e calcolabile sotto due condizioni:

n k + 1: il numero di osservazioni campionarie deve esserenon inferiore al numero dei coefficienti che vogliamo stimare.

Le colonne di X devono essere linearmente indipendenti.Questo significa che nessuna variabile Xj , j = 1, . . . , k, possaessere linearmente dipendente dalle altre k 1 variabiliesplicative e che nessun regressore possa assumere lo stessovalore su tutte le unita statistiche osservate.

Regressione lineare semplice Regressione lineare multipla

Le stime in forma matriciale

Il vettore dei residui e definito come

e = [e1, . . . , ei , . . . , en]

E facile verificare che

e = y Xb= y X(XX)1Xy= (In X(XX)1X)y= My

con M = (In X(XX)1X)

Regressione lineare semplice Regressione lineare multipla

Le stime in forma matriciale

Come abbiamo gia visto, la stima della varianza e data da

s2 =1

n k 1

ni=1

e2i

ovvero

=1

n k 1ee

Regressione lineare semplice Regressione lineare multipla

Lincertezza, che sciagura!

Abbiamo definito delle regole generali che ci permettono dicalcolare le stime b e s2 su qualsiasi campione osservato, sottocondizioni non particolarmente restrittive. Ma allora,

b e la determinazione campionaria di una particolare variabilecasuale k + 1-variata:

B = (XX)1XY = [B0,B1, . . . ,Bk ]

s2 e la determinazione campionaria di una particolare variabilecasuale:

S2 =1

n k 1EE

Anche i residui sono determinazioni di n variabili casuali:

E = MY Rn

Regressione lineare semplice Regressione lineare multipla

E facile verificare che

E(B) = e B = 2(XX)1

E(S2) = 2 e Var(S2) =24

n k 1Poniamo H = (XX)1 (con dimensione (k + 1) (k + 1)).Avremo quindi che

Var(Bj) = 2hj ,j , j = 0, . . . , k

Regressione lineare semplice Regressione lineare multipla

Possiamo stimare Var(Bj , j = 0, . . . , k)?

Stime:s2Bj = s

2hj ,j

Basta sostituire s2 a 2 nelle espressioni delle rispettivevarianze.

Stimatori:S2Bj = S

2hj ,j

Regressione lineare semplice Regressione lineare multipla

Generalmente siamo interessati (vedremo meglio in seguito) allostandard error degli stimatori:

SEBj =

Var(Bj)

stime degli standard error:

sBj =

s2Bj

stimatori degli standard error:

SBj =

S2Bj

Regressione lineare semplice Regressione lineare multipla

Correttezza

Gli stimatori dei parametri ignoti sono corretti: se potessimoripetere il campionamento allinfinito e a parita delle condizioni, lemedie delle stima ottenute coinciderebbero con i veri valori di j e2

Regressione lineare semplice Regressione lineare multipla

Osservazione

Dalla correttezza dello stimatore B di segue che

E(Ei ) = E (Yi ) E(xiB)= xi xE(B)= xi xi = 0 i = 1, . . . , n

e quindiE(E) = 0.

Regressione lineare semplice Regressione lineare multipla

Efficienza

Tra tutti gli stimatori di j , ottenibili come trasformazioni lineari diY e corretti, Bj sono i piu precisi, nel senso che hanno varianzaminima.

Regressione lineare semplice Regressione lineare multipla

Consistenza

Bj e S2, sono stimatori consistenti per j e

2 se sussistono tuttele condizioni che caratterizzano il modello di regressione linearesemplice e se

limn

1

nXX = C matrice definita positiva

Regressione lineare semplice Regressione lineare multipla

Varianza spiegata

Un modo comune di valutare la variabilita campionaria di Yconsiste nel calcolare

var(Y ) =1

n

ni=1

(yi y)2

Il numeratore della frazione che definisce var(Y ) si dice devianzatotale di Y :

DEVTOT =n

i=1

(yi y)2

Regressione lineare semplice Regressione lineare multipla

Varianza spiegata

Se nel modello di regressione compare lintercetta, e facileverificare che

y =1

n

ni=1

yi = y e e =1

n

ni=1

ei = 0

Ne segue che le varianze campionarie dei valori stimati dellaregressione e dei residui sono date da:

var(Y ) =1

n

ni=1

(yi y)2 var(E ) =1

n

ni=1

e2i

Regressione lineare semplice Regressione lineare multipla

Varianza spiegata

Possiamo quindi definire

DEVREG =n

i=1

(yi y)2 devianza di regressione

e

DEVRES =n

i=1

e2i devianza residua

Regressione lineare semplice Regressione lineare multipla

Varianza spiegata

Si puo dimostrare che

var(Y ) = var(Y ) + var(E ),

ovveroDEVTOT = DEVREG + DEVRES

Regressione lineare semplice Regressione lineare multipla

Varianza spiegata

Domanda

Supponiamo di approssimare yi , i = 1 con yi , i = 1, . . . , n.Quanta parte della variabilita di Y cogliere attraverso il modello diregressione?

Risposta

R2 =DEVREGDEVTOT

Coefficiente di determinazione lineare

= 1 DEVRESDEVTOT

Regressione lineare semplice Regressione lineare mul