Download - C4 regr lin multipla

Transcript
Page 1: C4 regr lin multipla

1

REGRESIA LINIARĂ MULTIPLĂ

C4. 1. Regresia prin origine

2. Prezentarea modelului liniar multiplu

3. Estimarea parametrilor modelului liniar multiplu

4. Testarea parametrilor modelului liniar multiplu

Page 2: C4 regr lin multipla

2

Regresia prin origine (I)

Situaţii în care am putea construi un model de regresie prin origine: În urma testării parametrilor modelului,

parametrul β0 are o valoare nesemnificativă statistic, iar parametrul β1 este semnificativ statistic;

Există suport teoretic care să impună estimarea unui model care trece prin origine – lipsa influenţei variabilei independente conduce la o medie zero pentru variabila dependentă (analiza de cost, legătura dintre lungimea şi greutatea frunzelor unui copac).

Page 3: C4 regr lin multipla

3

Regresia prin origine (II)

Pentru un eşantion de 100 de sturioni, se studiază legătura dintre numărul de ouă depuse şi lungimea peştelui.

Page 4: C4 regr lin multipla

4

Regresia prin origine (III)

În cazul modelului de regresie aplicarea metodei celor mai mici pătrate

se simplifică. Problema de minim care trebuie rezolvată

este de forma:

εβ += XY 1

Page 5: C4 regr lin multipla

5

Regresia prin origine (IV)

Estimatorul este nedeplasat Avem n-1 grade de libertate Probleme ale utilizării în practică:

Suma erorilor nu mai este zero; R2 poate fi negativ sau poate avea o valoare foarte

mare, prin urmare interpretarea acestuia nu mai are sens. Se utilizează o variantă a lui R2, şi anume:

Aceste probleme dispar dacă modelul de regresie liniară are variabilele standardizate. În acest caz, panta dreptei de regresie are aceeaşi valoare cu coeficientul de corelaţie Pearson.

Page 6: C4 regr lin multipla

6

Modelul liniar multiplu (I)

Forma generală a modelului liniar multiplu este dată prin relaţia: unde:Y - variabila dependentă;X1, X2,…,Xi,…,Xp - variabile independente (predictori);ε - variabilă reziduu de modelare (variabila aleatoare);βi - parametrii modelului de regresiek - numărul de parametri din model, k=p+1.

Exemplu: Pentru un eşantion de 50 de mărci de cereale, se poate studia legătura dintre ratingul acordat de consumatori unei mărci de cereale şi factorii de influenţă (nr. de calorii, de grame de grăsimi, de zahăr, de fibre, etc.)

( ) εββββε +++++=+= pp22110 X...XXX/YMY

Page 7: C4 regr lin multipla

7

Modelul liniar multiplu (II)

Cei k parametri ai modelului liniar multiplu au următoarea semnificaţie: β0 – valoarea medie a variabilei dependente Y, în condiţiile în care influenţa variabilelor independente ar fi nulă;

- variaţia absolută a variabilei

dependente la o variaţie absolută cu o unitate a variabilei independente Xi, în condiţiile în care influenţa celorlalte variabile independente este menţinută constantă. Arată influenţa parţială a fiecărei variabile independente asupra variabilei dependente.

p,1i,X

Y

ii =

∂∂=β

Page 8: C4 regr lin multipla

8

Modelul liniar multiplu (3)

Ipotezele modelului clasic de regresie:

-variabilele independente sunt nestochastice

-normalitatea erorilor :

-homoscedasticitate:

-necorelarea erorilor:

-lipsa corelaţiei dintre variabilele independente şi variabila eroare

- lipsa coliniarităţii sau a unei legături liniare între variabilele independente

2~ (0, )i Nε σ

22ii )(M)(V σεε ==

0),cov( ji =εε

Page 9: C4 regr lin multipla

9

Estimarea parametrilor modelului multiplu liniar

Se consideră modelul de regresie liniară multiplă cu două variabile independente:

La nivelul unui eşantion, modelul devine:

sau

Rezultă

Estimarea parametrilor modelului prin metoda celor mai mici pătrate presupune respectarea condiţiei:

, adică

ii22i110i xxy εβββ +++=

ii22i110iˆxˆxˆˆy εβββ +++= iii yy εˆ +=

i22i110iiii xxˆˆyyyˆ βββε −−−=−=

∑ ==

n

1i

2i imminε immin)xxˆˆy( 2

ii22i110i =∑ −−− βββ

Page 10: C4 regr lin multipla

10

Estimarea parametrilor modelului multiplu liniar (II)

Pentru satisfacerea condiţiei MCMMP trebuie ca derivatele parţiale de ordin I în raport cu coeficienţii modelului să se anuleze. Astfel se va obţine un sistem de 2+1=3 ecuaţii cu 3 necunoscute.

∑ ∑=∑ ++∑

∑ ∑=∑++∑

∑ ∑=∑++

= ===

= ===

= ==

n

1i

n

1i2ii

22i2

n

1i2i1i1

n

1i2i0

n

1i

n

1i1ii

n

1i2i1i2

21i1

n

1i1i0

n

1i

n

1ii

n

1i2i21i10

xyxβxxβxβ

xyxxβxβxβ

yxβxββn

Page 11: C4 regr lin multipla

11

Estimarea parametrilor modelului multiplu liniar (III)

Estimarea punctuală a parametrilor modelului

La nivelul unui eşantion de date, sistemul de ecuaţii devine:

Prin rezolvarea sistemului, se obţin relaţiile pentru estimaţiile parametrilor modelului de regresie.

Exemplu: Rating = 61.1 - 3.07 Grăsimi - 2.21 Zahăr

∑ ∑=∑ ++∑

∑ ∑=∑++∑

∑ ∑=∑++

= ===

= ===

= ==

n

1i

n

1i2ii

22i2

n

1i2i1i1

n

1i2i0

n

1i

n

1i1ii

n

1i2i1i2

21i1

n

1i1i0

n

1i

n

1ii

n

1i2i21i10

xyxbxxbxb

xyxxbxbxb

yxbxbnb

Page 12: C4 regr lin multipla

12

Estimarea parametrilor modelului multiplu liniar (IV)

Estimarea parametrilor prin interval de încredere

Intervalele de încredere sunt de forma:

La nivelul unui eşantion de date se obţine un interval de forma:

]ˆtˆ[iˆkn,2/ii βα σββ −±∈

[ ]iistbstb kniknii βαβαβ ˆ,2/ˆ,2/ , −− +−∈

Page 13: C4 regr lin multipla

13

Testarea parametrilor modelului liniar multiplu (I)

Testarea parametrilor modelului multiplu liniar se face la fel ca în cazul modelului simplu liniar:

1. Formularea ipotezelor:

H0:

H1:

2. Alegerea pragului de semnificaţie αDe regulă, se asumă un risc α = 0,05.

3. Alegerea statisticii test

0iβ =

0iβ ≠

i

ˆ

ˆt

βσβ

=

Page 14: C4 regr lin multipla

14

Testarea parametrilor modelului liniar multiplu (II)

4. Valoarea teoretică a statisticii testPentru pragul de semnificaţie ales şi v=n-k grade de libertate, se citeşte valoarea teoretică din tabela Student: tα/2;n-k

5. Valoarea calculată a statisticii testLa nivelul eşantionului se determină valoarea calculată a testului:

6. Regula de decizieDacă se respinge H0

Dacă se acceptă H0, pentru risc asumat de 5%.

icalc s

bt

β

=

2/calc tt α>

2/calc tt α≤

Page 15: C4 regr lin multipla

15

Testarea parametrilor modelului liniar multiplu (III)

În SPSS, decizia se ia pe baza semnificaţiei testului (Sig.):

- dacă , se respinge H0

-dacă , se acceptă H0, pentru un nivel de încredere de 95%.

7. Compararea celor două valori ale statisticii test şi luarea deciziei

8. Interpretarea rezultatului testării

α<tSig

α≥tSig

Page 16: C4 regr lin multipla

16

Testarea modelului de regresie (I)

Testarea modelului de regresie se realizează cu ajutorul testului F, după următorul demers:

1. Formularea ipotezelorH0: β0=β1=…=βp=0 (modelul nu este semnificativ)

H1: nu toţi coeficienţii sunt simultan zero

2. Alegerea pragului de semnificaţie α

3. Alegerea statisticii test

~F(k-1, n-k)

4. Valoarea teoretică a statisticii test: F α, k-1, n-k

5. Valoarea calculată a testului:

1ˆ1

ˆ

ˆ2

2

−−⋅

−=

−−⋅=

k

kn

k

kn

V

VF

R

E

ηη

111 2

2

−−⋅

−=

−−⋅=

k

kn

R

R

k

kn

RSS

ESSF

Page 17: C4 regr lin multipla

17

Testarea modelului de regresie (II)

6. Regula de decizieDacă se respinge H0

Dacă se acceptă H0, pentru risc asumat de 5%.

În SPSS, decizia se ia pe baza semnificaţiei testului (Sig.):

- dacă , se respinge H0

-dacă , se acceptă H0, pentru un nivel de încredere de 95%.

7. Compararea celor două valori ale statisticii test şi luarea deciziei

8. Interpretarea rezultatului testării

kn,1kcalc FF −−>

kn,1kcalc FF −−≤

α<FSig

α≥FSig

Page 18: C4 regr lin multipla

18

EXEMPLU

Pentru un eşantion de mărci de cereale, se studiază legătura dintre ratingul acordat de consumatori unei mărci de cereale şi nr. de grame de grăsimi, de zahăr şi de fibre.

Page 19: C4 regr lin multipla

19

Model Summary

,789a ,622 ,612 8,75456Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), sugars, fata.

ANOVAb

9325,268 2 4662,634 60,836 ,000a

5671,533 74 76,642

14996,800 76

Regression

Residual

Total

Model1

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), sugars, fata.

Dependent Variable: ratingb.

Coefficientsa

61,089 1,953 31,284 ,000

-3,066 1,036 -,220 -2,958 ,004

-2,213 ,235 -,700 -9,428 ,000

(Constant)

fat

sugars

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: ratinga.

Page 20: C4 regr lin multipla

20

Model Summary

,930a ,865 ,859 5,35086Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), fat, fiber, sugarsa.

ANOVAb

12503,728 3 4167,909 145,570 ,000a

1946,958 68 28,632

14450,686 71

Regression

Residual

Total

Model1

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), fat, fiber, sugarsa.

Dependent Variable: ratingb.

Coefficientsa

53,673 1,389 38,637 ,000

2,938 ,261 ,507 11,265 ,000

-1,992 ,150 -,622 -13,238 ,000

-3,347 ,656 -,238 -5,103 ,000

(Constant)

fiber

sugars

fat

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: ratinga.