C4 C7 Econometrie 2015 CBalan

44
Econometrie (C4 – C7) Regresia prin origine Regresia liniară multiplă Modele cu variabile standardizate 1

description

gdgx

Transcript of C4 C7 Econometrie 2015 CBalan

Page 1: C4 C7 Econometrie 2015 CBalan

Econometrie (C4 – C7)

Regresia prin origine Regresia liniară multiplă Modele cu variabile standardizate

1

Page 2: C4 C7 Econometrie 2015 CBalan

2

1. Regresia prin origine (1)

Situaţii în care am putea construi un model de regresie prin origine: În urma testării parametrilor modelului,

parametrul β0 are o valoare nesemnificativă statistic, iar parametrul β1 este semnificativ statistic;

Există suport teoretic care să impună estimarea unui model care trece prin origine.

Page 3: C4 C7 Econometrie 2015 CBalan

3

1. Regresia prin origine (2)

În cazul modelului de regresie aplicarea metodei celor mai mici pătrate

se simplifică. Problema de minim care trebuie rezolvată

este de forma:

XY 1

Page 4: C4 C7 Econometrie 2015 CBalan

4

1. Regresia prin origine (3)

Estimatorul este nedeplasat Avem n-1 grade de libertate Probleme ale utilizării în practică:

Suma erorilor nu mai este zero; R2 poate avea o valoare foarte mare, prin urmare

interpretarea acestuia nu mai are sens. Se utilizează o variantă a lui R2, şi anume:

Aceste probleme dispar dacă modelul de regresie liniară are variabilele standardizate. În acest caz, panta dreptei de regresie are aceeaşi valoare cu coeficientul de corelaţie Pearson.

1

Page 5: C4 C7 Econometrie 2015 CBalan

5

Regresia liniară multiplă

1. Prezentarea modelului liniar multiplu

2. Estimarea parametrilor modelului liniar multiplu

3. Testarea parametrilor modelului liniar multiplu

4. Testarea modelului de regresie

5. Indicatori de corelaţie

6. Testarea influenței marginale a unei variabile

Page 6: C4 C7 Econometrie 2015 CBalan

6

2. Modelul liniar multiplu (1)

Forma generală a modelului liniar multiplu este dată prin relaţia: unde:Y - variabila dependentă;X1, X2,…,Xi,…,Xp - variabile independente (predictori);ε - variabilă reziduu de modelare (variabila aleatoare);βi - parametrii modelului de regresiek - numărul de parametri din model, k=p+1.

Exemplu: Pentru un eşantion de 50 de mărci de cereale, se poate studia legătura dintre ratingul acordat de consumatori unei mărci de cereale şi factorii de influenţă (nr. de calorii, de grame de grăsimi, de zahăr, de fibre, etc.)

pp22110 X...XXX/YMY

Page 7: C4 C7 Econometrie 2015 CBalan

7

2. Modelul liniar multiplu (2)

Cei k parametri ai modelului liniar multiplu au următoarea semnificaţie: β0 – valoarea medie a variabilei dependente Y, în condiţiile în care influenţa variabilelor independente ar fi nulă (X1=0, X2=0, …., Xp=0);

βi – variaţia absolută a variabilei dependente Y la o variaţie absolută cu o unitate a variabilei independente Xi, în condiţiile în care influenţa celorlalte variabile independente este menţinută constantă.

βi – arată influenţa parţială a fiecărei variabile independente asupra variabilei dependente.

p,1i,X

Y

ii

Page 8: C4 C7 Econometrie 2015 CBalan

8

2. Modelul liniar multiplu (3)

Ipotezele modelului clasic de regresie:

-variabilele independente sunt nestochastice

-normalitatea erorilor :

-homoscedasticitate:

-necorelarea erorilor:

-lipsa corelaţiei dintre variabilele independente şi variabila eroare

- lipsa coliniarităţii sau a unei legături liniare între variabilele independente

2~ (0, )i N

22ii )(M)(V

0),cov( ji

Page 9: C4 C7 Econometrie 2015 CBalan

9

3. Estimarea parametrilor modelului multiplu liniar (1)

Se consideră modelul de regresie liniară multiplă cu două variabile independente:

La nivelul unui eşantion, modelul devine:

sau

Rezultă

Estimarea parametrilor modelului prin metoda celor mai mici pătrate presupune respectarea condiţiei:

, adică

ii22i110i xxy

ii22i110iˆxˆxˆˆy iii yy ˆ

i22i110iiii xxˆˆyyyˆ

n

1i

2i immin immin)xxˆˆy( 2

ii22i110i

Page 10: C4 C7 Econometrie 2015 CBalan

10

3. Estimarea parametrilor modelului multiplu liniar (2)

Pentru satisfacerea condiţiei MCMMP trebuie ca derivatele parţiale de ordin I în raport cu coeficienţii modelului să se anuleze. Astfel se va obţine un sistem de 2+1=3 ecuaţii cu 3 necunoscute.

n

1i

n

1i2ii

22i2

n

1i2i1i1

n

1i2i0

n

1i

n

1i1ii

n

1i2i1i2

21i1

n

1i1i0

n

1i

n

1ii

n

1i2i21i10

xyxβxxβxβ

xyxxβxβxβ

yxβxββn

Page 11: C4 C7 Econometrie 2015 CBalan

11

3. Estimarea parametrilor modelului multiplu liniar (3)

Estimarea punctuală a parametrilor modelului

La nivelul unui eşantion de date, sistemul de ecuaţii devine:

Prin rezolvarea sistemului, se obţin relaţiile pentru estimaţiile parametrilor modelului de regresie.

n

1i

n

1i2ii

22i2

n

1i2i1i1

n

1i2i0

n

1i

n

1i1ii

n

1i2i1i2

21i1

n

1i1i0

n

1i

n

1ii

n

1i2i21i10

xyxbxxbxb

xyxxbxbxb

yxbxbnb

Page 12: C4 C7 Econometrie 2015 CBalan

12

3. Estimarea parametrilor modelului multiplu liniar (4)

Estimarea parametrilor prin interval de încredere

Intervalele de încredere sunt de forma:

La nivelul unui eşantion de date se obţine un interval de forma:

]ˆtˆ[i

ˆkn,2/ii

ii

stbstb kniknii ˆ,2/ˆ,2/ ,

Page 13: C4 C7 Econometrie 2015 CBalan

13

4. Testarea parametrilor modelului liniar multiplu (1)

Testarea parametrilor modelului multiplu liniar se face cu ajutorul testului t (Student) (Tabelul Coefficients din SPSS sau Excel), la fel ca în cazul modelului simplu liniar:

1. Formularea ipotezelor:

H0:

H1:

2. Alegerea pragului de semnificaţie αDe regulă, se asumă un risc α = 0,05.

3. Alegerea statisticii test

0i

0i

i

ˆ

ˆt

Page 14: C4 C7 Econometrie 2015 CBalan

14

4. Testarea parametrilor modelului liniar multiplu (2)4. Valoarea teoretică a statisticii testPentru pragul de semnificaţie ales şi v=n-k grade de libertate, se citeşte valoarea teoretică din tabelul Repartiţiei Student: tα/2;n-k

5. Valoarea calculată a statisticii testLa nivelul eşantionului se determină valoarea calculată a testului:

6. Regula de decizieDacă se respinge H0

Dacă se acceptă H0, pentru risc asumat de 5%.

icalc s

bt

2/calc tt

2/calc tt

Page 15: C4 C7 Econometrie 2015 CBalan

15

4. Testarea parametrilor modelului liniar multiplu (3)

În SPSS, decizia se ia pe baza semnificaţiei testului (Sig.):- dacă , se respinge H0

-dacă , se acceptă H0, pentru un nivel de încredere de 95%.

7. Compararea celor două valori ale statisticii test şi luarea deciziei

8. Interpretarea rezultatului testării

tSig

tSig

Page 16: C4 C7 Econometrie 2015 CBalan

16

5. Testarea modelului de regresie (1)Testarea modelului de regresie se realizează cu ajutorul testului F, (Tabelul ANOVA din SPSS sau Excel) după următorul demers:

1. Formularea ipotezelorH0: β0=β1=…=βp=0 (modelul nu este semnificativ)

H1: nu toţi coeficienţii sunt simultan zero

2. Alegerea pragului de semnificaţie α

3. Alegerea statisticii test

~F(k-1, n-k)

4. Valoarea teoretică a statisticii test se citeşte din tabelul Repartiţiei Fisher : F α, k-1, n-k

5. Valoarea calculată a testului:

1ˆ1

ˆ

ˆ2

2

k

kn

k

kn

V

VF

R

E

111 2

2

k

kn

R

R

k

kn

RSS

ESSF

Page 17: C4 C7 Econometrie 2015 CBalan

17

5. Testarea modelului de regresie (2)6. Regula de decizieDacă se respinge H0

Dacă se acceptă H0, pentru risc asumat de 5%.

În SPSS, decizia se ia pe baza semnificaţiei testului (Sig.):- dacă , se respinge H0

-dacă , se acceptă H0, pentru un nivel de încredere de 95%.

7. Compararea celor două valori ale statisticii test şi luarea deciziei

8. Interpretarea rezultatului testării

kn,1kcalc FF

kn,1kcalc FF

FSig

FSig

Page 18: C4 C7 Econometrie 2015 CBalan

18

EXEMPLU

Pentru un eşantion de mărci de cereale, se studiază legătura dintre ratingul acordat de consumatori unei mărci de cereale (Y) şi cantitatea de grăsimi (X1), de zahăr (X2) şi de fibre (X3) exprimate in grame.

Page 19: C4 C7 Econometrie 2015 CBalan

19

Model Summary

,789a ,622 ,612 8,75456Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), sugars, fata.

ANOVAb

9325,268 2 4662,634 60,836 ,000a

5671,533 74 76,642

14996,800 76

Regression

Residual

Total

Model1

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), sugars, fata.

Dependent Variable: ratingb.

Coefficientsa

61,089 1,953 31,284 ,000

-3,066 1,036 -,220 -2,958 ,004

-2,213 ,235 -,700 -9,428 ,000

(Constant)

fat

sugars

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: ratinga.

Page 20: C4 C7 Econometrie 2015 CBalan

20

Model Summary

,930a ,865 ,859 5,35086Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), fat, fiber, sugarsa.

ANOVAb

12503,728 3 4167,909 145,570 ,000a

1946,958 68 28,632

14450,686 71

Regression

Residual

Total

Model1

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), fat, fiber, sugarsa.

Dependent Variable: ratingb.

Coefficientsa

53,673 1,389 38,637 ,000

2,938 ,261 ,507 11,265 ,000

-1,992 ,150 -,622 -13,238 ,000

-3,347 ,656 -,238 -5,103 ,000

(Constant)

fiber

sugars

fat

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: ratinga.

Page 21: C4 C7 Econometrie 2015 CBalan

Pentru un model de regresie liniară multiplă, pot fi determinaţi următorii coeficienţi:

1. coeficienţi de corelaţie simplă între variabila dependentă şi fiecare variabilă independentă (coeficienţi bivariaţi);

2. coeficienţi de corelaţie parţială;3. coeficientul de corelaţie multiplă;4. coeficientul de determinaţie multiplă;5. raportul de corelaţie multiplă;6. raportul de determinaţie multiplă.

6. Estimarea indicatorilor de corelaţie

21

Page 22: C4 C7 Econometrie 2015 CBalan

Estimarea indicatorilor de corelaţie (1)

Coeficienţi de corelaţie bivariată

Pentru un model liniar de forma:

Există trei coeficienţi de corelaţie bivariată: ry1, ry2, r12

ii22i110i xxy

])(][)([ 2221

21

11

1

i iii

i iii

ii

ii

iii

yyynxxn

yxyxnr

])(][)([ 2222

22

22

2

i iii

i iii

ii

ii

iii

yyynxxn

yxyxnr

])(][)([ 22

22

21

21

2121

12

i iii

i iii

ii

ii

iii

xxnxxn

xxxxnr

22

Page 23: C4 C7 Econometrie 2015 CBalan

Estimarea indicatorilor de corelaţie (2)Coeficienţi de corelaţie parţială

Coeficienţi de corelaţie parţială sunt:

Corelaţia parţială măsoară dependenţa dintre variabile prin excluderea succesivă a influenţei celorlalţi factori, considerând influenţa lor constantă si menţinând numai influenţa factorului măsurat.

În funcţie de numărul variabilelor a căror influenţă se elimină din calcul, coeficienţii de corelaţie parţială pot fi:

de ordinul întâi (pentru o variabilă eliminată), de ordinul doi (pentru două variabile)etc.

)1)(1( 212

22

12212.1

rr

rrrr

y

yyy

)1)(1( 212

21

12121.2

rr

rrrr

y

yyy

)1)(1( 22

21

2112.12

yy

yyy

rr

rrrr

23

Page 24: C4 C7 Econometrie 2015 CBalan

Estimarea indicatorilor de corelaţie (3)

Coeficientul de corelaţie multiplăCoeficientul de corelaţie multiplă se calculează numai pentru

modelele multiple liniare şi se exprimă cu ajutorul coeficienţilor de corelaţie simplă dintre variabilele perechi.

Astfel, în cazul corelaţiei dintre o variabilă rezultativă Y şi două variabile independente , ,la nivelul unui eşantion, coeficientul de corelaţie multiplă, notat cu r, se calculează după relaţia:

1X 2X

2.122

221.2

21

212

12

122122

21 )1()1(

1

2yyyyyy

yyyy rrrrrrrrr

rrrrrr

24

Page 25: C4 C7 Econometrie 2015 CBalan

Estimarea indicatorilor de corelaţie (4)Raportul de determinaţie şi raportul de corelaţie multiplă

Parametrii

=>

Estimatorii

=>

Estimaţii

=>

T

R

T

E

ii

i

V

V

V

V

yy

yy

1)(

)ˆ(

2

2

2

2

ii

ii

T

R

T

E

yyV

V

V

V2

2

2

)(1

ˆ

ˆ1

ˆ

ˆˆ

2ˆˆ

ii

ii

yy

e

TSS

RSS

TSS

ESSR

2

2

2

)(11 2RR

25

Page 26: C4 C7 Econometrie 2015 CBalan

Raportul de determinaţie ajustat

Raportul de determinaţie ajustat:

Pt. k>1, Dacă numărul variabilelor independente

X creşte, R2 ajustat creşte mai puţin decât R2.

R2 ajustat poate lua şi valori negative, în timp ce R2 este întotdeauna pozitiv.

26

Page 27: C4 C7 Econometrie 2015 CBalan

7. Testarea indicatorilor de corelaţie

Raportul de determinaţie si raportul de corelatie se testează cu testul F după algoritmul prezentat la modelul liniar simplu, ţinând cont de faptul că k=p+1 reprezintă numărul parametrilor modelului multiplu.

Coeficienţii de corelaţie se testează cu ajutorul testului t , după algoritmul prezentat la modelul liniar simplu, ţinând cont de faptul că k=p+1 reprezintă numărul parametrilor modelului multiplu.

27

Page 28: C4 C7 Econometrie 2015 CBalan

Exemplu

28

Page 29: C4 C7 Econometrie 2015 CBalan

Exemplu

29

Page 30: C4 C7 Econometrie 2015 CBalan

Coeficienţii de corelaţiei parţială (de ordinul 2)

Page 31: C4 C7 Econometrie 2015 CBalan

8. Testarea influenţei marginale a unei variabile independente asupra variabilei dependente

1. Formularea ipotezelorH0: variabila independentă nou introdusă în model nu are o

influenţă semnificativă asupra variaţiei variabilei aleatoare

H1: variabila independentă nou introdusă în model are o influenţă semnificativă asupra variaţiei variabilei aleatoare

2. Fixarea pragului de semnificaţie α=0,05

3. Alegerea statisticii test : Statistica Fisher

31

Page 32: C4 C7 Econometrie 2015 CBalan

Testarea influenţei marginale a unei variabile independente

Pentru a testa influenţa marginală a unei variabile independente se foloseşte statistica Fisher:

unde: ESS – variaţia explicată pentru modelul 2, respectiv modelul 1 k – numărul parametrilor modelului 2 , respectiv modelului 1 RSS – variaţia reziduală pentru modelul 2.

2 1 2 1

2 2

(ESS ESS ) / (k k )

/ (n k )F

RSS

Page 33: C4 C7 Econometrie 2015 CBalan

Testarea influenţei marginale a unei variabile independente

O expresie echivalentă pentru statistica Fisher este următoarea:

unde: R2 – raportul de determinaţie pentru modelul 2,

respectiv modelul 1 k – numărul parametrilor modelului 2 , respectiv

modelului 1

2 22 1 2 1

22 2

( ) / (k k )

(1 ) / (n k )

R RF

R

Page 34: C4 C7 Econometrie 2015 CBalan

Testarea influenţei marginale a unei variabile independente asupra variabilei dependente

4. Regula de decizie:

Dacă Fcalc≤

=> se acceptă H0 cu o probabilitate de 1-α.

Dacă Fcalc>

=> se respinge H0 cu un risc asumat α.

2 1 2;(k k );(n k )F

2 1 2;(k k );(n k )F

34

Page 35: C4 C7 Econometrie 2015 CBalan

EXEMPLUL 1

S-a observat un eşantion de 540 angajaţi şi s-a înregistrat Nivelul studiilor (ani), Nivelul de cunoştinţe de specialitate (puncte) şi Salariul orar (USD).

Să se verifice dacă variabila Nivelul de cunoştinţe are influenţă semnificativă.

H0: variabila Nivel cunoştinţe nu are o influenţă semnificativă asupra Salariului.

H1: variabila Nivel cunoştinţe are o influenţă semnificativă asupra Salariului.

Page 36: C4 C7 Econometrie 2015 CBalan

Testarea influenţei marginale a unei variabile independente

ANOVAc

27757.307 1 27757.307 126.722 .000a

117843.8 538 219.041

145601.1 539

29054.251 2 14527.125 66.935 .000b

116546.9 537 217.033

145601.1 539

Regression

Residual

Total

Regression

Residual

Total

Model1

2

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), Studiia.

Predictors: (Constant), Studii, Nivel cunostinteb.

Dependent Variable: Salariulc.

Statistica Fisher este egală cu:

(29054,251 27757,307) / (3 2) 1296,944/1 1296,9445,976

116546,9 / (540 3) 116546,9 / 537 217,033F

2 1 2 1

2 2

(ESS ESS ) / (k k )

/ (n k )F

RSS

Page 37: C4 C7 Econometrie 2015 CBalan

Testarea influenţei marginale a unei variabile independente

Statistica Fisher este egală cu:

Model Summary

.437a .191 .189 14.80002

.447b .200 .197 14.73205

Model1

2

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), Studiia.

Predictors: (Constant), Studii, Nivel cunostinteb.

2 22 1 2 1

22 2

( ) / (k k )

(1 ) / (n k )

R RF

R

(0, 200 0,191) / (3 2) 0,009/1 0,0096

(1 0,200) / (540 3) 0,800 / 537 0,0015F

Page 38: C4 C7 Econometrie 2015 CBalan

Testarea influenţei marginale a unei variabile independente

2 1 2;(k k );(n k ) ;1;537 0,05;1;537 3,842F F F

Page 39: C4 C7 Econometrie 2015 CBalan

EXEMPLUL 2

Model Summary

.661a .436 .435 $12,833.540 .436 365.381 1 472 .000

.663b .439 .437 $12,815.280 .003 2.346 1 471 .126

Model1

2

R R SquareAdjustedR Square

Std. Error ofthe Estimate

R SquareChange F Change df1 df2 Sig. F Change

Change Statistics

Predictors: (Constant), Educational Level (years)a.

Predictors: (Constant), Educational Level (years), Months since Hireb.

H0: variabila Months since hire (Vechimea) nu are o influenţă semnificativă asupra Salariului.

H1: variabila Months since hire (Vechimea) are o influenţă semnificativă asupra Salariului.

Page 40: C4 C7 Econometrie 2015 CBalan

EXEMPLUL 2

Model Summary

.661a .436 .435 $12,833.540 .436 365.381 1 472 .000

.890b .792 .792 $7,796.524 .356 807.889 1 471 .000

Model1

2

R R SquareAdjustedR Square

Std. Error ofthe Estimate

R SquareChange F Change df1 df2 Sig. F Change

Change Statistics

Predictors: (Constant), Educational Level (years)a.

Predictors: (Constant), Educational Level (years), Beginning Salaryb.

H0: variabila Beginning Salary (Salariul la angajare) nu are o influenţă semnificativă asupra Salariului curent.

H1: variabila Beginning Salary (Salariul la angajare) are o influenţă semnificativă asupra Salariului curent.

Page 41: C4 C7 Econometrie 2015 CBalan

EXEMPLUL 2

Model Summary

.910a .828 .818 5.2961 .828 83.271 4 69 .000

.907b .822 .814 5.3542 -.006 2.544 1 69 .115

Model1

2

R R SquareAdjustedR Square

Std. Error ofthe Estimate

R SquareChange F Change df1 df2 Sig. F Change

Change Statistics

Predictors: (Constant), Average female life expectancy, People living in cities (%), Daily calorie intake, People who read (%)a.

Predictors: (Constant), Average female life expectancy, Daily calorie intake, People who read (%)b.

H0: variabila People living in cities (Populația din urban) nu are o influenţă semnificativă asupra Speranței de viață

H1: variabila People living in cities (Populația din urban) are o influenţă semnificativă asupra Speranței de viață

Page 42: C4 C7 Econometrie 2015 CBalan

9. Modele cu variabile standardizate

42

Page 43: C4 C7 Econometrie 2015 CBalan

Modele cu variabile standardizate

43

• Avantajul standardizării este acela că face posibilă compararea coeficienţilor de regresie din model, pentru că valorile standardizate ale factorilor sunt comparabile.

• Pentru comparaţie se consideră valoarea estimată a coeficienţilor în modul sau în valoare absolută.

•Fiecare coeficient arată impactul parţial al variaţiei cu o unitate a variabilei independente standardizate asupra variabilei dependente standardizate.

•În urma standardizării, discutăm despre variaţia în unităţi de abateri standard pentru fiecare variabilă.

• Valoarea coeficienţilor de regresie din modelul standardizat se interpretează ca unităţi de abateri standard pentru variabila dependentă.

•Cel mai mare coeficient în valoare absolută indică cea mai mare influenţă asupra variabilei dependente, iar semnul coeficientului arată sensul acestei influenţe.

Page 44: C4 C7 Econometrie 2015 CBalan

Exemplu

44