C4 regr lin multipla

download C4 regr lin multipla

of 20

  • date post

    03-Jul-2015
  • Category

    Documents

  • view

    50
  • download

    0

Embed Size (px)

Transcript of C4 regr lin multipla

  • 1. REGRESIA LINIAR MULTIPL C4. 1. Regresia prin origine 2. Prezentarea modelului liniar multiplu 3. Estimarea parametrilor modelului liniar multiplu 4. Testarea parametrilor modelului liniar multiplu1

2. Regresia prin origine (I) Situaii n care am putea construi un model de regresie prin origine: n urma testrii parametrilor modelului, parametrul 0 are o valoare nesemnificativ statistic, iar parametrul 1 este semnificativ statistic; Exist suport teoretic care s impun estimarea unui model care trece prin origine lipsa influenei variabilei independente conduce la o medie zero pentru variabila dependent (analiza de cost, legtura dintre lungimea i greutatea frunzelor unui copac).2 3. Regresia prin origine (II) Pentru un eantion de 100 de sturioni, se studiaz legtura dintre numrul de ou depuse i lungimea petelui.3 4. Regresia prin origine (III) n cazul modelului de regresie Y = 1 X + aplicarea metodei celor mai mici ptrate se simplific. Problema de minim care trebuie rezolvat este de forma:4 5. Regresia prin origine (IV) Estimatorul 1 este nedeplasat Avem n-1 grade de libertate Probleme ale utilizrii n practic: Suma erorilor nu mai este zero; R2 poate fi negativ sau poate avea o valoare foarte mare, prin urmare interpretarea acestuia nu mai are sens. Se utilizeaz o variant a lui R 2, i anume:Aceste probleme dispar dac modelul de regresie liniar are variabilele standardizate. n acest caz, panta dreptei de regresie are aceeai valoare cu coeficientul de corelaie Pearson. 5 6. Modelul liniar multiplu (I) Forma general a modelului liniar multiplu este dat prin relaia:Y = M ( Y / X ) + = 0 + 1 X 1 + 2 X 2 + ... + p X p + unde: Y - variabila dependent; X , X ,,X ,,X - variabile independente (predictori); 1 2 i p - variabil reziduu de modelare (variabila aleatoare); - parametrii modelului de regresie i k - numrul de parametri din model, k=p+1. Exemplu:Pentru un eantion de 50 de mrci de cereale, se poate studia legtura dintre ratingul acordat de consumatori unei mrci de cereale i factorii de influen (nr. de calorii, de grame de grsimi, de zahr, de fibre, etc.)6 7. Modelul liniar multiplu (II) Cei k parametri ai modelului liniar multiplu au urmtoarea semnificaie: valoarea medie a variabilei dependente Y, n condiiile 0 n care influena variabilelor independente ar fi nul; Y i = , i = 1, p X i- variaia absolut a variabileidependente la o variaie absolut cu o unitate a variabilei independente Xi, n condiiile n care influena celorlalte variabile independente este meninut constant. Arat influena parial a fiecrei variabile independente asupra variabilei dependente. 7 8. Modelul liniar multiplu (3) Ipotezele modelului clasic de regresie: -variabileleindependente sunt nestochastice-normalitateaerorilor : i ~ N (0, 2 )-homoscedasticitate:V ( i ) = M ( i2 ) = 2-necorelareacov( i , j ) = 0-lipsaerorilor:corelaiei dintre variabilele independente i variabilaeroare - lipsa coliniaritii sau a unei legturi liniare ntre variabilele independente 8 9. Estimarea parametrilor modelului multiplu liniar Se consider modelul de regresie liniar multipl cu dou variabile independente:y i = 0 + 1 x1i + 2 x 2 i + iLa nivelul unui eantion, modelul devine: y i = 0 + 1 x1i + 2 x 2 i + i sau y i = y i + i Rezult i = y i i = y i 0 1 x1i 2 x 2 i y Estimarea parametrilor modelului prin metoda celor mai mici ptrate presupune respectarea condiiei: n2 2 i = min im, adic ( y i 0 1 x1i 2 x 2 i ) = min imi =1i9 10. Estimarea parametrilor modelului multiplu liniar (II)Pentru satisfacerea condiiei MCMMP trebuie ca derivatele pariale de ordin I n raport cu coeficienii modelului s se anuleze. Astfel se va obine un sistem de 2+1=3 ecuaii cu 3 necunoscute. n + x + x = y n n n0 1 1i 2 2i i i =1i =1i =1n n x + x 2 + x x = y x n n 0 1i 1 1i 2 1i 2i i 1i i =1i =1i =1i =1nnnni =1i =1i =1i =12 0 x2i + 1 x1i x2i +2 x2i = yi x2i10 11. Estimarea parametrilor modelului multiplu liniar (III) Estimarea punctual a parametrilor modelului La nivelul unui eantion de date, sistemul de ecuaii devine: nnni =1i =1i =1nb0 + b1 x1i + b2 x2i = yi nnnni =1i =1i =1i =1nnni =1i =1i =1b0 x1i + b1 x + b2 x1i x2i = yi x1i 2 1inb0 x2i + b1 x1i x2i +b2 x = yi x2i 2 2ii =1Prin rezolvarea sistemului, se obin relaiile pentru estimaiile parametrilor modelului de regresie.Exemplu: Rating = 61.1 - 3.07 Grsimi - 2.21 Zahr 11 12. Estimarea parametrilor modelului multiplu liniar (IV) Estimareaparametrilor prin interval de ncredereIntervalele de ncredere sunt de forma: i [ i t / 2 ,n k i ]La nivelul unui eantion de date se obine un interval de forma:[ i bi t / 2,n k s , bi + t / 2,n k s ii]12 13. Testarea parametrilor modelului liniar multiplu (I) Testarea parametrilor modelului multiplu liniar se face la fel ca n cazul modelului simplu liniar: 1. Formularea ipotezelor: H0: i = 0 H 1: i 0 2. Alegerea pragului de semnificaie De regul, se asum un risc = 0,05. 3. Alegerea statisticii test i t= i13 14. Testarea parametrilor modelului liniar multiplu (II) 4. Valoarea teoretic a statisticii test Pentru pragul de semnificaie ales i v=n-k grade de libertate, se citete valoarea teoretic din tabela Student: t/2;n-k5. Valoarea calculat a statisticii test La nivelul eantionului se determin valoarea calculat a testului:t calcbi = s i6. Regula de decizie Dac t calc > t / 2 se respinge H0 Dact calc t / 2 se accept H0, pentru risc asumat de 5%. 14 15. Testarea parametrilor modelului liniar multiplu (III) n SPSS, decizia se ia pe baza semnificaiei testului (Sig.): - dac Sig t < , se respinge H0 -dac Sig t , se accept H0, pentru un nivel de ncredere de 95%. 7. Compararea celor dou valori ale statisticii test i luarea deciziei8. Interpretarea rezultatului testrii 15 16. Testarea modelului de regresie (I) Testarea modelului de regresie se realizeaz cu ajutorul testului F, dup urmtorul demers: 1. Formularea ipotezelor H0: 0=1==p=0 (modelul nu este semnificativ) H1: nu toi coeficienii sunt simultan zero 2. Alegerea pragului de semnificaie 3. Alegerea statisticii test VE n k 2 n k F= = k 1 1 2 k 1 ~F(k-1, n-k) VR 4. Valoarea teoretic a statisticii test: F , k-1, n-k 5. Valoarea calculat a testului:ESS n k R2 n k F= = 2 RSS k 1 1 R k 1 16 17. Testarea modelului de regresie (II) 6. Regula de decizie Dac Fcalc > Fk 1,n k se respinge H0 DacFcalc Fk 1,n k se accept H0, pentru risc asumat de 5%.n SPSS, decizia se ia pe baza semnificaiei testului (Sig.): - dac Sig F < , se respinge H0 -dac 95%.Sig F , se accept H , pentru un nivel de ncredere de 07. Compararea celor dou valori ale statisticii test i luarea deciziei 8. Interpretarea rezultatului testrii 17 18. EXEMPLU Pentru un eantion de mrci de cereale, se studiaz legtura dintre ratingul acordat de consumatori unei mrci de cereale i nr. de grame de grsimi, de zahr i de fibre.18 19. Model Summary Model 1R R Square a ,789 ,622Adjusted R Square ,612Std. Error of the Estimate 8,75456a. Predictors: (Constant), sugars, fat ANOVAb Model 1Regression Residual TotalSum of Squares 9325,268 5671,533 14996,800df 2 74 76Mean Square 4662,634 76,642F 60,836Sig. ,000aa. Predictors: (Constant), sugars, fat b. Dependent Variable: rating a CoefficientsModel 1(Constant) fat sugarsUnstandardized Coefficients B Std. Error 61,089 1,953 -3,066 1,036 -2,213 ,235Standardized Coefficients Beta -,220 -,700t 31,284 -2,958 -9,428Sig. ,000 ,004 ,000a. Dependent Variable: rating19 20. Model Summary Model 1R ,930aR Square ,865Adjusted R Square ,859Std. Error of the Estimate 5,35086a. Predictors: (Constant), fat, fiber, sugars ANOVAb Model 1Regression Residual TotalSum of Squares 12503,728 1946,958 14450,686dfMean Square 4167,909 28,6323 68 71F 145,570Sig. ,000aa. Predictors: (Constant), fat, fiber, sugars b. Dependent Variable: rating a CoefficientsModel 1(Constant) fiber sugars fatUnstandardized Coefficients B Std. Error 53,673 1,389 2,938 ,261 -1,992 ,150 -3,347 ,656Standardized Coefficients Beta ,507 -,622 -,238t 38,637 11,265 -13,238 -5,103Sig. ,000 ,000 ,000 ,000a. Dependent Variable: rating 20