Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no...
Transcript of Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no...
Regressió
> Rendiment en Matemàtiques,
> Nombre de llibres a casa
Pisa 2003
> Rendiment en Matemàtiques,
> Nombre de llibres a casa
Pisa 2003
Pisa 2003 Regressió Lineal ?
Pisa 2003 Regressió Lineal ?
Pisa 2003 Regressió Lineal ?
Regressió Lineal
Regression Model
Y = α + β X + ε
Ε (ε) = 0
V(ε)= σ2
Linear relation: y = 1 + .6 X
Linear relation and sample data
Sample Data: Scatterplot
Fitted Regression
FYi = 1.02 + .64 Xi , R2=.74 s.e.: (.037) t-value: 17.07
Regression coeficient of X is significant (5% significance level), with the expected value of Y icreasing .64 for each unit increase of X. The 95% confidence interval for the regression coefficient is
[.64-1.96*.037, . .64+1.96*.037]=[.57, .71]
74% of the variation of Y is explained by the variation of X
Regression analysis with SPSS
Estimación
Fitted regression line
Residual plot
Variació Mostral
Fitted regression line a= 0.5789 b=0.6270
Fitted and true regression lines: a= 0.5789 b=0.6270 α=1, β=.6
Fitted regression line:
a= 1.0232203, b= 0.6436286 α=1, β=.6
Fitted and true regression lines in repeated (20) sampling
α=1, β=.6
Correlació lineal
Scatterplot for various values of correlation
ALERTA! : r = 0 , tot i que hi ha una relació funcional exacta (no lineal!)
> cbind(x,y) x y [1,] -10 100 [2,] -9 81 [3,] -8 64 [4,] -7 49 [5,] -6 36 [6,] -5 25 [7,] -4 16 [8,] -3 9 [9,] -2 4 [10,] -1 1 [11,] 0 0 [12,] 1 1 [13,] 2 4 [14,] 3 9 [15,] 4 16 [16,] 5 25 [17,] 6 36 [18,] 7 49 [19,] 8 64 [20,] 9 81 [21,] 10 100 >
Tipus d’associació
Diagrama de dispersió
• Aquesta és una relació lineal.
– Associació positiva: comforme creix el percentatge de BA’s creix ingressos per càpita
Recta de regressió • La recta de regressió és la de millor ajust al conjunt de punts. • La fem servir per descriure l’associació entre les dues variables. • Si tots els punts cauen sobre la recta, direm que tenim una relació lineal perfecta.
Coefficients de regressió
• El coeficient de regressió NO és un bon indicador de la intensitat de la relació • Dos diagrames de dispersió amb diferents dispersions poden produir la mateixa recta de regressió.
Coeficients de regressió
• El coeficient de regressió és el pendent de la recta de regressió, expressa la naturalesa d’ associació positiva o negativa entre les dues variables.
• Quantifica la magnitud del impacte d’un canvi de la variable independent sobre la variable dependent.
• Quan més gran és el coeficient de regressió més gran és aquest canvi.
Diagrames de dispersió • L’anàlisi de regressió empra variables
quantiatives. • Previ a l’anàlisi de regressió és interessant
inspeccionar gràfics de dispersió – Per què?
• L’anàlisi de regressió assumeix que la relació és lineal. Si observeu relació curvilinea …?
Graphing Relationships
Matrixplot to make a plot of a lot of variables
Specify variables
Graphing Relationships
Result in output window
Graphing Relationships
You can edit the Graph like you edited a table by opening the graph (click with right mouse button on the graph and choose Open)
Graphing Relationships
Graphing Relationships Now choose Chart | Options
Graphing Relationships Then ask for a fit line
Graphing Relationships Some remarks:
- GDP is related in a non linear way with other variables
- variable Aids Cases we have a very influential point (not an outlier, but influential!)
- correlation between female life expectation and male life expectation is almost 1
Causalitat: coses que cal recordar • La regressió descriu associació, no causalitat. • L’associació és requisit indispensable per inferir
causalitat, també: 1. Les variables independents han de precedir (en el
temps) la variable dependent. 2. Les dues variables tenen una relació en teoria
(relació lineal o curvilínea). 3. Variables independents complementàries han de ser
excloses
Regressió Múltiple
Efecto de Cultural Possession of the family
Per edat
Gènere
1 is Female, 2 is Male
Coeficient de correlació de Pearson
• Per determinar la intensitat de la relació mirem la proximitat dels punts a la recta de regressió (distància vertical). Quan més a prop, més intensa és la relació; quan més lluny, més lleu és la relació.
• El coeficient de correlació de Pearson r varia entre -1 a + 1; 0 expressa que no hi ha cap relació lineal, -1 o +1 expressa que hi ha una relació lineal exacte.
Lectura de les taules
• Quan feu la regressió amb SPSS obteniu tres taules. Cada una d’elles expressa uns aspectes concrets de l’anàlisi: • La primera taula fa referència al resum de l’ajust del model. R és el valor absolut (sense signe) del coeficient de correlació de Pearson entre la variable Y i la predicció de Y emprant totes les variables explicatives. En el nostre cas, R és .736
R-quadrat
• R-quadrat: proporció de variància de la variable dependent (ingressos per càpita) explicada pel conjunt de les variables explicatives, en aquest cas el nivell d’educació. • Observem que el 54.2% de la variable ingressos per càpita és explicada per la variació de la variable educació. Noteu que aquesta una mesura conjunta de la intensitat de la associació entre la Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square) s’anomena també coeficient de determinació del model regressió.
R-quadrat ajustat
• Com més predictors posem al model, més augmenta el R2. Aquest augment però pot ser només degut a l’atzar.
• El adjusted R-square intenta donar un impressió més honesta del R-quadrat. El valor R-square era .542, mentre que el valor Adjusted R-square era .532. No hi ha molta diferència, ja que només tenim una sola variable.
• Quan el nombre d’observacions és petit, i el nombre de variables és gran, poden observar diferències més substancials entre els dos R2.
• Quan el nombre d’observacions és molt gran, en comparació amb el nombre de variables, les diferències entre aquests dos coeficients serà petita.
ANOVA
• El p-valor associat al valor – F d’ aquesta taula és molt petit: 0.0000 • Aqusts valors atenen a la pregunta: “les variables independents són significatives com a predictores de Y?”
• El valor – p l’heu de comparar amb el vostre nivell- alpha (sovint 0.05) . Si és més petit, la conclusió és que “Si, les variables independents prediuen de manera significativa la variable dependent Y”.
• Si el valor-p és més gran que 0.05, aleshores direm que el conjunt de les variables explivatives no mostren relació estadística (o significativa) amb Y.
Coeficients
• B – Aquests són els valors dels coeficients de la recta de regressió.
• Aquests s’anomen coeficients no-estandarditzats, són mesurats en la seva escala original, no poden comparar-se uns amb els altres, donats que varien amb l’escala de mesura de les variables.
Coeficients
• Aquesta taula correspon a un model amb dues variables explicatives. Mostra la necessitat de mirar els valors estandarditzats per investigar efectes relatius.
Coeficients
• Beta – aquests són els coeficients estandarditzats • Són els coeficients de regressió que obtindriem si estandarditzesim totes les variables, inclose la Y. • Estandarditzar totes les variables vol dir posar-les en la mateixa escala de mesura, de manera que amb els beta podem veure el impacte relatiu de les diferents variables. • Fixeu-vos que com més gran és el beta més gran és el seu valor t.
Interpretació de la taula de coeficients
Regression Analysis Level of Education by Income per capita
b i residus • b és el pendent de la recta de regressió
– Es el canvi esperat de Y por una unitad de canvi en X, ceteris paribus la resta de factors.
– La diferència entre el valor de Y i el valor estimata s’anomena residu, és desviació no explicada de Y respecta la funció de X definida pel model.
Comparació de variables
• Regressió serveix per comparar el impacte de les diferents variables explicatives en la variable Y
• Per la primera variable explicativa, educació, veiem que a més anys d’educació més augmenta la renta per capita en l’estat.
• La segona variable explicativa l’hem inclosa perque esperem treballs més ben remunerats en estats amb més zona urbana.
Simple
Regressió simple
Regressió Múltiple
Exemple de l’Anàlisi de Regressió
Dades de paisos.sav
SPSS Options Make your SPSS life easy with Edit | Options
For instance by using the session journal file as a syntax file…
Graphing Relationships Let’s try to transform gdp_cap in order to get linear relationships with other variables.
First let’s look at the distribution of gdp_cap with a histogram:
We need to bring values on the right closer to values on the left. We might try a LN transformation…
Transforming variables
Transforming variables The histogram of transformed variable is:
Transforming variables
Note: you probably want to make a variable lifeexp out of life expectancy males and life expectancy females:
Tip: use function Mean in stead of using the ‘+’ and dividing by 2
Transforming variables Relationships are nicely linear !
Transformació de variables
Matrix Plot
Plot matricial de les variables transformades
Anàlisi de Regressió REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT espvida /METHOD=ENTER calories logpib logmetg /PARTIALPLOT ALL /SCATTERPLOT=(*ZRESID ,*ZPRED ) /SAVE RESID .
Anàlisi de Regressió
Residus vs y ajustada:
Gràfic dels residus
Gràfic de regressió parcial
Gràfic de regressió parcial
Gràfic de regressió parcial
Regressio amb variables transformades
Anàlisi de Regressió REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT espvida /METHOD=ENTER calories logpib logmetg cal2 /PARTIALPLOT ALL /SCATTERPLOT=(*ZRESID ,*ZPRED ) /SAVE RESID .
Case statistics
Case missfit Potential for influence: Leverage Influence
Regression: Outliers, basic idea Outlier
Outliers
Influential Points
Influential Points
Outliers
Outliers
Saving residuals
Influential Points
Saving distances and influence measures as variables
MULTICOLLINEARITY
Diagnostic tools
Regression: Multicollinearity
• If predictors correlate “high”, then we speak of multicollinearity
• Is this a problem? If you want to asess the influence of each predictor, yes it is, because: – Standarderrors blow up, making coefficients not-
significant
Analyzing math data . use "G:\Albert\COURSES\cursDAS\AS2003b\data\mat.dta", clear
. save "G:\Albert\COURSES\CursMetEstad\Curs2004\Metodes\mathdata.dta" file G:\Albert\COURSES\CursMetEstad\Curs2004\Metodes\mathdata.dta saved
. edit - preserve
. gen perform = (nt_m1+ nt_m2+ nt_m3)/3 (110 missing values generated)
. corr perform nt_paau nt_acces nt_exp (obs=189)
| perform nt_paau nt_acces nt_exp ---------+------------------------------------ perform | 1.0000 nt_paau | 0.3535 1.0000 nt_acces | 0.5057 0.8637 1.0000 nt_exp | 0.5002 0.3533 0.7760 1.0000
. outfile nt_exp nt_paau nt_acces perform using "G:\Albert\COURSES\CursMetEsta > d\Curs2004\Metodes\mathdata.dat"
.
Multiple regression: perform vs nt_acces nt_paau
. regress perform nt_acces nt_paau
Source | SS df MS Number of obs = 245 ---------+------------------------------ F( 2, 242) = 31.07 Model | 71.1787647 2 35.5893823 Prob > F = 0.0000 Residual | 277.237348 242 1.14560888 R-squared = 0.2043 ---------+------------------------------ Adj R-squared = 0.1977 Total | 348.416112 244 1.42793489 Root MSE = 1.0703
------------------------------------------------------------------------------ perform | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- nt_acces | 1.272819 .2427707 5.243 0.000 .7946054 1.751032 nt_paau | -.2755092 .1835091 -1.501 0.135 -.6369882 .0859697 _cons | -1.513124 .9729676 -1.555 0.121 -3.42969 .4034425 ------------------------------------------------------------------------------
. Perform = rendiment a mates I a III
Collinearity
Diagnostics for multicollinearity . corre nt_paau nt_exp nt_acces (obs=276)
| nt_paau nt_exp nt_acces --------+--------------------------- nt_paau| 1.0000 nt_exp| 0.3435 1.0000 nt_acces| 0.8473 0.7890 1.0000
. fit perform nt_paau nt_exp nt_access
. vif
Variable | VIF 1/VIF ---------+---------------------- nt_acces | 1201.85 0.000832 nt_paau | 514.27 0.001945 nt_exp | 384.26 0.002602 ---------+---------------------- Mean VIF | 700.13
.
Any explanatory variable with a VIF greater than 5 (or tolerance less than .2) show a degree of collinearity that may be Problematic
This ratio is called Tolerance
In the case of just nt_paau an nt_exp we Get
. vif Variable | VIF 1/VIF ---------+---------------------- nt_exp | 1.14 0.875191 nt_paau | 1.14 0.875191 ---------+---------------------- Mean VIF | 1.14
.
VIF = 1/(1 – Rj2)
Multiple regression: perform vs nt_paau nt_exp
. regress perform nt_paau nt_exp
Source | SS df MS Number of obs = 189 ---------+------------------------------ F( 2, 186) = 37.24 Model | 75.2441994 2 37.6220997 Prob > F = 0.0000 Residual | 187.897174 186 1.01019986 R-squared = 0.2859 ---------+------------------------------ Adj R-squared = 0.2783 Total | 263.141373 188 1.39968815 Root MSE = 1.0051
------------------------------------------------------------------------------ perform | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- nt_paau | .3382551 .1109104 3.050 0.003 .119451 .5570593 nt_exp | .9040681 .1396126 6.476 0.000 .6286403 1.179496 _cons | -3.295308 1.104543 -2.983 0.003 -5.474351 -1.116266 ------------------------------------------------------------------------------
. predict yh (option xb assumed; fitted values) (82 missing values generated)
. predict e, resid (169 missing values generated)
.
. corr nt_exp nt_paau nt_acces (obs=276)
| nt_exp nt_paau nt_acces ---------+--------------------------- nt_exp | 1.0000 nt_paau | 0.3435 1.0000 nt_acces | 0.7890 0.8473 1.0000
Regression: Multicollinearity, Indicators
Indicator description Rule of thumb (when “wrong”)
Overall F_Test versus test coefficients
Overall F-Test is significant, but individual coefficients are not
-
Beta Standardized coefficient Outside [-1, +1]
Tolerance Tolerance = unique variance of a predictor (not shared/explained by other predictors) … NB: Tolerance per coefficient
< 0.01
Variantie Inflation Factor
√ VIF indicates how much the standard error of a particular coefficient is inflated due to correlatation between this particular predictor and the other predictors NB: VIF per coefficient
>10
Eigenvalues …rather technical… +/- 0
Condition Index …rather technical… > 30
Variance Proportion …rather technical…look tot “loadings” on the dimensions
Loadings around 1
Regression: Multicollinearity, in SPSS
diagnostics
Regression: Multicollineariteit, in SPSS
Beta > 1 Tolerance, VIF in orde
Regressie: Multicollineariteit, in SPSS
2 eigenwaarden rond 0 Deze variabelen zorgen voor multicoll. CI in orde
Regression: Multicollinearity, what to do?
• Nothing… (if there is no interest in the individual coefficients, only in good prediction)
• Leave one (or more) predictor(s) out • Use PCA to reduce high correlated variables to
smaller number of uncorrelated variables
Multicollinearity
Multicollinearity
Multicollinearity
Multicollinearity
Diagnostics
Variables Categòriques
Use: Use http://www.econ.upf.edu/~satorra/M/survey_sample.sav
Salari vs gènere | anys d’educació status de treball
Creació de variables dicotòmiques
GET FILE='G:\Albert\Web\Metodes2005\Dades\survey_sample.sav'.
COMPUTE D1 = wrkstat=1. EXECUTE . COMPUTE D2 = wrkstat=2. EXECUTE . COMPUTE D3 = wrkstat=3. EXECUTE . COMPUTE D4 = wrkstat=4. EXECUTE . COMPUTE D5 = wrkstat=5. EXECUTE . COMPUTE D6 = wrkstat=6. EXECUTE . COMPUTE D7 = wrkstat=7. EXECUTE . COMPUTE D8 = wrkstat=8. EXECUTE .
Regressió en blocks REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA CHANGE
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT rincome
/METHOD=ENTER sex
/METHOD=ENTER d2 d3 d4 d5 d6 d7 d8 .
Regressió en blocks REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA CHANGE
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT rincome
/METHOD=ENTER sex
/METHOD=ENTER educ
/METHOD=ENTER d2 d3 d4 d5 d6 d7 d8 .
Categorical Predictors
Is income dependent on years of age and religion ?
Categorical Predictors Compute dummy variable for each category, except last
Categorical Predictors
And so on…
Categorical Predictors Block 1
Categorical Predictors Block 2
Categorical Predictors Ask for R2 change
Categorical Predictors Look at R Square
change for importance of
categorical variable
For more on regression, see:
http://www.ats.ucla.edu/stat/spss/webbooks/reg/chapter1/annotated1.htm
http://www.ats.ucla.edu/stat/spss/webbooks/reg/chapter1/spssreg1.htm