Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no...

113
Regressió

Transcript of Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no...

Page 1: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Regressió

Page 2: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

> Rendiment en Matemàtiques,

> Nombre de llibres a casa

Pisa 2003

Page 3: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

> Rendiment en Matemàtiques,

> Nombre de llibres a casa

Pisa 2003

Page 4: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Pisa 2003 Regressió Lineal ?

Page 5: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Pisa 2003 Regressió Lineal ?

Page 6: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Pisa 2003 Regressió Lineal ?

Page 7: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Regressió Lineal

Page 8: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Regression Model

Y = α + β X + ε

Ε (ε) = 0

V(ε)= σ2

Page 9: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Linear relation: y = 1 + .6 X

Page 10: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Linear relation and sample data

Page 11: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Sample Data: Scatterplot

Page 12: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Fitted Regression

FYi = 1.02 + .64 Xi , R2=.74 s.e.: (.037) t-value: 17.07

Regression coeficient of X is significant (5% significance level), with the expected value of Y icreasing .64 for each unit increase of X. The 95% confidence interval for the regression coefficient is

[.64-1.96*.037, . .64+1.96*.037]=[.57, .71]

74% of the variation of Y is explained by the variation of X

Page 13: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Regression analysis with SPSS

Page 14: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Estimación

Page 15: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Fitted regression line

Page 16: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Residual plot

Page 17: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Variació Mostral

Page 18: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Fitted regression line a= 0.5789 b=0.6270

Page 19: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Fitted and true regression lines: a= 0.5789 b=0.6270 α=1, β=.6

Page 20: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Fitted regression line:

a= 1.0232203, b= 0.6436286 α=1, β=.6

Page 21: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Fitted and true regression lines in repeated (20) sampling

α=1, β=.6

Page 22: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Correlació lineal

Page 23: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Scatterplot for various values of correlation

Page 24: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

ALERTA! : r = 0 , tot i que hi ha una relació funcional exacta (no lineal!)

> cbind(x,y) x y [1,] -10 100 [2,] -9 81 [3,] -8 64 [4,] -7 49 [5,] -6 36 [6,] -5 25 [7,] -4 16 [8,] -3 9 [9,] -2 4 [10,] -1 1 [11,] 0 0 [12,] 1 1 [13,] 2 4 [14,] 3 9 [15,] 4 16 [16,] 5 25 [17,] 6 36 [18,] 7 49 [19,] 8 64 [20,] 9 81 [21,] 10 100 >

Page 25: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Tipus d’associació

Page 26: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Diagrama de dispersió

• Aquesta és una relació lineal.

– Associació positiva: comforme creix el percentatge de BA’s creix ingressos per càpita

Page 27: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Recta de regressió • La recta de regressió és la de millor ajust al conjunt de punts. •  La fem servir per descriure l’associació entre les dues variables. • Si tots els punts cauen sobre la recta, direm que tenim una relació lineal perfecta.

Page 28: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Coefficients de regressió

• El coeficient de regressió NO és un bon indicador de la intensitat de la relació • Dos diagrames de dispersió amb diferents dispersions poden produir la mateixa recta de regressió.

Page 29: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Coeficients de regressió

•  El coeficient de regressió és el pendent de la recta de regressió, expressa la naturalesa d’ associació positiva o negativa entre les dues variables.

• Quantifica la magnitud del impacte d’un canvi de la variable independent sobre la variable dependent.

• Quan més gran és el coeficient de regressió més gran és aquest canvi.

Page 30: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Diagrames de dispersió •  L’anàlisi de regressió empra variables

quantiatives. •  Previ a l’anàlisi de regressió és interessant

inspeccionar gràfics de dispersió – Per què?

• L’anàlisi de regressió assumeix que la relació és lineal. Si observeu relació curvilinea …?

Page 31: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Graphing Relationships

Matrixplot to make a plot of a lot of variables

Page 32: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Specify variables

Graphing Relationships

Page 33: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Result in output window

Graphing Relationships

Page 34: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

You can edit the Graph like you edited a table by opening the graph (click with right mouse button on the graph and choose Open)

Graphing Relationships

Page 35: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Graphing Relationships Now choose Chart | Options

Page 36: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Graphing Relationships Then ask for a fit line

Page 37: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Graphing Relationships Some remarks:

- GDP is related in a non linear way with other variables

-  variable Aids Cases we have a very influential point (not an outlier, but influential!)

-  correlation between female life expectation and male life expectation is almost 1

Page 38: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Causalitat: coses que cal recordar •  La regressió descriu associació, no causalitat. •  L’associació és requisit indispensable per inferir

causalitat, també: 1.  Les variables independents han de precedir (en el

temps) la variable dependent. 2.  Les dues variables tenen una relació en teoria

(relació lineal o curvilínea). 3.  Variables independents complementàries han de ser

excloses

Page 39: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Regressió Múltiple

Page 40: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Efecto de Cultural Possession of the family

Page 41: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Per edat

Page 42: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Gènere

1 is Female, 2 is Male

Page 43: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Coeficient de correlació de Pearson

•  Per determinar la intensitat de la relació mirem la proximitat dels punts a la recta de regressió (distància vertical). Quan més a prop, més intensa és la relació; quan més lluny, més lleu és la relació.

•  El coeficient de correlació de Pearson r varia entre -1 a + 1; 0 expressa que no hi ha cap relació lineal, -1 o +1 expressa que hi ha una relació lineal exacte.

Page 44: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Lectura de les taules

• Quan feu la regressió amb SPSS obteniu tres taules. Cada una d’elles expressa uns aspectes concrets de l’anàlisi: •  La primera taula fa referència al resum de l’ajust del model. R és el valor absolut (sense signe) del coeficient de correlació de Pearson entre la variable Y i la predicció de Y emprant totes les variables explicatives. En el nostre cas, R és .736

Page 45: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

R-quadrat

• R-quadrat: proporció de variància de la variable dependent (ingressos per càpita) explicada pel conjunt de les variables explicatives, en aquest cas el nivell d’educació. • Observem que el 54.2% de la variable ingressos per càpita és explicada per la variació de la variable educació. Noteu que aquesta una mesura conjunta de la intensitat de la associació entre la Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. •  R-quadrat (R-Square) s’anomena també coeficient de determinació del model regressió.

Page 46: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

R-quadrat ajustat

• Com més predictors posem al model, més augmenta el R2. Aquest augment però pot ser només degut a l’atzar.

• El adjusted R-square intenta donar un impressió més honesta del R-quadrat. El valor R-square era .542, mentre que el valor Adjusted R-square era .532. No hi ha molta diferència, ja que només tenim una sola variable.

•  Quan el nombre d’observacions és petit, i el nombre de variables és gran, poden observar diferències més substancials entre els dos R2.

• Quan el nombre d’observacions és molt gran, en comparació amb el nombre de variables, les diferències entre aquests dos coeficients serà petita.

Page 47: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

ANOVA

• El p-valor associat al valor – F d’ aquesta taula és molt petit: 0.0000 • Aqusts valors atenen a la pregunta: “les variables independents són significatives com a predictores de Y?”

• El valor – p l’heu de comparar amb el vostre nivell- alpha (sovint 0.05) . Si és més petit, la conclusió és que “Si, les variables independents prediuen de manera significativa la variable dependent Y”.

• Si el valor-p és més gran que 0.05, aleshores direm que el conjunt de les variables explivatives no mostren relació estadística (o significativa) amb Y.

Page 48: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Coeficients

• B – Aquests són els valors dels coeficients de la recta de regressió.

• Aquests s’anomen coeficients no-estandarditzats, són mesurats en la seva escala original, no poden comparar-se uns amb els altres, donats que varien amb l’escala de mesura de les variables.

Page 49: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Coeficients

• Aquesta taula correspon a un model amb dues variables explicatives. Mostra la necessitat de mirar els valors estandarditzats per investigar efectes relatius.

Page 50: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Coeficients

• Beta – aquests són els coeficients estandarditzats • Són els coeficients de regressió que obtindriem si estandarditzesim totes les variables, inclose la Y. • Estandarditzar totes les variables vol dir posar-les en la mateixa escala de mesura, de manera que amb els beta podem veure el impacte relatiu de les diferents variables. • Fixeu-vos que com més gran és el beta més gran és el seu valor t.

Page 51: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Interpretació de la taula de coeficients

Regression Analysis Level of Education by Income per capita

Page 52: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

b i residus •  b és el pendent de la recta de regressió

– Es el canvi esperat de Y por una unitad de canvi en X, ceteris paribus la resta de factors.

– La diferència entre el valor de Y i el valor estimata s’anomena residu, és desviació no explicada de Y respecta la funció de X definida pel model.

Page 53: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Comparació de variables

•  Regressió serveix per comparar el impacte de les diferents variables explicatives en la variable Y

•  Per la primera variable explicativa, educació, veiem que a més anys d’educació més augmenta la renta per capita en l’estat.

•  La segona variable explicativa l’hem inclosa perque esperem treballs més ben remunerats en estats amb més zona urbana.

Page 54: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Simple

Page 55: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Regressió simple

Regressió Múltiple

Page 56: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Exemple de l’Anàlisi de Regressió

Dades de paisos.sav

Page 57: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

SPSS Options Make your SPSS life easy with Edit | Options

For instance by using the session journal file as a syntax file…

Page 58: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Graphing Relationships Let’s try to transform gdp_cap in order to get linear relationships with other variables.

First let’s look at the distribution of gdp_cap with a histogram:

We need to bring values on the right closer to values on the left. We might try a LN transformation…

Page 59: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Transforming variables

Page 60: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Transforming variables The histogram of transformed variable is:

Page 61: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Transforming variables

Note: you probably want to make a variable lifeexp out of life expectancy males and life expectancy females:

Tip: use function Mean in stead of using the ‘+’ and dividing by 2

Page 62: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Transforming variables Relationships are nicely linear !

Page 63: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Transformació de variables

Page 64: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Matrix Plot

Page 65: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Plot matricial de les variables transformades

Page 66: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Anàlisi de Regressió REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT espvida /METHOD=ENTER calories logpib logmetg /PARTIALPLOT ALL /SCATTERPLOT=(*ZRESID ,*ZPRED ) /SAVE RESID .

Page 67: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Anàlisi de Regressió

Page 68: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Residus vs y ajustada:

Page 69: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Gràfic dels residus

Page 70: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Gràfic de regressió parcial

Page 71: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Gràfic de regressió parcial

Page 72: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Gràfic de regressió parcial

Page 73: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Regressio amb variables transformades

Page 74: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Anàlisi de Regressió REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT espvida /METHOD=ENTER calories logpib logmetg cal2 /PARTIALPLOT ALL /SCATTERPLOT=(*ZRESID ,*ZPRED ) /SAVE RESID .

Page 75: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Case statistics

Case missfit Potential for influence: Leverage Influence

Page 76: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Regression: Outliers, basic idea Outlier

Page 77: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Outliers

Page 78: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Influential Points

Page 79: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Influential Points

Page 80: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Outliers

Page 81: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Outliers

Saving residuals

Page 82: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Influential Points

Saving distances and influence measures as variables

Page 83: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

MULTICOLLINEARITY

Diagnostic tools

Page 84: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Regression: Multicollinearity

•  If predictors correlate “high”, then we speak of multicollinearity

•  Is this a problem? If you want to asess the influence of each predictor, yes it is, because: – Standarderrors blow up, making coefficients not-

significant

Page 85: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Analyzing math data . use "G:\Albert\COURSES\cursDAS\AS2003b\data\mat.dta", clear

. save "G:\Albert\COURSES\CursMetEstad\Curs2004\Metodes\mathdata.dta" file G:\Albert\COURSES\CursMetEstad\Curs2004\Metodes\mathdata.dta saved

. edit - preserve

. gen perform = (nt_m1+ nt_m2+ nt_m3)/3 (110 missing values generated)

. corr perform nt_paau nt_acces nt_exp (obs=189)

| perform nt_paau nt_acces nt_exp ---------+------------------------------------ perform | 1.0000 nt_paau | 0.3535 1.0000 nt_acces | 0.5057 0.8637 1.0000 nt_exp | 0.5002 0.3533 0.7760 1.0000

. outfile nt_exp nt_paau nt_acces perform using "G:\Albert\COURSES\CursMetEsta > d\Curs2004\Metodes\mathdata.dat"

.

Page 86: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)
Page 87: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Multiple regression: perform vs nt_acces nt_paau

. regress perform nt_acces nt_paau

Source | SS df MS Number of obs = 245 ---------+------------------------------ F( 2, 242) = 31.07 Model | 71.1787647 2 35.5893823 Prob > F = 0.0000 Residual | 277.237348 242 1.14560888 R-squared = 0.2043 ---------+------------------------------ Adj R-squared = 0.1977 Total | 348.416112 244 1.42793489 Root MSE = 1.0703

------------------------------------------------------------------------------ perform | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- nt_acces | 1.272819 .2427707 5.243 0.000 .7946054 1.751032 nt_paau | -.2755092 .1835091 -1.501 0.135 -.6369882 .0859697 _cons | -1.513124 .9729676 -1.555 0.121 -3.42969 .4034425 ------------------------------------------------------------------------------

. Perform = rendiment a mates I a III

Page 88: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Collinearity

Page 89: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Diagnostics for multicollinearity . corre nt_paau nt_exp nt_acces (obs=276)

| nt_paau nt_exp nt_acces --------+--------------------------- nt_paau| 1.0000 nt_exp| 0.3435 1.0000 nt_acces| 0.8473 0.7890 1.0000

. fit perform nt_paau nt_exp nt_access

. vif

Variable | VIF 1/VIF ---------+---------------------- nt_acces | 1201.85 0.000832 nt_paau | 514.27 0.001945 nt_exp | 384.26 0.002602 ---------+---------------------- Mean VIF | 700.13

.

Any explanatory variable with a VIF greater than 5 (or tolerance less than .2) show a degree of collinearity that may be Problematic

This ratio is called Tolerance

In the case of just nt_paau an nt_exp we Get

. vif Variable | VIF 1/VIF ---------+---------------------- nt_exp | 1.14 0.875191 nt_paau | 1.14 0.875191 ---------+---------------------- Mean VIF | 1.14

.

VIF = 1/(1 – Rj2)

Page 90: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Multiple regression: perform vs nt_paau nt_exp

. regress perform nt_paau nt_exp

Source | SS df MS Number of obs = 189 ---------+------------------------------ F( 2, 186) = 37.24 Model | 75.2441994 2 37.6220997 Prob > F = 0.0000 Residual | 187.897174 186 1.01019986 R-squared = 0.2859 ---------+------------------------------ Adj R-squared = 0.2783 Total | 263.141373 188 1.39968815 Root MSE = 1.0051

------------------------------------------------------------------------------ perform | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- nt_paau | .3382551 .1109104 3.050 0.003 .119451 .5570593 nt_exp | .9040681 .1396126 6.476 0.000 .6286403 1.179496 _cons | -3.295308 1.104543 -2.983 0.003 -5.474351 -1.116266 ------------------------------------------------------------------------------

. predict yh (option xb assumed; fitted values) (82 missing values generated)

. predict e, resid (169 missing values generated)

.

. corr nt_exp nt_paau nt_acces (obs=276)

| nt_exp nt_paau nt_acces ---------+--------------------------- nt_exp | 1.0000 nt_paau | 0.3435 1.0000 nt_acces | 0.7890 0.8473 1.0000

Page 91: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Regression: Multicollinearity, Indicators

Indicator description Rule of thumb (when “wrong”)

Overall F_Test versus test coefficients

Overall F-Test is significant, but individual coefficients are not

-

Beta Standardized coefficient Outside [-1, +1]

Tolerance Tolerance = unique variance of a predictor (not shared/explained by other predictors) … NB: Tolerance per coefficient

< 0.01

Variantie Inflation Factor

√ VIF indicates how much the standard error of a particular coefficient is inflated due to correlatation between this particular predictor and the other predictors NB: VIF per coefficient

>10

Eigenvalues …rather technical… +/- 0

Condition Index …rather technical… > 30

Variance Proportion …rather technical…look tot “loadings” on the dimensions

Loadings around 1

Page 92: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Regression: Multicollinearity, in SPSS

diagnostics

Page 93: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Regression: Multicollineariteit, in SPSS

Beta > 1 Tolerance, VIF in orde

Page 94: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Regressie: Multicollineariteit, in SPSS

2 eigenwaarden rond 0 Deze variabelen zorgen voor multicoll. CI in orde

Page 95: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Regression: Multicollinearity, what to do?

• Nothing… (if there is no interest in the individual coefficients, only in good prediction)

•  Leave one (or more) predictor(s) out • Use PCA to reduce high correlated variables to

smaller number of uncorrelated variables

Page 96: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Multicollinearity

Page 97: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Multicollinearity

Page 98: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Multicollinearity

Page 99: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Multicollinearity

Diagnostics

Page 100: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Variables Categòriques

Use: Use http://www.econ.upf.edu/~satorra/M/survey_sample.sav

Page 101: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Salari vs gènere | anys d’educació status de treball

Page 102: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Creació de variables dicotòmiques

GET FILE='G:\Albert\Web\Metodes2005\Dades\survey_sample.sav'.

COMPUTE D1 = wrkstat=1. EXECUTE . COMPUTE D2 = wrkstat=2. EXECUTE . COMPUTE D3 = wrkstat=3. EXECUTE . COMPUTE D4 = wrkstat=4. EXECUTE . COMPUTE D5 = wrkstat=5. EXECUTE . COMPUTE D6 = wrkstat=6. EXECUTE . COMPUTE D7 = wrkstat=7. EXECUTE . COMPUTE D8 = wrkstat=8. EXECUTE .

Page 103: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Regressió en blocks REGRESSION

/MISSING LISTWISE

/STATISTICS COEFF OUTS R ANOVA CHANGE

/CRITERIA=PIN(.05) POUT(.10)

/NOORIGIN

/DEPENDENT rincome

/METHOD=ENTER sex

/METHOD=ENTER d2 d3 d4 d5 d6 d7 d8 .

Page 104: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)
Page 105: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Regressió en blocks REGRESSION

/MISSING LISTWISE

/STATISTICS COEFF OUTS R ANOVA CHANGE

/CRITERIA=PIN(.05) POUT(.10)

/NOORIGIN

/DEPENDENT rincome

/METHOD=ENTER sex

/METHOD=ENTER educ

/METHOD=ENTER d2 d3 d4 d5 d6 d7 d8 .

Page 106: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Categorical Predictors

Is income dependent on years of age and religion ?

Page 107: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Categorical Predictors Compute dummy variable for each category, except last

Page 108: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Categorical Predictors

And so on…

Page 109: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Categorical Predictors Block 1

Page 110: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Categorical Predictors Block 2

Page 111: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Categorical Predictors Ask for R2 change

Page 112: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

Categorical Predictors Look at R Square

change for importance of

categorical variable

Page 113: Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. • R-quadrat (R-Square)

For more on regression, see:

http://www.ats.ucla.edu/stat/spss/webbooks/reg/chapter1/annotated1.htm

http://www.ats.ucla.edu/stat/spss/webbooks/reg/chapter1/spssreg1.htm