1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2...

59
1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005

Transcript of 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2...

Page 1: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

1

STATISIK

LV Nr.: 1375

SS 2005

19. April 2005

Page 2: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

2

Regressionsanalyse

• Lineare Einfachregression:

• 2 metrisch skalierte Variablen Y, X

• Modell: yi = α + βxi + εi

• Regressionsfunktion: ŷi = a + bxi

• Schätzung: min. Residual-Quadratsumme

• KQ-Schätzer a und b: BLUE

• Tests für a und b: t-Tests

Page 3: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

3

Regressionsanalyse

• F-Test

• Hypothese: Kein Zusammenhang zwischen den Variablen X und Y in der Grundgesamtheit

• Basiert auf der Quadratsummenzerlegung SST = SSE + SSR

Page 4: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

4

Regressionsanalyse

• Mittlere erklärte Quadratsumme: – MSE = SSE / 1

• Mittlere nicht erklärte Quadratsumme: – MSR = SSR / (n – 2)

• Teststatistik: – F = MSE / MSR

– F ~ F1;n-2;1-α

Page 5: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

5

Regressionsanalyse

• Beispiel: Körpergröße (X), Gewicht (Y)– Modell: Y = α + Xβ + ε– Parameterschätzer: a = -95,89, b = 0,93– Regressionsfunktion: Ŷ = -95,89 + 0,93X– Interpretation der Koeffizienten:

• a = -95,89: Verschiebung• b = 0,93: Steigung, steigt X um eine Einheit (1cm),

steigt Y um 0,93 Einheiten (kg). Vorsicht: Umkehrung gilt nicht!

– Bestimmtheitsmaß: 0,597 – Korrelationskoeffizient: 0,77

Page 6: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

6

Regressionsanalyse

• Beispiel: Körpergröße (X), Gewicht (Y)– Koeffiziententests (t-Tests):

– H0: α = 0 ablehnen (p-Wert < 0,05) => α 0

– H0: β = 0 ablehnen (p-Wert < 0,05) => β 0

– F-Test: H0 ablehnen (Prüfgröße > kritischer Wert) => Zusammenhang zw. den Variablen

Page 7: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

7

Regressionsanalyse

• Prognose

• Ziel: bei gegebenen Werten der unabhängigen Variable, zugehörigen Wert der abhängigen Variable prognostizieren. – Schätzung des Erwartungswertes E(yf) an der

Stelle xf.

– Schätzung eines Einzelwertes yf an der Stelle xf.

Page 8: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

8

Regressionsanalyse

• Geg. xf (weiterer Wert von X)

• Ges. zugehöriger Wert yf von Y und/oder „mittleres“ Verhalten E(yf) = a + bxf.

• Weitere Annahmen: – yf = α + βxf + εf

– E(εf) = 0

– E(εf²) = σ²

– Cov(εf, εi) = 0

– xf nicht stochastisch

Page 9: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

9

Regressionsanalyse

• Parameter α und β bekannt: – Prognose der Einzelwerte: yf = α + βxf

– Prognose des Erwartungswertes: E(yf) = α + βxf

• Parameter unbekannt. – Prognose der Einzelwerte: ŷf = a + bxf ŷf

ist ein unverzerrter Prediktor für yf

– Prognose des Erwartungswertes: E(ŷf ) = a + bxf

ŷf ist ein unverzerrter Prediktor für E(yf)

Page 10: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

10

Regressionsanalyse

• Prognose Erwartungswert: E(ŷf ) = a + bxf

• Varianz des durchschnittlichen Prognosewertes sŷf²:

• Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-2) ei²)

22 f

f f f 2i

(x-x )1ˆ ˆVar(y )=Var(y -E(y ))=σ +

n (x -x)

Page 11: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

11

Regressionsanalyse

• Prognose Einzelwert: ŷf = a + bxf

• Prognosefehler: ef = yf – ŷf

• Varianz des individuellen Prognosefehlers sf²:

• Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-2) ei²)

22 f

f f f 2i

(x-x )1ˆVar(e )=Var(y -y )=σ 1 +

n (x -x)

Page 12: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

12

Regressionsanalyse

• Zusätzlich Ann: Störvariable εf ~ N(0,σ²)

• 1-α Konfidenzintervall für E(ŷf):

[ŷf – t sŷf ; ŷf + t sŷf]

t = t1-α/2;n-2

• 1-α Prognoseintervall für ŷf:

[ŷf – t sf ; ŷf + t sf]

t = t1-α/2;n-2

Page 13: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

13

Regressionsanalyse

• Residuenanalyse

• Ex-post Überprüfung der Modellannahmen.

• Ann 1: E(εi) = 0

• Ann 2: Var(εi) = σ²

• Ann 3: Cov(εi,εj) = 0

Page 14: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

14

Regressionsanalyse

• Grafische Residualanalyse

• Residuen der KQ Schätzer: ei = yi – ŷi

• Streudiagramm: Residuen gegen X (Werte der unabhängige Variable)

• Streudiagramm: Residuen gegen Ŷ (Prognosewerte).

• Es gilt: ei = 0 und arithm. Mittel der ei = 0

Page 15: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

15

Regressionsanalyse

• Residuen gegen X:Residuenplot

-4

-3

-2

-1

0

1

2

3

4

5

0 5 10 15 20 25 30 35 40 45

X

Re

sid

ue

n

Page 16: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

16

Regressionsanalyse

• Residuen gegen Ŷ:Residuenplot

-4

-3

-2

-1

0

1

2

3

4

5

0 5 10 15 20 25 30 35 40 45

Ŷ

Re

sid

ue

n

Page 17: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

17

Regressionsanalyse

• Ann (2) verletzt, Varianzen nicht homogen, Hetroskedastizität

Residuenplot

-5

-4

-3

-2

-1

0

1

2

3

4

5

0 5 10 15 20 25 30 35 40 45

X

Re

sid

ue

n

Page 18: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

18

Regressionsanalyse

• Ann. linearen Regressionsfunktion verletzt. Residuenplot

-6

-4

-2

0

2

4

6

8

0 5 10 15 20 25 30 35 40 45

X

Re

sid

ue

n

Page 19: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

19

Regressionsanalyse

• Streudiagramm: ei gegen ei-1

• Autokorrelation der Residuen

Residuenplot

-4

-3

-2

-1

0

1

2

3

4

5

-4 -3 -2 -1 0 1 2 3 4 5

Residuen e(i-1)

Re

sid

ue

n e

(i)

Residuenplot

-3

-2

-1

0

1

2

3

4

-4 -3 -2 -1 0 1 2 3 4

Residuen e(i-1)

Re

sid

ue

n e

(i)

Page 20: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

20

Regressionsanalyse

• Normalverteilung der εi: QQ-Plot– Empirische- und Theoretische Quantile

-2,0

-1,5

-1,0

-0,5

0,0

0,5

1,0

1,5

2,0

-2 -1,5 -1 -0,5 0 0,5 1 1,5 2empirische Quantile

Page 21: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

21

Regressionsanalyse

• Linear Mehrfachregression– Eine abhängige Variabel Y – Mehrere unabhängige Variabeln x1,…,xk-1.

• Modell: Yi = β0 + β1x1 + β2x2 + …+ βk-1xk-1 + εi für i=1,…,n– β0 … Absolutglied, Interzept– βj … Steigungsparameter (j=1,…,k-1)– xj … unabhängige Variable (j = 1,…,k-1)– εi … Störterm, zufälliger Fehler

Page 22: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

22

Regressionsanalyse

• Beispiel: Körpergröße soll durch die Körpergröße der Eltern erklärt werden. – Abhängige Variable: Y = Größe,

– Unabhängige Variablen: X1 = Größe Mutter und X2 = Größe Vater

– Modell: yi = β0 + β1x1 + β2x2 + εi

Page 23: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

23

Regressionsanalyse

• Matrixschreibweise:

Y = Xβ + ε– Y … n1 Vektor der abhängigen Variable– X … nk Matrix der unabhängigen Variable,

X=[1:Xj] mit j=1,…,k-1

– β … k1 Parametervektor, β=[β0:βj]´ mit j=1,…,k-1

– ε … n1 Vektor der zufälligen Störungen

Page 24: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

24

Regressionsanalyse

• Annahmen: (1) E(ε) = 0

(2) Var(ε) = σ²

(3) Cov(ε) = E(εε´) = σ²I

(4) X nicht stochastisch

(5) rang(X) = k (X sind nicht linear abhängig)

Page 25: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

25

Regressionsanalyse

• Kleinste Quadrate Schätzung:

• Minimierung der Abweichungsquadratsumme

• (Y-Xb)‘(Y-Xb) = (yi-xi.b)² min

Page 26: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

26

Regressionsanalyse

• Normalengleichungssystem:

(X´X)b = X´y

• Daraus ergibt sich als Kleinste Quadrate Schätzer für β:

b = (X´X)-1X´y

b … k1 Vektor der Schätzer

Page 27: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

27

Regressionsanalyse

• Konsequenzen aus den Normalgleichungen:

• X‘e = 0

• Ŷ‘e = 0

• e = MY mit M = I – X(X‘X)-1X‘

Page 28: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

28

Regressionsanalyse

• Statistische Eigenschaften:

• E(e) = 0

• VC(e) = σ²M ( σ²I = VC(ε))

• E(b) = β

• VC(b) = σ²(X‘X)

Page 29: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

29

Regressionsanalyse

• Schätzung von σ²:

• E(s²) = σ²

• Schätzung der Varianz-Kovarianz Matrix von b:

VC(b)est. = s²(X‘X)-1 (unverzerrt für VC(b))

eekn

1s2

Page 30: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

30

Regressionsanalyse

• Gauss-Markov Theorem:– Y=Xβ+ε– Es gelten Ann. 1-4 und β k ist beliebig – b* sei ein linearer unverzerrter Schätzer für β

• VC(b) VC(b*), d.h. VC(b*)-VC(b) ist nichtnegativ definit. – Var(bi) Var(bi*) für alle i = 1, ..., k

– Man sagt: b ist BLUE– c‘b ist der BLUE für die Linearkombination c‘β

Page 31: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

31

Regressionsanalyse

• Ein Schätzer b* für β heißt linear, falls b*=DY, wobei D eine nichtzufällige kn Matrix ist.

• Ein Schätzer b* für β heißt unverzerrt, falls E(b*) = β.

Page 32: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

32

Regressionsanalyse

• Tests der Regressionskoeffizienten:

• Einseitige Hypothesen: – H0: βi β* (z.B. 0) gegen H1: βi < β*

– H0: βi β* (z.B. 0) gegen H1: βi > β*

• Zweiseitige Hypothese: – H0: βi = β* (z.B. 0) gegen H1: βi β*

Page 33: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

33

Regressionsanalyse

• Teststatistik: – T = (bi - β*) / sbi

• Testverteilung:– T ~ tn-k

• Entscheidung: Lehne H0 ab, wenn T im kritischen Bereich liegt.

Page 34: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

34

Regressionsanalyse

• Konfidenzintervalle der Parameter:

• Wahrscheinlichkeitsintervall:– P(bi – t sbi β bi + t sbi) = 1 – α für i = 1,...,k

• Konfidenzintervall: – [bi – t sbi ; bi + t sbi] für i = 1,...,k

mit t = t1- α/2;n-k

Page 35: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

35

Regressionsanalyse

• Beispiel Körpergröße:– Modell: Y = β0 + β1X1 + β2X2

• Parameterschätzer und p-Werte: – b0 = -28,26; p-Wert = 0,657

– b1 = 0,277; p-Wert = 0,292

– b2 = 0,871; p-Wert = 0,002

– Körpergröße des Vaters hat einen positiven Einfluss auf die Körpergröße des Kindes

Page 36: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

36

Regressionsanalyse

• Quadratsummen: – SST = (yi -y)² = nsy² = Y‘AY

– SSE = (ŷi -ŷ)² = nsŷ² = Ŷ‘A Ŷ

– SSR = ei² = ns² = e‘Ae

– wobei A = (In – (1/n)ii‘)

• Quadratsummenzerlegung: – SST = SSE + SSR

Page 37: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

37

Regressionsanalyse

• F-Test: – Prüft, ob zw. der abhängigen Variable Y und

den unabhängigen Variablen X2,…,Xk ein linearer Zusammenhang besteht.

– H0: β2 = β3 = … = βk = 0

• Mittlere quadratische Abweichungen: – MQE = SSE / (k-1)– MQR = SSR / (n-k)

Page 38: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

38

Regressionsanalyse

• Teststatistik:– F = MQE / MQR

– F ~ F(k-1),(n-k)

• Entscheidung: – F > F(k-1),(n-k) lehne H0 ab, d.h. es besteht eine

lineare Abhängigkeit zw. Y und X.

Page 39: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

39

Regressionsanalyse

• Lineares multiples Bestimmtheitsmaß: – R² = SSE / SST = 1 – SSR / SST – Es gilt: 0 R² 1

• Linearer multipler Korrelationskoeffizient: – r = +R², absolute Größe (unterschiedliche

Vorzeichen der einzelnen Koeffizienten mögl.)

Page 40: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

40

Regressionsanalyse

• Lineares partielles Bestimmtheitsmaß: – Regressoren X2, ...,Xk: r²Y,X2,...,Xk =

SSE(X2,...,Xk) / SST

– Zusätzliche erklärende Variable Xk+1: r²Y,X2,...,Xk,Xk+1 = SSE(X2,...,Xk,Xk+1) / SST

– Zusätzliche (durch Xk+1) erklärte Abweichungsquadratsumme: SSE(Xk+1|X2,...,Xk) = SSE(X2,...,Xk) – SSE(X2,...,Xk,Xk+1) = (r²Y,X2,...,Xk – r²Y,X2,...,Xk,Xk+1) SST

Page 41: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

41

Regressionsanalyse

• Lineares partielles Bestimmtheitsmaß: – Quotient der zusätzlichen erklärten

Abweichungsquadratsumme zu der bisher nicht erklärten Abweichungsquadratsumme:

– r²Y(k+1),X2,...,Xk = SSE(Xk+1|X2,...,Xk) / SSR(X2,...,Xk)

= (r²Y,X2,...,Xk – r²Y,X2,...,Xk,Xk+1) / (1 – r²Y,X2,...,Xk)

wobei SSR(X2,...,Xk) = SST – SSE(X2,...,Xk)

Page 42: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

42

Regressionsanalyse

• Partieller F-Test:– f = MQE(Xk+1|X2,...,Xk) / MQR(X2,...,Xk,Xk+1)

– MQE(Xk+1|X2,...,Xk)=SSE(Xk+1|X2,...,Xk)/(k-2)

– MQR(X2,...,Xk+1)=SSR(X2,...,Xk+1)/(n-k)

– f ~ F(k-2),(n-k)

Page 43: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

43

Regressionsanalyse

• Adjusted R²: berücksichtigt die Anzahl der Koeffizienten– adj. R² = (1-k)/(n-k) + (n-1)/(n-k) R²– Es gilt: (1-k)/(n-k) adj. R² 1

Page 44: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

44

Regressionsanalyse

• Variablenselektion:– Wie viele bzw. welche erklärenden Variablen

sollen in das Modell aufgenommen werden?

• Kriterium?– R² => Wähle Modell mit größten R² => immer

Modell mit allen möglichen Variablen – Unsinn!– Adj. R² => Wähle Modell mit dem größten Wert

des korrigierten Bestimmtheitsmaßes. – AIC, BIC => Wähle Modell mit kleinsten Wert

von AIC (Akaike‘s Information Criterion) bzw. BIC (Bayesian Information Criterion)

Page 45: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

45

Regressionsanalyse

• Vorwärtsauswahl– Einfachregressionen zw. Y und Xi (i=2,…,k)

– Sind alle Variablen nicht signifikant, Abbruch.– Sind einige Variablen signifikant, wählt jene

mit dem höchsten F-Wert. – Variable mit höchstem partiellen F-Wert (und >

als ein kritischer Wert) ins Modell aufnehmen– usw.

Page 46: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

46

Regressionsanalyse

• Rückwärtsauswahl– Umkehrung des Verfahrens der Vorwärt-

Selektion. – Modell mit allen erklärenden Variablen– Sind alle Variablen signifikant, Modell mit

allen Variablen. – Sind Variable nicht signifikant, schließe jene

mit dem kleinsten partiellen F-Wert aus. – usw.

Page 47: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

47

Regressionsanalyse

• Schrittweise Auswahl– Prüfe ob ein linearer Zusammenhang vorliegt– Wähle jene Variable mit dem höchsten linearen

Einfachkorrelationskoeffizienten. – Wähle jene Variable mit dem höchsten

signifikanten partiellen F-Wert– Prüfe alle Variablen im Modell auf Signifikanz,

bei nicht-signifikanten schließe jene aus, die den kleinsten partiellen F-Wert besitzen.

– usw.

Page 48: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

48

Regressionsanalyse

• Prognose:

• Ziel: bei gegebenen Werten der unabhängigen Variablen, zugehörige Werte der abhängigen Variable prognostizieren. – Schätzung des Erwartungswertes E(yf)

– Schätzung eines Einzelwertes yf an der Stelle xf.

Page 49: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

49

Regressionsanalyse

• Geg. xf. (weitere Werte von X)

• Ges. zugehöriger Wert yf von Y und/oder mittleres Verhalten E(yf) = xf.b

• Weitere Annahmen:– yf = xf.β + εf

– E(εf) = 0

– E(εf²) = σ²

– E(εf ,εi) = 0 für alle i = 1,…,n

– xf. nicht stochastisch

Page 50: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

50

Regressionsanalyse

• Parameter bekannt: – Prognose der Einzelwerte: ŷf = xf.β

– Prognose des Erwartungswertes: E(ŷf) = xf.β

• Parameter unbekannt: – Prognose der Einzelwerte: ŷf = xf.b

ŷf ist ein unverzerrter Prediktor für yf

– Prognose des Erwartungswertes: E(ŷf) = xf.b

E(ŷf)ist ein unverzerrter Prediktor für E(yf)

Page 51: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

51

Regressionsanalyse

• Prognose Erwartungswert E(ŷf) = xf.β

• Varianz des durchschnittlichen Prognosewertes sŷf²

• Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-k) e‘e)

2 -1f f f fˆVar(y -E(y ))=σ x (X X) x

Page 52: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

52

Regressionsanalyse

• Prognose Einzelwert ŷf = xf.β

• Prognosefehler: ef = yf – ŷf

• Varianz des individuellen Prognosewertes sf²

• Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-k) e‘e)

2 -1f f f f fˆVar(e )=Var(y -y )=σ 1+x (X X) x

Page 53: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

53

Regressionsanalyse

• 1-α Konfidenzintervall für E(ŷf):

[ŷf – t sŷf ; ŷf + t sŷf]

t = t1-α;n-2

• 1-α Prognoseintervall für ŷf:

[ŷf – t syf ; ŷf + t syf]

t = t1-α;n-2

Page 54: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

54

Regressionsanalyse

• Nichtlineare Regression:

• Nichtlineare Regressionsfunktion– Gelten die üblichen Annahmen, gelten die

Eigenschaften für die KQ Schätzer

Page 55: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

55

Regressionsanalyse

• Nichtlinearer Einfachregression als lineare Zweifachregression ansehen– z.B. yi= β1+β2xi+ β3xi² +εi setze x=x1 und x²=x2,

und interpretiere yi= b1+b2x1i+ b3x2i im Sinne der linearen Zweifachregression

• Variablentransformation – Linearisierung – Anwendung d. linearen Regressionsanalyse– z.B. Potenzfunktion: yi = β1·xi

β2·εi Logarithmieren ergibt lineare Funktion (linear in den Parametern): log(yi)=log(β1)+β2log(xi)+log(εi)

Page 56: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

56

Nichtparametrische ANOVA

• Kruskal-Wallis Test• Unterscheiden sich die Mittelwerte von p

Messreihen (n1, …, np)? • Voraussetzungen:

– Stetige Verteilung der Messreihen – Mindestens Ordinalskala – Setzt weder Normalverteilung, noch

Varianzhomogenität voraus.

• Hypothese: – H0: Mittelwerte der p Messreihen sind gleich – H1: Mittelwerte unterscheiden sich

Page 57: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

57

Nichtparametrische ANOVA

• Vorgehensweise:– N Messwerten X11, …, Xpnp werden Rangzahlen

rij zugewiesen.

– Summe der Ränge der einzelnen Messreihen berechnen:

– Bindungen (mehrere Messwerte sind gleich): Mittelwert der Ränge

in

i ijj=1

r = r

Page 58: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

58

Nichtparametrische ANOVA

• Prüfgröße:

– g … Anzahl der verschiedenen Messwerte– t … wie oft tritt ein Messwert auf– Treten keine Bindungen auf, ist B = 1

p2i

i=1 i

1 12 1H= r -3(N+1)

B N(N+1) n

g

3l3

i=1

1B=1- (t -t)

N -N

Page 59: 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

59

Nichtparametrische ANOVA

• Entscheidung:– H0 ablehnen, wenn H > hp(n1,…,np);1-α

– h … kritische Werte (Tabelle, z.B. Hartung S. 615)

• Approximation durch χ²p-1,1-α Verteilung: – H0 ablehnen, wenn H > χ²p-1,1-α (Quantile der χ²

Verteilung)