1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2...
-
Upload
luitpold-wengel -
Category
Documents
-
view
103 -
download
0
Transcript of 1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2...
1
STATISIK
LV Nr.: 1375
SS 2005
19. April 2005
2
Regressionsanalyse
• Lineare Einfachregression:
• 2 metrisch skalierte Variablen Y, X
• Modell: yi = α + βxi + εi
• Regressionsfunktion: ŷi = a + bxi
• Schätzung: min. Residual-Quadratsumme
• KQ-Schätzer a und b: BLUE
• Tests für a und b: t-Tests
3
Regressionsanalyse
• F-Test
• Hypothese: Kein Zusammenhang zwischen den Variablen X und Y in der Grundgesamtheit
• Basiert auf der Quadratsummenzerlegung SST = SSE + SSR
4
Regressionsanalyse
• Mittlere erklärte Quadratsumme: – MSE = SSE / 1
• Mittlere nicht erklärte Quadratsumme: – MSR = SSR / (n – 2)
• Teststatistik: – F = MSE / MSR
– F ~ F1;n-2;1-α
5
Regressionsanalyse
• Beispiel: Körpergröße (X), Gewicht (Y)– Modell: Y = α + Xβ + ε– Parameterschätzer: a = -95,89, b = 0,93– Regressionsfunktion: Ŷ = -95,89 + 0,93X– Interpretation der Koeffizienten:
• a = -95,89: Verschiebung• b = 0,93: Steigung, steigt X um eine Einheit (1cm),
steigt Y um 0,93 Einheiten (kg). Vorsicht: Umkehrung gilt nicht!
– Bestimmtheitsmaß: 0,597 – Korrelationskoeffizient: 0,77
6
Regressionsanalyse
• Beispiel: Körpergröße (X), Gewicht (Y)– Koeffiziententests (t-Tests):
– H0: α = 0 ablehnen (p-Wert < 0,05) => α 0
– H0: β = 0 ablehnen (p-Wert < 0,05) => β 0
– F-Test: H0 ablehnen (Prüfgröße > kritischer Wert) => Zusammenhang zw. den Variablen
7
Regressionsanalyse
• Prognose
• Ziel: bei gegebenen Werten der unabhängigen Variable, zugehörigen Wert der abhängigen Variable prognostizieren. – Schätzung des Erwartungswertes E(yf) an der
Stelle xf.
– Schätzung eines Einzelwertes yf an der Stelle xf.
8
Regressionsanalyse
• Geg. xf (weiterer Wert von X)
• Ges. zugehöriger Wert yf von Y und/oder „mittleres“ Verhalten E(yf) = a + bxf.
• Weitere Annahmen: – yf = α + βxf + εf
– E(εf) = 0
– E(εf²) = σ²
– Cov(εf, εi) = 0
– xf nicht stochastisch
9
Regressionsanalyse
• Parameter α und β bekannt: – Prognose der Einzelwerte: yf = α + βxf
– Prognose des Erwartungswertes: E(yf) = α + βxf
• Parameter unbekannt. – Prognose der Einzelwerte: ŷf = a + bxf ŷf
ist ein unverzerrter Prediktor für yf
– Prognose des Erwartungswertes: E(ŷf ) = a + bxf
ŷf ist ein unverzerrter Prediktor für E(yf)
10
Regressionsanalyse
• Prognose Erwartungswert: E(ŷf ) = a + bxf
• Varianz des durchschnittlichen Prognosewertes sŷf²:
• Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-2) ei²)
22 f
f f f 2i
(x-x )1ˆ ˆVar(y )=Var(y -E(y ))=σ +
n (x -x)
11
Regressionsanalyse
• Prognose Einzelwert: ŷf = a + bxf
• Prognosefehler: ef = yf – ŷf
• Varianz des individuellen Prognosefehlers sf²:
• Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-2) ei²)
22 f
f f f 2i
(x-x )1ˆVar(e )=Var(y -y )=σ 1 +
n (x -x)
12
Regressionsanalyse
• Zusätzlich Ann: Störvariable εf ~ N(0,σ²)
• 1-α Konfidenzintervall für E(ŷf):
[ŷf – t sŷf ; ŷf + t sŷf]
t = t1-α/2;n-2
• 1-α Prognoseintervall für ŷf:
[ŷf – t sf ; ŷf + t sf]
t = t1-α/2;n-2
13
Regressionsanalyse
• Residuenanalyse
• Ex-post Überprüfung der Modellannahmen.
• Ann 1: E(εi) = 0
• Ann 2: Var(εi) = σ²
• Ann 3: Cov(εi,εj) = 0
14
Regressionsanalyse
• Grafische Residualanalyse
• Residuen der KQ Schätzer: ei = yi – ŷi
• Streudiagramm: Residuen gegen X (Werte der unabhängige Variable)
• Streudiagramm: Residuen gegen Ŷ (Prognosewerte).
• Es gilt: ei = 0 und arithm. Mittel der ei = 0
15
Regressionsanalyse
• Residuen gegen X:Residuenplot
-4
-3
-2
-1
0
1
2
3
4
5
0 5 10 15 20 25 30 35 40 45
X
Re
sid
ue
n
16
Regressionsanalyse
• Residuen gegen Ŷ:Residuenplot
-4
-3
-2
-1
0
1
2
3
4
5
0 5 10 15 20 25 30 35 40 45
Ŷ
Re
sid
ue
n
17
Regressionsanalyse
• Ann (2) verletzt, Varianzen nicht homogen, Hetroskedastizität
Residuenplot
-5
-4
-3
-2
-1
0
1
2
3
4
5
0 5 10 15 20 25 30 35 40 45
X
Re
sid
ue
n
18
Regressionsanalyse
• Ann. linearen Regressionsfunktion verletzt. Residuenplot
-6
-4
-2
0
2
4
6
8
0 5 10 15 20 25 30 35 40 45
X
Re
sid
ue
n
19
Regressionsanalyse
• Streudiagramm: ei gegen ei-1
• Autokorrelation der Residuen
Residuenplot
-4
-3
-2
-1
0
1
2
3
4
5
-4 -3 -2 -1 0 1 2 3 4 5
Residuen e(i-1)
Re
sid
ue
n e
(i)
Residuenplot
-3
-2
-1
0
1
2
3
4
-4 -3 -2 -1 0 1 2 3 4
Residuen e(i-1)
Re
sid
ue
n e
(i)
20
Regressionsanalyse
• Normalverteilung der εi: QQ-Plot– Empirische- und Theoretische Quantile
-2,0
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
2,0
-2 -1,5 -1 -0,5 0 0,5 1 1,5 2empirische Quantile
21
Regressionsanalyse
• Linear Mehrfachregression– Eine abhängige Variabel Y – Mehrere unabhängige Variabeln x1,…,xk-1.
• Modell: Yi = β0 + β1x1 + β2x2 + …+ βk-1xk-1 + εi für i=1,…,n– β0 … Absolutglied, Interzept– βj … Steigungsparameter (j=1,…,k-1)– xj … unabhängige Variable (j = 1,…,k-1)– εi … Störterm, zufälliger Fehler
22
Regressionsanalyse
• Beispiel: Körpergröße soll durch die Körpergröße der Eltern erklärt werden. – Abhängige Variable: Y = Größe,
– Unabhängige Variablen: X1 = Größe Mutter und X2 = Größe Vater
– Modell: yi = β0 + β1x1 + β2x2 + εi
23
Regressionsanalyse
• Matrixschreibweise:
Y = Xβ + ε– Y … n1 Vektor der abhängigen Variable– X … nk Matrix der unabhängigen Variable,
X=[1:Xj] mit j=1,…,k-1
– β … k1 Parametervektor, β=[β0:βj]´ mit j=1,…,k-1
– ε … n1 Vektor der zufälligen Störungen
24
Regressionsanalyse
• Annahmen: (1) E(ε) = 0
(2) Var(ε) = σ²
(3) Cov(ε) = E(εε´) = σ²I
(4) X nicht stochastisch
(5) rang(X) = k (X sind nicht linear abhängig)
25
Regressionsanalyse
• Kleinste Quadrate Schätzung:
• Minimierung der Abweichungsquadratsumme
• (Y-Xb)‘(Y-Xb) = (yi-xi.b)² min
26
Regressionsanalyse
• Normalengleichungssystem:
(X´X)b = X´y
• Daraus ergibt sich als Kleinste Quadrate Schätzer für β:
b = (X´X)-1X´y
b … k1 Vektor der Schätzer
27
Regressionsanalyse
• Konsequenzen aus den Normalgleichungen:
• X‘e = 0
• Ŷ‘e = 0
• e = MY mit M = I – X(X‘X)-1X‘
28
Regressionsanalyse
• Statistische Eigenschaften:
• E(e) = 0
• VC(e) = σ²M ( σ²I = VC(ε))
• E(b) = β
• VC(b) = σ²(X‘X)
29
Regressionsanalyse
• Schätzung von σ²:
• E(s²) = σ²
• Schätzung der Varianz-Kovarianz Matrix von b:
VC(b)est. = s²(X‘X)-1 (unverzerrt für VC(b))
eekn
1s2
30
Regressionsanalyse
• Gauss-Markov Theorem:– Y=Xβ+ε– Es gelten Ann. 1-4 und β k ist beliebig – b* sei ein linearer unverzerrter Schätzer für β
• VC(b) VC(b*), d.h. VC(b*)-VC(b) ist nichtnegativ definit. – Var(bi) Var(bi*) für alle i = 1, ..., k
– Man sagt: b ist BLUE– c‘b ist der BLUE für die Linearkombination c‘β
31
Regressionsanalyse
• Ein Schätzer b* für β heißt linear, falls b*=DY, wobei D eine nichtzufällige kn Matrix ist.
• Ein Schätzer b* für β heißt unverzerrt, falls E(b*) = β.
32
Regressionsanalyse
• Tests der Regressionskoeffizienten:
• Einseitige Hypothesen: – H0: βi β* (z.B. 0) gegen H1: βi < β*
– H0: βi β* (z.B. 0) gegen H1: βi > β*
• Zweiseitige Hypothese: – H0: βi = β* (z.B. 0) gegen H1: βi β*
33
Regressionsanalyse
• Teststatistik: – T = (bi - β*) / sbi
• Testverteilung:– T ~ tn-k
• Entscheidung: Lehne H0 ab, wenn T im kritischen Bereich liegt.
34
Regressionsanalyse
• Konfidenzintervalle der Parameter:
• Wahrscheinlichkeitsintervall:– P(bi – t sbi β bi + t sbi) = 1 – α für i = 1,...,k
• Konfidenzintervall: – [bi – t sbi ; bi + t sbi] für i = 1,...,k
mit t = t1- α/2;n-k
35
Regressionsanalyse
• Beispiel Körpergröße:– Modell: Y = β0 + β1X1 + β2X2
• Parameterschätzer und p-Werte: – b0 = -28,26; p-Wert = 0,657
– b1 = 0,277; p-Wert = 0,292
– b2 = 0,871; p-Wert = 0,002
– Körpergröße des Vaters hat einen positiven Einfluss auf die Körpergröße des Kindes
36
Regressionsanalyse
• Quadratsummen: – SST = (yi -y)² = nsy² = Y‘AY
– SSE = (ŷi -ŷ)² = nsŷ² = Ŷ‘A Ŷ
– SSR = ei² = ns² = e‘Ae
– wobei A = (In – (1/n)ii‘)
• Quadratsummenzerlegung: – SST = SSE + SSR
37
Regressionsanalyse
• F-Test: – Prüft, ob zw. der abhängigen Variable Y und
den unabhängigen Variablen X2,…,Xk ein linearer Zusammenhang besteht.
– H0: β2 = β3 = … = βk = 0
• Mittlere quadratische Abweichungen: – MQE = SSE / (k-1)– MQR = SSR / (n-k)
38
Regressionsanalyse
• Teststatistik:– F = MQE / MQR
– F ~ F(k-1),(n-k)
• Entscheidung: – F > F(k-1),(n-k) lehne H0 ab, d.h. es besteht eine
lineare Abhängigkeit zw. Y und X.
39
Regressionsanalyse
• Lineares multiples Bestimmtheitsmaß: – R² = SSE / SST = 1 – SSR / SST – Es gilt: 0 R² 1
• Linearer multipler Korrelationskoeffizient: – r = +R², absolute Größe (unterschiedliche
Vorzeichen der einzelnen Koeffizienten mögl.)
40
Regressionsanalyse
• Lineares partielles Bestimmtheitsmaß: – Regressoren X2, ...,Xk: r²Y,X2,...,Xk =
SSE(X2,...,Xk) / SST
– Zusätzliche erklärende Variable Xk+1: r²Y,X2,...,Xk,Xk+1 = SSE(X2,...,Xk,Xk+1) / SST
– Zusätzliche (durch Xk+1) erklärte Abweichungsquadratsumme: SSE(Xk+1|X2,...,Xk) = SSE(X2,...,Xk) – SSE(X2,...,Xk,Xk+1) = (r²Y,X2,...,Xk – r²Y,X2,...,Xk,Xk+1) SST
41
Regressionsanalyse
• Lineares partielles Bestimmtheitsmaß: – Quotient der zusätzlichen erklärten
Abweichungsquadratsumme zu der bisher nicht erklärten Abweichungsquadratsumme:
– r²Y(k+1),X2,...,Xk = SSE(Xk+1|X2,...,Xk) / SSR(X2,...,Xk)
= (r²Y,X2,...,Xk – r²Y,X2,...,Xk,Xk+1) / (1 – r²Y,X2,...,Xk)
wobei SSR(X2,...,Xk) = SST – SSE(X2,...,Xk)
42
Regressionsanalyse
• Partieller F-Test:– f = MQE(Xk+1|X2,...,Xk) / MQR(X2,...,Xk,Xk+1)
– MQE(Xk+1|X2,...,Xk)=SSE(Xk+1|X2,...,Xk)/(k-2)
– MQR(X2,...,Xk+1)=SSR(X2,...,Xk+1)/(n-k)
– f ~ F(k-2),(n-k)
43
Regressionsanalyse
• Adjusted R²: berücksichtigt die Anzahl der Koeffizienten– adj. R² = (1-k)/(n-k) + (n-1)/(n-k) R²– Es gilt: (1-k)/(n-k) adj. R² 1
44
Regressionsanalyse
• Variablenselektion:– Wie viele bzw. welche erklärenden Variablen
sollen in das Modell aufgenommen werden?
• Kriterium?– R² => Wähle Modell mit größten R² => immer
Modell mit allen möglichen Variablen – Unsinn!– Adj. R² => Wähle Modell mit dem größten Wert
des korrigierten Bestimmtheitsmaßes. – AIC, BIC => Wähle Modell mit kleinsten Wert
von AIC (Akaike‘s Information Criterion) bzw. BIC (Bayesian Information Criterion)
45
Regressionsanalyse
• Vorwärtsauswahl– Einfachregressionen zw. Y und Xi (i=2,…,k)
– Sind alle Variablen nicht signifikant, Abbruch.– Sind einige Variablen signifikant, wählt jene
mit dem höchsten F-Wert. – Variable mit höchstem partiellen F-Wert (und >
als ein kritischer Wert) ins Modell aufnehmen– usw.
46
Regressionsanalyse
• Rückwärtsauswahl– Umkehrung des Verfahrens der Vorwärt-
Selektion. – Modell mit allen erklärenden Variablen– Sind alle Variablen signifikant, Modell mit
allen Variablen. – Sind Variable nicht signifikant, schließe jene
mit dem kleinsten partiellen F-Wert aus. – usw.
47
Regressionsanalyse
• Schrittweise Auswahl– Prüfe ob ein linearer Zusammenhang vorliegt– Wähle jene Variable mit dem höchsten linearen
Einfachkorrelationskoeffizienten. – Wähle jene Variable mit dem höchsten
signifikanten partiellen F-Wert– Prüfe alle Variablen im Modell auf Signifikanz,
bei nicht-signifikanten schließe jene aus, die den kleinsten partiellen F-Wert besitzen.
– usw.
48
Regressionsanalyse
• Prognose:
• Ziel: bei gegebenen Werten der unabhängigen Variablen, zugehörige Werte der abhängigen Variable prognostizieren. – Schätzung des Erwartungswertes E(yf)
– Schätzung eines Einzelwertes yf an der Stelle xf.
49
Regressionsanalyse
• Geg. xf. (weitere Werte von X)
• Ges. zugehöriger Wert yf von Y und/oder mittleres Verhalten E(yf) = xf.b
• Weitere Annahmen:– yf = xf.β + εf
– E(εf) = 0
– E(εf²) = σ²
– E(εf ,εi) = 0 für alle i = 1,…,n
– xf. nicht stochastisch
50
Regressionsanalyse
• Parameter bekannt: – Prognose der Einzelwerte: ŷf = xf.β
– Prognose des Erwartungswertes: E(ŷf) = xf.β
• Parameter unbekannt: – Prognose der Einzelwerte: ŷf = xf.b
ŷf ist ein unverzerrter Prediktor für yf
– Prognose des Erwartungswertes: E(ŷf) = xf.b
E(ŷf)ist ein unverzerrter Prediktor für E(yf)
51
Regressionsanalyse
• Prognose Erwartungswert E(ŷf) = xf.β
• Varianz des durchschnittlichen Prognosewertes sŷf²
• Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-k) e‘e)
2 -1f f f fˆVar(y -E(y ))=σ x (X X) x
52
Regressionsanalyse
• Prognose Einzelwert ŷf = xf.β
• Prognosefehler: ef = yf – ŷf
• Varianz des individuellen Prognosewertes sf²
• Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-k) e‘e)
2 -1f f f f fˆVar(e )=Var(y -y )=σ 1+x (X X) x
53
Regressionsanalyse
• 1-α Konfidenzintervall für E(ŷf):
[ŷf – t sŷf ; ŷf + t sŷf]
t = t1-α;n-2
• 1-α Prognoseintervall für ŷf:
[ŷf – t syf ; ŷf + t syf]
t = t1-α;n-2
54
Regressionsanalyse
• Nichtlineare Regression:
• Nichtlineare Regressionsfunktion– Gelten die üblichen Annahmen, gelten die
Eigenschaften für die KQ Schätzer
55
Regressionsanalyse
• Nichtlinearer Einfachregression als lineare Zweifachregression ansehen– z.B. yi= β1+β2xi+ β3xi² +εi setze x=x1 und x²=x2,
und interpretiere yi= b1+b2x1i+ b3x2i im Sinne der linearen Zweifachregression
• Variablentransformation – Linearisierung – Anwendung d. linearen Regressionsanalyse– z.B. Potenzfunktion: yi = β1·xi
β2·εi Logarithmieren ergibt lineare Funktion (linear in den Parametern): log(yi)=log(β1)+β2log(xi)+log(εi)
56
Nichtparametrische ANOVA
• Kruskal-Wallis Test• Unterscheiden sich die Mittelwerte von p
Messreihen (n1, …, np)? • Voraussetzungen:
– Stetige Verteilung der Messreihen – Mindestens Ordinalskala – Setzt weder Normalverteilung, noch
Varianzhomogenität voraus.
• Hypothese: – H0: Mittelwerte der p Messreihen sind gleich – H1: Mittelwerte unterscheiden sich
57
Nichtparametrische ANOVA
• Vorgehensweise:– N Messwerten X11, …, Xpnp werden Rangzahlen
rij zugewiesen.
– Summe der Ränge der einzelnen Messreihen berechnen:
– Bindungen (mehrere Messwerte sind gleich): Mittelwert der Ränge
in
i ijj=1
r = r
58
Nichtparametrische ANOVA
• Prüfgröße:
– g … Anzahl der verschiedenen Messwerte– t … wie oft tritt ein Messwert auf– Treten keine Bindungen auf, ist B = 1
p2i
i=1 i
1 12 1H= r -3(N+1)
B N(N+1) n
g
3l3
i=1
1B=1- (t -t)
N -N
59
Nichtparametrische ANOVA
• Entscheidung:– H0 ablehnen, wenn H > hp(n1,…,np);1-α
– h … kritische Werte (Tabelle, z.B. Hartung S. 615)
• Approximation durch χ²p-1,1-α Verteilung: – H0 ablehnen, wenn H > χ²p-1,1-α (Quantile der χ²
Verteilung)