3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND...
Embed Size (px)
Transcript of 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND...
3.1. MODELL UND STATISTIK 32
3 Multiple lineare Regression
3.1 Modell und Statistika Zusammenhang zwischen einer Zielgrsse Y und
mehreren Eingangsgrssen X(1), X(2), . . . , X(m)
Yi = 0 + 1x(1)i + 2x
(2)i + . . .+ mx
(m)i + Ei
Parameter: 0 , 1, 2, . . . , m , 2 .
abhngige" Variable = Zielvariable
unabhngige" Variable = Eingangs-, erklrende Variable
b Beispiel Sprengungen: Y = log10Erschtterung,X(1) = log10Distanz und X(2) = log10Ladung.
3.1. MODELL UND STATISTIK 333.1
c Schtzung, Tests, Vertrauensintervalle:
Kleinste Quadrate. Theorie etwas spter.
d Computer-Ergebnis
Coefficients:Value Std. Error t value Pr(> |t|)
(Intercept) 2.8323 0.2229 12.71 0.000
log10(dist) -1.5107 0.1111 -13.59 0.000
log10(ladung) 0.8083 0.3042 2.66 0.011
Residual standard error: 0.1529 on 45 degrees of freedom
Multiple R-Squared: 0.8048
F-statistic: 92.79 on 2 and 45 degrees of freedom
p-value 1.11e-16
3.1. MODELL UND STATISTIK 343.1
e Tests: Welche Fragen sind zu stellen?
Frage A.Beeinflusst die Gesamtheit der Eingangsgrssen die Zielgrsse?
F-Test"Coefficients:...Residual standard error: 0.1529 on 45 degrees of freedomMultiple R-Squared: 0.8048F-statistic: 92.79 on 2 and 45 degrees of freedom
p-value 1.11e-16
f Varianzanalyse-Tabelle
Analysis of varianceDf Sum of Sq Mean Sq F Value Pr(F)
Regression m = 2 SSQ(R) = 136.772 68.386 T = 82.43 0.0000Residuals n p = 120 SSQ(E) = 99.554 2 = 0.830 P-WertTotal 122 SSQ(Y ) = 236.326
3.1. MODELL UND STATISTIK 353.1
g Coefficients:...Residual standard error: 0.1529 on 45 degrees of freedomMultiple R-Squared: 0.8048F-statistic: 92.79 on 2 and 45 degrees of freedom
p-value 1.11e-16
Multiple R-Squared" ist das Quadrat der
multiplen Korrelation = corr(Yi , angepasste Werte yi)
yi = 0 + 1x(1)i + 2x
(2)i + . . . + mx
(m)i
R2 = Bestimmtheitsmass,
misst den Anteil der erklrten Streuung
an der Streuung der Y -Werte,
R2 = 1 SSQ(E)/SSQ(Y ) .
3.1. MODELL UND STATISTIK 36
angepasste Werte
log1
0(E
rsch
tte
rung
)
0.2 0.0 0.2 0.4 0.6 0.8
0.5
0.0
0.5
1.0
3.1. MODELL UND STATISTIK 373.1
h Frage B.Einfluss der einzelnen Variablen X(j)?
Coefficients:Value Std. Error t value Pr(> |t|)
(Intercept) 2.8323 0.2229 12.71 0.000log10(dist) -1.5107 0.1111 -13.59 0.000log10(ladung) 0.8083 0.3042 2.66 0.011
Residual standard error: 0.1529 on 45 degrees of freedomMultiple R-Squared: 0.8048F-statistic: 92.79 on 2 and 45 degrees of freedom
p-value 1.11e-16
Der t-Wert und der P-Wert in derjenigen Zeile, die X(j) entspricht,prft, ob die Variable X(j)aus dem Modell weggelassen werden kann:
Nullhypothese j = 0.
3.1. MODELL UND STATISTIK 38
3.1
i Vertrauensintervall fr j : j t(0.975)n2 se
(j)
Coefficients:Value Std. Error t value Pr(> |t|)
(Intercept) 2.8323 0.2229 12.71 0.000log10(dist) -1.5107 0.1111 -13.59 0.000log10(ladung) 0.8083 0.3042 2.66 0.011
Residual standard error: 0.1529 on 45 degrees of freedomMultiple R-Squared: 0.8048F-statistic: 92.79 on 2 and 45 degrees of freedom
p-value 1.11e-16
j Beispiel: 1.5107 2.014 0.1111= 1.5107 0.2237 = [1.2869, 1.7345].
3.1. MODELL UND STATISTIK 39
3.1
k Significance: Kolonne t in blichen Tabellen: berflssig!?
Mass fr Signifikanz, anders als P-Wert
Tj =j
se(j) q(tk)0.975= Tj
/q
(tk)0.975 .
Tj > 1 bedeutet signifikanter Koeffizient
3.1. MODELL UND STATISTIK 40
Coefficients:coef stcoef signif R2.x df p.value
(Intercept) 2.832 0.000 6.31 NA 1 0.000
log10(dist) -1.511 -0.903 -6.75 0.01659 1 0.000
log10(ladung) 0.808 0.176 1.32 0.01659 1 0.011
St.dev. of Error = 0.1529 on 45 degrees of freedom
Multiple R-Squared: 0.8048
F-statistic: 92.79 on 2 and 45 degrees of freedom
p-value 1.11e-16
3.1. MODELL UND STATISTIK 41
Vertrauensintervall: Bis auf Faktor Tj 1.
j
Tj (Tj 1) = j (1 1/Tj) .
l Standardisierte Koeffizienten.
j = j sdX(j)
/ sd Y .
Einfache Regression: j = Korrelation.Allg: Um wie viel verndert sich Y , gemessen in sd Y -Einh.,
wenn sich X(j) um eine sdX(j)
verndert?
Vergleiche der Einflussstrke von versch. Eingangsgrssen.
3.1. MODELL UND STATISTIK 42
3.1
m Kollinearittsmass. R2.x Bestimmtheitsmass fr Regression von
X(j) als Zielgrsse auf alle anderen Regressoren.
Soll niedrig sein, sonst sind Koeffizienten schlecht bestimmt.
Siehe spter.
3.2. VIELFALT DER FRAGESTELLUNGEN 43
3.2 Vielfalt der Fragestellungena Im Modell der multiplen Regression werden
keine Annahmen ber die X -Variablen gemacht. Beliebig:
Datentyp: stetig, diskret, zweiwertig,spter nominal.
Verteilung der einzelnen Variablen: keine. Nicht zufllig.
Gemeinsame Verteilung der Variablen: keine. Nicht zufllig.Keine Unabhngigkeit vorausgesetzt!
Ein X(j) darf eine deterministische (nicht-lineare) Funktion
einer anderen oder mehrerer anderer sein.
3.2. VIELFALT DER FRAGESTELLUNGEN 44
3.2
c Binre Eingangs-Variable, Yi = 0 + 1xi + Ei
Yi = 0 + Ei fr xi = 0,Yi = 0 + 1 + Ei fr xi = 1.
0 = 0 = Erwartungswert fr Gr. xi = 0,
0 + 1 = 1 = Erwartungswert fr Gr. xi = 1.
Zwei-Gruppen-Problem = Spezialfall der (einfachen) Regression.
3.2. VIELFALT DER FRAGESTELLUNGEN 45
3.2
d Beispiel Sprengungen: Betrachte nur 2 Messstellen.
Yi = 0 + 1x(1)i + 2x
(2)i + Ei ,
X(1) : log Distanz, X(2) = 0 fr eine Messst., = 1 fr andere
Zwei Geraden y = 0 + 1x(1) , y = (0 + 2) + 1x(1)
Gleiche Steigung 1 , Geraden sind parallel.
3.2. VIELFALT DER FRAGESTELLUNGEN 46
3.2
e 4 Messstellen Indikatorvariable fr Gruppen j :
x(j)i =
{1 falls i-te Beobachtung aus der j-ten Gruppe0 sonst
.
Modell:
Yi = 1x(1)i + 2x
(2)i + . . .+ Ei
Setzt man j = j , so steht das multiple Regressionsmodell da,
allerdings ohne Achsenabschnitt 0 .
Nominale Eingangs-Var., ` Werte verwandeln in ` dummy variables.
3.2. VIELFALT DER FRAGESTELLUNGEN 47
3.2
f Modell mit Achsenabschnitt: Parameter nicht eindeutig. Lsung:
eine Nebenbedingung" einfhren oder
eine Variable weglassen.
g Coefficients:Value Std. Error t value Pr(> |t|) Signif
(Intercept) 2.51044 0.28215 8.90 0.000 ***log10(dist) -1.33779 0.14073 -9.51 0.000 ***log10(ladung) 0.69179 0.29666 2.33 0.025 *St2 0.16430 0.07494 2.19 0.034 *St3 0.02170 0.06366 0.34 0.735St4 0.11080 0.07477 1.48 0.146
Residual standard error: 0.1468 on 42 degrees of freedomMultiple R-Squared: 0.8322F-statistic: 41.66 on 5 and 42 degrees of freedom, p-value 3.22e-15
3.2. VIELFALT DER FRAGESTELLUNGEN 48
2
2
2
2
1
11
1
144
4
4
3
33
3
3
1.60 1.65 1.70 1.75 1.80 1.85 1.90
0.3
0.4
0.5
0.6
0.7
0.8
log10(dist)
log
10
(ers
ch
)
Stelle
1
2
3
4
3.2. VIELFALT DER FRAGESTELLUNGEN 493.2
h* Notation, Programm-Eingabe:log10(ersch) log10(dist) + log10(ladung) + St
j Frage C:
Unterscheiden sich die Stellen berhaupt
in bezug auf die Zielgrsse?
Nullhypothese: Die Koeffizienten der Variablen St2 bis St4 sind alle =0.
k F-Test zum Vergleich von Modellenl Df Sum of Sq RSS F Value Pr(F)
log10(dist) 1 1.947 2.851 90.4 4.9e-12log10(ladung) 1 0.117 1.022 5.44 0.025
Stelle 3 0.148 1.052 2.283 0.093
3.2. VIELFALT DER FRAGESTELLUNGEN 50
Funktion regr
Call:regr(formula = log10(ersch) ~ log10(dist) + log10(ladung) + Stelle,
data = t.d)
Terms:coef stcoef signif R2.x df p.value
(Intercept) 2.5104436 0.0000000 4.408963 NA 1 0.0000log10(dist) -1.3377937 -0.7993097 -4.710628 0.24824540 1 0.0000log10(ladung) 0.6917912 0.1510358 1.155520 0.02408888 1 0.0246Stelle NA NA 1.322707 0.08883789 3 0.0930
Coefficients for factors:$Stelle
1 2 3 40.0000000 0.1643009 0.0216981 0.1107950
St.dev.error: 0.1468 on 42 degrees of freedomMultiple R^2: 0.8322 Adjusted R-squared: 0.8122F-statistic: 41.66 on 5 and 42 d.f., p.value: 3.22e-15
3.2. VIELFALT DER FRAGESTELLUNGEN 51
3.2
o Einfluss der Stelle: Je eine additive Konstante fr jede Stelle.
Verschiedene Steigungen fr verschiedene Stellen?
Wechselwirkungen.
p Einfacher Fall: Sind zwei Geraden gleich?
Yi = + xi + gi + xigi + Eigi : Gruppenzugehrigkeit
Multiple Regression?
Test fr = 0 oder fr = 0 , = 0.
3.2. VIELFALT DER FRAGESTELLUNGEN 523.2
q X(2) = (X(1))2 quadratische Regression
Yi = 0 + 1xi + 2x2i + Ei .
7.4 7.6 7.8 8.0 8.2 8.4
23
45
67
Hh
e
pH
3.2. VIELFALT DER FRAGESTELLUNGEN 53
3.2
r quadratische polynomiale Regression.Spezialfall der multiplen linearen Regression!
Linear in den Koeffizienten!
0 + 1x(1)i + 2x
(2)i + . . .+ mx
(m)i
s Optimum der Zielgrsse? nicht monotone RegressionsfunktionEinfachste Fn: Quadratisch.
2 Eingangs-Variable: Quardatische Flche:
Y = 0 + 1x(1) + 2x
(2) + 11x(1)2 + 22x
(2)2 + 12x(1)x(2)
s schtzen, Optimum bestimmen!
3.2. VIELFALT DER FRAGESTELLUNGEN 543.2
t Das Modell der multiplen linearen Regression