3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND...

of 53 /53
3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen einer Zielgrösse Y und mehreren Eingangsgrössen X (1) ,X (2) ,...,X (m) Y i = β 0 + β 1 x (1) i + β 2 x (2) i + ... + β m x (m) i + E i Parameter: β 0 , β 1 2 ,...,β m , σ 2 . „abhängige" Variable = Zielvariable „unabhängige" Variable = Eingangs-, erklärende Variable b Beispiel Sprengungen: Y = log 10 hErschütterungi , X (1) = log 10 hDistanzi und X (2) = log 10 hLadungi .

Embed Size (px)

Transcript of 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND...

  • 3.1. MODELL UND STATISTIK 32

    3 Multiple lineare Regression

    3.1 Modell und Statistika Zusammenhang zwischen einer Zielgrsse Y und

    mehreren Eingangsgrssen X(1), X(2), . . . , X(m)

    Yi = 0 + 1x(1)i + 2x

    (2)i + . . .+ mx

    (m)i + Ei

    Parameter: 0 , 1, 2, . . . , m , 2 .

    abhngige" Variable = Zielvariable

    unabhngige" Variable = Eingangs-, erklrende Variable

    b Beispiel Sprengungen: Y = log10Erschtterung,X(1) = log10Distanz und X(2) = log10Ladung.

  • 3.1. MODELL UND STATISTIK 333.1

    c Schtzung, Tests, Vertrauensintervalle:

    Kleinste Quadrate. Theorie etwas spter.

    d Computer-Ergebnis

    Coefficients:Value Std. Error t value Pr(> |t|)

    (Intercept) 2.8323 0.2229 12.71 0.000

    log10(dist) -1.5107 0.1111 -13.59 0.000

    log10(ladung) 0.8083 0.3042 2.66 0.011

    Residual standard error: 0.1529 on 45 degrees of freedom

    Multiple R-Squared: 0.8048

    F-statistic: 92.79 on 2 and 45 degrees of freedom

    p-value 1.11e-16

  • 3.1. MODELL UND STATISTIK 343.1

    e Tests: Welche Fragen sind zu stellen?

    Frage A.Beeinflusst die Gesamtheit der Eingangsgrssen die Zielgrsse?

    F-Test"Coefficients:...Residual standard error: 0.1529 on 45 degrees of freedomMultiple R-Squared: 0.8048F-statistic: 92.79 on 2 and 45 degrees of freedom

    p-value 1.11e-16

    f Varianzanalyse-Tabelle

    Analysis of varianceDf Sum of Sq Mean Sq F Value Pr(F)

    Regression m = 2 SSQ(R) = 136.772 68.386 T = 82.43 0.0000Residuals n p = 120 SSQ(E) = 99.554 2 = 0.830 P-WertTotal 122 SSQ(Y ) = 236.326

  • 3.1. MODELL UND STATISTIK 353.1

    g Coefficients:...Residual standard error: 0.1529 on 45 degrees of freedomMultiple R-Squared: 0.8048F-statistic: 92.79 on 2 and 45 degrees of freedom

    p-value 1.11e-16

    Multiple R-Squared" ist das Quadrat der

    multiplen Korrelation = corr(Yi , angepasste Werte yi)

    yi = 0 + 1x(1)i + 2x

    (2)i + . . . + mx

    (m)i

    R2 = Bestimmtheitsmass,

    misst den Anteil der erklrten Streuung

    an der Streuung der Y -Werte,

    R2 = 1 SSQ(E)/SSQ(Y ) .

  • 3.1. MODELL UND STATISTIK 36

    angepasste Werte

    log1

    0(E

    rsch

    tte

    rung

    )

    0.2 0.0 0.2 0.4 0.6 0.8

    0.5

    0.0

    0.5

    1.0

  • 3.1. MODELL UND STATISTIK 373.1

    h Frage B.Einfluss der einzelnen Variablen X(j)?

    Coefficients:Value Std. Error t value Pr(> |t|)

    (Intercept) 2.8323 0.2229 12.71 0.000log10(dist) -1.5107 0.1111 -13.59 0.000log10(ladung) 0.8083 0.3042 2.66 0.011

    Residual standard error: 0.1529 on 45 degrees of freedomMultiple R-Squared: 0.8048F-statistic: 92.79 on 2 and 45 degrees of freedom

    p-value 1.11e-16

    Der t-Wert und der P-Wert in derjenigen Zeile, die X(j) entspricht,prft, ob die Variable X(j)aus dem Modell weggelassen werden kann:

    Nullhypothese j = 0.

  • 3.1. MODELL UND STATISTIK 38

    3.1

    i Vertrauensintervall fr j : j t(0.975)n2 se

    (j)

    Coefficients:Value Std. Error t value Pr(> |t|)

    (Intercept) 2.8323 0.2229 12.71 0.000log10(dist) -1.5107 0.1111 -13.59 0.000log10(ladung) 0.8083 0.3042 2.66 0.011

    Residual standard error: 0.1529 on 45 degrees of freedomMultiple R-Squared: 0.8048F-statistic: 92.79 on 2 and 45 degrees of freedom

    p-value 1.11e-16

    j Beispiel: 1.5107 2.014 0.1111= 1.5107 0.2237 = [1.2869, 1.7345].

  • 3.1. MODELL UND STATISTIK 39

    3.1

    k Significance: Kolonne t in blichen Tabellen: berflssig!?

    Mass fr Signifikanz, anders als P-Wert

    Tj =j

    se(j) q(tk)0.975= Tj

    /q

    (tk)0.975 .

    Tj > 1 bedeutet signifikanter Koeffizient

  • 3.1. MODELL UND STATISTIK 40

    Coefficients:coef stcoef signif R2.x df p.value

    (Intercept) 2.832 0.000 6.31 NA 1 0.000

    log10(dist) -1.511 -0.903 -6.75 0.01659 1 0.000

    log10(ladung) 0.808 0.176 1.32 0.01659 1 0.011

    St.dev. of Error = 0.1529 on 45 degrees of freedom

    Multiple R-Squared: 0.8048

    F-statistic: 92.79 on 2 and 45 degrees of freedom

    p-value 1.11e-16

  • 3.1. MODELL UND STATISTIK 41

    Vertrauensintervall: Bis auf Faktor Tj 1.

    j

    Tj (Tj 1) = j (1 1/Tj) .

    l Standardisierte Koeffizienten.

    j = j sdX(j)

    / sd Y .

    Einfache Regression: j = Korrelation.Allg: Um wie viel verndert sich Y , gemessen in sd Y -Einh.,

    wenn sich X(j) um eine sdX(j)

    verndert?

    Vergleiche der Einflussstrke von versch. Eingangsgrssen.

  • 3.1. MODELL UND STATISTIK 42

    3.1

    m Kollinearittsmass. R2.x Bestimmtheitsmass fr Regression von

    X(j) als Zielgrsse auf alle anderen Regressoren.

    Soll niedrig sein, sonst sind Koeffizienten schlecht bestimmt.

    Siehe spter.

  • 3.2. VIELFALT DER FRAGESTELLUNGEN 43

    3.2 Vielfalt der Fragestellungena Im Modell der multiplen Regression werden

    keine Annahmen ber die X -Variablen gemacht. Beliebig:

    Datentyp: stetig, diskret, zweiwertig,spter nominal.

    Verteilung der einzelnen Variablen: keine. Nicht zufllig.

    Gemeinsame Verteilung der Variablen: keine. Nicht zufllig.Keine Unabhngigkeit vorausgesetzt!

    Ein X(j) darf eine deterministische (nicht-lineare) Funktion

    einer anderen oder mehrerer anderer sein.

  • 3.2. VIELFALT DER FRAGESTELLUNGEN 44

    3.2

    c Binre Eingangs-Variable, Yi = 0 + 1xi + Ei

    Yi = 0 + Ei fr xi = 0,Yi = 0 + 1 + Ei fr xi = 1.

    0 = 0 = Erwartungswert fr Gr. xi = 0,

    0 + 1 = 1 = Erwartungswert fr Gr. xi = 1.

    Zwei-Gruppen-Problem = Spezialfall der (einfachen) Regression.

  • 3.2. VIELFALT DER FRAGESTELLUNGEN 45

    3.2

    d Beispiel Sprengungen: Betrachte nur 2 Messstellen.

    Yi = 0 + 1x(1)i + 2x

    (2)i + Ei ,

    X(1) : log Distanz, X(2) = 0 fr eine Messst., = 1 fr andere

    Zwei Geraden y = 0 + 1x(1) , y = (0 + 2) + 1x(1)

    Gleiche Steigung 1 , Geraden sind parallel.

  • 3.2. VIELFALT DER FRAGESTELLUNGEN 46

    3.2

    e 4 Messstellen Indikatorvariable fr Gruppen j :

    x(j)i =

    {1 falls i-te Beobachtung aus der j-ten Gruppe0 sonst

    .

    Modell:

    Yi = 1x(1)i + 2x

    (2)i + . . .+ Ei

    Setzt man j = j , so steht das multiple Regressionsmodell da,

    allerdings ohne Achsenabschnitt 0 .

    Nominale Eingangs-Var., ` Werte verwandeln in ` dummy variables.

  • 3.2. VIELFALT DER FRAGESTELLUNGEN 47

    3.2

    f Modell mit Achsenabschnitt: Parameter nicht eindeutig. Lsung:

    eine Nebenbedingung" einfhren oder

    eine Variable weglassen.

    g Coefficients:Value Std. Error t value Pr(> |t|) Signif

    (Intercept) 2.51044 0.28215 8.90 0.000 ***log10(dist) -1.33779 0.14073 -9.51 0.000 ***log10(ladung) 0.69179 0.29666 2.33 0.025 *St2 0.16430 0.07494 2.19 0.034 *St3 0.02170 0.06366 0.34 0.735St4 0.11080 0.07477 1.48 0.146

    Residual standard error: 0.1468 on 42 degrees of freedomMultiple R-Squared: 0.8322F-statistic: 41.66 on 5 and 42 degrees of freedom, p-value 3.22e-15

  • 3.2. VIELFALT DER FRAGESTELLUNGEN 48

    2

    2

    2

    2

    1

    11

    1

    144

    4

    4

    3

    33

    3

    3

    1.60 1.65 1.70 1.75 1.80 1.85 1.90

    0.3

    0.4

    0.5

    0.6

    0.7

    0.8

    log10(dist)

    log

    10

    (ers

    ch

    )

    Stelle

    1

    2

    3

    4

  • 3.2. VIELFALT DER FRAGESTELLUNGEN 493.2

    h* Notation, Programm-Eingabe:log10(ersch) log10(dist) + log10(ladung) + St

    j Frage C:

    Unterscheiden sich die Stellen berhaupt

    in bezug auf die Zielgrsse?

    Nullhypothese: Die Koeffizienten der Variablen St2 bis St4 sind alle =0.

    k F-Test zum Vergleich von Modellenl Df Sum of Sq RSS F Value Pr(F)

    log10(dist) 1 1.947 2.851 90.4 4.9e-12log10(ladung) 1 0.117 1.022 5.44 0.025

    Stelle 3 0.148 1.052 2.283 0.093

  • 3.2. VIELFALT DER FRAGESTELLUNGEN 50

    Funktion regr

    Call:regr(formula = log10(ersch) ~ log10(dist) + log10(ladung) + Stelle,

    data = t.d)

    Terms:coef stcoef signif R2.x df p.value

    (Intercept) 2.5104436 0.0000000 4.408963 NA 1 0.0000log10(dist) -1.3377937 -0.7993097 -4.710628 0.24824540 1 0.0000log10(ladung) 0.6917912 0.1510358 1.155520 0.02408888 1 0.0246Stelle NA NA 1.322707 0.08883789 3 0.0930

    Coefficients for factors:$Stelle

    1 2 3 40.0000000 0.1643009 0.0216981 0.1107950

    St.dev.error: 0.1468 on 42 degrees of freedomMultiple R^2: 0.8322 Adjusted R-squared: 0.8122F-statistic: 41.66 on 5 and 42 d.f., p.value: 3.22e-15

  • 3.2. VIELFALT DER FRAGESTELLUNGEN 51

    3.2

    o Einfluss der Stelle: Je eine additive Konstante fr jede Stelle.

    Verschiedene Steigungen fr verschiedene Stellen?

    Wechselwirkungen.

    p Einfacher Fall: Sind zwei Geraden gleich?

    Yi = + xi + gi + xigi + Eigi : Gruppenzugehrigkeit

    Multiple Regression?

    Test fr = 0 oder fr = 0 , = 0.

  • 3.2. VIELFALT DER FRAGESTELLUNGEN 523.2

    q X(2) = (X(1))2 quadratische Regression

    Yi = 0 + 1xi + 2x2i + Ei .

    7.4 7.6 7.8 8.0 8.2 8.4

    23

    45

    67

    Hh

    e

    pH

  • 3.2. VIELFALT DER FRAGESTELLUNGEN 53

    3.2

    r quadratische polynomiale Regression.Spezialfall der multiplen linearen Regression!

    Linear in den Koeffizienten!

    0 + 1x(1)i + 2x

    (2)i + . . .+ mx

    (m)i

    s Optimum der Zielgrsse? nicht monotone RegressionsfunktionEinfachste Fn: Quadratisch.

    2 Eingangs-Variable: Quardatische Flche:

    Y = 0 + 1x(1) + 2x

    (2) + 11x(1)2 + 22x

    (2)2 + 12x(1)x(2)

    s schtzen, Optimum bestimmen!

  • 3.2. VIELFALT DER FRAGESTELLUNGEN 543.2

    t Das Modell der multiplen linearen Regression