Wahrscheinlichkeitsrechnung und Statistik für Biologen...

488
Wahrscheinlichkeitsrechnung und Statistik f ¨ ur Biologen Wiederholung Martin Hutzenthaler & Dirk Metzler http://evol.bio.lmu.de/_statgen Sommersemester 2012

Transcript of Wahrscheinlichkeitsrechnung und Statistik für Biologen...

Page 1: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Wahrscheinlichkeitsrechnung undStatistik fur Biologen

Wiederholung

Martin Hutzenthaler & Dirk Metzler

http://evol.bio.lmu.de/_statgen

Sommersemester 2012

Page 2: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Ubersicht1 Deskriptive Statistik2 Standardfehler und t-Tests3 Chi-Quadrat-Tests

χ2-Test fur eine feste Verteilungχ2-Test auf Unabhangigkeit (oder Homogenitat)χ2-Test fur Modelle mit Parametern

4 Konfidenzintervalle5 Lineare Regression

Lineare Zusammenhanget-Test fuer lineare ZusammenhangeUberprufen der Annahmen und Modellwahl

6 Varianzanalyse7 Versuchsplanung: Stichprobenumfang

Page 3: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Ubersicht1 Deskriptive Statistik2 Standardfehler und t-Tests3 Chi-Quadrat-Tests

χ2-Test fur eine feste Verteilungχ2-Test auf Unabhangigkeit (oder Homogenitat)χ2-Test fur Modelle mit Parametern

4 Konfidenzintervalle5 Lineare Regression

Lineare Zusammenhanget-Test fuer lineare ZusammenhangeUberprufen der Annahmen und Modellwahl

6 Varianzanalyse7 Versuchsplanung: Stichprobenumfang

Page 4: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Page 5: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Nichteiertragende Weibchen am 6. Sept. '88, n=215

Carapaxlänge [mm]

Anz

ahl

1.5 2.0 2.5 3.0 3.5

010

2030

4050

60

Page 6: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Nichteiertragende Weibchen am 6. Sept. ’88, n=215A

nza

hl

1.5 2.0 2.5 3.0 3.5

01

02

03

04

05

06

0

Carapaxlänge [mm]

Wieviele haben

Carapaxlänge

zwischen

2,0 und 2,2?

Page 7: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Nichteiertragende Weibchen am 6. Sept. ’88, n=215A

nza

hl

1.5 2.0 2.5 3.0 3.5

01

02

03

04

05

06

0

Carapaxlänge [mm]

Wieviele haben

Carapaxlänge

zwischen

2,0 und 2,2?

Page 8: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Nichteiertragende Weibchen am 6. Sept. ’88, n=215A

nza

hl

1.5 2.0 2.5 3.0 3.5

01

02

03

04

05

06

0

Carapaxlänge [mm]

Wieviele haben

Carapaxlänge

zwischen

2,0 und 2,2?

22

Page 9: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Versuche, die Histogramme zusammen zuzeigen:

Nichteiertragende Weibchen

Carapaxlänge [mm]

Dic

hte

1.5 2.0 2.5 3.0 3.5

0.0

0.5

1.0

1.5

2.0

2.5

Page 10: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Versuche, die Histogramme zusammen zuzeigen:

Nichteiertragende Weibchen

Carapaxlänge [mm]

Dic

hte

1.5 2.0 2.5 3.0 3.5

0.0

0.5

1.0

1.5

2.0

2.5

Page 11: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Versuche, die Histogramme zusammen zuzeigen:

1.5 1.7 1.9 2.1 2.3 2.5 2.7 2.9 3.1 3.3 3.5 3.7

0.0

0.5

1.0

1.5

2.0

Page 12: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Versuche, die Histogramme zusammen zuzeigen:

Page 13: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Carapaxlänge [mm]

1.5

Dic

hte

Nichteiertragende Weibchen am 6. Sept. ’88, n=215

3.0 3.52.52.0

0.0

0.5

1.0

1.5

Gesamtflache=1

Dichte ?=

Anteil des Ganzenpro mm

Welcher Anteilhatte eine Langezwischen 2.8 und 3.0 mm?

(3.0− 2.8) · 0.5 = 0.1

10%

Page 14: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Carapaxlänge [mm]

1.5

Dic

hte

Nichteiertragende Weibchen am 6. Sept. ’88, n=215

3.0 3.52.52.0

0.0

0.5

1.0

1.5

Gesamtflache=1

Dichte ?

=Anteil des Ganzenpro mm

Welcher Anteilhatte eine Langezwischen 2.8 und 3.0 mm?

(3.0− 2.8) · 0.5 = 0.1

10%

Page 15: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Carapaxlänge [mm]

1.5

Dic

hte

Nichteiertragende Weibchen am 6. Sept. ’88, n=215

3.0 3.52.52.0

0.0

0.5

1.0

1.5

Gesamtflache=1

Dichte

?

=Anteil des Ganzenpro mm

Welcher Anteilhatte eine Langezwischen 2.8 und 3.0 mm?

(3.0− 2.8) · 0.5 = 0.1

10%

Page 16: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Carapaxlänge [mm]

1.5

Dic

hte

Nichteiertragende Weibchen am 6. Sept. ’88, n=215

3.0 3.52.52.0

0.0

0.5

1.0

1.5

Gesamtflache=1

Dichte

?

=Anteil des Ganzenpro mm

Welcher Anteilhatte eine Langezwischen 2.8 und 3.0 mm?

(3.0− 2.8) · 0.5 = 0.1

10%

Page 17: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

1.0

1.5

0.5

0.0

2.0 3.0 3.51.5

Dic

hte

Nichteiertragende Weibchen am 6. Sept. ’88, n=215

Carapaxlänge [mm]

2.5

Gesamtflache=1

Dichte

?

=Anteil des Ganzenpro mm

Welcher Anteilhatte eine Langezwischen 2.8 und 3.0 mm?

(3.0− 2.8) · 0.5 = 0.1

10%

Page 18: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

1.0

1.5

0.5

0.0

2.0 3.0 3.51.5

Dic

hte

Nichteiertragende Weibchen am 6. Sept. ’88, n=215

Carapaxlänge [mm]

2.5

Gesamtflache=1

Dichte

?

=Anteil des Ganzenpro mm

Welcher Anteilhatte eine Langezwischen 2.8 und 3.0 mm?

(3.0− 2.8) · 0.5 = 0.1

10%

Page 19: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

1.0

1.5

0.5

0.0

2.0 3.0 3.51.5

Dic

hte

Nichteiertragende Weibchen am 6. Sept. ’88, n=215

Carapaxlänge [mm]

2.5

Gesamtflache=1

Dichte

?

=Anteil des Ganzenpro mm

Welcher Anteilhatte eine Langezwischen 2.8 und 3.0 mm?

(3.0− 2.8) · 0.5 = 0.1

10%

Page 20: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Zwei und mehr Dichtepolygone in einem Plot

1.0 1.5 2.0 2.5 3.0 3.5 4.0

0.0

0.5

1.0

1.5

2.0

2.5

Nichteiertragende Weibchen

Carapaxlänge [mm]

Anz

ahl 6. Sept. '88

3. Nov. '88

Page 21: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Beispiel:Vergleich von mehreren Gruppen

Page 22: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive StatistikD

icht

e

8 10 12 14

0.00

Dic

hte

8 10 12 14

0.00

Dic

hte

8 10 12 14

0.0

Dic

hte

8 10 12 14

0.0

Page 23: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

12

34

8 10 12 14

Page 24: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Der Boxplot

2.0 2.5 3.0 3.5

Carapaxlänge [mm]

Boxplot, einfache Ausführung

Page 25: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Der Boxplot

2.0 2.5 3.0 3.5

Carapaxlänge [mm]

Boxplot, einfache Ausführung

Page 26: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Der Boxplot

2.0 2.5 3.0 3.5

Carapaxlänge [mm]

Boxplot, einfache Ausführung

50 % der Daten 50 % der Daten

Page 27: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Der Boxplot

2.0 2.5 3.0 3.5

Boxplot, einfache Ausführung

Carapaxlänge [mm]

50 % der Daten 50 % der Daten

Median

Page 28: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Der Boxplot

2.0 2.5 3.0 3.5

Boxplot, einfache Ausführung

Carapaxlänge [mm]

50 % der Daten 50 % der Daten

MedianMin Max

Page 29: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Der Boxplot

2.0 2.5 3.0 3.5

Boxplot, einfache Ausführung

Carapaxlänge [mm]

MedianMin Max

25% 25% 25% 25%

Page 30: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Der Boxplot

2.0 2.5 3.0 3.5

Boxplot, einfache Ausführung

Carapaxlänge [mm]

MedianMin Max

25% 25% 25% 25%

1. Quartil 3. Quartil

Page 31: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Der Boxplot

2.0 2.5 3.0 3.5

Boxplot, Standardausführung

Carapaxlänge [mm]

Page 32: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Der Boxplot

2.0 2.5 3.0 3.5

Carapaxlänge [mm]

Boxplot, Standardausführung

Interquartilbereich

Page 33: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Der Boxplot

2.0 2.5 3.0 3.5

Carapaxlänge [mm]

Boxplot, Standardausführung

Interquartilbereich

1,5*Interquartilbereich1,5*Interquartilbereich

Page 34: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Der Boxplot

2.0 2.5 3.0 3.5

Carapaxlänge [mm]

Boxplot, Standardausführung

Page 35: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Der Boxplot

2.0 2.5 3.0 3.5

Boxplot, Profiausstattung

Carapaxlänge [mm]

Page 36: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Der Boxplot

95 % Konfidenzintervall für den Median

2.0 2.5 3.0 3.5

Boxplot, Profiausstattung

Carapaxlänge [mm]

Page 37: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Es ist oft moglich,das Wesentliche

an einer Stichprobe

mit ein paar Zahlenzusammenzufassen.

Page 38: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Wesentlich:

1. Wie groß?

Lageparameter

2. Wie variabel?

Streuungsparameter

Page 39: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Wesentlich:

1. Wie groß?

Lageparameter

2. Wie variabel?

Streuungsparameter

Page 40: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Wesentlich:

1. Wie groß?

Lageparameter

2. Wie variabel?

Streuungsparameter

Page 41: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Eine Moglichkeitkennen wir schonaus dem Boxplot:

Page 42: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Lageparameter

Der Median

Streuungsparameter

Der Quartilabstand (Q3 −Q1)

Page 43: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Lageparameter

Der Median

Streuungsparameter

Der Quartilabstand (Q3 −Q1)

Page 44: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Lageparameter

Der Median

Streuungsparameter

Der Quartilabstand (Q3 −Q1)

Page 45: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Der Median:die Halfte der Beobachtungen sind kleiner,

die Halfte sind großer.

Der Median istdas 50%-Quantil

der Daten.

Page 46: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Der Median:die Halfte der Beobachtungen sind kleiner,

die Halfte sind großer.

Der Median istdas 50%-Quantil

der Daten.

Page 47: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Die Quartile

Das erste Quartil, Q1:

ein Viertel der Beobachtungensind kleiner,

drei Viertel sind großer.

Q1 ist das25%-Quantilder Daten.

Page 48: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Die Quartile

Das erste Quartil, Q1:ein Viertel der Beobachtungen

sind kleiner,drei Viertel sind großer.

Q1 ist das25%-Quantilder Daten.

Page 49: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Die Quartile

Das erste Quartil, Q1:ein Viertel der Beobachtungen

sind kleiner,drei Viertel sind großer.

Q1 ist das25%-Quantilder Daten.

Page 50: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Die Quartile

Das dritte Quartil, Q3:

drei Viertel der Beobachtungensind kleiner,

ein Viertel sind großer.

Q3 ist das75%-Quantilder Daten.

Page 51: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Die Quartile

Das dritte Quartil, Q3:drei Viertel der Beobachtungen

sind kleiner,ein Viertel sind großer.

Q3 ist das75%-Quantilder Daten.

Page 52: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Die Quartile

Das dritte Quartil, Q3:drei Viertel der Beobachtungen

sind kleiner,ein Viertel sind großer.

Q3 ist das75%-Quantilder Daten.

Page 53: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Am haufigsten werden benutzt:

LageparameterDer Mittelwert x

StreuungsparameterDie Standardabweichung s

Page 54: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Am haufigsten werden benutzt:

LageparameterDer Mittelwert x

StreuungsparameterDie Standardabweichung s

Page 55: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Der Mittelwert

(engl. mean)

Page 56: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

NOTATION:

Wenn die Beobachtungenx1, x2, x3, . . . , xn

heißen,schreibt man oft

xfur den Mittelwert.

Page 57: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

DEFINITION:

Mittelwert

=Summe der MesswerteAnzahl der Messwerte

Page 58: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

DEFINITION:

Mittelwert

=SummeAnzahl

Page 59: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

DEFINITION:

Mittelwert

=

Der Mittelwert von x1, x2, . . . , xn als Formel:

x = (x1 + x2 + · · · + xn)/n

=1n

n∑i=1

xi

Page 60: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

DEFINITION:

Mittelwert

=

Der Mittelwert von x1, x2, . . . , xn als Formel:

x = (x1 + x2 + · · · + xn)/n

=1n

n∑i=1

xi

Page 61: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

DEFINITION:

Mittelwert

=

Der Mittelwert von x1, x2, . . . , xn als Formel:

x = (x1 + x2 + · · · + xn)/n

=1n

n∑i=1

xi

Page 62: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Geometrische Bedeutungdes Mittelwerts:

Der Schwerpunkt

Page 63: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Die Standardabweichung

Wie weit weichteine typische Beobachtung

vomMittelwert

ab ?

Page 64: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Die Standardabweichung

Wie weit weichteine typische Beobachtung

vomMittelwert

ab ?

Page 65: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Die Standardabweichung σ (“sigma”)ist ein

etwas komisches

gewichtetes Mittelder Abweichungsbetrage

und zwar

σ =√

Summe(Abweichungen2)/n

Page 66: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Die Standardabweichung σ (“sigma”)ist ein

etwas komisches

gewichtetes Mittelder Abweichungsbetrage

und zwar

σ =√

Summe(Abweichungen2)/n

Page 67: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Die Standardabweichung von x1, x2, . . . , xn

als Formel:

σ =

√√√√1n

n∑i=1

(xi − x)2

σ2 = 1n

∑ni=1(xi − x)2 heißt Varianz.

Page 68: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Die Standardabweichung von x1, x2, . . . , xn

als Formel:

σ =

√√√√1n

n∑i=1

(xi − x)2

σ2 = 1n

∑ni=1(xi − x)2 heißt Varianz.

Page 69: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Die Standardabweichung von x1, x2, . . . , xn

als Formel:

σ =

√√√√1n

n∑i=1

(xi − x)2

σ2 = 1n

∑ni=1(xi − x)2 heißt Varianz.

Page 70: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Faustregel fur die Standardabweichung

Bei ungefahr glockenformigen (also eingipfligen undsymmetrischen) Verteilungen liegen ca. 2/3 der Verteilungzwischen x − σ und x + σ.

0.0

0.2

0.4

0.6

0.8

1.0

prob

abili

ty d

ensi

ty

x −− σσ x x ++ σσ

Page 71: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Standardabweichung der Carapaxlangennichteiertragender Weibchen vom 6.9.88

Nichteiertragende Weibchen

Carapaxlänge [mm]

Dic

hte

2.0 2.5 3.0

0.0

0.5

1.0

1.5 x == 2.53

Hier liegt der Anteil zwischen x − σ und x + σ bei 72%.

Page 72: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Standardabweichung der Carapaxlangennichteiertragender Weibchen vom 6.9.88

Nichteiertragende Weibchen

Carapaxlänge [mm]

Dic

hte

2.0 2.5 3.0

0.0

0.5

1.0

1.5 x == 2.53x == 2.53σσ == 0.28

σσ2 == 0.077

Hier liegt der Anteil zwischen x − σ und x + σ bei 72%.

Page 73: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Standardabweichung der Carapaxlangennichteiertragender Weibchen vom 6.9.88

Nichteiertragende Weibchen

Carapaxlänge [mm]

Dic

hte

2.0 2.5 3.0

0.0

0.5

1.0

1.5 x == 2.53x == 2.53σσ == 0.28

σσ2 == 0.077

Hier liegt der Anteil zwischen x − σ und x + σ bei 72%.

Page 74: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Varianz der Carapaxlangennichteiertragender Weibchen vom 6.9.88

Alle Carapaxlangen im Meer: X = (X1,X2, . . . ,XN).

Carapaxlangen in unserer Stichprobe: S = (S1,S2, . . . ,Sn=215)Stichprobenvarianz:

σ2S =

1n

215∑i=1

(Si − S)2 ≈ 0,0768

Konnen wir 0,0768 als Schatzwert fur die Varianz σ2X in der

ganzen Population verwenden?Ja, konnen wir machen. Allerdings ist σ2

S im Durchschnitt umden Faktor n−1

n (= 214/215 ≈ 0,995) kleiner als σ2X

Page 75: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Varianz der Carapaxlangennichteiertragender Weibchen vom 6.9.88

Alle Carapaxlangen im Meer: X = (X1,X2, . . . ,XN).Carapaxlangen in unserer Stichprobe: S = (S1,S2, . . . ,Sn=215)

Stichprobenvarianz:

σ2S =

1n

215∑i=1

(Si − S)2 ≈ 0,0768

Konnen wir 0,0768 als Schatzwert fur die Varianz σ2X in der

ganzen Population verwenden?Ja, konnen wir machen. Allerdings ist σ2

S im Durchschnitt umden Faktor n−1

n (= 214/215 ≈ 0,995) kleiner als σ2X

Page 76: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Varianz der Carapaxlangennichteiertragender Weibchen vom 6.9.88

Alle Carapaxlangen im Meer: X = (X1,X2, . . . ,XN).Carapaxlangen in unserer Stichprobe: S = (S1,S2, . . . ,Sn=215)Stichprobenvarianz:

σ2S =

1n

215∑i=1

(Si − S)2 ≈ 0,0768

Konnen wir 0,0768 als Schatzwert fur die Varianz σ2X in der

ganzen Population verwenden?Ja, konnen wir machen. Allerdings ist σ2

S im Durchschnitt umden Faktor n−1

n (= 214/215 ≈ 0,995) kleiner als σ2X

Page 77: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Varianz der Carapaxlangennichteiertragender Weibchen vom 6.9.88

Alle Carapaxlangen im Meer: X = (X1,X2, . . . ,XN).Carapaxlangen in unserer Stichprobe: S = (S1,S2, . . . ,Sn=215)Stichprobenvarianz:

σ2S =

1n

215∑i=1

(Si − S)2 ≈ 0,0768

Konnen wir 0,0768 als Schatzwert fur die Varianz σ2X in der

ganzen Population verwenden?

Ja, konnen wir machen. Allerdings ist σ2S im Durchschnitt um

den Faktor n−1n (= 214/215 ≈ 0,995) kleiner als σ2

X

Page 78: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Varianz der Carapaxlangennichteiertragender Weibchen vom 6.9.88

Alle Carapaxlangen im Meer: X = (X1,X2, . . . ,XN).Carapaxlangen in unserer Stichprobe: S = (S1,S2, . . . ,Sn=215)Stichprobenvarianz:

σ2S =

1n

215∑i=1

(Si − S)2 ≈ 0,0768

Konnen wir 0,0768 als Schatzwert fur die Varianz σ2X in der

ganzen Population verwenden?Ja, konnen wir machen.

Allerdings ist σ2S im Durchschnitt um

den Faktor n−1n (= 214/215 ≈ 0,995) kleiner als σ2

X

Page 79: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Varianz der Carapaxlangennichteiertragender Weibchen vom 6.9.88

Alle Carapaxlangen im Meer: X = (X1,X2, . . . ,XN).Carapaxlangen in unserer Stichprobe: S = (S1,S2, . . . ,Sn=215)Stichprobenvarianz:

σ2S =

1n

215∑i=1

(Si − S)2 ≈ 0,0768

Konnen wir 0,0768 als Schatzwert fur die Varianz σ2X in der

ganzen Population verwenden?Ja, konnen wir machen. Allerdings ist σ2

S im Durchschnitt umden Faktor n−1

n (= 214/215 ≈ 0,995) kleiner als σ2X

Page 80: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Varianzbegriffe

Varianz in der Population: σ2X = 1

N

∑Ni=1(Xi − X )2

Stichprobenvarianz: σ2S = 1

n

∑ni=1(Si − S)2

korrigierte Stichprobenvarinanz:

s2 =n

n − 1σ2S

=n

n − 1· 1

n∑i=1

(Si − S)2

=1

n − 1·

n∑i=1

(Si − S)2

Mit “Standardabweichung von S” ist meistens das korrigierte sgemeint.

Page 81: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Varianzbegriffe

Varianz in der Population: σ2X = 1

N

∑Ni=1(Xi − X )2

Stichprobenvarianz: σ2S = 1

n

∑ni=1(Si − S)2

korrigierte Stichprobenvarinanz:

s2 =n

n − 1σ2S

=n

n − 1· 1

n∑i=1

(Si − S)2

=1

n − 1·

n∑i=1

(Si − S)2

Mit “Standardabweichung von S” ist meistens das korrigierte sgemeint.

Page 82: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Varianzbegriffe

Varianz in der Population: σ2X = 1

N

∑Ni=1(Xi − X )2

Stichprobenvarianz: σ2S = 1

n

∑ni=1(Si − S)2

korrigierte Stichprobenvarinanz:

s2 =n

n − 1σ2S

=n

n − 1· 1

n∑i=1

(Si − S)2

=1

n − 1·

n∑i=1

(Si − S)2

Mit “Standardabweichung von S” ist meistens das korrigierte sgemeint.

Page 83: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Varianzbegriffe

Varianz in der Population: σ2X = 1

N

∑Ni=1(Xi − X )2

Stichprobenvarianz: σ2S = 1

n

∑ni=1(Si − S)2

korrigierte Stichprobenvarinanz:

s2 =n

n − 1σ2S

=n

n − 1· 1

n∑i=1

(Si − S)2

=1

n − 1·

n∑i=1

(Si − S)2

Mit “Standardabweichung von S” ist meistens das korrigierte sgemeint.

Page 84: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Definition (Varianz, Kovarianz und Korrelation)Die Varianz einer R-wertigen Zufallsgroße X ist

VarX = σ2X = E

[(X − EX )2] .

σX =√

Var X ist die Standardabweichung.

Ist Y eine weitere reellwertige Zufallsvariable, so ist

Cov(X ,Y ) = E [(X − EX ) · (Y − EY )]

die Kovarianz von X und Y .Die Korrelation von X und Y ist

Cor(X ,Y ) =Cov(X ,Y )

σX · σY.

Page 85: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Definition (Varianz, Kovarianz und Korrelation)Die Varianz einer R-wertigen Zufallsgroße X ist

VarX = σ2X = E

[(X − EX )2] .

σX =√

Var X ist die Standardabweichung.Ist Y eine weitere reellwertige Zufallsvariable, so ist

Cov(X ,Y ) = E [(X − EX ) · (Y − EY )]

die Kovarianz von X und Y .

Die Korrelation von X und Y ist

Cor(X ,Y ) =Cov(X ,Y )

σX · σY.

Page 86: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Definition (Varianz, Kovarianz und Korrelation)Die Varianz einer R-wertigen Zufallsgroße X ist

VarX = σ2X = E

[(X − EX )2] .

σX =√

Var X ist die Standardabweichung.Ist Y eine weitere reellwertige Zufallsvariable, so ist

Cov(X ,Y ) = E [(X − EX ) · (Y − EY )]

die Kovarianz von X und Y .Die Korrelation von X und Y ist

Cor(X ,Y ) =Cov(X ,Y )

σX · σY.

Page 87: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

Definition (Varianz, Kovarianz und Korrelation)Ist (x1, y1), (x2, y2), . . . , (xn, yn) eine gepaarte Stichprobe derZufallsgroßen X und Y , so schatzen wir die Varianzen σ2

X undσ2

Y durch

s2x =

1n − 1

n∑i=1

(xi − x)2 und s2y =

1n − 1

n∑i=1

(yi − y)2,

die Kovarianz Cov(X ,Y ) durch

cov(x , y) =1

n − 1

n∑i=1

(xi − x) · (yi − y)

und die Korrelation Cor(X ,Y ) durch

cor(x , y) =cov(x , y)

sx · sy.

Page 88: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

x y1 22 13 6

x = 2, y = 3

sx =√

((1− 2)2 + (2− 2)2 + (3− 2)2) /2 = 1sy =

√((2− 3)2 + (1− 3)2 + (6− 3)2) /2 ≈ 2.65·

cov(x,y) =((1− 2) · (2− 3) + (2− 2) · (1− 3) + (3− 2) · (6− 3)) /2 = 2

cor(x,y) =cov(x,y)

sx ·sy= 2

1·2.65 ≈ 0.756

Page 89: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

x y1 22 13 6

x = 2, y = 3

sx =√

((1− 2)2 + (2− 2)2 + (3− 2)2) /2 = 1sy =

√((2− 3)2 + (1− 3)2 + (6− 3)2) /2 ≈ 2.65·

cov(x,y) =((1− 2) · (2− 3) + (2− 2) · (1− 3) + (3− 2) · (6− 3)) /2 = 2

cor(x,y) =cov(x,y)

sx ·sy= 2

1·2.65 ≈ 0.756

Page 90: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

x y1 22 13 6

x = 2, y = 3

sx =√

((1− 2)2 + (2− 2)2 + (3− 2)2) /2 = 1

sy =√

((2− 3)2 + (1− 3)2 + (6− 3)2) /2 ≈ 2.65·cov(x,y) =((1− 2) · (2− 3) + (2− 2) · (1− 3) + (3− 2) · (6− 3)) /2 = 2

cor(x,y) =cov(x,y)

sx ·sy= 2

1·2.65 ≈ 0.756

Page 91: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

x y1 22 13 6

x = 2, y = 3

sx =√

((1− 2)2 + (2− 2)2 + (3− 2)2) /2 = 1sy =

√((2− 3)2 + (1− 3)2 + (6− 3)2) /2 ≈ 2.65·

cov(x,y) =((1− 2) · (2− 3) + (2− 2) · (1− 3) + (3− 2) · (6− 3)) /2 = 2

cor(x,y) =cov(x,y)

sx ·sy= 2

1·2.65 ≈ 0.756

Page 92: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

x y1 22 13 6

x = 2, y = 3

sx =√

((1− 2)2 + (2− 2)2 + (3− 2)2) /2 = 1sy =

√((2− 3)2 + (1− 3)2 + (6− 3)2) /2 ≈ 2.65·

cov(x,y) =((1− 2) · (2− 3) + (2− 2) · (1− 3) + (3− 2) · (6− 3)) /2 = 2

cor(x,y) =cov(x,y)

sx ·sy= 2

1·2.65 ≈ 0.756

Page 93: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

x y1 22 13 6

x = 2, y = 3

sx =√

((1− 2)2 + (2− 2)2 + (3− 2)2) /2 = 1sy =

√((2− 3)2 + (1− 3)2 + (6− 3)2) /2 ≈ 2.65·

cov(x,y) =((1− 2) · (2− 3) + (2− 2) · (1− 3) + (3− 2) · (6− 3)) /2 = 2

cor(x,y) =cov(x,y)

sx ·sy= 2

1·2.65 ≈ 0.756

Page 94: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

σX = 0.95, σY = 0.92

●●●

●●

●●

● ●

●●●●

●●

●●

● ●

●●

●●

●●

●●

●●

0 2 4 6 8 10

02

46

810

X

Y

Page 95: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

σX = 0.95, σY = 0.92

Cov(X ,Y ) = −0.06

●●●

●●

●●

● ●

●●●●

●●

●●

● ●

●●

●●

●●

●●

●●

0 2 4 6 8 10

02

46

810

X

Y

Page 96: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

σX = 0.95, σY = 0.92

Cov(X ,Y ) = −0.06

Cor(X ,Y ) = −0.069

●●●

●●

●●

● ●

●●●●

●●

●●

● ●

●●

●●

●●

●●

●●

0 2 4 6 8 10

02

46

810

X

Y

Page 97: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

σX = 0.95, σY = 0.92

Cov(X ,Y ) = −0.06

Cor(X ,Y ) = −0.069

●●●

●●

●●

● ●

●●●●

●●

●●

● ●

●●

●●

●●

●●

●●

0 2 4 6 8 10

02

46

810

X

Y

● ●

●●

● ●● ●

●●

●●

●●

●●

● ●●

●●

●●

●●

●●

0 2 4 6 8 10

02

46

810

X

Y

Page 98: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

σX = 0.95, σY = 0.92

Cov(X ,Y ) = −0.06

Cor(X ,Y ) = −0.069

●●●

●●

●●

● ●

●●●●

●●

●●

● ●

●●

●●

●●

●●

●●

0 2 4 6 8 10

02

46

810

X

Y

σX = 1.13, σY = 1.2

● ●

●●

● ●● ●

●●

●●

●●

●●

● ●●

●●

●●

●●

●●

0 2 4 6 8 10

02

46

810

X

Y

Page 99: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

σX = 0.95, σY = 0.92

Cov(X ,Y ) = −0.06

Cor(X ,Y ) = −0.069

●●●

●●

●●

● ●

●●●●

●●

●●

● ●

●●

●●

●●

●●

●●

0 2 4 6 8 10

02

46

810

X

Y

σX = 1.13, σY = 1.2

Cov(X ,Y ) = −1.26

● ●

●●

● ●● ●

●●

●●

●●

●●

● ●●

●●

●●

●●

●●

0 2 4 6 8 10

02

46

810

X

Y

Page 100: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

σX = 1.14, σY = 0.78

●●

●●

●●

●●

●●

●●

●●

0 2 4 6 8 10

02

46

810

X

Y

σX = 1.13, σY = 1.2

Cov(X ,Y ) = −1.26

Cor(X ,Y ) = −0.92

● ●

●●

● ●● ●

●●

●●

●●

●●

● ●●

●●

●●

●●

●●

0 2 4 6 8 10

02

46

810

X

Y

Page 101: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

σX = 1.14, σY = 0.78

Cov(X ,Y ) = 0.78

●●

●●

●●

●●

●●

●●

●●

0 2 4 6 8 10

02

46

810

X

Y

σX = 1.13, σY = 1.2

Cov(X ,Y ) = −1.26

Cor(X ,Y ) = −0.92

● ●

●●

● ●● ●

●●

●●

●●

●●

● ●●

●●

●●

●●

●●

0 2 4 6 8 10

02

46

810

X

Y

Page 102: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

σX = 1.14, σY = 0.78

Cov(X ,Y ) = 0.78

Cor(X ,Y ) = 0.71

●●

●●

●●

●●

●●

●●

●●

0 2 4 6 8 10

02

46

810

X

Y

σX = 1.13, σY = 1.2

Cov(X ,Y ) = −1.26

Cor(X ,Y ) = −0.92

● ●

●●

● ●● ●

●●

●●

●●

●●

● ●●

●●

●●

●●

●●

0 2 4 6 8 10

02

46

810

X

Y

Page 103: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

σX = 1.14, σY = 0.78

Cov(X ,Y ) = 0.78

Cor(X ,Y ) = 0.71

●●

●●

●●

●●

●●

●●

●●

0 2 4 6 8 10

02

46

810

X

Y

●●●

●●

●●●

●●

●●●●

●●

●●

●●

●● ●

●●

●●

●●

●●●

●●

● ●● ● ●●

●●

●●

●●

●●

●●

●●

●●

●●●●

0 2 4 6 8 10

02

46

810

X

Y

Page 104: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

σX = 1.14, σY = 0.78

Cov(X ,Y ) = 0.78

Cor(X ,Y ) = 0.71

●●

●●

●●

●●

●●

●●

●●

0 2 4 6 8 10

02

46

810

X

Y

σX = 1.03, σY = 0.32

●●●

●●

●●●

●●

●●●●

●●

●●

●●

●● ●

●●

●●

●●

●●●

●●

● ●● ● ●●

●●

●●

●●

●●

●●

●●

●●

●●●●

0 2 4 6 8 10

02

46

810

X

Y

Page 105: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

σX = 1.14, σY = 0.78

Cov(X ,Y ) = 0.78

Cor(X ,Y ) = 0.71

●●

●●

●●

●●

●●

●●

●●

0 2 4 6 8 10

02

46

810

X

Y

σX = 1.03, σY = 0.32

Cov(X ,Y ) = 0.32

●●●

●●

●●●

●●

●●●●

●●

●●

●●

●● ●

●●

●●

●●

●●●

●●

● ●● ● ●●

●●

●●

●●

●●

●●

●●

●●

●●●●

0 2 4 6 8 10

02

46

810

X

Y

Page 106: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

σX = 0.91, σY = 0.88

●●

● ●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

● ●●

●●

0 2 4 6 8 10

02

46

810

X

Y

σX = 1.03, σY = 0.32

Cov(X ,Y ) = 0.32

Cor(X ,Y ) = 0.95

●●●

●●

●●●

●●

●●●●

●●

●●

●●

●● ●

●●

●●

●●

●●●

●●

● ●● ● ●●

●●

●●

●●

●●

●●

●●

●●

●●●●

0 2 4 6 8 10

02

46

810

X

Y

Page 107: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

σX = 0.91, σY = 0.88

Cov(X ,Y ) = 0

●●

● ●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

● ●●

●●

0 2 4 6 8 10

02

46

810

X

Y

σX = 1.03, σY = 0.32

Cov(X ,Y ) = 0.32

Cor(X ,Y ) = 0.95

●●●

●●

●●●

●●

●●●●

●●

●●

●●

●● ●

●●

●●

●●

●●●

●●

● ●● ● ●●

●●

●●

●●

●●

●●

●●

●●

●●●●

0 2 4 6 8 10

02

46

810

X

Y

Page 108: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Deskriptive Statistik

σX = 0.91, σY = 0.88

Cov(X ,Y ) = 0

Cor(X ,Y ) = 0

●●

● ●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

● ●●

●●

0 2 4 6 8 10

02

46

810

X

Y

σX = 1.03, σY = 0.32

Cov(X ,Y ) = 0.32

Cor(X ,Y ) = 0.95

●●●

●●

●●●

●●

●●●●

●●

●●

●●

●● ●

●●

●●

●●

●●●

●●

● ●● ● ●●

●●

●●

●●

●●

●●

●●

●●

●●●●

0 2 4 6 8 10

02

46

810

X

Y

Page 109: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Ubersicht1 Deskriptive Statistik2 Standardfehler und t-Tests3 Chi-Quadrat-Tests

χ2-Test fur eine feste Verteilungχ2-Test auf Unabhangigkeit (oder Homogenitat)χ2-Test fur Modelle mit Parametern

4 Konfidenzintervalle5 Lineare Regression

Lineare Zusammenhanget-Test fuer lineare ZusammenhangeUberprufen der Annahmen und Modellwahl

6 Varianzanalyse7 Versuchsplanung: Stichprobenumfang

Page 110: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

10 Stichproben vom Umfang 16 und diezugehorigen Stichprobenmittel

0.06 0.08 0.10 0.12 0.14 0.16 0.18 0.20

02

46

810

Transpiration (ml/(Tag*cm^2))

Page 111: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Verteilung der Stichprobenmittelwerte(Stichprobenumfang n = 16)

0.06 0.08 0.10 0.12 0.14 0.16 0.18 0.20

020

4060

80

Transpiration (ml/(Tag*cm^2))

Dic

hte

PopulationMittelwert=0.117Standardabw.=0.026

StichprobenmittelMittelwert=0.117Standardabw.= 0.0065

Page 112: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Die allgemeine Regel

Die Standardabweichungdes Mittelwerts einer Stichprobe vom

Umfang n

ist1/√

nmal

der Standardabweichungder Population.

Page 113: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Die allgemeine Regel

Die Standardabweichungdes Mittelwerts einer Stichprobe vom

Umfang n

ist1/√

nmal

der Standardabweichungder Population.

Page 114: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Die Standardabweichung der Populationbezeichnet man mit

σ

(sigma).

Die Regel schreibt man haufig so:

σ(x) =1√nσ(X )

Page 115: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Die Standardabweichung der Populationbezeichnet man mit

σ

(sigma).

Die Regel schreibt man haufig so:

σ(x) =1√nσ(X )

Page 116: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

In der Praxis istσ

unbekannt.

Es wird durchdie Stichproben-Standardabweichung s

geschatzt:

Page 117: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

In der Praxis istσ

unbekannt.

Es wird durchdie Stichproben-Standardabweichung s

geschatzt:

Page 118: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

In der Praxis istσ

unbekannt.

Es wird durchdie Stichproben-Standardabweichung s

geschatzt:

σ =??

Page 119: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

In der Praxis istσ

unbekannt.

Es wird durchdie Stichproben-Standardabweichung s

geschatzt:

σ ≈ s

Page 120: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

s/√

n(die geschatzte

Standardabweichungvon x)

nennt man denStandardfehler.

(Englisch: standard error of the mean,standard error, SEM)

Page 121: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

s/√

n(die geschatzte

Standardabweichungvon x)

nennt man denStandardfehler.

(Englisch: standard error of the mean,standard error, SEM)

Page 122: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Wir haben gesehen:

Auch wenn die Verteilung vonx mehrgipfelig

&asymmetrisch

ist

Page 123: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Hypothethische Transpirationsratenverteilung

0.06 0.08 0.10 0.12 0.14 0.16 0.18 0.20

05

1015

Transpiration (ml/(Tag*cm^2))

Dic

hte

Page 124: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

ist die Verteilung vonx

trotzdem(annahernd)

eingipfelig&

symmetrisch

(wenn der Stichprobenumfang n nur groß genug ist)

Page 125: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Hypothethische Transpirationsratenverteilung

0.06 0.08 0.10 0.12 0.14 0.16 0.18 0.20

010

2030

4050

60

Transpiration (ml/(Tag*cm^2))

Dic

hte

Population Stichprobenmittel(n=16)

Page 126: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Die Verteilung von xhat annahernd

eine ganz bestimmte Form:

die Normalverteilung.

Page 127: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Dichte der Normalverteilung

−1 0 1 2 3 4 5

0.0

0.1

0.2

0.3

0.4

Nor

mal

dich

te

µµ µµ ++ σσµµ −− σσ

Die Normalverteilungsdichte heisstauch Gauß’sche Glockenkurve

(nach Carl Friedrich Gauß, 1777-1855)

Page 128: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Dichte der Normalverteilung

−1 0 1 2 3 4 5

0.0

0.1

0.2

0.3

0.4

Nor

mal

dich

te

µµ µµ ++ σσµµ −− σσ

Die Normalverteilungsdichte heisstauch Gauß’sche Glockenkurve

(nach Carl Friedrich Gauß, 1777-1855)

Page 129: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Dichte der Normalverteilung

Die Normalverteilungsdichte heisstauch Gauß’sche Glockenkurve

(nach Carl Friedrich Gauß, 1777-1855)

Page 130: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Wichtige Folgerung

Wir betrachten das Intervallx − s/

√n x + s/

√n

x

Page 131: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Wichtige Folgerung

x − s/√

n x + s/√

n

Mit Wahrscheinlichkeit ca. 2/3liegt µ innerhalb dieses Intervalls

x

Page 132: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Wichtige Folgerung

x − s/√

n x + s/√

n

Mit Wahrscheinlichkeit ca. 2/3liegt µ innerhalb dieses Intervalls

Mit Wahrscheinlichkeit ca. 1/3liegt µ ausserhalb des Intervalls

x

Page 133: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Demnach:

Es kommt durchaus vor, dass xvon µ

um mehr alss/√

n abweicht.

Page 134: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Nehmen wir an, eine Population hat Mittelwert µ undStandardabweichung σ.

Aus dieser Population ziehen wir eine Zufallsstichprobevom Umfang n, mit Stichprobenmittelwert x .x ist eine Zufallsgroßemit Mittelwert µ und Standardabweichung σ/

√n.

Man schatzt die Standardabweichung von x mit s/√

n.s/√

n nennt man den Standardfehler.Schwankungen in x von der Große s/

√n kommen haufig

vor.Solche Schwankungen sind ”nicht signifikant“: sie konntenZufall sein.

Page 135: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Nehmen wir an, eine Population hat Mittelwert µ undStandardabweichung σ.Aus dieser Population ziehen wir eine Zufallsstichprobevom Umfang n, mit Stichprobenmittelwert x .

x ist eine Zufallsgroßemit Mittelwert µ und Standardabweichung σ/

√n.

Man schatzt die Standardabweichung von x mit s/√

n.s/√

n nennt man den Standardfehler.Schwankungen in x von der Große s/

√n kommen haufig

vor.Solche Schwankungen sind ”nicht signifikant“: sie konntenZufall sein.

Page 136: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Nehmen wir an, eine Population hat Mittelwert µ undStandardabweichung σ.Aus dieser Population ziehen wir eine Zufallsstichprobevom Umfang n, mit Stichprobenmittelwert x .x ist eine Zufallsgroße

mit Mittelwert µ und Standardabweichung σ/√

n.Man schatzt die Standardabweichung von x mit s/

√n.

s/√

n nennt man den Standardfehler.Schwankungen in x von der Große s/

√n kommen haufig

vor.Solche Schwankungen sind ”nicht signifikant“: sie konntenZufall sein.

Page 137: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Nehmen wir an, eine Population hat Mittelwert µ undStandardabweichung σ.Aus dieser Population ziehen wir eine Zufallsstichprobevom Umfang n, mit Stichprobenmittelwert x .x ist eine Zufallsgroßemit Mittelwert µ und Standardabweichung σ/

√n.

Man schatzt die Standardabweichung von x mit s/√

n.s/√

n nennt man den Standardfehler.Schwankungen in x von der Große s/

√n kommen haufig

vor.Solche Schwankungen sind ”nicht signifikant“: sie konntenZufall sein.

Page 138: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Nehmen wir an, eine Population hat Mittelwert µ undStandardabweichung σ.Aus dieser Population ziehen wir eine Zufallsstichprobevom Umfang n, mit Stichprobenmittelwert x .x ist eine Zufallsgroßemit Mittelwert µ und Standardabweichung σ/

√n.

Man schatzt die Standardabweichung von x mit s/√

n.

s/√

n nennt man den Standardfehler.Schwankungen in x von der Große s/

√n kommen haufig

vor.Solche Schwankungen sind ”nicht signifikant“: sie konntenZufall sein.

Page 139: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Nehmen wir an, eine Population hat Mittelwert µ undStandardabweichung σ.Aus dieser Population ziehen wir eine Zufallsstichprobevom Umfang n, mit Stichprobenmittelwert x .x ist eine Zufallsgroßemit Mittelwert µ und Standardabweichung σ/

√n.

Man schatzt die Standardabweichung von x mit s/√

n.s/√

n nennt man den Standardfehler.

Schwankungen in x von der Große s/√

n kommen haufigvor.Solche Schwankungen sind ”nicht signifikant“: sie konntenZufall sein.

Page 140: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Nehmen wir an, eine Population hat Mittelwert µ undStandardabweichung σ.Aus dieser Population ziehen wir eine Zufallsstichprobevom Umfang n, mit Stichprobenmittelwert x .x ist eine Zufallsgroßemit Mittelwert µ und Standardabweichung σ/

√n.

Man schatzt die Standardabweichung von x mit s/√

n.s/√

n nennt man den Standardfehler.Schwankungen in x von der Große s/

√n kommen haufig

vor.

Solche Schwankungen sind ”nicht signifikant“: sie konntenZufall sein.

Page 141: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Nehmen wir an, eine Population hat Mittelwert µ undStandardabweichung σ.Aus dieser Population ziehen wir eine Zufallsstichprobevom Umfang n, mit Stichprobenmittelwert x .x ist eine Zufallsgroßemit Mittelwert µ und Standardabweichung σ/

√n.

Man schatzt die Standardabweichung von x mit s/√

n.s/√

n nennt man den Standardfehler.Schwankungen in x von der Große s/

√n kommen haufig

vor.Solche Schwankungen sind ”nicht signifikant“: sie konntenZufall sein.

Page 142: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Allgemein giltSind X1, . . . ,Xn unabhangig aus einer Normalverteilung mitMittelwert µ gezogen und ist

s =

√√√√ 1n − 1

n∑i=1

(Xi − X )2,

so istX − µs/√

n

t-verteilt mit n − 1 Freiheitsgraden (df=degrees of freedom).

Die t-Verteilung heißt auch Student-Verteilung, da Gosset sieunter diesem Pseudonym publiziert hat.

Page 143: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Allgemein giltSind X1, . . . ,Xn unabhangig aus einer Normalverteilung mitMittelwert µ gezogen und ist

s =

√√√√ 1n − 1

n∑i=1

(Xi − X )2,

so istX − µs/√

n

t-verteilt mit n − 1 Freiheitsgraden (df=degrees of freedom).

Die t-Verteilung heißt auch Student-Verteilung, da Gosset sieunter diesem Pseudonym publiziert hat.

Page 144: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Wie (un)wahrscheinlich ist nun eine

mindestens

so große Abweichung wie 2.35 Standardfehler?

Pr(T = 2.34) =

0 Das bringt nichts!

Zu berechnen ist Pr(T ≥ 2.34), der sog. p-Wert.

2.34−2.34

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

de

nsity

Also der Gesamtinhalt dermagentafarbenen Flachen.

Page 145: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Wie (un)wahrscheinlich ist nun eine

mindestens

so große Abweichung wie 2.35 Standardfehler?

Pr(T = 2.34) = 0

Das bringt nichts!

Zu berechnen ist Pr(T ≥ 2.34), der sog. p-Wert.

2.34−2.34

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

de

nsity

Also der Gesamtinhalt dermagentafarbenen Flachen.

Page 146: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Wie (un)wahrscheinlich ist nun eine mindestensso große Abweichung wie 2.35 Standardfehler?

Pr(T = 2.34) = 0 Das bringt nichts!

Zu berechnen ist Pr(T ≥ 2.34), der sog. p-Wert.

2.34−2.34

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

de

nsity

Also der Gesamtinhalt dermagentafarbenen Flachen.

Page 147: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Wie (un)wahrscheinlich ist nun eine

mindestens

so große Abweichung wie 2.35 Standardfehler?

Pr(T = 2.34) = 0 Das bringt nichts!

Zu berechnen ist Pr(T ≥ 2.34), der sog. p-Wert.

2.34−2.34

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

de

nsity

Also der Gesamtinhalt dermagentafarbenen Flachen.

Page 148: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Wie (un)wahrscheinlich ist nun eine

mindestens

so große Abweichung wie 2.35 Standardfehler?

Pr(T = 2.34) = 0 Das bringt nichts!

Zu berechnen ist Pr(T ≥ 2.34), der sog. p-Wert.

2.34−2.34

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

de

nsity

Also der Gesamtinhalt dermagentafarbenen Flachen.

Page 149: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Wir halten fest:p −Wert = 0.03254

d.h.: Wenn die Nullhypothese “alles nur Zufall”, also in diesemFall die Hypothese µ = 0 gilt, dann ist eine mindestens so großeAbweichung sehr unwahrscheinlich.Wenn wir beschließen, dass wir die Nullhypothese immerverwerfen, wenn der p-Wert unterhalb einemSignifikanzniveau von 0.05 liegt, gilt:Falls die Nullhypothese zutrifft, ist die Wahrscheinlichkeit, dasswir sie zu Unrecht verwerfen, lediglich 0.05.

Page 150: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Wir halten fest:p −Wert = 0.03254

d.h.: Wenn die Nullhypothese “alles nur Zufall”, also in diesemFall die Hypothese µ = 0 gilt, dann ist eine mindestens so großeAbweichung sehr unwahrscheinlich.

Wenn wir beschließen, dass wir die Nullhypothese immerverwerfen, wenn der p-Wert unterhalb einemSignifikanzniveau von 0.05 liegt, gilt:Falls die Nullhypothese zutrifft, ist die Wahrscheinlichkeit, dasswir sie zu Unrecht verwerfen, lediglich 0.05.

Page 151: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Wir halten fest:p −Wert = 0.03254

d.h.: Wenn die Nullhypothese “alles nur Zufall”, also in diesemFall die Hypothese µ = 0 gilt, dann ist eine mindestens so großeAbweichung sehr unwahrscheinlich.Wenn wir beschließen, dass wir die Nullhypothese immerverwerfen, wenn der p-Wert unterhalb einemSignifikanzniveau von 0.05 liegt, gilt:

Falls die Nullhypothese zutrifft, ist die Wahrscheinlichkeit, dasswir sie zu Unrecht verwerfen, lediglich 0.05.

Page 152: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Wir halten fest:p −Wert = 0.03254

d.h.: Wenn die Nullhypothese “alles nur Zufall”, also in diesemFall die Hypothese µ = 0 gilt, dann ist eine mindestens so großeAbweichung sehr unwahrscheinlich.Wenn wir beschließen, dass wir die Nullhypothese immerverwerfen, wenn der p-Wert unterhalb einemSignifikanzniveau von 0.05 liegt, gilt:Falls die Nullhypothese zutrifft, ist die Wahrscheinlichkeit, dasswir sie zu Unrecht verwerfen, lediglich 0.05.

Page 153: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Wenn wir uns auf ein Signifikanzniveau von α = 0.05 festlegen,verwerfen wir die Nullhypothese also, wenn der t-Wert in denroten Bereich fallt:

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

density

(hier am Beispiel der t−Verteilung mit df= 16 Freiheitsgraden)

Page 154: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Welche t-Werte sind “auf dem 5%-Niveau” signifikant?

Anzahl Freiheitsgrade |t | ≥ . . .5 2.57

10 2.2320 2.0930 2.04

100 1.98∞ 1.96

> qt(0.025,df=c(5,10,20,30,100,1e100))

[1] -2.570582 -2.228139 -2.085963 -2.042272 -1.983972

-1.959964

Page 155: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Welche t-Werte sind “auf dem 5%-Niveau” signifikant?

Anzahl Freiheitsgrade |t | ≥ . . .5 2.57

10 2.2320 2.0930 2.04

100 1.98∞ 1.96

> qt(0.025,df=c(5,10,20,30,100,1e100))

[1] -2.570582 -2.228139 -2.085963 -2.042272 -1.983972

-1.959964

Page 156: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Welche t-Werte sind “auf dem 5%-Niveau” signifikant?

Anzahl Freiheitsgrade |t | ≥ . . .5 2.57

10 2.2320 2.0930 2.04

100 1.98∞ 1.96

> qt(0.025,df=c(5,10,20,30,100,1e100))

[1] -2.570582 -2.228139 -2.085963 -2.042272 -1.983972

-1.959964

Page 157: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Wir mochten belegen, dass eine Abweichung in den Datenvermutlich nicht allein auf Zufallsschwankung beruht.

Dazu spezifizieren wir zunachst eine Nullhypothese H0, d.h.wir konkretisieren, was “allein auf Zufall beruhen” bedeutet.Dann versuchen wir zu zeigen: Wenn H0 gilt, dann ist eineAbweichung wie, die mindestens so groß sind wie diebeobachtete, sehr unwahrscheinlich.Wenn uns das gelingt, verwerfen wir H0.Was wir als Abweichung auffassen, sollten klar sein, bevorwir die Daten sehen.

Page 158: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Wir mochten belegen, dass eine Abweichung in den Datenvermutlich nicht allein auf Zufallsschwankung beruht.Dazu spezifizieren wir zunachst eine Nullhypothese H0, d.h.wir konkretisieren, was “allein auf Zufall beruhen” bedeutet.

Dann versuchen wir zu zeigen: Wenn H0 gilt, dann ist eineAbweichung wie, die mindestens so groß sind wie diebeobachtete, sehr unwahrscheinlich.Wenn uns das gelingt, verwerfen wir H0.Was wir als Abweichung auffassen, sollten klar sein, bevorwir die Daten sehen.

Page 159: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Wir mochten belegen, dass eine Abweichung in den Datenvermutlich nicht allein auf Zufallsschwankung beruht.Dazu spezifizieren wir zunachst eine Nullhypothese H0, d.h.wir konkretisieren, was “allein auf Zufall beruhen” bedeutet.Dann versuchen wir zu zeigen: Wenn H0 gilt, dann ist eineAbweichung wie, die mindestens so groß sind wie diebeobachtete, sehr unwahrscheinlich.

Wenn uns das gelingt, verwerfen wir H0.Was wir als Abweichung auffassen, sollten klar sein, bevorwir die Daten sehen.

Page 160: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Wir mochten belegen, dass eine Abweichung in den Datenvermutlich nicht allein auf Zufallsschwankung beruht.Dazu spezifizieren wir zunachst eine Nullhypothese H0, d.h.wir konkretisieren, was “allein auf Zufall beruhen” bedeutet.Dann versuchen wir zu zeigen: Wenn H0 gilt, dann ist eineAbweichung wie, die mindestens so groß sind wie diebeobachtete, sehr unwahrscheinlich.Wenn uns das gelingt, verwerfen wir H0.

Was wir als Abweichung auffassen, sollten klar sein, bevorwir die Daten sehen.

Page 161: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Wir mochten belegen, dass eine Abweichung in den Datenvermutlich nicht allein auf Zufallsschwankung beruht.Dazu spezifizieren wir zunachst eine Nullhypothese H0, d.h.wir konkretisieren, was “allein auf Zufall beruhen” bedeutet.Dann versuchen wir zu zeigen: Wenn H0 gilt, dann ist eineAbweichung wie, die mindestens so groß sind wie diebeobachtete, sehr unwahrscheinlich.Wenn uns das gelingt, verwerfen wir H0.Was wir als Abweichung auffassen, sollten klar sein, bevorwir die Daten sehen.

Page 162: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Zweiseitig oder einseitig testen?

Wir beobachten einen Wert x , der deutlich großer als derH0-Erwartungswert µ ist.

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

density

2.5%2.5%

p-Wert=PrH0(|X − µ| ≥ |x − µ|)

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

density

5.0%p-Wert=PrH0(X ≥ x)

Page 163: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Reine Lehre des statistischen Testens

Formuliere eine Nullhypothese H0, z.B. µ = 0.

Lege ein Signifikanzniveau α fest; ublich ist α = 0.05.Lege ein Ereignis A fest, so dass

PrH0

(A) = α

(oder zumindest PrH0(A) ≤ α).

z.B. A = {X > q} oder A = {|X − µ| > r}allgemein: H0 = {p-Wert ≤ α}

ERST DANN: Betrachte die Daten und uberprufe, ob Aeintritt.Dann ist die Wahrscheinlichkeit, dass H0 verworfen wird,wenn H0 eigentlich richtig ist (“Fehler erster Art”) , lediglichα.

Page 164: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Reine Lehre des statistischen Testens

Formuliere eine Nullhypothese H0, z.B. µ = 0.Lege ein Signifikanzniveau α fest; ublich ist α = 0.05.

Lege ein Ereignis A fest, so dass

PrH0

(A) = α

(oder zumindest PrH0(A) ≤ α).

z.B. A = {X > q} oder A = {|X − µ| > r}allgemein: H0 = {p-Wert ≤ α}

ERST DANN: Betrachte die Daten und uberprufe, ob Aeintritt.Dann ist die Wahrscheinlichkeit, dass H0 verworfen wird,wenn H0 eigentlich richtig ist (“Fehler erster Art”) , lediglichα.

Page 165: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Reine Lehre des statistischen Testens

Formuliere eine Nullhypothese H0, z.B. µ = 0.Lege ein Signifikanzniveau α fest; ublich ist α = 0.05.Lege ein Ereignis A fest, so dass

PrH0

(A) = α

(oder zumindest PrH0(A) ≤ α).

z.B. A = {X > q} oder A = {|X − µ| > r}allgemein: H0 = {p-Wert ≤ α}ERST DANN: Betrachte die Daten und uberprufe, ob Aeintritt.Dann ist die Wahrscheinlichkeit, dass H0 verworfen wird,wenn H0 eigentlich richtig ist (“Fehler erster Art”) , lediglichα.

Page 166: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Reine Lehre des statistischen Testens

Formuliere eine Nullhypothese H0, z.B. µ = 0.Lege ein Signifikanzniveau α fest; ublich ist α = 0.05.Lege ein Ereignis A fest, so dass

PrH0

(A) = α

(oder zumindest PrH0(A) ≤ α).z.B. A = {X > q} oder A = {|X − µ| > r}

allgemein: H0 = {p-Wert ≤ α}ERST DANN: Betrachte die Daten und uberprufe, ob Aeintritt.Dann ist die Wahrscheinlichkeit, dass H0 verworfen wird,wenn H0 eigentlich richtig ist (“Fehler erster Art”) , lediglichα.

Page 167: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Reine Lehre des statistischen Testens

Formuliere eine Nullhypothese H0, z.B. µ = 0.Lege ein Signifikanzniveau α fest; ublich ist α = 0.05.Lege ein Ereignis A fest, so dass

PrH0

(A) = α

(oder zumindest PrH0(A) ≤ α).z.B. A = {X > q} oder A = {|X − µ| > r}allgemein: H0 = {p-Wert ≤ α}

ERST DANN: Betrachte die Daten und uberprufe, ob Aeintritt.Dann ist die Wahrscheinlichkeit, dass H0 verworfen wird,wenn H0 eigentlich richtig ist (“Fehler erster Art”) , lediglichα.

Page 168: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Reine Lehre des statistischen Testens

Formuliere eine Nullhypothese H0, z.B. µ = 0.Lege ein Signifikanzniveau α fest; ublich ist α = 0.05.Lege ein Ereignis A fest, so dass

PrH0

(A) = α

(oder zumindest PrH0(A) ≤ α).z.B. A = {X > q} oder A = {|X − µ| > r}allgemein: H0 = {p-Wert ≤ α}ERST DANN: Betrachte die Daten und uberprufe, ob Aeintritt.

Dann ist die Wahrscheinlichkeit, dass H0 verworfen wird,wenn H0 eigentlich richtig ist (“Fehler erster Art”) , lediglichα.

Page 169: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Reine Lehre des statistischen Testens

Formuliere eine Nullhypothese H0, z.B. µ = 0.Lege ein Signifikanzniveau α fest; ublich ist α = 0.05.Lege ein Ereignis A fest, so dass

PrH0

(A) = α

(oder zumindest PrH0(A) ≤ α).z.B. A = {X > q} oder A = {|X − µ| > r}allgemein: H0 = {p-Wert ≤ α}ERST DANN: Betrachte die Daten und uberprufe, ob Aeintritt.Dann ist die Wahrscheinlichkeit, dass H0 verworfen wird,wenn H0 eigentlich richtig ist (“Fehler erster Art”) , lediglichα.

Page 170: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Verstoße gegen die reine Lehre

“Beim zweiseitigen Testen kam ein p-Wertvon 0.06 raus. Also hab ich einseitiggetestet, da hat’s dann funktioniert.”

genauso problematisch:

“Beim ersten Blick auf die Daten habe ichsofort gesehen, dass x großer ist als µH0.

Also habe ich gleich einseitig getestet”

Page 171: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Verstoße gegen die reine Lehre

“Beim zweiseitigen Testen kam ein p-Wertvon 0.06 raus. Also hab ich einseitiggetestet, da hat’s dann funktioniert.”

genauso problematisch:

“Beim ersten Blick auf die Daten habe ichsofort gesehen, dass x großer ist als µH0.

Also habe ich gleich einseitig getestet”

Page 172: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Verstoße gegen die reine Lehre

“Beim zweiseitigen Testen kam ein p-Wertvon 0.06 raus. Also hab ich einseitiggetestet, da hat’s dann funktioniert.”

genauso problematisch:

“Beim ersten Blick auf die Daten habe ichsofort gesehen, dass x großer ist als µH0.

Also habe ich gleich einseitig getestet”

Page 173: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

WichtigDie Entscheidung ob einseitig oder zweiseitig getestet wird darfnicht von den konkreten Daten, die zum Test verwendet werden,abhangen.

Allgemeiner: Ist A das Ereignis, dass zum Verwerfen von H0

fuhrt (falls es eintritt), so muss die Festlegung von H0 stattfindenbevor man in den Daten herumgeschnuffelt hat.

Page 174: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

WichtigDie Entscheidung ob einseitig oder zweiseitig getestet wird darfnicht von den konkreten Daten, die zum Test verwendet werden,abhangen.Allgemeiner: Ist A das Ereignis, dass zum Verwerfen von H0

fuhrt (falls es eintritt), so muss die Festlegung von H0 stattfindenbevor man in den Daten herumgeschnuffelt hat.

Page 175: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Die Wahl von A sollte von der Alternative H1 abhangen, also furdas, was wir eigentlich zeigen wollen, indem wir H0 durch einenTest verwerfen. Es muss gelten:

PrH0(A) = α

undPrH1(A) = moglichst groß,

damit die W’keit eines Fehlers zweiter Art, dass also H0 nichtverworfen wird, obwohl H1 zutrifft, moglichst klein.

Page 176: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Die Wahl von A sollte von der Alternative H1 abhangen, also furdas, was wir eigentlich zeigen wollen, indem wir H0 durch einenTest verwerfen. Es muss gelten:

PrH0(A) = α

undPrH1(A) = moglichst groß,

damit die W’keit eines Fehlers zweiter Art, dass also H0 nichtverworfen wird, obwohl H1 zutrifft, moglichst klein.

Page 177: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Beispiele

Wenn wir von Anfang an unsere Vermutung belegenwollten, dass sich die Trauerschnapper bei grunem Lichtstarker auf eine Richtung konzentrieren als bei blauem,durfen wir einseitig testen.

Wenn dann aber noch so deutlich herauskommt, dass dieRichtungswahl bei blauem Licht deutlicher war, so ist dasdann nicht als signifikant zu betrachten.Wenn wir von Anfang an die Vermutung belegen wollten,dass der Kork an der Nordseite des Baumes dicker war,durfen wir einseitig testen.Wenn dann aber noch so deutlich heraauskommt, dass derKork im Westen dicker ist, ist das nicht mehr signifikant.

Page 178: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Beispiele

Wenn wir von Anfang an unsere Vermutung belegenwollten, dass sich die Trauerschnapper bei grunem Lichtstarker auf eine Richtung konzentrieren als bei blauem,durfen wir einseitig testen.Wenn dann aber noch so deutlich herauskommt, dass dieRichtungswahl bei blauem Licht deutlicher war, so ist dasdann nicht als signifikant zu betrachten.

Wenn wir von Anfang an die Vermutung belegen wollten,dass der Kork an der Nordseite des Baumes dicker war,durfen wir einseitig testen.Wenn dann aber noch so deutlich heraauskommt, dass derKork im Westen dicker ist, ist das nicht mehr signifikant.

Page 179: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Beispiele

Wenn wir von Anfang an unsere Vermutung belegenwollten, dass sich die Trauerschnapper bei grunem Lichtstarker auf eine Richtung konzentrieren als bei blauem,durfen wir einseitig testen.Wenn dann aber noch so deutlich herauskommt, dass dieRichtungswahl bei blauem Licht deutlicher war, so ist dasdann nicht als signifikant zu betrachten.Wenn wir von Anfang an die Vermutung belegen wollten,dass der Kork an der Nordseite des Baumes dicker war,durfen wir einseitig testen.

Wenn dann aber noch so deutlich heraauskommt, dass derKork im Westen dicker ist, ist das nicht mehr signifikant.

Page 180: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Beispiele

Wenn wir von Anfang an unsere Vermutung belegenwollten, dass sich die Trauerschnapper bei grunem Lichtstarker auf eine Richtung konzentrieren als bei blauem,durfen wir einseitig testen.Wenn dann aber noch so deutlich herauskommt, dass dieRichtungswahl bei blauem Licht deutlicher war, so ist dasdann nicht als signifikant zu betrachten.Wenn wir von Anfang an die Vermutung belegen wollten,dass der Kork an der Nordseite des Baumes dicker war,durfen wir einseitig testen.Wenn dann aber noch so deutlich heraauskommt, dass derKork im Westen dicker ist, ist das nicht mehr signifikant.

Page 181: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Angenommen, H0 wird auf dem 5%-Niveau verworfen. WelcheAussage gilt dann?

Die Nullhypothese ist falsch.

Page 182: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Angenommen, H0 wird auf dem 5%-Niveau verworfen. WelcheAussage gilt dann?

Die Nullhypothese ist falsch.

Page 183: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Angenommen, H0 wird auf dem 5%-Niveau verworfen. WelcheAussage gilt dann?

Die Nullhypothese ist falsch.H0 ist mit 95%-iger Wahrscheinlichkeit falsch.

Page 184: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Angenommen, H0 wird auf dem 5%-Niveau verworfen. WelcheAussage gilt dann?

Die Nullhypothese ist falsch.H0 ist mit 95%-iger Wahrscheinlichkeit falsch.

Page 185: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Angenommen, H0 wird auf dem 5%-Niveau verworfen. WelcheAussage gilt dann?

Die Nullhypothese ist falsch.H0 ist mit 95%-iger Wahrscheinlichkeit falsch.Falls die Nullhypothese wahr ist, beobachtet man ein soextremes Ergebnis nur in 5% der Falle.

Page 186: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Angenommen, H0 wird auf dem 5%-Niveau verworfen. WelcheAussage gilt dann?

Die Nullhypothese ist falsch.H0 ist mit 95%-iger Wahrscheinlichkeit falsch.

Falls die Nullhypothese wahr ist, beobachtet man ein so

extremes Ergebnis nur in 5% der Falle.X

Page 187: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Angenommen, H0 konnte durch den Test nicht verworfenwerden. Welche Aussagen sind dann richtig?

Wir mussen die Alternative H1 verwerfen.

Page 188: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Angenommen, H0 konnte durch den Test nicht verworfenwerden. Welche Aussagen sind dann richtig?

Wir mussen die Alternative H1 verwerfen.

Page 189: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Angenommen, H0 konnte durch den Test nicht verworfenwerden. Welche Aussagen sind dann richtig?

Wir mussen die Alternative H1 verwerfen.H0 ist wahr.

Page 190: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Angenommen, H0 konnte durch den Test nicht verworfenwerden. Welche Aussagen sind dann richtig?

Wir mussen die Alternative H1 verwerfen.H0 ist wahr.

Page 191: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Angenommen, H0 konnte durch den Test nicht verworfenwerden. Welche Aussagen sind dann richtig?

Wir mussen die Alternative H1 verwerfen.H0 ist wahr.H0 ist wahrscheinlich wahr.

Page 192: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Angenommen, H0 konnte durch den Test nicht verworfenwerden. Welche Aussagen sind dann richtig?

Wir mussen die Alternative H1 verwerfen.H0 ist wahr.H0 ist wahrscheinlich wahr.

Page 193: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Angenommen, H0 konnte durch den Test nicht verworfenwerden. Welche Aussagen sind dann richtig?

Wir mussen die Alternative H1 verwerfen.H0 ist wahr.H0 ist wahrscheinlich wahr.Es ist ungefahrlich, davon auzugehen, dass H0 zutrifft.

Page 194: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Angenommen, H0 konnte durch den Test nicht verworfenwerden. Welche Aussagen sind dann richtig?

Wir mussen die Alternative H1 verwerfen.H0 ist wahr.H0 ist wahrscheinlich wahr.Es ist ungefahrlich, davon auzugehen, dass H0 zutrifft.

Page 195: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Angenommen, H0 konnte durch den Test nicht verworfenwerden. Welche Aussagen sind dann richtig?

Wir mussen die Alternative H1 verwerfen.H0 ist wahr.H0 ist wahrscheinlich wahr.Es ist ungefahrlich, davon auzugehen, dass H0 zutrifft.Auch wenn H0 zutrifft, ist es nicht sehr unwahrscheinlich,dass unsere Teststatistik einen so extrem erscheinendenWert annimmt.

Page 196: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Angenommen, H0 konnte durch den Test nicht verworfenwerden. Welche Aussagen sind dann richtig?

Wir mussen die Alternative H1 verwerfen.H0 ist wahr.H0 ist wahrscheinlich wahr.Es ist ungefahrlich, davon auzugehen, dass H0 zutrifft.Auch wenn H0 zutrifft, ist es nicht sehr unwahrscheinlich,dass unsere Teststatistik einen so extrem erscheinendenWert annimmt.X

Page 197: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Angenommen, H0 konnte durch den Test nicht verworfenwerden. Welche Aussagen sind dann richtig?

Wir mussen die Alternative H1 verwerfen.H0 ist wahr.H0 ist wahrscheinlich wahr.Es ist ungefahrlich, davon auzugehen, dass H0 zutrifft.Auch wenn H0 zutrifft, ist es nicht sehr unwahrscheinlich,dass unsere Teststatistik einen so extrem erscheinendenWert annimmt.XDie Nullhypothese ist in dieser Hinsicht mit den Datenvertraglich.

Page 198: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Angenommen, H0 konnte durch den Test nicht verworfenwerden. Welche Aussagen sind dann richtig?

Wir mussen die Alternative H1 verwerfen.H0 ist wahr.H0 ist wahrscheinlich wahr.Es ist ungefahrlich, davon auzugehen, dass H0 zutrifft.Auch wenn H0 zutrifft, ist es nicht sehr unwahrscheinlich,dass unsere Teststatistik einen so extrem erscheinendenWert annimmt.XDie Nullhypothese ist in dieser Hinsicht mit den Datenvertraglich.X

Page 199: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Frage

Hipparion:Laubfresser −→ Grasfresser

andere Nahrung −→ andere Zahne?

Messungen: mesiodistale Langedistal = von der Mittellinie weg

Page 200: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Frage

Hipparion:Laubfresser −→ Grasfresser

andere Nahrung −→ andere Zahne?

Messungen: mesiodistale Langedistal = von der Mittellinie weg

Page 201: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Frage

Hipparion:Laubfresser −→ Grasfresser

andere Nahrung −→ andere Zahne?

Messungen: mesiodistale Langedistal = von der Mittellinie weg

Page 202: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

25 30 35 40

H. l

ibyc

umH

. afr

ican

um

mediodistale Länge [mm]

Page 203: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

25 30 35 40

H. l

ibyc

umH

. afr

ican

um

mediodistale Länge [mm]

xA == 25.9

xL == 28.4

Page 204: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

25 30 35 40

H. l

ibyc

umH

. afr

ican

um

mediodistale Länge [mm]

xA == 25.9, sA == 2.2

xL == 28.4, sL == 4.3

xA ++ sAxA −− sA

xL ++ sLxL −− sL

Page 205: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

25 30 35 40

H. l

ibyc

umH

. afr

ican

um

mediodistale Länge [mm]

xA ++ Standardfehler

xL ++ Standardfehler

Page 206: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Wir beobachten (nA = 39, nL = 38):

xA = 25,9, sA = 2,2,

unser Schatzwert fur dieStreung von xA ist also fA = sA = 2,2/

√nA = 0,36

(Standardfehler),

xL = 28,4, sL = 4,3, unser Schatzwert fur die Streungvon xL ist also fL = sL = 2,2/

√nL = 0,70.

Ist die beobachtete Abweichung xL − xA = 2,5 mitder Nullhypothese vertraglich, dass µL = µA?

Page 207: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Wir beobachten (nA = 39, nL = 38):

xA = 25,9, sA = 2,2, unser Schatzwert fur dieStreung von xA ist also fA = sA = 2,2/

√nA = 0,36

(Standardfehler)

,

xL = 28,4, sL = 4,3, unser Schatzwert fur die Streungvon xL ist also fL = sL = 2,2/

√nL = 0,70.

Ist die beobachtete Abweichung xL − xA = 2,5 mitder Nullhypothese vertraglich, dass µL = µA?

Page 208: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Wir beobachten (nA = 39, nL = 38):

xA = 25,9, sA = 2,2, unser Schatzwert fur dieStreung von xA ist also fA = sA = 2,2/

√nA = 0,36

(Standardfehler),

xL = 28,4, sL = 4,3,

unser Schatzwert fur die Streungvon xL ist also fL = sL = 2,2/

√nL = 0,70.

Ist die beobachtete Abweichung xL − xA = 2,5 mitder Nullhypothese vertraglich, dass µL = µA?

Page 209: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Wir beobachten (nA = 39, nL = 38):

xA = 25,9, sA = 2,2, unser Schatzwert fur dieStreung von xA ist also fA = sA = 2,2/

√nA = 0,36

(Standardfehler),

xL = 28,4, sL = 4,3, unser Schatzwert fur die Streungvon xL ist also fL = sL = 2,2/

√nL = 0,70.

Ist die beobachtete Abweichung xL − xA = 2,5 mitder Nullhypothese vertraglich, dass µL = µA?

Page 210: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Wir beobachten (nA = 39, nL = 38):

xA = 25,9, sA = 2,2, unser Schatzwert fur dieStreung von xA ist also fA = sA = 2,2/

√nA = 0,36

(Standardfehler),

xL = 28,4, sL = 4,3, unser Schatzwert fur die Streungvon xL ist also fL = sL = 2,2/

√nL = 0,70.

Ist die beobachtete Abweichung xL − xA = 2,5 mitder Nullhypothese vertraglich, dass µL = µA?

Page 211: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

t-Statistik

Ist die beobachtete Abweichung xL − xA = 2,5 mitder Nullhypothese vertraglich, dass µL = µA?

Wir schatzen die Streuung von xL − xA durch f , wo

f 2 = f 2L + f 2

A

und bilden t =xL − xA

f.

Wenn die Nullhypothese zutrifft, ist t (approximativ)Student-verteilt mit g Freiheitsgraden

(wobei g aus den Daten geschatzt wird.)

Page 212: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

t-Statistik

Ist die beobachtete Abweichung xL − xA = 2,5 mitder Nullhypothese vertraglich, dass µL = µA?

Wir schatzen die Streuung von xL − xA durch f , wo

f 2 = f 2L + f 2

A

und bilden t =xL − xA

f.

Wenn die Nullhypothese zutrifft, ist t (approximativ)Student-verteilt mit g Freiheitsgraden

(wobei g aus den Daten geschatzt wird.)

Page 213: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

t-Statistik

Ist die beobachtete Abweichung xL − xA = 2,5 mitder Nullhypothese vertraglich, dass µL = µA?

Wir schatzen die Streuung von xL − xA durch f , wo

f 2 = f 2L + f 2

A

und bilden t =xL − xA

f.

Wenn die Nullhypothese zutrifft, ist t (approximativ)Student-verteilt mit g Freiheitsgraden

(wobei g aus den Daten geschatzt wird.)

Page 214: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

t-Statistik

Ist die beobachtete Abweichung xL − xA = 2,5 mitder Nullhypothese vertraglich, dass µL = µA?

Wir schatzen die Streuung von xL − xA durch f , wo

f 2 = f 2L + f 2

A

und bilden t =xL − xA

f.

Wenn die Nullhypothese zutrifft, ist t (approximativ)Student-verteilt mit g Freiheitsgraden

(wobei g aus den Daten geschatzt wird.)

Page 215: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Theorem (Welch-t-Test, die Varianzen durfen ungleich sein)Seien X1, . . . ,Xn und Y1, . . . ,Ym unabhangige normalverteilteZufallsvariablen mit (moglicherweise verschiedenen) VarianzenVarXi = σ2

X und VarYi = σ2Y . Seien sX und sY die aus den

Stichproben berechneten Standardabweichungen. Unter derNullhypothese gleicher Mittelwerten EXi = EYj ist die Statistik

t =X − Y√

s2Xn +

s2Y

m

ungefahr t-verteilt mit

(s2Xn +

s2Ym

)2

s4X

n2·(n−1)+

s4Y

m2·(m−1)

Freiheitsgraden.

(Diese Approximation fur die Freiheitsgrade brauchen Sie sichnicht zu merken. R ubernimmt das fur Sie.)

Page 216: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Theorem (Welch-t-Test, die Varianzen durfen ungleich sein)Seien X1, . . . ,Xn und Y1, . . . ,Ym unabhangige normalverteilteZufallsvariablen mit (moglicherweise verschiedenen) VarianzenVarXi = σ2

X und VarYi = σ2Y . Seien sX und sY die aus den

Stichproben berechneten Standardabweichungen. Unter derNullhypothese gleicher Mittelwerten EXi = EYj ist die Statistik

t =X − Y√

s2Xn +

s2Y

m

ungefahr t-verteilt mit

(s2Xn +

s2Ym

)2

s4X

n2·(n−1)+

s4Y

m2·(m−1)

Freiheitsgraden.

(Diese Approximation fur die Freiheitsgrade brauchen Sie sichnicht zu merken. R ubernimmt das fur Sie.)

Page 217: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Standardfehler und t-Tests

Theorem (zwei-Stichproben t-Test, ungepaart mit gleichenVarianzen)Seien X1, . . . ,Xn und Y1, . . . ,Ym unabhangige normalverteilteZufallsvariablen mit der selben Varianz σ2. Als gepoolteStichprobenvarianz definieren wir

s2p =

(n − 1) · s2X + (m − 1) · s2

Y

m + n − 2.

Unter der Nullhypothese gleicher Erwartungswerte µX = µy folgtdie Statistik

t =X − Y

sp ·√

1n + 1

m

einer t-Verteilung mit n + m − 2 mit Freiheitsgraden.

Page 218: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Chi-Quadrat-Tests

Ubersicht1 Deskriptive Statistik2 Standardfehler und t-Tests3 Chi-Quadrat-Tests

χ2-Test fur eine feste Verteilungχ2-Test auf Unabhangigkeit (oder Homogenitat)χ2-Test fur Modelle mit Parametern

4 Konfidenzintervalle5 Lineare Regression

Lineare Zusammenhanget-Test fuer lineare ZusammenhangeUberprufen der Annahmen und Modellwahl

6 Varianzanalyse7 Versuchsplanung: Stichprobenumfang

Page 219: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Chi-Quadrat-Tests χ2-Test fur eine feste Verteilung

Ubersicht1 Deskriptive Statistik2 Standardfehler und t-Tests3 Chi-Quadrat-Tests

χ2-Test fur eine feste Verteilungχ2-Test auf Unabhangigkeit (oder Homogenitat)χ2-Test fur Modelle mit Parametern

4 Konfidenzintervalle5 Lineare Regression

Lineare Zusammenhanget-Test fuer lineare ZusammenhangeUberprufen der Annahmen und Modellwahl

6 Varianzanalyse7 Versuchsplanung: Stichprobenumfang

Page 220: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Chi-Quadrat-Tests χ2-Test fur eine feste Verteilung

Szenario:Ein Experiment habe r mogliche Ausgange (z.B. r = 6 beimWerfen eines Wurfels).

Unter der Nullhypothese H0 habe Ausgang iWahrscheinlichkeit pi .Unter n unabhangigen Wiederholungen des Experimentsbeobachten wir Bi mal Ausgang i . Unter H0 erwarten wirEi := E[Bi ] = npi mal Augang i zu beobachten.

Frage: Geben die Beobachtungen Anlass, an der Nullhypothesezu zweifeln?

Page 221: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Chi-Quadrat-Tests χ2-Test fur eine feste Verteilung

Szenario:Ein Experiment habe r mogliche Ausgange (z.B. r = 6 beimWerfen eines Wurfels).Unter der Nullhypothese H0 habe Ausgang iWahrscheinlichkeit pi .

Unter n unabhangigen Wiederholungen des Experimentsbeobachten wir Bi mal Ausgang i . Unter H0 erwarten wirEi := E[Bi ] = npi mal Augang i zu beobachten.

Frage: Geben die Beobachtungen Anlass, an der Nullhypothesezu zweifeln?

Page 222: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Chi-Quadrat-Tests χ2-Test fur eine feste Verteilung

Szenario:Ein Experiment habe r mogliche Ausgange (z.B. r = 6 beimWerfen eines Wurfels).Unter der Nullhypothese H0 habe Ausgang iWahrscheinlichkeit pi .Unter n unabhangigen Wiederholungen des Experimentsbeobachten wir Bi mal Ausgang i .

Unter H0 erwarten wirEi := E[Bi ] = npi mal Augang i zu beobachten.

Frage: Geben die Beobachtungen Anlass, an der Nullhypothesezu zweifeln?

Page 223: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Chi-Quadrat-Tests χ2-Test fur eine feste Verteilung

Szenario:Ein Experiment habe r mogliche Ausgange (z.B. r = 6 beimWerfen eines Wurfels).Unter der Nullhypothese H0 habe Ausgang iWahrscheinlichkeit pi .Unter n unabhangigen Wiederholungen des Experimentsbeobachten wir Bi mal Ausgang i . Unter H0 erwarten wirEi := E[Bi ] = npi mal Augang i zu beobachten.

Frage: Geben die Beobachtungen Anlass, an der Nullhypothesezu zweifeln?

Page 224: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Chi-Quadrat-Tests χ2-Test fur eine feste Verteilung

Szenario:Ein Experiment habe r mogliche Ausgange (z.B. r = 6 beimWerfen eines Wurfels).Unter der Nullhypothese H0 habe Ausgang iWahrscheinlichkeit pi .Unter n unabhangigen Wiederholungen des Experimentsbeobachten wir Bi mal Ausgang i . Unter H0 erwarten wirEi := E[Bi ] = npi mal Augang i zu beobachten.

Frage: Geben die Beobachtungen Anlass, an der Nullhypothesezu zweifeln?

Page 225: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Chi-Quadrat-Tests χ2-Test fur eine feste Verteilung

Erwarte Ei = npi mal Ausgang i , beoachte Bi mal.Geben diese Beobachtungen Anlass, an der Nullhypothese zuzweifeln?

Vorgehen:

Berechne X 2 =∑

i

(Bi − Ei)2

Ei

X 2 ist unter (approximativ, sofern n genugend groß)χ2

r−1-verteilt (”Chi-Quadrat-verteilt mit r − 1Freiheitsgraden“)Lehne H0 zum Signifikanzniveau α ab, wenn X 2 ≥ q1−α, woq1−α das (1− α)-Quantil der χ2-Verteilung mit r − 1Freiheitsgraden ist.

95%-Quantil der χ2-Verteilung in Abhangigkeit der AnzahlFreiheitsgrade

F.g. 1 2 3 4 5 6 7 8 9 10Quantil 3.84 5.99 7.81 9.49 11.07 12.59 14.07 15.51 16.92 18.31

Page 226: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Chi-Quadrat-Tests χ2-Test fur eine feste Verteilung

Erwarte Ei = npi mal Ausgang i , beoachte Bi mal.Geben diese Beobachtungen Anlass, an der Nullhypothese zuzweifeln?

Vorgehen:

Berechne X 2 =∑

i

(Bi − Ei)2

Ei

X 2 ist unter (approximativ, sofern n genugend groß)χ2

r−1-verteilt (”Chi-Quadrat-verteilt mit r − 1Freiheitsgraden“)Lehne H0 zum Signifikanzniveau α ab, wenn X 2 ≥ q1−α, woq1−α das (1− α)-Quantil der χ2-Verteilung mit r − 1Freiheitsgraden ist.

95%-Quantil der χ2-Verteilung in Abhangigkeit der AnzahlFreiheitsgrade

F.g. 1 2 3 4 5 6 7 8 9 10Quantil 3.84 5.99 7.81 9.49 11.07 12.59 14.07 15.51 16.92 18.31

Page 227: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Chi-Quadrat-Tests χ2-Test fur eine feste Verteilung

Erwarte Ei = npi mal Ausgang i , beoachte Bi mal.Geben diese Beobachtungen Anlass, an der Nullhypothese zuzweifeln?

Vorgehen:

Berechne X 2 =∑

i

(Bi − Ei)2

Ei

X 2 ist unter (approximativ, sofern n genugend groß)χ2

r−1-verteilt (”Chi-Quadrat-verteilt mit r − 1Freiheitsgraden“)

Lehne H0 zum Signifikanzniveau α ab, wenn X 2 ≥ q1−α, woq1−α das (1− α)-Quantil der χ2-Verteilung mit r − 1Freiheitsgraden ist.

95%-Quantil der χ2-Verteilung in Abhangigkeit der AnzahlFreiheitsgrade

F.g. 1 2 3 4 5 6 7 8 9 10Quantil 3.84 5.99 7.81 9.49 11.07 12.59 14.07 15.51 16.92 18.31

Page 228: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Chi-Quadrat-Tests χ2-Test fur eine feste Verteilung

Erwarte Ei = npi mal Ausgang i , beoachte Bi mal.Geben diese Beobachtungen Anlass, an der Nullhypothese zuzweifeln?

Vorgehen:

Berechne X 2 =∑

i

(Bi − Ei)2

Ei

X 2 ist unter (approximativ, sofern n genugend groß)χ2

r−1-verteilt (”Chi-Quadrat-verteilt mit r − 1Freiheitsgraden“)Lehne H0 zum Signifikanzniveau α ab, wenn X 2 ≥ q1−α, woq1−α das (1− α)-Quantil der χ2-Verteilung mit r − 1Freiheitsgraden ist.

95%-Quantil der χ2-Verteilung in Abhangigkeit der AnzahlFreiheitsgrade

F.g. 1 2 3 4 5 6 7 8 9 10Quantil 3.84 5.99 7.81 9.49 11.07 12.59 14.07 15.51 16.92 18.31

Page 229: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Chi-Quadrat-Tests χ2-Test fur eine feste Verteilung

Beispiel: Unter 12.000 Wurfen eines Wurfels beobachten wir folgendeHaufigkeiten der Augenzahlen:

i 1 2 3 4 5 6Bi 2014 2000 2017 1925 1998 2046

Ist der Wurfel fair (H0: p1 = · · · = p6 = 1/6)?Es ist E1 = · · · = E6 = 12.000 · 1/6 = 2000,

X 2 =(2014− 2000)2

2000+

(2000− 2000)2

2000+

(2017− 2000)2

2000

+(1925− 2000)2

2000+

(1998− 2000)2

2000+

(2046− 2000)2

2000= 4,115.

Das 95%-Quantil der χ2-Verteilung mit 5 Freiheitsgraden ist 9,49 > 4,115, wir lehnenH0 nicht ab (zum Signifikanzniveau 5%).95%-Quantil der χ2-Verteilung in Abh.keit d. Anz. Freiheitsgrade

F.g. 1 2 3 4 5 6 7 8 9 10Quantil 3.84 5.99 7.81 9.49 11.07 12.59 14.07 15.51 16.92 18.31

Bemerkung: χ25([4,115,∞)) = 0,533, d.h. wir finden einen

p-Wert von 53%, der Test gibt keinen Anlass zu Zweifel an H0.

Page 230: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Chi-Quadrat-Tests χ2-Test fur eine feste Verteilung

Beispiel: Unter 12.000 Wurfen eines Wurfels beobachten wir folgendeHaufigkeiten der Augenzahlen:

i 1 2 3 4 5 6Bi 2014 2000 2017 1925 1998 2046

Ist der Wurfel fair (H0: p1 = · · · = p6 = 1/6)?

Es ist E1 = · · · = E6 = 12.000 · 1/6 = 2000,

X 2 =(2014− 2000)2

2000+

(2000− 2000)2

2000+

(2017− 2000)2

2000

+(1925− 2000)2

2000+

(1998− 2000)2

2000+

(2046− 2000)2

2000= 4,115.

Das 95%-Quantil der χ2-Verteilung mit 5 Freiheitsgraden ist 9,49 > 4,115, wir lehnenH0 nicht ab (zum Signifikanzniveau 5%).95%-Quantil der χ2-Verteilung in Abh.keit d. Anz. Freiheitsgrade

F.g. 1 2 3 4 5 6 7 8 9 10Quantil 3.84 5.99 7.81 9.49 11.07 12.59 14.07 15.51 16.92 18.31

Bemerkung: χ25([4,115,∞)) = 0,533, d.h. wir finden einen

p-Wert von 53%, der Test gibt keinen Anlass zu Zweifel an H0.

Page 231: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Chi-Quadrat-Tests χ2-Test fur eine feste Verteilung

Beispiel: Unter 12.000 Wurfen eines Wurfels beobachten wir folgendeHaufigkeiten der Augenzahlen:

i 1 2 3 4 5 6Bi 2014 2000 2017 1925 1998 2046

Ist der Wurfel fair (H0: p1 = · · · = p6 = 1/6)?Es ist E1 = · · · = E6 = 12.000 · 1/6 = 2000,

X 2 =(2014− 2000)2

2000+

(2000− 2000)2

2000+

(2017− 2000)2

2000

+(1925− 2000)2

2000+

(1998− 2000)2

2000+

(2046− 2000)2

2000= 4,115.

Das 95%-Quantil der χ2-Verteilung mit 5 Freiheitsgraden ist 9,49 > 4,115, wir lehnenH0 nicht ab (zum Signifikanzniveau 5%).95%-Quantil der χ2-Verteilung in Abh.keit d. Anz. Freiheitsgrade

F.g. 1 2 3 4 5 6 7 8 9 10Quantil 3.84 5.99 7.81 9.49 11.07 12.59 14.07 15.51 16.92 18.31

Bemerkung: χ25([4,115,∞)) = 0,533, d.h. wir finden einen

p-Wert von 53%, der Test gibt keinen Anlass zu Zweifel an H0.

Page 232: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Chi-Quadrat-Tests χ2-Test fur eine feste Verteilung

Beispiel: Unter 12.000 Wurfen eines Wurfels beobachten wir folgendeHaufigkeiten der Augenzahlen:

i 1 2 3 4 5 6Bi 2014 2000 2017 1925 1998 2046

Ist der Wurfel fair (H0: p1 = · · · = p6 = 1/6)?Es ist E1 = · · · = E6 = 12.000 · 1/6 = 2000,

X 2 =(2014− 2000)2

2000+

(2000− 2000)2

2000+

(2017− 2000)2

2000

+(1925− 2000)2

2000+

(1998− 2000)2

2000+

(2046− 2000)2

2000= 4,115.

Das 95%-Quantil der χ2-Verteilung mit 5 Freiheitsgraden ist 9,49 > 4,115, wir lehnenH0 nicht ab (zum Signifikanzniveau 5%).95%-Quantil der χ2-Verteilung in Abh.keit d. Anz. Freiheitsgrade

F.g. 1 2 3 4 5 6 7 8 9 10Quantil 3.84 5.99 7.81 9.49 11.07 12.59 14.07 15.51 16.92 18.31

Bemerkung: χ25([4,115,∞)) = 0,533, d.h. wir finden einen

p-Wert von 53%, der Test gibt keinen Anlass zu Zweifel an H0.

Page 233: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Chi-Quadrat-Tests χ2-Test fur eine feste Verteilung

Beispiel: Unter 12.000 Wurfen eines Wurfels beobachten wir folgendeHaufigkeiten der Augenzahlen:

i 1 2 3 4 5 6Bi 2014 2000 2017 1925 1998 2046

Ist der Wurfel fair (H0: p1 = · · · = p6 = 1/6)?Es ist E1 = · · · = E6 = 12.000 · 1/6 = 2000,

X 2 =(2014− 2000)2

2000+

(2000− 2000)2

2000+

(2017− 2000)2

2000

+(1925− 2000)2

2000+

(1998− 2000)2

2000+

(2046− 2000)2

2000= 4,115.

Das 95%-Quantil der χ2-Verteilung mit 5 Freiheitsgraden ist 9,49 > 4,115, wir lehnenH0 nicht ab (zum Signifikanzniveau 5%).95%-Quantil der χ2-Verteilung in Abh.keit d. Anz. Freiheitsgrade

F.g. 1 2 3 4 5 6 7 8 9 10Quantil 3.84 5.99 7.81 9.49 11.07 12.59 14.07 15.51 16.92 18.31

Bemerkung: χ25([4,115,∞)) = 0,533, d.h. wir finden einen

p-Wert von 53%, der Test gibt keinen Anlass zu Zweifel an H0.

Page 234: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Chi-Quadrat-Tests χ2-Test auf Unabhangigkeit (oder Homogenitat)

Ubersicht1 Deskriptive Statistik2 Standardfehler und t-Tests3 Chi-Quadrat-Tests

χ2-Test fur eine feste Verteilungχ2-Test auf Unabhangigkeit (oder Homogenitat)χ2-Test fur Modelle mit Parametern

4 Konfidenzintervalle5 Lineare Regression

Lineare Zusammenhanget-Test fuer lineare ZusammenhangeUberprufen der Annahmen und Modellwahl

6 Varianzanalyse7 Versuchsplanung: Stichprobenumfang

Page 235: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Chi-Quadrat-Tests χ2-Test auf Unabhangigkeit (oder Homogenitat)

Beispiel: 48 Teilnehmer eines Management-Kurses entscheidenuber Beforderung:

Weiblich Mannlich SummeBefordern 14 21 35Ablegen 10 3 13Summe 24 24 48

Kann das Zufall sein? Testen wir H0 : ”Geschlecht undBeforderungsentscheidung sind unabhangig“.Anteil Weiblich=24/48=0.5, Anteil befordert=35/48=0.73, alsoerwartete Zahlen unter H0:

Weiblich Mannlich SummeBefordern 17.5 (= 48 · 24

48 ·3548) 17.5 (= 48 · 24

48 ·3548) 35

Ablegen 6.5 (= 48 · 2448 ·

1348) 6.5 (= 48 · 24

48 ·1348) 13

Summe 24 24 48

Page 236: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Chi-Quadrat-Tests χ2-Test auf Unabhangigkeit (oder Homogenitat)

Beispiel: 48 Teilnehmer eines Management-Kurses entscheidenuber Beforderung:

Weiblich Mannlich SummeBefordern 14 21 35Ablegen 10 3 13Summe 24 24 48

Kann das Zufall sein? Testen wir H0 : ”Geschlecht undBeforderungsentscheidung sind unabhangig“.

Anteil Weiblich=24/48=0.5, Anteil befordert=35/48=0.73, alsoerwartete Zahlen unter H0:

Weiblich Mannlich SummeBefordern 17.5 (= 48 · 24

48 ·3548) 17.5 (= 48 · 24

48 ·3548) 35

Ablegen 6.5 (= 48 · 2448 ·

1348) 6.5 (= 48 · 24

48 ·1348) 13

Summe 24 24 48

Page 237: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Chi-Quadrat-Tests χ2-Test auf Unabhangigkeit (oder Homogenitat)

Beispiel: 48 Teilnehmer eines Management-Kurses entscheidenuber Beforderung:

Weiblich Mannlich SummeBefordern 14 21 35Ablegen 10 3 13Summe 24 24 48

Kann das Zufall sein? Testen wir H0 : ”Geschlecht undBeforderungsentscheidung sind unabhangig“.Anteil Weiblich=24/48=0.5, Anteil befordert=35/48=0.73, alsoerwartete Zahlen unter H0:

Weiblich Mannlich SummeBefordern 17.5 (= 48 · 24

48 ·3548) 17.5 (= 48 · 24

48 ·3548) 35

Ablegen 6.5 (= 48 · 2448 ·

1348) 6.5 (= 48 · 24

48 ·1348) 13

Summe 24 24 48

Page 238: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Chi-Quadrat-Tests χ2-Test auf Unabhangigkeit (oder Homogenitat)

Beispiel: 48 Teilnehmer eines Management-Kurses entscheidenuber Beforderung:

Weiblich Mannlich SummeBefordern 14 21 35Ablegen 10 3 13Summe 24 24 48

Kann das Zufall sein? Testen wir H0 : ”Geschlecht undBeforderungsentscheidung sind unabhangig“.Anteil Weiblich=24/48=0.5, Anteil befordert=35/48=0.73, alsoerwartete Zahlen unter H0:

Weiblich Mannlich SummeBefordern 17.5 (= 48 · 24

48 ·3548) 17.5 (= 48 · 24

48 ·3548) 35

Ablegen 6.5 (= 48 · 2448 ·

1348) 6.5 (= 48 · 24

48 ·1348) 13

Summe 24 24 48

Page 239: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Chi-Quadrat-Tests χ2-Test auf Unabhangigkeit (oder Homogenitat)

H0 : ”Geschlecht und Beforderungsentscheidung sind unabhangig“Beobachtete Anzahlen:

Weiblich Mannlich SummeBefordern 14 21 35Ablegen 10 3 13Summe 24 24 48

Unter H0 erwartete Anzahlen:Weiblich Mannlich Summe

Befordern 17.5 17.5 35Ablegen 6.5 6.5 13Summe 24 24 48

Die X 2-Statistik ist

X 2 =(17.5− 14)2

17.5+

(21− 17.5)2

17.5+

(10− 6.5)2

6.5+

(3− 6.5)2

6.5= 5.17.

Unter H0 ist X 2 (approximativ) χ2-verteilt mit einem Freiheitsgrad(1 = 4− 1− 1− 1 = (2− 1) · (2− 1): 4 Zellen, ein Freiheitsgrad geht furdie feste Gesamtsumme, einer fur das (prinzipiell) unbekannteGeschlechterverhaltnis und einer fur die (prinzipiell) unbekannteBeforderungswahrscheinlichkeit ”verloren“.95%-Quantil der χ2-Verteilung in Abh.keit d. Anz. Freiheitsgrade

F.g. 1 2 3 4 5 6 7 8 9 10Quantil 3.84 5.99 7.81 9.49 11.07 12.59 14.07 15.51 16.92 18.31

Wir konnen H0 zum Signifikanzniveau 5% ablehnen.(Es ist χ2

1([5.17,∞)) = 0.023, d.h. wir finden einen p-Wert vonca. 2%.)

Page 240: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Chi-Quadrat-Tests χ2-Test auf Unabhangigkeit (oder Homogenitat)

H0 : ”Geschlecht und Beforderungsentscheidung sind unabhangig“Beobachtete Anzahlen:

Weiblich Mannlich SummeBefordern 14 21 35Ablegen 10 3 13Summe 24 24 48

Unter H0 erwartete Anzahlen:Weiblich Mannlich Summe

Befordern 17.5 17.5 35Ablegen 6.5 6.5 13Summe 24 24 48

Die X 2-Statistik ist

X 2 =(17.5− 14)2

17.5+

(21− 17.5)2

17.5+

(10− 6.5)2

6.5+

(3− 6.5)2

6.5= 5.17.

Unter H0 ist X 2 (approximativ) χ2-verteilt mit einem Freiheitsgrad(1 = 4− 1− 1− 1 = (2− 1) · (2− 1): 4 Zellen, ein Freiheitsgrad geht furdie feste Gesamtsumme, einer fur das (prinzipiell) unbekannteGeschlechterverhaltnis und einer fur die (prinzipiell) unbekannteBeforderungswahrscheinlichkeit ”verloren“.95%-Quantil der χ2-Verteilung in Abh.keit d. Anz. Freiheitsgrade

F.g. 1 2 3 4 5 6 7 8 9 10Quantil 3.84 5.99 7.81 9.49 11.07 12.59 14.07 15.51 16.92 18.31

Wir konnen H0 zum Signifikanzniveau 5% ablehnen.(Es ist χ2

1([5.17,∞)) = 0.023, d.h. wir finden einen p-Wert vonca. 2%.)

Page 241: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Chi-Quadrat-Tests χ2-Test auf Unabhangigkeit (oder Homogenitat)

H0 : ”Geschlecht und Beforderungsentscheidung sind unabhangig“Beobachtete Anzahlen:

Weiblich Mannlich SummeBefordern 14 21 35Ablegen 10 3 13Summe 24 24 48

Unter H0 erwartete Anzahlen:Weiblich Mannlich Summe

Befordern 17.5 17.5 35Ablegen 6.5 6.5 13Summe 24 24 48

Die X 2-Statistik ist

X 2 =(17.5− 14)2

17.5+

(21− 17.5)2

17.5+

(10− 6.5)2

6.5+

(3− 6.5)2

6.5= 5.17.

Unter H0 ist X 2 (approximativ) χ2-verteilt mit einem Freiheitsgrad(1 = 4− 1− 1− 1 = (2− 1) · (2− 1): 4 Zellen, ein Freiheitsgrad geht furdie feste Gesamtsumme, einer fur das (prinzipiell) unbekannteGeschlechterverhaltnis und einer fur die (prinzipiell) unbekannteBeforderungswahrscheinlichkeit ”verloren“.95%-Quantil der χ2-Verteilung in Abh.keit d. Anz. Freiheitsgrade

F.g. 1 2 3 4 5 6 7 8 9 10Quantil 3.84 5.99 7.81 9.49 11.07 12.59 14.07 15.51 16.92 18.31

Wir konnen H0 zum Signifikanzniveau 5% ablehnen.

(Es ist χ21([5.17,∞)) = 0.023, d.h. wir finden einen p-Wert von

ca. 2%.)

Page 242: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Chi-Quadrat-Tests χ2-Test auf Unabhangigkeit (oder Homogenitat)

H0 : ”Geschlecht und Beforderungsentscheidung sind unabhangig“Beobachtete Anzahlen:

Weiblich Mannlich SummeBefordern 14 21 35Ablegen 10 3 13Summe 24 24 48

Unter H0 erwartete Anzahlen:Weiblich Mannlich Summe

Befordern 17.5 17.5 35Ablegen 6.5 6.5 13Summe 24 24 48

Die X 2-Statistik ist

X 2 =(17.5− 14)2

17.5+

(21− 17.5)2

17.5+

(10− 6.5)2

6.5+

(3− 6.5)2

6.5= 5.17.

Unter H0 ist X 2 (approximativ) χ2-verteilt mit einem Freiheitsgrad(1 = 4− 1− 1− 1 = (2− 1) · (2− 1): 4 Zellen, ein Freiheitsgrad geht furdie feste Gesamtsumme, einer fur das (prinzipiell) unbekannteGeschlechterverhaltnis und einer fur die (prinzipiell) unbekannteBeforderungswahrscheinlichkeit ”verloren“.95%-Quantil der χ2-Verteilung in Abh.keit d. Anz. Freiheitsgrade

F.g. 1 2 3 4 5 6 7 8 9 10Quantil 3.84 5.99 7.81 9.49 11.07 12.59 14.07 15.51 16.92 18.31

Wir konnen H0 zum Signifikanzniveau 5% ablehnen.(Es ist χ2

1([5.17,∞)) = 0.023, d.h. wir finden einen p-Wert vonca. 2%.)

Page 243: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Chi-Quadrat-Tests χ2-Test auf Unabhangigkeit (oder Homogenitat)

Chi-Quadrat-Test auf Unabhangigkeit, allgemeine Situation:2 Merkmale mit r bzw. s Auspragungen(r × s-Kontingenztafel), n BeobachtungenBestimme erwartete Anzahlen unter H0 als Produkt der(normierten) Zeilen- und SpaltensummenX 2 ist unter H0 (approximativ) χ2-verteilt mitrs − 1− (r − 1)− (s − 1) = (r − 1)(s − 1) Freiheitsgraden.

Bemerkung: Im 2× 2-Fall kann man auch Fishers exakten Testverwenden (zumal, wenn n recht klein).

Page 244: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Chi-Quadrat-Tests χ2-Test auf Unabhangigkeit (oder Homogenitat)

Chi-Quadrat-Test auf Unabhangigkeit, allgemeine Situation:2 Merkmale mit r bzw. s Auspragungen(r × s-Kontingenztafel), n BeobachtungenBestimme erwartete Anzahlen unter H0 als Produkt der(normierten) Zeilen- und SpaltensummenX 2 ist unter H0 (approximativ) χ2-verteilt mitrs − 1− (r − 1)− (s − 1) = (r − 1)(s − 1) Freiheitsgraden.

Bemerkung: Im 2× 2-Fall kann man auch Fishers exakten Testverwenden (zumal, wenn n recht klein).

Page 245: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Chi-Quadrat-Tests χ2-Test fur Modelle mit Parametern

Ubersicht1 Deskriptive Statistik2 Standardfehler und t-Tests3 Chi-Quadrat-Tests

χ2-Test fur eine feste Verteilungχ2-Test auf Unabhangigkeit (oder Homogenitat)χ2-Test fur Modelle mit Parametern

4 Konfidenzintervalle5 Lineare Regression

Lineare Zusammenhanget-Test fuer lineare ZusammenhangeUberprufen der Annahmen und Modellwahl

6 Varianzanalyse7 Versuchsplanung: Stichprobenumfang

Page 246: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Chi-Quadrat-Tests χ2-Test fur Modelle mit Parametern

k : Anzahl Gruppenm: Anzahl Modellparameter, die geschatzt werdenAnzahl Freiheitsgrade:

df = k −m − 1

Beispiel: Test auf Hardy-Weinberg-Gleichgewicht mit dreiGenotypen AA, Aa, aa:k = 3 Gruppen, m = 1 Parameter wird geschatzt, namlich derAnteil der Allele vom Typ A.

⇒ sfdf = 3− 1− 1 = 1

Page 247: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Chi-Quadrat-Tests χ2-Test fur Modelle mit Parametern

k : Anzahl Gruppenm: Anzahl Modellparameter, die geschatzt werdenAnzahl Freiheitsgrade:

df = k −m − 1

Beispiel: Test auf Hardy-Weinberg-Gleichgewicht mit dreiGenotypen AA, Aa, aa:k = 3 Gruppen,

m = 1 Parameter wird geschatzt, namlich derAnteil der Allele vom Typ A.

⇒ sfdf = 3− 1− 1 = 1

Page 248: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Chi-Quadrat-Tests χ2-Test fur Modelle mit Parametern

k : Anzahl Gruppenm: Anzahl Modellparameter, die geschatzt werdenAnzahl Freiheitsgrade:

df = k −m − 1

Beispiel: Test auf Hardy-Weinberg-Gleichgewicht mit dreiGenotypen AA, Aa, aa:k = 3 Gruppen, m = 1 Parameter wird geschatzt, namlich derAnteil der Allele vom Typ A.

⇒ sfdf = 3− 1− 1 = 1

Page 249: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Chi-Quadrat-Tests χ2-Test fur Modelle mit Parametern

k : Anzahl Gruppenm: Anzahl Modellparameter, die geschatzt werdenAnzahl Freiheitsgrade:

df = k −m − 1

Beispiel: Test auf Hardy-Weinberg-Gleichgewicht mit dreiGenotypen AA, Aa, aa:k = 3 Gruppen, m = 1 Parameter wird geschatzt, namlich derAnteil der Allele vom Typ A.

⇒ sfdf = 3− 1− 1 = 1

Page 250: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Konfidenzintervalle

Ubersicht1 Deskriptive Statistik2 Standardfehler und t-Tests3 Chi-Quadrat-Tests

χ2-Test fur eine feste Verteilungχ2-Test auf Unabhangigkeit (oder Homogenitat)χ2-Test fur Modelle mit Parametern

4 Konfidenzintervalle5 Lineare Regression

Lineare Zusammenhanget-Test fuer lineare ZusammenhangeUberprufen der Annahmen und Modellwahl

6 Varianzanalyse7 Versuchsplanung: Stichprobenumfang

Page 251: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Konfidenzintervalle

Wir beobachten in einer Stichprobe der Große n aus einerPopulation X Exemplare mit einer gewissen Eigenschaft (z.B.

”ist mannlich“) und mochten den (unbekannten) Anteil θ dieserEigenschaft in der Gesamtpopulation schatzen.

Der offensichtliche Schatzer ist θ := Xn

(und dies ist auch der ML-Schatzer).

Frage: Wie verlaßlich ist die Schatzung?Gewunscht: Ein in Abhangigkeit von den Beobachtungen

konstruiertes (und moglichst kurzes) Intervall [θu, θo]mit der Eigenschaft

Pθ(

[θu, θo] uberdeckt θ)≥ 1− α

fur jede Wahl von θ.Ein solches Intervall heißt ein Konfidenzintervall (zum

Irrtumsniveau α), engl. confidence interval.

Page 252: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Konfidenzintervalle

Wir beobachten in einer Stichprobe der Große n aus einerPopulation X Exemplare mit einer gewissen Eigenschaft (z.B.

”ist mannlich“) und mochten den (unbekannten) Anteil θ dieserEigenschaft in der Gesamtpopulation schatzen.

Der offensichtliche Schatzer ist θ := Xn

(und dies ist auch der ML-Schatzer).

Frage: Wie verlaßlich ist die Schatzung?Gewunscht: Ein in Abhangigkeit von den Beobachtungen

konstruiertes (und moglichst kurzes) Intervall [θu, θo]mit der Eigenschaft

Pθ(

[θu, θo] uberdeckt θ)≥ 1− α

fur jede Wahl von θ.Ein solches Intervall heißt ein Konfidenzintervall (zum

Irrtumsniveau α), engl. confidence interval.

Page 253: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Konfidenzintervalle

Wir beobachten in einer Stichprobe der Große n aus einerPopulation X Exemplare mit einer gewissen Eigenschaft (z.B.

”ist mannlich“) und mochten den (unbekannten) Anteil θ dieserEigenschaft in der Gesamtpopulation schatzen.

Der offensichtliche Schatzer ist θ := Xn

(und dies ist auch der ML-Schatzer).

Frage: Wie verlaßlich ist die Schatzung?

Gewunscht: Ein in Abhangigkeit von den Beobachtungenkonstruiertes (und moglichst kurzes) Intervall [θu, θo]

mit der Eigenschaft

Pθ(

[θu, θo] uberdeckt θ)≥ 1− α

fur jede Wahl von θ.Ein solches Intervall heißt ein Konfidenzintervall (zum

Irrtumsniveau α), engl. confidence interval.

Page 254: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Konfidenzintervalle

Wir beobachten in einer Stichprobe der Große n aus einerPopulation X Exemplare mit einer gewissen Eigenschaft (z.B.

”ist mannlich“) und mochten den (unbekannten) Anteil θ dieserEigenschaft in der Gesamtpopulation schatzen.

Der offensichtliche Schatzer ist θ := Xn

(und dies ist auch der ML-Schatzer).

Frage: Wie verlaßlich ist die Schatzung?Gewunscht: Ein in Abhangigkeit von den Beobachtungen

konstruiertes (und moglichst kurzes) Intervall [θu, θo]mit der Eigenschaft

Pθ(

[θu, θo] uberdeckt θ)≥ 1− α

fur jede Wahl von θ.

Ein solches Intervall heißt ein Konfidenzintervall (zumIrrtumsniveau α), engl. confidence interval.

Page 255: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Konfidenzintervalle

Wir beobachten in einer Stichprobe der Große n aus einerPopulation X Exemplare mit einer gewissen Eigenschaft (z.B.

”ist mannlich“) und mochten den (unbekannten) Anteil θ dieserEigenschaft in der Gesamtpopulation schatzen.

Der offensichtliche Schatzer ist θ := Xn

(und dies ist auch der ML-Schatzer).

Frage: Wie verlaßlich ist die Schatzung?Gewunscht: Ein in Abhangigkeit von den Beobachtungen

konstruiertes (und moglichst kurzes) Intervall [θu, θo]mit der Eigenschaft

Pθ(

[θu, θo] uberdeckt θ)≥ 1− α

fur jede Wahl von θ.Ein solches Intervall heißt ein Konfidenzintervall (zum

Irrtumsniveau α), engl. confidence interval.

Page 256: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Konfidenzintervalle

Fur gegebenes θ ist X Binomial(n,θ)-verteilt,E[X ] = nθ, Var[X ] = nθ(1− θ).

Fur (genugend) großes n ist X ungefahr normalverteiltmit Mittelwert nθ und Varianz nθ(1− θ)

(”zentraler Grenzwertsatz“):

0 10 20 30 40

0.00

0.05

0.10

0.15

x

Gew

icht

e/D

icht

e

Binomialgewichte (n=40, p=0.6)und Normalapproximation (rot)

Also ist θ = Xn (ungefahr) normalverteilt mit Mittelwert θ und

Varianz 1nθ(1− θ)

Page 257: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Konfidenzintervalle

Fur gegebenes θ ist X Binomial(n,θ)-verteilt,E[X ] = nθ, Var[X ] = nθ(1− θ).

Fur (genugend) großes n ist X ungefahr normalverteiltmit Mittelwert nθ und Varianz nθ(1− θ)

(”zentraler Grenzwertsatz“):

0 10 20 30 40

0.00

0.05

0.10

0.15

x

Gew

icht

e/D

icht

e

Binomialgewichte (n=40, p=0.6)und Normalapproximation (rot)

Also ist θ = Xn (ungefahr) normalverteilt mit Mittelwert θ und

Varianz 1nθ(1− θ)

Page 258: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Konfidenzintervalle

Fur gegebenes θ ist X Binomial(n,θ)-verteilt,E[X ] = nθ, Var[X ] = nθ(1− θ).

Fur (genugend) großes n ist X ungefahr normalverteiltmit Mittelwert nθ und Varianz nθ(1− θ)

(”zentraler Grenzwertsatz“):

0 10 20 30 40

0.00

0.05

0.10

0.15

x

Gew

icht

e/D

icht

e

Binomialgewichte (n=40, p=0.6)und Normalapproximation (rot)

Also ist θ = Xn (ungefahr) normalverteilt mit Mittelwert θ und

Varianz 1nθ(1− θ)

Page 259: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Konfidenzintervalle

θ = Xn ist (ungefahr) normalverteilt

mit Mittelwert θ und Varianz 1nθ(1− θ):

Pθ(

a ≤ θ − θ√1nθ(1− θ)

≤ b)≈ P(a ≤ Z ≤ b)

(mit standard-normalverteiltem Z )

Dichte der Standard-Normalverteilung

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

a b

Page 260: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Konfidenzintervalle

Man schatzt die (unbekannte) Streuung von θ

durch√

1n θ(1− θ):

Wahle zα so dass P(−zα ≤ Z ≤ zα), dann ist

[θ − zα

√θ(1− θ)√

n, θ + zα

√θ(1− θ)√

n

]ein (approximatives) Konfidenzintervall fur θ zum

Irrtumsniveau α.(−zα is das α/2-Quantil der Normalverteilung, mit R:

-qnorm(α/2), z0,05·

= 1,96, z0,01·

= 2,58.)

Page 261: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Konfidenzintervalle

Man schatzt die (unbekannte) Streuung von θ

durch√

1n θ(1− θ):

Wahle zα so dass P(−zα ≤ Z ≤ zα), dann ist

[θ − zα

√θ(1− θ)√

n, θ + zα

√θ(1− θ)√

n

]ein (approximatives) Konfidenzintervall fur θ zum

Irrtumsniveau α.(−zα is das α/2-Quantil der Normalverteilung, mit R:

-qnorm(α/2), z0,05·

= 1,96, z0,01·

= 2,58.)

Page 262: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Konfidenzintervalle

In einem Fang von 53 Porzellankrabben waren 23 Weibchenund 30 Mannchen, d.h. der Mannchenanteil in der Stichprobewar 30/53 = 0,57.

(Approximatives) 95%-Konfidenzintervall fur θ, denMannchenanteil in der Gesamtpopulation:

I =[30

53− 1.96

√(30/53)(23/53)

53,3053

+ 1.96

√(30/53)(23/53)

53

]= [0.43,0.70]

Page 263: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Konfidenzintervalle

In einem Fang von 53 Porzellankrabben waren 23 Weibchenund 30 Mannchen, d.h. der Mannchenanteil in der Stichprobewar 30/53 = 0,57.(Approximatives) 95%-Konfidenzintervall fur θ, denMannchenanteil in der Gesamtpopulation:

I =[30

53− 1.96

√(30/53)(23/53)

53,3053

+ 1.96

√(30/53)(23/53)

53

]= [0.43,0.70]

Page 264: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Konfidenzintervalle

In einem Fang von 53 Porzellankrabben waren 23 Weibchenund 30 Mannchen, d.h. der Mannchenanteil in der Stichprobewar 30/53 = 0,57.(Approximatives) 95%-Konfidenzintervall fur θ, denMannchenanteil in der Gesamtpopulation:

I =[30

53− 1.96

√(30/53)(23/53)

53,3053

+ 1.96

√(30/53)(23/53)

53

]= [0.43,0.70]

Page 265: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Konfidenzintervalle

Anmerkungen

[θ ± zα

√θ(1−θ)√

n

]ist ein (approximatives) Konfidenzintervall fur θ

zum Irrtumsniveau α.

Fur die Gultigkeit der Approximation muss n genugend großund θ nicht zu nahe an 0 oder 1 sein. (Eine haufig zitierte

”Faustregel“ ist “nθ(1− θ) ≥ 9”.)Die Philosophie der Konfidenzintervalle entstammt derfrequentistischen Interpretation der Statistik: Fur jede Wahldes Parameters θ wurden wir bei haufiger Wiederholung desExperiments finden, dass in (ca.) (1− α) · 100% der Falle das(zufallige) Konfidenzintervall den ”wahren“ (festen) Parameterθ uberdeckt.Formulierungen, die sich auf eineWahrscheinlichkeitsverteilung des Parameters θ beziehen(beispielsweise: ”Wie wahrscheinlich ist es, dass θ ≤ 0,3?“),sind in der frequentistischen Interpretation sinnlos.(Dies ist in anders in der Bayesschen Interpretation.)

Page 266: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Konfidenzintervalle

Anmerkungen

[θ ± zα

√θ(1−θ)√

n

]ist ein (approximatives) Konfidenzintervall fur θ

zum Irrtumsniveau α.

Fur die Gultigkeit der Approximation muss n genugend großund θ nicht zu nahe an 0 oder 1 sein. (Eine haufig zitierte

”Faustregel“ ist “nθ(1− θ) ≥ 9”.)

Die Philosophie der Konfidenzintervalle entstammt derfrequentistischen Interpretation der Statistik: Fur jede Wahldes Parameters θ wurden wir bei haufiger Wiederholung desExperiments finden, dass in (ca.) (1− α) · 100% der Falle das(zufallige) Konfidenzintervall den ”wahren“ (festen) Parameterθ uberdeckt.Formulierungen, die sich auf eineWahrscheinlichkeitsverteilung des Parameters θ beziehen(beispielsweise: ”Wie wahrscheinlich ist es, dass θ ≤ 0,3?“),sind in der frequentistischen Interpretation sinnlos.(Dies ist in anders in der Bayesschen Interpretation.)

Page 267: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Konfidenzintervalle

Anmerkungen

[θ ± zα

√θ(1−θ)√

n

]ist ein (approximatives) Konfidenzintervall fur θ

zum Irrtumsniveau α.

Fur die Gultigkeit der Approximation muss n genugend großund θ nicht zu nahe an 0 oder 1 sein. (Eine haufig zitierte

”Faustregel“ ist “nθ(1− θ) ≥ 9”.)Die Philosophie der Konfidenzintervalle entstammt derfrequentistischen Interpretation der Statistik: Fur jede Wahldes Parameters θ wurden wir bei haufiger Wiederholung desExperiments finden, dass in (ca.) (1− α) · 100% der Falle das(zufallige) Konfidenzintervall den ”wahren“ (festen) Parameterθ uberdeckt.

Formulierungen, die sich auf eineWahrscheinlichkeitsverteilung des Parameters θ beziehen(beispielsweise: ”Wie wahrscheinlich ist es, dass θ ≤ 0,3?“),sind in der frequentistischen Interpretation sinnlos.(Dies ist in anders in der Bayesschen Interpretation.)

Page 268: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Konfidenzintervalle

Anmerkungen

[θ ± zα

√θ(1−θ)√

n

]ist ein (approximatives) Konfidenzintervall fur θ

zum Irrtumsniveau α.

Fur die Gultigkeit der Approximation muss n genugend großund θ nicht zu nahe an 0 oder 1 sein. (Eine haufig zitierte

”Faustregel“ ist “nθ(1− θ) ≥ 9”.)Die Philosophie der Konfidenzintervalle entstammt derfrequentistischen Interpretation der Statistik: Fur jede Wahldes Parameters θ wurden wir bei haufiger Wiederholung desExperiments finden, dass in (ca.) (1− α) · 100% der Falle das(zufallige) Konfidenzintervall den ”wahren“ (festen) Parameterθ uberdeckt.Formulierungen, die sich auf eineWahrscheinlichkeitsverteilung des Parameters θ beziehen(beispielsweise: ”Wie wahrscheinlich ist es, dass θ ≤ 0,3?“),sind in der frequentistischen Interpretation sinnlos.(Dies ist in anders in der Bayesschen Interpretation.)

Page 269: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Konfidenzintervalle

Wir haben schon fruher gesehen, dass das Konfidenzintervallfur θ eine zu geringe Uberdeckungswahrscheinlichkeit hat, fallsθ nahe bei 0 oder nahe bei 1 ist. Ein sehr einfacher und in derPraxis gut funktionierender Trick ist, bei der Schatzung derWahrscheinlichkeit θ die Zahl der “Erfolge” x um 1 und dieGesamtzahl n um 2 zu erhohen. Mit

θ := (x + 1)/(n + 2)

erhalt man dann ein relativ zuverlassiges95%-Konfidenzintervall[

θ − 1.96 ·√θ · (1− θ)/n, θ + 1.96 ·

√θ · (1 + θ)/n

].

.

Page 270: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Konfidenzintervalle

Konfidenzintervalle fur den Mittelwert im normalen Modell

x1, . . . , xn u.a. Beobachtungen aus N (µ, σ2), µ, σ unbekannt.

x = 1n (x1 + · · ·+ xn), s2 = 1

n−1

∑ni=1(xi − x)2.

Wir wissen:x−µs/√

n ist Student-t-verteilt mit n − 1 Freiheitsgraden, d.h.

P(∣∣∣∣x − µs/

√n

∣∣∣∣ ≥ q1−α/2

)= α

(q1−α/2 das 1− α/2-Quantil der Student-Verteilung mit n − 1Freiheitsgraden).

[x − q1−α/2

s√n, x + q1−α/2

s√n

]ist ein Konfidenzintervall fur µ zum Sicherheitsniveau 1− α.

Page 271: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Konfidenzintervalle

Konfidenzintervalle fur den Mittelwert im normalen Modell

x1, . . . , xn u.a. Beobachtungen aus N (µ, σ2), µ, σ unbekannt.x = 1

n (x1 + · · ·+ xn), s2 = 1n−1

∑ni=1(xi − x)2.

Wir wissen:x−µs/√

n ist Student-t-verteilt mit n − 1 Freiheitsgraden, d.h.

P(∣∣∣∣x − µs/

√n

∣∣∣∣ ≥ q1−α/2

)= α

(q1−α/2 das 1− α/2-Quantil der Student-Verteilung mit n − 1Freiheitsgraden).

[x − q1−α/2

s√n, x + q1−α/2

s√n

]ist ein Konfidenzintervall fur µ zum Sicherheitsniveau 1− α.

Page 272: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Konfidenzintervalle

Konfidenzintervalle fur den Mittelwert im normalen Modell

x1, . . . , xn u.a. Beobachtungen aus N (µ, σ2), µ, σ unbekannt.x = 1

n (x1 + · · ·+ xn), s2 = 1n−1

∑ni=1(xi − x)2.

Wir wissen:x−µs/√

n ist Student-t-verteilt mit n − 1 Freiheitsgraden, d.h.

P(∣∣∣∣x − µs/

√n

∣∣∣∣ ≥ q1−α/2

)= α

(q1−α/2 das 1− α/2-Quantil der Student-Verteilung mit n − 1Freiheitsgraden).

[x − q1−α/2

s√n, x + q1−α/2

s√n

]ist ein Konfidenzintervall fur µ zum Sicherheitsniveau 1− α.

Page 273: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Konfidenzintervalle

Konfidenzintervalle fur den Mittelwert im normalen Modell

x1, . . . , xn u.a. Beobachtungen aus N (µ, σ2), µ, σ unbekannt.x = 1

n (x1 + · · ·+ xn), s2 = 1n−1

∑ni=1(xi − x)2.

Wir wissen:x−µs/√

n ist Student-t-verteilt mit n − 1 Freiheitsgraden, d.h.

P(∣∣∣∣x − µs/

√n

∣∣∣∣ ≥ q1−α/2

)= α

(q1−α/2 das 1− α/2-Quantil der Student-Verteilung mit n − 1Freiheitsgraden).

[x − q1−α/2

s√n, x + q1−α/2

s√n

]ist ein Konfidenzintervall fur µ zum Sicherheitsniveau 1− α.

Page 274: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression

Ubersicht1 Deskriptive Statistik2 Standardfehler und t-Tests3 Chi-Quadrat-Tests

χ2-Test fur eine feste Verteilungχ2-Test auf Unabhangigkeit (oder Homogenitat)χ2-Test fur Modelle mit Parametern

4 Konfidenzintervalle5 Lineare Regression

Lineare Zusammenhanget-Test fuer lineare ZusammenhangeUberprufen der Annahmen und Modellwahl

6 Varianzanalyse7 Versuchsplanung: Stichprobenumfang

Page 275: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

Ubersicht1 Deskriptive Statistik2 Standardfehler und t-Tests3 Chi-Quadrat-Tests

χ2-Test fur eine feste Verteilungχ2-Test auf Unabhangigkeit (oder Homogenitat)χ2-Test fur Modelle mit Parametern

4 Konfidenzintervalle5 Lineare Regression

Lineare Zusammenhanget-Test fuer lineare ZusammenhangeUberprufen der Annahmen und Modellwahl

6 Varianzanalyse7 Versuchsplanung: Stichprobenumfang

Page 276: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

Erst mal ohne Zufallsschwankungen

1.0 1.5 2.0 2.5 3.0 3.5 4.0

100

150

200

250

300

350

400

Gefahrene Strecke bei 100km/h

Fahrzeit in Stunden

Fah

rstr

ecke

in k

m

Gemessene Fahrt-strecke bei exakt 100km/h

Zusammenhang:Strecke s in km, Zeit tin Stunden

s = 100kmh· t

Page 277: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

Erst mal ohne Zufallsschwankungen

1.0 1.5 2.0 2.5 3.0 3.5 4.0

100

150

200

250

300

350

400

Gefahrene Strecke bei 100km/h

Fahrzeit in Stunden

Fah

rstr

ecke

in k

m

Gemessene Fahrt-strecke bei exakt 100km/hZusammenhang:Strecke s in km, Zeit tin Stunden

s = 100kmh· t

Page 278: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

Problem und Losung:Problem: Strecke ist schwer zu messen.

Beobachtung: Zeit ist leicht zu messen (Blick auf Uhr)Losung: Linearer Zusammenhang zwischen Strecke undZeit ermoglicht leichte Berechnung der Strecke ( Problemgelost)

Page 279: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

Problem und Losung:Problem: Strecke ist schwer zu messen.Beobachtung: Zeit ist leicht zu messen (Blick auf Uhr)

Losung: Linearer Zusammenhang zwischen Strecke undZeit ermoglicht leichte Berechnung der Strecke ( Problemgelost)

Page 280: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

Problem und Losung:Problem: Strecke ist schwer zu messen.Beobachtung: Zeit ist leicht zu messen (Blick auf Uhr)Losung: Linearer Zusammenhang zwischen Strecke undZeit ermoglicht leichte Berechnung der Strecke ( Problemgelost)

Page 281: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

photo (c) by Jorg Hempel

Englisch: Grif-fon VultureGypus fulvusGansegeier

Page 282: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

Beispiel: Herzfrequenz und Stoffwechselrate beim Gansegeier

Frage: Was ist die Stoffwechselrate bei Gansegeiern imAlltag (zB im Flug)?

Problem: Stoffwechselrate ist aufwandig zu messen(eigentlich nur im Labor)Beobachtung: Herzfrequenz ist leicht zu messen.Losung: Nutze linearen Zusammenhang zwischenStoffwechselrate und Herzfrequenz.Komplikation: Der lineare Zusammenhang ist nichtdeterministisch, sondern zufallsbehaftet auf Grund vonMessfehlern und da Stoffwechselrate von der ”Tagesform“abhangt.Lineare Regression lost diese Komplikation in Wohlgefallenauf.

Page 283: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

Beispiel: Herzfrequenz und Stoffwechselrate beim Gansegeier

Frage: Was ist die Stoffwechselrate bei Gansegeiern imAlltag (zB im Flug)?Problem: Stoffwechselrate ist aufwandig zu messen(eigentlich nur im Labor)

Beobachtung: Herzfrequenz ist leicht zu messen.Losung: Nutze linearen Zusammenhang zwischenStoffwechselrate und Herzfrequenz.Komplikation: Der lineare Zusammenhang ist nichtdeterministisch, sondern zufallsbehaftet auf Grund vonMessfehlern und da Stoffwechselrate von der ”Tagesform“abhangt.Lineare Regression lost diese Komplikation in Wohlgefallenauf.

Page 284: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

Beispiel: Herzfrequenz und Stoffwechselrate beim Gansegeier

Frage: Was ist die Stoffwechselrate bei Gansegeiern imAlltag (zB im Flug)?Problem: Stoffwechselrate ist aufwandig zu messen(eigentlich nur im Labor)Beobachtung: Herzfrequenz ist leicht zu messen.

Losung: Nutze linearen Zusammenhang zwischenStoffwechselrate und Herzfrequenz.Komplikation: Der lineare Zusammenhang ist nichtdeterministisch, sondern zufallsbehaftet auf Grund vonMessfehlern und da Stoffwechselrate von der ”Tagesform“abhangt.Lineare Regression lost diese Komplikation in Wohlgefallenauf.

Page 285: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

Beispiel: Herzfrequenz und Stoffwechselrate beim Gansegeier

Frage: Was ist die Stoffwechselrate bei Gansegeiern imAlltag (zB im Flug)?Problem: Stoffwechselrate ist aufwandig zu messen(eigentlich nur im Labor)Beobachtung: Herzfrequenz ist leicht zu messen.Losung: Nutze linearen Zusammenhang zwischenStoffwechselrate und Herzfrequenz.

Komplikation: Der lineare Zusammenhang ist nichtdeterministisch, sondern zufallsbehaftet auf Grund vonMessfehlern und da Stoffwechselrate von der ”Tagesform“abhangt.Lineare Regression lost diese Komplikation in Wohlgefallenauf.

Page 286: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

Beispiel: Herzfrequenz und Stoffwechselrate beim Gansegeier

Frage: Was ist die Stoffwechselrate bei Gansegeiern imAlltag (zB im Flug)?Problem: Stoffwechselrate ist aufwandig zu messen(eigentlich nur im Labor)Beobachtung: Herzfrequenz ist leicht zu messen.Losung: Nutze linearen Zusammenhang zwischenStoffwechselrate und Herzfrequenz.Komplikation: Der lineare Zusammenhang ist nichtdeterministisch, sondern zufallsbehaftet auf Grund vonMessfehlern und da Stoffwechselrate von der ”Tagesform“abhangt.

Lineare Regression lost diese Komplikation in Wohlgefallenauf.

Page 287: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

Beispiel: Herzfrequenz und Stoffwechselrate beim Gansegeier

Frage: Was ist die Stoffwechselrate bei Gansegeiern imAlltag (zB im Flug)?Problem: Stoffwechselrate ist aufwandig zu messen(eigentlich nur im Labor)Beobachtung: Herzfrequenz ist leicht zu messen.Losung: Nutze linearen Zusammenhang zwischenStoffwechselrate und Herzfrequenz.Komplikation: Der lineare Zusammenhang ist nichtdeterministisch, sondern zufallsbehaftet auf Grund vonMessfehlern und da Stoffwechselrate von der ”Tagesform“abhangt.Lineare Regression lost diese Komplikation in Wohlgefallenauf.

Page 288: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

Beispiel: Herzfrequenz und Stoffwechselrate beim Gansegeier

●●

●●

●●

●●

50 60 70 80 90 100

05

1015

2025

30

griffon vulture, 17.05.99, 16 degrees C

heart beats [per minute]

met

abol

ic r

ate

[J/(

g*h)

]

Page 289: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

Beispiel: Herzfrequenz und Stoffwechselrate beim Gansegeier

●●

●●

●●

●●

50 60 70 80 90 100

05

1015

2025

30

griffon vulture, 17.05.99, 16 degrees C

heart beats [per minute]

met

abol

ic r

ate

[J/(

g*h)

]

Page 290: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

0

0

Page 291: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

0

0

x x x

y

y

y

1

1

2 3

22

3

Page 292: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

0

0

x x x

y

y

y

1

1

2 3

22

3

b Achsenabschnitt

Page 293: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

0

0x x x

y

y

y

1

1

2 3

22

3

b Achsenabschnitt

1

m Steigung

Page 294: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

0

0x x x

y

y

y

1

1

2 3

22

3

b Achsenabschnitt

1

m Steigung

y=mx+b

Page 295: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

0

0x x x

y

y

y

1

1

2 3

22

3

b Achsenabschnitt

1

m Steigung

y=mx+b2x − x

1

2x − x

1y − y2 1

y − y2 1m=

Page 296: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

0

0x x x

y

y

y

1

1

2 3

22

3

y=a+bx

intercepta

b slope

Page 297: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

0

0

Page 298: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

0

0

Page 299: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

0

0

r

rr

rr

r

1 3

2

i

n

Page 300: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

0

0

r

rr

rr

r

1 3

2

i

n

r = y − (a+bx )i i i

Residuen

Page 301: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

0

0

r

rr

rr

r

1 3

2

i

n

r = y − (a+bx )i i i

Residuen

Wähle die Gerade so, dass die Summe der quadrierten Residuen minimal wird!

r + r + .... + r2 221 2 n

Page 302: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

Definiere die Regressionsgerade

y = a + b · x

durch die Minimierung der Summe der quadrierten Residuen:

(a, b) = arg min(a,b)

∑i

(yi − (a + b · xi))2

Dahinter steckt die Modellvorstellung, dass Werte a,bexistieren, so dass fur alle Datenpaare (xi , yi) gilt

yi = a + b · xi + εi ,

wobei alle εi unabhangig und normalverteilt sind und alledieselbe Varianz σ2 haben.

Page 303: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

gegebene Daten:

Y Xy1 x1

y2 x2

y3 x3...

...

yn xn

Modell: es gibt Zahlena, b, σ2, so dass

y1 = a + b · x1 + ε1

y2 = a + b · x2 + ε2

y3 = a + b · x3 + ε3...

...

yn = a + b · xn + εn

Dabei sind ε1, ε2, . . . , εn unabhangig ∼ N (0, σ2).

⇒ y1, y2, . . . , yn sind unabhangig yi ∼ N (a + b · xi , σ2).

a,b, σ2 sind unbekannt, aber nicht zufallig.

Page 304: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

gegebene Daten:

Y Xy1 x1

y2 x2

y3 x3...

...

yn xn

Modell: es gibt Zahlena, b, σ2, so dass

y1 = a + b · x1 + ε1

y2 = a + b · x2 + ε2

y3 = a + b · x3 + ε3...

...

yn = a + b · xn + εn

Dabei sind ε1, ε2, . . . , εn unabhangig ∼ N (0, σ2).

⇒ y1, y2, . . . , yn sind unabhangig yi ∼ N (a + b · xi , σ2).

a,b, σ2 sind unbekannt, aber nicht zufallig.

Page 305: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

gegebene Daten:

Y Xy1 x1

y2 x2

y3 x3...

...

yn xn

Modell: es gibt Zahlena, b, σ2, so dass

y1 = a + b · x1 + ε1

y2 = a + b · x2 + ε2

y3 = a + b · x3 + ε3...

...

yn = a + b · xn + εn

Dabei sind ε1, ε2, . . . , εn unabhangig ∼ N (0, σ2).

⇒ y1, y2, . . . , yn sind unabhangig yi ∼ N (a + b · xi , σ2).

a,b, σ2 sind unbekannt, aber nicht zufallig.

Page 306: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

gegebene Daten:

Y Xy1 x1

y2 x2

y3 x3...

...

yn xn

Modell: es gibt Zahlena, b, σ2, so dass

y1 = a + b · x1 + ε1

y2 = a + b · x2 + ε2

y3 = a + b · x3 + ε3...

...

yn = a + b · xn + εn

Dabei sind ε1, ε2, . . . , εn unabhangig ∼ N (0, σ2).

⇒ y1, y2, . . . , yn sind unabhangig yi ∼ N (a + b · xi , σ2).

a,b, σ2 sind unbekannt, aber nicht zufallig.

Page 307: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

gegebene Daten:

Y Xy1 x1

y2 x2

y3 x3...

...

yn xn

Modell: es gibt Zahlena, b, σ2, so dass

y1 = a + b · x1 + ε1

y2 = a + b · x2 + ε2

y3 = a + b · x3 + ε3...

...

yn = a + b · xn + εn

Dabei sind ε1, ε2, . . . , εn unabhangig ∼ N (0, σ2).

⇒ y1, y2, . . . , yn sind unabhangig yi ∼ N (a + b · xi , σ2).

a,b, σ2 sind unbekannt, aber nicht zufallig.

Page 308: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

Wir schatzen a und b, indem wir

(a, b) := arg min(a,b)

∑i

(yi − (a + b · xi))2 berechnen.

Theorem

a und b sind gegeben durch

b =

∑i(yi − y) · (xi − x)∑

i(xi − x)2 =

∑i yi · (xi − x)∑

i(xi − x)2

unda = y − b · x .

Bitte merken:Die Gerade y = a + b · x geht genau durch den Schwerpunktder Punktwolke (x1, y1), (x2, y2), . . . , (xn, yn).

Page 309: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

Wir schatzen a und b, indem wir

(a, b) := arg min(a,b)

∑i

(yi − (a + b · xi))2 berechnen.

Theorem

a und b sind gegeben durch

b =

∑i(yi − y) · (xi − x)∑

i(xi − x)2 =

∑i yi · (xi − x)∑

i(xi − x)2

unda = y − b · x .

Bitte merken:Die Gerade y = a + b · x geht genau durch den Schwerpunktder Punktwolke (x1, y1), (x2, y2), . . . , (xn, yn).

Page 310: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

Wir schatzen a und b, indem wir

(a, b) := arg min(a,b)

∑i

(yi − (a + b · xi))2 berechnen.

Theorem

a und b sind gegeben durch

b =

∑i(yi − y) · (xi − x)∑

i(xi − x)2 =

∑i yi · (xi − x)∑

i(xi − x)2

unda = y − b · x .

Bitte merken:Die Gerade y = a + b · x geht genau durch den Schwerpunktder Punktwolke (x1, y1), (x2, y2), . . . , (xn, yn).

Page 311: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

Lineare Regression in R

In R wird die Gerade mit lm() (linear model) gefunden.

Die Abhangigkeit der Große Y von X druckt man mit Y~X aus.lm() bewertet ausserdem die Genauigkeit fur dieSchatzung der Steigung und des y-Achsenabschnittes derGeraden.

Page 312: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

Lineare Regression in R

In R wird die Gerade mit lm() (linear model) gefunden.Die Abhangigkeit der Große Y von X druckt man mit Y~X aus.

lm() bewertet ausserdem die Genauigkeit fur dieSchatzung der Steigung und des y-Achsenabschnittes derGeraden.

Page 313: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

Lineare Regression in R

In R wird die Gerade mit lm() (linear model) gefunden.Die Abhangigkeit der Große Y von X druckt man mit Y~X aus.lm() bewertet ausserdem die Genauigkeit fur dieSchatzung der Steigung und des y-Achsenabschnittes derGeraden.

Page 314: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

> model <- lm(metabol~heartbpm,data=vulture,

subset=day=="17.05.")

> summary(model)

Residuals:

Min 1Q Median 3Q Max

-2.2026 -0.2555 0.1005 0.6393 1.1834

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -7.73522 0.84543 -9.149 5.60e-08 ***heartbpm 0.27771 0.01207 23.016 2.98e-14 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.912 on 17 degrees of freedom

Multiple R-squared: 0.9689, Adjusted R-squared: 0.9671

F-statistic: 529.7 on 1 and 17 DF, p-value: 2.979e-14

Page 315: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

Folgendes muss man aus der Ausgabe herauslesen:Die Geradengleichung:

metabol = −7.73522 + 0.27771 ∗ heartbpm

Auch fur nicht-gemessene Herzfrequenzen lasst sichhieraus die Stoffwechselrate schatzen. Beispiel: BeiHerzfrequenz 70 ist die Stoffwechselrate in etwa gleich

−7.73522 + 0.27771 ∗ 70 = 11.70448

Die Streuung dieses Schatzers ist die geschatzteStandardabweichung der Residuen, also 0.912.Somit ist das Problem gelost: Aus Messungen derHerzfrequenz konnen wir nun die Stoffwechselrateschatzen.

Page 316: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

Folgendes muss man aus der Ausgabe herauslesen:Die Geradengleichung:

metabol = −7.73522 + 0.27771 ∗ heartbpm

Auch fur nicht-gemessene Herzfrequenzen lasst sichhieraus die Stoffwechselrate schatzen. Beispiel: BeiHerzfrequenz 70 ist die Stoffwechselrate in etwa gleich

−7.73522 + 0.27771 ∗ 70 = 11.70448

Die Streuung dieses Schatzers ist die geschatzteStandardabweichung der Residuen, also 0.912.

Somit ist das Problem gelost: Aus Messungen derHerzfrequenz konnen wir nun die Stoffwechselrateschatzen.

Page 317: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

Folgendes muss man aus der Ausgabe herauslesen:Die Geradengleichung:

metabol = −7.73522 + 0.27771 ∗ heartbpm

Auch fur nicht-gemessene Herzfrequenzen lasst sichhieraus die Stoffwechselrate schatzen. Beispiel: BeiHerzfrequenz 70 ist die Stoffwechselrate in etwa gleich

−7.73522 + 0.27771 ∗ 70 = 11.70448

Die Streuung dieses Schatzers ist die geschatzteStandardabweichung der Residuen, also 0.912.Somit ist das Problem gelost: Aus Messungen derHerzfrequenz konnen wir nun die Stoffwechselrateschatzen.

Page 318: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

Es stellen sich noch ein paar Fragen:Ist das Modell unnotig kompliziert? (D.h. lasst sich dieParameterzahl reduzieren?)Passt das Modell auf die Daten? (Oder gibt es deutlicheAbweichungen vom linearer Zusammenhang? Mussenweitere Parameter berucksichtigt werden?)

Page 319: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

Kompliziertheit des Modells: Die Frage ist, kann auf denSteigungsparameter oder auf den y-Achsenabschnittverzichten? Vielleicht ist einer dieser Werte so nahe bei 0, dasser gar nicht signifikant davon verschieden ist.

R liefert folgende Antworten:H0: Steigung gleich 0.Diese Nullhypothese hat den p-Wert 5.60e − 08.H0: y-Achsenabschnitt gleich 0.Diese Nullhypothese hat den p-Wert 2.98e − 14.

Beide Parameter sind signifikant von 0 verschieden. Wurde maneinen auf 0 setzen, ware das Modell signifikant schlechter.

Page 320: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

Kompliziertheit des Modells: Die Frage ist, kann auf denSteigungsparameter oder auf den y-Achsenabschnittverzichten? Vielleicht ist einer dieser Werte so nahe bei 0, dasser gar nicht signifikant davon verschieden ist.

R liefert folgende Antworten:H0: Steigung gleich 0.Diese Nullhypothese hat den p-Wert 5.60e − 08.

H0: y-Achsenabschnitt gleich 0.Diese Nullhypothese hat den p-Wert 2.98e − 14.

Beide Parameter sind signifikant von 0 verschieden. Wurde maneinen auf 0 setzen, ware das Modell signifikant schlechter.

Page 321: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

Kompliziertheit des Modells: Die Frage ist, kann auf denSteigungsparameter oder auf den y-Achsenabschnittverzichten? Vielleicht ist einer dieser Werte so nahe bei 0, dasser gar nicht signifikant davon verschieden ist.

R liefert folgende Antworten:H0: Steigung gleich 0.Diese Nullhypothese hat den p-Wert 5.60e − 08.H0: y-Achsenabschnitt gleich 0.Diese Nullhypothese hat den p-Wert 2.98e − 14.

Beide Parameter sind signifikant von 0 verschieden. Wurde maneinen auf 0 setzen, ware das Modell signifikant schlechter.

Page 322: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

Kompliziertheit des Modells: Die Frage ist, kann auf denSteigungsparameter oder auf den y-Achsenabschnittverzichten? Vielleicht ist einer dieser Werte so nahe bei 0, dasser gar nicht signifikant davon verschieden ist.

R liefert folgende Antworten:H0: Steigung gleich 0.Diese Nullhypothese hat den p-Wert 5.60e − 08.H0: y-Achsenabschnitt gleich 0.Diese Nullhypothese hat den p-Wert 2.98e − 14.

Beide Parameter sind signifikant von 0 verschieden. Wurde maneinen auf 0 setzen, ware das Modell signifikant schlechter.

Page 323: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

Aber Vorsicht: Ist die zu einer Variablen gehorende Steigungnicht signifikant (p-Wert> 0.05), heißt das nicht unbedingt, dassdas Modell besser wird, wenn man die Variable entfernt.

Auch hier gilt: Aus nicht-Signifikanz kann man so gut wie garnichts folgern.Um zu entscheiden, welche nicht-signifikanten Variablen manim Modell lassen sollte, kann man neben biologischemSachverstand z.B. AIC-Werte berucksichtigen oder eineKreuzvalidierung durchfuhren.

Page 324: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

Aber Vorsicht: Ist die zu einer Variablen gehorende Steigungnicht signifikant (p-Wert> 0.05), heißt das nicht unbedingt, dassdas Modell besser wird, wenn man die Variable entfernt.Auch hier gilt: Aus nicht-Signifikanz kann man so gut wie garnichts folgern.

Um zu entscheiden, welche nicht-signifikanten Variablen manim Modell lassen sollte, kann man neben biologischemSachverstand z.B. AIC-Werte berucksichtigen oder eineKreuzvalidierung durchfuhren.

Page 325: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Lineare Zusammenhange

Aber Vorsicht: Ist die zu einer Variablen gehorende Steigungnicht signifikant (p-Wert> 0.05), heißt das nicht unbedingt, dassdas Modell besser wird, wenn man die Variable entfernt.Auch hier gilt: Aus nicht-Signifikanz kann man so gut wie garnichts folgern.Um zu entscheiden, welche nicht-signifikanten Variablen manim Modell lassen sollte, kann man neben biologischemSachverstand z.B. AIC-Werte berucksichtigen oder eineKreuzvalidierung durchfuhren.

Page 326: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression t-Test fuer lineare Zusammenhange

Ubersicht1 Deskriptive Statistik2 Standardfehler und t-Tests3 Chi-Quadrat-Tests

χ2-Test fur eine feste Verteilungχ2-Test auf Unabhangigkeit (oder Homogenitat)χ2-Test fur Modelle mit Parametern

4 Konfidenzintervalle5 Lineare Regression

Lineare Zusammenhanget-Test fuer lineare ZusammenhangeUberprufen der Annahmen und Modellwahl

6 Varianzanalyse7 Versuchsplanung: Stichprobenumfang

Page 327: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression t-Test fuer lineare Zusammenhange

Modell:Y = a + b · X + ε mit ε ∼ N (0, σ2)

Wie berechnet man die Signifikanz eines Zusammenhangszwischen dem erklarenden Merkmal X und der Zielgroße Y ?

Anders formuliert: Mit welchem Test konnen wir derNullhypothese b = 0 zu Leibe rucken?

Wir haben b durch b geschatzt (und gehen jetzt mal von b 6= 0aus). Konnte das wahre b auch 0 sein?

Wie groß ist der Standardfehler unserer Schatzung b?

Page 328: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression t-Test fuer lineare Zusammenhange

Modell:Y = a + b · X + ε mit ε ∼ N (0, σ2)

Wie berechnet man die Signifikanz eines Zusammenhangszwischen dem erklarenden Merkmal X und der Zielgroße Y ?

Anders formuliert: Mit welchem Test konnen wir derNullhypothese b = 0 zu Leibe rucken?

Wir haben b durch b geschatzt (und gehen jetzt mal von b 6= 0aus). Konnte das wahre b auch 0 sein?

Wie groß ist der Standardfehler unserer Schatzung b?

Page 329: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression t-Test fuer lineare Zusammenhange

Modell:Y = a + b · X + ε mit ε ∼ N (0, σ2)

Wie berechnet man die Signifikanz eines Zusammenhangszwischen dem erklarenden Merkmal X und der Zielgroße Y ?

Anders formuliert: Mit welchem Test konnen wir derNullhypothese b = 0 zu Leibe rucken?

Wir haben b durch b geschatzt (und gehen jetzt mal von b 6= 0aus). Konnte das wahre b auch 0 sein?

Wie groß ist der Standardfehler unserer Schatzung b?

Page 330: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression t-Test fuer lineare Zusammenhange

Modell:Y = a + b · X + ε mit ε ∼ N (0, σ2)

Wie berechnet man die Signifikanz eines Zusammenhangszwischen dem erklarenden Merkmal X und der Zielgroße Y ?

Anders formuliert: Mit welchem Test konnen wir derNullhypothese b = 0 zu Leibe rucken?

Wir haben b durch b geschatzt (und gehen jetzt mal von b 6= 0aus). Konnte das wahre b auch 0 sein?

Wie groß ist der Standardfehler unserer Schatzung b?

Page 331: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression t-Test fuer lineare Zusammenhange

Modell:Y = a + b · X + ε mit ε ∼ N (0, σ2)

Wie berechnet man die Signifikanz eines Zusammenhangszwischen dem erklarenden Merkmal X und der Zielgroße Y ?

Anders formuliert: Mit welchem Test konnen wir derNullhypothese b = 0 zu Leibe rucken?

Wir haben b durch b geschatzt (und gehen jetzt mal von b 6= 0aus). Konnte das wahre b auch 0 sein?

Wie groß ist der Standardfehler unserer Schatzung b?

Page 332: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression t-Test fuer lineare Zusammenhange

yi = a + b · xi + ε mit ε ∼ N (0, σ2)

nicht zufallig: a, b, xi , σ2 zufallig: ε, yi

var(yi) = var(a + b · xi + ε) = var(ε) = σ2

und y1, y2, . . . , yn sind stochastisch unabhangig.

b =

∑i yi(xi − x)∑i(xi − x)2

var(b) = var(∑

i yi(xi − x)∑i(xi − x)2

)=

var (∑

i yi(xi − x))

(∑

i(xi − x)2)2

=

∑i var (yi) (xi − x)2

(∑

i(xi − x)2)2 = σ2 ·∑

i(xi − x)2

(∑

i(xi − x)2)2

= σ2

/∑i

(xi − x)2

Page 333: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression t-Test fuer lineare Zusammenhange

yi = a + b · xi + ε mit ε ∼ N (0, σ2)

nicht zufallig: a, b, xi , σ2 zufallig: ε, yi

var(yi) = var(a + b · xi + ε) = var(ε) = σ2

und y1, y2, . . . , yn sind stochastisch unabhangig.

b =

∑i yi(xi − x)∑i(xi − x)2

var(b) = var(∑

i yi(xi − x)∑i(xi − x)2

)=

var (∑

i yi(xi − x))

(∑

i(xi − x)2)2

=

∑i var (yi) (xi − x)2

(∑

i(xi − x)2)2 = σ2 ·∑

i(xi − x)2

(∑

i(xi − x)2)2

= σ2

/∑i

(xi − x)2

Page 334: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression t-Test fuer lineare Zusammenhange

yi = a + b · xi + ε mit ε ∼ N (0, σ2)

nicht zufallig: a, b, xi , σ2 zufallig: ε, yi

var(yi) = var(a + b · xi + ε) = var(ε) = σ2

und y1, y2, . . . , yn sind stochastisch unabhangig.

b =

∑i yi(xi − x)∑i(xi − x)2

var(b) = var(∑

i yi(xi − x)∑i(xi − x)2

)=

var (∑

i yi(xi − x))

(∑

i(xi − x)2)2

=

∑i var (yi) (xi − x)2

(∑

i(xi − x)2)2 = σ2 ·∑

i(xi − x)2

(∑

i(xi − x)2)2

= σ2

/∑i

(xi − x)2

Page 335: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression t-Test fuer lineare Zusammenhange

yi = a + b · xi + ε mit ε ∼ N (0, σ2)

nicht zufallig: a, b, xi , σ2 zufallig: ε, yi

var(yi) = var(a + b · xi + ε) = var(ε) = σ2

und y1, y2, . . . , yn sind stochastisch unabhangig.

b =

∑i yi(xi − x)∑i(xi − x)2

var(b) = var(∑

i yi(xi − x)∑i(xi − x)2

)=

var (∑

i yi(xi − x))

(∑

i(xi − x)2)2

=

∑i var (yi) (xi − x)2

(∑

i(xi − x)2)2 = σ2 ·∑

i(xi − x)2

(∑

i(xi − x)2)2

= σ2

/∑i

(xi − x)2

Page 336: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression t-Test fuer lineare Zusammenhange

yi = a + b · xi + ε mit ε ∼ N (0, σ2)

nicht zufallig: a, b, xi , σ2 zufallig: ε, yi

var(yi) = var(a + b · xi + ε) = var(ε) = σ2

und y1, y2, . . . , yn sind stochastisch unabhangig.

b =

∑i yi(xi − x)∑i(xi − x)2

var(b) = var(∑

i yi(xi − x)∑i(xi − x)2

)=

var (∑

i yi(xi − x))

(∑

i(xi − x)2)2

=

∑i var (yi) (xi − x)2

(∑

i(xi − x)2)2 = σ2 ·∑

i(xi − x)2

(∑

i(xi − x)2)2

= σ2

/∑i

(xi − x)2

Page 337: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression t-Test fuer lineare Zusammenhange

Tatsachlich ist b Normalverteilt mit Mittelwert b und

var(b) = σ2

/∑i

(xi − x)2

Problem: Wir kennen σ2 nicht.Wir schatzen σ2 mit Hilfe der beobachten Residuenvarianzdurch

s2 :=

∑i

(yi − a− b · xi

)2

n − 2Zu beachten ist, dass durch n − 2 geteilt wird. Das hat damit zutun, dass zwei Modellparameter a und b bereit geschatztwurden, und somit 2 Freiheitsgrade verloren gegangen sind.

Page 338: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression t-Test fuer lineare Zusammenhange

Tatsachlich ist b Normalverteilt mit Mittelwert b und

var(b) = σ2

/∑i

(xi − x)2

Problem: Wir kennen σ2 nicht.

Wir schatzen σ2 mit Hilfe der beobachten Residuenvarianzdurch

s2 :=

∑i

(yi − a− b · xi

)2

n − 2Zu beachten ist, dass durch n − 2 geteilt wird. Das hat damit zutun, dass zwei Modellparameter a und b bereit geschatztwurden, und somit 2 Freiheitsgrade verloren gegangen sind.

Page 339: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression t-Test fuer lineare Zusammenhange

Tatsachlich ist b Normalverteilt mit Mittelwert b und

var(b) = σ2

/∑i

(xi − x)2

Problem: Wir kennen σ2 nicht.Wir schatzen σ2 mit Hilfe der beobachten Residuenvarianzdurch

s2 :=

∑i

(yi − a− b · xi

)2

n − 2

Zu beachten ist, dass durch n − 2 geteilt wird. Das hat damit zutun, dass zwei Modellparameter a und b bereit geschatztwurden, und somit 2 Freiheitsgrade verloren gegangen sind.

Page 340: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression t-Test fuer lineare Zusammenhange

Tatsachlich ist b Normalverteilt mit Mittelwert b und

var(b) = σ2

/∑i

(xi − x)2

Problem: Wir kennen σ2 nicht.Wir schatzen σ2 mit Hilfe der beobachten Residuenvarianzdurch

s2 :=

∑i

(yi − a− b · xi

)2

n − 2Zu beachten ist, dass durch n − 2 geteilt wird. Das hat damit zutun, dass zwei Modellparameter a und b bereit geschatztwurden, und somit 2 Freiheitsgrade verloren gegangen sind.

Page 341: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression t-Test fuer lineare Zusammenhange

var(b) = σ2

/∑i

(xi − x)2

Schatze σ2 durch

s2 =

∑i

(yi − a− b · xi

)2

n − 2.

Dann istb − b

s/√∑

i(xi − x)2

Student-t-verteilt mit n − 2 Freiheitsgraden und wir konnen dent-Test anwenden, um die Nullhypothese b = 0 zu testen.Verwerfe H0: ”b = 0“ zum Signifikanzniveau α, wenn∣∣∣∣ b

s/√∑

i (xi−x)2

∣∣∣∣ ≥ q1−α/2, wo q1−α/2 das (1− α/2)-Quantil der

Student-Verteilung mit n − 2 Freiheitsgraden ist.

Page 342: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression t-Test fuer lineare Zusammenhange

var(b) = σ2

/∑i

(xi − x)2

Schatze σ2 durch

s2 =

∑i

(yi − a− b · xi

)2

n − 2.

Dann istb − b

s/√∑

i(xi − x)2

Student-t-verteilt mit n − 2 Freiheitsgraden und wir konnen dent-Test anwenden, um die Nullhypothese b = 0 zu testen.

Verwerfe H0: ”b = 0“ zum Signifikanzniveau α, wenn∣∣∣∣ bs/√∑

i (xi−x)2

∣∣∣∣ ≥ q1−α/2, wo q1−α/2 das (1− α/2)-Quantil der

Student-Verteilung mit n − 2 Freiheitsgraden ist.

Page 343: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression t-Test fuer lineare Zusammenhange

var(b) = σ2

/∑i

(xi − x)2

Schatze σ2 durch

s2 =

∑i

(yi − a− b · xi

)2

n − 2.

Dann istb − b

s/√∑

i(xi − x)2

Student-t-verteilt mit n − 2 Freiheitsgraden und wir konnen dent-Test anwenden, um die Nullhypothese b = 0 zu testen.Verwerfe H0: ”b = 0“ zum Signifikanzniveau α, wenn∣∣∣∣ b

s/√∑

i (xi−x)2

∣∣∣∣ ≥ q1−α/2, wo q1−α/2 das (1− α/2)-Quantil der

Student-Verteilung mit n − 2 Freiheitsgraden ist.

Page 344: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression t-Test fuer lineare Zusammenhange

Beispiel: Rothirsch (Cervus elaphus)

Theorie: Hirschkuhe konnen das Geschlecht ihrer Nachkommenbeeinflussen.

Unter dem Gesichtspunkt evolutionar stabiler Strategien ist zuerwarten, dass schwache Tiere eher zu weiblichem und starkeTiere eher zu mannlichem Nachwuchs tendieren.

Clutton-Brock, T. H. , Albon, S. D., Guinness, F. E. (1986)Great expectations: dominance, breeding success andoffspring sex ratios in red deer.Anim. Behav. 34, 460—471.

Page 345: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression t-Test fuer lineare Zusammenhange

Beispiel: Rothirsch (Cervus elaphus)

Theorie: Hirschkuhe konnen das Geschlecht ihrer Nachkommenbeeinflussen.

Unter dem Gesichtspunkt evolutionar stabiler Strategien ist zuerwarten, dass schwache Tiere eher zu weiblichem und starkeTiere eher zu mannlichem Nachwuchs tendieren.

Clutton-Brock, T. H. , Albon, S. D., Guinness, F. E. (1986)Great expectations: dominance, breeding success andoffspring sex ratios in red deer.Anim. Behav. 34, 460—471.

Page 346: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression t-Test fuer lineare Zusammenhange

> hind

rank ratiomales

1 0.01 0.41

2 0.02 0.15

3 0.06 0.12

4 0.08 0.04

5 0.08 0.33

6 0.09 0.37

. . .

. . .

. . .

52 0.96 0.81

53 0.99 0.47

54 1.00 0.67

ACHTUNG: Simulierte Da-ten, die sich an den Datenaus der Originalpublikationlediglich orientieren.

Page 347: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression t-Test fuer lineare Zusammenhange

●●

●●● ●

● ●

●●

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

hind$rank

hind

$rat

iom

ales

Page 348: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression t-Test fuer lineare Zusammenhange

●●

●●● ●

● ●

●●

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

hind$rank

hind

$rat

iom

ales

Page 349: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression t-Test fuer lineare Zusammenhange

> mod <- lm(ratiomales~rank,data=hind)

> summary(mod)

Call:

lm(formula = ratiomales ~ rank, data = hind)

Residuals:

Min 1Q Median 3Q Max

-0.32798 -0.09396 0.02408 0.11275 0.37403

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 0.20529 0.04011 5.119 4.54e-06 ***

rank 0.45877 0.06732 6.814 9.78e-09 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.154 on 52 degrees of freedom

Multiple R-squared: 0.4717, Adjusted R-squared: 0.4616

F-statistic: 46.44 on 1 and 52 DF, p-value: 9.78e-09

Page 350: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

Ubersicht1 Deskriptive Statistik2 Standardfehler und t-Tests3 Chi-Quadrat-Tests

χ2-Test fur eine feste Verteilungχ2-Test auf Unabhangigkeit (oder Homogenitat)χ2-Test fur Modelle mit Parametern

4 Konfidenzintervalle5 Lineare Regression

Lineare Zusammenhanget-Test fuer lineare ZusammenhangeUberprufen der Annahmen und Modellwahl

6 Varianzanalyse7 Versuchsplanung: Stichprobenumfang

Page 351: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

Passt das Modell auf die Daten?, z.B.

Y = a + b · X + ε mit ε ∼ N (0, σ2)

Wenn dieses Modell zutrifft, dann mussen die Residuen

yi −(

a + b · xi

)normalverteilt aussehen und durfen keinen offensichtlichenAbhangigkeiten mit X oder a + b · X aufweisen.

Page 352: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

Passt das Modell auf die Daten?, z.B.

Y = a + b · X + ε mit ε ∼ N (0, σ2)

Wenn dieses Modell zutrifft, dann mussen die Residuen

yi −(

a + b · xi

)normalverteilt aussehen und durfen keinen offensichtlichenAbhangigkeiten mit X oder a + b · X aufweisen.

Page 353: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

Beispiel: Wird der Zusammenhang zwischen X und Yhinreichend gut durch eine lineare Gleichung Yi = a + b · Xi + εi

beschrieben?

●●●

●● ●

●●

●●

●●

2 4 6 8

46

810

1214

16

X

Y

Page 354: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

> mod <- lm(Y ~ X)

> summary(mod)

Call:

lm(formula = Y ~ X)

Residuals:

Min 1Q Median 3Q Max

-0.49984 -0.26727 -0.13472 0.01344 1.82718

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -0.61118 0.33295 -1.836 0.077 .

X 1.65055 0.06472 25.505 <2e-16 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.5473 on 28 degrees of freedom

Multiple R-squared: 0.9587, Adjusted R-squared: 0.9573

F-statistic: 650.5 on 1 and 28 DF, p-value: < 2.2e-16

Page 355: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

> plot(X,residuals(mod))

●●●●

●●

●●

●●

●●

●● ●

●●

2 4 6 8

−0.

50.

00.

51.

01.

5

X

resi

dual

s(m

od)

Die Resiuden sind offensichtlich tendenziell großer fur kleineund fur große X -Werte als fur mittlere X -Werte. Das darf nichtsein!

Page 356: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

> plot(X,residuals(mod))

●●●●

●●

●●

●●

●●

●● ●

●●

2 4 6 8

−0.

50.

00.

51.

01.

5

X

resi

dual

s(m

od)

Die Resiuden sind offensichtlich tendenziell großer fur kleineund fur große X -Werte als fur mittlere X -Werte. Das darf nichtsein!

Page 357: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

> plot(X,residuals(mod))

●●●●

●●

●●

●●

●●

●● ●

●●

2 4 6 8

−0.

50.

00.

51.

01.

5

X

resi

dual

s(m

od)

Die Resiuden sind offensichtlich tendenziell großer fur kleineund fur große X -Werte als fur mittlere X -Werte. Das darf nichtsein!

Page 358: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

Idee: Vielleicht kann man an die Punkte (xi , yi) statt einerGeraden besser einen Ausschnitt aus einer Parabel anpassen.

Also: Passe besser ein Modell der folgenden Form an:

Yi = a + b · Xi + c · X 2i + εi

Ist das uberhaupt noch ein lineares Modell? Ja: Sei Z = X 2,dann ist Y linear in X und Z .In R:

> Z <- X^2

> mod2 <- mod <- lm(Y ~ X+Z)

Page 359: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

Idee: Vielleicht kann man an die Punkte (xi , yi) statt einerGeraden besser einen Ausschnitt aus einer Parabel anpassen.Also: Passe besser ein Modell der folgenden Form an:

Yi = a + b · Xi + c · X 2i + εi

Ist das uberhaupt noch ein lineares Modell? Ja: Sei Z = X 2,dann ist Y linear in X und Z .In R:

> Z <- X^2

> mod2 <- mod <- lm(Y ~ X+Z)

Page 360: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

Idee: Vielleicht kann man an die Punkte (xi , yi) statt einerGeraden besser einen Ausschnitt aus einer Parabel anpassen.Also: Passe besser ein Modell der folgenden Form an:

Yi = a + b · Xi + c · X 2i + εi

Ist das uberhaupt noch ein lineares Modell?

Ja: Sei Z = X 2,dann ist Y linear in X und Z .In R:

> Z <- X^2

> mod2 <- mod <- lm(Y ~ X+Z)

Page 361: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

Idee: Vielleicht kann man an die Punkte (xi , yi) statt einerGeraden besser einen Ausschnitt aus einer Parabel anpassen.Also: Passe besser ein Modell der folgenden Form an:

Yi = a + b · Xi + c · X 2i + εi

Ist das uberhaupt noch ein lineares Modell? Ja: Sei Z = X 2,dann ist Y linear in X und Z .

In R:

> Z <- X^2

> mod2 <- mod <- lm(Y ~ X+Z)

Page 362: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

Idee: Vielleicht kann man an die Punkte (xi , yi) statt einerGeraden besser einen Ausschnitt aus einer Parabel anpassen.Also: Passe besser ein Modell der folgenden Form an:

Yi = a + b · Xi + c · X 2i + εi

Ist das uberhaupt noch ein lineares Modell? Ja: Sei Z = X 2,dann ist Y linear in X und Z .In R:

> Z <- X^2

> mod2 <- mod <- lm(Y ~ X+Z)

Page 363: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

> summary(mod2)

Call:

lm(formula = Y ~ X + Z)

Residuals:

Min 1Q Median 3Q Max

-0.321122 -0.060329 0.007706 0.075337 0.181965

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 2.933154 0.158825 18.468 <2e-16 ***

X 0.150857 0.061921 2.436 0.0217 *

Z 0.144156 0.005809 24.817 <2e-16 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.1142 on 27 degrees of freedom

Multiple R-squared: 0.9983, Adjusted R-squared: 0.9981

F-statistic: 7776 on 2 and 27 DF, p-value: < 2.2e-16

Page 364: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

Fur dieses Modell gibt es keinen erkennbaren Zusammenhangmehr zwischen X und den Residuen:plot(X,residuals(mod2))

● ●

●● ●

●●

●●

●●

2 4 6 8

−0.

3−

0.2

−0.

10.

00.

10.

2

X

resi

dual

s(m

od2)

Page 365: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

Wie gut passt passt die Normalverteilungsannahme auf dasModell Yi = a + b · Xi + εi?

Sind die Residuen ri = Yi − (a + b · Xi) einigermaßennormalverteilt?

Graphische Methode: vergleiche die theoretischen Quantile derStandardnormalverteilung N (0,1) mit denen der Residuen.

Hintergrund: tragt man die Quantile von N (µ, σ2) gegen die vonN (0,1) auf, so erhalt man die Gerade y(x) = µ + σ · x . (Grund:Ist X standardnormalverteilt und Y = a + b · X , so ist Ynormalverteilt mit Mittelwert a and Varianz b2.)

Page 366: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

Wie gut passt passt die Normalverteilungsannahme auf dasModell Yi = a + b · Xi + εi?

Sind die Residuen ri = Yi − (a + b · Xi) einigermaßennormalverteilt?

Graphische Methode: vergleiche die theoretischen Quantile derStandardnormalverteilung N (0,1) mit denen der Residuen.

Hintergrund: tragt man die Quantile von N (µ, σ2) gegen die vonN (0,1) auf, so erhalt man die Gerade y(x) = µ + σ · x . (Grund:Ist X standardnormalverteilt und Y = a + b · X , so ist Ynormalverteilt mit Mittelwert a and Varianz b2.)

Page 367: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

Wie gut passt passt die Normalverteilungsannahme auf dasModell Yi = a + b · Xi + εi?

Sind die Residuen ri = Yi − (a + b · Xi) einigermaßennormalverteilt?

Graphische Methode: vergleiche die theoretischen Quantile derStandardnormalverteilung N (0,1) mit denen der Residuen.

Hintergrund: tragt man die Quantile von N (µ, σ2) gegen die vonN (0,1) auf, so erhalt man die Gerade y(x) = µ + σ · x . (Grund:Ist X standardnormalverteilt und Y = a + b · X , so ist Ynormalverteilt mit Mittelwert a and Varianz b2.)

Page 368: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

Wie gut passt passt die Normalverteilungsannahme auf dasModell Yi = a + b · Xi + εi?

Sind die Residuen ri = Yi − (a + b · Xi) einigermaßennormalverteilt?

Graphische Methode: vergleiche die theoretischen Quantile derStandardnormalverteilung N (0,1) mit denen der Residuen.

Hintergrund: tragt man die Quantile von N (µ, σ2) gegen die vonN (0,1) auf, so erhalt man die Gerade y(x) = µ + σ · x .

(Grund:Ist X standardnormalverteilt und Y = a + b · X , so ist Ynormalverteilt mit Mittelwert a and Varianz b2.)

Page 369: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

Wie gut passt passt die Normalverteilungsannahme auf dasModell Yi = a + b · Xi + εi?

Sind die Residuen ri = Yi − (a + b · Xi) einigermaßennormalverteilt?

Graphische Methode: vergleiche die theoretischen Quantile derStandardnormalverteilung N (0,1) mit denen der Residuen.

Hintergrund: tragt man die Quantile von N (µ, σ2) gegen die vonN (0,1) auf, so erhalt man die Gerade y(x) = µ + σ · x . (Grund:Ist X standardnormalverteilt und Y = a + b · X , so ist Ynormalverteilt mit Mittelwert a and Varianz b2.)

Page 370: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

Bevor man die Modellanpassung mit lm() vornimmt, muss manerst mal uberprufen, ob die Normalverteilungsannahme erfulltist.

Um zu uberprufen ob die Normalverteilungsannahme eineslinearen Modells gilt, benotigt man die Residuen. Um dieResiduen zu berechnen, muss man zuerst die Modellanpassungberechnen (in R mit lm()). Erst dann kann man dieNormalverteilungsannahmen uberprufen und entscheiden, obman bei dem Modell bleibt oder das Modell noch verandernmuss.

Page 371: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

Bevor man die Modellanpassung mit lm() vornimmt, muss manerst mal uberprufen, ob die Normalverteilungsannahme erfulltist.

Um zu uberprufen ob die Normalverteilungsannahme eineslinearen Modells gilt, benotigt man die Residuen. Um dieResiduen zu berechnen, muss man zuerst die Modellanpassungberechnen (in R mit lm()). Erst dann kann man dieNormalverteilungsannahmen uberprufen und entscheiden, obman bei dem Modell bleibt oder das Modell noch verandernmuss.

Page 372: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

Bevor man die Modellanpassung mit lm() vornimmt, muss manerst mal uberprufen, ob die Normalverteilungsannahme erfulltist.Um zu uberprufen ob die Normalverteilungsannahme eineslinearen Modells gilt, benotigt man die Residuen.

Um dieResiduen zu berechnen, muss man zuerst die Modellanpassungberechnen (in R mit lm()). Erst dann kann man dieNormalverteilungsannahmen uberprufen und entscheiden, obman bei dem Modell bleibt oder das Modell noch verandernmuss.

Page 373: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

Bevor man die Modellanpassung mit lm() vornimmt, muss manerst mal uberprufen, ob die Normalverteilungsannahme erfulltist.Um zu uberprufen ob die Normalverteilungsannahme eineslinearen Modells gilt, benotigt man die Residuen. Um dieResiduen zu berechnen, muss man zuerst die Modellanpassungberechnen (in R mit lm()).

Erst dann kann man dieNormalverteilungsannahmen uberprufen und entscheiden, obman bei dem Modell bleibt oder das Modell noch verandernmuss.

Page 374: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

Bevor man die Modellanpassung mit lm() vornimmt, muss manerst mal uberprufen, ob die Normalverteilungsannahme erfulltist.Um zu uberprufen ob die Normalverteilungsannahme eineslinearen Modells gilt, benotigt man die Residuen. Um dieResiduen zu berechnen, muss man zuerst die Modellanpassungberechnen (in R mit lm()). Erst dann kann man dieNormalverteilungsannahmen uberprufen und entscheiden, obman bei dem Modell bleibt oder das Modell noch verandernmuss.

Page 375: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

p <- seq(from=0,to=1,by=0.01)

plot(qnorm(p,mean=0,sd=1),qnorm(p,mean=1,sd=0.5),

pch=16,cex=0.5)

abline(v=0,h=0)

●●

●●

●●

●●

●●

●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ●

●●

●●

●●

●●

●●

−2 −1 0 1 2

0.0

0.5

1.0

1.5

2.0

qnorm(p, mean = 0, sd = 1)

qnor

m(p

, mea

n =

1, s

d =

0.5

)

Page 376: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

Tragt man statt der theoretischen Quantile die empirischenQuantile der Residuen gegen die Quantile einerNormalverteilung auf, so liegen die Werte nicht genau auf einerGeraden, aber in der Nahe einer Geraden.

Falls keine systematischen Abweichungen von einer imaginarenGeraden erkennbar sind: Normalverteilungsannahme istakzeptabel

Falls systematische Abweichungen von einer imaginarenGeraden deutlich erkennbar sind: Normalverteilungsannahmeist heikel, moglicherweise sollten Variablen umskaliert andereVariablen hinzugezogen werden.

Page 377: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

Tragt man statt der theoretischen Quantile die empirischenQuantile der Residuen gegen die Quantile einerNormalverteilung auf, so liegen die Werte nicht genau auf einerGeraden, aber in der Nahe einer Geraden.

Falls keine systematischen Abweichungen von einer imaginarenGeraden erkennbar sind: Normalverteilungsannahme istakzeptabel

Falls systematische Abweichungen von einer imaginarenGeraden deutlich erkennbar sind: Normalverteilungsannahmeist heikel, moglicherweise sollten Variablen umskaliert andereVariablen hinzugezogen werden.

Page 378: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

Tragt man statt der theoretischen Quantile die empirischenQuantile der Residuen gegen die Quantile einerNormalverteilung auf, so liegen die Werte nicht genau auf einerGeraden, aber in der Nahe einer Geraden.

Falls keine systematischen Abweichungen von einer imaginarenGeraden erkennbar sind: Normalverteilungsannahme istakzeptabel

Falls systematische Abweichungen von einer imaginarenGeraden deutlich erkennbar sind: Normalverteilungsannahmeist heikel, moglicherweise sollten Variablen umskaliert andereVariablen hinzugezogen werden.

Page 379: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

Beispiel:Daten: Typisches Korpergewicht [kg] und Gehirngewicht [g] von62 Saugetierarten (und 3 Dinosaurierarten)

Sind die Residuen einigermaßen normalverteilt?

Page 380: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

Beispiel:Daten: Typisches Korpergewicht [kg] und Gehirngewicht [g] von62 Saugetierarten (und 3 Dinosaurierarten)

Sind die Residuen einigermaßen normalverteilt?

Page 381: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

qqnorm(modell$residuals)

● ●●

● ● ●

●● ●

● ●● ● ● ●

●●

● ●

●●●

●●●● ●

● ●●● ● ●

●●

●● ● ●●●

● ●●●

●● ● ●●●

● ●

−2 −1 0 1 2

−50

00

500

1000

1500

2000

Normal Q−Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

Page 382: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

Die Residuen sind offensichtlich nicht normalverteilt. Zumindestgibt es extreme Ausreißer.

Wenn man sich aber die logarithmierten Großen ansieht, soerhalt man normalverteilte Residuen:

> logmodell <- lm(log(brain.weight.g)~log(weight.kg.),

subset=extinct=="no")

Page 383: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

Die Residuen sind offensichtlich nicht normalverteilt. Zumindestgibt es extreme Ausreißer.

Wenn man sich aber die logarithmierten Großen ansieht, soerhalt man normalverteilte Residuen:

> logmodell <- lm(log(brain.weight.g)~log(weight.kg.),

subset=extinct=="no")

Page 384: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

Daten: Typisches Korpergewicht [kg] und Gehirngewicht [g] von62 Saugetierarten (und 3 Dinosaurierarten)> data

weight.kg. brain.weight.g species extinct

1 6654.00 5712.00 african elephant no

2 1.00 6.60 no

3 3.39 44.50 no

4 0.92 5.70 no

5 2547.00 4603.00 asian elephant no

6 10.55 179.50 no

7 0.02 0.30 no

8 160.00 169.00 no

9 3.30 25.60 cat no

10 52.16 440.00 chimpanzee no

11 0.43 6.40

. . . .

. . . .

. . . .

64 9400.00 70.00 Triceratops yes

65 87000.00 154.50 Brachiosaurus yes

Page 385: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

●●●

●●

●●●●●●

●●

●●

●●●

●●●●

●●●●●●

●●●

●●●●●

●●●●

●●●●●●●●

0 1000 2000 3000 4000 5000 6000

010

0020

0030

0040

0050

00

typische Werte bei 62 Säugetierarten

Koerpergewicht [kg]

Geh

irnge

wic

ht [g

]

Page 386: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

●●

●●

1e−02 1e+00 1e+02 1e+04

1e−

011e

+00

1e+

011e

+02

1e+

03

typische Werte bei 62 Säugetierarten

Koerpergewicht [kg]

Geh

irnge

wic

ht [g

]

Page 387: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

●●

●●

1e−02 1e+00 1e+02 1e+04

1e−

011e

+00

1e+

011e

+02

1e+

03

typische Werte bei 62 Säugetierarten

Koerpergewicht [kg]

Geh

irnge

wic

ht [g

]

african elephantasian elephant

cat

chimpanzee cowdonkeygiraffe

goat

hamster

grey wolf

guinea pig

horse

jaguar

kangaroo

human

mole

mountain beaver

mouse

potar monkeypig

rabbit

rat

rhesus monkey sheep

DiplodocusTriceratops

Brachiosaurus

Page 388: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

> modell <- lm(brain.weight.g~weight.kg.,subset=extinct=="no")

> summary(modell)

Call:

lm(formula = brain.weight.g ~ weight.kg., subset = extinct ==

"no")

Residuals:

Min 1Q Median 3Q Max

-809.95 -87.43 -78.55 -31.17 2051.05

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 89.91213 43.58134 2.063 0.0434 *

weight.kg. 0.96664 0.04769 20.269 <2e-16 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 334.8 on 60 degrees of freedom

Multiple R-squared: 0.8726, Adjusted R-squared: 0.8704

F-statistic: 410.8 on 1 and 60 DF, p-value: < 2.2e-16

Page 389: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

qqnorm(modell$residuals)

● ●●

● ● ●

●● ●

● ●● ● ● ●

●●

● ●

●●●

●●●● ●

● ●●● ● ●

●●

●● ● ●●●

● ●●●

●● ● ●●●

● ●

−2 −1 0 1 2

−50

00

500

1000

1500

2000

Normal Q−Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

Page 390: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

plot(modell$fitted.values,modell$residuals)

● ●●

● ●●

● ●●

● ●●● ● ●

●●

●●

●● ●

●●●●●

● ●● ● ● ●

●●

● ●● ●●●

● ● ●●

●● ● ●●●

●●

1e−02 1e+00 1e+02 1e+04

−50

00

500

1000

1500

2000

modell$model$weight.kg.

mod

ell$

resi

dual

s

Page 391: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

plot(modell$fitted.values,modell$residuals,log=’x’)

●●●

● ●●

● ●●

●●●●● ●

●●

●●

●●●

●●●●●

●●●●●●

●●

● ●●●●●

●● ●●

●●●●●●●●

100 200 500 1000 2000 5000

−50

00

500

1000

1500

2000

modell$fitted.values

mod

ell$

resi

dual

s

Page 392: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

plot(modell$model$weight.kg.,modell$residuals)

●●●

●●●

● ●●

●●●●●●

●●●

●●

●●●

●●●●●

●●●●●●

●●● ●●●●●

●●●●

●●●●●●●●

0 1000 2000 3000 4000 5000 6000

−50

00

500

1000

1500

2000

modell$model$weight.kg.

mod

ell$

resi

dual

s

Page 393: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

plot(modell$model$weight.kg.,modell$residuals,log=’x’ )

● ●●

● ●●

● ●●

● ●●● ● ●

●●

●●

●● ●

●●●●●

● ●● ● ● ●

●●

● ●● ●●●

● ● ●●

●● ● ●●●

●●

1e−02 1e+00 1e+02 1e+04

−50

00

500

1000

1500

2000

modell$model$weight.kg.

mod

ell$

resi

dual

s

Page 394: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

Wir sehen, dass die Varianz der Residuen von den angepasstenWerten bzw. dem Korpergewicht abhangt. Man sagt, es liegtHeteroskedastizitat vor.

Das Modell geht aber von Homoskedastizitat aus, d.h. dieResiduenvarianz soll von den erklarenden Merkmalen (demKorpergewicht) und den angepassten Werten (annahernd)unabhangig sein.Varianzstabilisierende Transformation:Wie konnen wir die Korper- und Hirnmasse umskalieren, umHomoskedastizitat zu erreichen?

Page 395: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

Wir sehen, dass die Varianz der Residuen von den angepasstenWerten bzw. dem Korpergewicht abhangt. Man sagt, es liegtHeteroskedastizitat vor.Das Modell geht aber von Homoskedastizitat aus, d.h. dieResiduenvarianz soll von den erklarenden Merkmalen (demKorpergewicht) und den angepassten Werten (annahernd)unabhangig sein.

Varianzstabilisierende Transformation:Wie konnen wir die Korper- und Hirnmasse umskalieren, umHomoskedastizitat zu erreichen?

Page 396: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

Wir sehen, dass die Varianz der Residuen von den angepasstenWerten bzw. dem Korpergewicht abhangt. Man sagt, es liegtHeteroskedastizitat vor.Das Modell geht aber von Homoskedastizitat aus, d.h. dieResiduenvarianz soll von den erklarenden Merkmalen (demKorpergewicht) und den angepassten Werten (annahernd)unabhangig sein.Varianzstabilisierende Transformation:Wie konnen wir die Korper- und Hirnmasse umskalieren, umHomoskedastizitat zu erreichen?

Page 397: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

Eigentlich ist es ja offensichtlich: Bei Elefanten kann dastypischerweise 5 kg schwere Hirn je nach Individuum auch mal500 g schwerer oder leichter sein. Wenn bei einer Tierart dasHirn typischerweise 5 g schwer ist, wird es nicht um 500 gvariieren konnen, sondern vielleicht ebenfalls um 10%, also±0.5 g. Die Varianz ist hier also nicht additiv, sondernmultiplikativ:

Hirnmasse = (erwartete Hirnmasse) · Zufall

Das konnen wir aber in etwas mit additivem Zufalltermumwandeln, indem wir auf beiden Seiten den (naturlichen)Logarithmus ziehen:

log(Hirnmasse) = log(erwartete Hirnmasse) + log(Zufall)

Page 398: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

> logmodell <- lm(log(brain.weight.g)~log(weight.kg.),subset=extinct=="no")

> summary(logmodell)

Call:

lm(formula = log(brain.weight.g) ~ log(weight.kg.), subset = extinct ==

"no")

Residuals:

Min 1Q Median 3Q Max

-1.68908 -0.51262 -0.05016 0.46023 1.97997

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 2.11067 0.09794 21.55 <2e-16 ***

log(weight.kg.) 0.74985 0.02888 25.97 <2e-16 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.7052 on 60 degrees of freedom

Multiple R-squared: 0.9183, Adjusted R-squared: 0.9169

F-statistic: 674.3 on 1 and 60 DF, p-value: < 2.2e-16

Page 399: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

qqnorm(modell$residuals)

●●

●●

●●

●●

●●

●●

−2 −1 0 1 2

−1

01

2

Normal Q−Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

Page 400: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

plot(logmodell$fitted.values,logmodell$residuals)

●●

●●

●●

●●

● ●

●●

0 2 4 6 8

−1

01

2

logmodell$fitted.values

logm

odel

l$re

sidu

als

Page 401: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

plot(logmodell$fitted.values,logmodell$residuals,log=’x’

)

●●

●●

●●

●●

●●

1e−03 1e−02 1e−01 1e+00 1e+01

−1

01

2

logmodell$fitted.values

logm

odel

l$re

sidu

als

Page 402: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

plot(weight.kg.[extinct==’no’],logmodell$residuals)

●●

●●

●●

●●

●●

●●

0 1000 2000 3000 4000 5000 6000

−1

01

2

weight.kg.[extinct == "no"]

logm

odel

l$re

sidu

als

Page 403: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

plot(weight.kg.[extinct=’no’],logmodell$residuals,log=’x’

)

●●

●●

●●

●●

● ●

●●

1e−02 1e+00 1e+02 1e+04

−1

01

2

weight.kg.[extinct == "no"]

logm

odel

l$re

sidu

als

Page 404: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

Beispiele von Histogrammen undqqnorm-plots einiger Verteilungen

J

s

Den

sity

−2 −1 0 1 2

0.0

0.1

0.2

0.3

0.4

0.5

●●

●●

●●

●●●

●●

●●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

−3 −2 −1 0 1 2 3

−1.

5−

0.5

0.5

1.5

Normal Q−Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

Page 405: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

Beispiele von Histogrammen undqqnorm-plots einiger Verteilungen

K

s

Den

sity

−5 0 5 10 15 20

0.00

0.05

0.10

0.15

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●●

●●

●●

−3 −2 −1 0 1 2 3

05

1015

Normal Q−Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

Page 406: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

Beispiele von Histogrammen undqqnorm-plots einiger Verteilungen

L

s

Den

sity

−30 −20 −10 0 10

0.0

0.1

0.2

0.3

0.4

●●● ●● ● ●●

●●●●

● ● ●●

●●● ●●● ●● ● ●● ●● ●● ●●● ●●●●

●●

●●●● ●

●●

●● ●● ●●●

● ●●● ● ●● ●●● ●●

● ● ●●●

●●

●● ●

●●●●

●●

● ●●

● ●●●● ● ●●●

●●●●

●●●

● ●●●● ●●●●●●●

●●● ●

●●●

● ●● ●

● ●●●

●● ●● ●●

●●

●●

●●

●●

●● ●●●

●●

● ● ●● ● ●●

●●●

●● ●●●●● ●●

● ●● ● ●

−3 −2 −1 0 1 2 3

−30

−20

−10

05

Normal Q−Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

Page 407: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

Beispiele von Histogrammen undqqnorm-plots einiger Verteilungen

M

s

Den

sity

−10 −5 0 5 10 15

0.00

0.05

0.10

0.15

●●

●●

●●

●●

●●

●●

●●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

−3 −2 −1 0 1 2 3

−2

02

46

810

Normal Q−Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

Page 408: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

Beispiele von Histogrammen undqqnorm-plots einiger Verteilungen

N

s

Den

sity

−2 0 2 4 6 8

0.0

0.1

0.2

0.3

0.4

0.5

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●●

●●●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●●

−3 −2 −1 0 1 2 3

02

46

Normal Q−Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

Page 409: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Lineare Regression Uberprufen der Annahmen und Modellwahl

Beispiele von Histogrammen undqqnorm-plots einiger Verteilungen

O

s

Den

sity

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

−3 −2 −1 0 1 2 3

−2

−1

01

2

Normal Q−Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

Page 410: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Varianzanalyse

Ubersicht1 Deskriptive Statistik2 Standardfehler und t-Tests3 Chi-Quadrat-Tests

χ2-Test fur eine feste Verteilungχ2-Test auf Unabhangigkeit (oder Homogenitat)χ2-Test fur Modelle mit Parametern

4 Konfidenzintervalle5 Lineare Regression

Lineare Zusammenhanget-Test fuer lineare ZusammenhangeUberprufen der Annahmen und Modellwahl

6 Varianzanalyse7 Versuchsplanung: Stichprobenumfang

Page 411: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Varianzanalyse

Varianzanalyse: ”Logo“Wir beobachten unterschiedliche Gruppenmittelwerte:

Gruppe 1 Gruppe 2 Gruppe 3

−2

02

4

●●

●●

●●

Beo

bach

tung

swer

t

Variabilitat innerhalbder Gruppen groß

Gruppe 1 Gruppe 2 Gruppe 3

−2

02

4

●●

●● ●

● ●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●● ●

●●

Beo

bach

tung

swer

t

Variabilitat innerhalbder Gruppen klein

Sind die beobachteten Unterschiede der Gruppenmittelwerteernst zu nehmen — oder konnte das alles Zufall sein?

Das hangt vom Verhaltnis der Variabilitat derGruppenmittelwerte und der Variabilitat der Beobachtungen

innerhalb der Gruppen ab: die Varianzanalyse gibt eine(quantitative) Antwort.

Page 412: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Varianzanalyse

Varianzanalyse: ”Logo“Wir beobachten unterschiedliche Gruppenmittelwerte:

Gruppe 1 Gruppe 2 Gruppe 3

−2

02

4

●●

●●

●●

Beo

bach

tung

swer

t

Variabilitat innerhalbder Gruppen groß

Gruppe 1 Gruppe 2 Gruppe 3

−2

02

4

●●

●● ●

● ●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●● ●

●●

Beo

bach

tung

swer

t

Variabilitat innerhalbder Gruppen klein

Sind die beobachteten Unterschiede der Gruppenmittelwerteernst zu nehmen — oder konnte das alles Zufall sein?

Das hangt vom Verhaltnis der Variabilitat derGruppenmittelwerte und der Variabilitat der Beobachtungen

innerhalb der Gruppen ab: die Varianzanalyse gibt eine(quantitative) Antwort.

Page 413: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Varianzanalyse

Varianzanalyse: ”Logo“Wir beobachten unterschiedliche Gruppenmittelwerte:

Gruppe 1 Gruppe 2 Gruppe 3

−2

02

4

●●

●●

●●

Beo

bach

tung

swer

t

Variabilitat innerhalbder Gruppen groß

Gruppe 1 Gruppe 2 Gruppe 3

−2

02

4

●●

●● ●

● ●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●● ●

●●

Beo

bach

tung

swer

t

Variabilitat innerhalbder Gruppen klein

Sind die beobachteten Unterschiede der Gruppenmittelwerteernst zu nehmen — oder konnte das alles Zufall sein?

Das hangt vom Verhaltnis der Variabilitat derGruppenmittelwerte und der Variabilitat der Beobachtungen

innerhalb der Gruppen ab:

die Varianzanalyse gibt eine(quantitative) Antwort.

Page 414: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Varianzanalyse

Varianzanalyse: ”Logo“Wir beobachten unterschiedliche Gruppenmittelwerte:

Gruppe 1 Gruppe 2 Gruppe 3

−2

02

4

●●

●●

●●

Beo

bach

tung

swer

t

Variabilitat innerhalbder Gruppen groß

Gruppe 1 Gruppe 2 Gruppe 3

−2

02

4

●●

●● ●

● ●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●● ●

●●

Beo

bach

tung

swer

t

Variabilitat innerhalbder Gruppen klein

Sind die beobachteten Unterschiede der Gruppenmittelwerteernst zu nehmen — oder konnte das alles Zufall sein?

Das hangt vom Verhaltnis der Variabilitat derGruppenmittelwerte und der Variabilitat der Beobachtungen

innerhalb der Gruppen ab:

die Varianzanalyse gibt eine(quantitative) Antwort.

Page 415: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Varianzanalyse

Varianzanalyse: ”Logo“Wir beobachten unterschiedliche Gruppenmittelwerte:

Gruppe 1 Gruppe 2 Gruppe 3

−2

02

4

●●

●●

●●

Beo

bach

tung

swer

t

Variabilitat innerhalbder Gruppen groß

Gruppe 1 Gruppe 2 Gruppe 3

−2

02

4

●●

●● ●

● ●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●● ●

●●

Beo

bach

tung

swer

t

Variabilitat innerhalbder Gruppen klein

Sind die beobachteten Unterschiede der Gruppenmittelwerteernst zu nehmen — oder konnte das alles Zufall sein?

Das hangt vom Verhaltnis der Variabilitat derGruppenmittelwerte und der Variabilitat der Beobachtungen

innerhalb der Gruppen ab: die Varianzanalyse gibt eine(quantitative) Antwort.

Page 416: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Varianzanalyse

Beispiel

Blutgerinnungszeit bei Ratten unter 4 versch. BehandlungenGruppe Beobachtung

1 62 60 63 592 63 67 71 64 65 663 68 66 71 67 68 684 56 62 60 61 63 64 63 59

Globalmittelwert x ·· = 64,Gruppenmittelwerte x1· = 61, x2· = 66, x3· = 68, x4· = 61.

Page 417: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Varianzanalyse

Beispiel

Blutgerinnungszeit bei Ratten unter 4 versch. BehandlungenGruppe Beobachtung

1 62 60 63 592 63 67 71 64 65 663 68 66 71 67 68 684 56 62 60 61 63 64 63 59

Globalmittelwert x ·· = 64,Gruppenmittelwerte x1· = 61, x2· = 66, x3· = 68, x4· = 61.

Page 418: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Varianzanalyse

BeispielBlutgerinnungszeit bei Ratten unter 4 versch. BehandlungenGr. x i· Beobachtung1 61 62 60 63 59

(62− 61)2 (60− 61)2 (63− 61)2 (59− 61)2

2 66 63 67 71 64 65 66(63− 66)2 (67− 66)2 (71− 66)2 (64− 66)2 (65− 66)2 (66− 66)2

3 68 68 66 71 67 68 68(68− 68)2 (66− 68)2 (71− 68)2 (67− 68)2 (68− 68)2 (68− 68)2

4 61 56 62 60 61 63 64 63 59(56− 61)2 (62− 61)2 (60− 61)2 (61− 61)2 (63− 61)2 (64− 61)2 (63− 61)2 (59− 61)2

Globalmittelwert x ·· = 64,Gruppenmittelwerte x1· = 61, x2· = 66, x3· = 68, x4· = 61.

Die roten Werte (ohne die Quadrate) heißen Residuen: die ”Restvariabilitat“ derBeobachtungen, die das Modell nicht erklart.Quadratsumme innerhalb der Gruppen:ssinnerh = 112, 20 FreiheitsgradeQuadratsumme zwischen den Gruppen:sszw = 4 · (61− 64)2 + 6 · (66− 64)2 + 6 · (68− 64)2 + 8 · (61− 64)2 = 228,3 Freiheitsgrade

F =sszw/3

ssinnerh/20=

765,6

= 13,57

Page 419: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Varianzanalyse

BeispielBlutgerinnungszeit bei Ratten unter 4 versch. BehandlungenGr. x i· Beobachtung1 61 62 60 63 59

(62− 61)2 (60− 61)2 (63− 61)2 (59− 61)2

2 66 63 67 71 64 65 66(63− 66)2 (67− 66)2 (71− 66)2 (64− 66)2 (65− 66)2 (66− 66)2

3 68 68 66 71 67 68 68(68− 68)2 (66− 68)2 (71− 68)2 (67− 68)2 (68− 68)2 (68− 68)2

4 61 56 62 60 61 63 64 63 59(56− 61)2 (62− 61)2 (60− 61)2 (61− 61)2 (63− 61)2 (64− 61)2 (63− 61)2 (59− 61)2

Globalmittelwert x ·· = 64,Gruppenmittelwerte x1· = 61, x2· = 66, x3· = 68, x4· = 61.

Die roten Werte (ohne die Quadrate) heißen Residuen: die ”Restvariabilitat“ derBeobachtungen, die das Modell nicht erklart.

Quadratsumme innerhalb der Gruppen:ssinnerh = 112, 20 FreiheitsgradeQuadratsumme zwischen den Gruppen:sszw = 4 · (61− 64)2 + 6 · (66− 64)2 + 6 · (68− 64)2 + 8 · (61− 64)2 = 228,3 Freiheitsgrade

F =sszw/3

ssinnerh/20=

765,6

= 13,57

Page 420: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Varianzanalyse

BeispielBlutgerinnungszeit bei Ratten unter 4 versch. BehandlungenGr. x i· Beobachtung1 61 62 60 63 59

(62− 61)2 (60− 61)2 (63− 61)2 (59− 61)2

2 66 63 67 71 64 65 66(63− 66)2 (67− 66)2 (71− 66)2 (64− 66)2 (65− 66)2 (66− 66)2

3 68 68 66 71 67 68 68(68− 68)2 (66− 68)2 (71− 68)2 (67− 68)2 (68− 68)2 (68− 68)2

4 61 56 62 60 61 63 64 63 59(56− 61)2 (62− 61)2 (60− 61)2 (61− 61)2 (63− 61)2 (64− 61)2 (63− 61)2 (59− 61)2

Globalmittelwert x ·· = 64,Gruppenmittelwerte x1· = 61, x2· = 66, x3· = 68, x4· = 61.

Die roten Werte (ohne die Quadrate) heißen Residuen: die ”Restvariabilitat“ derBeobachtungen, die das Modell nicht erklart.Quadratsumme innerhalb der Gruppen:ssinnerh = 112,

20 FreiheitsgradeQuadratsumme zwischen den Gruppen:sszw = 4 · (61− 64)2 + 6 · (66− 64)2 + 6 · (68− 64)2 + 8 · (61− 64)2 = 228,3 Freiheitsgrade

F =sszw/3

ssinnerh/20=

765,6

= 13,57

Page 421: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Varianzanalyse

BeispielBlutgerinnungszeit bei Ratten unter 4 versch. BehandlungenGr. x i· Beobachtung1 61 62 60 63 59

(62− 61)2 (60− 61)2 (63− 61)2 (59− 61)2

2 66 63 67 71 64 65 66(63− 66)2 (67− 66)2 (71− 66)2 (64− 66)2 (65− 66)2 (66− 66)2

3 68 68 66 71 67 68 68(68− 68)2 (66− 68)2 (71− 68)2 (67− 68)2 (68− 68)2 (68− 68)2

4 61 56 62 60 61 63 64 63 59(56− 61)2 (62− 61)2 (60− 61)2 (61− 61)2 (63− 61)2 (64− 61)2 (63− 61)2 (59− 61)2

Globalmittelwert x ·· = 64,Gruppenmittelwerte x1· = 61, x2· = 66, x3· = 68, x4· = 61.

Die roten Werte (ohne die Quadrate) heißen Residuen: die ”Restvariabilitat“ derBeobachtungen, die das Modell nicht erklart.Quadratsumme innerhalb der Gruppen:ssinnerh = 112, 20 Freiheitsgrade

Quadratsumme zwischen den Gruppen:sszw = 4 · (61− 64)2 + 6 · (66− 64)2 + 6 · (68− 64)2 + 8 · (61− 64)2 = 228,3 Freiheitsgrade

F =sszw/3

ssinnerh/20=

765,6

= 13,57

Page 422: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Varianzanalyse

BeispielBlutgerinnungszeit bei Ratten unter 4 versch. BehandlungenGr. x i· Beobachtung1 61 62 60 63 59

(62− 61)2 (60− 61)2 (63− 61)2 (59− 61)2

2 66 63 67 71 64 65 66(63− 66)2 (67− 66)2 (71− 66)2 (64− 66)2 (65− 66)2 (66− 66)2

3 68 68 66 71 67 68 68(68− 68)2 (66− 68)2 (71− 68)2 (67− 68)2 (68− 68)2 (68− 68)2

4 61 56 62 60 61 63 64 63 59(56− 61)2 (62− 61)2 (60− 61)2 (61− 61)2 (63− 61)2 (64− 61)2 (63− 61)2 (59− 61)2

Globalmittelwert x ·· = 64,Gruppenmittelwerte x1· = 61, x2· = 66, x3· = 68, x4· = 61.

Die roten Werte (ohne die Quadrate) heißen Residuen: die ”Restvariabilitat“ derBeobachtungen, die das Modell nicht erklart.Quadratsumme innerhalb der Gruppen:ssinnerh = 112, 20 FreiheitsgradeQuadratsumme zwischen den Gruppen:sszw = 4 · (61− 64)2 + 6 · (66− 64)2 + 6 · (68− 64)2 + 8 · (61− 64)2 = 228,

3 Freiheitsgrade

F =sszw/3

ssinnerh/20=

765,6

= 13,57

Page 423: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Varianzanalyse

BeispielBlutgerinnungszeit bei Ratten unter 4 versch. BehandlungenGr. x i· Beobachtung1 61 62 60 63 59

(62− 61)2 (60− 61)2 (63− 61)2 (59− 61)2

2 66 63 67 71 64 65 66(63− 66)2 (67− 66)2 (71− 66)2 (64− 66)2 (65− 66)2 (66− 66)2

3 68 68 66 71 67 68 68(68− 68)2 (66− 68)2 (71− 68)2 (67− 68)2 (68− 68)2 (68− 68)2

4 61 56 62 60 61 63 64 63 59(56− 61)2 (62− 61)2 (60− 61)2 (61− 61)2 (63− 61)2 (64− 61)2 (63− 61)2 (59− 61)2

Globalmittelwert x ·· = 64,Gruppenmittelwerte x1· = 61, x2· = 66, x3· = 68, x4· = 61.

Die roten Werte (ohne die Quadrate) heißen Residuen: die ”Restvariabilitat“ derBeobachtungen, die das Modell nicht erklart.Quadratsumme innerhalb der Gruppen:ssinnerh = 112, 20 FreiheitsgradeQuadratsumme zwischen den Gruppen:sszw = 4 · (61− 64)2 + 6 · (66− 64)2 + 6 · (68− 64)2 + 8 · (61− 64)2 = 228,3 Freiheitsgrade

F =sszw/3

ssinnerh/20=

765,6

= 13,57

Page 424: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Varianzanalyse

BeispielBlutgerinnungszeit bei Ratten unter 4 versch. BehandlungenGr. x i· Beobachtung1 61 62 60 63 59

(62− 61)2 (60− 61)2 (63− 61)2 (59− 61)2

2 66 63 67 71 64 65 66(63− 66)2 (67− 66)2 (71− 66)2 (64− 66)2 (65− 66)2 (66− 66)2

3 68 68 66 71 67 68 68(68− 68)2 (66− 68)2 (71− 68)2 (67− 68)2 (68− 68)2 (68− 68)2

4 61 56 62 60 61 63 64 63 59(56− 61)2 (62− 61)2 (60− 61)2 (61− 61)2 (63− 61)2 (64− 61)2 (63− 61)2 (59− 61)2

Globalmittelwert x ·· = 64,Gruppenmittelwerte x1· = 61, x2· = 66, x3· = 68, x4· = 61.

Die roten Werte (ohne die Quadrate) heißen Residuen: die ”Restvariabilitat“ derBeobachtungen, die das Modell nicht erklart.Quadratsumme innerhalb der Gruppen:ssinnerh = 112, 20 FreiheitsgradeQuadratsumme zwischen den Gruppen:sszw = 4 · (61− 64)2 + 6 · (66− 64)2 + 6 · (68− 64)2 + 8 · (61− 64)2 = 228,3 Freiheitsgrade

F =sszw/3

ssinnerh/20=

765,6

= 13,57

Page 425: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Varianzanalyse

Beispiel: Blutgerinnungszeit bei Ratten unter 4 versch. Behandlungen

ANOVA-Tafel (”ANalysis Of VAriance“)Freiheits-grade(DF)

Quadrat-summe(SS)

mittlere Quadrat-summe (SS/DF) F -Wert

Gruppe 3 228 76 13,57

Residuen 20 112 5,6

Unter der Hypothese H0 ”die Gruppenmittelwerte sind gleich“(und einer Normalverteilungsannahme an die Beobachtungen)ist F Fisher-verteilt mit 3 und 20 Freiheitsgraden,p = Fisher3,20([13,57,∞)) ≤ 5 · 10−5.Wir lehnen demnach H0 ab.

Page 426: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Varianzanalyse

Beispiel: Blutgerinnungszeit bei Ratten unter 4 versch. Behandlungen

ANOVA-Tafel (”ANalysis Of VAriance“)Freiheits-grade(DF)

Quadrat-summe(SS)

mittlere Quadrat-summe (SS/DF) F -Wert

Gruppe 3 228 76 13,57

Residuen 20 112 5,6

Unter der Hypothese H0 ”die Gruppenmittelwerte sind gleich“(und einer Normalverteilungsannahme an die Beobachtungen)ist F Fisher-verteilt mit 3 und 20 Freiheitsgraden,p = Fisher3,20([13,57,∞)) ≤ 5 · 10−5.

Wir lehnen demnach H0 ab.

Page 427: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Varianzanalyse

Beispiel: Blutgerinnungszeit bei Ratten unter 4 versch. Behandlungen

ANOVA-Tafel (”ANalysis Of VAriance“)Freiheits-grade(DF)

Quadrat-summe(SS)

mittlere Quadrat-summe (SS/DF) F -Wert

Gruppe 3 228 76 13,57

Residuen 20 112 5,6

Unter der Hypothese H0 ”die Gruppenmittelwerte sind gleich“(und einer Normalverteilungsannahme an die Beobachtungen)ist F Fisher-verteilt mit 3 und 20 Freiheitsgraden,p = Fisher3,20([13,57,∞)) ≤ 5 · 10−5.Wir lehnen demnach H0 ab.

Page 428: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Varianzanalyse

95%-Quantil der Fisher-Verteilung in Abhangigkeit der Anzahl Freiheitsgrade(k1 Zahler-, k2 Nennerfreiheitsgrade)HH

HHHHk2

k1 1 2 3 4 5 6 7 8 9 10 11

1 161.45 199.5 215.71 224.58 230.16 233.99 236.77 238.88 240.54 241.88 242.982 18.51 19 19.16 19.25 19.3 19.33 19.35 19.37 19.38 19.4 19.43 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79 8.764 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6 5.96 5.945 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74 4.76 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.1 4.06 4.037 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64 3.68 5.32 4.46 4.07 3.84 3.69 3.58 3.5 3.44 3.39 3.35 3.319 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.14 3.1

10 4.96 4.1 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.98 2.9411 4.84 3.98 3.59 3.36 3.2 3.09 3.01 2.95 2.9 2.85 2.8212 4.75 3.89 3.49 3.26 3.11 3 2.91 2.85 2.8 2.75 2.7213 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.71 2.67 2.6314 4.6 3.74 3.34 3.11 2.96 2.85 2.76 2.7 2.65 2.6 2.5715 4.54 3.68 3.29 3.06 2.9 2.79 2.71 2.64 2.59 2.54 2.5116 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54 2.49 2.4617 4.45 3.59 3.2 2.96 2.81 2.7 2.61 2.55 2.49 2.45 2.4118 4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46 2.41 2.3719 4.38 3.52 3.13 2.9 2.74 2.63 2.54 2.48 2.42 2.38 2.3420 4.35 3.49 3.1 2.87 2.71 2.6 2.51 2.45 2.39 2.35 2.31

Page 429: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Varianzanalyse

F -Test

n = n1 + n2 + · · ·+ nI Beobachtungen in I Gruppen,Xij = j-te Beobachtung in der i-ten Gruppe, j = 1, . . . ,ni .

Modellannahme: Xij = µi + εij ,mit unabhangigen, normalverteilten εij , E[εij ] = 0, Var[εij ] = σ2

(µi ist der ”wahre“ Mittelwert innerhalb der i-ten Gruppe.)

X ·· = 1n

∑Ii=1

∑nij=1 Xij (empirisches) ”Globalmittel“

X i· = 1ni

∑nij=1 Xij (empirischer) Mittelwert der i-ten Gruppe

SSinnerh =I∑

i=1

ni∑j=1

(Xij − X i·)2 Quadratsumme innerhalb d. Gruppen,

n − I Freiheitsgrade

SSzw =I∑

i=1ni(X i· − X ··)2 Quadratsumme zwischen d. Gruppen,

I − 1 Freiheitsgrade

F =SSzw/(I − 1)

SSinnerh/(n − I)

Page 430: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Varianzanalyse

F -Test

n = n1 + n2 + · · ·+ nI Beobachtungen in I Gruppen,Xij = j-te Beobachtung in der i-ten Gruppe, j = 1, . . . ,ni .Modellannahme: Xij = µi + εij ,mit unabhangigen, normalverteilten εij , E[εij ] = 0, Var[εij ] = σ2

(µi ist der ”wahre“ Mittelwert innerhalb der i-ten Gruppe.)

X ·· = 1n

∑Ii=1

∑nij=1 Xij (empirisches) ”Globalmittel“

X i· = 1ni

∑nij=1 Xij (empirischer) Mittelwert der i-ten Gruppe

SSinnerh =I∑

i=1

ni∑j=1

(Xij − X i·)2 Quadratsumme innerhalb d. Gruppen,

n − I Freiheitsgrade

SSzw =I∑

i=1ni(X i· − X ··)2 Quadratsumme zwischen d. Gruppen,

I − 1 Freiheitsgrade

F =SSzw/(I − 1)

SSinnerh/(n − I)

Page 431: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Varianzanalyse

F -Test

n = n1 + n2 + · · ·+ nI Beobachtungen in I Gruppen,Xij = j-te Beobachtung in der i-ten Gruppe, j = 1, . . . ,ni .Modellannahme: Xij = µi + εij ,mit unabhangigen, normalverteilten εij , E[εij ] = 0, Var[εij ] = σ2

(µi ist der ”wahre“ Mittelwert innerhalb der i-ten Gruppe.)

X ·· = 1n

∑Ii=1

∑nij=1 Xij (empirisches) ”Globalmittel“

X i· = 1ni

∑nij=1 Xij (empirischer) Mittelwert der i-ten Gruppe

SSinnerh =I∑

i=1

ni∑j=1

(Xij − X i·)2 Quadratsumme innerhalb d. Gruppen,

n − I Freiheitsgrade

SSzw =I∑

i=1ni(X i· − X ··)2 Quadratsumme zwischen d. Gruppen,

I − 1 Freiheitsgrade

F =SSzw/(I − 1)

SSinnerh/(n − I)

Page 432: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Varianzanalyse

F -Test

n = n1 + n2 + · · ·+ nI Beobachtungen in I Gruppen,Xij = j-te Beobachtung in der i-ten Gruppe, j = 1, . . . ,ni .Modellannahme: Xij = µi + εij ,mit unabhangigen, normalverteilten εij , E[εij ] = 0, Var[εij ] = σ2

(µi ist der ”wahre“ Mittelwert innerhalb der i-ten Gruppe.)

X ·· = 1n

∑Ii=1

∑nij=1 Xij (empirisches) ”Globalmittel“

X i· = 1ni

∑nij=1 Xij (empirischer) Mittelwert der i-ten Gruppe

SSinnerh =I∑

i=1

ni∑j=1

(Xij − X i·)2 Quadratsumme innerhalb d. Gruppen,

n − I Freiheitsgrade

SSzw =I∑

i=1ni(X i· − X ··)2 Quadratsumme zwischen d. Gruppen,

I − 1 Freiheitsgrade

F =SSzw/(I − 1)

SSinnerh/(n − I)

Page 433: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Varianzanalyse

F -Test

n = n1 + n2 + · · ·+ nI Beobachtungen in I Gruppen,Xij = j-te Beobachtung in der i-ten Gruppe, j = 1, . . . ,ni .Modellannahme: Xij = µi + εij ,mit unabhangigen, normalverteilten εij , E[εij ] = 0, Var[εij ] = σ2

(µi ist der ”wahre“ Mittelwert innerhalb der i-ten Gruppe.)

X ·· = 1n

∑Ii=1

∑nij=1 Xij (empirisches) ”Globalmittel“

X i· = 1ni

∑nij=1 Xij (empirischer) Mittelwert der i-ten Gruppe

SSinnerh =I∑

i=1

ni∑j=1

(Xij − X i·)2 Quadratsumme innerhalb d. Gruppen,

n − I Freiheitsgrade

SSzw =I∑

i=1ni(X i· − X ··)2 Quadratsumme zwischen d. Gruppen,

I − 1 Freiheitsgrade

F =SSzw/(I − 1)

SSinnerh/(n − I)

Page 434: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Varianzanalyse

F -Test

n = n1 + n2 + · · ·+ nI Beobachtungen in I Gruppen,Xij = j-te Beobachtung in der i-ten Gruppe, j = 1, . . . ,ni .Modellannahme: Xij = µi + εij ,mit unabhangigen, normalverteilten εij , E[εij ] = 0, Var[εij ] = σ2

(µi ist der ”wahre“ Mittelwert innerhalb der i-ten Gruppe.)

X ·· = 1n

∑Ii=1

∑nij=1 Xij (empirisches) ”Globalmittel“

X i· = 1ni

∑nij=1 Xij (empirischer) Mittelwert der i-ten Gruppe

SSinnerh =I∑

i=1

ni∑j=1

(Xij − X i·)2 Quadratsumme innerhalb d. Gruppen,

n − I Freiheitsgrade

SSzw =I∑

i=1ni(X i· − X ··)2 Quadratsumme zwischen d. Gruppen,

I − 1 Freiheitsgrade

F =SSzw/(I − 1)

SSinnerh/(n − I)

Page 435: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Varianzanalyse

F -Test

Xij = j-te Beobachtung in der i-ten Gruppe, j = 1, . . . ,ni ,Modellannahme: Xij = µi + εij . E[εij ] = 0, Var[εij ] = σ2

SSinnerh =I∑

i=1

ni∑j=1

(Xij − X i·)2 Quadratsumme innerhalb d. Gruppen,

n − I Freiheitsgrade

SSzw =I∑

i=1ni(X i· − X ··)2 Quadratsumme zwischen d. Gruppen,

I − 1 Freiheitsgrade

F =SSzw/(I − 1)

SSinnerh/(n − I)Unter der Hypothese H0 : µ1 = · · · = µI (”alle µi sind gleich“)ist F Fisher-verteilt mit I − 1 und n − I Freiheitsgraden(unabhangig vom tatsachlichen gemeinsamen Wert der µi ).F -Test: Wir lehnen H0 zum Signifikanzniveau α ab, wennF ≥ q1−α, wobei q1−α das (1− α)-Quantil der Fisher-Verteilungmit I − 1 und n − I Freiheitsgraden ist.

Page 436: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

Ubersicht1 Deskriptive Statistik2 Standardfehler und t-Tests3 Chi-Quadrat-Tests

χ2-Test fur eine feste Verteilungχ2-Test auf Unabhangigkeit (oder Homogenitat)χ2-Test fur Modelle mit Parametern

4 Konfidenzintervalle5 Lineare Regression

Lineare Zusammenhanget-Test fuer lineare ZusammenhangeUberprufen der Annahmen und Modellwahl

6 Varianzanalyse7 Versuchsplanung: Stichprobenumfang

Page 437: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

Je großer die Stichprobenlange ist,desto wahrscheinlicher wird ein vorhandener Unterschieddurch einen statistischen Test angezeigt

desto kleinere Unterscheide konnen durch statistischeTests erkannt werdendesto teurer wird der Versuch.

Es ist also wichtig, eine geeignete Stichprobenlange zu wahlen.Dazu muss man sich uberlegen,

welcher Unterschied durch die anzuwendenden Testserkannt werden soll,wie groß die Variabilitat in den Daten in etwa sein wird.

Page 438: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

Je großer die Stichprobenlange ist,desto wahrscheinlicher wird ein vorhandener Unterschieddurch einen statistischen Test angezeigtdesto kleinere Unterscheide konnen durch statistischeTests erkannt werden

desto teurer wird der Versuch.

Es ist also wichtig, eine geeignete Stichprobenlange zu wahlen.Dazu muss man sich uberlegen,

welcher Unterschied durch die anzuwendenden Testserkannt werden soll,wie groß die Variabilitat in den Daten in etwa sein wird.

Page 439: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

Je großer die Stichprobenlange ist,desto wahrscheinlicher wird ein vorhandener Unterschieddurch einen statistischen Test angezeigtdesto kleinere Unterscheide konnen durch statistischeTests erkannt werdendesto teurer wird der Versuch.

Es ist also wichtig, eine geeignete Stichprobenlange zu wahlen.Dazu muss man sich uberlegen,

welcher Unterschied durch die anzuwendenden Testserkannt werden soll,wie groß die Variabilitat in den Daten in etwa sein wird.

Page 440: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

Je großer die Stichprobenlange ist,desto wahrscheinlicher wird ein vorhandener Unterschieddurch einen statistischen Test angezeigtdesto kleinere Unterscheide konnen durch statistischeTests erkannt werdendesto teurer wird der Versuch.

Es ist also wichtig, eine geeignete Stichprobenlange zu wahlen.Dazu muss man sich uberlegen,

welcher Unterschied durch die anzuwendenden Testserkannt werden soll,wie groß die Variabilitat in den Daten in etwa sein wird.

Page 441: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

Je großer die Stichprobenlange ist,desto wahrscheinlicher wird ein vorhandener Unterschieddurch einen statistischen Test angezeigtdesto kleinere Unterscheide konnen durch statistischeTests erkannt werdendesto teurer wird der Versuch.

Es ist also wichtig, eine geeignete Stichprobenlange zu wahlen.Dazu muss man sich uberlegen,

welcher Unterschied durch die anzuwendenden Testserkannt werden soll,

wie groß die Variabilitat in den Daten in etwa sein wird.

Page 442: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

Je großer die Stichprobenlange ist,desto wahrscheinlicher wird ein vorhandener Unterschieddurch einen statistischen Test angezeigtdesto kleinere Unterscheide konnen durch statistischeTests erkannt werdendesto teurer wird der Versuch.

Es ist also wichtig, eine geeignete Stichprobenlange zu wahlen.Dazu muss man sich uberlegen,

welcher Unterschied durch die anzuwendenden Testserkannt werden soll,wie groß die Variabilitat in den Daten in etwa sein wird.

Page 443: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

Einstichproben-Tests

Frage: Ist der wahre Mittelwert gleich µ0?

Beispiel: Kaltesstress-Toleranz bei Fruchtfliegen.

photo (c) Andre Karwath (Bild zeigt eine Drosophila melanogaster )

Page 444: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

Einstichproben-Tests

Frage: Ist der wahre Mittelwert gleich µ0?Beispiel: Kaltesstress-Toleranz bei Fruchtfliegen.

photo (c) Andre Karwath (Bild zeigt eine Drosophila melanogaster )

Page 445: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

Einstichproben-Tests

Die Chill-Coma Recovery Time (CCRT) ist die Zeit in Sekunden,nach der die Fliege nach einem Kaltekoma wieder aufwacht. Infruheren Versuchen wurde bei Drosophila ananassae ausBangkok eine mittlere CCRT von 46 gemessen.

Frage: Ist die CCRT bei Drosophila ananassae aus Kathmandu(Nepal) verschieden von 46?

Geplanter Test: (zweiseitiger) Einstichproben t-Test.

Ziel: Finde Unterschiede, die großer als d = 4 sind.Signifikanzniveau α = 5%. Testmacht 1− β = 80%.

Vorwissen: Standardabweichung bei Vortest war s = 11.9

Frage: Bei wie vielen Fliegen muss ich die CCRT messen, umdas Ziel zu erreichen?

Page 446: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

Einstichproben-Tests

Die Chill-Coma Recovery Time (CCRT) ist die Zeit in Sekunden,nach der die Fliege nach einem Kaltekoma wieder aufwacht. Infruheren Versuchen wurde bei Drosophila ananassae ausBangkok eine mittlere CCRT von 46 gemessen.

Frage: Ist die CCRT bei Drosophila ananassae aus Kathmandu(Nepal) verschieden von 46?

Geplanter Test:

(zweiseitiger) Einstichproben t-Test.

Ziel: Finde Unterschiede, die großer als d = 4 sind.Signifikanzniveau α = 5%. Testmacht 1− β = 80%.

Vorwissen: Standardabweichung bei Vortest war s = 11.9

Frage: Bei wie vielen Fliegen muss ich die CCRT messen, umdas Ziel zu erreichen?

Page 447: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

Einstichproben-Tests

Die Chill-Coma Recovery Time (CCRT) ist die Zeit in Sekunden,nach der die Fliege nach einem Kaltekoma wieder aufwacht. Infruheren Versuchen wurde bei Drosophila ananassae ausBangkok eine mittlere CCRT von 46 gemessen.

Frage: Ist die CCRT bei Drosophila ananassae aus Kathmandu(Nepal) verschieden von 46?

Geplanter Test: (zweiseitiger) Einstichproben t-Test.

Ziel: Finde Unterschiede, die großer als d = 4 sind.Signifikanzniveau α = 5%. Testmacht 1− β = 80%.

Vorwissen: Standardabweichung bei Vortest war s = 11.9

Frage: Bei wie vielen Fliegen muss ich die CCRT messen, umdas Ziel zu erreichen?

Page 448: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

Einstichproben-Tests

Die Chill-Coma Recovery Time (CCRT) ist die Zeit in Sekunden,nach der die Fliege nach einem Kaltekoma wieder aufwacht. Infruheren Versuchen wurde bei Drosophila ananassae ausBangkok eine mittlere CCRT von 46 gemessen.

Frage: Ist die CCRT bei Drosophila ananassae aus Kathmandu(Nepal) verschieden von 46?

Geplanter Test: (zweiseitiger) Einstichproben t-Test.

Ziel: Finde Unterschiede, die großer als d = 4 sind.Signifikanzniveau α = 5%. Testmacht 1− β = 80%.

Vorwissen: Standardabweichung bei Vortest war s = 11.9

Frage: Bei wie vielen Fliegen muss ich die CCRT messen, umdas Ziel zu erreichen?

Page 449: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

Man benotigt:d = Unterschied, den man mindestens erkennen konnenmochte. (engl: detection level)

einen ungefahren Wert s fur die Standardabweichung, dieman in den Daten erwartet (oft ein Wert aus Vorversuchen).α = PrH0(H0 wird (falschlicherweise) verworfen). Meist 5%.α ist das Signifikanzniveau. Die Ws α heißt auch Fehler1.Art.β = PrAlternative(H0 wird (falschlicherweise) nicht verworfen).Der Index Alternative bedeutet hier, dass wir von einemtatsachlichen Unterschied ≥ d ausgehen. Die Wahl von βhangt stark vom Problem ab. 1− β ist die Testmacht(engl. power ). Die Ws β heißt auch Fehler 2.Art.

Page 450: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

Man benotigt:d = Unterschied, den man mindestens erkennen konnenmochte. (engl: detection level)einen ungefahren Wert s fur die Standardabweichung, dieman in den Daten erwartet (oft ein Wert aus Vorversuchen).

α = PrH0(H0 wird (falschlicherweise) verworfen). Meist 5%.α ist das Signifikanzniveau. Die Ws α heißt auch Fehler1.Art.β = PrAlternative(H0 wird (falschlicherweise) nicht verworfen).Der Index Alternative bedeutet hier, dass wir von einemtatsachlichen Unterschied ≥ d ausgehen. Die Wahl von βhangt stark vom Problem ab. 1− β ist die Testmacht(engl. power ). Die Ws β heißt auch Fehler 2.Art.

Page 451: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

Man benotigt:d = Unterschied, den man mindestens erkennen konnenmochte. (engl: detection level)einen ungefahren Wert s fur die Standardabweichung, dieman in den Daten erwartet (oft ein Wert aus Vorversuchen).α = PrH0(H0 wird (falschlicherweise) verworfen). Meist 5%.α ist das Signifikanzniveau. Die Ws α heißt auch Fehler1.Art.

β = PrAlternative(H0 wird (falschlicherweise) nicht verworfen).Der Index Alternative bedeutet hier, dass wir von einemtatsachlichen Unterschied ≥ d ausgehen. Die Wahl von βhangt stark vom Problem ab. 1− β ist die Testmacht(engl. power ). Die Ws β heißt auch Fehler 2.Art.

Page 452: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

Man benotigt:d = Unterschied, den man mindestens erkennen konnenmochte. (engl: detection level)einen ungefahren Wert s fur die Standardabweichung, dieman in den Daten erwartet (oft ein Wert aus Vorversuchen).α = PrH0(H0 wird (falschlicherweise) verworfen). Meist 5%.α ist das Signifikanzniveau. Die Ws α heißt auch Fehler1.Art.β = PrAlternative(H0 wird (falschlicherweise) nicht verworfen).Der Index Alternative bedeutet hier, dass wir von einemtatsachlichen Unterschied ≥ d ausgehen. Die Wahl von βhangt stark vom Problem ab. 1− β ist die Testmacht(engl. power ). Die Ws β heißt auch Fehler 2.Art.

Page 453: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

Einstichproben-TestsFrage: Stichprobenlange fur CCRT-Versuch?Losung: Es soll gelten:

Prµ0+d

(|x − µ0|s/√

n≤ t1−α/2,n−1

)≤ β

wobei t1−α2 ,n−1<- qt(1-α/2,n-1) das (1− α/2)-Quantil ist.

Unter den Verteilungsannahmen des t-Tests ist die Ungleichungerfullt, falls

n ≥s2 · (t1−α

2 ,n−1 + t1−β,n−1)2

d2 .

Leider kannn man nicht einfach einsetzen, da die rechte Seitevon n abhangt.

Entweder probiert man herum und sucht das kleinste n wofurdie Ungleichung gilt.

Page 454: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

Einstichproben-TestsFrage: Stichprobenlange fur CCRT-Versuch?Losung: Es soll gelten:

Prµ0+d

(|x − µ0|s/√

n≤ t1−α/2,n−1

)≤ β

wobei t1−α2 ,n−1<- qt(1-α/2,n-1) das (1− α/2)-Quantil ist.

Unter den Verteilungsannahmen des t-Tests ist die Ungleichungerfullt, falls

n ≥s2 · (t1−α

2 ,n−1 + t1−β,n−1)2

d2 .

Leider kannn man nicht einfach einsetzen, da die rechte Seitevon n abhangt.

Entweder probiert man herum und sucht das kleinste n wofurdie Ungleichung gilt.

Page 455: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

Einstichproben-TestsFrage: Stichprobenlange fur CCRT-Versuch?Losung: Es soll gelten:

Prµ0+d

(|x − µ0|s/√

n≤ t1−α/2,n−1

)≤ β

wobei t1−α2 ,n−1<- qt(1-α/2,n-1) das (1− α/2)-Quantil ist.

Unter den Verteilungsannahmen des t-Tests ist die Ungleichungerfullt, falls

n ≥s2 · (t1−α

2 ,n−1 + t1−β,n−1)2

d2 .

Leider kannn man nicht einfach einsetzen, da die rechte Seitevon n abhangt.

Entweder probiert man herum und sucht das kleinste n wofurdie Ungleichung gilt.

Page 456: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

Einstichproben-TestsFrage: Stichprobenlange fur CCRT-Versuch?Losung: Es soll gelten:

Prµ0+d

(|x − µ0|s/√

n≤ t1−α/2,n−1

)≤ β

wobei t1−α2 ,n−1<- qt(1-α/2,n-1) das (1− α/2)-Quantil ist.

Unter den Verteilungsannahmen des t-Tests ist die Ungleichungerfullt, falls

n ≥s2 · (t1−α

2 ,n−1 + t1−β,n−1)2

d2 .

Leider kannn man nicht einfach einsetzen, da die rechte Seitevon n abhangt.

Entweder probiert man herum und sucht das kleinste n wofurdie Ungleichung gilt.

Page 457: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

Einstichproben-TestsOder man beginnt mit

n0 =s2 · (z1−α

2+ z1−β)2

d2

wobei z1−α2<- qnorm(1-α/2) das (1− α/2)-Quantil

und z1−β<- qnorm(1-β) das (1− β)-Quantil derNormalverteilung ist.

Die benotigte Stichprobenlange findet man dann durch Iteration:

n1 =s2 · (t1−α

2 ,n0−1 + t1−β,n0−1)2

d2

n2 =s2 · (t1−α

2 ,n1−1 + t1−β,n1−1)2

d2

usw bis sich nichts mehr andert.

Page 458: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

Einstichproben-TestsOder man beginnt mit

n0 =s2 · (z1−α

2+ z1−β)2

d2

wobei z1−α2<- qnorm(1-α/2) das (1− α/2)-Quantil

und z1−β<- qnorm(1-β) das (1− β)-Quantil derNormalverteilung ist.Die benotigte Stichprobenlange findet man dann durch Iteration:

n1 =s2 · (t1−α

2 ,n0−1 + t1−β,n0−1)2

d2

n2 =s2 · (t1−α

2 ,n1−1 + t1−β,n1−1)2

d2

usw bis sich nichts mehr andert.

Page 459: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

Einstichproben-Tests

Zuruck zum Beispiel:

n0 =s2 · (z1−α

2+ z1−β)2

d2 =11.92(z0.975 + z0.8)2

42 = 69.48 ∼ 70

n1 =s2 · (t1−α

2 ,n0−1 + t1−β,n0−1)2

d2 =11.92(t0.975,69 + t0.8,69)2

42

= 71.47 ∼ 72

n2 =s2 · (t1−α

2 ,n1−1 + t1−β,n1−1)2

d2 =11.92(t0.975,71 + t0.8,71)2

42

= 71.41 ∼ 72

Antwort: Die Stichprobenlange fur den CCRT-Versuch solltemindestens n ≥ 72 sein.

Page 460: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

Einstichproben-Tests

Zuruck zum Beispiel:

n0 =s2 · (z1−α

2+ z1−β)2

d2 =11.92(z0.975 + z0.8)2

42 = 69.48 ∼ 70

n1 =s2 · (t1−α

2 ,n0−1 + t1−β,n0−1)2

d2 =11.92(t0.975,69 + t0.8,69)2

42

= 71.47 ∼ 72

n2 =s2 · (t1−α

2 ,n1−1 + t1−β,n1−1)2

d2 =11.92(t0.975,71 + t0.8,71)2

42

= 71.41 ∼ 72

Antwort: Die Stichprobenlange fur den CCRT-Versuch solltemindestens n ≥ 72 sein.

Page 461: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

Einstichproben-Tests

Zuruck zum Beispiel:

n0 =s2 · (z1−α

2+ z1−β)2

d2 =11.92(z0.975 + z0.8)2

42 = 69.48 ∼ 70

n1 =s2 · (t1−α

2 ,n0−1 + t1−β,n0−1)2

d2 =11.92(t0.975,69 + t0.8,69)2

42

= 71.47 ∼ 72

n2 =s2 · (t1−α

2 ,n1−1 + t1−β,n1−1)2

d2 =11.92(t0.975,71 + t0.8,71)2

42

= 71.41 ∼ 72

Antwort: Die Stichprobenlange fur den CCRT-Versuch solltemindestens n ≥ 72 sein.

Page 462: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

Einstichproben-Tests

Zuruck zum Beispiel:

n0 =s2 · (z1−α

2+ z1−β)2

d2 =11.92(z0.975 + z0.8)2

42 = 69.48 ∼ 70

n1 =s2 · (t1−α

2 ,n0−1 + t1−β,n0−1)2

d2 =11.92(t0.975,69 + t0.8,69)2

42

= 71.47 ∼ 72

n2 =s2 · (t1−α

2 ,n1−1 + t1−β,n1−1)2

d2 =11.92(t0.975,71 + t0.8,71)2

42

= 71.41 ∼ 72

Antwort: Die Stichprobenlange fur den CCRT-Versuch solltemindestens n ≥ 72 sein.

Page 463: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

Einstichproben-Tests

Bemerkung: Bei einer Testmacht von 80% erhalt man in ca.80% der Falle (also in 4 von 5 Fallen) keine Signifikanz, obwohlsich die wahren Mittelwerte um d unterscheiden.

Wenn man den Versuch 5 mal durchfuhrt, so erhalt man imSchnitt nur 4 mal Signifikanz selbst wenn der wahre Unterschiedin etwa d ist.

Page 464: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

Einstichproben-Tests

Bemerkung: Bei einer Testmacht von 80% erhalt man in ca.80% der Falle (also in 4 von 5 Fallen) keine Signifikanz, obwohlsich die wahren Mittelwerte um d unterscheiden.Wenn man den Versuch 5 mal durchfuhrt, so erhalt man imSchnitt nur 4 mal Signifikanz selbst wenn der wahre Unterschiedin etwa d ist.

Page 465: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

Zweiseitiger Einstichproben t-Test

Geplanter Test: Zweiseitiger Einstichproben t-Test.

Ziel: Finde Unterschiede, die großer als d sind.Signifikanzniveau α. Testmacht 1− β.

Vorwissen: Standardabweichung bei Vortest war s

Losung: Es soll gelten:

n ≥s2 · (t1−α

2 ,n−1 + t1−β,n−1)2

d2

Page 466: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

Zweiseitiger ungepaarter Zweistichprobent-TestGeplanter Test: Zweiseitiger ungepaarter Zweistichprobent-Test.

Ziel: Finde Unterschiede, die großer als d sind.Signifikanzniveau α. Testmacht 1− β.

Vorwissen: Die Standardabweichungen in den beidenStichproben sind in etwa s1 beziehungsweise s2.

Losung: In jeder Gruppe muss die Stichprobenlangemindestens

n ≥(s2

1 + s22) · (t1−α

2 ,2∗n−2 + t1−β,2∗n−2)2

d2

sein.

Page 467: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

Zweiseitiger gepaarter Zweistichprobent-Test

Geplanter Test: Zweiseitiger gepaarter Zweistichproben t-Test.

Ziel: Finde Unterschiede, die großer als d sind.Signifikanzniveau α. Testmacht 1− β.

Vorwissen: Standardabweichung der Differenz der beidenStichproben ist in etwa sd .

Losung: In jeder Gruppe muss die Stichprobenlangemindestens

n ≥s2

d · (t1−α2 ,n−1 + t1−β,n−1)2

d2

sein.

Page 468: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

Einseitiger Einstichproben t-Test

Geplanter Test: Einseitiger Einstichproben t-Test.

Ziel: Finde Unterschiede, die großer als d sind.Signifikanzniveau α. Testmacht 1− β.

Vorwissen: Standardabweichung bei Vortest war s

Losung: Es soll gelten:

n ≥ s2 · (t1−α,n−1 + t1−β,n−1)2

d2

Page 469: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

Einseitiger ungepaarter Zweistichprobent-Test

Geplanter Test: Einseitiger ungepaarter Zweistichproben t-Test.

Ziel: Finde Unterschiede, die großer als d sind.Signifikanzniveau α. Testmacht 1− β.

Vorwissen: Die Standardabweichungen in den beidenStichproben sind in etwa s1 und s2.

Losung: In jeder Gruppe muss die Stichprobenlangemindestens

n ≥ (s21 + s2

2) · (t1−α,2∗n−2 + t1−β,2∗n−2)2

d2

sein.

Page 470: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

Einseitiger gepaarter Zweistichproben t-Test

Geplanter Test: Einseitiger gepaarter Zweistichproben t-Test.

Ziel: Finde Unterschiede, die großer als d sind.Signifikanzniveau α. Testmacht 1− β.

Vorwissen: Standardabweichung der Differenz der beidenStichproben ist in etwa sd .

Losung: In jeder Gruppe muss die Stichprobenlangemindestens

n ≥ s2d · (t1−α,n−1 + t1−β,n−1)2

d2

sein.

Page 471: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

In R ermittelt man die benotigte Stichprobenlange mit

power.t.test(n = , delta = , sd = , sig.level = ,

power = ,

type = c("two.sample","one.sample","paired"),

alternative = c("two.sided", "one.sided") )

Die Argumente sind:

n = Stichprobenlange (pro Gruppe bzw pro Stichprobe)delta = d (minimale Differenz, detection level)sd = s (vermutete Standardabweichung pro Gruppe)sig.level = α (Signifikanzniveau)power = 1− β (Testmacht)

Genau eines der Argumente n,delta,sd,sig.level,power

muss als NULL ubergeben werden. Dieses wird dann berechnet.

Page 472: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

In R ermittelt man die benotigte Stichprobenlange mit

power.t.test(n = , delta = , sd = , sig.level = ,

power = ,

type = c("two.sample","one.sample","paired"),

alternative = c("two.sided", "one.sided") )

Die Argumente sind:n = Stichprobenlange (pro Gruppe bzw pro Stichprobe)

delta = d (minimale Differenz, detection level)sd = s (vermutete Standardabweichung pro Gruppe)sig.level = α (Signifikanzniveau)power = 1− β (Testmacht)

Genau eines der Argumente n,delta,sd,sig.level,power

muss als NULL ubergeben werden. Dieses wird dann berechnet.

Page 473: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

In R ermittelt man die benotigte Stichprobenlange mit

power.t.test(n = , delta = , sd = , sig.level = ,

power = ,

type = c("two.sample","one.sample","paired"),

alternative = c("two.sided", "one.sided") )

Die Argumente sind:n = Stichprobenlange (pro Gruppe bzw pro Stichprobe)delta = d (minimale Differenz, detection level)

sd = s (vermutete Standardabweichung pro Gruppe)sig.level = α (Signifikanzniveau)power = 1− β (Testmacht)

Genau eines der Argumente n,delta,sd,sig.level,power

muss als NULL ubergeben werden. Dieses wird dann berechnet.

Page 474: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

In R ermittelt man die benotigte Stichprobenlange mit

power.t.test(n = , delta = , sd = , sig.level = ,

power = ,

type = c("two.sample","one.sample","paired"),

alternative = c("two.sided", "one.sided") )

Die Argumente sind:n = Stichprobenlange (pro Gruppe bzw pro Stichprobe)delta = d (minimale Differenz, detection level)sd = s (vermutete Standardabweichung pro Gruppe)

sig.level = α (Signifikanzniveau)power = 1− β (Testmacht)

Genau eines der Argumente n,delta,sd,sig.level,power

muss als NULL ubergeben werden. Dieses wird dann berechnet.

Page 475: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

In R ermittelt man die benotigte Stichprobenlange mit

power.t.test(n = , delta = , sd = , sig.level = ,

power = ,

type = c("two.sample","one.sample","paired"),

alternative = c("two.sided", "one.sided") )

Die Argumente sind:n = Stichprobenlange (pro Gruppe bzw pro Stichprobe)delta = d (minimale Differenz, detection level)sd = s (vermutete Standardabweichung pro Gruppe)sig.level = α (Signifikanzniveau)

power = 1− β (Testmacht)Genau eines der Argumente n,delta,sd,sig.level,power

muss als NULL ubergeben werden. Dieses wird dann berechnet.

Page 476: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

In R ermittelt man die benotigte Stichprobenlange mit

power.t.test(n = , delta = , sd = , sig.level = ,

power = ,

type = c("two.sample","one.sample","paired"),

alternative = c("two.sided", "one.sided") )

Die Argumente sind:n = Stichprobenlange (pro Gruppe bzw pro Stichprobe)delta = d (minimale Differenz, detection level)sd = s (vermutete Standardabweichung pro Gruppe)sig.level = α (Signifikanzniveau)power = 1− β (Testmacht)

Genau eines der Argumente n,delta,sd,sig.level,power

muss als NULL ubergeben werden. Dieses wird dann berechnet.

Page 477: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

In R ermittelt man die benotigte Stichprobenlange mit

power.t.test(n = , delta = , sd = , sig.level = ,

power = ,

type = c("two.sample","one.sample","paired"),

alternative = c("two.sided", "one.sided") )

Die Argumente sind:n = Stichprobenlange (pro Gruppe bzw pro Stichprobe)delta = d (minimale Differenz, detection level)sd = s (vermutete Standardabweichung pro Gruppe)sig.level = α (Signifikanzniveau)power = 1− β (Testmacht)

Genau eines der Argumente n,delta,sd,sig.level,power

muss als NULL ubergeben werden. Dieses wird dann berechnet.

Page 478: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

Der Befehl power.t.test() kann auch dazu benutzt werden,die Testmacht zu berechnen, wenn man sich auf dieStichprobenlange bereits festgelegt hat.

Beispiel:CCRT bei D. ananassae: n = 100, d = 4, s = 11.9, α = 5%

> power.t.test(n=100, delta=4, sd=11.9,

+ sig.level=0.05, power=NULL,

+ type="one.sample", alternative="two.sided")

One-sample t test power calculation

n = 100

delta = 4

sd = 11.9

sig.level = 0.05

power = 0.9144375

alternative = two.sided

Page 479: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

Der Befehl power.t.test() kann auch dazu benutzt werden,die Testmacht zu berechnen, wenn man sich auf dieStichprobenlange bereits festgelegt hat.Beispiel:CCRT bei D. ananassae: n = 100, d = 4, s = 11.9, α = 5%

> power.t.test(n=100, delta=4, sd=11.9,

+ sig.level=0.05, power=NULL,

+ type="one.sample", alternative="two.sided")

One-sample t test power calculation

n = 100

delta = 4

sd = 11.9

sig.level = 0.05

power = 0.9144375

alternative = two.sided

Page 480: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

F-Test

Will man testen, ob die Mittelwerte bei 3 oder mehr Gruppengleich sind, so verwendet man den F-Test. Um eine Aussageuber die Stichprobenlange treffen zu konnen, benotigt man dieVariabilitat innerhalb der Gruppen und die Variabilitat zwischenden Gruppen (z.B. aus Vorversuchen).

Die Formel fur die benotigte Stichprobe ist hier wenigerubersichtlich. Deshalb konzentrieren wir uns auf dieBerechnung mit R.

Wir zeigen an folgendem Beispiel, wie man den R-Befehlpower.anova.test() einsetzt, um die benotigteStichprobenlange zu ermitteln.

Page 481: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

F-Test

Will man testen, ob die Mittelwerte bei 3 oder mehr Gruppengleich sind, so verwendet man den F-Test. Um eine Aussageuber die Stichprobenlange treffen zu konnen, benotigt man dieVariabilitat innerhalb der Gruppen und die Variabilitat zwischenden Gruppen (z.B. aus Vorversuchen).

Die Formel fur die benotigte Stichprobe ist hier wenigerubersichtlich. Deshalb konzentrieren wir uns auf dieBerechnung mit R.

Wir zeigen an folgendem Beispiel, wie man den R-Befehlpower.anova.test() einsetzt, um die benotigteStichprobenlange zu ermitteln.

Page 482: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

F-Test

Will man testen, ob die Mittelwerte bei 3 oder mehr Gruppengleich sind, so verwendet man den F-Test. Um eine Aussageuber die Stichprobenlange treffen zu konnen, benotigt man dieVariabilitat innerhalb der Gruppen und die Variabilitat zwischenden Gruppen (z.B. aus Vorversuchen).

Die Formel fur die benotigte Stichprobe ist hier wenigerubersichtlich. Deshalb konzentrieren wir uns auf dieBerechnung mit R.

Wir zeigen an folgendem Beispiel, wie man den R-Befehlpower.anova.test() einsetzt, um die benotigteStichprobenlange zu ermitteln.

Page 483: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

Beispiel: Blutgerinnungszeit bei Ratten

Frage: Unterscheidet sich die Blutgerinnungszeit bei Rattenunter 4 verschiedenen Behandlungen?

Geplanter Test: F-Test.

Signifikanzniveau: α = 5%

Testmacht: 1− β = 90%.

Vorwissen: Standardabweichung innerhalb jeder Gruppe ist inetwa sinnerh = 2.4. Beachte: s2

innerh = ssinnerh/dfinnerh.Standardabweichung zwischen den Gruppen ist in etwaszw = 1.2. Beachte: s2

zw = sszw/dfzw.

Frage: Bei wie vielen Ratten muss die Blutgerinnungszeitgemessen werden?

Page 484: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

Beispiel: Blutgerinnungszeit bei Ratten

Frage: Unterscheidet sich die Blutgerinnungszeit bei Rattenunter 4 verschiedenen Behandlungen?

Geplanter Test: F-Test.

Signifikanzniveau: α = 5%

Testmacht: 1− β = 90%.

Vorwissen: Standardabweichung innerhalb jeder Gruppe ist inetwa sinnerh = 2.4. Beachte: s2

innerh = ssinnerh/dfinnerh.Standardabweichung zwischen den Gruppen ist in etwaszw = 1.2. Beachte: s2

zw = sszw/dfzw.

Frage: Bei wie vielen Ratten muss die Blutgerinnungszeitgemessen werden?

Page 485: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

Beispiel: Blutgerinnungszeit bei Ratten

Frage: Unterscheidet sich die Blutgerinnungszeit bei Rattenunter 4 verschiedenen Behandlungen?

Geplanter Test: F-Test.

Signifikanzniveau: α = 5%

Testmacht: 1− β = 90%.

Vorwissen: Standardabweichung innerhalb jeder Gruppe ist inetwa sinnerh = 2.4. Beachte: s2

innerh = ssinnerh/dfinnerh.Standardabweichung zwischen den Gruppen ist in etwaszw = 1.2. Beachte: s2

zw = sszw/dfzw.

Frage: Bei wie vielen Ratten muss die Blutgerinnungszeitgemessen werden?

Page 486: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

Beispiel: Blutgerinnungszeit bei Ratten

> power.anova.test(groups=4, n=NULL, between.var=1.2^2,

within.var=2.4^2, sig.level=0.05, power=0.9)

Balanced one-way analysis of variance power calculation

groups = 4

n = 19.90248

between.var = 1.44

within.var = 5.76

sig.level = 0.05

power = 0.9

NOTE: n is number in each group

Antwort: Fur jede der 4 Behandlungen braucht manmindestens 20 Ratten.

Page 487: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

Beispiel: Blutgerinnungszeit bei Ratten

> power.anova.test(groups=4, n=NULL, between.var=1.2^2,

within.var=2.4^2, sig.level=0.05, power=0.9)

Balanced one-way analysis of variance power calculation

groups = 4

n = 19.90248

between.var = 1.44

within.var = 5.76

sig.level = 0.05

power = 0.9

NOTE: n is number in each group

Antwort: Fur jede der 4 Behandlungen braucht manmindestens 20 Ratten.

Page 488: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/12SS/zusammenfassung.pdf · Das dritte Quartil, Q 3: drei Viertel der Beobachtungen sind

Versuchsplanung: Stichprobenumfang

Viel Erfolg beim Lernen!