1 STATISIK LV Nr.: 1375 SS 2005 15. März 2005. 2 Konfidenzintervall Ausgehend von dem Ergebnis...

31
1 STATISIK LV Nr.: 1375 SS 2005 15. März 2005

Transcript of 1 STATISIK LV Nr.: 1375 SS 2005 15. März 2005. 2 Konfidenzintervall Ausgehend von dem Ergebnis...

Page 1: 1 STATISIK LV Nr.: 1375 SS 2005 15. März 2005. 2 Konfidenzintervall Ausgehend von dem Ergebnis einer Stichprobe wird ein Intervall angegeben, in dem der.

1

STATISIK

LV Nr.: 1375

SS 2005

15. März 2005

Page 2: 1 STATISIK LV Nr.: 1375 SS 2005 15. März 2005. 2 Konfidenzintervall Ausgehend von dem Ergebnis einer Stichprobe wird ein Intervall angegeben, in dem der.

2

Konfidenzintervall

• Ausgehend von dem Ergebnis einer Stichprobe wird ein Intervall angegeben, in dem der zu schätzende Parameter der Grundgesamtheit mit einer bestimmten vorgegebenen Wahrscheinlichkeit (1-α) liegt.

Page 3: 1 STATISIK LV Nr.: 1375 SS 2005 15. März 2005. 2 Konfidenzintervall Ausgehend von dem Ergebnis einer Stichprobe wird ein Intervall angegeben, in dem der.

3

Konfidenzintervall

• Bsp. Arithmetisches Mittel (ist bei N-Vt. Grundgesamtheit bzw. bei genügend großem Stichprobenumfang N-Vt.). Der wahre Parameter µ liegt mit der Wahrscheinlichkeit (1-α) im Intervall

XX

zσX;zσX

Page 4: 1 STATISIK LV Nr.: 1375 SS 2005 15. März 2005. 2 Konfidenzintervall Ausgehend von dem Ergebnis einer Stichprobe wird ein Intervall angegeben, in dem der.

4

KonfidenzintervallKonfidenzintervall für den Parameter µ (bei N-Vt. des Stichprobenmittelwertes)

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

-3 -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5 3

Stichprobenmittelwert

Dic

hte

der

N(0

,1)

1-α = 0,95

α/2 = 0,025

Konfidenzintervall

α/2 = 0,025

x-z(α/2)σ x+z(1-α/2)σ

Page 5: 1 STATISIK LV Nr.: 1375 SS 2005 15. März 2005. 2 Konfidenzintervall Ausgehend von dem Ergebnis einer Stichprobe wird ein Intervall angegeben, in dem der.

5

Konfidenzintervall

• Bsp. Körpergröße: – Mittelwert = 65,7 – Standardabweichung = 12,5 – N = 38– 2-seitiges KI zum Niveau α=0,05

Wahrscheinlichkeit, dass der wahre Parameter im KI liegt ist 0,95. Quantile: z=1,96

KI [61,7 ≤ µ ≤ 69,7]

Page 6: 1 STATISIK LV Nr.: 1375 SS 2005 15. März 2005. 2 Konfidenzintervall Ausgehend von dem Ergebnis einer Stichprobe wird ein Intervall angegeben, in dem der.

6

Statistische Tests

• Fragen: – Besteht ein Zusammenhang zw. dem

Geschlecht und dem Rauchverhalten?– Ist der Ausschussanteil kleiner als 5%?– Ist die mittlere Länge eines Werkstücks, das

von zwei verschiedenen Maschinen hergestellt wird, gleich?

– Soll ein neues Medikament zugelassen werden?– Stammen Daten aus einer N-Vt

Grundgesamtheit?– …

Page 7: 1 STATISIK LV Nr.: 1375 SS 2005 15. März 2005. 2 Konfidenzintervall Ausgehend von dem Ergebnis einer Stichprobe wird ein Intervall angegeben, in dem der.

7

Statistische Tests

• Deskriptive Analyse der Daten– Lage- und Streuungsmassen– Kontingenztafeln – Korrelationsmaße– Verteilungsdiagramme– …

• Statistischer Test, um eine theoretisch abgesicherte Entscheidung zu treffen.

Page 8: 1 STATISIK LV Nr.: 1375 SS 2005 15. März 2005. 2 Konfidenzintervall Ausgehend von dem Ergebnis einer Stichprobe wird ein Intervall angegeben, in dem der.

8

38N =

GEWICHT

110

100

90

80

70

60

50

40

937

Deskriptive Analyse: Box-Plot

• Box-Plot: grafische Darstellung einer Beobachtungsreihe (Verteilung und Struktur)

38N =

GROEßE

210

200

190

180

170

160

150

140

Page 9: 1 STATISIK LV Nr.: 1375 SS 2005 15. März 2005. 2 Konfidenzintervall Ausgehend von dem Ergebnis einer Stichprobe wird ein Intervall angegeben, in dem der.

9

Deskriptive Analyse: Box-Plot

• Box-Plot – Box: beinhaltet 50% der Daten (Grenzen: 1.

und 3. Quartil), Darstellung des Medians. – Whiskers: maximal 1,5-mal die Länge der Box.– Ausreißer: Werte außerhalb der Whiskers.

• Ausreißer

• Krasse Ausreißer

Page 10: 1 STATISIK LV Nr.: 1375 SS 2005 15. März 2005. 2 Konfidenzintervall Ausgehend von dem Ergebnis einer Stichprobe wird ein Intervall angegeben, in dem der.

10

Deskriptive Analyse: Box-Plot

• Box-Plot für Vergleich von 2 Messreihen:

1820N =

SEX

mw

GR

OE

ßE

210

200

190

180

170

160

150

140

28

9

Page 11: 1 STATISIK LV Nr.: 1375 SS 2005 15. März 2005. 2 Konfidenzintervall Ausgehend von dem Ergebnis einer Stichprobe wird ein Intervall angegeben, in dem der.

11

Statistische Tests

Einführung:

• Testen von Hypothesen (Annahmen, Behauptungen)

• Statistischer Test: Verfahren, mit dessen Hilfe sich bestimmte Hypothesen auf ihre Richtigkeit hin überprüfen lassen.

• Statistische Testverfahren basieren auf Stichprobentheorie

Page 12: 1 STATISIK LV Nr.: 1375 SS 2005 15. März 2005. 2 Konfidenzintervall Ausgehend von dem Ergebnis einer Stichprobe wird ein Intervall angegeben, in dem der.

12

Statistische Tests

Einführung:• Ziel: Richtigkeit von Aussagen über die

Verteilung einer Zufallsvariablen überprüfen. • Entscheidungsgrundlage: Ergebnis eines

zufälligen Vorgangs.• Daher: Entscheidungen nicht immer richtig• Aber: Beim Vorliegen einiger der möglichen

Verteilungen ist die Wahrscheinlichkeit falsch zu entscheiden beschränkt.

Page 13: 1 STATISIK LV Nr.: 1375 SS 2005 15. März 2005. 2 Konfidenzintervall Ausgehend von dem Ergebnis einer Stichprobe wird ein Intervall angegeben, in dem der.

13

Statistische Tests: Hypothesen

Hypothesen:

• Annahmen, Behauptungen, Aussagen über unbekannte Grundgesamtheit

• 2 Arten von Hypothesen:– Parameterhypothesen, Überprüfung durch

Parametertests– Verteilungshypothesen, Überprüfung durch

Verteilungstests

Page 14: 1 STATISIK LV Nr.: 1375 SS 2005 15. März 2005. 2 Konfidenzintervall Ausgehend von dem Ergebnis einer Stichprobe wird ein Intervall angegeben, in dem der.

14

Statistische Tests: Hypothesen

Formulierung von Hypothesen:

• Nullhypothese H0 (Ausgangshypothese)

• Alternativhypothese H1 (Gegenhypothese)

Page 15: 1 STATISIK LV Nr.: 1375 SS 2005 15. März 2005. 2 Konfidenzintervall Ausgehend von dem Ergebnis einer Stichprobe wird ein Intervall angegeben, in dem der.

15

Statistische Tests: Hypothesen

Bsp.• Anteile:

– H0: Ausschussanteil = 10%

– H1: Ausschussanteil > 10%

• Mittelwerte: – H0: Mittlere Länge eines Werkstücks = 5cm

– H1: Mittlere Länge eines Werkstücks 5cm

• Gruppenvergleich: – H0: Gruppe 1 und Gruppe 2 sind gleich

– H1: Gruppe 1 und Gruppe 2 sind ungleich

Page 16: 1 STATISIK LV Nr.: 1375 SS 2005 15. März 2005. 2 Konfidenzintervall Ausgehend von dem Ergebnis einer Stichprobe wird ein Intervall angegeben, in dem der.

16

Statistische Tests

• Entscheidung für H0 oder H1 basiert auf einer Stichprobe x1,…,xn

• Wahrscheinlichkeitsaussage ob H0 zutrifft oder nicht.

• Frage: H0 ablehnen (verwerfen) oder H0 nicht ablehnen?

Page 17: 1 STATISIK LV Nr.: 1375 SS 2005 15. März 2005. 2 Konfidenzintervall Ausgehend von dem Ergebnis einer Stichprobe wird ein Intervall angegeben, in dem der.

17

Statistische Tests

Mögliche Fehlentscheidungen:

• Fehler 1. Art (α-Fehler): obwohl H0 korrekt ist wird H0 abgelehnt

• Fehler 2. Art (β-Fehler): obwohl H0 falsch ist wird H0 nicht abgelehnt.

Page 18: 1 STATISIK LV Nr.: 1375 SS 2005 15. März 2005. 2 Konfidenzintervall Ausgehend von dem Ergebnis einer Stichprobe wird ein Intervall angegeben, in dem der.

18

Statistische Tests

• Fehlentscheidungen

Trifft zu

EntscheidungH0 H1

H0Richtige

EntscheidungFehler 2. Art (β -Fehler)

H1Fehler 1. Art

(α-Fehler)Richtige

Entscheidung

Page 19: 1 STATISIK LV Nr.: 1375 SS 2005 15. März 2005. 2 Konfidenzintervall Ausgehend von dem Ergebnis einer Stichprobe wird ein Intervall angegeben, in dem der.

19

Statistische Tests

Problem bei Fehlentscheidungen:

• Falsche Entscheidung

• Man weiß nicht, ob man in einer konkreten Situation einen Fehler macht, sondern nur welcher Art dieser ist.

Page 20: 1 STATISIK LV Nr.: 1375 SS 2005 15. März 2005. 2 Konfidenzintervall Ausgehend von dem Ergebnis einer Stichprobe wird ein Intervall angegeben, in dem der.

20

Statistische Tests

• Signifikanzniveau eines Tests α:– Die Wahrscheinlichkeit eine Fehler 1. Art zu

machen ist höchstens α, daher „Test zum Niveau α“ - egal mit welcher Wahrscheinlichkeit ein Fehler 2. Art begangen wird.

Page 21: 1 STATISIK LV Nr.: 1375 SS 2005 15. März 2005. 2 Konfidenzintervall Ausgehend von dem Ergebnis einer Stichprobe wird ein Intervall angegeben, in dem der.

21

Statistische Tests

• Trifft H0 zu und entscheidet man sich für H1, dann ist die Wahrscheinlichkeit dabei einen Fehler zu machen ≤ α (α bekannt, wird festgelegt).

• Trifft H1 zu und entscheidet man sich für H0, dann ist die Wahrscheinlichkeit dabei eine Fehler zu machen = β (β unbekannt).

Page 22: 1 STATISIK LV Nr.: 1375 SS 2005 15. März 2005. 2 Konfidenzintervall Ausgehend von dem Ergebnis einer Stichprobe wird ein Intervall angegeben, in dem der.

22

Statistische TestsFehler 1. Art und Fehler 2. Art

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

-3 -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5 3 3,5 4 4,5 5 5,5 6

x

f(x)

N(0,1) N(3,1)

Fehler 1. Art

Fehler 2. Art

µ0=0 µ1=3

Page 23: 1 STATISIK LV Nr.: 1375 SS 2005 15. März 2005. 2 Konfidenzintervall Ausgehend von dem Ergebnis einer Stichprobe wird ein Intervall angegeben, in dem der.

23

Statistische Tests

• D.h. durch Festlegen des α-Niveaus ist nur die Entscheidung für H1 abgesichert.

• Bei Entscheidung für H1: – H1 ist richtig, – H1 ist falsch, ich mache einen Fehler mit

Wahrscheinlichkeit ≤ α.

• Daher: Formuliere H0 so, dass sie abgelehnt werden soll. bzw. in H0 soll diejenige Annahme festgelegt werden, der die größere Bedeutung zukommt.

Page 24: 1 STATISIK LV Nr.: 1375 SS 2005 15. März 2005. 2 Konfidenzintervall Ausgehend von dem Ergebnis einer Stichprobe wird ein Intervall angegeben, in dem der.

24

Statistische Tests

• Bsp. Medikamententest H0: Medikament ist nicht wirksam gegen H1: Medikament wirkt. – Fehler 1. Art: das Medikament wirkt nicht, man

glaubt aber dass es wirkt– Fehler 2. Art: das Medikament wirkt, man

glaubt aber dass es unwirksam ist.

Wähle α=0,01 (sehr klein), da Risiko ein nichtwirksames Medikament als wirksam einzustufen sehr groß ist.

Page 25: 1 STATISIK LV Nr.: 1375 SS 2005 15. März 2005. 2 Konfidenzintervall Ausgehend von dem Ergebnis einer Stichprobe wird ein Intervall angegeben, in dem der.

25

Statistische Tests

• Arten von Hypothesen:

• Einseitige Hypothesen– H0: θ ≤ θ0 gegen H1: θ > θ0

– H0: θ ≥ θ0 gegen H1: θ < θ0

• Zweiseitige Hypothesen– H0: θ = θ0 gegen H1: θ ≠ θ0

• Verteilungshypothesen:– H0: bestimmten Vt. gegen H1: nicht diese Vt.

Page 26: 1 STATISIK LV Nr.: 1375 SS 2005 15. März 2005. 2 Konfidenzintervall Ausgehend von dem Ergebnis einer Stichprobe wird ein Intervall angegeben, in dem der.

26

Statistische Tests

• Arten von Testproblemen:– Einseitige Testprobleme

• Tests für einseitige Hypothesen

– Zweiseitige Testprobleme• Tests für zweiseitige Hypothesen

– Anpassungstests• Test für Verteilungshypothesen

Page 27: 1 STATISIK LV Nr.: 1375 SS 2005 15. März 2005. 2 Konfidenzintervall Ausgehend von dem Ergebnis einer Stichprobe wird ein Intervall angegeben, in dem der.

27

Statistische Tests

• Gütefunktion oder Macht g(θ): Wahrscheinlichkeit sich für H1 zu entscheiden, falls θ der wahre Parameter ist.

• Test zum Niveau α:– g(θ) ≤ α für alle θ H0

– g(θ) ≥ α für alle θ H1

– Ist θ H1, ist 1-g(θ) Wahrscheinlichkeit für den Fehler 2. Art.

– Funktion 1-g(θ) heißt Operationscharakteristik (OC)

Page 28: 1 STATISIK LV Nr.: 1375 SS 2005 15. März 2005. 2 Konfidenzintervall Ausgehend von dem Ergebnis einer Stichprobe wird ein Intervall angegeben, in dem der.

28

Statistische TestsGütefunktion (einseitiger Test)

0,00

0,05

0,10

0,15

0,20

0,25

0,30

0,35

0,40

0,45

0,50

0,55

0,60

0,65

0,70

0,75

0,80

0,85

0,90

0,95

1,00

499 499,5 500 500,5 501 501,5 502

µ

g(µ

)

µ0=500

Page 29: 1 STATISIK LV Nr.: 1375 SS 2005 15. März 2005. 2 Konfidenzintervall Ausgehend von dem Ergebnis einer Stichprobe wird ein Intervall angegeben, in dem der.

29

Statistische TestsOperationscharaktersitik OC Kurve (einseitiger Test)

0,00

0,05

0,10

0,15

0,20

0,25

0,30

0,35

0,40

0,45

0,50

0,55

0,60

0,65

0,70

0,75

0,80

0,85

0,90

0,95

1,00

499,5 500 500,5 501 501,5 502

µ

Feh

ler

2.A

rt =

1-g

(µ)

µ0=500

Page 30: 1 STATISIK LV Nr.: 1375 SS 2005 15. März 2005. 2 Konfidenzintervall Ausgehend von dem Ergebnis einer Stichprobe wird ein Intervall angegeben, in dem der.

30

Statistische Tests

• Trennschärfe eines Tests:– Steilheit der OC Kurve 1-g(θ)– Es gilt: Je größer die Stichprobe umso besser

die Trennschärfe.

Page 31: 1 STATISIK LV Nr.: 1375 SS 2005 15. März 2005. 2 Konfidenzintervall Ausgehend von dem Ergebnis einer Stichprobe wird ein Intervall angegeben, in dem der.

31

Statistische TestsOperationscharaktersitik OC Kurve (einseitiger Test),

unterschiedliche Stichprobengrößen n (n=9, n=100, n=10000)

0,00

0,05

0,10

0,15

0,20

0,25

0,30

0,35

0,40

0,45

0,50

0,55

0,60

0,65

0,70

0,75

0,80

0,85

0,90

0,95

1,00

499,5 500 500,5 501 501,5 502

µ

Feh

ler

2.A

rt =

1-g

(µ)

µ0=500