Induktive Statistik. Statistische Struktur (diskreter Fall) Dabei sind:

Post on 05-Apr-2015

123 views 0 download

Transcript of Induktive Statistik. Statistische Struktur (diskreter Fall) Dabei sind:

Induktive Statistik

Statistische Struktur(diskreter Fall)

Dabei sind:

Schätzproblem

Schätzer

Ω

ΘModell

Beobachtung(Stichprobe)

Grundgesamtheit(mögliche Beobachtungen)

Schätzung

Ω

ΘModell

Beobachtung(Stichprobe)

Grundgesamtheit(mögliche Beobachtungen)

Schätzung

Eg

Stichprobe (diskreter Fall)

Mathematischer Rahmen

Statistische Struktur diskret stetig

Maximum-Likelihood-Schätzer(diskreter Fall)

Likelihood-Funktion

mit

oder

M-L-Schätzer

Der Parameter

ist die beste Erklärung für die Beobachtung

Likelihood-Funktion

Der Logharithmus ln x ist streng monoton wachsend

Beispiel Poisson-Verteilung

Stichprobe vom Umfang n mit Poisson-verteilter Stich-Probenvariablen (Intensität: )

M-L-Schätzer für

oder

Beispiel Bernoulli-Verteilung

Stichprobe vom Umfang n mit Bernoulli- verteilter Stichprobenvariablen(p: Wahrscheinlichkeit des Ereignisses)

M-L-Schätzer für p wieder gegeben durch:

Maximum-Likelihood-Schätzer(stetiger Fall)

Likelihood-Funktion

mit

oder

M-L-Schätzer

Der Parameter

ist die beste Erklärung für die Beobachtung

Beispiel Bernoulli-Verteilung

Stichprobe vom Umfang n mit Bernoulli- verteilter Stichprobenvariablen(p: Wahrscheinlichkeit des Ereignisses)

M-L-Schätzer für p wieder gegeben durch:

Normalverteilte Stichprobenvariable

M-L-Schätzer Erwartungswert

Hier spielt es keine Rolle, ob die Varianz bekannt ist oder nicht. In jedem Fall gilt:

Normalverteilte Stichprobenvariable

M-L-Schätzer Varianz bekannt

Normalverteilte Stichprobenvariable

M-L-Schätzer Varianz unbekannt

Übersicht

Aufgabe 1

Erwartungstreue Schätzer

Wenn der Parameter selbst geschätzt werden soll:

Wenn ein allgemeines statistisches Problem vorliegt:

Dabei bedeutet der Index , dass der Erwartungswert bzgl. des W.maßes zum Parameter genommen wird.

Schätzung des Erwartungswertes der Stichprobenvariablen X

Statistisches Problem gegeben durch:

Erwartungstreuer Schätzer:

Schätzung der Varianz der Stichprobenvariablen X

Statistisches Problem gegeben durch:

Erwartungstreuer Schätzer:

Erwartungswert bekannt

Schätzung der Varianz der Stichprobenvariablen X

Statistisches Problem gegeben durch:

Erwartungstreuer Schätzer:

Erwartungswert unbekannt

Normalverteilte StichprobenvariableErwartungstreuer Schätzer

für den Erwarungswert

Hier spielt es wieder keine Rolle, ob die Varianz bekannt ist oder nicht. In jedem Fall gilt:

ist erwartungstreuerwartungstreu

Normalverteilte StichprobenvariableErwartungstreuer Schätzer

für die Varianz

bekannt

ist erwartungstreuerwartungstreu

Normalverteilte StichprobenvariableErwartungstreuer Schätzer

für die Varianz

unbekannt

ist erwartungstreuerwartungstreu

Kein M-L-Schätzer!!

Übersicht

erwartungstreuerwartungstreu

erwartungstreuerwartungstreu

erwartungstreuerwartungstreu

nichtnichterwartungstreuerwartungstreu

Konfidenzintervalle

Intervallschätzung

Jeder Beobachtung wird ein Intervall C() der reellen Zahlen zugeordnet

Niveau

Dabei ist die Wahrscheinlichkeit, eine Beobachtung zu machen, für die der wahre Parameter im zugehörigen

Intervall liegt, größer oder gleich 1 -

Niveau

Das Niveau wird „klein“„klein“ gewählt.(Wir nehmen in unseren Beispielen in den meisten Fällen = 0.05 oder = 0.1)

Es gibt aber einen ZusammenhangZusammenhang zwischen der Breite der Konfidenzintervalle und dem Niveau:

Niveaukleiner

Intervallbreiter

Die Intervallbreite soll möglichst gering sein.

Konfidenzintervall für den Erwartungswert

Varianz bekannt

Annahme:

Konfidenzintervalle:

wobei

Die Gauß- oder Normalverteilung

Dichte

Verteilung

Verteilungsfunktion

Erwartungswert

Varianz

Approximative Konfidenzintervalle im Bernoulli-Fall I

Konfidenzintervall zum Niveau

Approximative Konfidenzintervalle im Bernoulli-Fall II

Vereinfachung für großes n(n 100)

Aufgabe 2

Die Student- oder t-Verteilung

Hängt von Parameter n ab!

Die Student- oder t-Verteilung

Wahrscheinlichkeitsdichte

Die Konstante d ist dabei:

Die Chi-Quadrat-Verteilung

Hängt ebenfalls von Parameter n ab!

Die Chi-Quadrat-Verteilung

Wahrscheinlichkeitsdichte

Die Konstante c ist dabei:

: Gamma-Funktion

Für n unabhängigeunabhängige Zufallsvariablen

mit

hat man:

Mathematische Bedeutung der Chi-Quadrat-Verteilung

Für unabhängigeunabhängige Zufallsvariablen W und U mit

hat man:

Mathematische Bedeutung der t-Verteilung

Konfidenzintervall für den Erwartungswert

Varianz unbekannt

Student-Verteilung(oder t-Verteilung)

Übersicht Konfidenzintervalle

für den Erwartungswert

Aufgabe 3

Verwendung der Tafelfür die Normalvertreilung

TESTS

TESTS

TESTS

TESTS

TESTS

TESTSTESTS

Worum es gehtMan möchte „testen“, ob eine bestimmte Annahme (Hypothese) über Parameter der Realität entspricht oder nicht.

Beobachtung (Stichprobe)

EntscheidungEntscheidungVorgabe:

„Irrtumswahrscheinlichkeit“

Formulierung einerHypothese

NullhypotheseNullhypotheseIn der Statistik kann man nie ganz sicher sein. Die „Irrtumswahrscheinlichkeit“sollte wenigstens klein sein.

Mathematischer Rahmen ITESTS

Statistische Struktur

Testproblem(Hypothese)

NullhypotheseNullhypothese

Gegeben sind:

Stetiger Fall Diskreter Fall

Niveau

Mathematischer Rahmen IITESTS

TestTest gegeben durch:

Ablehnungsbereich

Teilmenge der Grundgesamtheit :

Menge aller Beobachtungen ,die zur Ablehnung der Hypothese führen

Mathematischer Rahmen IIITESTS

Beobachtung (Stichprobe)(Stichprobe)

Entweder Oder

Beobachtung liegtim Annahmebereich

Beobachtung liegtim Ablehnungsbereich

Hypotheseannehmen!

Hypothese ablehnen!

Fehler erster und zweiter Art

HypotheseHypotheseakzeptiertakzeptiert

Hypotheseabgelehnt

HypotheseHypothesewahrwahr

Hypothesefalsch

EntscheidungEntscheidung

RealitätRealität

Fehler 1. Art

Fehler 2. Art

Niveau und Macht

Obere Grenze für die Wahrscheinlichkeit, einen Fehler 1. ArtFehler 1. Art zu begehenNiveauNiveau

Wahrscheinlichkeit, keinen Fehler 2. ArtFehler 2. Art zu begehen, wenn der wahre Parameterwert in dem Punkt liegt

MachtMacht in einem Punkt der Alternative

Test für den ErwartungswertVarianz bekannt

Fall Normalverteilung

Test für den ErwartungswertVarianz unbekannt

Fall Normalverteilung

Aufgabe 4

Aufgabe 5

Vergleich zweier unabhängiger Stichproben 1. Fall1. Fall

2 unabhängige Stichproben mit Stichprobenvariablen X und Y

Annahmen: X und Y normalverteilt

Varianz von X = Varianz von Y

Hypothese: Erwartungswert von X = Erwartungswert von Y

Vergleich zweier unabhängiger Stichproben 1. Fall1. Fall

Prüfgröße

n: Umfang der Stichprobe 1 (Stichprobenvariable X)

m: Umfang der Stichprobe 2 (Stichprobenvariable Y)

Ablehnungsbereich

bestimmt durch

Aufgabe 6

Vergleich zweier unabhängiger Stichproben 2. Fall2. Fall

2 unabhängige Stichproben mit Stichprobenvariablen X und Y

Annahmen: X und Y normalverteilt

n und m groß (> 30), damitApproximation der Varianzensinnvoll

Hypothese: Erwartungswert von X = Erwartungswert von Y

Vergleich zweier unabhängiger Stichproben 2. Fall2. Fall

Ausgangspunkt

Approximation

Prüfgröße

Ablehnungsbereich bestimmt durch

Aufgabe 7

Chi-Quadrat-Tests

Chi-Quadrat-Test auf Anpassung

Hypothese

Ablehnungsbereich

Fairer Würfel?

Hypothese verwerfen!Hypothese verwerfen!

Bakterielle Infektion durch Stämme I, II, IIIBakterielle Infektion durch Stämme I, II, III

Vermutung

Konkrete Stichprobe (80 Infektionen)

(siehe: Gelbrich)

Typ

Prozentsatz

I II III

30 50 20

Anzahl

I II IIITyp

30 32 18

Mendelsche Gesetze

rund und gelbrunzeligrunzelig und gelbrund und grünrunzeligrunzelig und grün

0.56250.18750.18750.0625

Prozentsätze nach der Theorie

rund und gelbrunzeligrunzelig und gelbrund und grünrunzeligrunzelig und grün

271889328

Beobachtete Häufigkeiten

Summe 480

Krankmeldungen

Wochentag Mo Di Mi Do Fr n

44 28 24 20 34 150 AnzahlKrankmeldungen

Aufgabe 8

Chi-Quadrat-Test auf Unabhängigkeit I

Chi-Quadrat-Test auf Unabhängigkeit II

Hypothese

Ablehnungsbereich

Chi-Quadrat-Test auf Unabhängigkeit III

Berufsstatus Vater - Sohn

38X

Y

SonntagsfrageSonntagsfrage(Fahrmeir/Künstler/Pigeot/Tutz)

Die Ergebnisse der Sonntagsfrage:„Welche Partei würden Sie wählen, wenn am nächsten Sonntag Bundestagswahlen wären?“ sind für den Be-fragungszeitraum 11.1. - 24.1.1995 in der folgenden

Tabelle wiedergegeben:

Das Untersuchungsziel ist festzustellen, ob die voneinander abweichenden Häufigkeiten für Männer und Frauen rein zufällige Schwankungen Darstellen oder ob zwischen Geschlecht und Partei-präferenz ein Zusammenhang besteht.

Nullhypothese:Nullhypothese: Zwischen Geschlecht und

Parteipräferenz bestehtkein Zusammenhang

Chi-Quadrat-Test auf Unabhängigkeitzum Niveau = 0.05

Aufgabe 9

Chi-Quadrat-Test auf Homogenität

Hypothese

Ablehnungsbereich

Produktion zweier Betriebe

KREDITWÜRDIGKEIT

Eine Bank steht vor dem Problem, einen potentiellen Kreditnehmer einzuschätzen und den Kredit zu vergeben, oder ihn der Klasse der Problemfälle zuzuordnen und auf das Kreditgeschäft zu verzichten bzw.eine genauere Prüfung vorzunehmen.

Gesucht wird ein Prädikator für die Kreditwürdigkeit. Hierzu werden 1000 Konsumentenkredite betrachtet.Für jeden Kunden aus dieser Stichprobe ist seine Kredit-würdigkeit X bekannt. Als weiteres Merkmal Y wird notiert,ob der Kunde ein laufendes Konto bei der Bank unterhält und, wenn ja, ob es „gut“ oder „mittel“ geführt wird.

(Fahrmeir/Künstler/Pigeot/Tutz)

Merkmal X: KreditwürdigkeitKreditwürdigkeit

Merkmal Y: KontoKontoWertungenkein Kontogut geführtmittel gut geführt

Chi-Quadrat-Test auf Homogenitätzum Niveau = 0.05

Nullhypothese:Nullhypothese: Verteilung auf die Kategorien des Merkmals

„Konto“ ist für unproblematische Kreditnehmerund für Problemkunden gleich

Aufgabe 10

Aufgabe 11

Aufgabe 12

Chi-Quadrat-Tests

Übersicht

Faustregeln Chi-Quadrat-TestsChi-Quadrat-Tests

Test auf Anpassung

Test auf Unabhängigkeit

Test auf Homogenität

Kolmogorov-Smirnov-Test

wird eingesetzt, wenn getestet werden soll, ob einebestimmte stetige Verteilung vorliegt.

Durchführung Kolmogorov-Smirnov-Test I

Berechnung

Abstände berechnen

)

Hypothese

Durchführung Kolmogorov-Smirnov-Test II

Arbeitstabelle

Maximum der Werte der letzten beiden Spalten

Durchführung Kolmogorov-Smirnov-Test III

Ablehnungsbereich

Niveau 0.05

Durchmesser von Schrauben

Durchmesser von Schrauben

Arbeitstabelle

Durchmesser von Schrauben und nicht spezifiziert

Arbeitstabelle

Einfache VarianzanalyseEinfache Varianzanalyse

wird eingesetzt, wenn mehr als 2 unabhängigenormalverteilte Stichproben verglichen werdensollen, deren Varianz als übereinstimmendangenommen werden kann.

Datenliste

Gewicht eines Werkstückes bei 3 Betrieben(in kg)

Mittelwerte der Klassenund

Gesamtmittelwert

Mittelwert Betrieb 1

Mitttelwert Betrieb 2

Mittelwert Betrieb 3

Gesamt-Mittelwert

F-Verteilung für verschiedene Freiheitsgrade m, n

Die F-Verteilung

Wahrscheinlichkeitsdichte

: Gamma-Funktion

Durchführung der einfachen Varianzanalyse I

Mittelwerte und Varianzen der einzelnen Betriebe

Gesamtmittelwert

N: Gesamtumfang der Stichproben; r: Zahl der Betriebe

12

Q : Maß für die Varianz innerhalb der einzelnen BetriebeQ : Maß für die Varianz zwischen den Betrieben

1

2

Berechnung von

Benötigte Daten:

Durchführung der einfachen Varianzanalyse II

Durchführung der einfachen Varianzanalyse III

Bestimmungvon

Ablehnungsbereich

Berechnung von

Viel Erfolg beiViel Erfolg beider Klausur!!!der Klausur!!!