Induktive Statistik. Statistische Struktur (diskreter Fall) Dabei sind:
-
Upload
ivonne-hepper -
Category
Documents
-
view
123 -
download
0
Transcript of Induktive Statistik. Statistische Struktur (diskreter Fall) Dabei sind:
Induktive Statistik
Statistische Struktur(diskreter Fall)
Dabei sind:
Schätzproblem
Schätzer
Ω
ΘModell
Beobachtung(Stichprobe)
Grundgesamtheit(mögliche Beobachtungen)
Schätzung
Ω
ΘModell
Beobachtung(Stichprobe)
Grundgesamtheit(mögliche Beobachtungen)
Schätzung
Eg
Stichprobe (diskreter Fall)
Mathematischer Rahmen
Statistische Struktur diskret stetig
Maximum-Likelihood-Schätzer(diskreter Fall)
Likelihood-Funktion
mit
oder
M-L-Schätzer
Der Parameter
ist die beste Erklärung für die Beobachtung
Likelihood-Funktion
Der Logharithmus ln x ist streng monoton wachsend
Beispiel Poisson-Verteilung
Stichprobe vom Umfang n mit Poisson-verteilter Stich-Probenvariablen (Intensität: )
M-L-Schätzer für
oder
Beispiel Bernoulli-Verteilung
Stichprobe vom Umfang n mit Bernoulli- verteilter Stichprobenvariablen(p: Wahrscheinlichkeit des Ereignisses)
M-L-Schätzer für p wieder gegeben durch:
Maximum-Likelihood-Schätzer(stetiger Fall)
Likelihood-Funktion
mit
oder
M-L-Schätzer
Der Parameter
ist die beste Erklärung für die Beobachtung
Beispiel Bernoulli-Verteilung
Stichprobe vom Umfang n mit Bernoulli- verteilter Stichprobenvariablen(p: Wahrscheinlichkeit des Ereignisses)
M-L-Schätzer für p wieder gegeben durch:
Normalverteilte Stichprobenvariable
M-L-Schätzer Erwartungswert
Hier spielt es keine Rolle, ob die Varianz bekannt ist oder nicht. In jedem Fall gilt:
Normalverteilte Stichprobenvariable
M-L-Schätzer Varianz bekannt
Normalverteilte Stichprobenvariable
M-L-Schätzer Varianz unbekannt
Übersicht
Aufgabe 1
Erwartungstreue Schätzer
Wenn der Parameter selbst geschätzt werden soll:
Wenn ein allgemeines statistisches Problem vorliegt:
Dabei bedeutet der Index , dass der Erwartungswert bzgl. des W.maßes zum Parameter genommen wird.
Schätzung des Erwartungswertes der Stichprobenvariablen X
Statistisches Problem gegeben durch:
Erwartungstreuer Schätzer:
Schätzung der Varianz der Stichprobenvariablen X
Statistisches Problem gegeben durch:
Erwartungstreuer Schätzer:
Erwartungswert bekannt
Schätzung der Varianz der Stichprobenvariablen X
Statistisches Problem gegeben durch:
Erwartungstreuer Schätzer:
Erwartungswert unbekannt
Normalverteilte StichprobenvariableErwartungstreuer Schätzer
für den Erwarungswert
Hier spielt es wieder keine Rolle, ob die Varianz bekannt ist oder nicht. In jedem Fall gilt:
ist erwartungstreuerwartungstreu
Normalverteilte StichprobenvariableErwartungstreuer Schätzer
für die Varianz
bekannt
ist erwartungstreuerwartungstreu
Normalverteilte StichprobenvariableErwartungstreuer Schätzer
für die Varianz
unbekannt
ist erwartungstreuerwartungstreu
Kein M-L-Schätzer!!
Übersicht
erwartungstreuerwartungstreu
erwartungstreuerwartungstreu
erwartungstreuerwartungstreu
nichtnichterwartungstreuerwartungstreu
Konfidenzintervalle
Intervallschätzung
Jeder Beobachtung wird ein Intervall C() der reellen Zahlen zugeordnet
Niveau
Dabei ist die Wahrscheinlichkeit, eine Beobachtung zu machen, für die der wahre Parameter im zugehörigen
Intervall liegt, größer oder gleich 1 -
Niveau
Das Niveau wird „klein“„klein“ gewählt.(Wir nehmen in unseren Beispielen in den meisten Fällen = 0.05 oder = 0.1)
Es gibt aber einen ZusammenhangZusammenhang zwischen der Breite der Konfidenzintervalle und dem Niveau:
Niveaukleiner
Intervallbreiter
Die Intervallbreite soll möglichst gering sein.
Konfidenzintervall für den Erwartungswert
Varianz bekannt
Annahme:
Konfidenzintervalle:
wobei
Die Gauß- oder Normalverteilung
Dichte
Verteilung
Verteilungsfunktion
Erwartungswert
Varianz
Approximative Konfidenzintervalle im Bernoulli-Fall I
Konfidenzintervall zum Niveau
Approximative Konfidenzintervalle im Bernoulli-Fall II
Vereinfachung für großes n(n 100)
Aufgabe 2
Die Student- oder t-Verteilung
Hängt von Parameter n ab!
Die Student- oder t-Verteilung
Wahrscheinlichkeitsdichte
Die Konstante d ist dabei:
Die Chi-Quadrat-Verteilung
Hängt ebenfalls von Parameter n ab!
Die Chi-Quadrat-Verteilung
Wahrscheinlichkeitsdichte
Die Konstante c ist dabei:
: Gamma-Funktion
Für n unabhängigeunabhängige Zufallsvariablen
mit
hat man:
Mathematische Bedeutung der Chi-Quadrat-Verteilung
Für unabhängigeunabhängige Zufallsvariablen W und U mit
hat man:
Mathematische Bedeutung der t-Verteilung
Konfidenzintervall für den Erwartungswert
Varianz unbekannt
Student-Verteilung(oder t-Verteilung)
Übersicht Konfidenzintervalle
für den Erwartungswert
Aufgabe 3
Verwendung der Tafelfür die Normalvertreilung
TESTS
TESTS
TESTS
TESTS
TESTS
TESTSTESTS
Worum es gehtMan möchte „testen“, ob eine bestimmte Annahme (Hypothese) über Parameter der Realität entspricht oder nicht.
Beobachtung (Stichprobe)
EntscheidungEntscheidungVorgabe:
„Irrtumswahrscheinlichkeit“
Formulierung einerHypothese
NullhypotheseNullhypotheseIn der Statistik kann man nie ganz sicher sein. Die „Irrtumswahrscheinlichkeit“sollte wenigstens klein sein.
Mathematischer Rahmen ITESTS
Statistische Struktur
Testproblem(Hypothese)
NullhypotheseNullhypothese
Gegeben sind:
Stetiger Fall Diskreter Fall
Niveau
Mathematischer Rahmen IITESTS
TestTest gegeben durch:
Ablehnungsbereich
Teilmenge der Grundgesamtheit :
Menge aller Beobachtungen ,die zur Ablehnung der Hypothese führen
Mathematischer Rahmen IIITESTS
Beobachtung (Stichprobe)(Stichprobe)
Entweder Oder
Beobachtung liegtim Annahmebereich
Beobachtung liegtim Ablehnungsbereich
Hypotheseannehmen!
Hypothese ablehnen!
Fehler erster und zweiter Art
HypotheseHypotheseakzeptiertakzeptiert
Hypotheseabgelehnt
HypotheseHypothesewahrwahr
Hypothesefalsch
EntscheidungEntscheidung
RealitätRealität
Fehler 1. Art
Fehler 2. Art
Niveau und Macht
Obere Grenze für die Wahrscheinlichkeit, einen Fehler 1. ArtFehler 1. Art zu begehenNiveauNiveau
Wahrscheinlichkeit, keinen Fehler 2. ArtFehler 2. Art zu begehen, wenn der wahre Parameterwert in dem Punkt liegt
MachtMacht in einem Punkt der Alternative
Test für den ErwartungswertVarianz bekannt
Fall Normalverteilung
Test für den ErwartungswertVarianz unbekannt
Fall Normalverteilung
Aufgabe 4
Aufgabe 5
Vergleich zweier unabhängiger Stichproben 1. Fall1. Fall
2 unabhängige Stichproben mit Stichprobenvariablen X und Y
Annahmen: X und Y normalverteilt
Varianz von X = Varianz von Y
Hypothese: Erwartungswert von X = Erwartungswert von Y
Vergleich zweier unabhängiger Stichproben 1. Fall1. Fall
Prüfgröße
n: Umfang der Stichprobe 1 (Stichprobenvariable X)
m: Umfang der Stichprobe 2 (Stichprobenvariable Y)
Ablehnungsbereich
bestimmt durch
Aufgabe 6
Vergleich zweier unabhängiger Stichproben 2. Fall2. Fall
2 unabhängige Stichproben mit Stichprobenvariablen X und Y
Annahmen: X und Y normalverteilt
n und m groß (> 30), damitApproximation der Varianzensinnvoll
Hypothese: Erwartungswert von X = Erwartungswert von Y
Vergleich zweier unabhängiger Stichproben 2. Fall2. Fall
Ausgangspunkt
Approximation
Prüfgröße
Ablehnungsbereich bestimmt durch
Aufgabe 7
Chi-Quadrat-Tests
Chi-Quadrat-Test auf Anpassung
Hypothese
Ablehnungsbereich
Fairer Würfel?
Hypothese verwerfen!Hypothese verwerfen!
Bakterielle Infektion durch Stämme I, II, IIIBakterielle Infektion durch Stämme I, II, III
Vermutung
Konkrete Stichprobe (80 Infektionen)
(siehe: Gelbrich)
Typ
Prozentsatz
I II III
30 50 20
Anzahl
I II IIITyp
30 32 18
Mendelsche Gesetze
rund und gelbrunzeligrunzelig und gelbrund und grünrunzeligrunzelig und grün
0.56250.18750.18750.0625
Prozentsätze nach der Theorie
rund und gelbrunzeligrunzelig und gelbrund und grünrunzeligrunzelig und grün
271889328
Beobachtete Häufigkeiten
Summe 480
Krankmeldungen
Wochentag Mo Di Mi Do Fr n
44 28 24 20 34 150 AnzahlKrankmeldungen
Aufgabe 8
Chi-Quadrat-Test auf Unabhängigkeit I
Chi-Quadrat-Test auf Unabhängigkeit II
Hypothese
Ablehnungsbereich
Chi-Quadrat-Test auf Unabhängigkeit III
Berufsstatus Vater - Sohn
38X
Y
SonntagsfrageSonntagsfrage(Fahrmeir/Künstler/Pigeot/Tutz)
Die Ergebnisse der Sonntagsfrage:„Welche Partei würden Sie wählen, wenn am nächsten Sonntag Bundestagswahlen wären?“ sind für den Be-fragungszeitraum 11.1. - 24.1.1995 in der folgenden
Tabelle wiedergegeben:
Das Untersuchungsziel ist festzustellen, ob die voneinander abweichenden Häufigkeiten für Männer und Frauen rein zufällige Schwankungen Darstellen oder ob zwischen Geschlecht und Partei-präferenz ein Zusammenhang besteht.
Nullhypothese:Nullhypothese: Zwischen Geschlecht und
Parteipräferenz bestehtkein Zusammenhang
Chi-Quadrat-Test auf Unabhängigkeitzum Niveau = 0.05
Aufgabe 9
Chi-Quadrat-Test auf Homogenität
Hypothese
Ablehnungsbereich
Produktion zweier Betriebe
KREDITWÜRDIGKEIT
Eine Bank steht vor dem Problem, einen potentiellen Kreditnehmer einzuschätzen und den Kredit zu vergeben, oder ihn der Klasse der Problemfälle zuzuordnen und auf das Kreditgeschäft zu verzichten bzw.eine genauere Prüfung vorzunehmen.
Gesucht wird ein Prädikator für die Kreditwürdigkeit. Hierzu werden 1000 Konsumentenkredite betrachtet.Für jeden Kunden aus dieser Stichprobe ist seine Kredit-würdigkeit X bekannt. Als weiteres Merkmal Y wird notiert,ob der Kunde ein laufendes Konto bei der Bank unterhält und, wenn ja, ob es „gut“ oder „mittel“ geführt wird.
(Fahrmeir/Künstler/Pigeot/Tutz)
Merkmal X: KreditwürdigkeitKreditwürdigkeit
Merkmal Y: KontoKontoWertungenkein Kontogut geführtmittel gut geführt
Chi-Quadrat-Test auf Homogenitätzum Niveau = 0.05
Nullhypothese:Nullhypothese: Verteilung auf die Kategorien des Merkmals
„Konto“ ist für unproblematische Kreditnehmerund für Problemkunden gleich
Aufgabe 10
Aufgabe 11
Aufgabe 12
Chi-Quadrat-Tests
Übersicht
Faustregeln Chi-Quadrat-TestsChi-Quadrat-Tests
Test auf Anpassung
Test auf Unabhängigkeit
Test auf Homogenität
Kolmogorov-Smirnov-Test
wird eingesetzt, wenn getestet werden soll, ob einebestimmte stetige Verteilung vorliegt.
Durchführung Kolmogorov-Smirnov-Test I
Berechnung
Abstände berechnen
)
Hypothese
Durchführung Kolmogorov-Smirnov-Test II
Arbeitstabelle
Maximum der Werte der letzten beiden Spalten
Durchführung Kolmogorov-Smirnov-Test III
Ablehnungsbereich
Niveau 0.05
Durchmesser von Schrauben
Durchmesser von Schrauben
Arbeitstabelle
Durchmesser von Schrauben und nicht spezifiziert
Arbeitstabelle
Einfache VarianzanalyseEinfache Varianzanalyse
wird eingesetzt, wenn mehr als 2 unabhängigenormalverteilte Stichproben verglichen werdensollen, deren Varianz als übereinstimmendangenommen werden kann.
Datenliste
Gewicht eines Werkstückes bei 3 Betrieben(in kg)
Mittelwerte der Klassenund
Gesamtmittelwert
Mittelwert Betrieb 1
Mitttelwert Betrieb 2
Mittelwert Betrieb 3
Gesamt-Mittelwert
F-Verteilung für verschiedene Freiheitsgrade m, n
Die F-Verteilung
Wahrscheinlichkeitsdichte
: Gamma-Funktion
Durchführung der einfachen Varianzanalyse I
Mittelwerte und Varianzen der einzelnen Betriebe
Gesamtmittelwert
N: Gesamtumfang der Stichproben; r: Zahl der Betriebe
12
Q : Maß für die Varianz innerhalb der einzelnen BetriebeQ : Maß für die Varianz zwischen den Betrieben
1
2
Berechnung von
Benötigte Daten:
Durchführung der einfachen Varianzanalyse II
Durchführung der einfachen Varianzanalyse III
Bestimmungvon
Ablehnungsbereich
Berechnung von
Viel Erfolg beiViel Erfolg beider Klausur!!!der Klausur!!!