Angewandte Statistik I Repetitorium 2013 · W. Timischl: Angewandte_Statistik_I_Repetitorium...

27
W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13 1 REPETITORIUM DER ANGEWANDTE STATISTIK I 1 RECHNEN MIT WAHRSCHEINLICHKEITEN 1.1 Begriff der Wahrscheinlichkeit Zufallsexperiment (random experiment): = ein (im Prinzip beliebig oft wiederholbarer) Vorgang mit verschiedenen Ausgängen ϖ 1 , ϖ 2 , … (Elementarereignissen); welcher Ausgang bei Durchführung des Experimentes eintritt, lässt sich nicht vorhersagen. Ergebnismenge (Stichprobenraum, sample space): ={ ϖ 1 , ϖ 2 , …} Z.B.: Zufallsexperiment: Ausspielen eines Würfels ϖ 1 =1, ϖ 2 =2, ϖ 3 =3, ϖ 4 =4, ϖ 5 =5, ϖ 6 =6; ={1, 2, 3, 4, 5, 6}, ϖ 1 , … Ereignis (event): =Teilmenge E von Ω: E ; z.B. Ausspielen eines Würfels: E 1 = „gerade Augenzahl“ = {2,4,6} = {ϖ i | ϖ i gerade Zahl}; man sagt, dass Ereignis E 1 tritt ein, wenn beim Ausspielen des Würfels eine gerade Zahl gewürfelt wird. Zusammengesetzte Ereignisse: oder - Verknüpfung: E 1 oder E 2 = E 1 E 2 (tritt genau dann ein, wenn E 1 oder E 2 eintritt) und – Verknüpfung: E 1 und E 2 = E 1 E 2 (tritt genau dann ein, wenn sowohl E 1 als auch E 2 eintritt) z.B. Ausspielen eines Würfels: Ereignis E 1 = „gerade Augenzahl“, E 2 = „ungerade Augenzahl“ E 1 oder E 2 = (sicheres Ereignis), E 1 und E 2 = {} = (unmögliches Ereignis) Besondere Ereignisse: Elementarereignis = 1-elementige Teilmenge von sicheres Ereignis: komplementäres Ereignis von E: E c ={ ϖ i | ϖ i E} disjunkte Ereignisse E 1 , E 2 : E 1 und E 2 = Laplace-Wahrscheinlichkeit P: {E: E Ω} [0, 1] Definiert für ein Zufallsexperiment (=Laplace-Experiment) mit gleichwahrscheinlichen „Ausgängen“ (=Elementarereignisse der Ergebnismenge Ω29 durch: Anmerkungen: - Der Bezug zur jeweiligen Ergebnismenge wird gelegentlich durch die ausführlichere Schreibweise P(E|) präzisiert. - Es sei A ein Ereignis der Ergebnismenge und A c das zu A komplementäre Ereignis. Für das Verhältnis der Wahrscheinlichkeiten P(A|):P(A c |) wird auch als Chance (odds) von A gegen A c (unter der Voraussetzung ) bezeichnet. Elementare Eigenschaften von P(E): 1. Für jedes Ereignis E ist P(E) 0 (Nichtnegativität) | | | | Ausgänge möglichen der Anzahl Ausgänge günstigen für der Anzahl ) ( = = E E E P

Transcript of Angewandte Statistik I Repetitorium 2013 · W. Timischl: Angewandte_Statistik_I_Repetitorium...

Page 1: Angewandte Statistik I Repetitorium 2013 · W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13 3 − Das Ereignis B ist genau dann vom Ereignis A unabhängig (und ebenso A

W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13

1

REPETITORIUM DER ANGEWANDTE STATISTIK I 1 RECHNEN MIT WAHRSCHEINLICHKEITEN 1.1 Begriff der Wahrscheinlichkeit Zufallsexperiment (random experiment):

= ein (im Prinzip beliebig oft wiederholbarer) Vorgang mit verschiedenen Ausgängen ω1, ω2, … (Elementarereignissen); welcher Ausgang bei Durchführung des Experimentes eintritt, lässt sich nicht vorhersagen.

Ergebnismenge (Stichprobenraum, sample space):

Ω = ω1, ω2, … Z.B.: Zufallsexperiment: Ausspielen eines Würfels ω1=1, ω2=2, ω3=3, ω4=4, ω5=5, ω6=6; Ω =1, 2, 3, 4, 5, 6, ω1 ∈ Ω, …

Ereignis (event):

=Teilmenge E von Ω: E ⊂ Ω; z.B. Ausspielen eines Würfels: E1 = „gerade Augenzahl“ = 2,4,6 = ωi ∈ Ω | ωi gerade Zahl; man sagt, dass Ereignis E1 tritt ein, wenn beim Ausspielen des Würfels eine gerade Zahl gewürfelt wird.

Zusammengesetzte Ereignisse:

oder - Verknüpfung: E1 oder E2 = E1∪E2 (tritt genau dann ein, wenn E1 oder E2 eintritt)

und – Verknüpfung: E1 und E2 = E1∩E2 (tritt genau dann ein, wenn sowohl E1 als auch E2 eintritt) z.B. Ausspielen eines Würfels: Ereignis E1 = „gerade Augenzahl“, E2 = „ungerade Augenzahl“ E1 oder E2 = Ω (sicheres Ereignis), E1 und E2 = = ∅ (unmögliches Ereignis)

Besondere Ereignisse:

Elementarereignis = 1-elementige Teilmenge von Ω sicheres Ereignis: Ω komplementäres Ereignis von E: Ec= ωi ∈ Ω | ωi ∉E disjunkte Ereignisse E1, E2: E1 und E2 = ∅

Laplace-Wahrscheinlichkeit P: E: E ⊂ Ω [0, 1]

Definiert für ein Zufallsexperiment (=Laplace-Experiment) mit gleichwahrscheinlichen „Ausgängen“ (=Elementarereignisse der Ergebnismenge Ω) durch:

Anmerkungen: - Der Bezug zur jeweiligen Ergebnismenge Ω wird gelegentlich durch die ausführlichere

Schreibweise P(E|Ω) präzisiert. - Es sei A ein Ereignis der Ergebnismenge Ω und Ac das zu A komplementäre Ereignis.

Für das Verhältnis der Wahrscheinlichkeiten P(A|Ω):P(Ac|Ω) wird auch als Chance (odds) von A gegen Ac (unter der Voraussetzung Ω) bezeichnet.

Elementare Eigenschaften von P(E):

1. Für jedes Ereignis E ist P(E) ≥ 0 (Nichtnegativität)

||||

Ausgängemöglichen der AnzahlAusgängegünstigen für der Anzahl

)(Ω

== EEEP

Page 2: Angewandte Statistik I Repetitorium 2013 · W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13 3 − Das Ereignis B ist genau dann vom Ereignis A unabhängig (und ebenso A

W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13

2

2. Für das sichere Ereignis Ω ist P(Ω) =1 (Normiertheit). 3. Für zwei disjunkte Ereignisse E1, E2 gilt die spezielle Additionsregel: P(E1 oder E2) =

P(E1) + P(E2). Daraus folgt für zwei komplementäre Ereignisse E, Ec: P(Ec) = 1 – P(E).

Relative Häufigkeit und Wahrscheinlichkeit (relative frequency and probability):

Es sei Ω die Ergebnismenge eines Zufallsexperimentes und A⊂ Ω ein Ereignis. Das Experiment wird n-mal ausgeführt. Die Anzahl der Versuche, bei denen A eintritt, heißt die absolute Häufigkeit Hn(A) des Ereignisses A. Dividiert man durch n, erhält man die relative Häufigkeit yn(A)=Hn(A)/n des Ereignisses A bei n Versuchen. Offensichtlich gilt yn(A) ≥ 0 und yn(Ω) =1. Ferner gilt für zwei disjunkte Ereignisse A⊂ Ω und B⊂ Ω die Additionsregel yn(A ∪ B) = yn(A) + yn(B).

Empirisches Gesetz der großen Zahlen:

Ein Zufallsexperiment (z.B. das Ausspielen eines Würfels) wird wiederholt ausgeführt, wobei die einzelnen Versuchsausführungen als voneinander unabhängig vorausgesetzt werden. Es zeigt sich dann, dass mit wachsender Anzahl n der Versuchsdurchführungen die relativen Häufigkeiten eines Ereignisses A⊂ Ω sich so verhalten, als würden sie sich einem festen Wert nähern. In den Anwendungen wird von diesem empirischen Konvergenzverhalten Gebrauch gemacht, wenn man die Wahrscheinlichkeit P(A) eines Ereignisses A durch dessen relative Häufigkeit hn(A) bei „großem“ n approximiert.

1.2 Bedingte Wahrscheinlichkeit (conditional probability) Definition:

Für zwei Ereignisse A⊂ Ω (A≠∅), B ⊂ Ω ist die Wahrscheinlichkeit P(B|A) von B unter der Bedingung A (d.h. unter der Voraussetzung, dass A eingetreten ist):

Veranschaulichung für ein Laplace-Experiment: (Ω mit endlich vielen, gleichwahrscheinlichen Elementen):

Anmerkungen: - Aus der Definitionsgleichung für die bedingte Wahrscheinlichkeit P(B|A) folgt unmittelbar

die Multiplikationsregel (multiplication rule) für Wahrscheinlichkeiten: P(B∩A) = P(B|A) P(A).

- Im Allgemeinen sind die bedingten Wahrscheinlichkeiten P(B|A) und P(A|B) voneinander verschieden. Wegen P(B∩A) = P(A∩B) = P(A|B) P(B) gilt der Zusammenhang: P(B|A) P(A) = P(A|B) P(B).

Unabhängige Ereignisse (independent events) :

Definition: Es seien A (A≠∅) und B zwei Ereignisse eines Zufallsexperimentes mit der Ergebnismenge Ω. Das Ereignis B heißt unabhängig vom Ereignis A, wenn es für die Wahrscheinlichkeit des Ereignisses B ohne Belang ist, ob A eintritt, d.h. wenn P(B) = P(B|A) ist. Folgerungen: − Ist das Ereignis B von A unabhängig, ist umgekehrt auch das Ereignis A vom Ereignis

B (B≠∅) unabhängig, d.h. P(A)=P(A|B).

A

BA

A

BAABP

und und )|( =

ΩΩ

=

)(

) und ()|(

AP

BAPABP =

Page 3: Angewandte Statistik I Repetitorium 2013 · W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13 3 − Das Ereignis B ist genau dann vom Ereignis A unabhängig (und ebenso A

W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13

3

− Das Ereignis B ist genau dann vom Ereignis A unabhängig (und ebenso A von B unabhängig), wenn P(B∩A) = P(B) P(A) gilt. Diese Gleichung wird Multiplikationsregel für unabhängige Ereignisse genannt.

1.3 Formel von Bayes (Bayes‘ formula) Satz von der totalen Wahrscheinlichkeit (theorem of total probabilities):

Es sei A ⊂ Ω (A≠∅, A≠Ω) und Ac das zu A komplementäre Ereignis. Dann gilt für jedes beliebige Ereignis B aus Ω die Darstellung:

A posteriori-Wahrscheinlichkeit:

Durch Kombination der Definitionsgleichung der bedingten Wahrscheinlichkeit mit dem Satz von der totalen Wahrscheinlichkeit ergibt sich die Formel:

(Sonderfall der Bayes’sche Formel, P(A) ist die a priori-Wahrscheinlichkeit von A ohne Kenntnis von B, P(A|B) die a posteriori-Wahrscheinlichkeit von A nach Kenntnis von B)

Diagnostischer Test: Die Entscheidungssituation beim diagnostischen Test wird durch folgendes Schema dargestellt:

Test ist negativ (T-) Test ist positiv (T+) Person ist gesund (D-) P(T-|D-)

= Spezifität P(T+|D-) (falsch-positives Ergebnis)

Person ist krank (D+) P(T-|D+) (falsch-negatives Ergebnis)

P(T+|D+)= Sensitivität

Für den positiven prädiktiven Wert ergibt sich mit Hilfe der Bayes’schen Formel die Darstellung:

1.4 Musterbeispiele

1. Bei der Bearbeitung eines Problems sind 5 voneinander unabhängige Entscheidungen zu

treffen, von denen jede einzelne mit der Wahrscheinlichkeit α = 0,05 eine Fehlentscheidung sein kann. Man bestimme die simultane Irrtumswahrscheinlichkeit α_g, d.h. die Wahrscheinlichkeit, dass eine oder mehr als eine der Entscheidungen falsch sind. Präzisierung der Aufgabe: Das zugrundeliegende Zufallsexperiment besteht aus 5 Entscheidungen, von denen jede entweder richtig (=1) oder falsch (=0) sein kann. Die Ergebnismenge Ω ist die Menge aller geordneten 5er-Tupel (x1, x2, x3, x4, x5), wobei xi entweder den Wert 1 oder 0 annehmen kann. Insgesamt gibt bes 25 = 32 verschiedene Ausgänge des Zufallsexperiments. Es mögen nun F1, F2, F3, F4 und F5 die Teilmengen aus Ω mit x1=0 (erste Entscheidung ist falsch), x2=0 (zweite Entscheidung ist falsch),

)()|()()|()( cc APABPAPABPBP +=

)()|()()|(

)()|(

)(

)()|(

cc APABPAPABP

APABP

BP

BAPBAP

+=∩=

)()|()()|()()|(

)|(−−++++

+++++ +

=DPDTPDPDTP

DPDTPTDP

Page 4: Angewandte Statistik I Repetitorium 2013 · W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13 3 − Das Ereignis B ist genau dann vom Ereignis A unabhängig (und ebenso A

W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13

4

x3=0, x4=0 bzw. x5=0 bezeichnen. Gemäß Angabe ist P(F1)=P(F2) = P(F3) = P(F4)=P(F5) =α = 0.05. Gesucht ist P(F1 ∪ F2 ∪ F3 ∪ F4 ∪ F5) Lösungsansatz und numerische Lösung: F1, F2, F3, F4 und F5 sind einander nicht ausschließende Ereignisse, so dass die Additionsregel für einander ausschließende Ereignisse nicht angewendet werden kann. Es empfiehlt sich, zu den Gegenereignissen R1, R2, R3, R4 bzw. R5 überzugehen, die die Ereignisse darstellen, dass die erste, zweite, …, fünfte Entscheidung richtig ist. Es gilt P(R1) = P(R2) = P(R3) =P(R4)=P(R5)=1 − α. Auf Grund der Unabhängigkeit der Entscheidungen sind die Ereignisse R1, R2, R3, R4 und R5 voneinander unabhängig. Wegen P(F1 ∪ F2 ∪ F3 ∪ F4 ∪ F5) = 1- P(R1 ∩ R2 ∩ R3 ∩ R4 ∩ R5) = 1-P(R1) P(R2) P(R3)P(R4)P(R5)=1-(1 - α)5 =1-0,955=22.62% Lösung mit R: > alpha_g <- function(alpha,n) + 1 - (1-alpha)^n > n <- 5 > alpha <- 0.05 > print(cbind(n, alpha_g(alpha, n)), digits=4) n [1,] 5 0.2262

Ergebnis: Die Wahrscheinlichkeit beträgt 22,62%, dass von 5 unabhängigen Entscheidungen mindestens eine falsch ist, wenn das Fehlerrisiko für die Einzelentscheidung 5% ist.

2. Bei einem Verfahren zur sterilen Abfüllung von Flaschen tritt mit der Wahrscheinlichkeit p=0,1% ein Ausschuss (unsterile Flasche) auf. Es werden n Flaschen zufällig aus einem (sehr großen) Produktionslos entnommen (Prüfstichprobe). Wie viele Flaschen müssen zur Prüfung vorgesehen werden, damit mit mindestens 95%iger Sicherheit in der Prüfstichprobe (wenigstens) eine unsterile Flasche auftritt?

Präzisierung der Aufgabe: Das Produktionslos wird als sehr groß vorausgesetzt; der Ausschussanteil (d.h. die Wahrscheinlichkeit, durch Zufallsauswahl eine defekte Einheit zu erhalten, ist p=0,1%. Wenn das Produktionslos sehr groß im Vergleich zur Prüfstichprobe ist, kann der Auswahlvorgang als ein „Ziehen mit Zurücklegen“ modelliert werden. Gesucht ist der Umfang der Prüfstichprobe, so dass in der Prüfstichprobe mit 95%iger Wahrscheinlichkeit mindestens eine defekte Einheit auftritt. Lösungsansatz und numerische Lösung: Es sei X die Anzahl der defekten Einheiten in der Prüfstichprobe und n der (zu bestimmende) Umfang der Prüfstichprobe. Nach Voraussetzung ist n klein im Vergleich zur Größe des Produktionsloses. Die Prüfstichprobe kann man sich unter dieser Voraussetzung so erzeugt denken, dass n-mal eine Einheit aus dem Produktionslos aufs Geratewohl ausgewählt wird und bei jedem Auswahlvorgang die Wahrscheinlichkeit p für die Auswahl einer defekten Einheit gleich p=0,001 ist. Die Wahrscheinlichkeit eine intakte Einheit auszuwählen, ist 1-p = 0.999; die Wahrscheinlichkeit insgesamt n intakte Einheiten auszuwählen, ergibt sich aus der Multiplikationsregel für unabhängige Ereignisse zu P(X=0)= (1-p)n = 0.999n. Das Gegenereignis zu „n intakte Einheiten auszuwählen“ ist das Ereignis „mindestens eine defekte Einheit auszuwählen“; die Wahrscheinlichkeit dafür ist P(X>=1)= 1-P(X=0) = 1-0.999n. Gesucht ist n derart, dass P(X>=1) = 1-0,999n = 0.95 ist. Lösung mit R: Die Lösung der Gleichung 1-0,999n = 0.95 wird durch „Einsetzen“ von Werten für n gefunden. > options(digits=4) > n <- 1 > repeat + P <- 1-0.999^n + if (P >= 0.95) break + n <- n+1 > print(cbind(n, P))

Page 5: Angewandte Statistik I Repetitorium 2013 · W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13 3 − Das Ereignis B ist genau dann vom Ereignis A unabhängig (und ebenso A

W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13

5

n P [1,] 2995 0.95

Ergebnis: Für die Prüfstichprobe ist ein Mindestumfang von n= 2995 zu planen, damit – bei einem Fehleranteil von 0,1% - mit einer Sicherheit von (zumindest 95%) mindestens eine fehlerhafte Einheit „gezogen“ wird.

3. In einem Unternehmen mit 500 Beschäftigten werden im Zuge einer Grippeimpfung 300 geimpft. In der Folge erkrankten 50 Personen, von denen 15 geimpft waren. Wie groß ist die Wahrscheinlichkeit dafür, dass a) eine Person erkrankt, b) eine geimpfte Person erkrankt, c) eine erkrankte Person zur Gruppe der Geimpften gehört? Präzisierung der Aufgabe: Die Erkrankung einer Person wird durch den Auswahlvorgang simuliert, aus einer Gruppe von 500 Personen (von diesen gehören 15 der Kategorie krank/geimpft, 35 der Kategorie krank/nicht geimpft, 285 der Kategorie gesund/geimpft und 165 der Kategorie gesund/nicht geimpft an) eine Person aufs Geratewohl auszuwählen. Es sei E das Ereignis, dass die ausgewählte Person krank ist, und G das Ereignis, dass die ausgewählte geimpft ist. Gesucht ist in Teilaufgabe a) die (unbedingte) Wahrscheinlichkeit P(E), in Teilaufgabe b) die bedingte Wahrscheinlichkeit P(E|G) und in Teilaufgabe c) die Wahrscheinlichkeit P(G|E). Lösungsansatz und numerische Lösung:

a) P(E) = 50/500 = 10% (Laplace-Definition der Wahrscheinlichkeit) b) P(E|G) = P(E und G)/P(G) = (15/500)/(300/500) = 5% (Definitionsgleichung der

bedingten Wahrscheinlichkeit) c) P(G|E) = P(E und G)/P(E) = (15/500)/(50/500) = 30%

Ergebnis: Die unbedingte Wahrscheinlichkeit für eine Erkrankung ist 10%, die Wahrscheinlichkeit der Erkrankung einer geimpften Person beträgt 5% und die Wahrscheinlichkeit, dass eine erkrankte Person vorher geimpft wurde, ist 30%. 4. Bei einem diagnostischen Verfahren zum Nachweis einer Erkrankung sei die

Wahrscheinlichkeit, ein falsch-positives (falsch-negatives) Ergebnis zu erhalten, gleich 0,5% (2,5%). Die Wahrscheinlichkeit für das Auftreten der Krankheit in einer bestimmten Zielgruppe sei 1,5%. Man berechne die Wahrscheinlichkeit, dass bei positivem Ergebnis tatsächlich eine Erkrankung vorliegt.

Präzisierung der Aufgabe: Es sei HIV+ das Ereignis, dass eine aus der Zielpopulation aufs Geratewohl ausgewählte Person HIV-infiziert ist; die Wahrscheinlichkeit dieses Ereignisses ist laut Angabe P(HIV+)= 1,5%. Die Wahrscheinlichkeit des Gegenereignisses HIV- (ausgewählte Person ist nicht HIV-infiziert) beträgt P(HIV-) = 1-P(HIV+)=98,5%. Ein falsch-positives Ergebnis liegt vor, wenn eine gesunde Person einen positivem Testbefund hat. Die Wahrscheinlichkeit dieses Ereignisses kann durch die bedingte Wahrscheinlichkeit P(T+|HIV-) ausgedrückt werden. Ein falsch-negatives Ergebnis liegt vor, wenn eine HIV-infizierte Person einen negativen Testbefund hat; die Wahrscheinlichkeit dieses Ereignisses ist P(T-|HIV+). Gesucht ist die Wahrscheinlichkeit P(HIV+|T+) dafür, dass eine Person mit positivem Testbefund tatsächlich HIV-infiziert ist. Lösungsansatz und numerische Lösung: Variante 1 (Lösung mit Bayes’scher Formel): Mit bekannter Sensitivität P(HIV+|T+) und Spezifität P(HIV-|T-) des diagnostischen Tests sowie der a priori-Wahrscheinlichkeit P(HIV+) kann die gesuchte Wahrscheinlichkeit kann mit der Bayes’schen Formel in Form

Page 6: Angewandte Statistik I Repetitorium 2013 · W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13 3 − Das Ereignis B ist genau dann vom Ereignis A unabhängig (und ebenso A

W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13

6

HIV-)(HIV-)|T()HIV()HIV|T(

)HIV()HIV|T()T|HIV(

PPPP

PPP

++++++++=++

dargstellt werden. Aus der Angabe ist bekannt: P(HIV+)=0,015; P(HIV-)=0,985; P(T+|HIV-)= 0,005; P(T-|HIV-)=1-P(T+|HIV-)=0,995 P(T-|HIV+)=0,025; P(T+|HIV+)=1-P(T-|HIV+)=0,975 Einsetzen in die Bayes’sche Formel liefert: P(HIV+|T+)=0,975*0,015/[0,975*0,015 + 0,005*0,985] = 0,748 Variante 2 (Lösen mit der Laplace’sche Wahrscheinlichkeitsdefinition nach Übergang zu absoluten Häufigkeiten): Ergebnis: Die Wahrscheinlichkeit P(HIV+|T+) bei positivem Testbefund tatsächlich HIV-infiziert zu sein, beträgt 74,8%.

2 WAHRSCHEINLICHKEITSVERTEILUNGEN 2.1 Diskrete Verteilungen (discrete distributions) Diskrete Zufallsvariable (discrete random variables) :

Die Variation einer diskreten Zufallsvariablen X wird durch Angabe der Menge M der (höchstens abzählbar unendlich vielen) möglichen Werte x1, x2, ... von X und durch Angabe der Wahrscheinlichkeiten pi = P(X = xi) für xi ∈ M beschrieben. Die Funktion f: x|x reelle Zahl[0,1] mit f(x) = pi = P(X = xi) für x=xi ∈ M und f(x)=0 für x ∉ M heißt Wahrscheinlichkeitsfunktion von X. Man beachte, dass p1 + p2 + ... = 1.

Permutationen und Kombinationen permutations, combinations): • Definition von k-Faktorielle (k factorial):

k! (lies k Faktorielle; k = 2, 3,…) = 1⋅2⋅…⋅k; ferner definiert man: 0! = 1! = 1. • Bedeutung von k!:

Gegeben sind k Zellen, die von 1 bis k durchnummeriert werden. Jede Zelle kann mit einem Objekt belegt werden. Zur Auswahl stehende Objekte stammen aus ein- und derselben Menge M mit n > k ≥ 1 verschiedenen Elementen. Jede Belegung der Zellen heißt eine „k - Permutation von n Objekten“. Anzahl P(k,n) der möglichen Belegungen:

1)2)(1(!),( ),1()2)(1(),( LL −−==+−−−= kkkkkkPknnnnnkP

Gegeben: P(T+ | HIV-) = 0,005 P(T- | HIV-) = 0,995P(T- | HIV+) = 0,025 P(T+ | HIV+) = 0,975P(HIV+) = 0,015 P(HIV-)= 0,985

Gesucht: P(HIV+|T+)

Berechnung: mittels Übergang zu absoluten Häufigkeiten; Anzahl der Personen in der Zielgruppe = 1.000.000

1.000.000HIV+ HIV-15000 985.000

T+ T- T+ T-14625 375 4925 980.075

P(HIV+ | T+)= 0,7481

Page 7: Angewandte Statistik I Repetitorium 2013 · W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13 3 − Das Ereignis B ist genau dann vom Ereignis A unabhängig (und ebenso A

W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13

7

• Definition des Binomialkoeffizienten (binomial coefficient):

n, k ganzzahlig, n ≥ k ≥ 0: !)!(

!kkn

nk

n−=

• Bedeutung des Binomialkoeffizienten:

Eine k - Kombinationen ist eine Zusammenstellungen von jeweils k ≤ n Objekten, die aus einer Menge M mit n Elementen ausgewählt werden und bei denen es nicht auf die Reihenfolge der Anordnung ankommt. Anzahl der k-Kombinationen C(k,n):

• R-Funktionen factorial(), choose()

Wahrscheinlichkeitsfunktion der Binomialverteilung (binomial distribution):

Ein Zufallsexperiment wird n-mal wiederholt, die Wiederholungen erfolgen unabhängig voneinander. Bei jeder einzelnen Durchführung des Experiments möge das Ereignis E mit der Wahrscheinlichkeit p (=Erfolgswahrscheinlichkeit) eintreten. Dann gilt: Die Zufallsvariable X = "Anzahl der Wiederholungen mit dem Ausgang E" ist binomialverteilt mit den Parametern n und p (kurz X ∼Bn,p); die Werte der Binomialverteilung Bn,p sind für x=0, 1, 2, ... , n durch gegeben, für x ∉ 0, 1, 2, ..., n ist Bn,p(x)=0. R-Funktionen: dbinom(), pbinom(), qbinom(), rbinom()

Wahrscheinlichkeitsfunktion der Poissonverteilung (Poisson distribution):

Ein Zufallsexperiment wird n-mal wiederholt, die Wiederholungen erfolgen unabhängig voneinander. Bei jeder einzelnen Durchführung des Experiments möge das Ereignis E mit der Wahrscheinlichkeit p (=Erfolgswahrscheinlichkeit) eintreten. Dann gilt: X= "Anzahl der erfolgreichen Ausgänge" ∼ Bn,p. Die Binomialverteilung strebt für p 0 und konstant bleibendem Mittelwert np = λ gegen die sogenannte Poissonverteilung Pλ mit den Funktionswerten für x=0, 1, 2, ... und Pλ(x)=0 für x ∉ 0, 1, 2, ... . R-Funktionen: dpois(), ppois(), qpois(), rpois()

Wahrscheinlichkeitsfunktion der Hypergeometrischen Verteilung (hypergeometric distribution):

Es seien M eine Menge von N Elementen, von denen a<N vom Typ A sind, und X die Zufallsvariable „Anzahl der Elemente vom Typ A, wenn insgesamt n (n≤ a, n≤ N-a) aus der Menge M gezogenen (und nicht wieder zurückgelegt) werden“. Dann ist X hypergeometrisch verteilt mit den Parametern N, n und p = a/N (kurz X ∼ HN,n,p). Die Funktionswerte der hypergeometrischen Verteilung HN,n,p sind

==k

nknkPnkC !/),(),(

)1()(,B)(P xnpxpx

nxpnxX −−===

!

e )(P)(Px

xxxX λλ

λ−===

Page 8: Angewandte Statistik I Repetitorium 2013 · W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13 3 − Das Ereignis B ist genau dann vom Ereignis A unabhängig (und ebenso A

W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13

8

für x ∈ 0, 1, 2, ..., n und HN, n, p(x)=0 für x ∉ 0, 1, 2, ..., n; dabei wird n ≤ a und n ≤ n-a angenommen. R-Funktionen: dhyper(), phyper(), qhyper(), rhyper()

Lage- und Formmaße:

Mit der Wahrscheinlichkeitsfunktion f wird die Zufallsvariation einer diskreten Zufallsvariablen X vollständig beschrieben. Eine Kurzbeschreibung der Zufallsvariation erhält man, wenn man die Wahrscheinlichkeitsfunktion hinsichtlich ihrer „Lage“ auf der horizontalen Achse (Merkmalsachse) und hinsichtlich ihrer „Form“ durch geeignete Kennzahlen beschreibt.

Mittelwert (mean):

Das wichtigste Lagemaß ist der Mittelwert von X; zur seiner Berechnung wird jeder Wert xi von X mit der entsprechenden Wahrscheinlichkeit f(xi)=P(X= xi) multipliziert und die erhaltenen Produkte aufsummiert. Statt Mittelwert von X sagt man auch Erwartungswert (expectation) von X und schreibt dafür E[X]. Für eine mit den Parametern n und p binomialverteilte Zufallsvariable X ist E[X]=np; ist X Poissonverteilt mit dem Parameter λ, gilt E[X]=λ.

Variance (variance): Die Varianz ist ein Streuungsmaß, mit dem die Form der Verteilung einer diskreten ZUfallsvariablen X hinsichtlich der Eigenschaft beschrieben wird, ob der Graph der Wahrscheinlichkeitsfunktion einen flachen, langgestreckten Verlauf besitzt oder über einen engen Bereich der Merkmalsachse konzentriert ist. Die Varianz von X wird als mittlere quadratische Abweichung

der Variablenwerte um den Mittelwert µX=E[X] eingeführt und auch durch 2

bezeichnet. Die Quadratwurzel 2

XX σσ = aus der Varianz heißt die

Standardabweichung (standard deviation) von X.

Quantil, Median (quantile, median): Für eine diskrete Zufallsvariable X mit der Wertemenge DX=x1, x2, ,,, und der Verteilungsfunktion F ist das p-Quantil das kleinste Element xp ∈ DX, das der Forderung F(xp)=P(X ≤ xp) ≥ p genügt. Im Besonderen ist der Median bei diskretem X der kleinste Wert x0.5 ∈ DX, der die Ungleichung F(x0.5)= P(X ≤ x_0.5) ≥ 0.5 erfüllt.

2.2 Stetige Verteilungen (continuous distributions)

Stetige Zufallsvariable (continuous random variables):

Die Variable X heißt eine stetige Zufallsvariable, wenn sie einem Zufallsexperiment zugeordnet ist und eine auf der Ergebnismenge Ω des Zufallsexperimentes definierte

)()(P ,,

−−

===

n

N

xn

aN

x

a

xHxX pnN

∑ ++==i

iiX xfxxfxxfx L)()()(2211

µ

[ ] ∑ −=−=

iiXiX

xfxXEXVar )()()( 22 µµ

Page 9: Angewandte Statistik I Repetitorium 2013 · W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13 3 − Das Ereignis B ist genau dann vom Ereignis A unabhängig (und ebenso A

W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13

9

reellwertige Funktion mit der Eigenschaft darstellt, dass für jedes Intervall (a, b) der reellen Zahlenachse die Wahrscheinlichkeit P(a < X < b) existiert. Die Zufallsvariation einer stetigen Zufallsvariablen X wird mit Hilfe der sogenannten ahrscheinlichkeitsdichte f beschrieben. Diese ist eine für alle reellen x definierte nichtnegative Funktion, mit der die Wahrscheinlichkeit P(a < X < b), dass X einen Wert zwischen a und b annimmt, als „Fläche unter der Dichtekurve“ zwischen x=a und x=b dargestellt wird. Es folgt, dass die Gesamtfläche unter der „Dichtekurve“ 1 Flächeneinheit ist. Das Arbeiten mit stetigen Zufallsvariablen erfordert die Berechnung von „Flächen unter der Dichtekurve“, d.h. die Berechnung von bestimmten Integralen der Art: In der Praxis erfolgt die Berechnung mit Hilfe von tabellierten Werten der sogenannten Verteilungsfunktion F von X:

Mittelwert und Varianz einer stetigen Zufallsvariablen: Der Mittelwert µX oder Erwartungswert E[X] einer stetigen Zufallsvariablen X mit der Dichtefunktion f wird durch das Integral

dargestellt. Die Varianz Var[X] (oder 2

Xσ ) von X ist als der Erwartungswert der

quadratischen Abweichung der Zufallsvariablen X von ihrem Mittelwert µX definiert: Die Quadratwurzel 2

XX σσ = aus der Varianz heißt die Standardabweichung von X.

Median, Quartil, Quantil (median, quartile, quantile):

• Neben dem Mittelwert und der Standardabweichung sind der Median und der Quartilabstand (inter quartile range) weitere Maßzahlen zur Kennzeichnung der zentralen Lage bzw. der Streuung einer stetigen Zufallsvariablen X. Der Median x0,5 ist derjenige Wert von X, der mit 50%iger Wahrscheinlichkeit unter- bzw. überschritten wird, d.h., für den gilt: P(X ≤ x0,5) = P(X ≥ x0,5) = 0.5. Die an der Stelle x0,5 der Merkmalsachse errichtete Ordinate teilt die Fläche „unter“ der Dichtekurve in zwei Hälften.

• Der Median ist ein Spezialfall eines allgemeineren Lagemaßes, des sogenannten p-Quantils (quantile) mit xγ (0<p<1); xγ ist der durch die Forderung P(X ≤ xp) = p festgelegte Wert von X, also jener Wert, der mit der Wahrscheinlichkeit p unterschritten wird.

• Das 25%-Quantil x0.25 und das 75%-Quantil x0.75 heißen auch das untere bzw. das obere Quartil. Die Differenz x0.75 - x0.25 aus dem oberen und unteren Quartil ist der Quartilabstand.

Normalverteilung (normal distribution):

Die Zufallsvariable X heißt normalverteilt mit dem Mittelwert µ und der Varianz σ2 (kurz: X ∼ N(µ,σ2)), wenn die Dichtefunktion durch

∫=<<b

adfbXa ξξ )()(P

∫∞−=<=→

xdfxXxFxF ξξ )()(P)(:

∫∞+∞−

== dxxxfXEX

)(][µ

∫∞+∞−

−=−== dxxfxXEXVarXXX

)(2)(]2)[(][2 µµσ

Page 10: Angewandte Statistik I Repetitorium 2013 · W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13 3 − Das Ereignis B ist genau dann vom Ereignis A unabhängig (und ebenso A

W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13

10

)( 2

)(21-exp

21)(: +∞<<−∞−=→

xxxfxf σ

µπσ

gegeben ist. Im Sonderfall µ = 0 und σ = 1 heißt X standardnormalverteilt. R-Funktionen: dnorm(), pnorm(), qnorm(), rnorm()

2.3 Musterbeispiele 1. Bei einem Test werden 5 Aufgaben derart gestellt, dass es bei jeder Aufgabe 4

Antwortmöglichkeiten gibt, von denen genau eine die richtige ist. Wie groß ist die Wahrscheinlichkeit, dass man mehr als die Hälfte der Aufgaben richtig löst, wenn die Lösungsauswahl aufs Geratewohl erfolgt, d.h., jeder Lösungsvorschlag mit der Wahrscheinlichkeit 1/4 gewählt wird?

Präzisierung der Aufgabe: Die Lösung der 5 Aufgaben wird durch die 5-malige Wiederholung eines Zufallsexperimentes modelliert; bei jeder Wiederholung ist die Wahrscheinlichkeit, aufs Geratewohl die richtige Antwort zu finden, gleich 1/4. Die Anzahl der Wiederholungen (Aufgabenlösungen) mit der richtigen Antwort ist eine binomialverteilte Zufallsvariable X mit den Parametern n=5 und p=1/4 (Erfolgswahrscheinlichkeit). Lösungsansatz und numerische Lösung: Gesucht ist die Wahrscheinlichkeit des Ereignisses, mehr als die Hälfte der Aufgaben richtig zu lösen, d.h. die Wahrscheinlichkeit P(X>=3). Mit Hilfe der Gegenwahrscheinlichkeit P(X<=2), die gleich dem Wert der Verteilungsfunktion der Binomialverteilung an der Stelle x=2 ist, kann die gesuchte Wahrscheinlichkeit in der Form P(X>=3) = 1-P(X<=2) dargestellt werden. Lösung mit R: > PXgrgl3 <- 1 - pbinom(2, 5, 0.25); PXgrgl3 [1] 0.1035156

Ergebnis: Die Wahrscheinlichkeit P(X>=3), mehr als die Hälfte der 5 Aufgaben richtig zu lösen, wenn die vier möglichen Antworten aufs Geratewohl gewählt werden, beträgt 10,35%.

2. Ein Produktionslos enthält 100 Widerstände. Der Hersteller garantiert, dass höchstens

5% defekt sind. Jedes Los wird vor Lieferung geprüft, indem 10 Widerstände entnommen werden. Sind alle 10 Widerstände in Ordnung, wird das Los zur Auslieferung freigegeben. Wie groß ist bei diesem Prüfverfahren die Wahrscheinlichkeit, dass ein Los zurückgewiesen wird, obwohl es den Bedingungen (höchstens 5% defekt) entspricht?

Lösungsansatz und numerische Lösung: Wir nehmen den ungünstigsten Fall an, dass nämlich genau 5% der 100 Widerstände, also 5 Widerstände defekt sind. Die Entnahme der Prüfstichprobe möge nach dem Modell „Auswählen ohne Zurücklegen“ erfolgen. Gesucht ist die Wahrscheinlichkeit für die Zurückweisung des Loses, d.h. die Wahrscheinlichkeit dafür, dass die Anzahl X der defekten Widerstände in der Prüfstichprobe größer als null ist. Lösung: Gesucht ist die Wahrscheinlichkeit P(X>0) = 1- P(X=0). Die Anzahl X ist eine hypergeometrisch verteilte Zufallsvariable und stellt die defekten Widerstände dar, die man bei Zufallsauswahl aus dem Produktionslos mit 95 intakten und 5 defekten Widerständen erhält. Lösung mit R: > PXgr0 <- 1-phyper(0, 5, 95, 10); PXgr0

Page 11: Angewandte Statistik I Repetitorium 2013 · W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13 3 − Das Ereignis B ist genau dann vom Ereignis A unabhängig (und ebenso A

W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13

11

[1] 0.4162476

Ergebnis: Die Wahrscheinlichkeit P(X>0), mindestens einen defekten Widerstand zu erhalten, wenn aus einem Los mit 95 intakten und 5 defekten Widerständen ohne Zurücklegen ausgewählt wird, beträgt 41,62%.

3. Für eine bestimmte Diagnosegruppe ist ein Laborparameter X normalverteilt mit einem

Mittelwert von 75 Einheiten und einer Standardabweichung von 10 Einheiten. Laborwerte unter 55 und über 95 gelten als kritisch. a) Wie groß ist die Wahrscheinlichkeit, dass X einen kritischen Wert annimmt? (4,55%) b) Wie groß ist die Wahrscheinlichkeit, dass in einer Stichprobe von 5 Personen,

mindestens viermal ein nicht kritischer Wert gemessen wird? (98.1%) Präzisierung der Aufgabe: Nach Voraussetzung ist X eine normalverteilte Zufallsvariable mit dem Mittelwert 75 und der Standardabweichung 10. Das Ereignis „X nimmt einen kritischen Wert an“ ist gleich dem zusammengesetzten Ereignis „X<55 oder X>95“. In Teilaufgabe a) ist die Wahrscheinlichkeit p=P(X<55 oder X>95) dieses Ereignisses gesucht. Um die Wahrscheinlichkeit in Teilaufgabe b) zu bestimmen, betrachten wir das Auftreten eines kritischen Laborwertes an einer Person als ein Zufallsexperiment, bei dem sich mit der Wahrscheinlichkeit p ein kritischer Wert ergibt. Das Experiment wird 5mal wiederholt; dann ist die Anzahl Y der Wiederholungen mit einem kritischen Laborwert binomialverteilt mit den Parametern n=5 (Anzahl der Wiederholungen des Zufallsexperimentes) und p (Erfolgswahrscheinlichkeit). Lösungsansatz und numerische Lösung: In a) ist die Wahrscheinlichkeit p=P(X<55 oder X>95) = P(X<55) + P(X>95) gesucht, wobei X eine normalverteilte Zufallsvariable darstellt. Mit F als Verteilungsfunktion von X kann p in der Form p=F(55) + 1 – F(95) geschrieben werden. In b) ist die Wahrscheinlichkeit P(Y<=1) zu bestimmen, wobei Y eine Bn,p-verteilte Zufallsvariable ist. Lösung mit R: > # a) > Pkritisch <- pnorm(55, 75, 10) + 1 - pnorm(95, 75, 10); Pkritisch [1] 0.04550026 # b) > PYklgl1 <- pbinom(1, 5, Pkritisch); PYklgl1 [1] 0.9811177

Ergebnis: Die Wahrscheinlichkeit, in Teilaufgabe a) einen kritischen Wert zu erhalten, beträgt 4,55%. Mit 98,11%iger Wahrscheinlichkeit sind in einer Gruppe von 5 Personen mindestens 4 Personen ohne kritischen Wert, d.h. höchstens eine Person mit einem kritischen Wert.

4. Die Masse (in mg) einer Wirksubstanz W in einem Präparat sei normalverteilt mit dem

Mittelwert 10 und der Varianz 0,25. Mit welcher Wahrscheinlichkeit wird ein Wert außerhalb des 2-fachen Interquartilabstandes um den Mittelwert angenommen? (0.7%)

Präzisierung der Aufgabe: Nach Voraussetzung ist die Masse X eine normalverteilte Zufallsvariable mit dem Mittelwert µ=10 (mg) und der Varianz σ2 = 0,25 (mg2). Der Quartilabstand ist gleich der Differenz d = x0,75 - x0,25 zwischen dem 75%-Quantil x0,75 und dem 25%-Quantil x0,25. Gesucht ist die Wahrscheinlichkeit des zusammengesetzten Ereignisses X < µ-2d oder X > µ+2d. Lösungsansatz und numerische Lösung: Für die gesuchte Wahrscheinlichkeit P gilt: P=(X < µ-2d oder X > µ+2d) = P(X < µ-2d)+P(X <

Page 12: Angewandte Statistik I Repetitorium 2013 · W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13 3 − Das Ereignis B ist genau dann vom Ereignis A unabhängig (und ebenso A

W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13

12

µ+2d) = 2 P(X < µ-2d). Mit F als Verteilungsfunktion (=Normalverteilungsfunktion) von X kann P in der Form P=2F(µ-2d) geschrieben werden. Lösung mit R: > options(digits=4) > mu <- 10 # Mittelwert > std <- sqrt(0.25); std # Standardabweichung [1] 0.5 > q075 <- qnorm(0.75, mu, std); q075 # 75%-Quantil [1] 10.34 > q025 <- qnorm(0.25, mu, std); q025 # 25%-Quantil [1] 9.663 > d <- q075 - q025; d # Quartilabstand [1] 0.6745 > P <- 2*pnorm(mu-2*d, mu, std); P [1] 0.006977[1] 0.006977[1] 0.006977[1] 0.006977

Ergebnis: Die Wahrscheinlichkeit, dass X einen Wert außerhalb des 2-fachen Quartilabstands um den Mittelwert annimmt, beträgt 0,7%.

3 PARAMETERSCHÄTZUNG: GENAUIGKEIT UND SICHERHEIT 3.1 Datenbeschreibung bei einem Merkmal Zweck der Parameterschätzung (estimation of parameters):

Die Merkmalsvariation einer Zufallsvariablen X wird i. Allg. durch Wahrscheinlich-keitsverteilungen (Wahrscheinlichkeitsfunktionen bzw. Dichtefunktionen) mit unbekannten Parametern modelliert. Für diese Parameter sind - mit Hilfe von univariaten Zufallsstichproben - Schätzwerte zu ermitteln.

Beschreibung von univariaten Stichproben (univariate samples): • durch grafische Darstellung der Merkmalswerte in Form von Punktdiagrammen (Dot-

Plots) vor allem bei kleinen Stichproben; • tabellarisch durch eine Häufigkeitsverteilung ohne (bzw. mit) Klassenbildung, die

Aufschluss gibt über die Wahrscheinlichkeitsfunktion (Wahrscheinlichkeitsdichte) eines

Grundgesamtheit X

Wah

rsch

einl

ichk

eits

dich

te

Xµ2 σ

N(µ, σ2)

x1, x2, ..., xnZufallsauswahl

Zufallsstichprobe

Stichprobenmittel

Parameterschätzung:Schätzwert Konfidenzintervall

Stichprobenfunktionen

Stichproben-standardabweichung

Page 13: Angewandte Statistik I Repetitorium 2013 · W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13 3 − Das Ereignis B ist genau dann vom Ereignis A unabhängig (und ebenso A

W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13

13

diskreten (bzw. stetigen) Merkmals, und deren grafische Darstellung durch Stabdiagramme bzw. Histogramme;

• numerisch durch Maßzahlen, die markante Eigenschaften der Verteilung zum Ausdruck bringen, und deren grafische Darstellung (Mittelwerte mit Fehlerbalken, Boxplots) .

Häufigkeitsverteilung ohne Klassenbildung:

X = quantitatives diskretes Merkmal, das k (verschiedene) Werte a1, a2, ..., ak annehmen kann. Beobachtung von X an n Untersuchungseinheiten Stichprobe x1, x2, ..., xn Abzählen der Untersuchungseinheiten mit dem Merkmalswert ai ergibt die absolute

Häufigkeit Hi (absolute frequency); Division der absoluten Häufigkeit Hi durch den Stichprobenumfang n ergibt die

relative Häufigkeit (relative frequency) hi = Hi /n. Darstellung der Häufigkeitsverteilung von X durch eine Häufigkeitstabelle (frequency

table) (=mit den Werten von X und den entsprechenden absoluten bzw. relativen Häufigkeiten erstellte Wertetabelle) oder durch ein Stabdiagramm (bar chart) (=über den auf der Merkmalsachse eingezeichneten Werten von X werden die absoluten bzw. relativen Häufigkeiten als „Stäbe“ eingezeichnet)

R-Funktionen: table(), barplot()

Häufigkeitsverteilung mit Klassenbildung: X = stetiges Merkmal und x1, x2, ..., xn eine Stichprobe von X; Zerlegung der Merkmalsachse in gleich lange, aneinandergrenzende Intervalle (Klassen) I1, I2, ..., Ik Klasseneinteilung (grouping)

Klassenbreite 3/2 nIQRb ⋅= Klassengrenzen (class limits):

Festlegung der unteren Grenze c1 der ersten Klasse I1 derart, dass c0 < xmin ≤ c2 = c0+ b I1 =(c0, c1]; c1 = c0+ b ist die untere Grenze der zweiten Klasse I2 = (c1, c2]; c2 = c1 + b die untere Grenze der dritten Klasse I3 = (c2, c3] usw.

Abzählen der Untersuchungseinheiten in der Klasse Ii ergibt die absolute Klassenhäufigkeit (class frequency) Hi von Ii (= Anzahl der Merkmalswerte xi mit ci-1 < xi ≤ c1); man beachte: H1 + H2 + … + Hk = n.

Division der absoluten Klassenhäufigkeit Hi durch den Stichprobenumfang n führt zur relativen Klassenhäufigkeit yi = Hi /n; man beachte: y1 + y2 + … + yk = 1.

Division der relativen Klassenhäufigkeit gi durch die Klassenbreite b ergibt die Häufigkeitsdichte gi = hi /b;

Histogramm (histogram): Über jede Klasse Ii wird das Rechtecke mit der Breite b und der Höhe gi errichtet (dieses Histogramm heißt flächennormiert, weil die gesamte "Histogrammfläche" = 1 ist)

R-Funktion: hist() Verteilungskennwerte (univariate Statistiken, univariate statistics):

X = quantitatives Merkmal mit den an n Untersuchungseinheiten beobachteten Werten x1, x2, ..., xn.

Mittelwert (sample mean, Lagemaß):

( ) nxxxnxxn

n

ii

//21

1+++=∑=

=L

Interpretation des Mittelwerts:

Page 14: Angewandte Statistik I Repetitorium 2013 · W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13 3 − Das Ereignis B ist genau dann vom Ereignis A unabhängig (und ebenso A

W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13

14

a) Schätzwert für den "wahren" Wert µ von X (dabei wird angenommen, dass sich die Messwerte additiv aus dem wahren Wert und einem regellos um Null streuenden Messfehler zusammensetzen)

b) Schätzwert für den Mittelwert µ von X (dabei wird angenommen, dass X selbst zufällig variiert)

R-Funktion: mean() Varianz (variance) s2, Standardabweichung (standard deviation) s (Streuungsmaße):

2

1

22 ,)(1

1ssxx

ns

n

ii =−

−= ∑

=

R-Funktionen: var(), sd()

Standardfehler (standard error) nsSE /=

Maß für die Zufallsstreuung des Mittelwerts (je größer n, desto genauer die Mittelwertschätzung). Messergebnisse werden oft in der Form SEx± dargestellt.

Weitere Lagemaße für die univariate Datenbeschreibung:

• Modalwert xmod (häufigster Merkmalswert, mode) R-Funktion:

• kleinster und größter Merkmalswert xmin bzw. xmax

R-Funktionen: min(), max() • p –Quantil (quantile) xp (0 ≤ p < 1):

anschauliche Charakterisierung: xp = jener Wert, der von np Stichprobenwerten unterschritten und von n(1-p) Stichprobenwerten überschritten wird (ist np nicht ganzzahlig, so nehme man dafür den auf die nächste ganze Zahl gerundeten Wert). Definition: Stichprobe von X umfasse die n metrischen Werte x1, x2, ... , xn Anordnung der Stichprobenwerte nach aufsteigender Größe ergibt die geordnete Stichprobe x(1), x(2), ... , x(n) Bestimme Zahl u = 1+(n-1)p und daraus die größte ganze Zahl [u] kleiner oder gleich u; ferner setzen wir v= u-[u] p –Quantil )1]([])([)1( ++−= uup vxxvx

Sonderfälle: p = 50% (Median x0.5, median) p = 25% (unteres Quartil x0.25, lower quartile) p = 75% (oberes Quartil x0.75, upper quartile) R-Funktionen: quantile(), summary()

Boxplot (boxplot): Grafik zur groben Beschreibung der Häufigkeitsverteilung einer quantitativen Variablen bestehend aus der Box mit den Quartilen gezeichneten Box und dem in der Box liegenden Median sowie den Ausläufern bis zum kleinsten bzw. größten Merkmalswert. R-Funktion: boxplot() Man beachte: Die Quartile x0.25 und x0.75 sind hier als Median der Merkmalswerte kleiner bzw. größer als x0.5 definiert (die so berechneten Quartile werden im Englischen auch als „hinges“ bezeichnet).

5-Punkte-Zusammenfassung (five-number summary): Beschreibung der Variation einer Stichprobe durch xmin, x0.25, x0.5, x0.75, xmax R-Funktion: fivenum()

Page 15: Angewandte Statistik I Repetitorium 2013 · W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13 3 − Das Ereignis B ist genau dann vom Ereignis A unabhängig (und ebenso A

W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13

15

Schiefe (skewness, Formmaß zur Beschreibung der Asymmetrie): Definition der Schiefe g als (standardisiertes) Moment dritter Ordnung:

( )

−= ∑=

3

1

3 /11 /)( nsnxxgn

ii

Bezeichnungen: linksschief (rechtssteil, g<0), rechtsschief (linkssteil, g>0) Zentrieren und Standardisieren:

X = quantitatives Merkmal mit den an n Untersuchungseinheiten beobachteten Werten x1, x2, ..., xn Mittelwert x und Standardabweichung s:

sieren)(Standardi

n)(Zentriere

s

xXZX

xXZX

S

c

−=→

−=→

3.2 Schätzfunktionen

Stichprobenmittel Es sei X1, X2, ..., Xn eine Zufallsstichprobe, in der die Variablen Xi (i = 1, 2, …, n) die Ergebnisse von n Beobachtungen ausdrücken. Zur Schätzung des Mittelwerts µ einer N(µ, σ2)-verteilten Zufallsvariablen X verwendet man das Stichprobenmittel:

( ) nXXXX n /21 +++= L . Es gilt:

• )/,(),( 22 nNXNX i σµσµ ≅⇒≅

• X = Zufallsvariable mit den Werten 1 und 0, wobei P(X=1)=p; X1, X2, ..., Xn = Zufallsstichprobe von X. Dann ist der Anteil

( ) nXXXX n /21 +++= L der Wiederholungen mit Xi = 1 Bn,p-verteilt mit dem

Mittelwert pXE =][ und der Varianz nppXVar /)1(][ −= . Für großes n gilt die die Approximation (Satz von Moivre-Laplace):

( )

−≅+++=n

pppNXXX

nX n

)1(,

121 L

• X = Zufallsvariable mit dem Mittelwert µ und der Varianz 2σ ;

X1, X2, ..., Xn = Zufallsstichprobe von X. Dann ist µ=][ XE , nXVar /][ 2σ= und für großes n (ab 30) gilt die Approximation (Zentraler Grenzwertsatz):

)/,( 2 nNX σµ≅

Stichprobenvarianz Es sei X1, X2, ..., Xn eine Zufallsstichprobe, in der die Variablen Xi (i = 1, 2, …, n) die Ergebnisse von n Beobachtungen ausdrücken. Zur Schätzung der Varianz σ2 einer N(µ, σ2)-verteilten Zufallsvariablen X verwendet man die Stichprobenvarianz:

( ) ( ) ( )[ ] 1

1 22

2

2

12 XXXXXX

nS n −++−+−

−= L

Hinsichtlich der Verteilung von S2 gilt, dass 2

122 /)1( −≅− nSn χσ , d.h. (n-1)S2/σ2

ist eine chiquadratverteilte Zufallsvariable mit f = n - 1 Freiheitsgraden. R-Funktionen: dchisq(), pchisq(), qchisq(), rchisq()

Page 16: Angewandte Statistik I Repetitorium 2013 · W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13 3 − Das Ereignis B ist genau dann vom Ereignis A unabhängig (und ebenso A

W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13

16

Eigenschaften „guter“ Schätzfunktionen

Mittlerer quadratischer Fehler (mean-squared error):

Es sei ),,,(ˆˆ 21 nnn XXX Kππ = eine Schätz(Stichproben)funktion für den

Verteilungsparameter π. Die Beurteilung der Güte einer Schätzfunktion kann mit der erwarteten mittleren quadratischen Abweichung (dem mittleren quadratischen Fehler)

( )22 ]ˆ[]ˆ[])ˆ[( πππππ −+=−= nnn EVarEMSE

erfolgen, die gleich der Summe aus der Varianz der Schätzfunktion und dem Quadrat der Verzerrung (Bias) ist.

Forderungen an "gute" Schätzfunktionen:

• Für n ∞ soll der Erwartungswert ]ˆ[ nE π der Schätzfunktion gegen den

Parameter π streben, d.h. die Schätzwerte sollen mit wachsender Wahrscheinlichkeit um π konzentriert sein. dies trifft zu, wenn die Schätzfunktion unverzerrt (erwartungstreu) ist.

• Varianz soll für n ∞ gegen Null streben. Anmerkungen: • Schätzfunktionen, die die erste Forderung erfüllen, heißen asymptotisch

erwartungstreu. Gilt sogar ππ =]ˆ[ nE für alle n=1, 2, …, nennt man die Schätzfunktion

erwartungstreu (unbiased). Schätzfunktionen, die beiden Forderungen genügen, heißen konsistent (im quadratischen Mittel).

• Das Stichprobenmittel ( ) nXXXX nn /ˆ 21 +++== Kπ ist eine erwartungstreue

Schätzfunktion für µ, d.h. 0][ =⇒= BiasXE µ . Überdies gilt:

0/][ 2 →= ∞→nnXVar σ .

• Die Stichprobenvarianz ( ) )1/(ˆ1

22 −−== ∑=

nXXSn

iinπ ist eine erwartungstreue

Schätzfunktion für σ2, d.h. 0][ 22 =⇒= BiasSE σ .

Überdies gilt: 0 )1/(2][ n

42 →−= ∞→nSVar σ . Dagegen ist S ist keine

erwartungstreue Schätzfunktion für σ.

0 1 2 3 4

0.0

0.1

0.2

0.3

0.4

0.5

Dichtekurven der Chiquadratverteilung

(n-1)S^2/sigma^2

Dic

hte

f=1

f=3

f=5

Page 17: Angewandte Statistik I Repetitorium 2013 · W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13 3 − Das Ereignis B ist genau dann vom Ereignis A unabhängig (und ebenso A

W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13

17

Maximum-Likelihood-Schätzer (maximum-likelihood estimator)

Likelihood-Funktion (likelihood function): Es seien X eine (diskrete) Zufallsvariable mit der von dem zu schätzenden Parameter π abhängigen Wahrscheinlichkeitsfunktion f(x|π) und x1, x2, ... , xn eine Zufallsstichprobe von X. Wir bilden die so genannte Likelihood-Funktion:

( ) ∏=

==n

iin xfxxxL

121 )~|(,,,|~ πππ K

Die Likelihood-Funktion ist die Wahrscheinlichkeit dafür, dass X die Realisationen x1, x2,..., xn annimmt, wenn π~ der Schätzwert für π ist.

Maximum Likelihood-Prinzip: Der Maximum Likelihood-Schätzer (kurz ML-Schätzer) für π ist jenes π~ , für das die Likelihood-Funktion den größten Wert annimmt,d.h. die Maximumstelle von L.

Hinweise:

• Bei stetigen Zufallsvariablen tritt an die Stelle der Wahrscheinlichkeitsfunktion die Wahrscheinlichkeitsdichte.

• Die ML-Schätzung des Mittelwertes ist gleichwertig mit der sogenannten Kleinsten Quadrat-Schätzung (LS-Schätzung: "optimaler" Schätzwert ist jener, der die Summe der Quadrate der Abweichungen der Beobachtungswerte vom Schätzwert minimiert, LS=least-squares)

3.3 Intervallschätzung

Definition des Konfidenzintervalls (confidence interval) Wir bezeichnen als Konfidenzintervall für einen unbekannten Parameter π einer Verteilung das Intervall [U, O] der Zahlengeraden, das den Parameter π mit einer vorgegebenen hohen Wahrscheinlichkeit 1-α einschließt, d.h., P(U ≤ π ≤ O) = 1-α. Zusätzlich geben wir die Symmetrieforderung P(U > π) = P(O < π) = α/2 vor.

Berechnung von Konfidenzintervallen • Das (1-α)-Konfidenzintervall für die Varianz σ2 einer N(µ, σ2)- verteilten

Zufallsvariablen ist ein Intervall mit der unteren Grenze 22/1,1

2 /)1( αχ −−−= nSnU und

der oberen Grenze 22/,1

2 /)1( αχ −−= nSnO . Die Größen 22/1,1 αχ −−n und 2

2/,1αχ −n sind das

(1-α/2)- bzw. das α/2-Quantil der Chiquuadratverteilung mit n-1 Freiheitsgraden. • Das (1-α)-Konfidenzintervall für den Mittelwert µ einer N(µ, σ2)- verteilten

Zufallsvariablen ist ein um das Stichprobenmittel symmetrisches Intervall

[ ]dXdX +− , mit der halben Intervallbreite nStd an /2/,1 α−−= . Die Größe tn-1,1-α/2

ist das (1-α/2)-Quantil der t-Verteilung mit n-1 Freiheitsgraden. t-Verteilung: R-Funktionen: dt(), pt(), qt(), rt()

Page 18: Angewandte Statistik I Repetitorium 2013 · W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13 3 − Das Ereignis B ist genau dann vom Ereignis A unabhängig (und ebenso A

W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13

18

Approximation für großes n (ab n=30): Für „große“ Stichproben kann im Konfidenzintervall für µ das t-Quantil tn-1,1-α/2 durch das von (n unabhängige) Quantil z1-α/2 der N(0,1)-Verteilung approximiert werden,

d.h. die halbe Intervallbreite kann einfacher durch nSzd /2/1 α−= ausgedrückt

werden. Löst man nach n auf, erhält man die für große n gültige Faustformel für den Mindeststichprobenumfang zur Schätzung eines Mittelwerts mit der vorgegebenen Genauigkeit ±d und der vorgegebenen Sicherheit 1-α :

22/1

≈ −

d

zn

σα

• Ein approximatives (1-α)-Konfidenzintervall für den Parameter p (Wahrscheinlichkeit) einer Zweipunktverteilung ist das Agresti-Coull-Intervall. Es sei X eine zweistufig skalierte Zufallsvariable mit den Werten 1 und 0, p = P(X =1) bzw. q = 1-p = P(X=0) die Wahrscheinlichkeiten, mit denen diese Werte angenommen werden. Ferner seien x1, x2, ..., xn eine Zufallsstichprobe vom Umfang n und m die Anzahl der Wiederholungen mit xi = 1 und yn = m/n der Anteil der Wiederholungen mit xi = 1. Dann sind die untere und obere Grenze uA bzw. oA eines (1-α) - Konfidenzintervalls für p gegeben durch

22/1

2/122/1

22/1 )1(

und 2/

mit ,

αα

α

α

−−

+−

=+

+=

+=−=

zn

mmzl

zn

zmm

lmolmu

WWAW

AWAAWA

Voraussetzung für die Approximation: nyn(1-yn) > 9

• Ein exaktes (1-α)-Konfidenzintervall für den Parameter p ist das Clopper-Pearson-Intervall mit den Grenzen

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

0.5

Dichtekurven der t-VerteilungD

icht

e

N(0,1)

t(f=5)

t(f=1)

Page 19: Angewandte Statistik I Repetitorium 2013 · W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13 3 − Das Ereignis B ist genau dann vom Ereignis A unabhängig (und ebenso A

W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13

19

2/1),(2),1(2

2/1),(2),1(2

2/),1(2,2

2/),1(2,2

)1(

)1( ,

1 α

α

α

α

−−+

−−+

+−

+−

++−+

=++−

=mnm

mnmC

mnm

mnmC Fmmn

Fmo

mFmn

mFu

Die Größen Ff1, f2, α/2 und Ff1, f2, 1-α/2 sind das α/2- bzw. (1-α/2)-Quantil der F-Verteilung mit den Freiheitsgraden f1 und f2. F-Verteilung: R-Funktionen: pf(), pf(), qf(), rf() Eine grobe Faustformel für den Mindeststichprobenumfang zur Schätzung einer Wahrscheinlichkeit mit der vorgegebenen Genauigkeit ±d und der vorgegebenen Sicherheit 1-α ist

22/1

2

≈ −

d

zn α

• Zwei- bzw. einseitige (1-α)-Konfidenzintervall für den Parameter λ der Poisson-

Verteilung erhält man wie folgt: Es seien X eine Poisson-verteilte Zufallsvariable mit dem Parameter λ, und x = 0, 1, 2,… die Realisierungen von X. Dann gilt: Ein 2-seitiges (1-α)-Konfidenzintervall λu ≤ λ ≤ λo für λ ist ein Intervall mit der Eigenschaft P(λu ≤ λ ≤ λo) = 1-α; die Intervallgrenzen sind:

2

2/1,22

2

2/,2 2

1 und

2

1αα χλχλ −+== xoxu

1-seitige (1-α)-Konfidenzintervalle für λ sind Intervalle der Form λ ≤ λo bzw. λ ≥ λu mit der Eigenschaft P(λ ≤ λo) = P(λ ≥ λu) = 1-α; λo und λu heißen obere bzw. untere Vertrauensschranke für λ zur Sicherheit 1-α und sind zu berechnen aus:

2

,2

2

1,22 2

1 bzw.

2

1αα χλχλ xuxo == −+

3.4 Musterbeispiele 1. Man vergleiche die durch die folgenden Stichproben gegebene Variation von X

(Spaltöffnungslänge in µm) bei diploiden und tetraploiden Biscutella laevigata mit Hilfe der entsprechenden Box-Plots. Welche Bedeutung haben die im Boxplot verwendeten Kenngrößen x0.5, x0.25, x0.75, xmin und xmax?

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.0

0.2

0.4

0.6

0.8

1.0

Dichtekurven der F-Verteilung

X

Dic

hte

F(f=10,40)F(f=5,2)

Page 20: Angewandte Statistik I Repetitorium 2013 · W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13 3 − Das Ereignis B ist genau dann vom Ereignis A unabhängig (und ebenso A

W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13

20

diploid 27, 25, 23, 27, 23, 25, 25, 22, 25, 23, 26, 23, 24, 26, 26 tetraploid 28, 30, 32, 29, 28, 33, 32, 28, 30, 31, 31, 34, 27, 29, 30

Präzisierung der Aufgabe: Die gegebenen Stichprobenwerte sind Messwerte, die sich durch Messung der Spaltöffnungslänge X an je n=15 Untersuchungseinheiten von diploiden bzw. tetraploiden Pflanzen ergeben haben. Die Messwerte zeigen in jeder Gruppe eine Zufallsstreuung, die die Variation der Zufallsvariablen X zum Ausdruck bringt. Die Variation von Zufallsvariablen wird durch Verteilungsfunktionen modelliert, die in ihren charakteristischen Eigenschaften kurz durch Kennwerte beschrieben werden. Ein oft verwendeter Satz von Kennwerten zur Beschreibung der Merkmalsvariation sind die Quartile x0.5, x0.25 und x0.75 sowie der kleinste und größte Merkmalswert xmin bzw. xmax. Lösungsansatz und numerisch/grafische Lösung: Ein Boxplot ist ein mit den Kennwerten Median (x0.5), dem unteren und oberen Quartil (x0.25 bzw. x0.75) sowie dem Kleinst- und Größtwert (xmin bzw. xmax) gezeichnetes Diagramm zur schnellen Charakterisierung von wichtigen Eigenschaften einer Verteilung. Der Median x0.5 wird auch das 50%-Quantil genannt und stellt ein zentrales Lagemaß dar, um die die Stichprobenwerte streuen; grob gilt, dass 50% der der Stichprobenwerte kleiner oder gleich dem Median sind. Die Quartile x0.25 und x0.75 heißen auch unteres bzw. oberes Quartil, weil sie – grob gesprochen – die Eigenschaft haben, dass 25% der Stichprobenwerte kleiner oder gleich x0.25 und ebenso viele größer oder gleich x0.75 sind. Den Quartilen werden in der Regel noch der Kleinstwert xmin und der Größtwert xmax beigefügt, die den Variationsbereich der Stichprobenwerte nach unten bzw. nach oben begrenzen. Zu jeder Datenbeschreibung gehört auch die Angabe des Stichprobenumfangs n.

Lösung mit R: > x_d <- c(27, 25, 23, 27, 23, 25, 25, 22, 25, 23, 26, 23, 24, 26, 26) > x_t <- c(28, 30, 32, 29, 28, 33, 32, 28, 30, 31, 31, 34, 27, 29, 30) > options(digits = 4) > n_d <- length(x_d); n_t <- length(x_t) > q_d <- quantile(x_d, probs=c(0, 0.25, 0.5, 0.75, 1)) > q_t <- quantile(x_t, probs=c(0, 0.25, 0.5, 0.75, 1)) > cat("diploide Stichprobe:", "\n", "n_d= ", n_d, "\n"); print(q_d) diploide Stichprobe: n_d= 15 0% 25% 50% 75% 100% 22 23 25 26 27 > cat("tetraploide Stichprobe:", "\n", "n_t= ", n_t, "\n"); print(q_t) tetraploide Stichprobe: n_t= 15 0% 25% 50% 75% 100% 27.0 28.5 30.0 31.5 34.0 > boxplot(x_d, x_t, names= c(“diploid”, “tetraploid”), range=0) Hinweis: In der R-Funktion boxplot() werden die Quartile x0.25 und x0.75 als Mediane der Merkmalswerte kleiner bzw. größer als x0.5 berechnet; die so berechneten Statistiken werden im Englischen auch als „hinges“ bezeichnet. Ergebnis: Die Boxplots zeigen, dass der Median der diploiden Stichprobe deutlich unter dem Median der tretraploiden Stichprobe liegt. Der Interquartilabstand IQR = x0.75 – x0.25 ist für jede Stichprobe 3 Einheiten, die Spannweite xmax – xmin ist in der diploiden Stichprobe mit 5 Einheiten kleiner als in der tetraploiden Stichproben (7 Einheiten). Der Abstand der Mediane beträgt 5 Einheiten; das ist mehr als der in beiden Stichproben übereinstimmende IQR.

Page 21: Angewandte Statistik I Repetitorium 2013 · W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13 3 − Das Ereignis B ist genau dann vom Ereignis A unabhängig (und ebenso A

W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13

21

2. Die Messung der Ozonkonzentration X während der Sommermonate ergab für eine Großstadt die in der folgenden Tabelle enthaltenen Werte (Angaben in 10-2 ppm).

a) Man stelle die Häufigkeitsverteilung der Ozonkonzentration tabellarisch und grafisch dar und charakterisiere die Verteilung durch den Mittelwert und die Standardabweichung. Wie sind diese Maßzahlen zu interpretieren?

b) Man und trage die angepasste Dichtekurve der Normalverteilung in die Histogrammdarstellung ein und vergleiche die aus den Stichprobenwerten berechneten Quartile mit den Quartilen der angepassten Normalverteilung.

3,6 1,5 6,6 6,0 4,2

6,7 2,5 5,4 4,5 5,4

2,5 3,0 5,6 4,7 6,5

6,7 1,7 5,3 4,6 7,4

5,4 4,1 5,1 5,6 5,4

6,1 7,6 6,2 6,0 5,5

5,8 8,2 3,1 5,8 2,6

9,5 3,4 8,8 7,3 1,3

6,9 3,2 4,7 3,8 5,9

6,6 4,4 5,7 4,5 7,7

Teilaufgabe 2a (Häufigkeitsverteilung eines metrischen Merkmals): Präzisierung der Aufgabe: Da die Ozonkonzentration X eine stetige Variable ist, ist der Häufigkeitsverteilung eine geeignete Klasseneinteilung zu Grunde zu legen. Der Mittelwert und die Standardabweichung werden aus den gegebenen Stichprobenwerten berechnet. Lösungsansatz und numerisch/grafische Lösung: Das Häufigkeitsverteilung wird grafisch mit der R-Funktion hist() erzeugt. Um das Histogramm mit der Dichtekurve der angepassten Normalverteilung vergleichen zu können, werden die Rechteckhöhen im Histogramm so normiert, dass die gesamte „Histogrammfläche“ gleich 1 beträgt (flächennormiertes Histogramm). Mit den in der Grafik verwendeten Festlegungen (Klassengrenzen bzw. Klassenmitten) wird sodann die Häufigkeitstabelle erstellt, wobei für jede Klasse die Klassenmitte, die absoluten und relativen Klassenhäufigkeiten sowie die Klassenhäufigkeitsdichte angegeben werden. Der (arithmetische) Mittelwert ist – bei metrischen Variablen mit symmetrischer Verteilung - das übliche Maß zur Kennzeichnung der zentralen Lage der Verteilung; dieses Maß besitzt zwei bemerkenswerte Eigenschaften: Einmal ist die (vorzeichenbehaftete) Summe der Abweichungen aller Stichprobenwerte gleich Null und zum anderen sind die quadrierten Abweichungen von einem festen Wert am kleinsten, wenn dieser Wert mit dem Mittelwert übereinstimmt. Die Quadratsumme der Abweichungen vom Mittelwert dividiert durch den (um 1 verkleinerten) Stichprobenumfang ist als mittlere quadratische Abweichung zu interpretieren und wird als Varianz bezeichnet; die Quadratwurzel aus der Varianz ist Standardabweichung, Lösung mit R: Console: > # Dateneingabe > x <- c(3.6, 1.5, 6.6, 6.0, 4.2, 6.7, 2.5, 5.4, 4.5, 5.4,

Page 22: Angewandte Statistik I Repetitorium 2013 · W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13 3 − Das Ereignis B ist genau dann vom Ereignis A unabhängig (und ebenso A

W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13

22

+ 2.5, 3.0, 5.6, 4.7, 6.5, 6.7, 1.7, 5.3, 4.6, 7.4, + 5.4, 4.1, 5.1, 5.6, 5.4, 6.1, 7.6, 6.2, 6.0, 5.5, + 5.8, 8.2, 3.1, 5.8, 2.6, 9.5, 3.4, 8.8, 7.3, 1.3, + 6.9, 3.2, 4.7, 3.8, 5.9, 6.6, 4.4, 5.7, 4.5, 7.7) > options(digits=4) > n <- length(x) > # Histogramm mit rel. Klassenhäufigkeitsdichten (Flächennormierung auf 1) > grafik <- hist(x, freq=F, xlab="Ozonkonzentration in 1/100 ppm", + ylab="Klassenhäufigkeitsdichte", xlim=c(0, 12), + main="Flächennormiertes Histogramm, n=50") > # > # Häufigkeitstabelle > names(grafik) [1] "breaks" "counts" "intensities" "density" "mids" [6] "xname" "equidist" > anz_klassen <- length(grafik$mids); anz_klassen [1] 9 > klassenmitte <- grafik$mids > klassenbreite <- klassenmitte[2]- klassenmitte[1]; klassenbreite [1] 1 > abs_klassen_H <- grafik$counts > rel_klassen_H <- abs_klassen_H/n > klassen_H_dichte <- rel_klassen_H/klassenbreite > print(cbind(klassenmitte, abs_klassen_H, rel_klassen_H, klassen_H_dichte)) klassenmitte abs_klassen_H rel_klassen_H klassen_H_dichte [1,] 1.5 3 0.06 0.06 [2,] 2.5 4 0.08 0.08 [3,] 3.5 5 0.10 0.10 [4,] 4.5 8 0.16 0.16 [5,] 5.5 15 0.30 0.30 [6,] 6.5 8 0.16 0.16 [7,] 7.5 4 0.08 0.08 [8,] 8.5 2 0.04 0.04 [9,] 9.5 1 0.02 0.02 > # > # Mittelwert und Standardabweichung > xquer <- mean(x) > s <- sd(x) > print(cbind(xquer, s)) xquer s [1,] 5.212 1.852 > abline(v=xquer, lty=2) # Einzeichnen des Mittelwerts (strichlierte Linie) > abline(v=xquer-s, lty=3); > abline(v=xquer+s, lty=3) # einfacher Streubereich um den Mittelwert

> n_streubereich <- length(x[x<xquer-s])+length(x[x>xquer+s]); n_streubereich [1] 16

Ergebnis: Die strichlierte (vertikale) Linie im Histogramm markiert die Lage des Mittelwertes. Man erkennt, dass die Rechteckflächen des Histogramms annähernd symmetrisch um die Mittelwertlinie angeordnet sind; die punktierten (vertikalen) Linien markieren den einfachen Streubereich um den Mittelwert. Im einfachen Streubereich liegen 16 der 50 Stichprobenwerte (d.h. ca. 30%).

Grafik (mit eingezeichneter Dichtekurve der angepassten Normalverteilung):

Flächennormiertes Histogramm, n=50

Kla

ssen

häuf

igke

itsdi

chte

0.00

0.05

0.10

0.15

0.20

0.25

0.30

Page 23: Angewandte Statistik I Repetitorium 2013 · W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13 3 − Das Ereignis B ist genau dann vom Ereignis A unabhängig (und ebenso A

W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13

23

Teilaufgabe 2b (Anpassung einer Normalverteilung): Präzisierung der Aufgabe und Lösungsansatz: Die Anpassung der Normalverteilung an die Häufigkeitsverteilung erfolgt so, dass der Mittelwert und die Standardabweichung der Normalverteilung dem Stichprobenmittelwert bzw. der Stichprobenstandardabweichung gleichgesetzt werden. Lösung mit R: Console: > # Fortsetzung des R-Scripts von 2a > # Einzeichnen der Dichtekurve der angepassten Normalverteilung > curve(dnorm(x, mean=xquer, sd=s), lwd=2, ad=T) > # > # Berechnung der Quartile aus den Stichprobenwerten > quartile_s <- quantile(x, probs=c(0.25, 0.75)) > cat("Quartile - Stichprobenwerte:", "\n"); quartile_s Quartile - Stichprobenwerte: 25% 75% 4.125 6.425 > quartile_n <- qnorm(c(0.25, 0.75), mean=xquer, sd=s) > cat("Quartile - Normalverteilung:", "\n", " 25%", " 75%", "\n"); quartile_n Quartile - Normalverteilung: 25% 75% [1] 3.963 6.461

Grafik: Siehe Teilaufgabe 2a Ergebnis: Die durch die Rechteckflächen des Histogramms dargestellte Häufigkeitsverteilung weicht – bis auf die mittlere Klasse – nicht „wesentlich“ von der Normalverteilungsdichte ab. Die Übereinstimmung wird auch durch die geringen Abweichungen der aus den Stichprobenwerten berechneten Quartile von den Quartilen der angepassten Normalverteilung zum Ausdruck gebracht.

3. Im Zuge der statistischen Prozesslenkung werden aus einer Fertigung laufend

Stichproben entnommen und die zu überwachende Größe X gemessen. Es ergaben sich zu zwei Zeitpunkten die folgenden Probenwerte:

Zeitpunkt X 1 4,46 4,50 4,59 4,35 4,652 4,91 4,32 4,39 4,59 4,88

a) Man bestimme ein 95%iges Konfidenzintervall für den Mittelwert zum Zeitpunkt 1. b) Wie müsste man die Fallzahl (Zeitpunkt 1) planen, um den Mittelwert von X mit

einer Genauigkeit von ±0,05 und einer Sicherheit von 99% schätzen zu können? c) Man bestimme für den Zeitpunkt 2 ein 95%iges Konfidenzintervall für die

Standardabweichung. Teilaufgabe 3a (Mittelwertschätzung): Präzisierung der Aufgabe:

Page 24: Angewandte Statistik I Repetitorium 2013 · W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13 3 − Das Ereignis B ist genau dann vom Ereignis A unabhängig (und ebenso A

W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13

24

Wir nehmen X zum Zeitpunkt 1 als eine normalverteilte Zufallsvariable mit dem Mittelwert µ und der Varianz σ2 an. Gesucht ist ein 95%-Konfidenzintervall für den Mittelwert µ. Lösungsansatz und numerische Lösung: Aus der Stichprobe wird der Mittelwert xquer als Schätzwert für µ bestimmt. Für das Konfidenzintervall wird zusätzlich die Stichprobenstandardabweichung s als Schätzwert für σ ermittelt. Damit ergibt sich der SE=s/√n (n ist der Stichprobenumfang). Die untere und obere Grenze UG bzw. OG des 95%-Konfidenzintervalls ist: UG = xquer – tn-1, 0.975 SE OG = xquer + tn-1, 0.975 SE Lösung mit R: > sample1 <- c(4.46, 4.5, 4.59, 4.35, 4.65) > xquer <- mean(sample1) > s <- sd(sample1) > SE <- s/sqrt(length(sample1)) > t_quantil <- qt(0.975, length(sample1)-1) > UG <- xquer - t_quantil*SE > OG <- xquer + t_quantil*SE > print(cbind(UG, OG)) UG OG [1,] 4.365465 4.654535

Ergebnis: Der gesuchte Mittelwert µ liegt mit einer Sicherheit von 95% im Intervall [UG, OG]. Teilaufgabe 3b (erforderlicher Mindeststichprobenumfang bei der Mittelwertschätzung): Präzisierung der Aufgabe: Wir nehmen X zum Zeitpunkt 1 als eine normalverteilte Zufallsvariable mit dem Mittelwert µ und der Varianz σ2 an. Gesucht ist der erforderliche Mindeststichprobenumfang, um µ mit einer Genauigkeit von ±0,05 und einer Sicherheit 1-α=99% schätzen zu können. Lösungsansatz und numerische Lösung: Zur Bestimmung des erforderlichen Mindeststichprobenumfangs nerf wird die für große Stichproben zulässige Formel

2

2/1

= −

d

sznerf

α

verwendet. In dieser Formel ist z1-α/2 das (1-α/2)-Quantil der Standardnormalverteilung, s der aus der Stichprobe bestimmte Schätzwert für σ und d=0,05 die Genauigkeit (d.h. die halbe Intervallbreite des Konfidenzintervalls). Lösung mit R: > sample1 <- c(4.46, 4.5, 4.59, 4.35, 4.65) > d <- 0.05 > sicherheit <- 0.99 > alpha <- 1-sicherheit > z_quantil <- qnorm(1-alpha/2) > s <- sd(sample1) > n_erf <- (z_quantil*s/d)^2 > n_erf [1] 35.96114

Ergebnis: Es ist ein Mindeststichprobenumfang von n=36 erforderlich, um für den Mittelwert ein 99%iges Konfidenzintervall der Länge 2d=0,1 zu erhalten. Die verwendete Formel ist wegen n=36 > 20 anwendbar, d.h. die Approximation des t-Quantils durch das entsprechende z-Quantil ist gerechtfertigt. Teilaufgabe 3c (Schätzung der Standardabweichung):

Page 25: Angewandte Statistik I Repetitorium 2013 · W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13 3 − Das Ereignis B ist genau dann vom Ereignis A unabhängig (und ebenso A

W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13

25

Präzisierung der Aufgabe: Wir nehmen X zum Zeitpunkt 2 als eine normalverteilte Zufallsvariable mit dem Mittelwert µ und der Varianz σ2 an. Gesucht ist ein 95%-Konfidenzintervall für die Standardabweichung σ. Lösungsansatz und numerische Lösung: Aus der Stichprobe (Umfang n) wird die Stichprobenstandardabweichung s als Schätzwert für σ ermittelt. Die untere und obere Grenze UG bzw. OG des 95%-Konfidenzintervalls ist:

22/,1

2

22/1,1

2 )1( ,

)1(

αα χχ −−−

−=−=nn

snOG

snUG

Lösung mit R: > sample2 <- c(4.91, 4.32, 4.39, 4.59, 4.88) > n <- length(sample2) > s <- sd(sample2) > alpha <- 0.05 > q1 <- qchisq(1-alpha/2, n-1) > q2 <- qchisq(alpha/2, n-1) > UG <- sqrt((n-1)*s^2/q1) > OG <- sqrt((n-1)*s^2/q2) > print(cbind(UG, OG)) UG OG [1,] 0.1628386 0.7810047

Ergebnis: Die gesuchte Standardabweichung σ liegt mit einer Sicherheit von 95% im Intervall [UG, OG].

4. In einer Studie über die Behandlung von akuten Herzinfarktpatienten wurde eine neue

Therapie angewendet. Es wurden 120 Patienten therapiert, von denen 16 innerhalb von 4 Wochen verstarben.

a) Man schätze die Wahrscheinlichkeit p, dass ein Patient innerhalb von 4 Wochen nach Herzinfarkt stirbt, und bestimme für p ein 95%-Konfidenzintervall.

b) Die Wahrscheinlichkeit für das Auftreten einer Erkrankung soll in einer Risikogruppe mit einer Sicherheit von 90% und einer vorgegebenen Genauigkeit von ± 0,05 bestimmt werden. Wie viele Probanden benötigt man für die Studie?

Teilaufgabe 4a (Schätzwert und Konfidenzintervall für p): Präzisierung der Aufgabe: Die Wahrscheinlichkeit p eines Ereignisses E wird über dessen relative Häufigkeit h=m/n geschätzt, mit der das Ereignis E bei wiederholter Ausführung des "Zufallsexperimentes" eintritt; dabei bedeuten n die Anzahl der Ausführungen des Zufallsexperimentes und m die Anzahl der Ausführungen mit dem Ausgang E. Die Anzahl der Wiederholungen, bei denen das Ereignis E eintritt, ist binomialverteilt mit den Parametern n und p. Das Ergebnis der Schätzung wird i. Allg. durch Angabe des Schätzwertes h (=relative Häufigkeit) und eines Konfidenzintervalls zu einer angenommenen Sicherheit (meist 95%) dargestellt. Das Konfidenzintervall für p kann wegen np(1-p) ≈ nhn(1-hn)=13.9 > 9 näherungsweise mit dem Agresti-Coull-Intervall oder exakt mit den aufwendigen Clopper-Pearson-Intervall gerechnet werden. Lösungsansatz und numerische Lösung: Das „Zufallsexperiment“ besteht im konkreten Beispiel darin, dass ein Patient nach der Behandlung die folgenden 4 Wochen nicht überlebt (Ereignis E) bzw. überlebt (Gegenereignis Ec). In einer Studie werden 120 Patienten therapiert, d.h. das „Experiment“ wird 120mal wiederholt (n=120). Unter den beobachteten Wiederholungen tritt das Ereignis E (Patient überlebt nicht) 16mal auf, d.h. m=16 und hn = 16/120. Benötigte Formeln: Schätzwert für p: hn = m/n

Page 26: Angewandte Statistik I Repetitorium 2013 · W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13 3 − Das Ereignis B ist genau dann vom Ereignis A unabhängig (und ebenso A

W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13

26

Approximatives (1-α)-Konfidenzintervall für p nach Agresti-Coull:

2/

)1( und

2/

2/

mit ,

22/1

2/122/1

22/1

αα

α

α

−−

+−

=++

=

+=−=

zn

mmzl

zn

zmm

lmolmu

WWAW

AWAAWA

Exaktes (1-α)-Konfidenzintervall für p: Lösung mit R: > # Eingabedaten > n <- 120; m <- 16; alpha <- 0.05 > options(digits = 4) > h <- m/n # Schätzwert für p > # > # Variante 1: Approximatives Konfidenzintervall (Agresti-Coull): > qz <- qnorm(1-alpha/2) > mW <- (m+qz^2/2)/(n+qz^2); lA <- qz*sqrt(mW*(1-mW)/(n+qz^2)) > uA <- mW-lA; oA <- mW+lA > print(cbind(h, alpha, uA, oA)) h alpha uA oA [1,] 0.1333 0.05 0.08275 0.2067 > # > # Variante 2: Exaktes Konfidenzintervall (Clopper-Pearson): > qu <- qf(alpha/2, 2*m, 2*(n-m+1)) # F-Quantil für untere Grenze > qo <- qf(1-alpha/2, 2*(m+1), 2*(n-m)) # F-Quantil für obere Grenze > uC <- m*qu/(n-m+1+m*qu); oC <- (m+1)*qo/(n-m+(m+1)*qo) > print(cbind(h, alpha, uC, oC)) h alpha uC oC [1,] 0.1333 0.05 0.07817 0.2075 > # > # Variante 3: Nutzung der R-Funktione binom.confint() im Paket binom: > library(binom) > binom.confint(m, n, methods=c("ac", "exact"), conf.level=1-alpha) method x n mean lower upper 1 agresti-coull 16 120 0.1333 0.08275 0.2067 2 exact 16 120 0.1333 0.07817 0.2075 Ergebnis: Die Schätzung der Wahrscheinlichkeit p ergibt mit der relativen Häufigkeit als Schätzfunktion den Wert h=0.1333; das entsprechende 95%-Konfidenzintervall ist [pu, po] = [0.07251, 0.1942] (approximativ) bzw. [pu, po] = [0.07817, 0.2075] (exakt). Teilaufgabe 4b (erforderlicher Mindeststichprobenumfang): Präzisierung der Aufgabe: Es sei X eine Zufallsvariable mit den Ausprägungen „Krankheit tritt ein“ und „Krankheit tritt nicht ein“. Im ersten Fall ordnen wir X den Wert 1, im zweiten Fall den Wert 0 zu. Für die Schätzung der Wahrscheinlichkeit p = P(X=1) wird eine Stichprobe benötigt. Deren Umfang n soll so bestimmt werden, dass das 99%ige Konfidenzintervall für p die Länge 2d = 0,1 besitzt. Lösungsansatz und Lösung: Zur Bestimmung des erforderlichen Mindeststichprobenumfangs n wird die (für n>20 und 10 ≤ np ≤ n-10) zulässige Formel

2

2/1

2

= −

d

zn α

verwendet. In dieser Formel ist z1-α/2 das (1-α/2)-Quantil der Standardnormalverteilung d=0,05 die Genauigkeit (d.h. die halbe Intervallbreite des Konfidenzintervalls).

2/1),(2),1(2

2/1),(2),1(2

2/),1(2,2

2/),1(2,2

)1(

)1( ,

1 α

α

α

α

−−+

−−+

+−

+−

++−+

=++−

=mnm

mnm

o

mnm

mnm

u Fmmn

Fmp

mFmn

mFp

Page 27: Angewandte Statistik I Repetitorium 2013 · W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13 3 − Das Ereignis B ist genau dann vom Ereignis A unabhängig (und ebenso A

W. Timischl: Angewandte_Statistik_I_Repetitorium 18.11.13

27

Lösung mit R: > d <- 0.05 > sicher <- 0.9 > alpha <- 1-sicher > n_mindest <- (qnorm(1-alpha/2)/2/d)^2 > n_mindest [1] 270.5543

Ergebnis: Es ist ein Mindeststichprobenumfang von n=271 erforderlich, um für die Wahrscheinlichkeit p ein (approximatives) 99%iges Konfidenzintervall der Länge 2d=0,1 zu erhalten.