1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an...

51
Wirtschaftsstatistik Prof. Dr. E. Spodarev / W. Karcher Tutorium SS 09 1. Tutorium am 05.05.09/06.05.09 und 07.05.09 (Wiederholung grundlegender Begriffe aus der Stochastik) Aufgabe 1 Es soll zu jedem Begriff ein Beispiel mit W¨ urfeln gefunden werden. Grundlegende Begriffe aus der Stochastik Wahrscheinlichkeitsraum Elementarereignis ω – ein einzelnes Versuchsergebnis Stichprobenraum Ω – Menge aller m¨ oglichen Versuchsergebnisse Ereignis A – Teilmenge aus dem Stichprobenraum σ-Algebra F – Familie von Teilmengen von Ω mit folgenden Eigenschaften: A ∈F⇒ A c ∈F A 1 ,A 2 ∈F⇒ A 1 A 2 ∈F A 1 ,A 2 ,... ∈F⇒ S i=1 A i ∈F Wahrscheinlichkeitsmaß – Abbildung : F→ [0, 1] mit folgenden Eigenschaften: (Ω) = 1 S i=1 A i = i=1 (A i ) ur paarweise disjunkte A i Wahrscheinlichkeitsraum – (Ω, F , ) Zufallsvariablen und ihre Verteilung Zufallsvariable – Seien (Ω, F , ) und (Ω 0 , F 0 , 0 ) zwei Wahrscheinlichkeitsr¨ aume. Dann ist X Ω 0 mit {ω : ω Ω,X (ω) B}∈F , B ∈F 0 , eine Zufallsvariable. X ist eine F -F 0 -meßbare Abbildung. Die Verteilung von X ist P X (B)= P {ω : ω Ω,X (ω) B} , B ∈F 0 . 1

Transcript of 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an...

Page 1: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

WirtschaftsstatistikProf. Dr. E. Spodarev / W. Karcher

TutoriumSS 09

1. Tutorium am 05.05.09/06.05.09 und 07.05.09

(Wiederholung grundlegender Begriffe aus der Stochastik)

Aufgabe 1

Es soll zu jedem Begriff ein Beispiel mit Wurfeln gefunden werden.

Grundlegende Begriffe aus der Stochastik

Wahrscheinlichkeitsraum

Elementarereignis ω – ein einzelnes Versuchsergebnis

Stichprobenraum Ω – Menge aller moglichen Versuchsergebnisse

Ereignis A – Teilmenge aus dem Stichprobenraum

σ-Algebra F – Familie von Teilmengen von Ω mit folgenden Eigenschaften:

• A ∈ F ⇒ Ac ∈ F• A1, A2 ∈ F ⇒ A1 ∪ A2 ∈ F

• A1, A2, . . . ∈ F ⇒∞⋃i=1

Ai ∈ F

Wahrscheinlichkeitsmaß – Abbildung P : F → [0, 1] mit folgenden Eigenschaften:

• P(Ω) = 1

• P(∞⋃i=1

Ai

)=∞∑i=1

P(Ai) fur paarweise disjunkte Ai

Wahrscheinlichkeitsraum – (Ω,F ,P)

Zufallsvariablen und ihre Verteilung

Zufallsvariable – Seien (Ω,F ,P) und (Ω′,F ′ ,P′) zwei Wahrscheinlichkeitsraume. Dann

ist X : Ω→ Ω′

mit ω : ω ∈ Ω, X(ω) ∈ B ∈ F , ∀B ∈ F ′ , eine Zufallsvariable.X ist eine F -F ′-meßbare Abbildung.Die Verteilung von X ist PX(B) = P ω : ω ∈ Ω, X(ω) ∈ B , ∀B ∈ F ′ .

1

Page 2: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

Verteilungsfunktion – Abbildung FX : Ω′ → [0, 1] und FX(x) = P (X ≤ x) mit

folgenden Eigenschaften (sei X : Ω→ R =: Ω′):

• Asymptotik im Unendlichen: FX(−∞) = limx→−∞

FX(x) = 0

und FX(∞) = limx→∞

FX(x) = 1.

• Monotonie: FX(x) ≤ FX(x+ h), ∀x ∈ R, h ≥ 0.

• Rechtsstetigkeit: limn→∞

FX(x+hn) = FX(x), ∀x ∈ R, hn ≥ 0 und limn→∞

hn = 0.

Bedingte Wahrscheinlichkeit

Bedingte Wahrscheinlichkeit – Seien A und B beliebige Ereignisse mit P[B] > 0,dann ist die bedingte Wahrscheinlichkeit von A unter der Bedingung B definiert

durch P[A|B] = P[A∩B]P[B]

.

Formel von der totalen Wahrscheinlichkeit: P (A) =n∑j=1

P (Bj)P (A|Bj).

Bayssche Formel: P (Bi|A) = P (Bi)P (A|Bi)n∑j=1

P (Bj)P (A|Bj).

Stochastische Unabhangigkeit

Unabhangige Ereignisse – Die Ereignisse A,B ∈ F heißen unabhangig,falls P (A ∩B) = P (A)P (B).

Unabhangige Zufallsvariablen – Die Zufallsvariablen X und Y heißen unabhangig,wenn fur ihre gemeinsame Verteilung FX,Y gilt:FX,Y (x, y) = FX(x)FY (y), ∀x, y ∈ R.

Transformation von Zufallsvariablen

Lineare Transformation – Sei Y = aX + b, dann gilt: fY (y) = 1|a|fX

(y−ba

)bzw.

FY (y) = FX(y−ba

).

Faltung – Sei Z = X + Y , dann gilt: fX+Y (z) =∞∫−∞

f(X,Y )(t, z − t)dt, ∀z ∈ R.

Falls X und Y unabhangig sind, gilt: fX+Y (z) =∞∫−∞

fX(t)fY (z − t)dt, ∀z ∈ R.

Momente von Zufallsvariablen

Erwartungswert E [X] – Der Erwartungswert einer diskreten (stetigen) Zufalssvariable

X : Ω→ R ist gegeben durch E [X] =∑

x∈A⊂RxP (X = x)

(=∞∫−∞

xfX(x)dx

).

Varianz V ar(X) – Die Varianz gibt die erwartete quadratische Abweichung vom Erwar-tungswert an. Es gilt: V ar(X) = E [(X −E [X])2].

Kovarianz Cov(X, Y ) – Die Kovarianz beschreibt den Zusammenhang zwischen denZufallsvariablen. Es gilt: Cov(X, Y ) = E [(X −E [X])(Y −E [Y ])].

2

Page 3: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

Korrelation ρ – Der Korrelationskoeffizient beschreibt den Grad des linearen stochasti-

schen Zusammenhangs der Zufallsvariablen. Es gilt: ρ = Cov(X,Y )√V ar(X)V ar(Y )

.

Grenzwertsatze

iid – iid steht fur”independent and identically distributed“ (unabhangig und identisch

verteilt).

Schwaches Gesetz der großen Zahlen – Seien Xi iid mit E [Xi] = µ und existieren-

der Varianz, dann gilt fur das arithmetische Mittel

(Yn = 1

n

n∑i=1

Xi

):

limn→∞

P (|Yn−µ| > ε) = 0. Das arithmetische Mittel konvergiert stochastisch gegen µ

(man spricht auch von Konvergenz in Verteilung).

Starkes Gesetz der großen Zahlen – Seien Xi iid mit E [Xi] = µ und existierender

Varianz, dann gilt fur das arithmetische Mittel

(Yn = 1

n

n∑i=1

Xi

):

P(

limn→∞

Yn = µ)

= 1. Das arithmetische Mittel konvergiert fast sicher gegen µ.

Zentraler Grenzwertsatz – Seien Xi iid mit E [Xi] = µ und existierender Varianz σ2,dann gilt:

limn→∞

P

n∑i=1

Xi−nµ

σ√n≤ x

= Φ(x), ∀x ∈ R. Dabei bezeichnet Φ(x) die Verteilungs-

funktion der Standardnormalverteilung.

Konfidenzintervalle

Stichprobenmittel – Das Stichprobenmittel ist wie folgt definiert: Xn = 1n

n∑i=1

Xi.

Stichprobenvarianz – Die Stichprobenvarianz beschreibt die quadratische Abweichung

von Xn. Es gilt: S2n = 1

n−1

n∑i=1

(Xi −Xn

)2.

Konfidenzintervalle – Sei θ ein Parameter (z.B. Mittelwert, Varianz) der gegebenenVerteilungsfunktion. Das Konfidenzintervall ist das Intervall (a, b) mit:Pθ (a ≤ θ ≤ b) ≥ γ. Dabei bezeichnet γ das vorgegebene Signifikanzniveau, a und bsind Stichprobenfunktionen mit a < b.

Asymptotisches Konfidenzintervall Beispiel – Es soll das Konfidenzintervall fur denErwartungswert eines unbekannt verteilten Merkmals mit unbekannter Varianz ge-funden werden. Dabei verwenden wir den zentralen Grenzwertsatz und das starkeGesetz der großen Zahlen. Es gilt:

limn→∞

P(−z1−α

2≤√nXn−µ

Sn≤ z1−α

2

)= 1− α.

Das Konfidenzintervall ist dann(Xn −

z1−α2√nSn, Xn +

z1−α2√nSn

).

3

Page 4: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

Wahrscheinlichkeitsraum

Elementarereignis Die Elementarereignisse ωi beim Wurfeln sind 1, 2, 3, 4, 5und 6.

Stichprobenraum Ω = 1, 2, 3, 4, 5, 6.

Ereignis z.B. Augenzahl großer als 3: A = 4, 5, 6.

σ-Algebra Die von A erzeugte σ-Algebra: σ(A) = ∅,Ω, 1, 2, 3, 4, 5, 6.

Wahrscheinlichkeitsmaß P[ωi] = 16, ∀i = 1, . . . , 6.

Zufallsvariablen und ihre Verteilung

Zufallsvariable z.B. X(ωi) =

1 fur ωi > 3

0 fur ωi ≤ 3mit Ω

′= 0, 1, F ′ = ∅,Ω′ , 0, 1

und P[X = x] = 12.

Verteilungsfunktion FX(x) = P[X ≤ x] =

0 fur x < 012

fur 0 ≤ x < 1

1 fur x ≥ 1

Bedingte Wahrscheinlichkeit

Formel von der totalen Wahrscheinlichkeit Betrachte zusatzlich einen Wurfel mitder Augenzahl 1 auf 3 Seiten und der Augenzahl 2 auf den ubrigen 3 Seiten. Essoll nun zufallig einer der Wurfel ausgewahlt werden und damit ein Mal gewurfeltwerden. A beschreibt die gewurfelte Augenzahl (1 bis 6), B beschreibt den Wurfel(1 entspricht dem alten Wurfel, 2 dem neuen Wurfel). Wie groß ist die Wahrschein-lichkeit, eine 1 zu Wurfeln?P[A = 1] = P[B = 1]·P[A = 1|B = 1]+P[B = 2]·P[A = 1|B = 2] = 1

2· 1

6+ 1

2· 1

2= 1

3.

Bayssche Formel Wie groß ist die Wahrscheinlichkeit, dass mit dem neuen Wurfelgewurfelt wurde, wenn die Augenzahl 1 war?

P[B = 2|A = 1] = P[B=2]·P[A=1|B=2]P[A=1]

=12· 12

13

= 34.

Stochastische UnabhangigkeitDie Augenzahl beim zweiten Wurf des gleichen Wurfels ist stochastisch unabhangig vonder Augenzahl beim ersten Wurf.

Transformation von Zufallsvariablen

Lineare Transformation Sei X die oben definierte ZV. Betrachte folgendes Spiel: DerSpieler muss jede Runde einen Euro einzahlen und bekommt 2 Euro, wenn er eine4 oder hoher wurfelt. Die Zufallsvariable Y = 2X − 1, die den Gewinn des Spiels ineiner Runde beschreibt hat folgende Verteilungsfunktion: FY (y) = FX

(y+1

2

).

4

Page 5: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

Faltung Betrachte die Summe der Augen bei gleichzeitigem Wurf obiger Wurfel. Die Au-genzahl liegt zwischen 2 und 8. Sei Z die Zufallsvariable Z = X+Y , dann hat sie die

(kumulierte) Verteilungsfunktion FZ(z) =

0 fur z < 2112

fur 2 ≤ z < 3112

+ k−26

fur k ≤ z < k + 1, k = 3, . . . , 7

1 fur z ≥ 8

Momente von Zufallsvariablen

Erwartungswert Die erwartete Augenzahl beim einmaligen Wurfeln eines normalenWurfels ist: E [Augenzahl] = 1 · 1

6+ 2 · 1

6+ 3 · 1

6+ 4 · 1

6+ 5 · 1

6+ 6 · 1

6= 3.5.

Varianz Die Varianz der Augenzahl ist: V ar(Augenzahl) = E [Augenzahl2]−E [Augenzahl]2 =12 · 1

6+ 22 · 1

6+ 32 · 1

6+ 42 · 1

6+ 52 · 1

6+ 62 · 1

6− 3.52 = 2.916667

Konfidenzintervalle

Stichprobenmittel Betrachte folgende Stichprobe vom Umfang n = 10: 5, 2, 6, 1, 2, 4, 4, 3, 6, 3.Dann ist das Stichprobenmittel X10 = 3.6.

Stichprobenvarianz Die Stichprobenvarianz errechnet sich dann wie folgt:S2

10 = 19

((5− 3.6)2 + (2− 3.6)2 + (6− 3.6)2 + (1− 3.6)2 + (2− 3.6)2 + (4− 3.6)2 + (4− 3.6)2

+(3− 3.6)2 + (6− 3.6)2 + (3− 3.6)2) = 2.9333. Die Standardabweichung ist somitS10 = 1.7127.

Asymptotisches Konfidenzintervall Das Konfidenzintervall soll zum Signifikanzni-

veau α = 5% bestimmt werden: Es gilt:(

3.6− 1.96√10

1.7127, 3.6 + 1.96√10

1.7127)

= (2.5385, 4.6615).

5

Page 6: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

2. Tutorium am 12.05.09/13.05.09 und 14.05.09

(Grundlegende Techniken mit R Commander)

Installation - siehe Installationshinweise auf der Vorlesungshomepage

Starten von R Commander - R starten und library(Rcmdr) in R-Console eingeben

Menu-Ubersicht

Datei Offnen und Speichern von Skriptdateien (fur Programme), Ausgabe- und Daten-dateien

Bearbeiten Bearbeiten (Kopieren, Ausschneiden etc.) im Skript- und Ausgabefenster

Datenmanagement Einlesen und Bearbeiten von Datenmatrizen

Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden undAnalysen fur eine (zuvor ausgewahlte, aktive) Datenmatrix

Grafiken Erstellen einer Auswahl an statistischen Grafiken fur eine (zuvor ausgewahlte,aktive) Datenmatrix

Modelle Erstellen von Analysen, Grafiken etc. fur ein (zuvor ausgewahltes, aktives)statistische Modell

Verteilungen Erzeugen von stochastischen Werten, Grafiken und Stichproben von be-kannten Wahrscheinlichkeitsverteilungen

Extras Laden von R-Paketen und Auswahl an System- und Anzeigeoptionen

Hilfe Manualseiten zu allen R-Commander-Funktionen und Einfuhrungsskript (nur aufEnglisch)Beachte: Es gibt auch Hilfe-Buttons in allen Dialogfenstern des Menus.

Aufgabe 1

Lese die Daten miete03.asc (siehe Homepage und 1. Ubungsblatt) ein.

→Menu: Datenmanagement→ Importiere Daten . aus Textdatei oder Zwischenablagen...

→ Dialogfenster: Gewunschten Namen fur den Datensatz eingeben. Auf richtige Einstel-lungen bei Datei enthalt Variablennamen, Datenfeldtrennzeichen und Dezimaltrennzeichen

achten!→ Dateiverzeichnis: Datei am Speicherort suchen und doppelklicken→ Button Datenmatrix betrachten (im Hauptfenster unterhalb der Menuleiste)

Hinweise zu den Feldern unterhalb der Menuleiste:

- Durch Drucken des Buttons Datenmatrix bearbeiten offnet sich ein Fenster Dateneditor,wo die Daten sich von Hand bearbeiten lassen.- Durch Drucken auf das Feld rechts neben Datenmatrix: lasst sich unter allen bishereingelesenen Datenmatrizen die gewunschte aktive auswahlen

6

Page 7: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

Aufgabe 2

Gebe die summary-Statistiken aller Spalten aus.

→ Menu: Statistik → Deskriptive Statistik . Aktive Datenmatrix

Frage:Was bedeuten die ausgegebenen Werte anschaulich, wie sind sie definiert?- (vgl. Vorlesung)

Aufgabe 3

Erstelle einen Boxplot der Nettomieten (nm).

→ Menu: Grafiken → Boxplot ...

→ Dialogfenster: Variable nm auswahlen und OK drucken

Frage:Wie kann der angezeigte Boxplot interpretiert werden?- Mittlere Linie der Box entspricht dem Median, außere Linien der Box entsprechen denQuartilen.- Achtung: Die Bedeutung der

”Antennen“ und

”Ausreißer“ ist nicht einheitlich definiert

(siehe z.B. Manualseite)!

Aufgabe 4

Stelle die Abhangigkeit der Nettomieten (nm) vom Baujahr (bj) und der Wohnflache(wfl) in einem dreidimensionalen Histogramm dar und zeichne eine Regressionsebene alsNaherung ein. Sortiere zuvor die Wohnungen ohne Zentralheizung (zh0=1) aus.

→Menu: Datenmanagement→ Aktive Datenmatrix . Teilmenge der aktiven Datenmatrix...

→ Dialogfenster: Alle Variablen verwenden angekreuzt lassen, bei Anweisung fur

die Teilmenge”zh0==0“ eingeben und Namen fur die neue Matrix eingeben.

→ Menu: Grafiken → 3D-Grafik . 3D-Streudiagramm...

→Dialogfenster: Bei Abhangige Variable”nm“ auswahlen, bei Unabhangige Variablen

”bj“ und

”wfl“ auswahlen und unter Surfaces to fit die Auswahl Lineare Kleinstquadrate

ankreuzen.→ Die Grafik kann durch Gedruckthalten der Maus und Bewegen gedreht werden.

Frage:Wie kann das Histogramm anschaulich interpretiert werden?- Nettomiete steigt sowohl mit steigender Wohnflache als auch mit steigendem Baujahr.

Hinweise zur Mehrfachauswahl und zur Eingabe von Bedingungen in R:

- Mussen aus einer Liste mehrere Elemente mit der Maus ausgewahlt werden, so mussab dem 2. Klicken Ctrl (Steuerung) gedruckt werden, da sonst die bisherige Auswahlwieder aufgehoben wird.- Mussen in ein Feld Bedingungen eingegeben werden, so gelten fur die Operatoren fol-gende Zeichen:

Operator gleich kleiner kleiner oder gleich großer großer oder gleich und oderZeichen == < <= > >= & |

7

Page 8: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

Aufgabe 5

a) Erzeuge 10000 Zufallsstichproben, die Bin(3000, 0.001)-verteilt sind, plotte das Ergeb-nis in ein Histogramm (mit Dichteskala) und speichere die Grafik.b) Zeichne die Zahldichte einer Poi(3)-Verteilung. Vergleiche mit dem Ergebnis aus a).

a)→Menu: Verteilungen→ Diskrete Verteilungen . Binomial-Verteilung . Zufallsstichprobeaus einer Binomial-Verteilung...

→ Dialogfenster: Gib bei Binomial trials”3000“, Probability of success

”0.001“,

bei Anzahl der Stichproben”10000“, bei Anzahl der Beobachtungen

”1“ ein.

→ Menu: Grafiken → Histogramm ...

→ Dialogfenster: Kreuze bei Skalierung der Achse”Dichten“ an.

→ Menu: Grafiken → Speichere Abbildung in Datei . als Bitmap

→ Dialogfenster: Gewunschte Einstellungen vornehmen und OK drucken→ Dateiverzeichnis: Gewunschten Ordner auswahlen und speichern

b)→ Menu: Verteilungen → Diskrete Verteilungen . Poisson-Verteilung . Grafik

der Poisson-Verteilung

→ Dialogfenster: Gib bei Arithmetisches Mittel”3“ ein und wahle Plot probability

mass function (=(Zahl-)Dichte).

Bemerkung:Fur

”sehr großes“ n und

”sehr kleines“ p nahert sich die Bin(n, p)-Verteilung der Poi(λ)-

Verteilung an mit n ∗ p = λ.

*Aufgabe 6

a) Lese die Daten BMW data (Aktienkurs der BMW-Aktie vom 20.11.2006 - 10.11.2008mit Tagesrenditen) ein, prufe auf Vollstandigkeit der Daten und entferne ggf. Zeilen mitfehlenden Werten.b) Berechne das Stichprobenmittel der Tagesrenditen, teste, ob die Hypothese, dass dieerwartete Tagesrendite gleich Null ist, zum Signifikanzniveau α = 5% haltbar ist undbestimme das entsprechende Konfidenzintervall.

a)→ Menu: Datenmanagement → Importiere Daten . from Excel, Access or dBate

data set...

→ Dialogfenster: Gewunschten Namen fur den Datensatz eingeben→ Dateiverzeichnis: Datei am Speicherort suchen und doppelklicken→ Tabellenauswahl: Gewunschtes Tabellenblatt auswahlen→ Button Datenmatrix betrachten (im Hauptfenster unterhalb der Menuleiste)→ Menu: Datenmanagement → Aktive Datenmatrix . Falle mit fehlenden Werten

entfernen ...

→ Dialogfenster: Alle Variablen verwenden angekreuzt lassen und OK drucken

b)→ Menu: Statistik → Deskriptive Statistik . Zusammenfassungen numerischer

Variablen ...

→ Dialogfenster: Bei Variablen”daily returns“ auswahlen und darauf achten, dass

Arithmetisches Mittel angekreuzt ist.

8

Page 9: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

→Menu: Statistik→ Mittelwerte vergleichen . t-Test fur eine Stichprobe...

→ Dialogfenster: Bei Variable”daily returns“ auswahlen, bei Alternativhypothese er-

ste Moglichkeit ankreuzen, bei Nullhypothese: mu =”0“ und bei Niveau des Konfidenzintervalls:

”.95“ eingeben.

Interpretation der Ausgabe:

- t = −0.9335 ist der Wert der Testgroße√nXn−µ0

Sn.

- Der Schwellenwert, mit dem verglichen werden soll, ist das (1 − α2)-Quantil der t-

Verteilung mit n− 1 Freiheitsgraden. Es gilt tn−1,1−α2

= 1.965.- Da | − 0.9335| < 1.965 wird die Nullypothese nicht abgelehnt (was mit mind. 95%-igerWahrscheinlichkeit korrekt ist).- Achtung: Das heißt nicht, dass die Nullhypothese stimmen muss, also dass der Erwar-tungswert der den Daten zu Grunde liegenden Verteilung Null sein muss! Vielmehr heißtes nur, dass die Daten nicht ausreichen, um die Hypothese definitiv abzulehnen.- Der p-Wert 0.351 gibt das kleinste Signifikanzniveau wieder, bei dem die Nullhypotheseabgelehnt werden wurde.- Dass die Hypothese nicht abgelehnt wird, erkennt man auch daran, dass Null im 95%-Konfidenzintervall (−0.003065347, 0.001090654) liegt.

Bei Fragen zu R und R-Commander?

- Hilfemenu- Internetforen (z.B. http://www.nabble.com/R-f13819.html)- Und naturlich jederzeit die Tutoren

9

Page 10: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

3. Tutorium am 19.05.09/20.05.09 und 21.05.09

(Beschreibende Statistik)

Zufallsstichprobe

Zentrale Annahme: Gegeben ein Datenvektor (x1, ..., xn) (idR xi ∈ R, i = 1, ..., n) auseiner Beobachtung von Merkmalen. Wir nehmen an, dass diese Daten Realisierung einesstochastischen Modells sind und zwar sollen die Daten x1, ..., xn Realisierung einer Folgevon unabhangigen und identisch verteilten (iid) Zufallsvariablen X1, ..., Xn : Ω→ R, dieuber einem gemeinsamen Wahrscheinlichkeitsraum (Ω,F ,P) definiert sind, sein, d.h.

Xi(ω) = xi, i = 1, ..., n (ω ∈ Ω).

Ziel: Aus den beobachteten Daten x1, ..., xn Schlußfolgerungen uber die unbekannte Ver-teilung der Stichprobenvariablen X1, ..., Xn ziehen, wobei wegen der identischen Vertei-

lung gilt: Xid= X, i = 1, ..., n.

Definitionen:

(i) (x1, ..., xn) heißt (konkrete) Stichprobe

(ii) (X1, ..., Xn) heißt Zufallsstichprobe

(iii) Es gilt: (x1, ..., xn) ∈ Rn, deswegen nennen wir Rn Stichprobenraum.Alternativ: B := (X1, ..., Xn)(Ω) (Bild) Stichprobenraum

(iv) n = dim((x1, ..., xn)) heißt Stichprobenumfang

Verteilungen und ihre Darstellungen

Empirische Haufigkeiten - Schatzung der Zahldichte (diskreter Fall) bzw. Dichte (ab-solutstetiger Fall) aus den Beobachtungen:

• diskret: X → a1, ..., ak ⊂ R. Gesucht ist die Zahldichte von X, d.h. pi =P(X = ai) (i = 1, ..., k). Diese wird geschatzt durch:

pi = P(X = ai) ≈nin, (n groß)

wobei ni die absolute Haufigkeit (siehe unten) ist, mit der die Stichprobe dieKlasse i getroffen hat.

• absolutstetig: X → A ⊂ R (A ist uberabzahlbar). Gesucht ist die Dichte f vonX. In diesem Fall muss zur Schatzung der Wertebereich R in k + 1 Klassen(Teilintervalle) unterteilt werden: c0 := −∞ < c1 < ... < ck <∞ =: ck+1. Dannwird die Dichte geschatzt durch (i = 2, ..., k):

f(x) ≈

∫ cici−1

f(x)dx

ci − ci−1

=P(X ∈ (ci−1, ci])

ci − ci−1

≈ ni/n

ci − ci−1

x ∈ (ci−1, ci]

10

Page 11: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

Definitionen:

(i) ni := # xj, j = 1, ..., n : xj = ai (diskreter Fall) bzw.ni := # xj, j = 1, ..., n : xj ∈ (ci−1, ci] (absolutstetiger Fall) heißt absolute Haufigkeitdes Werts ai bzw. der Klasse (ci−1, ci] (i = 1, ..., k + 1).

(ii) fi := nin

heißt relative Haufigkeit des Werts ai bzw. der Klasse (ci−1, ci] (i =1, ..., k + 1).

Visualisierungen - Grafische Darstellung der relativen Haufigkeiten bzw. der Dichtedurch Diagramme:

• Histogramme

– Stabdiagramm

– Saulendiagramm

– Balkendiagramm

• Kreisdiagramme

Empirische Verteilungsfunktion - Schatzung der kumulierten Verteilungsfunktion ausden Beobachtungen

Definition: Die Abbildung Fn : Rn+1 → [0, 1] mit

Fn(x) :=# xi : xi ≤ x, i = 1, ..., n

n

heißt empirische Verteilungsfunktion der Stichprobe (x1, ..., xn). Es gilt:

Fn(x) =

1 fur x ≥ x(n)

in

fur x(i) ≤ x < x(i+1) (i = 1, ..., n)

0 fur x < x(1).

Beschreibung von Verteilungen

Lagemaße

• Mittelwerte

– arithmetisch: xn := 1n

∑ni=1 xi, x1, ..., xn ∈ R

– geometrisch: xgn := n√x1 · ... · xn, x1, ..., xn > 0

– harmonisch: xhn :=(

1n

∑ni=1 x

−1i

)−1, x1, ..., xn 6= 0

• Ordnungsstatistiken und Quantile

– Ordnungsstatistiken: x(i) := min xj : # k : xk ≤ xj ≥ i , i = 1, ..., n

– Quantile: xα =

x([nα]+1) nα /∈ N1/2

(x([nα]) + x([nα]+1)

)nα ∈ N

– Spezialfall Median: xmed := x0.5

• Modus: xmod := xm mit m := argmax fi, i = 1, ..., n

11

Page 12: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

Streuungsmaße

• Spannweite: r := x(n) − x(1)

• Empirische Varianz: s2n := 1

n

∑ni=1(xi − xn)2

• Stichprobenvarianz: s2n := 1

n−1

∑ni=1(xi − xn)2 = n

n−1s2n

• Empirische Standardabweichungen: sn :=√s2n, sn :=

√s2n

• Empirischer Variationskoeffizient: γn := snxn, xn > 0

Konzentrationsmaße

• Lorenzkurve L: Zweidimensionale Kurve bestehend aus den Punkten

(0, 0), (u1, v1), ..., (un, vn), (1, 1), wobei uj := j/n und vj :=∑ji=1 x(i)∑ni=1 x(i)

• Gini-Koeffizient: G =2∑ni=1 ix(i)

n∑ni=1 xi

− n+1n

(anschaulich: Quotient zweier Flachen im

Diagramm der Lorenzkurve)

• Konzentrationsrate: CRg :=∑n

i=n−g+1 pi, wobei pi :=x(i)∑nj=1 xj

• Herfindahl-Index: H :=∑n

i=1 p2i

12

Page 13: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

Aufgaben

Eine Umfrage unter 52 Arbeitnehmern nach der Anzahl von Krankheitstagen in einemJahr ergab folgendes Bild:

Krankheitstage 12 13 14 15 16 17 18 19 20 21 22 23 24 25Anzahl 1 4 4 6 3 4 5 8 6 3 4 0 2 2

Aufgabe 1

(a) Bestimme die relativen Haufigkeiten der Krankheitstage und visualisiere sie in einemStabdiagramm. Sind die relativen Haufigkeiten als Schatzungen fur die Zahldichtegeeignet?

(b) Bestimme folgende Lageparameter: Arithmetisches, geometrisches und harmonischesMittel; die 1., 10., 25., 50. Ordnungsstatistik; das 25% und 75% Quantil, sowie denMedian.

(c) Bestimme alle Streuungsmaße (Konzentrationsrate fur g = 10).

(d) Bestimme alle Konzentrationsmaße.

In einer Befragung im Jahr 1999 wurde bei 22100 Privathaushalten das Monatseinkom-men (in DM) ermittelt. Die folgende Tabelle enthalt das Ergebnis:

Einkommen < 1200 1200 - 1800 1800 - 3000 3000 - 5000 5000 - 10000 > 10000Anzahl 4500 5200 5000 2700 3400 1300

Aufgabe 2

(a) Bestimme die relativen Haufigkeiten der Einkommen und darauf aufbauend eine (gro-be) Approximation der Dichte der Einkommen. Unterstelle dabei, dass Einkommennichtnegativ sind und dass eine Einkommensobergrenze von 100000 DM gilt.

(b) Visualisiere das Ergebnis in jeweils einem Histogramm mit

(a) der absoluten Haufigkeit auf der y-Achse

(b) der relativen Haufigkeit auf der y-Achse

(c) der Dichte auf der y-Achse (Maßstab passend wahlen!)

13

Page 14: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

Losung

1) a) Bezeichne i die Klasse mit i Krankheitstagen, d.h. Zeile 2 der Tabelle enthalt dieabsolute Haufigkeit ni der Klasse i.

n =25∑i=12

ni = 52;

f12 = 152

; f13 = 452

= 113

; f14 = 452

= 113

; f15 = 652

= 326

; f16 = 352

; f17 =452

= 113

; f18 = 552

; f19 = 852

= 213

; f20 = 652

= 326

; f21 = 352

; f22 = 452

=113

; f23 = 052

= 0; f24 = 252

= 126

; f25 = 252

= 126

;

Das ergibt folgendes Schaubild:

12 14 16 18 20 22 24

0.02

0.04

0.06

0.08

0.10

0.12

0.14

Krankheitstage

Häu

figke

it

b) x52 = 152· 937 = 18.01923; xg52 = 17.71630; xh52 = 17.41243;

x(1) = 12; x(10) = min15, 16, ..., 25 = 15; x(25) = min18, 19, ..., 25 = 18; x(50) =min24, 25 = 24;x0.25 = 1/2(x([ 52

4]) + x([ 52

4]+1)) = 1/2(x(13) + x(14)) = 1/2(15 + 15) = 15;

x0.75 = 1/2(x([ 52·34

]) + x([ 52·34

]+1)) = 1/2(x(39) + x(40)) = 1/2(20 + 20) = 20;

xmed = x(0.5) = 1/2(x([ 522

]) + x([ 522

]+1)) = 1/2(x(26) + x(27)) = 1/2(18 + 18) = 18

c) r = x(52)−x(1) = 25−12 = 13; s252 = 10.82655; s2

52 = 5251·s2

52 = 11.03884; s52 =√s2

52 =√

10.82655 = 3.29037; s52 =√s2

52 =√

11.03884 = 3.32248; γ52 =3.3224818.01923

= 0.18439

14

Page 15: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

d) G = 2·2735952·937

− 5352

= 0.10379; CR10 =∑52

i=43 pi = 0.24333; H =∑52

i=1 p2i =

0.01987

2) (a) Die absoluten Haufigkeiten ni (i = 1, ..., 52) sind bereits in der zweiten Zeile derTabelle gegeben.

(b) Wir nummerieren die 6 Bereiche von links nach rechts durch und erhalten dieKlassen i = 1, ..., 6. Deren relative Haufigkeiten sind gegeben durch:f1 = 4500

22100= 0.20362; f2 = 5200

22100= 0.23529; f3 = 5000

22100= 0.22624; f4 =

270022100

= 0.12217; f5 = 340022100

= 0.15385; f6 = 130022100

= 0.05882

(c) Analog zu b) nummerieren wir die Klassen von 1-6 durch und erhalten eine (grobe)Approximation der Dichtefunktion durch:

f(x) =

0 fur x ≤ 0f1

1200−0= 1.6969 · 10−4 fur 0 < x ≤ 1200

f21800−1200

= 3.9216 · 10−4 fur 1200 < x ≤ 1800f3

3000−1800= 1.8854 · 10−4 fur 1800 < x ≤ 3000

f45000−3000

= 0.61086 · 10−4 fur 3000 < x ≤ 5000f5

10000−5000= 0.30769 · 10−4 fur 5000 < x ≤ 10000

f6100000−10000

= 0.0065369 · 10−4 fur 10000 < x ≤ 100000

0 fur x > 100000

3) Wir erhalten folgende Histogramme:

0 2000 4000 6000 8000 10000 12000

010

0020

0030

0040

0050

00

Histogramm 1 (rechts gekürzt)

Abs

olut

e H

äufig

keit

15

Page 16: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

0 2000 4000 6000 8000 10000 12000

0.00

0.05

0.10

0.15

0.20

Histogramm 2 (rechts gekürzt)

Rel

ativ

e H

äufig

keit

0 2000 4000 6000 8000 10000 12000

01

23

4

x10^

−4

16

Page 17: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

4. Tutorium am 26.05.09/27.05.09 und 28.05.09

(Anwendungsbeispiele)

Aufgabe 1 - Guthaben von Versicherungsvertragen

Betrachte die Grafik Boxplot-Gesamtguthaben.

(a) Wie lassen sich die stark verschiedenen Guthaben der Versicherungsvertrage erklaren?

(b) Welches Produkt ist empfehlenswert, wenn ein moglichst hohes garantiertes Gutha-ben gewunscht ist?

(c) Welches Produkt ist empfehlenswert, wenn eine moglichst hohe erwartete Renditeerwirtschaftet werden soll?

(d) Wie lautet die Antwort zu (c), wenn zusatzlich zumindest das eingezahlte Kapitalgarantiert werden soll?

(e) Gibt es Produkte, die nicht empfehlenswert sind?

Aufgabe 2 - Marktkonzentration

Betrachte die folgenden zwei Markte:

• Markt A: Zwei Unternehmen mit einem Marktanteil von jeweils 50%.

• Markt B: Vier Unternehmen mit einem Marktanteil von jeweils 25%.

Berechne den Gini-Koeffizienten und den Herfindahl-Index fur beide Markte und inter-pretiere das Ergebnis.

Aufgabe 3 - Risiko

Betrachte die folgenden zwei Investments:

• Investment A: Bei einer Investition von 100 GE sind folgende Returns (mit gleicherWahrscheinlichkeit) moglich: 90 GE, 100 GE, 110 GE und 120 GE.

• Investment B: Bei einer Investition von 100 GE sind folgende Returns (mit gleicherWahrscheinlichkeit) moglich: 80 GE, 105 GE, 120 GE und 130 GE.

(a) Berechne den erwarteten Return, die Varianz und die Standardabweichung.

(b) Wie konnen die Investments miteinander verglichen werden?

(c) Berechne den empirischen Variationskoeffizienten.

17

Page 18: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

Boxplot-Gesamtguthaben

0

50.000

100.000

150.000

200.000

250.000

300.000

350.000

400.000

450.000

Fondsgebundenohne Garantie

Höchststandsfonds Mehrtopfhybrid DynamischesHybrid Produkt

(monatlich)

DynamischesHybrid Produkt mitjährlichem Fonds

Statisches HybridProdukt

KlassischesProdukt

5% - 95% 25% - 75% Summe BruttobeiträgeMittelwert Median Minimum

18

Page 19: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

Losung

Aufgabe 1 - Guthaben von Versicherungsvertragen

(a) Die Versicherungsprodukte unterscheiden sich in ihrer Portfoliostruktur. Je breitergestreut das Guthaben, desto großer der Anteil von Aktien am Portfolio. Ein hoherAktienanteil fuhrt zu einer hohen erwarteten Rendite (durch Risikopramien) aberauch zu einem hoheren Risiko.

(b) Das klassische Produkt hat das hochste minimale Guthaben.

(c) Das fondsgebundene Produkt ohne Garantien hat die hochste erwartete Rendite.

(d) Das dynamische Hybridprodukt (monatlich) hat die hochste erwartete Rendite beiminimalem Guthaben in Hohe des eingezahlten Kapitals.

(e) Der Hochststandsfonds ist dem Mehrtopfhybrid in jedem Fall unterlegen genauso wiedas jahrliche dem monatlichen dynamischen Hybridprodukt.

Aufgabe 2 - MarktkonzentrationDer Gini-Koeffizient ist fur beide Markte 0 (es herrscht in beiden Markten

”perfect equa-

lity“).

Der Herfindahl-Index fur Markt A ist HA =(

12

)2+(

12

)2= 1

2und HB =

(14

)2+(

14

)2+(

14

)2+(

14

)2= 1

4fur Markt B.

In der Tat ist das Marktgleichgewicht (Preise usw.) in einem Duopol anders als in einemOligopol (→ Reaktionskurven). Beide Konzentrationsmaße fassen eine Stichprobe zu ei-ner einzigen Kennzahl zusammen, was mit einem Informationsverlust verbunden ist undin manchen Situationen zu unzureichenden Aussagen fuhren kann.

Aufgabe 3 - Risiko

(a) • Investment A: erw. Return: 105; Varianz: 125; Standardabweichung: 11.18.

• Investment B: erw. Return: 108.75; Varianz: 354.69; Standardabweichung: 18.83.

(b) Investment B bietet einen hoheren Return als Investment A, aber auch ein hoheresRisiko. Ein Vergleich beider Investments kann aber nur subjektiv erfolgen (risiko-neutraler oder risikoaverser Investor?). Der empirische Variationskoeffizient kann alsEntscheidungshilfe dienen.

(c) • Investment A: 0.11.

• Investment B: 0.17.

19

Page 20: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

5. Tutorium am 09.06.09/10.06.09 und 12.06.09

(Quantilplots und Wiederholung ausgewahlter Aufgaben)

Quantilplots

• Mit Quantilplots soll graphisch anschaulich untersucht werden, mit welcher uns be-kannten Verteilung der untersuchte Datensatz (x1, ..., xn) gut ubereinstimmt.

• Wir nehmen also eine Verteilung, von der wir vermuten, dass sie gut zu dem Daten-satz passen konnte. Sei F die Verteilungsfunktion dieser Verteilung.

• Wir berechnen dann die Quantile F−1( kn) der Verteilung an den Stellen k/n, die Ord-

nungsstatistiken unseres Datensatzes x(k) und zeichnen die Punkte (F−1( kn), x(k)), k =

1, ..., n in ein Schaubild.

• Praktischer ist es oft, F−1( kn+1

) anstatt F−1( kn) (k = 1, ..., n) zu verwenden, da fur

viele Verteilungen F−1(nn) = F−1(1) =∞ gilt.

• Falls die Punkte nahezu auf einer Geraden y = ax+ b liegen, kann man sagen, dassdie untersuchten Daten naherungsweise der Verteilungsfunktion F (x−a

b) folgen.

• Dabei setzt man voraus, dass der Stichprobenumfang n ausreichend groß ist, damitder untersuchte Datensatz die tatsachliche Verteilung gut genug reprasentiert (vgl.Satz von Gliwenko-Cantelli).

Aufgabe 1

Gegeben sind die Monatsschlusskurse der Daimler-Aktie im Mai der letzten 10 Jahre:

Datum 31.05.99 31.05.00 31.05.01 31.05.02 30.05.03 31.05.04Kurs 83,16 58,30 53,96 52,54 26,75 36,66

Datum 31.05.05 31.05.06 31.05.07 30.05.08 29.05.09Kurs 32,61 41,00 68,15 48,92 25,85

Berechne die jahrlichen Renditen der Daimler-Aktie im Mai.Erstelle einen Quantilplot, der die Renditen mit der Normalverteilung vergleicht. WahleStichprobenmittel und -varianz der Renditen als Parameter fur die Normalverteilung.

Wiederholung ausgewahlter Aufgaben

Aufgabe 2 (vgl. Skript Statistik I, Ubungsaufgabe 2.1.1)

Zeige, dass die empirische Verteilungsfunktion Fn(x) := #xi:xi≤x,i=1,...,nn

die Eigenschaf-ten einer Verteilungsfunktion erfullt:

• Asymptotisches Verhalten im Unendlichen: Fn(−∞) = limx→−∞

Fn(x) = 0

und Fn(∞) = limx→∞

Fn(x) = 1.

• Monotonie: Fn(x) ≤ Fn(x+ h), ∀x ∈ R, h ≥ 0.

20

Page 21: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

• Rechtsstetigkeit: limm→∞

Fn(x+ hm) = Fn(x), ∀x ∈ R, hm ≥ 0 und limm→∞

hm = 0.

Aufgabe 3 (vgl. UB 2, Aufgabe 1)

In der Datei claims.dat sind 10.000 Schadensfalle eines Sturmversicherungsbestandesgegeben.1.) Erstelle Quantilplots mit(a) der Gamma-Verteilung mit den Parametern a = 1 und 1

λ= 4429,

(b) der Lognormal-Verteilung mit den Parametern µ = 8 und σ = 1mit Hilfe von R. Beurteile das Ergebnis.

Im folgenden nehmen wir nun an, dass das Versicherungsunternehmen die Schaden mitden Verteilungen aus (a) bzw. (b) modelliert.Beantworte fur beide Falle:2.) Das Versicherungsunternehmen hat fur einen moglichen Schaden 25.000 Euro reser-viert. Wie hoch ist die Wahrscheinlichkeit, dass diese Reserve nicht ausreicht?3.) Wie hoch musste die Reserve sein, dass sie mit 99, 9%-iger Wahrscheinlichkeit aus-reicht? Warum ist es folglich außerst wichtig, dass mit der richtigen Verteilung modelliertwird?

Aufgabe 4 (vgl. UB 2, Aufgabe 3)

In einem Land gebe es acht Supermarktketten. Diese hatten 2007 folgende Umsatze (inMio. Euro):

REVE ALKI Nord ALKI Sud LIGL MINUS NORMAAL NEDDO SKI32 41 55 77 8 13 18 6

1. Bestimme und zeichne die Lorenzkurve. Berechne den Gini-Koeffizient.

2. Durch schwere Managementfehler ging der Umsatz vom Marktfuhrer LIGL im dar-auffolgenden Jahr um vier Siebtel zuruck. Außerdem schlossen sich ALKI Nord undALKI Sud zusammen und SKI ist vom Markt verschwunden. Bestimme jetzt Lo-renzkurve und Gini-Koeffizient.

21

Page 22: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

Losungen

Aufgabe 1

siehe auch Excel-Datei Daimler

Durch die bekannten Formeln erhalten wir:Stichprobenmittel xn = −0, 046; Stichprobenvarianz s2

n = 0, 141Die Quantile der N(µ, σ2) = N(xn, s

2n)-Verteilung konnen wir durch Statistik-Programme

oder Quantiltabellen erhalten:

k Quantile F−1( kn+1 ) x(k)

1 -0,548 -0,4912 -0,388 -0,4723 -0,274 -0,2994 -0,178 -0,2825 -0,089 -0,1106 -0,004 -0,0747 0,085 -0,0268 0,181 0,2579 0,295 0,37010 0,455 0,662

Die Punkte liegen nicht auf einer Geraden. Folglich lassen sich die Renditen nicht sehrgut mit der Normalverteilung modellieren.

Aufgabe 2

• Fur x→ −∞ gilt: #xi : xi ≤ x, i = 1, ..., n → 0⇒ Fn(x)→ 0

Fur x→∞ gilt: #xi : xi ≤ x, i = 1, ..., n → n⇒ Fn(x)→ 1

• Es gilt stets #xi : xi ≤ x, i = 1, ..., n ≤ #xi : xi ≤ x + h, i = 1, ..., n, da h ≥ 0.

⇒ Fn(x) ≤ Fn(x+ h), ∀x ∈ R, h ≥ 0

• Fur hm ≥ 0 und hm → 0,m → ∞ gilt stets #xi : xi ≤ x + hm, i = 1, ..., n →#xi : xi ≤ x, i = 1, ..., n, da es kein xi geben kann, fur das xi > x, aber xi ≤x+ hm ∀m ∈ N gilt. ⇒ lim

m→∞Fn(x+ hm) = Fn(x), ∀x ∈ R, hm ≥ 0 und lim

m→∞hm = 0

Aufgabe 3

1.)Einlesen der Daten:→Menu: Datenmanagement→ Importiere Daten . aus Textdatei oder Zwischenablagen......Achtung: Datei enthalt keine Variablennamen!

Erstellen der Grafiken:→ Menu: Grafiken → Quantile-comparison plot...

→ Dialogfenster: Bei Verteilung Anderes ankreuzen und dann folgendes angeben:

22

Page 23: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

Abbildung 1: Quantilplots

Angeben: Parameter:Gamma-Verteilung gamma shape=1, scale=4429

Lognormal-Verteilung lnorm meanlog=8, sdlog=1

Da der Quantilplot mit der gegebenen Lognormal-Verteilung nahezu eine Gerade y = xzeigt, wird die Verteilung der Daten durch diese Lognormal-Verteilung gut modelliert.Der Quantilplot mit der Gamma-Verteilung weicht stark von einer Geraden ab und damiteignet sich die Gamma-Verteilung nicht zur Modellierung.

2.)

• → Menu: Verteilungen → Stetige Verteilungen . ...

• Entsprechende Verteilung und dann Wahrscheinlichkeiten der ...-Verteilung

... wahlen.

• Wert (25000) und entsprechende Parameter eingeben.

3.)

• → Menu: Verteilungen → Stetige Verteilungen . ...

• Entsprechende Verteilung und dann Quantile der ...-Verteilung ... wahlen.

• Wahrscheinlichkeit (0.999) und entsprechende Parameter eingeben.

Ergebnisse von 2.) 3.)1− F (25000) 99.9%-Quantil

Gamma(1,4429) 0.0035365 ≈ 0, 35% 30594Lognormal(8,1) 0.0167254 ≈ 1, 67% 65528

Wahlt man die Gamma- anstatt der Lognormal-Verteilung wird weniger als die Halfte re-serviert um 99, 9% der moglichen Schaden abzudecken. Reserviert man jedoch nur 30.000Euro, wahrend die Schaden jedoch Lognormal-verteilt sind, werden

”nur“ ca. 98, 9% der

moglichen Schaden abgedeckt. Das Versicherungsunternehmen hatte also immerhin 11-mal haufiger zu wenig reserviert. Dieses Risiko ist fur eine Versicherung zu hoch.

23

Page 24: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

Aufgabe 4

Sei xi der Umsatz der i-ten Supermarktkette. Sei vi =∑ij=1 x(j)∑ni=1 xi

der relative Marktanteil

der i kleinsten Marktteilnehmer.

i xi x(i)

∑ij=1 x(j) vi ui = i

nix(i)

1 32 6 6 0,024 0,125 6

2 41 8 14 0,056 0,25 16

3 55 13 27 0,108 0,375 39

4 77 18 45 0,18 0,5 72

5 8 32 77 0,308 0,625 160

6 13 41 118 0,472 0,75 246

7 18 55 173 0,692 0,875 385

8 6 77 250 1 1 616∑250 1540

Abbildung 2: Markt 2007

Name i xi x(i)

∑ij=1 x(j) vi ui = i

nix(i)

REVE 1 32 8 8 0,04 0,167 8

ALKI 2 96 13 21 0,105 0,333 26

LIGL 3 33 18 39 0,195 0,5 54

MINUS 4 8 32 71 0,355 0,667 128

NORMAAL 5 13 33 104 0,52 0,833 165

NEDDO 6 18 96 200 1 1 576∑200 957

Abbildung 3: Markt 2008

Abbildung 4: Lorenzkurven

Die Gini-Koeffizienten ergeben sich durch die Formel aus der Vorlesung: G =2∑ni=1 ix(i)

n∑ni=1 xi

−n+1n

. Also gilt fur die beiden Aufgabenteile:

1. G = 2∗15408∗250

− 98

= 0, 415

2. G = 2∗9576∗200

− 76

= 0, 4283

Die Konzentration hat also zugenommen.

24

Page 25: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

6. Tutorium am 16.06.09/17.06.09 und 18.06.09

(Kontingenztafeln)

Kontingenztafeln

• In diesem Zusammenhang betrachten wir immer zwei (konkrete) Stichproben mitgleichem Stichprobenumfang n: (x1, ..., xn) als Realisierungen von X und (y1, ..., yn)als Realisierungen von Y .

• X und Y sind dabei immer endliche diskrete Zufallsvariablen. Bei Vorliegen vonabsolutstetigen Merkmalen besteht lediglich die Moglichkeit durch Klassenbildung(endlich viele) die Zufallsvariablen zu diskretisieren. Die Realisierungen von X seiendabei in der (endlichen) Menge c1, ..., ck1 und die Realisierungen von Y in der(endlichen) Menge d1, ..., dk2.

• Kontingenztafeln liefern einen tabellarischen Uberblick uber die absoluten und rela-tiven Haufigkeiten aller moglichen Auspragungskombinationen.

Definitionen:

(i) hij := h(ci, dj) = # (xk, yk); k = 1, ..., n : xk = ci ∧ yk = dj die absolute Haufigkeitder Auspragungskombination (ci, dj) in den Stichprobenpaaren (xk, yk) der Doppel-stichprobe ((x1, y1), ..., (xn, yn)).

(ii) fij := f(ci, dj) =hijn

die relative Haufigkeit der Auspragungskombination (ci, dj) inden Stichprobenpaaren (xk, yk) der Doppelstichprobe ((x1, y1), ..., (xn, yn)).

(iii) hi. :=∑k2

j=1 hij bzw. fi. :=∑k2

j=1 fij, i = 1, ..., k1

h.j :=∑k1

i=1 hij bzw. f.j :=∑k1

i=1 fij, j = 1, ..., k2

heißen (relative) Randhaufigkeiten

(iv) h.. :=∑k1

i=1 hi. =∑k2

j=1 h.j (=∑k1

i=1

∑k2j=1 hij = n)

Kontingenztafeln haben folgende Gestalt:

d1 · · · dk2c1 h11 · · · h1k2 h1.

c2 h21 · · · h2k2 h2....

......

...ck1 hk1 · · · hk1k2 hk1.

h.1 · · · h.k2 h.. = n

bzw.

d1 · · · dk2c1 f11 · · · f1k2 f1.

c2 f21 · · · f2k2 f2....

......

...ck1 fk1 · · · fk1k2 fk1.

f.1 · · · f.k2 f.. = 1

25

Page 26: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

Aufgabe 1100 weibliche Patienten sind mit einer konventionellen Therapie behandelt worden. Dabeiwurden 85 Patientinnen geheilt und 15 sind gestorben. Von 81 Patientinnen, die miteiner neuen Therapie behandelt wurden, konnten 77 geheilt entlassen werden und 4 sindgestorben.

(a) Erstelle aus den Angaben eine 2x2 Kontingenztafel.

(b) Wie groß sind die erwarteten Haufigkeiten, wenn diese proportional zu den Randhaufigkeitensein sollen?

(c) Berechne den χ2-Koeffizienten.

Aufgabe 2Bei 300 Personen wurden Geschlecht und Haarfarbe notiert. Beim Geschlecht wurdenmannlich und weiblich unterschieden, bei der Haarfarbe schwarz, braun, blond und rot.

Folgende Haufigkeiten wurden gefunden:weiblich/schwarz: 55 weiblich/blond: 64mannlich/schwarz: 32 mannlich/blond: 16weiblich/braun: 65 weiblich/rot: 16mannlich/braun: 43 mannlich/rot: 9

(a) Erstelle aus den Angaben eine geeignete Kontingenztafel mit den absoluten Randhaufigkeiten.

(b) Erstelle eine Kontingenztafel mit den relativen Haufigkeiten.

(c) Bestimme die bedingten relativen Haufigkeiten der Haarfarbe, gegeben das Geschlecht.

(d) Stelle mit Hilfe der bedingten relativen Haufigkeiten eine Vermutung an, ob undinwieweit zwischen Haarfarbe und Geschlecht ein Zusammenhang besteht.

(e) Teste die Vermutung, dass ein Zusammenhang besteht mit Hilfe des korrigiertenKontingenzkoeffizienten

Aufgabe 3 - Linearer ZusammenhangBei 14 zufallig ausgewahlten Mannern wurden jeweils Schuhgroße x (in cm) und Korpergroßey (in cm) gemessen. Das ergab folgendes Bild:

x 42.0 45.0 42.5 45.5 43.0 39.0 42.0 41.0 41.5 42.5 42.0 40.0 42.0 45.0y 175 188 178 189 182 169 182 171 175 179 173 174 176 184

(a) Erstelle ein Streudiagramm (Scatterplot) der Daten.

(b) Besteht optisch ein Zusammenhang zwischen den beiden Merkmalen? Falls ja, versu-che den Zusammenhang mit Hilfe einer Geraden im Streudiagramm darzustellen.

(c) Berechne die empirische Kovarianz sowie den Pearson-Korrelationskoeffizienten.

26

Page 27: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

Losung

1.) (a) Wir erhalten folgende Kontingenztafel:

geheilt gestorbenkonventionelle Therapie 85 15 100

neue Therapie 77 4 81162 19 181

(b) Feld(konventionell/geheilt) = 162181· 100 = 89.50

Feld(konventionell/gestorben) = 19181· 100 = 10.50

Feld(neu/geheilt) = 162181· 81 = 72.50

Feld(neu/gestorben) = 19181· 81 = 8.50

Das ergibt die folgende Tabelle:

geheilt gestorbenkonventionelle Therapie 89.5 10.5 100

neue Therapie 72.5 8.5 81162 19 181

(c) T = n(h11h22−h12h21)2

(h11+h12)(h11+h21)(h12+h22)(h21+h22)= 181·(85·4−15·77)2

(85+15)(85+77)(15+4)(77+4)= 4.82

2.) a) Wir erhalten folgende Kontingenztafel:

weiblich mannlichschwarz 55 32 87braun 65 43 108blond 64 16 80

rot 16 9 25200 100 300

b) Wir erhalten folgende Kontingenztafel:

weiblich mannlichschwarz 18.33% 10.66% 29%braun 21.66% 14.33% 36%blond 21.33% 5.33% 26.66%

rot 5.33% 3% 8.33%66.66% 33.33% 1

c) Sei i die i. Haarfarbe (schwarz, braun, blond, rot) und j das j. Geschlecht (weiblich,mannlich).

ges.: f(i|j) =hijh.j, i = 1, ..., 4; j = 1, ..., 2

f(1|1) = h11

h.1= 55

200= 27.5%; f(2|1) = h21

h.1= 65

200= 32.5%; f(3|1) = h31

h.1=

64200

= 32%; f(4|1) = h41

h.1= 16

200= 8%;

f(1|2) = h12

h.2= 32

100= 32%; f(2|2) = h22

h.2= 43

100= 43%; f(3|2) = h32

h.2= 16

100=

16%; f(4|2) = h42

h.2= 9

100= 9%;

d) Aufgrund der beobachteten bedingten relativen Haufigkeiten vermuten wir, dassein Zusammenhang zwischen Haarfarbe und Geschlecht besteht. Wir vermuten,dass bei Frauen relativ haufiger die Haarfarbe blond vorkommt und relativ weniger

27

Page 28: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

die Farben schwarz und braun als bei Mannern. Die Haarfarbe rot ist bei beidenGeschlechtern in etwa gleich haufig vertreten.

e) Wir berechnen zunachst den χ2-Koeffizienten:

T =∑k1

i=1

∑k2j=1

(hij−

hi.h.jn

)2

hi.h.jn

=(55− 87·200

300 )2

87·200300

+(32− 87·100

300 )2

87·100300

+(65− 108·200

300 )2

108·200300

+(43− 108·100

300 )2

108·100300

+

(64− 80·200300 )

2

80·200300

+(16− 80·100

300 )2

80·100300

+(16− 25·200

300 )2

25·200300

+(9− 25·100

300 )2

25·100300

= 0.155+0.310+0.681+1.361+

2.133 + 4.267 + 0.027 + 0.053 = 8.987Der korrigierte Kontingenzkoeffizient ergibt dann:

T ∗ =√

Tn+T

/√

kmin−1kmin

=√

8.987300+8.987

√2−1

2= 0.241

3.) (a) Wir erhalten folgendes Streudiagramm:

39 40 41 42 43 44 45

170

175

180

185

Schuhgröße

Kör

perg

röß

e

(b) Aufgrund der Lage der Punkte vermuten wir einen (linearen) Zusammenhangzwischen den Merkmalen.

(c) xn = 114·(42+45+42.5+45.5+43+39+42+41+41.5+42.5+42+40+42+45) =

114· 593 = 42.36;

yn = 114· (175 + 188 + 178 + 189 + 182 + 169 + 182 + 171 + 175 + 179 + 173 + 174 +

176 + 184) = 114· 2495 = 178.21;∑n

i=1 xiyi = (42 ·175+45 ·188+42.5 ·178+45.5 ·189+43 ·182+39 ·169+42 ·182+41 ·171+41.5 ·175+42.5 ·179+42 ·173+40 ·174+42 ·176+45 ·184) = 105814.5;∑n

i=1 x2i = 25162;∑n

i=1 y2i = 445127;

Damit erhalten wir:s2xy = 1

n−1(∑n

i=1 xiyi − n · x · y) = 113· (105814.5− 14 · 42.36 · 178.21) = 9.91;

ρxy =(n−1)s2xy√

(∑ni=1 x

2i−nx2

n)(∑ni=1 y

2i−ny2n)

= 128.84√(25162−14·42.362)(445127−14·178.212)

= 128.84143.41

=

0.90

28

Page 29: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

7. Tutorium am 23.06.09/24.06.09 und 25.06.09

(Zusammenhangsmaße)

Stochastik

• Zusammenhangsmaße beschreiben die Abhangigkeit von Zufallsvariablen (hier: dieMerkmale X und Y)

• Der Zusammenhang von zwei Zufallsvariablen wird durch die Kovarianz und dieKorrelation (normierte Kovarianz) beschrieben. Es gilt:

• Cov(X, Y ) = E [(X −E [X])(Y −E [Y ])]

• Cor(X, Y ) = ρ(X, Y ) = Cov(X,Y )√V ar(X)

√V ar(Y )

• V ar(X) = E [(X −E [X])2] = E [X2]− (E [X])2 (analog fur Y)

Statistik

• Fur die Zusammenhangsmaße stehen die folgenden Schatzer zur Verfugung.

• Schatzer fur die Kovarianz (empirische Kovarianz):

s2xy = 1

n−1

n∑i=1

(xi − xn) (yi − yn) = 1n−1

(n∑i=1

xiyi − nxnyn)

• Schatzer fur die Varianz:

s2xx = 1

n−1

n∑i=1

(xi − xn)2 = 1n−1

(n∑i=1

x2i − nx2

n

)(analog fur syy)

• Schatzer fur die Korrelation:

– Bravis-Pearson-Korrelationskoeffizient:

ρxy =s2xy

sxxsyy=

n∑i=1

xiyi−nxnyn√(n∑i=1

x2i−nx2

n

)(n∑i=1

y2i−ny2n)

– Spearman-Korrelationskoeffizient:

ρsp =

n∑i=1

(rg(xi)−rgx)(rg(yi)−rgy)√n∑i=1

(rg(xi)−rgx)2n∑i=1

(rg(yi)−rgy)2

mit rg(xi) = rg(x(j)) = j, falls xi 6= xj fur i 6= j und fur alle i,sowie rgx = rgy = n+1

2

29

Page 30: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

Aufgabe 1

Betrachte die Schaubilder und versuche den Korrelationskoeffizienten abzuschatzen.

Aufgabe 2

Berechne den Rang folgender Stichprobe (x1, . . . , x15) mit folgenden Werten:

x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 x14 x15

5 7 8 1 9 2 6 8 7 5 7 3 4 1 8

Aufgabe 3

Ein Versicherer mochte den Zusammenhang zwischen Sach- und Personenschaden bei derKfz-Versicherung anhand folgender Stichprobe untersuchen:

Sachschaden 2000 9800 550 1500 3300 200 5500 4800 3000 500Personenschaden 550 30000 0 1500 0 0 10000 7000 500 0

Sachschaden 2600 500 1200 3900 600Personenschaden 0 0 1000 0 0

(a) Berechne die mittlere Schadensgroße, Varianz und Standardabweichung fur Sach-sowie Personenschaden.

(b) Erstelle ein Streudiagramm.

(c) Berechne die empirische Kovarianz sowie den Bravis-Pearson-Korrelationskoeffizienten.Verwende dazu folgende Zwischenergebnisse (mit Sachschaden = X und Personen-

schaden = Y): x15 = 2663.333, y15 = 3370,15∑i=1

x2i = 200082500,

15∑i=1

y2i = 1052802500

und15∑i=1

xiyi = 388650000.

(d) Berechne den Spearman-Korrelationskoeffizienten.

30

Page 31: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

Losungen

Aufgabe 1

−4 −3 −2 −1 0 1 2 3

−3

−2

−1

01

23

Korrelationskoeffizient = −0.00279x

y

−3 −2 −1 0 1 2 3

−4

−2

02

4

Korrelationskoeffizient = 0.72082x

y

−3 −2 −1 0 1 2

−2

−1

01

23

Korrelationskoeffizient = −0.99878x

y

−3 −2 −1 0 1 2 3

−4

−2

02

4

Korrelationskoeffizient = −0.65184x

y

Aufgabe 2

Berechne den Rang folgender Stichprobe (x1, . . . , x15) mit folgenden Werten:

xi 5 7 8 1 9 2 6 8 7 5 7 3 4 1 8rg(xi) 6.5 10 13 1.5 15 3 8 13 10 6.5 10 4 5 1.5 13

Dabei sind die Werte fur rg(xi) fur die Stichprobenwerte 1, 5, 7, 8 jeweils das arithmeti-sche Mittel der in Frage kommenden Rangwerte.

31

Page 32: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

Aufgabe 3

(a) Es ergeben sich folgende Werte:

Mittelwert Varianz StandardabweichungSachschaden 2663.333 6691595 2586.812Personenschaden 3370 63032071 7939.274

(b) Wir erhalten folgendes Streudiagramm:

0 2000 4000 6000 8000 10000

050

0010

000

1500

020

000

2500

030

000

Sachschäden

Per

sone

nsch

äden

(c) Fur die Kovarianz gilt:

s2xy = 1

n−1

(n∑i=1

xiyi − nxnyn)

= 115−1

(388650000− 15 · 2663.333 · 3370) = 18144179

Fur den Bravis-Pearson-Korrelationskoeffizienten gilt:

ρxy =s2xy

sxxsyy=

n∑i=1

xiyi−nxnyn√(n∑i=1

x2i−nx2

n

)(n∑i=1

y2i−ny2n) = 14·18144179√

(200082500−15·2663.3332)(1052802500−15·33702)=

0.8834698

32

Page 33: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

(d) Der Spearman-Korrelationskoeffizient kann wie folgt berechnet werden:

ρsp =

n∑i=1

(rg(xi)−rgx)(rg(yi)−rgy)√n∑i=1

(rg(xi)−rgx)2n∑i=1

(rg(yi)−rgy)2

Es gilt: rgx = rgy = n+12

= 8 und

Sachschaden 2000 9800 550 1500 3300 200 5500 4800 3000 500Rang 8 15 4 7 11 1 14 13 10 2.5Personenschaden 550 30000 0 1500 0 0 10000 7000 500 0Rang 10 15 4.5 12 4.5 4.5 14 13 9 4.5

Sachschaden 2600 500 1200 3900 600Rang 9 2.5 6 12 5Personenschaden 0 0 1000 0 0Rang 4.5 4.5 11 4.5 4.5

Durch einsetzen erhalt man: ρsp = 11.53571√19.96429·17

= 0.6261713

33

Page 34: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

8. Tutorium am 30.06.09/01.07.09 und 02.07.09

(Einfache lineare Regression)

Einfache lineare Regression

Gegeben zwei Datensatze

(x1, x2, . . . , xn) Ausgangsvariable und (y1, y2, . . . , yn) Zielvariable.

Vermutung : Es besteht ein linearer Zusammenhang zwischen x und y:

yi = α + βxi + εi

wobei εi unbekannte Storgroßen mit Eεi = 0, V ar(εi) = σ2 ∀i = 1, ..., n und ε1, ..., εnunkorreliert.

Aufgaben zur einfachen linearen Regression:

(i) Zeichne (xi, yi) in ein Diagramm ein (”Streuungsdiagramm“).

(ii) Berechne die MKQ-Schatzer α, β fur α und β:

Bekannt ist : der Vektor (α, β), mit

β =s2xy

s2xx

, α = yn − βxn

minimiert den mittleren quadratischen Fehler

e(α, β) =1

n

n∑i=1

(yi − α− βxi)2,

wobei

xn =1

n

n∑i=1

xi, yn =1

n

n∑i=1

yi (Stichprobenmittel)

und

s2xx =

1

n− 1

n∑i=1

(xi − xn)2 (Stichprobenvarianz von x)

s2xy =

1

n− 1

n∑i=1

(xi − xn)(yi − yn) (Stichprobenkovarianz von (x, y))

s2yy =

1

n− 1

n∑i=1

(yi − yn)2 (Stichprobenvarianz von y).

(iii) Zeichne die Gerade (”Ausgleichsgerade“)

y = α + βx

ins Diagramm ein.

34

Page 35: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

(iv) Prognostiziere die Zielgroße y0 fur einen bestimmten Ausgangswert x0 durch

y0 = α + βx0.

(v) Berechne die Quadratsummenzerlegung und das Bestimmtheitsmaß R2:Bekannt ist :Gesamtstreuung (SQT) = erklarte Streuung (SQE) + Residualstreuung (SQR)

n∑i=1

(yi − yn)2 =n∑i=1

(yi − yn)2 +n∑i=1

(yi − yi)2

mit yi = α + βxi ∀i = 1, ..., nBestimmtheitsmaß R2 = SQE

SQT∈ [0, 1]

Faustregel: Gilt R2 > 4n+2

, besteht ein linearer Zusammenhang.

5 Im folgenden wird angenommen, dass εi i.i.d. Zufallsvariablen ∼ N(0, σ2) ∀i =1, ..., n.

(vi) Teste Hypothesen fur α bzw. β: H0 :”α = α0“; bzw. H0 :

”β = β0“;

Es gilt :

α− αS√

(∑n

i=1 x2i ) /(n(n− 1)s2

xx)∼ tn−2

β − βS/√

(n− 1)s2xx

∼ tn−2,

wobei

S2 =1

n− 2

n∑i=1

(yi − yi)2.

und tn−2 die t-Verteilung mit n− 2 Freiheitsgraden.

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

Dichte der t−Verteilung

Dic

hte

der

t−V

erte

ilung

−q q

WS: 1 −− γγ

2WS:

1 −− γγ

2

WS: γγ

q = t1−−((1−−γγ)) 2

Aus der Graphik erkennen wir : Mit Wahrscheinlichkeit γ ist

−tn−2,1− 1−γ2≤ α− αS√

(∑n

i=1 x2i ) /(n(n− 1)s2

xx)≤ tn−2,1− 1−γ

2(1)

35

Page 36: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

und ebenso

−tn−2,1− 1−γ2≤ β − βS/√

(n− 1)s2xx

≤ tn−2,1− 1−γ2

(2)

wobei tn−2,1− 1−γ2

das (1− 1−γ2

)-Quantil der t-Verteilung mit n− 2 Freiheitsgraden.

Hieraus ergeben sich die t-Tests :

• Hypothese H0 :”α = α0“ wird zum Niveau 1− γ abgelehnt, falls

|α− α0|S√

(∑n

i=1 x2i ) /(n(n− 1)s2

xx)> tn−2,1− 1−γ

2;

• Hypothese H0 :”β = β0“ wird zum Niveau 1− γ abgelehnt, falls

|β − β0|S/√

(n− 1)s2xx

> tn−2,1− 1−γ2.

Bestimme Konfidenzintervalle fur α und β.Aus (1) bzw. (2) lasst sich herleiten:Mit Wahrscheinlichkeit γ gilt:

α− tn−2,1− 1−γ2S

√ ∑ni=1 x

2i

n(n− 1)s2xx

< α < α + tn−2,1− 1−γ2S

√ ∑ni=1 x

2i

n(n− 1)s2xx

β − tn−2,1− 1−γ2

S√(n− 1)s2

xx

< β < β + tn−2,1− 1−γ2

S√(n− 1)s2

xx

.

36

Page 37: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

Aufgabe:

Eine Speditionsfirma will anhand von 10 zufallig ausgewahlten LKW-Lieferungen unter-suchen, ob ein bzw. welcher Zusammenhang zwischen der Lange des Transportweges (inkm) und der Lieferzeit (in Tagen) von der Abholbereitstellung bis zum Eintreffen derLieferung beim Empfanger besteht. Es wurden die folgenden Daten erhoben:

Nummer der Lieferung 1 2 3 4 5 6 7 8 9 10Weglange (in km) 825 215 1070 550 480 920 1350 325 670 1215

Lieferzeit (in Tagen) 3.5 1.0 4.0 2.0 1.0 3.0 4.5 1.5 3.0 5.0

(a) Zeichne ein Streuungsdiagramm fur die Weglange x in km (Ausgangsvariable) unddie Lieferzeit y in Tagen (Zielvariable).

(b) Berechne fur das Modell

yi = α + βxi + εi, εi i.i.d. N (0, σ2)

die MKQ-Schatzer (α, β).

(c) Zeichne die Ausgleichsgerade ins Diagramm von (a) ein.

(d) Stelle eine Prognose fur die Lieferzeit bei einer Weglange von 1500 km auf.

(e) Berechne das Bestimmtheitsmaß R2 und die Residualstreuung (SQR).

(f) Teste, ob uberhaupt ein signifikanter Zusammenhang zwischen der Lange des Trans-portweges und der Lieferzeit besteht, d.h. teste die Hypothese

H0 :”β = 0“

zum Niveau 1− γ = 0.05. Hinweis : t8,0.975 = 2.306.

(g) Bestimme 95%-Konfidenzintervalle fur α und β.

37

Page 38: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

Losung:

(a) (siehe Grafik)

200 400 600 800 1000 1200

12

34

5

Lieferzeit (in Tagen)

Weg

läng

e (in

km

)

Abbildung 5: Streuungsdiagramm mit Regressionsgerade

(b) x10 = 762, y10 = 2.85, s2xx = 144206.7, s2

xy = 517

⇒ β = 0.003585132 und α = 0.1181291

(c) Ausgleichsgerade (siehe Grafik): y = α + βx = 0.1181291 + 0.003585132 · x

(d) Prognostizierte Lieferzeit bei Weglange 1500 km:

y0 = α + βx0 = 0.1181291 + 0.003585132 · 1500 = 5.4958 ≈ 5.5

(e)Nr. 1 2 3 4 5 6 7 8 9 10yi 3.5 1.0 4.0 2.0 1.0 3.0 4.5 1.5 3.0 5.0yi 3.076 0.889 3.954 2.090 1.839 3.416 4.958 1.283 2.520 4.474

38

Page 39: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

SQT = (n− 1)s2yy = 9 · 2.0583 = 18.525, SQE = 16.68162128

⇒ R2 = 16.6816212818.525

= 0.900492377 und SQR = 18.525− 16.68162128 = 1.843378716

Es gilt: R2 = 0.900492377 > 0.3 = 410+2

⇒ Nach der Faustregel besteht ein linearer Zusammenhang.

(f) x10 = 762,√

9· s2xx = 1139.24, S2 = SQR

10−2= 0.482

Somit:|β|

S/√

9· s2xx

=0.0036

0.48/1139.24=

0.0036

0.0004= 9.00.

Andererseits gilt t8,0.975 = 2.306 und somit wird die Hypothese H0 :”β = 0“ zum

Niveau 5% abgelehnt, d.h. es besteht ein signifikanter Zusammenhang zwischen derLange des Transportweges und der Lieferzeit.

(g) •

t8,0.975S

√∑10i=1 x

2i

10· 9· s2xx

= 2.306· 0.48·√

7104300

90· 144206.7= 0.8189

Somit gilt mit Wahrscheinlichkeit 95%

−0.7008 = 0.1181− 0.8189 < α < 0.1181 + 0.8189 = 0.9370.

95%-Konfidenzintervall fur α: (-0.7008 , 0.9370)

•t8,0.975

S√(n− 1)s2

xx

= 2.306· 0.48√9· 144206.7

= 0.0009716

Somit gilt mit Wahrscheinlichkeit 95%

0.0026135 = 0.0035851− 0.0009716 < β < 0.0035851 + 0.0009716 = 0.0045567.

95%-Konfidenzintervall fur β: (0.0026135 , 0.0045567)

39

Page 40: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

9. Tutorium am 07.07.09/08.07.09 und 09.07.09

(Einfache lineare Regression)

Hypothesentests

• Hypothese H0 :”α = α0“ wird zum Niveau 1− γ abgelehnt, falls

|α− α0|S√

(∑n

i=1 x2i ) /(n(n− 1)s2

xx)> tn−2,1− 1−γ

2;

• Hypothese H0 :”β = β0“ wird zum Niveau 1− γ abgelehnt, falls

|β − β0|S/√

(n− 1)s2xx

> tn−2,1− 1−γ2.

KonfidenzintervalleEin Konfidenzintervall fur α bzw. β zum Konfidenzniveau γ ist gegeben durch:

α− tn−2,1− 1−γ2S

√ ∑ni=1 x

2i

n(n− 1)s2xx

< α < α + tn−2,1− 1−γ2S

√ ∑ni=1 x

2i

n(n− 1)s2xx

β − tn−2,1− 1−γ2

S√(n− 1)s2

xx

< β < β + tn−2,1− 1−γ2

S√(n− 1)s2

xx

.

Aufgabe:

Ein Autohandler will untersuchen, ob ein Zusammenhang besteht zwischen der Zahlder wochentlich verkauften Autos und der Anzahl der (durchschnittlich) diensthabendenAutoverkaufer in der Verkaufshalle. Dazu protokolliert er an ausgewahlten Wochen dieAnzahl der verkauften Autos und die diensthabenden Mitarbeiter mit folgendem Ergeb-nis:

Anzahl verkaufter Autos (y) 20 18 10 6 11Anzahl der Verkaufer (x) 6 6 4 2 3

(a) Erstelle ein Streudiagramm fur die Daten.

(b) Unterstelle die Gultigkeit eines linearen Zusammenhangs und berechne die Schatzerfur die Modellparameter α (y-Abschnitt) und β (Steigung).

(c) Zeichne die Regressionsgerade in das Streudiagramm ein.

(d) Schatze auf Basis des erhaltenen linearen Modells mit wievielen Autoverkaufen derHandler rechnen kann, wenn er im Schnitt 5 Verkaufer an jedem Tag einsetzt.

(e) Berechne die angepassten Verkaufszahlen fur jede beobachtete Anzahl an eingesetztenVerkaufsmitarbeitern. Berechne anschließend die zugehorigen (realisierten) Residuen.

40

Page 41: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

(f) Schatze die Varianz der Residuen

(g) Teste die Hypothese, dass kein Zusammenhang zwischen der Zahl verkaufter Autosund der eingesetzten Mitarbeiterzahl besteht auf einem 5% Konfidenzniveau.

(h) Berechne ein Konfidenzintervall zum Niveau 10% fur den Parameter α.

(i) Wiederhole die Losung dieser Aufgabe unter Verwendung des ComputerprogrammsR.

41

Page 42: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

Losung

(a) (siehe Grafik)

2 3 4 5 6

68

1012

1416

1820

Anzahl eingesetzter Verkäufer

Anz

ahl v

erka

ufte

r A

utos

(b) x5 = 4.2, y5 = 13, s2xx = 3.2, s2

xy = 10

⇒ β = 3.125 und α = −0.125

(c) y = −0.125 + 3.125x (siehe Grafik)

(d) y0 = −0.125 + 3.125x0 = −0.125 + 3.125 · 5 = 15.5, d.h. bei Einsatz von 5 Verkaufernvermuten wir, dass in einer Woche mindestens 15 Autos verkauft werden.

(e) Die Tabelle enthalt die gesuchten Werte:

Anzahl der Verkaufer (xi) 6 6 4 2 3Angepasste Verkaufszahl (yi) 18.625 18.625 12.375 6.125 9.25eingetretene Abweichung (εi) 1.375 -0.625 -2.375 -0.125 1.75

yi = −0.125 + 3.125xi

εi = yi − yi

(f) S2 = 1n−2

∑ni=1(yi − yi)2

= 13

((20− 18.625)2 + (18− 18.625)2 + (10− 12.375)2 + (6− 6.125)2 + (11− 9.25)2)

= 1311 = 11

3

(g) Hypothese H0 :”β = 0“ (kein Zusammenhang) wird zum Niveau 5% abgelehnt, falls

|β|S/√

(n− 1)s2xx

> tn−2,1− 1−γ2,

42

Page 43: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

d.h. H0 :”β = 0“ (kein Zusammenhang) wird zum Niveau 5% abgelehnt, falls

|3.125|√113/√

4 · 3.2> t3,0.975 ⇔ 5.8387 > 3.182.

Diese Bedingung ist erfullt, d.h. wir lehnen die Behauptung, dass kein Zusammenhangbesteht auf diesem Sicherheitsniveau ab.

(h)∑5

i=1 x2i = 111

Ein Konfidenzniveau fur α zum Niveau 10% ist gegeben durch:

α− tn−2,1− 1−γ2S

√ ∑ni=1 x

2i

n (n− 1) s2xx

< α < α + tn−2,1− 1−γ2S

√ ∑ni=1 x

2i

n (n− 1) s2xx

Es gilt:

tn−2,1− 1−γ2S

√ ∑ni=1 x

2i

n (n− 1) s2xx

= t3,0.95

√11

3

√101

5 · 4 · 3.2= 2.353

√11 · 101

3 · 5 · 4 · 3.2

= 2.353

√11 · 101

3 · 5 · 4 · 3.2= 5.66

⇒ −0.125− 5.66 < α < −0.125 + 5.66

⇔ −5.785 < α < 5.535

(i) (a) R Commander starten

(b) → Menu: Datenmanagement → Neue Datenmatrix

→ Dialogfenster: Namen eingeben→ Daten aus Tabelle eingeben

(c) → Menu: Grafiken . Streudiagramm ...

→ Dialogfenster: x-Variable wahlen (var2), y-Variable wahlen (var1), Haken beiKleinst-Quadrate-Linie setzen

(d) → Menu: Statistik → Regressionsmodelle . Lineare Regression ...

→Dialogfenster: Namen eingeben, abhangige Variable wahlen (var1), unabhangigeVariable wahlen (var2)

43

Page 44: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

Ergebnis:

Von der R-Ausgabe sind fur uns die folgenden Ergebnisse relevant:

• Die “Residuals” (rotes Rechteck) liefern uns die (realisierten) Abweichungen εi (i ∈1, . . . , 5) der beobachteten Daten yi (i ∈ 1, . . . , 5) von den prognostiziertenWerten yi (i ∈ 1, . . . , 5)

• Die Spalte “Estimate“ enthalt die geschatzten Parameterwerte α (in der Zeile “In-

tercept”) und β (in der Zeile “var2”)

• Die Spalte “t-value” enthalt die Testgroßen fur die Hypothesen α = 0 und β = 0 inder jeweiligen Zeile. Wir interessieren uns insbesondere fur die Testgroße zu β (roterKringel)

• “Residual standard error” liefert uns den geschatzten Wert σ, der den unbekanntenModellparameter σ (Standardabweichung der Residuen) erwartungstreu abschatzt.Entsprechend liefert das Quadrat dieses Wertes den geschatzten Wert von σ2 (Vari-anz der Residuen)

• Die Angabe “degrees of freedom” liefert uns die Anzahl der Freiheitsgrade, die wirzum Schatzen von R (bzw. R2) hatten. Diese Große ist gleichzeitig auch der Para-meter “Freiheitsgrade” zur Bestimmung des t-Quantils fur Tests und Konfidenzin-tervalle.

• Zuletzt liefert die Große “Multiple R-squared“ das (realisierte) BestimmtheitsmaßR2, mit dessen Hilfe eine Einschatzung der Modellgute moglich ist

Teilaufgabe (a) kann nun mit Hilfe des R-Commanders gelost werden, indem ein Scatter-plot der Daten gemacht wird und dabei die “Ausgleichsgerade” (optional) mit ausgegebenwird. (siehe Grafik). Die Losung von Teilaufgabe (b) kann man in der Spalte “Estimate”ablesen und Teilaufgabe (c) lasst sich mit diesen Werten ebenfalls losen. Teilaufgabe (d)

44

Page 45: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

kann nicht aus der R-Ausgabe direkt abgelesen werden, kann aber manuell leicht berech-net werden mit Hilfe von Teilaufgabe (c). Die angepassten Verkaufszahlen von Teilaufgabe(e) konnen aus der R-Ausgabe nicht abgelesen werden und auch manuell nicht berechnetwerden, wenn der Datensatz nicht zur Verfugung steht; die eingetretenen Abweichungenkonnen jedoch der R-Ausgabe entnommen werden (rotes Rechteck). In Teilaufgabe (f)soll die Große S2 berechnet werden, das ist aber gerade der geschatzte Wert fur σ2 undkann somit durch einfaches Quadrieren der Große “Residual standard error” aus der R-Ausgabe gewonnen werden. Die benotigte Testgroße fur Teilaufgabe (g) kann in Zeile“var2” und Spalte “t-value” (roter Kringel aus der R-Ausgabe abgelesen werden, daszugehorige t-Quantil, mit dem man diesen Wert vergleichen muss jedoch separat (z.B. ineiner Tabelle) besorgt werden. (Fur Insider: Die Aussage, ob das Testkriterium erfullt ist,lasst sich auch aus dem p-Wert (spalte “Pr(> |t|)” ablesen). Teilaufgabe (h) lasst sichanhand der R-Ausgabe nur losen, wenn die fehlende Große s2

xx angegeben wird, ansonstennicht.

45

Page 46: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

10. Tutorium am 14.07.09/15.07.09 und 16.07.09

(Multiple lineare Regression)

Multiple lineare Regression

Gegeben m Datensatze mit Stichprobenumfang von jeweils n:

(x12, x22, . . . , xn2), . . . , (x1m, x2m, . . . , xnm) Ausgangsvariablen

(y1, y2, . . . , yn) Zielvariable

Vermutung : Es besteht ein linearer Zusammenhang zwischen x.i (i = 2, . . . ,m) und y:

yi = β1 + β2xi2 + . . .+ βmxim + εi

wobei εi unbekannte Storgroßen mit E [εi] = 0, Var(εi) = σ2 (∀i ∈ 1, . . . , n) undε1, ..., εn unkorreliert.

Aufgabe: Ein Unternehmen interessiert sich dafur, ob und wie der Wasserverbraucheines seiner Fabriken von bestimmten Großen abhangt. Dazu werden jeweils 17 Messun-gen vorgenommen, die den Wasserverbrauch der Produktionseinrichtungen (USAGE ingallons/100) in Abhangigkeit von der monatlichen Durchschnittstemperatur (TEMP inF!), der Produktionsmenge (PROD in einer angemessenen Einheit), der Anzahl der Be-triebstage im Monat (DAYS), der Anzahl der Mitarbeiter auf der monatlichen Lohnliste(PAYR) und der Anzahl der Stunden, in der die Produktion fur Wartungsarbeiten still-stand (HOUR), ermitteln. Dazu wird mit R eine multiple lineare Regression durchgefuhrt,mit folgendem Ergebnis:

(a) Teste die Hypothese, dass der Wasserverbrauch nicht (linear) von der Produktions-menge (PROD) abhangt auf einem 5% Konfidenzniveau.

46

Page 47: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

(b) Teste, auf einem 10% Konfidenzniveau, die Hypothese, dass der Wasserverbrauchunabhangig von der monatlichen Durchschnittstemperatur (TEMP) ist.

(c) Beurteile, ob dieses Modell gut geeignet ist, um die Abhangigkeit des Wasserver-brauchs von den gegebenen Großen zu beschreiben.

47

Page 48: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

Losung

(a) 1− γ = 5%⇔ 1−γ2

= 2.5%, d.h. wir lehnen die Hypothese, dass kein Zusammenhangzwischen Wasserverbrauch und Produktionsmenge besteht, auf diesem Sicherheitsni-veau ab, falls

T1 > tn−m,1− 1−γ2⇔ T1 > t11,0.975 ⇔ 3.091 > 2.201.

Diese Bedingung ist erfullt, also vermuten wir, dass zwischen Wasserverbrauch undProduktionsmenge ein Zusammenhang besteht.

(b) 1 − γ = 10% ⇔ 1−γ2

= 5%, d.h. wir lehnen die Hypothese, dass kein Zusammen-hang zwischen Wasserverbrauch und Durchschnittstemperatur besteht, auf diesemSicherheitsniveau ab, falls

T1 > tn−m,1− 1−γ2⇔ T1 > t11,0.95 ⇔ 1.390 > 1.796.

Diese Bedingung ist nicht erfullt, also konnen wir auf diesem Niveau nicht ausschlie-ßen, dass zwischen Wasserverbrauch und Durchschnittstemperatur wirklich kein Zu-sammenhang besteht.

(c) R2 = 0.6446 lasst auf eine ausreichende Modellgute schließen

48

Page 49: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

Klausurvorbereitung am 14.07.09/15.07.09 und 16.07.09

(Zusatzaufgaben zur Probeklausur von 2003)

Aufgabe 1: Quantilplots

Die Lebensdauer (in Jahren) von Laptops eines bestimmten Typs soll untersucht werden.Dazu wurde eine Stichprobe von 100 Exemplaren gezogen, anhand derer eine passendeVerteilung bestimmt werden soll. Nachfolgend sind Quantilplots fur folgende Verteilungenabgebildet:

• X ∼ N(µ = 5, σ = 2.5)

• X ∼ U(1, 12)

• X ∼ Gamma(λ = 1, n = 5)

• X ∼ Lognormal(µ = 1.6, σ = 0.5)

wobei fur

• X ∼ Gamma(λ, n) mit λ ∈ R, n ∈ N gilt:

FX(x) =

(1− e−λx

n−1∑i=0

(λx)i

i!

)1x≥0

• X ∼ Lognormal(µ, σ) mit µ, σ ∈ R, σ > 0 gilt:

FX(x) =

(1√2πσ

∫ x

0

1

texp−(ln t− µ)2

2σ2dt)1x≥0

(a) Beurteile und begrunde anhand der Quantilplots, welche Verteilung am besten dieLebensdauer der Laptops reprasentiert.

(b) Berechne anhand der passenden Verteilung, wieviel Geld der Hersteller fur Garan-tiefalle reservieren muss, wenn der Hersteller eine 3-jahrige Garantie auf den Laptopgibt, jeder Garantiefall 1.000 Euro kostet und 7.000 Exemplare verkauft wurden.

49

Page 50: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

50

Page 51: 1. Tutorium am 05.05.09/06.05.09 und 07.05 - uni-ulm.de · Statistik Durchfuhren einer Auswahl an grundlegenden statistischen Methoden und Analysen f ur eine (zuvor ausgew ahlte,

Losung

(a) Damit man davon sprechen kann, dass die Daten gut zu der Verteilung passen, mussen2 Kriterien erfullt sein:

(a) Die Punkte mussen nahezu auf einer Geraden liegen

(b) Moglichst keine Punkte durfen außerhalb der beiden Konfidenzbander liegen.(Ein geringer Anteil von Ausnahmen kann akzeptiert werden.)

Die Gammaverteilung erfullt diese Kriterien am besten. Mit ihr kann man also dieDaten am besten modellieren.

(b) Wir nehmen nun an, dass die Zufallsvariable X mit X ∼ Gamma(λ = 1, n = 5) dieLaptoplebensdauer (in Jahren) beschreibt.Zunachst wollen wir wissen, wie groß die Wahrscheinlichkeit ist, dass ein Laptop vorAblauf von 3 Jahren kaputt geht.Wir berechnen:

FX(3) =

(1− e−λ3

n−1∑i=0

(λ3)i

i!

)13≥0 = 1− e−1·3

5−1∑i=0

(1 · 3)i

i!

= 1− e−3 ·(

1

1+

3

1+

9

2+

27

6+

81

24

)= 1− 0, 04979 · 16, 375 = 0, 18473

Mit 7.000 verkauften Laptops und 1.000 Euro pro Garantiefall mussen somit0, 18473 · 7.000 · 1.000 = 1.293.110 Euro fur Garantiefalle reserviert werden.

51