Skript zur Vorlesung Wahrscheinlichkeitstheorie
-
Upload
gianni-carlo -
Category
Documents
-
view
65 -
download
3
description
Transcript of Skript zur Vorlesung Wahrscheinlichkeitstheorie
Wahrscheinlichkeitstheorie
Dr. C.J. Luchsinger
1 Wahrscheinlichkeit
1.1 Zufallsexperiment, Ereignisraum, Ereignisse
Um Zufallsexperimente zu modellieren, in der Sprache der Mathematik zu beschreiben,
fuhren wir folgende Objekte ein: Ω; mathematisch ist dies einfach eine nichtleere Menge.
Sie steht (aus Modellierungssicht) fur die Menge der Versuchsausgange; wir nennen sie
auch Ereignisraum [engl Sample Space]. Es findet jeweils in einem Experiment genau ein
sogenanntes Elementarereignis statt [engl (elementary) Outcome], z.B. ω1 ∈ Ω oder ω2 ∈ Ω
etc. Ereignisse [engl Events] sind spezielle Teilmengen von Ω (Vorsicht: nicht irgendeine
Teilmenge; wir mussen dem Ereignis auch eine Wahrscheinlichkeit zuordnen konnen - siehe
spater).
Die meisten Ereignisraume sind aus einer der folgenden Liste (wird in der Vorlesung aus-
gefullt):
1) Endliche Mengen:
2) Abzahlbare Mengen:
1
3) R und R+ := [0,∞):
4) Endliche kartesische Produkte (Replika):
5) Unendliche kartesische Produkte (Replika):
6) Funktionen:
2
Wir wenden uns jetzt den Ereignissen zu, also speziellen Teilmengen von Ω. Wir wollen
ab 1.3 diesen Ereignissen auch eine Wahrscheinlichkeit zuordnen.
Nebenbemerkung: Wir mussen uns in einer Mathematikvorlesung mit der Frage auseinan-
dersetzen, welche Verknupfungsoperationen mit Mengen zugelassen sein sollen. Wenn wir
hier nicht vorsichtig sind, konnen uble Sachen passieren; mehr dazu am Schluss dieses
Kapitels. Wenn Sie jemals Serviceveranstaltungen fur andere Studiengange halten (v.a.
Biologie, Medizin, Geographie, Psychologie, Soziologie), sollten Sie diese Diskussion nach
Moglichkeit vermeiden; in den Ingenieurwissenschaften, Physik und quantitative Finance
kann es notwendig sein, dass Sie dies kurz besprechen.
Da Sie bereits eine einfuhrende Veranstaltung in diesem Gebiet gehort haben, konnen wir
uns die elementaren Verknupfungsoperationen wie A ∩B und A ∪B sparen und gleich zu
den verbleibenden, fur uns neuen Verknupfungen schreiten, welche wir spater da und dort
benotigen:
1) A∆B := (A\B) ∪ (B\A) ist die sogenannte symmetrische Differenz; ein elementares
Ereignis soll dabei in A oder B sein, nicht aber in beiden.
2) StudentInnen, welche bereits die Vorlesung angewandte Stochastik besucht haben, ken-
nen die folgenden beiden Mengen:
lim supn
An :=∞⋂
k=1
∞⋃
n=k
An
und
lim infn
An :=∞⋃
k=1
∞⋂
n=k
An
Wir mussen uns daruber unterhalten, was diese Gebilde denn sind:
3
Wir definieren, dass eine Folge von Ereignissen A1, A2, . . . gegen A konvergiert, notiert als
limnAn = A,
wenn lim supnAn = lim infnAn = A. Sie zeigen in den Ubungen, dass monotone Folgen
von Mengen in diesem obigen Sinne konvergieren (wogegen?).
Wir fassen die mengentheoretischen Ausdrucke und ihre Bedeutung fur die Wahrschein-
lichkeitstheorie in folgender Tabelle zusammen:
Symbol Mengentheorie / Bedeutung fur die WT
Ω Menge / Ereignisraum, Menge der Versuchsausgange
ω Element von Ω / Elementarereignis, Versuchsausgang
A Teilmenge von Ω / Ereignis; falls ω ∈ A, sagt man, dass das Ereignis A
eingetreten ist
Ac Komplement von A / kein Elementarereignis aus A findet statt
A ∩B Schnittmenge von A und B / ein Elementarereignis aus A und B findet statt
A ∪B Vereinigung von A und B / ein Elementarereignis aus A oder B findet statt
A\B A ohne B / ein Elementarereignis aus A tritt ein, aber nicht aus B
A ⊂ B A ist Teilmenge von B / Wenn ein Elementarereignis aus A stattfindet, dann
immer auch ein Elementarereignis aus B
lim supnAn⋂∞k=1
⋃∞n=k An / Ereignis, bestehend im Eintreten von unendlich vielen der
Ereignisse A1, A2...
lim infnAn⋃∞k=1
⋂∞n=k An / Ereignis, bestehend im Eintreten aller Ereignisse A1, A2...,
mit eventueller Ausnahme einer endlichen Anzahl
φ leere Menge / unmogliches Ereignis
Ω ganze Menge / sicheres Ereignis (etwas muss passieren)
In der Literatur trifft man haufig folgende Notationen noch an: ∪ fur disjunkte Vereinigung,
AB fur die Schnittmenge, A+B bzw∑iAi fur disjunkte Vereinigungen.
4
Manchmal erlebt man den Umgang mit Funktionen einfacher als den mit Mengen. Weil wir
Gott sei Dank eine 1 zu 1 Beziehung zwischen Mengen und Indikatorfunktionen herstellen
konnen, durfen wir vieles auf der Ebene von Funktionen erledigen statt auf der Ebene von
Mengen. Die 1 zu 1 Beziehung ist denn einfach die Indikatorfunktion einer Menge:
1A(ω) := 1 falls ω ∈ A
0 falls ω /∈ A.
Wir wollen diese Funktion erstmal ein bisschen kennenlernen; in der Klasse: welche der
folgenden Ausdrucke sind gleich?
1A∪B ,1Ac ,min1A,1B,1A∆B ,1A∩B , 1− 1A,max1A,1B,1A1B , |1A − 1B |
Uberlegen Sie sich jetzt, dass
limn→∞
An = A
genau dann wenn punktweise gilt
limn→∞
1An(ω) = 1A(ω).
5
1.2 Spezielle Mengen von Mengen (σ-Algebra, Dynkin- und π-Systeme)
1.2.1 σ-Algebren
Wir wollen den Ereignissen (z.B. A aus Ω) spater eine Wahrscheinlichkeit (P [A]) zuordnen.
Wenn wir mehrere Ereignisse vorgegeben haben, wollen wir auch die Wahrscheinlichkeiten
von deren Vereinigungen, Durchschnitten oder Komplementen angeben konnen. An die
Menge der Teilmengen von Ω, welche wir untersuchen, stellen wir also ein paar wenige
Bedingungen:
Definition 1.1 [σ-Algebra] Ein Teilmengensystem A von Ω heisst σ-Algebra, wenn
folgende 3 Bedingungen erfullt sind:
a) Ω ∈ A
b) A ∈ A ⇒ Ac ∈ A
c) A1, A2, . . . ∈ A ⇒ ∪n≥1An ∈ A.
1. Wieso muss φ immer in einer σ-Algebra enthalten sein?
2. Welches ist die kleinste σ-Algebra uberhaupt?
3. Wieso muss mit A und B immer auch A ∩B in einer σ-Algebra enthalten sein?
4. Welches ist die kleinste σ-Algebra, welche Ereignis A enthalt (von A erzeugte σ-
Algebra)?
6
Falls |Ω| = n < ∞, so hat die Potenzmenge von Ω bekanntlich Kardinalitat 2n, ist also
wiederum endlich. Man kann also im Fall |Ω| = n < ∞ einfach als A die Potenzmenge
von Ω wahlen und muss sich dann nicht mehr sorgen, dass man allenfalls eine Menge
untersucht, die gar nicht mehr in der σ-Algebra drin ist.
Nebenbemerkung: Der naive Wunsch, im Fall Ω = R als σ-Algebra einfach die Potenz-
menge von R zu nehmen, ist zwar verstandlich, fuhrt aber zu unerwunschten Resul-
taten. Wir werden am Ende dieses Kapitels diesen Punkt kurz diskutieren (Satz 1.30
von Banach und Kuratowski). Wenn Sie also jemals in Service-Veranstaltungen Nicht-
Mathematiker/innen unterrichten, sind Sie realistischerweise gezwungen, bei der Einfuh-
rung normalverteilter Zufallsgrossen zu mogeln: Sie konnen nicht fur jede x-beliebige
Menge B aus R angeben, wie gross die Wahrscheinlichkeit ist, dass eine normalverteilte Zu-
fallsgrosse X Werte in B annimmt. Es kommt dann namlich vor, dass die normalverteilte
Zufallsgrosse X einzelne Punkte mit Wahrscheinlichkeit grosser Null annimmt. Dies ist
nicht das, was wir unter einer normalverteilten Zufallsgrosse verstehen wollen.
Wir mussen uns also einschranken; man nimmt statt der Potenzmenge von R die sogenann-
te Borel-σ-Algebra B(R). Sie ist per Definitionem die kleinste σ-Algebra auf R, welche alle
geschlossenen Intervalle enthalt. Die Mengen aus B(R) nennen wir Borel-Mengen. Man
sagt auch, B(R) wird von der Menge der geschlossenen Intervalle erzeugt; mehr dazu in
den Ubungen.
Wir wollen B(R) ein bisschen untersuchen; was ist darin alles enthalten?
Was glauben Sie, wie ist die Kardinalitat von B(R)?
7
1.2.2 Dynkin- und π-Systeme
Wenn Sie ein komplexes, abstraktes Mengensystem dahingehend untersuchen mussen, ob
es sich dabei um eine σ-Algebra handelt, kann dies auf direktem Weg sehr schwierig sein.
Die folgenden Mengensysteme konnen hier helfen:
Definition 1.2 [Dynkin-System, auch d-System oder Monoton-System] Ein
Teilmengensystem D von Ω heisst Dynkin-System, wenn folgende 3 Bedingungen erfullt
sind:
a) Ω ∈ D
b) A ∈ D ⇒ Ac ∈ D
c) A1, A2, . . . ∈ D, paarweise disjunkt, ⇒ ∪n≥1An ∈ D.
Untersuchen Sie den Zusammenhang zwischen Dynkin-System und σ-Algebra.
Ein Beispiel eines Dynkin-Systems:
8
Lemma 1.3 Sei D ein Dynkin-System. Dann gelten:
1. A,B ∈ D und A ⊂ B, dann gilt auch B\A ∈ D [Stabilitat des Dynkin-Systems bei
Bildung eigentlicher Komplemente]
2. (An)n eine monoton wachsende Folge aus D, dann gilt ∪∞n=1An ∈ D.
Beweis Lemma 1.3
Wir ziehen hiermit gleich mit der Definition eines d-Systems aus Karr Seite 21:
9
Definition 1.4 [π-System, Durchschnittsstabilitat] Ein Teilmengensystem C von
Ω heisst π-System oder durchschnittsstabil, wenn mit A,B ∈ C auch A ∩B ∈ C.
Satz 1.5 Ein Dynkin-System ist genau dann eine σ-Algebra, wenn es auch durch-
schnittsstabil ist.
Beweis Satz 1.5
10
Wie bei den σ-Algebren, die von Mengensystemen erzeugt werden konnen, kann man auch
Dynkin-Systeme von Mengen erzeugen; analog gilt hier per Definitionem namlich: Sei Uein Teilmengensystem von Ω. Dann ist per Definitionem D(U) das kleinste Dynkin-System,
welches U enthalt. Es gilt dann der zentrale
Satz 1.6 [Monoton-Lemma fur Mengen] Sei C ein π-System. Dann gilt:
D(C) = σ(C).
Beweis Satz 1.6
2 Bemerkungen zur Bedeutung dieses Satzes:
11
1.3 Wahrscheinlichkeit P [.]
Definition 1.7 [Wahrscheinlichkeit P ] Eine Wahrscheinlichkeit P ist eine reell-
wertige Funktion auf den Mengen aus A. Dabei mussen folgende 3 Bedingungen erfullt
sein:
a) A ∈ A ⇒ P [A] ≥ 0
b) P [Ω] = 1
c) Sei Ai∞i=1 eine abzahlbare Folge von disjunkten Mengen aus A, dann muss gelten:
P [∪∞i=1Ai] =∞∑
i=1
P [Ai].
Man darf in Definition 1.7 c) z.B. auch Ai = φ, i ≥ 3 wahlen!
Man nennt das Tripel (Ω,A, P ) auch Wahrscheinlichkeitsraum; auf englisch Probability
Space. Eigenschaft c) nennen wir σ-Additivitat. In Vorlesung und Ubungen sei Ω immer
nichtleer (spater auch die Grundmenge bei allgemeinen Massen) - ausser wir sprechen es
explizit an.
Wir betrachten ein paar einfache Beispiele; mehr in den Ubungen:
12
Aus Definition 1.7 lassen sich nutzliche Eigenschaften ableiten, welche wir im folgenden
Lemma zusammenfassen.
Lemma 1.8 [nutzliche Eigenschaften von P ] Sei (Ω,A, P ) ein Wahrschein-
lichkeitsraum. Mit A,B ∈ A, (Ai)ni=1 eine endliche und (Bi)∞i=1 eine unendliche Folge
von Ereignissen aus A gelten folgende Aussagen:
a) P [φ] = 0.
b) [endliche Additivitat] Sei Aini=1 eine endliche Folge von pw disjunkten Mengen
aus A, dann muss gelten:
P [∪ni=1Ai] =n∑
i=1
P [Ai].
Daraus folgt auch das ”Prinzip der Gegenwahrscheinlichkeit”: P [A] = 1− P [Ac].
c) A ⊆ B ⇒ P [B] = P [A] + P [B\A]. Damit ist P insbesondere monoton in dem
Sinne, dass A ⊆ B ⇒ P [A] ≤ P [B].
d) P [A ∪B] = P [A] + P [B]− P [A ∩B]. Damit ist P sogenannt (endlich) subadditiv:
P [A ∪B] ≤ P [A] + P [B].
e) Sei Bi∞i=1 eine abzahlbare Folge von Mengen aus A, dann muss gelten:
P [∪∞i=1Bi] ≤∞∑
i=1
P [Bi]. (Boolesche Ungleichung; subadditiv)
Beweis von Lemma 1.8 Diese Beweise haben wir zum Teil schon in der WTS in den
Ubungen besprochen. Sie sind jetzt in den WT-Ubungen im ”Must”-Teil angesiedelt. Im
Gegensatz zum ersten Semester wird jetzt auf die strenge mathematische Beweisfuhrung
(jenseits von anschaulichen Venn-Diagrammen) Wert gelegt. Die obigen Aussagen sind so
einleuchtend, dass man sich (als MathematikerIn) bewusst sein muss, dass sie trotzdem zu
beweisen sind!
13
Satz 1.9 Sei P eine nichtnegative, endlich additive Mengenfunktion auf A mit P [Ω] =
1. Dann sind die folgenden 4 Aussagen aquivalent:
a) P ist auch σ-additiv (und damit eine Wahrscheinlichkeit),
b) Mit An ↑ A in A gilt auch P [An] ↑ P [A],
c) Mit An ↓ A in A gilt auch P [An] ↓ P [A],
d) Mit An ↓ φ in A gilt auch P [An] ↓ 0.
Die Bedeutung dieses Satzes liegt in folgendem Punkt: endliche Additivitat halten wir
sofort fur eine sinnvolle Anforderung an ein sinnvolles P . Schwierigkeiten hat man allen-
falls mit der weitergehenden σ-Additivitat. Obiger Satz sagt, dass dies die gleich starke
Forderung ist wie Forderungen b), c) und d). Dies sind jedoch Forderungen nach einer
(monotonen) Stetigkeit von P , welche wir eher akzeptieren konnen.
Beweis von Satz 1.9
14
Als Vorbereitung auf den kommenden Satz: konvergiert
An :=[ (−1)n
n, 2 +
(−1)n
n
]
und wenn ja, wogegen (vgl p 4 oben)?
Satz 1.10 [Stetigkeit von P ] Es gelten
P [lim infn
An] ≤ lim infn
P [An] ≤ lim supn
P [An] ≤ P [lim supn
An]
und damit: falls An → A, dann auch P [An]→ P [A].
Beweis von Satz 1.10
15
Satz 1.11 [Borel-Cantelli I - wichtig fur Konvergenzaussagen]
∞∑n=1
P [An] <∞⇒ P [lim supn
An] = 0. (BC− I)
Es folgt wegen Satz 1.10 automatisch auch lim supn→∞ P [An] = 0 und damit auch
limn→∞ P [An] = 0; spatestens jetzt sollte dies an ein Resultat aus der Analysis I erinnern!
Die Hauptaussage (BC-I) ist jedoch flexibler einsetzbar, da der limsup sehr umfassend ist.
Beweis von Satz 1.11
16
Satz 1.12 [Eindeutigkeit von P ] Sei A eine σ-Algebra auf Ω und S ein π-System
derart, dass σ(S) = A. Seien nun P1, P2 Wahrscheinlichkeiten auf (Ω,A) derart, dass
P1 = P2 auf S, dann P1 = P2 auf A.
Beweis von Satz 1.12
17
1.4 Wahrscheinlichkeiten auf R: (R,B(R), P )
Aus der Vorlesung WTS kennen wir bereits die Zufallsgrossen, welche wir in Kapitel 2 in-
tensiv studieren werden. Deren Verteilungsfunktionen liefern uns Wahrscheinlichkeiten auf
(R,B(R)), siehe Satz 1.17. Dies ist Grund genug, bereits jetzt in Kapitel 1 die Wahrschein-
lichkeiten auf R ein bisschen genauer unter die Lupe zu nehmen. Bevor wir dies tun, wollen
wir noch sogenannte Null-Mengen einfuhren:
Definition 1.13 [P -Nullmenge, P -fast sicher, (P -f.s., P -fs, fs)] Ein Ereignis A
gilt P -fast sicher, wenn P [A] = 1. Hingegen ist A eine P -Nullmenge, wenn P [A] = 0.
Ein paar kleine Bemerkungen:
Gilt zwingend A = Ω bzw A = φ?
18
Von Satz 1.12 wissen wir, dass jede Wahrscheinlichkeit P auf (R,B(R)) durch die Werte
auf den Intervallen der Art (−∞, t] eindeutig determiniert ist. Es lohnt sich deshalb, diese
(aus der WTS bekannten) Gebilde genauer zu untersuchen. Dazu definieren wir erstmals:
Definition 1.14 [Verteilungsfunktion von P ] Die Verteilungsfunktion von P ist
die Funktion FP : R −→ [0, 1], definiert als FP (t) := P [(−∞, t]]. Wenn es klar ist, konnen
wir die Indexierung in FP auch lassen und nur F schreiben.
Achten Sie bitte darauf, dass wir in Kapitel 1 die Verteilungsfunktionen untersuchen, ohne
Zufallsgrossen zu erwahnen (ausser zur Motivation)! Wir lernen jetzt die Verteilungsfunk-
tionen ein bisschen kennen. Es gilt
Satz 1.15 [Eindeutigkeit F, P ] Wenn FP1 = FP2 , dann gilt P1 = P2 auf B(R).
Beweis Satz 1.15
Wichtige Folgerung fur die Anwendungen: In der Vlsg WTS und in der Ausbildung
anderer Studiengange lernen die StudentInnen zum Beispiel die Wahrscheinlichkeiten der
Normalverteilung uber die Normalverteilungstabelle (meist hinten in Statistik-Buchern)
kennen. Man konnte sich fragen, ob durch diese Tabelle (abgesehen von der Maschenweite
des Gitters; beachten Sie auch die Monotonie von F ) P eindeutig festgelegt ist. Satz 1.15
bejaht dies auf B(R). B(R) enthalt aber alles, was AnwenderInnen ausrechnen wollen:
Komplemente, Vereinigungen, Schnitte.
19
Der folgende Satz ist bereits aus der WTS bekannt; wir formulieren ihn nochmals und
beweisen ihn unter Einsatz der bisherigen Resultate.
Satz 1.16 [Elementare Eigenschaften von FP ] Sei FP die Verteilungsfunktion
von P . Dann gelten:
a) FP ist monoton wachsend; damit existieren jeweils die Limiten von links und von rechts
b) FP ist rechtsstetig; a) und b) heissen zusammen vom Franzosischen: ”cadlag”
c) limt→−∞ FP (t) = 0 und limt→∞ FP (t) = 1.
Beweis von Satz 1.16
Wir definieren noch F (∞) := limt→∞ F (t) und F (−∞) := limt→−∞ F (t) - nach obigem
sind diese Definitionen sinnvoll!
20
Ohne Beweis fugen wir noch an, dass jede Funktion auf R, welche die Eigenschaften
aus Satz 1.16 besitzt, eine Verteilungsfunktion einer Wahrscheinlichkeit P ist. Damit lassen
sich beinahe beliebige Wahrscheinlichkeiten entwickeln.
Satz 1.17 Sei F : R → R monoton wachsend und rechtsstetig mit F (−∞) = 0 und
F (∞) = 1. Dann existiert ein eindeutiges P auf B(R) so, dass FP = F .
Beispiel zu Satz 1.17
21
Wir haben in der WTS 2 Typen von Zufallsgrossen kennengelernt: diskret und stetig.
Mittels der Verteilungsfunktionen dieser Zufallsgrossen erhalten wir mit Satz 1.17 also
damit auch 2 Typen von Wahrscheinlichkeiten auf (R,B(R)). Schon in der WTS haben Sie
sich vielleicht die Frage gestellt, ob das denn alles sei. Mit wenig Nachdenken kommt man
schnell auf die Idee, dass man ja auch Linearkombinationen solcher Wahrscheinlichkeiten
nehmen kann (siehe auch Ubungsblatt 3). Haben wir damit alles? Die Antwort folgt erst in
1.6 (Vollstandige Klassifikation der Wahrscheinlichkeiten auf (R,B(R)). Wir wollen jedoch
kurz, halb zur Repetition, die beiden bisherigen Arten von Wahrscheinlichkeiten nochmals
anschauen.
Definition 1.18 [Diskrete Wahrscheinlichkeit] Eine Wahrscheinlichkeit P auf R
ist diskret, wenn es eine hochstens abzahlbare Menge C gibt, sodass P (C) = 1.
Beispiel zu Definition 1.18
Der folgende Satz ist derart anschaulich, dass er in der WTS bereits unbewiesen (und
vielleicht auch unausgesprochen) benutzt wurde. Er besagt, dass diskrete Wahrschein-
lichkeiten endliche oder abzahlbar unendliche konvexe Linearkombinationen von Dirac-
Massen (Punktmassen) sind. Die Verteilungsfunktionen wachsen nur durch ”Sprunge”.
22
Satz 1.19 [Charakterisierung von diskreten Wahrscheinlichkeiten] Fur Wahr-
scheinlichkeiten auf R sind die folgenden Aussagen aquivalent:
a) P ist diskret.
b) Es existiert eine reelle Folge (ti) und Zahlen pi ≥ 0 mit∑i pi = 1 derart, dass P =
∑i piδti .
c) Es existiert eine reelle Folge (ti) und Zahlen pi ≥ 0 mit∑i pi = 1 derart, dass FP (t) =
∑i pi1ti≤t.
Wir lassen oben im Satz und unten im Beweis beide Falle zu: endliche oder abzahlbar
unendliche Folgen bzw. Reihen.
Beweis Satz 1.19
Bemerkung/Warnung zum Wort ”diskret” in der WT und der restlichen Mathematik (zB
diskrete Menge):
23
Wir wenden uns jetzt den stetigen Wahrscheinlichkeiten zu und prazisieren gleich mal:
ab jetzt heissen die stetigen Wahrscheinlichkeiten bzw stetigen Zufallsgrossen aus der WTS
absolut stetige Wahrscheinlichkeiten (bzw. Zufallsgrossen).
Definition 1.20 [absolut stetige Wahrscheinlichkeit] Eine Wahrscheinlichkeit
P auf R nennen wir absolut stetig, wenn es eine nichtnegative Funktion fP (Dichte von
P ) auf R derart gibt, dass fur alle (a, b]
P [(a, b]] = L−∫ b
a
fP (t)dt.
Beispiel aus der WTS:
Bemerkung zur Dichtefunktion: fP (t) ist nicht eindeutig:
1) Das obige Integral ist ein Lebesgue-Integral (L-∫
, vgl Vlsg ”Reelle Analysis”; siehe
auch kommende Seite); aber schon bei einem ”normalen” Riemann-Integral, R-∫
, kann
man solch eine Dichtefunktion mindestens an endlich vielen Punkten andern.
2) Bei Lebesgue-Integralen gilt das sowieso (vgl Vlsg ”Reelle Analysis”).
3) Die Differenzen bei den diversen denkbaren fp’s betreffen aber lediglich Lebesgue-
Nullmengen (Forster Analysis III, Satze 2-4 in § 7).
4) Man spricht deshalb auch von einer ”Version” der Dichtefunktion (und wahlt dann mit
Vorteil zum Beispiel eine stetige Version).
24
Bemerkungen zur Integrationsart:
1) Das Integral in Definition 1.20 ist im allgemeinen Fall ein L-∫
.
2) Wenn der Integrand nichtnegativ ist (zum Beispiel bei einer Dichte), ist ein R-∫
immer
auch ein L-∫
(die Umkehrung gilt nicht - damit ist das L-∫
allgemeiner als das R-∫
).
3) Was wenn der Integrand auch negativ sein darf?
4) In den Vlsg’en WTS, AS, SM und WT sind konkrete Integrale de facto immer R-∫
,
ausser es wird speziell erwahnt. In den Beweisen sind es aber oft L-∫
. StudentInnen,
welche das L-∫
noch nicht kennen, stellen sich ohne Nachteil einfach immer ein R-∫
vor.
Falls fP (t) stuckweise stetig ist (endliche Unterteilung), ist ein L-∫
immer ein R-∫
.
5) Kontrastbeispiel: L-∫ 1
01Q(s)ds = (L-
∫aber nicht R-
∫).
6) Schema Integrationsarten, falls Integrand nicht-negativ:
7) ”Stieltjes”-Integrale (Riemann-Stieltjes und Lebesgue-Stieltjes-Integrale) haben auf der
Basis (x-Achse) im Allgemeinen keine gleichmassige Gewichtung. Riemann- und Lebesgue-
Integrale schon. Mehr dazu in Kapitel 4.
Sie beweisen noch im Must-Teil von Ubungsblatt 4 folgende kleine Umformulierung:
Korollar 1.21 [absolut stetige Wahrscheinlichkeit und FP ] Eine Wahrschein-
lichkeit P auf R ist genau dann absolut stetig, wenn es eine nichtnegative Funktion fP
(Dichte von P ) auf R gibt mit∫∞−∞ fP (s)ds = 1, so dass
FP (t) =∫ t
−∞fP (s)ds.
Damit konnen wir also jede beliebige nichtnegative Funktion f mit∫∞−∞ f(s)ds = 1 als
Dichte einer Wahrscheinlichkeit P auffassen - dies ergibt uns also ein grosses Universum
von Wahrscheinlichkeiten!
25
1.5 Bedingte Wahrscheinlichkeit P [A|B]; Produktformel, Bayes und FTW
Diese Konzepte kamen schon in der Vlsg WTS (und AS) sehr ausfuhrlich zum Einsatz,
so dass wir nur als Repetition die Definition und die drei zentralen Regeln angeben. Kleine
Aufgaben dazu sind auf Ubungsblatt 4 zu losen.
Definition 1.22 [Bedingte Wahrscheinlichkeit P [A|B]]
P [A|B] :=P [A ∩B]P [B]
,
falls P [B] > 0. Man nennt P [A|B] die bedingte Wahrscheinlichkeit von A gegeben B.
Es gilt die sogenannte Produktformel:
P [A|B]P [B] = P [A ∩B] = P [B|A]P [A].
Der Leser / die Leserin zeige: P [.|B] ist selber auch eine Wahrscheinlichkeit.
Formel von Bayes:
P [A|B] =P [A ∩B]P [B]
=P [B|A]P [A]
P [B|A]P [A] + P [B|Ac]P [Ac].
Lemma 1.23 [Formel von der totalen Wahrscheinlichkeit FTW] B1, B2, . . .
sei eine Partition von Ω (die Bi’s sind disjunkt und ∪∞i=1Bi = Ω). Weiter sei fur alle
Bi, i ≥ 1, P [Bi] > 0 erfullt. Dann gilt fur jedes A ∈ A:
P [A] =∞∑
i=1
P [A|Bi]P [Bi]. (FTW )
Ein analoges Resultat gilt auch fur eine endliche Partition.
26
1.6 Miscellanea; Sie finden hier Bemerkungen zu:
1.6.1 R
1.6.2 Allgemeine Masse
1.6.3 Lebesgue Mass
1.6.4 Singular stetige Wahrscheinlichkeit auf R - Cantorsches Diskontinuum
1.6.5 Vollstandige Klassifikation der Wahrscheinlichkeiten auf (R,B(R))
1.6.6 Warum σ-Algebren? Warum P auf B(R) und nicht auf P(R)?
1.6.7 Das Banach-Tarski-Paradoxon
1.6.8 Wichtige, nicht behandelte Probleme
1.6.1 R := R ∪ −∞ ∪ ∞
Mutti hat Ihnen mal gesagt, dass Sie nicht ”durch 0 teilen” durfen. Auch war es Ihnen
verboten, ∞+∞ =∞ zu schreiben, obschon Sie dies immer gereizt hatte. Hier durfen Sie
solch schlimme Sachen endlich machen - vorausgesetzt, Sie beachten einige wenige Regeln.
Wir erlauben dies, weil sich dann einige Satze eleganter formulieren lassen. Ayatollah’s
aus der reinen Mathematik sei versichert: unteres ist ganz koscher.
x+ y :=
∞ falls x ∈ R und y =∞ oder umgekehrt∞ falls x = y =∞−∞ falls x ∈ R und y = −∞ oder umgekehrt−∞ falls x = y = −∞.
xy :=
∞ falls x > 0 und y =∞ oder umgekehrt∞ falls x < 0 und y = −∞ oder umgekehrt∞ falls x = y =∞ oder x = y = −∞−∞ falls x > 0 und y = −∞ oder umgekehrt−∞ falls x < 0 und y =∞ oder umgekehrt−∞ falls x =∞ und y = −∞ oder umgekehrt0 falls x = 0 oder y = 0.
x
y:=
∞ falls x > 0 und y = 0−∞ falls x < 0 und y = 00 falls x ∈ R und y = ±∞.
∞−∞ durfen Sie nach wie vor nicht machen; ebenso nicht ±∞ durch ±∞ teilen.
Falls Sie Schwierigkeiten haben, sich etwas unter −∞ und +∞ vorzustellen, ersetzen Sie
einfach −∞ durch ”Velo” und +∞ durch ”Maschendrahtzaun”. Es geht topologisch genau
so gut - aber −∞ und +∞ sind anschaulicher.
27
1.6.2 Allgemeine Masse
Wir kommen jetzt zu einer Verallgemeinerung des Konzeptes der Wahrscheinlichkeit,
zu den Massen. Masse sind nichtnegativ und σ-additiv; hingegen muss das Mass nicht
1 sein; nicht mal endlich. Despektierlich ist die Wahrscheinlichkeit ein Spezialfall der
Masstheorie, bei der das Mass endlich, genauer von Mass 1 ist. Aber diese Sicht ist
polemisch, despektierlich und vor allem ignorant.
Definition 1.24 [Mass] Sei E eine Menge und E eine σ-Algebra auf E. Dann
definieren wir:
a) (E, E) heisst Messraum; die Mengen aus E nennen wir messbare Mengen.
b) Ein Mass µ auf (E, E) ist eine Mengenfunktion µ : E → R+ derart, dass µ(φ) = 0 und
wir verlangen auch, dass µ σ-additiv ist:
µ(∪nAn) =∑n
µ(An),
wo die Folge An disjunkt aus E.
c) µ ist endlich wenn µ(E) <∞.
d) µ ist σ-endlich, wenn eine aufsteigende Folge Ei aus E existiert derart, dass ∪Ei = E
und µ(Ei) <∞ fur alle i ≥ 1.
e) Das Tripel (E, E , µ) bezeichnen wir als Massraum.
Wir sehen sofort, dass unsere Wahrscheinlichkeitsraume immer auch Massraume sind (vgl
Definition 1.7). Die endlichen Massraume sind insofern nahe verwandt mit Wahrschein-
lichkeiten, als dass jedes endliche Mass µ mit Hilfe einer Wahrscheinlichkeit P geschrieben
werden kann:
µ(A) = µ(E)P (A).
Es gibt vor allem ein zentral wichtiges, unendliches Mass, welches wir fur diese Vorlesung
brauchen. Wenn wir dieses haben, konnen wir weitere nicht-triviale Beispiele zu Definition
1.24 anschauen und den obigen Begriffen ein bisschen Leben einhauchen. Es handelt sich
dabei um das Lebesgue-Mass.
28
1.6.3 Lebesgue-Mass
In der Analysis wird das Lebesgue-Mass eingefuhrt. Die saubere Einfuhrung des Lebesgue-
Masses dauert mehrere Stunden. Deshalb verzichten wir in dieser Vorlesung darauf. Es
ist auch so, dass man durch die saubere Einfuhrung des Lebesgue-Masses nicht unbedingt
besser damit zu rechnen versteht...
Wir kennen den Messraum (R,B(R)). Der folgende Satz garantiert uns ein Mass λ auf
diesem Messraum, der dadurch zum Massraum (R,B(R), λ) wird. Das Mass λ, dessen
Existenz dort garantiert wird, erweitert unseren bisherigen Begriff der Lange eines Inter-
valls. Auf normalen Intervallen I = [a, b] mit a ≤ b gilt λ(I) = b− a. a darf ubrigens −∞sein und b darf ebenso +∞ sein. Die Lange wird dann +∞.
Satz 1.25 [Existenz des Lebesgue-Masses λ] Auf (R,B(R)) existiert ein ein-
deutiges σ-endliches Mass λ - das Lebesgue-Mass - derart, dass fur jedes Intervall I :=
[a, b], a ≤ b gilt: λ(I) = b− a.
Wir haben in Definition 1.13 die P -Nullmengen kennengelernt. Analog definiert man jetzt
Definition 1.26 [Lebesgue-Nullmengen] Eine Menge A ∈ B(R) heisst Lebesgue-
Nullmenge, wenn λ(A) = 0.
Bemerkungen zu fs/as (WT) und fu/ae (Analysis)
29
Lemma 1.27 [Q ist eine Lebesgue-Nullmenge]
Beweis Lemma 1.27
Fangfrage zum Beweis von Lemma 1.27: Q ist dicht in R; haben wir damit nicht auch
bewiesen, dass R eine Lebesgue-Nullmenge ist?
30
1.6.4 Singular stetige Wahrscheinlichkeit auf R - Cantorsches Diskontinuum
Wir haben bisher die beiden Typen von Wahrscheinlichkeiten ”diskret” und ”absolut
stetig” kennengelernt (”absolut stetig” war in der einfuhrenden Vlsg WTS einfach ”stetig”).
Es war uns intuitiv sofort klar, dass man auch konvexe Linearkombinationen dieser Wahr-
scheinlichkeiten bilden kann. Jetzt kommt ein dritter Typ, dessen Existenz nicht offen-
sichtlich ist:
Definition 1.28 [singular stetige Wahrscheinlichkeiten] Sei P eine Wahrschein-
lichkeit und FP deren Verteilungsfunktion. Falls FP stetig ist und die Menge der Wachs-
tumspunkte von FP Lebesgue-Mass 0 haben, nennen wir P singular stetig.
Bemerkungen zu Wachstumspunkte von FP
Man konnte Zweifel haben, dass so was uberhaupt existiert. Zudem ist man versucht zu
formulieren, dass abzahlbare Mengen immer Lebesgue-Mass 0 haben (das stimmt sogar
(unformuliertes Korollar zu Lemma 1.27)) und uberabzahlbare Mengen nicht mehr Mass
0 haben. Zum Kontrast fuhren wir jetzt das Cantorsche Diskontinuum ein:
31
Welche Eigenschaften hat dieses Diskontinuum?
1.6.5 Vollstandige Klassifikation der Wahrscheinlichkeiten auf (R,B(R)), ohne
Beweis
Satz 1.29 [Vollstandige Klassifikation der Wahrscheinlichkeiten] Jede Vertei-
lungsfunktion F kann als konvexe Linearkombination F = aFd + bFa + cFs dargestellt
werden. Dabei sind Fd eine diskrete, Fa eine absolut stetige und Fs eine singular stetige
Verteilungsfunktion.
Worin liegt die tiefere Bedeutung dieses Satzes? Definition 1.18 (diskrete Wahrschein-
lichkeit) scheint einleuchtend (mit der Ausnahme, dass eine Wahrscheinlichkeit auf Q
diskret ist (obschon Q dicht in R)). Danach folgt jedoch die irritierend indirekte Defi-
nition von absolut stetigen Wahrscheinlichkeiten uber die Verteilungsfunktion mit Hilfe
des Lebesgue-Integrals! Man muss also das Lebesgue-Mass kennen und das Lebesgue-
Integral, um die Definition von absolut stetigen Wahrscheinlichkeiten zu verstehen - ist
das nicht Willkur, muss das so sein? Satz 1.29 ist dann jedoch so einfach und elegant, dass
das wohl der kanonische Weg ist, den eine hohere Instanz vorgesehen hat!
32
1.6.6 Warum σ-Algebren? Warum P auf B(R) und nicht auf P(R)?
Man fragt sich als jungeR StudentIn zu Recht, weshalb wir diese σ-Algebren einfuhren und
nicht einfach ein P auf P(R) definieren. Dazu ein paar Grunde:
1. Es funktioniert so, wie wir es gemacht haben (siehe bisheriges Kapitel). Dies tont
defensiv-hilflos, in Anbetracht der Schwierigkeiten, welche sonst auftreten, ist es eine sehr
gute Antwort.
2. In der Finanzmathematik (allgemein in einer Vorlesung ”Stochastische Prozesse, Martin-
galtheorie”) betrachtet man nicht nur einzelne Zufallsgrossen X (siehe Kapitel 2), sondern
ganze sogenannte Stochastische Prozesse Xt. Bereits in der WTS haben wir am Rand
darauf hingewiesen, dass Zufallsgrossen X nicht beliebige Funktionen X : Ω → R sind,
sondern sogenannt messbare Abbildungen sein mussen (das Urbild muss in der σ-Algebra
sein). Dies wird auch bei den Stochastischen Prozessen der Fall sein. Dort wird man aber
nicht nur eine σ-Algebra haben, sondern eine ganze Folge von solchen σ-Algebren. Diese
stehen in der Finanzwelt fur die Informationsmenge - und die ist gerade dort sehr wichtig!
3. Der Hammer ist dann der folgende
Satz 1.30 [von Banach und Kuratowski (1929)] Unter Annahme der Gultigkeit
der Kontinuumshypothese gibt es keine auf ganz P(R) definierte, σ-additive Funktion P
so, dass P [R] = 1 und fur jedes x ∈ R gilt P [x] = 0.
Damit scheiden die absolut stetigen Wahrscheinlichkeiten schon mal aus; diese geben
einzelnen Punkten immer Wahrscheinlichkeit 0. Damit haben wir auf ganz P(R) auch
keine Normalverteilung. Die Service-Vorlesungen in Statistik fur IngenieurInnen, Natur-
wissenschaftlerInnen, OekonomInnen, SoziologInnen und PsychologInnen sind in diesem
Punkt also regelmassig falsch. Hingegen wird es kaum jemals Probleme geben, da die
Mengen zwischen B(R) und P(R) meines Wissens NIE in der Praxis auftreten.
Was, wenn wir die Kontinuumshypothese nicht annehmen wollen? Solange es zwischen N
und R nur eine endliche Kaskade von verschiedenen Machtigkeiten gibt, gilt ein analoger
Satz.
33
1.6.7 Das Banach-Tarski-Paradoxon
Der folgende Satz benotigt im Beweis das Auswahlaxiom und sonst lediglich die akzep-
tierten Axiome der Mathematik. Dann ist der Satz mathematisch richtig, aber schwer
nachvollziehbar (vgl. auch Artikel in der NZZ von Frau Prof. Bandle):
Satz 1.31 [Banach-Tarski-Paradoxon] Sei K eine Kugel im R3. Dann existiert
eine Zerlegung
K = A1 ∪A2 ∪ . . . ∪Am ∪B1 ∪B2 ∪ . . . ∪Bn
von K in paarweise disjunkte Teilmengen Ai, Bj derart, dass wir damit 2 neue Kugeln K
gleicher Grosse zusammensetzen konnen:
K = A′1 ∪A′2 ∪ . . . ∪A′m
und
K = B′1 ∪B′2 ∪ . . . ∪B′n,
wo Ai kongruent zu A′i ist und Bj kongruent zu B′j. Die A′i bzw B′j sind wieder disjunkt.
1.6.8 Wichtige, nicht behandelte Probleme
1. Man kann sich fragen, ob es zwischen B(R) und P(R) etwas ”relevantes” gibt? Die
Antwort ist klar JA: Wir haben in Satz 1.25 die Existenz des Lebesgue-Masses lediglich
auf (R,B(R)) garantiert erhalten. Wir sagen jetzt, dass eine Menge Λ zum System B(R)
gehort, falls 2 Borel-Mengen A,B derart existieren, dass A ⊂ Λ ⊂ B mit λ(B\A) = 0.
Das System B(R) heisst das System der Lebesgue-Mengen und ist eine σ-Algebra (kleine
Ubungsaufgabe). Damit kann man also das Lebesgue-Mass naturlich auf B(R) fortsetzen;
man spricht dann von einer Vervollstandigung von λ. Wir haben damit folgende Kaskade
von Systemen:
B(R) B(R) P(R).
Die im Artikel von Frau Bandle erwahnte Vitali-Menge ist ein Grund fur das letzte ” ”
(Beweis in Vlsg falls Zeit). Wir werden B(R) in dieser Vorlesung kaum benutzen, aber in
der hoheren Stochastik und Masstheorie ist es notwendig, sich damit auseinanderzusetzen.
34
2. Wir haben - nicht nur beim Lebesgue-Mass - die Existenzfrage von Massen und vor allem
Wahrscheinlichkeiten ausgeklammert. Dabei ist es meist einfach, Wahrscheinlichkeiten
auf einfachen Systemen zu definieren und deren Existenz und Vereinbarkeit mit den
Axiomen der Wahrscheinlichkeit zu beweisen. Dass diese Wahrscheinlichkeiten dann aber
zum Beispiel sinnvoll auf ganz B(R) erweitert/fortgesetzt werden konnen - das ist lang-
wierig. Die Beweise (Fortsetzungssatze) gehoren in eine Vorlesung uber Masstheorie.
35
Wahrscheinlichkeitstheorie
Dr. C.J. Luchsinger
2 Zufallsgrossen
Bevor wir uns den Zufallsgrossen zuwenden (2.3), wollen wir noch kurz 2 Themen vor-
holen: Allgemeine Bemerkungen zu Abbildungen und Mengen (2.1) und Bemerkungen zu
Rn,B(Rn) und λ auf (Rn,B(Rn)) (2.2):
2.1 Allgemeine Bemerkungen zu Abbildungen und Mengen
Sei (Ω,A, P ) ein Wahrscheinlichkeitsraum. Wir untersuchen erstmal das Urbild einer
Menge unter einer Abbildung und fordern vorerst nicht, dass die Abbildung messbar (d.h.
eine Zufallsgrosse) ist.
Definition 2.1 [Urbild einer Menge] Sei X eine Funktion von Ω nach R. Das
Urbild unter einer Abbildung X von B ∈ P(R) ist die folgende Teilmenge von Ω:
X−1(B) := X ∈ B := ω|X(ω) ∈ B.
Man beachte, dass wir erst am Schluss dieser Definitions-Kette einen mathematisch exak-
ten Ausdruck haben!
Wir wollen die Abbildung X−1 genauer untersuchen; die Abbildung X−1 erhalt Teilmen-
gen, Vereinigungen, Schnitte, Disjunktheit und Komplementbildung (vergleiche auch mit
Honours-Aufgabe auf Blatt 2):
Lemma 2.2 [X−1 und Mengenoperationen] Seien A,B sowie Bα|α ∈ I Borel-
Mengen. Dann gelten:
a) Sei A ⊂ B, dann auch X−1(A) ⊂ X−1(B)
b) X−1(∪IBα) = ∪IX−1(Bα)
c) X−1(∩IBα) = ∩IX−1(Bα)
d) Falls A ∩B = φ, dann auch X−1(A) ∩X−1(B) = φ
e) X−1(Ac) = [X−1(A)]c
Vorsicht: ∪α∈IBα /∈ B(R) moglich, da I uberabzahlbar hier erlaubt!
36
Je nach Zeit; Beweis von Teilen von Lemma 2.2 in Vlsg; sonst/Rest in den
Ubungen:
37
2.2 Bemerkungen zu Rn,B(Rn) und λ auf (Rn,B(Rn))
Definition 2.3 [B(Rn)] Die Borel-σ-Algebra auf Rn ist diejenige σ-Algebra B(Rn),
welche vom π-System der Rechtecke (Cartesische Produkte von Intervallen)
n∏
i=1
(ai, bi]
erzeugt wird.
Ein weiterer Erzeuger von B(Rn) ist die Menge ∏ni=1Bi|Bi ∈ B(R). Man beachte, dass
∏ni=1Bi|Bi ∈ B(R) $ B(Rn); Ausnahmebeispiel:
Wir wollen noch das Lebesgue-Mass λ auf (Rn,B(Rn)) einfuhren. Wir unterscheiden bei
der Bezeichnung von λ nicht nach Dimension! Auf (Rn,B(Rn)) ist λ das einzige σ-endliche
Mass derart, dass (ai ≤ bi, fur 1 ≤ i ≤ n)
λ( n∏
i=1
[ai, bi])
=n∏
i=1
(bi − ai).
Man sieht an dieser Formel bereits, dass eine Gerade in der Ebene Lebesgue-Mass 0 hat
und ebenso eine Ebene im R3. Allgemein Hyperebenen im Rn; auch der Graph von stetigen
Funktionen f : Rn−1 → R mit kompaktem Trager (vgl Vlsg Reelle Analysis).
38
2.3 Zufallsgrosse
Definition 2.4 [Zufallsgrosse X auf (Ω,A, P )] Eine Zufallsgrosse auf (Ω,A, P ) ist
eine Funktion X : Ω→ R mit der Eigenschaft, dass
X−1(B) ∈ A (mb)
fur alle B ∈ B(R). Die geforderte Eigenschaft nennt man Messbarkeit (mb).
Warum diese mb?
Obige Definition ist ubrigens ein Spezialfall von
Definition 2.5 [messbare Abbildung, Borel-Funktion] Es seien (E1, E1) und
(E2, E2) Messraume (vgl. Definition 1.24). g : E1 → E2. g heisst E1 − E2-messbar, wenn
g−1(A) ∈ E1
fur alle A ∈ E2. Falls (Ei, Ei) = (R,B(R)) fur i ∈ 1, 2, nennt man g eine Borel-Funktion.
Fur LeserInnen auf der Suche nach den ganz grossen Zusammenhangen der hoheren Mathe-
matik: wenn Sie den Begriff des Messraumes mit der Topologie und die messbare Abbildung
mit der stetigen Funktion vergleichen, werden Sie gewisse Analogien entdecken.
39
Bemerkungen zu Definition 2.4:
1. Zufallsgrossen nennt man auch Zufallsvariablen.
2. In der Vlsg WTS (weitgehend auch in AS, SM) haben wir uns nicht um die mb
gekummert. Dies wird jetzt anders. Um jedoch die beiden Teile auseinanderzuhalten: fur
die Anwendungen und Ihre Vorstellungswelt ist eine Zufallsgrosse einfach eine Funktion
X : Ω→ R; damit die Mathematik nicht schiefgeht, fordern wir dazu noch die mb.
Beispiele (Indikatorfunktion(en), konstante Funktionen, einfache Zufallsgrossen):
40
2.4 Ein paar weitere, verwandte Definitionen
Definition 2.6 [n-dimensionaler Zufallsvektor] Ein n-dimensionaler Zufallsvek-
tor X = (X1, . . . , Xn) ist eine Funktion Ω → Rn derart, dass jede Koordinate eine Zu-
fallsgrosse ist.
Zufallsvektoren werden wir vor allem auch in der Vorlesung SM benutzen: Wenn wir Daten
(x1, . . . , xn) haben, so stellen wir uns vor, diese Daten sind Realisationen eines Zufallsvek-
tors X = (X1, . . . , Xn), also X(ω) = (X1(ω), . . . , Xn(ω)) = (x1, . . . , xn), fur ein ω, welches
gerade eingetreten ist (”Zustand der Welt”). Das geschieht im Modellierungsschritt, wo
man auch die Verteilung der Zufallsgrosse wahlen muss (je mehr Zufallsgrossen Sie ken-
nen, desto besser konnen Sie das). Wir haben diesen Schritt im Statistikteil der WTS auch
schon gemacht. In der Informatik heisst Modellierung ubrigens etwas anderes! In der WT
werden wir Zufallsvektoren entweder in obigem Sinn benutzen (zufalliges Element im Rn)
oder als endliche Folge von Zufallsgrossen. Mathematisch ist es beide Male das gleiche.
Definition 2.7 [Sub-σ-Algebra, Filtration] Seien A und F beide σ-Algebren. Wir
sagen, A ist eine Sub-σ-Algebra von F (geschrieben als A ⊆ F), wenn ∀A ∈ A gilt
A ∈ A ⇒ A ∈ F .
Sei T eine geordnete Menge und seien (At)t∈T Sub-σ-Algebren von A. Wir nennen eine
Familie (At)t∈T eine Filtration (in A), wenn
s ≤ t⇒ As ⊆ At. (Isotonie)
Definition 2.8 [(At)t∈T -adaptierter Stochastischer Prozess] Sei T eine geord-
nete Indexmenge. Wir nennen (Ω,A, P, (At)t∈T , (Xt)t∈T ) [kurz (Xt)t∈T ] einen (At)t∈T -
adaptierten stochastischen Prozess [kurz ”stochastischen Prozess”], wenn fur alle t ∈ T
gilt, dass Xt At − B(R)-messbar ist.
41
Wie bei der Definition der Zufallsgrosse, vernebelt die strenge mathematische Definition
den Blick auf das Wesentliche: T ist die Zeitmenge (diskret oder stetig je nach Model-
lierungsgegenstand) und der Zustandsraum ist allgemein R. Fur jedes feste ω ∈ Ω nennen
wir die Abbildung von T nach R
t→ Xt(ω)
Pfad (Trajektorie, Realisierung) des Prozesses. Man nennt deswegen stochastische Prozesse
auch zufallige Funktionen. In der Funktionalanalysis werden Sie die Analysis in einer
Verallgemeinerung betreiben, dass Sie (deterministische) Funktionen (zB im C[[0,∞)])
wie Punkte in einem Raum begreifen werden. In dieser Abstraktion werden dann viele
Resultate bewiesen, welche fur die Stochastischen Prozesse ebenfalls gebraucht werden
konnen. In der hoheren Stochastik sind deshalb gute Kenntnisse in Funktionalanalysis
sehr wichtig.
In den Anwendungen (vgl Vlsg AS) kann man dann je nach Modellierungsgegenstand also
die Zeit (zB diskret oder stetig) und den Zustandsraum (diskret oder stetig) frei wahlen;
fur’s erste gibt es die folgenden 4 (= 2 ∗ 2) Moglichkeiten:
42
2.5 Von Zufallsgrossen erzeugte σ-Algebren
Das folgende Resultat haben wir auf Blatt 2 im Honours-Teil bereits zu Fuss bewiesen;
wir werden es jetzt mit neu erlernten Begriffen und Resultaten eleganter formulieren und
beweisen konnen:
Lemma 2.9 [von X erzeugte σ-Algebra] Sei X eine Zufallsgrosse. Die Familie
σ(X) := X−1(B)|B ∈ B(R)
ist eine σ-Algebra auf Ω. Man nennt sie ”die von X erzeugte σ-Algebra”.
Beweis Lemma 2.9:
43
Beispiele zu ”von X erzeugte σ-Algebra”
44
kleine Dissonanz und deren Auflosung
Wir haben in der WTS die Zufallsgrossen folgendermassen definiert:
WTS-Definition 2.1 [Zufallsgrosse X auf (Ω,A, P )] Eine Zufallsgrosse auf (Ω,A, P )
ist eine Funktion X : Ω → R mit der Eigenschaft, dass ω ∈ Ω|X(ω) ≤ a ∈ A fur alle
reellen a. Die geforderte Eigenschaft nennt man Messbarkeit.
Wie ist das jetzt mit unserer Definition 2.4?
45
2.6 Algebraische Verknupfungen, Limiten und Transformationen von Zufalls-
grossen
Falls Sie Wahrscheinlichkeitsrechnung und Statistik auf Gymnasial- oder Fachhoch-
schulstufe unterrichten oder Service-Veranstaltungen fur Nicht-MathematikerInnen halten,
so werden Sie ohne Bedenken zum Beispiel Summen von Zufallsgrossen bilden. Defini-
tion 2.4 beinhaltet aber, wie bereits gesagt, 2 Teile. Der erste Teil ist unproblematisch:
Zufallsgrossen sind Abbildungen von Ω nach R. Also wird man Summen und andere al-
gebraische Verknupfungen und Limiten punktweise definieren. Aber sind das dann noch
Zufallsgrossen? Haben wir auch die Messbarkeit? Die folgenden Lemmata bejahen dies:
Lemma 2.10 [Algebraische Operationen] Seien X und Y Zufallsgrossen. Dann
gilt:
a) aX + bY ist eine Zufallsgrosse, wo a, b ∈ R; damit wird die Menge aller Zufallsgrossen
zu einem
b) maxX,Y und minX,Y sind Zufallsgrossen
c) XY ist eine Zufallsgrosse
d) Falls fur jedes ω ∈ Ω gilt, dass Y (ω) 6= 0, so ist auch X/Y eine Zufallsgrosse
e) X+, X−, |X| sind Zufallsgrossen.
Beweis von Lemma 2.10
46
Beweis von Lemma 2.10 (Fortsetzung)
47
Lemma 2.11 [Folgen, Limiten, Summen von Zufallsgrossen] Sei (Xi)i≥1 eine
Folge von Zufallsgrossen. Dann gilt:
a) supnXn, infnXn sind Zufallsgrossen.
b) lim supnXn, lim infnXn sind Zufallsgrossen.
c) Falls X(ω) := limn→∞Xn(ω) fur alle ω ∈ Ω existiert, dann ist auch X eine Zu-
fallsgrosse.
d) Falls X(ω) :=∑∞n=1Xn(ω) fur alle ω ∈ Ω existiert, dann ist auch X eine Zufallsgrosse.
Beweis von Lemma 2.11
Kleine Bemerkung:
48
Lemma 2.12 [Transformationen von Zufallsgrossen] Sei (X1, . . . , Xn) ein Zu-
fallsvektor und sei g : Rn → R eine Borel-Funktion (g−1(B) ∈ B(Rn) fur alle B ∈ B(R)).
Dann ist auch Y := g(X1, . . . , Xn) eine Zufallsgrosse.
Beweis von Lemma 2.12
49
Wir haben die einfachen Zufallsgrossen bereits eingefuhrt. Sie werden ihrem Namen
vollig gerecht insofern, dass sie endliche Linearkombinationen von Indikatorfunktionen sind
- und Indikatorfunktionen sind wirklich einfach zu handhaben. Wir werden die einfachen
Zufallsgrossen bei der Definition von Erwartungswerten benutzen. Dazu wird Lemma 2.13
benutzt:
Lemma 2.13 [Approximation nichtnegativer Zufallsgrossen durch eine Folge
einfacher Zufallsgrossen] Sei X eine nichtnegative Zufallsgrosse. Dann gibt es eine
monoton wachsende Folge einfacher Zufallsgrossen 0 ≤ X1 ≤ X2 . . . sodass Xn(ω) ↑ X(ω)
fur alle ω ∈ Ω.
Beweis von Lemma 2.13
50
Wir kommen jetzt - was die Beweistechnik anbelangt (!) - zu einem Analogon von
Satz 1.6 [Monoton-Lemma fur Mengen]. Wir werden das nachfolgende Monoton-Lemma
fur Zufallsgrossen dann einsetzen, wenn wir beweisen wollen, dass eine bestimmte Menge
von Zufallsgrossen alle Zufallsgrossen enthalt.
Theorem 2.14 [Monoton-Lemma fur Zufallsgrossen] Sei G ein π-System, wel-
ches A erzeugt. H sei eine Menge von Funktionen auf Ω derart, dass
i) 1 ∈ H (konstante Funktion ist drin)
ii) 1A ∈ H fur alle A ∈ Giii) H ist ein Vektorraum
iv) Falls Xn ∈ H fur alle n und supnXn(ω) < ∞ fur alle ω ∈ Ω, dann gehort auch
supnXn zu H.
Dann beinhaltet H alle (!) Zufallsgrossen.
Beweis von Theorem 2.14
51
Beweisfortsetzung:
Bemerkung 2.15 [zu Karr-Theorem 2.22] Im Buch von Karr hat es hier noch ein
Theorem 2.22; es ist falsch: 1Ac ist zum Beispiel nicht in H, wenn man S = A wahlt!
52
2.7 Verteilungen, Verteilungsfunktionen und vorgegebene Verteilungen
2.7.1 Verteilungen und Verteilungsfunktionen im Fall von Zufallsgrossen (n=1)
Wir haben in Kapitel 1 (Wahrscheinlichkeit) nach der Wahrscheinlichkeit P auch die
Verteilungsfunktion einer Wahrscheinlichkeit FP auf (R,B(R)) kennengelernt. Mit Defini-
tion 1.14 und Satz 1.15 haben wir eine 1-1-Beziehung zwischen den P und den FP erhalten.
Wir haben damit viel Vorarbeit geleistet, welche uns jetzt ein zugiges Vorgehen erlaubt,
um diese Konzepte mit dem X zu verbinden. In Kapitel 1 hatten wir die Zufallsgrossen
hochstens zu Motivationszwecken benutzt.
Wir werden in 2.7.3 lernen, dass wir zu jeder vorgegebenen Verteilungsfunktion bzw
Wahrscheinlichkeit immer auch eine Zufallsgrosse mit ebendieser Verteilung konstruieren
konnen. Zu jeder Zufallsgrosse erhalten wir aber auch kanonisch eine Wahrscheinlichkeit
auf (R,B(R)):
Sei (Ω,A, P ) ein Wahrscheinlichkeitsraum. Sei X eine Zufallsgrosse auf diesem Wahr-
scheinlichkeitsraum. In Aufgabe 34 haben Sie gezeigt: durch
PX(B) := P [X−1(B)] := P [ω|X(ω) ∈ B]
wird eine Wahrscheinlichkeit auf (R,B(R)) definiert. Wir haben damit zusammengefasst
folgende 2 Wahrscheinlichkeitsraume (Ω,A, P ) und (R,B(R), PX):
Nebenbei: in der allgemeinen Masstheorie spricht man von einem Bildmass; P wird durch
X abgebildet; man hat dann in diesem Sinn fur ein B ∈ B(R) folgende Schreibweise
X(P )[B] := P [X−1(B)].
53
Es folgen noch einige Bezeichnungen, die sich eingeburgert haben:
Definition 2.16 [Verteilung, Verteilungsfunktion, Survivalfunktion] Sei X
eine Zufallsgrosse. Dann nennt man
a) PX(B) := P [X−1(B)], B ∈ B(R), die Verteilung von X. Das Wort ”Verteilung” wird
umgangssprachlich jedoch auch allgemeiner benutzt; man kann sagen, X hat die Verteilung
N (µ, σ2) oder hat diese Dichte oder Verteilungsfunktion statt das PX(B) anzugeben.
b) FX(t) := PX((−∞, t]) := P [X ≤ t] die Verteilungsfunktion von X. Englisch: Cumula-
tive Distribution Function (CDF).
c) SX(t) := 1 − FX(t) := P [X > t] nennt man selbsterklarend die Survivalfunktion (am
Besten motiviert mit der Exp(λ)-Zufallsgrosse):
X nennen wir diskret, absolut stetig oder singular stetig, falls das PX von der je-
weiligen Art ist. Ebenso spricht man im Fall von absolut stetigen Zufallsgrossen X von
der Dichtefunktion fX , falls fX = fP und fP die Dichtefunktion von PX ist.
54
Bemerkungen zur Gleichheit von Zufallsgrossen bzw deren Verteilungen:
55
2.7.2 Verteilungen und Verteilungsfunktionen im Fall von Zufallsvektoren
Definition 2.17 [Gemeinsame Verteilungsfunktion; engl. Joint CDF] Sei
X = (X1, . . . , Xn) ein Zufallsvektor. Dann definieren wir:
a) Die Verteilung von X ist die Wahrscheinlichkeit PX(B) := P [X ∈ B] auf Rn.
b) Die Gemeinsame Verteilungsfunktion von X ist die Funktion FX : Rn → [0, 1], welche
folgendermassen definiert ist:
FX(t1, . . . , tn) := P [X1 ≤ t1, . . . , Xn ≤ tn].
Auch hier kann man zeigen, dass PX durch FX eindeutig festgelegt ist (kleine HA).
Wir zeigen jetzt, dass wir aus der gemeinsamen Verteilungsfunktion von X immer die
Randverteilungen herausdestillieren konnen:
Lemma 2.18 [Gewinnen von FXi aus FX ] Sei X ein Zufallsvektor. Dann gilt fur
alle t, i:
FXi(t) = limtj→∞,j 6=i
FX(t1, . . . , ti−1, t, ti+1, . . . , tn).
Beweis Lemma 2.18
56
Analog zum eindimensionalen Fall, nennen wir einen Zufallsvektor X
* diskret, falls es eine hochstens abzahlbare Menge C ⊂ Rn gibt, sodass P [X ∈ C] = 1.
* absolut stetig, falls es eine Funktion fX : Rn → R+ (gemeinsame Dichte - im Gegensatz
zu den Rand-Dichten) gibt, sodass
P [X1 ≤ t1, . . . , Xn ≤ tn] =∫ t1
−∞. . .
∫ tn
−∞fX(u1, . . . , un)du1 . . . dun.
Im Fall der diskreten Zufallsvektoren gilt (Vorsicht beim vermuteten absolut stetigen
Pendant):
Lemma 2.19 [diskreter Zufallsvektor und diskrete Einzelkomponenten] Ein
Zufallsvektor ist genau dann diskret, wenn alle seine Einzelkomponenten diskrete Zu-
fallsgrossen sind.
Beweis Lemma 2.19
57
Lemma 2.20 [absolut stetiger Zufallsvektor und absolut stetige Einzelkom-
ponenten] Sei X = (X1, . . . , Xn) ein absolut stetiger Zufallsvektor. Dann gilt fur alle
Einzelkomponenten, dass auch diese absolut stetig sind und es gilt:
fXi(t) =∫ ∞−∞
. . .
∫ ∞−∞
fX(u1, . . . , ui−1, t, ui+1, . . . , un)du1 . . . dui−1dui+1 . . . dun.
Beweis Lemma 2.20 und Gegenbeispiel zur vermuteten Umkehrung
In Karr folgen an dieser Stelle noch die wichtigsten Verteilungen. Wir haben dies in der
WTS (weitere in SM, AS) besprochen. Lesen Sie vielleicht nochmals WTS-Kapitel 4 durch.
Auch die Transformation von stetigen Zufallsgrossen wurde bereits in WTS-Kapitel 2 (2.6)
besprochen. Karr geht noch unvollstandig auf die mehrdimensionalen Transformationen
ein; dies machen wir nur einmal in der Vlsg SM.
58
2.7.3 Vorgegebene Verteilungen
Bisher haben wir Zufallsgrossen X einfach als gegeben betrachtet. Wir haben Satze
geschrieben der Art: ”sei X standardnormalverteilt”, also eine N (0, 1)-Zufallsgrosse. Dies
konnten wir zu Recht machen, denn es gilt
Satz 2.21 [Existenz von (Ω,A, P ) und X zu gegebenem F ] Sei F eine Vertei-
lungsfunktion auf R. Dann existiert ein Wahrscheinlichkeitsraum (Ω,A, P ) und eine Zu-
fallsgrosse X so, dass FX = F .
Beweis Satz 2.21 (handschriftlich bereits in 2.5 behandelt)
Satz 2.21 ist jedoch nur eine Existenzaussage, wir wollen noch eine konstruktive Methode
herleiten. Dazu fuhren wir Konzepte ein, welche in der Vorlesung SM in Kapitel 4 auch
verwendet werden.
59
Definition 2.22 [Inverse von F oder Quantil-Funktion von F ] Wir definieren
die Inverse (oder Quantil-Funktion) einer Verteilungsfunktion F als
F−1(x) := inft : F (t) ≥ x, x ∈ (0, 1).
Ein paar Bemerkungen und Bilder, um dieses Konstrukt besser kennenzulernen:
Wir listen hier ein paar elementare Eigenschaften von F−1 auf, welche wir gleich benutzen
werden. Sie beweisen diese Aussagen in Ubungsblatt 9.
Lemma 2.23 [elementare Eigenschaften von F−1] Sei F−1 die Inverse von F .
Dann gelten:
a) Fur alle (x, t) gilt F−1(x) ≤ t⇔ x ≤ F (t).
b) F−1 ist monoton wachsend und links-stetig.
c) Falls F stetig ist, dann gilt F (F−1(x)) = x fur alle x ∈ (0, 1).
60
Jetzt kommt - im Gegensatz zu Satz 2.21 - eine konstruktive Methode. Dazu ein paar
Vorbemerkungen:
1. Im Statistik-Paket R (vgl Vlsg WTS) und in anderen Statistik-Paketen haben Sie alle
wichtigen Zufallsgrossen bereits implementiert.
2. Man kann sich aber einerseits fragen, wie die EntwicklerInnen von R dies gemacht haben
und andererseits kann es auch sein, dass Sie in einer anderen Programmierumgebung dies
zu Fuss selber machen mussen.
3. Was jetzt folgt berucksichtigt nicht allfallige algorithmische Probleme wegen der Rechen-
geschwindigkeit.
4. Im Semesterapparat finden Sie das Buch ”Introduction to Stochastic Calculus Applied
to Finance” von Lamberton/Lapeyre. Dort hat es in Kapitel 8 weitere Angaben zur
Programmierung von Zufallsgrossen, Zufallsvektoren und -Prozessen.
5. Wir setzen im Folgenden voraus, dass Sie eine U [0, 1]-Zufallsgrosse bereits besitzen.
Diese erhalten Sie in meist genugender Prazision zum Beispiel, in dem Sie einen Zufalls-
generator fur naturliche Zahlen von 1 bis N haben und dann das Resultat durch N teilen.
6. Die jetzt folgende Methode ”Quantil-Transformation” (eher Statistik) nennt man auch
”Inverse Distribution Function”-Methode (eher Stochastik).
Lemma 2.24 [Inverse Distribution Function-Methode] Sei F eine Verteilungs-
funktion auf R. Sei U eine U [0, 1]-Zufallsgrosse Dann hat X := F−1(U) die Verteilungs-
funktion F .
Beweis von Lemma 2.24 und Beispiel (exp(λ))
Sie sehen anhand des Beispiels auch, dass Sie entweder F−1 in geschlossener Form
bereits haben mussen oder eine gute numerische Approximation kennen.
61
Zu Lemma 2.24 gibt es auch eine Umkehrung. In der Vorlesung SM sehen wir mit
Hilfe von WT-Lemma 2.25 in SM-Kapitel 4 uber Testtheorie, dass bei stetiger Teststatistik
unter der Nullhypothese der P-Wert eine U [0, 1]-Verteilung besitzt.
Lemma 2.25 [Verteilung von FX(X) wenn FX stetig] Sei FX stetig, dann hat
FX(X) eine U [0, 1]-Verteilung.
Beweis Lemma 2.25
Ohne Beweis fugen wir noch das Pendant fur Vektoren von Satz 2.21 an:
Satz 2.26 [Existenz von (Ω,A, P ) und X zu gegebenem F ] Sei F : Rn →[0, 1] eine n-dimensionale Verteilungsfunktion. Dann existiert ein Wahrscheinlichkeits-
raum (Ω,A, P ) und ein Zufallsvektor X := (X1, . . . , Xn) so, dass FX = F .
62
Wir schliessen dieses Kapitel ab mit Bemerkungen zu Folgen von Zufallsgrossen. Wir
brauchen dies in Kapitel 5 und vor allem in der Vlsg AS.
Nehmen wir einmal an, wir haben mathematisch sauber ein (Ω,A, P ) und eine Folge
von Zufallsgrossen (Xn)n≥0 konstruiert. Dann muss wegen der Stetigkeit von P sicher
gelten:
P [X1 ≤ t1, . . . , Xn ≤ tn] = limt→∞
P [X1 ≤ t1, . . . , Xn ≤ tn, Xn+1 ≤ t].
Falls wir zu einer gegebenen Folge von Verteilungsfunktionen (Fn)n≥0 eine Folge von Zu-
fallsgrossen (Xn)n≥0 konstruieren wollen, mussen wir also sicher fordern, dass
limt→∞
Fn+1(t1, . . . , tn, t) = Fn(t1, . . . , tn).
In der Tat ist diese Konsistenzbedingung auch genugend. Dies ist ein fundamentales Re-
sultat aus der Masstheorie und lautet (Beweis in A.N. Sirjaev: Wahrscheinlichkeit)
Satz 2.27 [Satz von Kolmogorov uber die Existenz stochastischer Prozesse]
Fur alle n gelte, dass Fn eine Verteilungsfunktion auf Rn ist. Es gelte zudem die Konsis-
tenzbedingung
limt→∞
Fn+1(t1, . . . , tn, t) = Fn(t1, . . . , tn)
fur alle n und (t1, . . . , tn). Dann gibt es einen Wahrscheinlichkeitsraum (Ω,A, P ) und
eine Folge von Zufallsgrossen (Xn)n≥0 so, dass Fn fur alle n die Verteilungsfunktion von
(X1, . . . , Xn) ist.
63
Wahrscheinlichkeitstheorie
Dr. C.J. Luchsinger
3 Unabhangigkeit
Wir repetieren zuerst unsere elementaren Vorstellungen von Unabhangigkeit von Ereignis-
sen und Zufallsgrossen aus der WTS:
64
3.1 Unabhangigkeit von Zufallsgrossen
Entgegen dem Aufbau in WTS werden wir jetzt zuerst die Unabhangigkeit von Zufallsgros-
sen behandeln und definieren hierzu erstmal:
Defintion 3.1 [Unabhangigkeit von Zufallsgrossen] Zufallsgrossen X1, . . . , Xn
sind unabhangig, wenn
P [X1 ∈ B1, . . . , Xn ∈ Bn] =n∏
i=1
P [Xi ∈ Bi]
fur alle Borelmengen B1, . . . , Bn. Eine unendliche Menge von Zufallsgrossen sei un-
abhangig, wenn jede endliche Teilmenge hiervon unabhangig ist.
Obige Definition ist ein wenig umstandlich: wir mussten dazu jede Borel-Menge
uberprufen - und die konnen kompliziert sein! Bereits in der Vlsg WTS haben wir je-
doch gesehen, dass die Faktorisierung der Verteilungsfunktion bereits ein gleichwertiges
Kriterium ist. Damit konnen wir - wie schon haufig in Kapitel 1 und 2 - eine Vereinfachung
machen derart, dass anstelle von allen Borel-Mengen lediglich ein Erzeugendensystem von
B(R) - hier die halboffenen Intervalle (−∞, a] - uberpruft werden mussen.
Satz 3.2 [Faktorisierung von F und Unabhangigkeit] Zufallsgrossen X1, . . . , Xn
sind unabhangig genau dann wenn
FX(t1, . . . , tn) =n∏
i=1
FXi(ti)
fur alle t1, . . . , tn ∈ R.
Beweis Satz 3.2
⇒:
65
⇐:
66
Bereits in der Vlsg WTS haben wir immer wieder betont, dass die Definition der Vertei-
lungsfunktion(en) gleich ist fur alle Arten von Verteilungen (diskret, absolut stetig und sin-
gular stetig - sogar fur konvexe Linearkombinationen hiervon). Unterschiede ergeben sich,
sobald wir die Wahrscheinlichkeitsfunktionen (diskret) bzw die Dichten (absolut stetig) im
Hinblick auf die Unabhangigkeit der zugrunde liegenden Zufallsgrossen untersuchen wollen.
Deshalb folgen jetzt 2 sich entsprechende Satze (Satz 3.3 und Satz 3.4):
Satz 3.3 [Unabhangigkeit diskreter Zufallsgrossen] Seien X1, . . . , Xn diskrete
Zufallsgrossen mit Werten in der abzahlbaren Menge C. Dann gilt: X1, . . . , Xn sind un-
abhangig genau dann wenn
P [X1 = a1, . . . , Xn = an] =n∏
i=1
P [Xi = ai]
fur alle a1, . . . , an ∈ C.
Beweis Satz 3.3
67
Dann noch das Analogon im stetigen Fall:
Satz 3.4 [Unabhangigkeit absolut stetiger Zufallsgrossen] X := (X1, . . . , Xn)
sei ein absolut stetiger Zufallsvektor. Dann gilt: X1, . . . , Xn sind unabhangig genau dann
wenn
fX(x1, . . . , xn) =n∏
i=1
fXi(xi)
fur fast alle x1, . . . , xn ∈ R.
Beweis Satz 3.4
68
Um das folgende, kleine Korollar zu verstehen, lesen Sie vorher bitte die Resultate und
Definitionen aus 2.7 nochmals durch. Gemass Lemma 2.20 gilt, dass die Komponenten
eines absolut stetigen Zufallsvektors immer auch absolut stetig sind. Wir haben bereits
dort darauf hingewiesen, dass - im Gegensatz zum diskreten Fall - die Umkehrung nicht
gilt und dazu auch ein Beispiel gegeben. Hingegen gilt die Umkehrung, wenn wir noch die
Unabhangigkeit der Einzelkomponenten fordern:
Korollar 3.5 [absolut stetiger Vektor und absolut stetige Komponenten bei
Unabhangigkeit] Seien X1, . . . , Xn unabhangige Zufallsgrossen. Dann gilt: die Kompo-
nenten (Xi)ni=1 sind genau dann absolut stetig, wenn auch der Vektor (X1, . . . , Xn) absolut
stetig ist.
Beweis Korollar 3.5
69
3.2 Unabhangigkeit von Ereignissen
Definition 3.6 [Unabhangigkeit von Ereignissen] Ereignisse A1, . . . , An sind
unabhangig, wenn die Indikatoren 1A1 , . . . ,1An (Zufallsgrossen!) unabhangig sind. Eine
unendliche Sammlung von Ereignissen nennen wir unabhangig, wenn jede endliche Teil-
sammlung unabhangig ist.
Wir mussen naturlich schauen, dass diese Definition gleichwertig mit der Definition aus
der WTS ist - dies ist der Fall:
Satz 3.7 [Gleichwertigkeit der Definitionen von Unabhangigkeit von Ereig-
nissen] Ereignisse A1, . . . , An sind unabhangig genau dann wenn
P [∩i∈IAi] =∏
i∈IP [Ai]
fur jede Teilmenge I ⊆ 1, . . . , n.
Beweis Satz 3.7
Sie beweisen in einer Ubungsaufgabe, dass A1, . . . , An genau dann unabhangig sind, wenn
auch Ac1, . . . , Acn unabhangig sind.
70
In Kapitel 1 haben wir in Satz 1.11 [Borel-Cantelli I] gezeigt, dass
∞∑n=1
P [An] <∞⇒ P [lim supn
An] = 0.
Im Fall von Unabhangigkeit haben wir auch eine Umkehrung der Art:
Satz 3.8 [Borel-Cantelli II] Seien A1, A2, . . . unabhangige Ereignisse. Dann gilt
∞∑n=1
P [An] =∞⇒ P [lim supn
An] = 1.
Beweis Satz 3.8
In den Ubungen werden Sie noch Beispiele zu Borel-Cantelli angeben mussen.
71
Wahrscheinlichkeitstheorie
Dr. C.J. Luchsinger
4 Erwartungswerte
4.0 Ein paar Vorbemerkungen
1. Wir haben in Kapitel 2 nach Lemma 2.11 einen kurzen Abstecher gemacht, in dem
wir eine Erweiterung von (Ω,A, P ) und einem darauf definierten X vorgenommen haben,
um auch Werte ±∞ als Werte einer Zufallsgrosse zuzulassen. Wir brauchen dies in der Vlsg
AS. Falls eine Zufallsgrosse X mit Wahrscheinlichkeit > 0 den Wert +∞ annimmt (und
beispielsweise nach unten beschrankt ist), dann definieren wir den Erwartungswert als +∞.
Es ist aber bereits in der Vlsg WTS darauf hingewiesen worden, dass eine Zufallsgrosse
durchaus sowohl mit Wahrscheinlichkeit 1 endliche Werte annehmen kann, aber trotzdem
keinen endlichen Erwartungswert hat. Dazu geben Sie im Must-Teil auf Blatt 10 ein
einfaches Beispiel (benutzen Sie dazu den Erwartungswertsbegriff aus der WTS).
2. In der WTS haben wir in WTS-Definition 3.1 den Erwartungswert E[X] einer
diskreten und (absolut) stetigen Zufallsgrosse X definiert als
E[X] :=∑
xixiP [X = xi] falls X diskret∫∞
−∞ xf(x)dx falls X (absolut) stetig.
Weiters definierten wir mit g(x) eine Borel-Funktion von R nach R:
E[g(X)] =∑
xig(xi)P [X = xi] falls X diskret∫∞
−∞ g(x)f(x)dx falls X (absolut) stetig.
Diese Definitionen gelten, falls die Summe bzw. das Integral existiert. Dabei wird jeweils
uber den gesamten Wertebereich der Zufallsgrosse summiert respektive integriert.
Diese ”Definitionen” reichen fur eine einfuhrende Vorlesung und Serviceveranstaltun-
gen. Sie sind auch anschaulich wegen des bekannten Durchschnitts und der physikalischen
72
Interpretation als Schwerpunkt. Diese beiden Definitionen sind aber nicht ganz unprob-
lematisch, wenn einfach so parallel hingeschrieben. Die erste ist ein Spezialfall der zweiten
Definition und es ist nicht sofort ersichtlich, dass dies nicht auf einmal zu 2 verschiede-
nen Erwartungswerten fuhren konnte: je nachdem, ob man in einer konkreten Situation
die erste oder die zweite Definition benutzt. Das Problem obiger Definitionen ist aber ins-
besondere, dass wir in der modernen Stochastik ein besseres Fundament brauchen; deshalb
wird zur Definition von Erwartungswerten weit ausgeholt (4.1-4.3, 4.4, 4.5). Wir werden
die obigen Resultate in 4.5 (also relativ spat) sauber erarbeiten.
3. Was wollen wir sinnvollerweise von einem Erwartungswert fordern (haben wir in
der WTS uber E gelernt)?
73
4.1 Erwartungswert einfacher Zufallsgrossen
Sei (Ω,A, P ) ein Wahrscheinlichkeitsraum. Wir haben in Kapitel 2 einfache Zufallsgrossen
eingefuhrt in dem Sinne, dass Sie nur endlich viele Werte annehmen und damit eine Darstel-
lung in der Art
X =n∑
i=1
ai1Ai (D)
besitzen, wo (Ai)ni=1 eine Partition von Ω ist (die ai’s mussen nicht verschieden sein). Dann
definieren wir erstmal
Definition 4.1 [Erwartungswert einer einfachen Zufallsgrosse] Sei X eine
einfache Zufallsgrosse mit Darstellung X =∑ni=1 ai1Ai . Dann definieren wir
E[X] :=n∑
i=1
aiP [Ai].
Wir orientieren uns damit bei dieser Definition durchaus am diskreten Fall von WTS-
Definition 3.1: auch dort war der Erwartungwert eine gewichtete Summe; die Gewichte sind
dabei die Wahrscheinlichkeiten (P [Ai]), mit denen die Werte (ai) angenommen werden.
Sie zeigen in einer kleinen Ubung, dass dies wohldefiniert in dem Sinne ist, dass der Er-
wartungswert nicht von der Darstellung (D) abhangt.
Berechnen Sie mit Hilfe von Definition 4.1 E[1A] und E[c], wo c eine Konstante.
74
Nach diesen kleinen Resultaten folgen Linearitat und Monotonie von E bei einfachen Z.G.:
Satz 4.2 [Linearitat von E bei einfachen Z.G.] Seien X,Y beide einfache Z.G.
und a, b ∈ R. Dann ist auch aX + bY eine einfache Z.G. und es gilt:
E[aX + bY ] = aE[X] + bE[Y ].
Beweis von Satz 4.2:
Wie folgt jetzt hieraus die Monotonie von E bei einfachen Z.G.?
75
4.2 Erwartungswert nichtnegativer Zufallsgrossen
In Lemma 2.13 haben wir gezeigt, dass wir fur jede Z.G. X mit X ≥ 0 eine Folge
von einfachen Zufallsgrossen 0 ≤ X1 ≤ X2 . . . haben, sodass Xn(ω) ↑ X(ω) punktweise.
Es ist dann naheliegend, den Erwartungswert nichtnegativer Zufallsgrossen als Limes von
Erwartungswerten ebensolcher Z.G. zu definieren:
Definition 4.3 [Erwartungswert nichtnegativer Zufallsgrossen] Sei X eine
nichtnegative Zufallsgrosse. Sei Xn eine monotone, nichtnegative Folge von einfachen
Zufallsgrossen, sodass Xn ↑ X. Dann definieren wir
E[X] := limn→∞
E[Xn] ≤ ∞.
Wegen der Monotonie von E fur einfache Z.G. haben wir auch E[X1] ≤ E[X2] ≤ . . ..
Damit existiert der Limes auf jeden Fall (monotone Folgen konvergieren immer eigentlich
oder uneigentlich). Der Limes kann aber unendlich sein.
Wir mussen noch die technisch relevante Erwartung uberprufen, dass obiger E[X] nicht
von der gewahlten Folge abhangt; dies ist der Fall:
Lemma 4.4 [E ist unabhangig von der approximierenden Folge] Seien (Xn)
und (Xk) beides Folgen von monotonen, nichtnegativen, einfachen Z.G., welche beide gegen
X konvergieren. Dann gilt auch
limn→∞
E[Xn] = limk→∞
E[Xk].
Streng mathematisch gesehen, durfte man in Definition 4.3 nicht das gleiche Zeichen ”E”
fur den Erwartungswert benutzen wie in Definition 4.1. Aber wegen Lemma 4.4 durfen wir
bei einfachen, nichtnegativen Zufallsgrossen X diese auch durch die ”Folge” von Xn := X
fur alle n ”approximieren” und erhalten damit den gleichen Wert in Definition 4.1 wie
in Definition 4.3. In 4.3 wird diese mathematische Raffinesse noch in den negativen Teil
fortgesetzt - es wird also erlaubt sein, hier immer das gleiche Symbol E zu benutzen!
76
Beweis von Lemma 4.4:
77
Genau wie in Teil 4.1 werden wir auch hier - jetzt fur eine grossere Klasse von Z.G. - die
wichtigsten Eigenschaften beweisen:
Satz 4.5 [Linearitat von E bei nichtnegativen Zufallsgrossen] Seien X,Y je
nichtnegative Z.G. und a, b ∈ R+. Dann gilt
E[aX + bY ] = aE[X] + bE[Y ].
Beweis Satz 4.5:
Auch hier wollen wir noch auf die Monotonie von E bei nichtnegativen Z.G. schliessen:
78
Es folgen jetzt noch ein paar Resultate vor 4.3, welche thematisch eher zu Kapitel 5
(n→∞) gehoren, beweistechnisch aber jetzt Sinn machen:
Der folgende Satz ist der erste in dieser Vlsg, welcher die allgemeine Frage in WT und
Analysis behandelt:
”wann darf ich Limesbildung und Integration vertauschen?”.
Satz 4.6 [Lemma von Fatou] Sei (Xn) eine nichtnegative Folge von Zufallsgrossen.
Dann gilt:
E[lim infn→∞
Xn] ≤ lim infn→∞
E[Xn].
Geben Sie eine Situation an, in der obige Ungleichung strikt gilt:
In den Ubungen mussen Sie im Honours-Programm noch eine Erweiterung hin zum lim sup
beweisen.
Beweis von Satz 4.6:
79
Satz 4.7 [Satz uber monotone Konvergenz von Beppo Levi (1875-1961)] Sei
(Xn) eine monotone, nichtnegative Folge von Zufallsgrossen mit Xn ↑ X. Dann gilt:
limn→∞
E[Xn] = E[ limn→∞
Xn] = E[X].
Ein analoger Satz gilt auch in der Analysis; vgl zB Satz 1 in §9 in Forster Analysis III.
Beweis von Satz 4.7:
Beachten Sie bitte, dass unser Beispiel nach dem Lemma von Fatou nicht im Widerspruch
zu Satz 4.7 steht!
In den Vlsg’en WTS, AS und SM haben wir bereits mehrfach die Umformung
E[∞∑
k=1
Yk] =∞∑
k=1
E[Yk]
gemacht. Ohne Einschrankungen (diese waren in WTS, AS und SM immer gegeben) gilt
diese Formel nicht; hingegen konnen wir jetzt schon beweisen:
Satz 4.8 [Partialsummen und Vertauschung von Limesbildung und Integra-
tion] Seien Yk ≥ 0 und∑∞k=1 Yk(ω) <∞ fur alle ω ∈ Ω. Dann gilt:
E[∞∑
k=1
Yk] =∞∑
k=1
E[Yk].
Beweis Satz 4.8:
80
4.3 Erwartungswert von Zufallsgrossen (Integrierbare Zufallsgrossen)
Wir kommen hiermit zum letzten Erweiterungsschritt nach 4.1 und 4.2: wir werden
jetzt auch die negativen Zufallsgrossen einbeziehen. Gegenuber 4.2 werden wir uns aber
auch leicht einschranken, da wir Endlichkeit der involvierten Grossen fordern.
Wir repetieren aus Kapitel 2: X+ := maxX, 0, X− := −minX, 0 (beide nichtnegativ!)
und damit X = X+ −X− und |X| = X+ +X−.
Definition 4.9 [Integrierbar, Erwartungswert, L1] Sei X eine Z.G.. Dann
definieren wir
a) X ist integrierbar, wenn E[|X|] <∞.
b) Falls X integrierbar ist, definieren wir den Erwartungswert von X als
E[X] = E[X+]− E[X−].
c) Wir bezeichnen mit L1 die Menge der integrierbaren Zufallsgrossen.
Kleine Betrachtungen zu Definition 4.9:
81
Satz 4.10 [Linearitat von E] Seien X,Y ∈ L1 und a, b ∈ R, dann gilt
aX + bY ∈ L1
und
E[aX + bY ] = aE[X] + bE[Y ].
Beweis Satz 4.10:
In kleinen Ubungsaufgaben zeigen Sie noch fur X ∈ L1, dass dann |E[X]| ≤ E[|X|] und
falls X ≤ Y ∈ L1, dann E[X] ≤ E[Y ].
82
Nach Lemma von Fatou (Satz 4.6), Satz uber die monotone Konvergenz (Satz 4.7),
folgt hiermit ein dritter Satz uber die Frage, wann Limesbildung und Integration (Sum-
mation, Erwartungswertbildung) vertauscht werden darf:
Satz 4.11 [Satz uber majorisierte Konvergenz von Henri Lebesgue (1875-
1941)] Seien X1, X2, . . . und X integrierbare Z.G. derart, dass fur alle ω ∈ Ω gilt Xn(ω)→X(ω). Wir fordern weiter, dass eine Z.G. Y derart existiert, dass Y ∈ L1 und |Xn| ≤ Y
fur alle n. Dann gilt:
limn→∞
E[Xn] = E[X].
Ein analoger Satz gilt auch in der Analysis; vgl zB Satz 2 in §9 in Forster Analysis III.
Beweis Satz 4.11:
Vermeintliche Gegenbeispiele und Beispiele:
83
4.4 Integration bezuglich Verteilungsfunktionen
Die Integration bezuglich Verteilungsfunktionen ist ein Spezialfall des Riemann-Stielt-
jesschen Integrals (noch allgemeiner ware das Lebesgue-Stieltjessche Integral nach Thomas
Jan Stieltjes (1856-1894)). Als Sie in der einfuhrenden Vorlesung uber Analysis das
Riemann-Integral kennengelernt haben, haben Sie wohl unschwer festgestellt, dass die
Gewichtung einer Funktion f(x) auf der x-Achse gleichmassig geschah: wenn Sie eine
Treppenfunktion ψ integriert haben, so haben Sie kleine Rechtecke summiert:∫ b
a
ψ(x)dx :=n∑
k=1
ck(xk − xk−1).
(Eine Funktion f ist demnach genau dann Riemann-integrierbar, wenn man ein Ober- und
Unterintegral von Treppenfunktionen beliebig nahe zusammenfuhren kann.)
Eine physikalisch sinnvolle Erweiterung dieses Integral-Begriffes geht dann in die Rich-
tung, dass man nicht mehr einfach gleichmassig (uniform, gleichgewichtet, Distanz (xk −xk−1)) die Funktionswerte summiert, sondern eine gewichtete Summe von Funktionswerten
nimmt: damit gelangen wir zum Riemann-Stieltjesschen Integral.
Definition 4.12 [Riemann-Stieltjessches Integral] Seien f und α zwei reell-
wertige Funktionen auf [a, b]. Sei Z := x0, . . . , xn eine Zerlegung von [a, b] und ξ :=
ξ1, . . . , ξn ein zugehoriger Zwischenvektor, so heisst
Sα(f, Z, ξ) :=n∑
k=1
f(ξk)[α(xk)− α(xk−1)]
eine Riemann-Stieltjessche Summe fur f bezuglich α. Wenn fur jede Folge von Zerlegun-
gen, deren Feinheit gegen Null konvergiert, diese Summe konvergiert (die Grenzwerte fallen
alle zusammen (!)), so sagen wir, dass f bezuglich α RS-integrierbar ist (Riemann-Stietjes-
integriebar). Man schreibt dafur∫ b
a
f(x)dα(x),∫ b
a
fdα(x) oder∫ b
a
fdα.
Mit α(x) = x haben wir unser bekanntes Riemann-Integral! Fur die weiteren Berechnun-
gen zentral ist dann
84
Satz 4.13 [Verbindung Riemann-Integral und RS-Integral] Ist die Funktion f
Riemann-integrierbar und existiert die Ableitung α′ auf [a, b], so existiert
∫ b
a
fdα
und es gilt
RS −∫ b
a
fdα = R−∫ α−1(b)
α−1(a)
fα′dx.
PhysikerInnen konnen bei solchen Formeln (vgl. Substitutionsregel der Integrationsrech-
nung) der Versuchung eines ausgeklugelten Differentialkalkuls nicht widerstehen, um diese
Formel zu begrunden; dieses geht folgendermassen:
Solange man sich bewusst ist, dass dies noch kein Beweis obiger Formel ist, ist es OK zum
Finden von Losungen (ahnlich wie beim Losen von DGL und PDE’s). Aber es ist kein
Beweis; diesen findet man zB in Heusser I: Kapitel XI.
85
Nach dieser Auflistung von Definition und Resultaten uber das Riemann-Stieltjessche
Integral aus der Analysis, wollen wir jetzt die Integration bezuglich Verteilungsfunktionen
einfuhren. Dabei werden wir zwar sehen, dass diese Erwartungswerte eben Riemann-
Stieltjessche Integrale sind, hingegen kann man die ganze Theorie auch ohne Kenntnisse
des Riemann-Stieltjesschen Integrals verstehen und einfuhren. Genau so werden wir das -
abgesehen von Querverweisen - auch machen.
Es sei - ebenfalls vorbereitend - darauf hingewiesen, dass im ganzen bisherigen Kapitel 4
bei jedem Erwartungswert
E[X]
einer Zufallsgrosse X auch eine Wahrscheinlichkeit P im Spiel ist (Definition 4.1 und darauf
basierende Erweiterungen). Deshalb indexiert man den Erwartungswert manchmal, sobald
die dazugehorige Wahrscheinlichkeit P eine Rolle spielt in der Art
EP [X].
Zum Beispiel in der Finanzmathematik werden Sie nicht nur das ”normale”, aus his-
torischen Daten geschatzte, P fur die Entwicklung eines stochastischen Prozesses (zum
Beispiel Aktienkurs St) haben, sondern auch ein sogenanntes ”Risk-Neutral-Measure” Q.
Sie haben dann - was Anfanger sehr stark verwirrt - ein EP [St] und ein EQ[St].
Falls wir jetzt eine Verteilungsfunktion F auf R haben, dann gibt es wegen Satz 1.17 ein
eindeutiges P auf B(R) derart, dass FP = F . Es gilt dann
P [(a, b]] = F (b)− F (a). (Gewicht)
Wir haben beim Exkurs uber das Riemann-Stieltjessche Integral gesagt, dass man mit
dem Riemann-Stieltjesschen Integral eine unterschiedliche Gewichtung bei der Integration
erreicht. Genau dies machen wir (versteckt) mit Hilfe von (Gewicht) in nachfolgender
Definition. Die nachfolgenden Funktionen sollen alle Borel-messbar sein.
86
Definition 4.14 [Integral bezuglich einer Verteilungsfunktion] Sei F eine
Verteilungsfunktion auf R. Dann definieren wir
a) fur eine nichtnegative Funktion g das Integral von g bezuglich F als
∫
Rg(x)dF (x) := EF [g] ≤ ∞,
wobei wir (vgl. oben) EF [g] und EP [g] simultan verwenden. EF [g] ist ein uns bekannter
Ausdruck: es ist der Erwartungswert der Zufallsgrosse g auf dem Wahrscheinlichkeitsraum
(R,B(R), PF ) (vgl Teil 4.2). Man benutzt an dieser Stelle ublicherweise ein kleines g fur
eine Zufallsgrosse (!) wegen spaterer Formeln!
b) Analog zu 4.3 definieren wir: eine Funktion g ist integrierbar bezuglich F , falls
∫
R|g(x)|dF (x) <∞.
Wir definieren in dem Fall das Integral von g bezuglich F als
∫
Rg(x)dF (x) :=
∫
Rg+(x)dF (x)−
∫
Rg−(x)dF (x).
Da Sie diese Integrationsform noch nicht kennen, als Erklarungsversuch ein Resultat aus
der Zukunft: wir werden spater sehen, dass E[X] =∫∞−∞ x dFX(x). Angenommen, X ist
eine N (µ, σ2)-Zufallsgrosse. Dann musste ja gelten, dass E[X] =∫∞−∞ x dFX(x) = µ. Wie
kann aber ein Integral uber ganz R (!) von x einen endlichen Wert liefern, ja uberhaupt
definiert sein? Da hilft eben die ungleiche Gewichtung durch dF , welche wir im Riemann-
Stieltjesschen Integral haben:
87
Wir haben in Definition 4.14 das Integral bezuglich einer Verteilungsfunktion definiert
als etwas uns wohl bekanntes, als einen Erwartungswert. Damit konnen wir jetzt aber alle
Resultate aus 4.2 und 4.3 importieren - sie mussen auch fur dieses Integral gelten. Wir
repetieren die wichtigsten Resultate summarisch und ubersetzen sie gleich in die neue
Sprache:
* g ≡ c⇒ ∫gdF = c (nicht so bei Riemann-Integral)
* B ∈ B(R)⇒ ∫1BdF = PF (B)
* g, h je ≥ 0; a, b ∈ R+ oder g, h integrierbar und a, b ∈ R dann (Linearitat)
∫(ag + bh)dF = a
∫gdF + b
∫hdF
* Monotonie: 0 ≤ g ≤ h oder g, h integrierbar und g ≤ h ⇒ ∫gdF ≤ ∫ hdF
* Fatou: gn ≥ 0 fur alle n, dann∫
lim infn gndF ≤ lim infn∫gndF
* Monotone Konvergenz: 0 ≤ g1 ≤ g2 . . . ≤ gn ↑ g fur alle x, dann∫gndF ↑
∫gdF .
* Majorisierte Konvergenz: gn → g fur alle x und existiert h integrierbar, sodass
|gn| ≤ h fur alle n, dann∫gndF →
∫gdF.
Wo stehen wir? Wir konnen (ausser mit Hilfe von unbewiesenen Resultaten aus
WTS) zum Beispiel nicht mal einen Erwartungswert einer absolut-stetigen Zufallsgrosse
berechnen (ausser wir approximieren ihn mit Hilfe einer monoton wachsenden Folge von Er-
wartungswerten von einfachen Zufallsgrossen - viel Spass!). Wir werden jetzt zuerst unter-
suchen, wie ein Integral bezuglich einer Verteilungsfunktion aussieht, wenn die Verteilungs-
funktion diskret bzw absolut-stetig ist. Damit konnen wir dann in 4.5 endlich die Formeln
aus WTS (WT-Kapitel 4.0) herleiten.
88
Integrale bezuglich diskreter Verteilungsfunktionen sind Summen:
Satz 4.15 [Integral bezuglich einer diskreten Verteilungsfunktion] Sei F (t) =∑pi1(ti ≤ t), dann gilt fur alle nichtnegativen g
∫gdF =
∑
i
pig(ti). (4.1)
Beweis Satz 4.15:
Korollar 4.16 [integrierbares g bei diskretem F ] g ist integrierbar bzgl F genau
dann wenn ∑
i
pi|g(ti)| <∞.
In dem Fall gilt (4.1).
89
Integrale bezuglich absolut-stetiger Verteilungsfunktionen sind Riemann-Integrale:
Satz 4.17 [Integral bezuglich einer absolut-stetigen Verteilungsfunktion] Sei
F eine absolut-stetige Verteilungsfunktion mit (stuckweise) stetiger Dichtefunktion f . Sei
g nichtnegativ und (stuckweise) stetig. Dann gilt:
∫gdF =
∫ ∞−∞
g(x)f(x)dx, (4.2)
dabei haben wir auf der rechten Seite jetzt ein (normales) Riemann-Integral (vgl Satz 4.13).
Beweis-Skizze Satz 4.17 (Vervollstandigung in den Ubungen):
Korollar 4.18 [integrierbares g bei absolut-stetigem F ] Sei F eine absolut-
stetige Verteilungsfunktion mit (stuckweise) stetiger Dichtefunktion f . Sei g (stuckweise)
stetig. Dann ist g integrierbar bzgl F , genau dann wenn
∫ ∞−∞|g(x)|f(x)dx <∞,
wobei dann (4.2) gilt.
90
4.5 Operationelle Formeln zur Berechnung von Erwartungswerten
Wir werden in den folgenden 4 Resultaten (Satz 4.19, Korollar 4.20, Satz 4.21 und
Satz 4.22), meist zuerst immer noch relativ abstrakt, die zentralen Formeln herleiten. Diese
mussen danach noch explizit fur die Anwendung ausgedeutscht werden (am Schluss von
Teil 4.5).
Satz 4.19 [Operationelle Formel bei nichtnegativen Zufallsgrossen] Sei X ≥0. Dann gelten:
E[X] =∫ ∞
0
xdFX(x) =∫ ∞
0
[1− FX(y)]dy. (4.3)
Wir haben also in der Mitte ein Integral bzgl einer Verteilungsfunktion, wobei jetzt g(x) ≡x; das Integral rechts ist ein Riemann-Integral! Wir kennen die Formel rechts bereits aus
der WTS.
Beweis von Satz 4.19
91
Der Spezialfall, wo X nur Werte auf N0 annimmt, war schon in der WTS speziell
hervorgehoben worden und wird in der AS eingesetzt:
Korollar 4.20 [Operationelle Formel bei Zufallsgrossen mit Werten nur in
N0] Sei P [X ∈ N0] = 1. Dann gelten:
E[X] =∞∑n=0
nP [X = n] =∞∑
k=1
P [X ≥ k]. (4.4)
Beweis von Korollar 4.20
Wir werden jetzt auch negative Werte erlauben und erhalten dazu
Satz 4.21 [Operationelle Formel bei X ∈ L1] Sei X ∈ L1. Dann gilt
E[X] =∫ ∞−∞
xdFX(x). (4.5)
Beweis von Satz 4.21
92
Zum Schluss noch der Fall, wo wir nicht nur den Erwartungswert einer Zufallsgrosse
X, also E[X] berechnen wollen, sondern - wo g borelsch - den Erwartungswert einer trans-
formierten Zufallsgrosse g(x), also E[g(X)]. Dazu konnte man theoretisch einfach die
Verteilungsfunktion von g(X) berechnen und dann mit den bisherigen Formeln fortfahren.
Dies kann schwierig werden - es ist Gott sei Dank auch nicht notwendig:
Satz 4.22 [Operationelle Formel fur E[g(X)]] Sei g(X) ∈ L1 oder zumindest g
nichtnegativ. Dann gilt
E[g(X)] =∫ ∞−∞
g(x)dFX(x). (4.6)
Beweis von Satz 4.22
93
Wirklich operationelle Formeln fur den taglichen Gebrauch und Ihre Begrundung
Auf Englisch nennt man obige Formel(n) zur Berechnung von E[g(X)] auch the ”Law
of the unconscious statistician” weil die (angewandten) StatistikerInnen im Gegensatz zu
den hard core MasstheoretikerInnen die Mathematik hinter obiger Formel nicht sehen:
http://en.wikipedia.org/wiki/Law of the unconscious statistician.
Warum haben wir dieses∫gdF uberhaupt eingefuhrt? Es erlaubt uns eine okonomische Be-
weisfuhrung: moglichst viel (Satz 4.19, 4.21 und 4.22) wird gemeinsam fur alle Verteilungs-
arten gezeigt. Wir haben nach Satz 1.29 (Vollstandige Klassifikation der Wahrschein-
lichkeiten) und mit der dortigen Bezeichnung fur jede Verteilungsfunktion F eine Darstel-
lung der Art F = aFd + bFa + cFs. Danach kann man dann noch a = 1 oder b = 1 setzen
und erhalt dann die ublichen Spezialfalle.
94
4.6 Lp-Raume und Ungleichungen
In diesem Teil folgen wichtige Ungleichungen im Zusammenhang mit Erwartungswer-
ten. Man kann in einer allgemeinen Masstheorie-Vorlesung auf einem hoheren Niveau viele
der nachfolgenden Resultate abstrakter herleiten; die wichtigsten Anwendungen sind dann
in der Analysis (vgl Forster Analysis III, §10) und hier nachfolgend in der Wahrschein-
lichkeitstheorie. Meist gibt es ein Pendant der folgenden Resultate mit Erwarungswerten
in der Form von Integralen (Riemann- und mehrdimensionale Lebesgue-Integra-
le) oder Summen.
Definition 4.23 [Lp-Raum] Sei 1 ≤ p <∞. Dann bezeichnen wir mit Lp die Menge
der Zufallsgrossen X derart, dass E[|X|p] <∞ (p-tes Moment immer noch integrierbar).
Um uns kommende Beweise zu vereinfachen, behandeln wir noch
Lemma 4.24 [Young’s Ungleichung] Sei h : R+ → R+ eine stetige, streng mono-
ton wachsende Funktion mit h(0) = 0 und h(∞) =∞. Sei k die punktweise Inverse von h.
Wir definieren H(x) :=∫ x
0h(y)dy und K(x) :=
∫ x0k(y)dy. Dann gilt fur alle a, b ∈ R+,
ab ≤ H(a) +K(b).
Beweis Lemma 4.24
95
Wir halten hier noch fest, dass naturlich weiterhin die Jensen-Ungleichung (WTS-
Lemma 3.5) und die Ungleichung(en) von Bienayme-Tschebyschew (und artverwandte)
(WTS-Satz 5.1) gelten; Sie beweisen in den Ubungen eine Verallgemeinerung von WTS-
Satz 5.1.
Satz 4.25 [Holdersche Ungleichung] Seien p, q > 1 derart, dass
1p
+1q
= 1,
mit X ∈ Lp und Y ∈ Lq. Dann gilt XY ∈ L1 und
E[|XY |] ≤ E[|X|p]1/pE[|Y |q]1/q.
Die analogen Satze in der Analysis sind Satz 7 in §16 in Forster Analysis I (Summen),
Beispiel (18.5) in §18 in Forster Analysis I (Riemann-Integral) und Lemma 1 in §10 in
Forster Analysis III (mehrdimensionale Lebesgue-Integrale).
Beweis Holdersche Ungleichung
Korollar 4.26 [Cauchy-Schwarz Ungleichung] Seien X,Y ∈ L2. Dann ist XY ∈L1 und
E[|XY |] ≤√E[|X|2]E[|Y |2] .
Die allgemeinste Form dieses Resultats ist wohl in der Linearen Algebra die gleichnamige
Ungleichung (Fischer LinAlg, 5.1.3 und 5.4.7). Die analogen Satze in der Analysis finden
sich bei der Holderschen Ungleichung an oben genannten Stellen. Die Cauchy-Schwarz
Ungleichung ist offensichtlich ein Spezialfall der Holderschen Ungleichung wo p = q = 2;
damit ist nichts mehr zu beweisen.
96
Nach diesen schonen Analogien zwischen der Analysis und der WT kommt jetzt leider
ein wichtiger Unterschied: Wir haben bereits in der WTS in den Ubungen (damals ohne
den jetzigen Uberbau - jetzt in der neuen Sprache) bewiesen, dass wenn 1 ≤ r ≤ s, dann
gilt Ls ⊆ Lr; der Beweis geht (WT hat endliches Mass!) folgendermassen:
Warum gilt das analoge Resultat nicht in der Analysis? Gegenbeispiel:
Sie untersuchen fur die WT noch den Fall wo 0 < r ≤ s ≤ 1 in den Ubungen.
Neben obigen Inklusionen in der WT gilt sogar weitergehend, dass E[|X|p]1/p wachsend
ist in p, p ≥ 1:
Korollar 4.27 [Lyapunov-Ungleichung] Sei 1 ≤ r ≤ s und X ∈ Ls. Dann gilt
E[|X|r]1/r ≤ E[|X|s]1/s.
Beweis Korollar 4.27
97
Wir haben in der WTS bereits (spatestens bei der Definition der Varianz) gesehen,
dass fur X ∈ L2 immer gilt
E[X2] ≥ E[X]2.
Man kann dies jetzt auf ganz viele Arten mit Hilfe obiger Satze beweisen bzw memorieren,
wie alles?
98
Wir kommen jetzt zu einem unscheinbaren Resultat (Dreiecksungleichung), welches
dann gewaltige Konsequenzen hat:
Satz 4.28 [Minkowski-Ungleichung] Sei p ≥ 1 und X,Y ∈ Lp. Dann ist auch
X + Y ∈ Lp und
E[|X + Y |p]1/p ≤ E[|X|p]1/p + E[|Y |p]1/p.
Die analogen Satze in der Analysis sind Satz 8 in §16 in Forster Analysis I (Summen),
Beispiel (18.5) in §18 in Forster Analysis I (Riemann-Integral) und Corollar zu Lemma
1 in §10 in Forster Analysis III (mehrdimensionale Lebesgue-Integrale).
Beweis Satz 4.28
Nach Wikipedia (22. Mai 2008): Minkowski (1864-1909); 1896-1902 an ETHZ, Kollege
von Hurwitz, Albert Einstein war Schuler von Minkowski.
99
Was folgt jetzt aus Satz 4.28? Skizze weiterer Pfad in WT und Funktional-Analysis
100
Wahrscheinlichkeitstheorie
Dr. C.J. Luchsinger
5 n→∞ (Konvergenz, LLN)
5.1 Konvergenzarten
In der WT gibt es viele Konvergenzarten fur Folgen von Zufallsgrossen. Sie haben
alle ihre Berechtigung. In der Analysis untersucht man auch die Konvergenz von Funktio-
nenfolgen und hat auch dort (zum Teil) analoge Begriffe und Theoreme. Es gibt jedoch
einen wichtigen Unterschied: in der WT haben wir ein endliches Mass (im Gegensatz zum
Lebesgue-Mass auf R in der Analysis). Damit gelten in der WT Satze, welche verallge-
meinert in der Analysis nicht gelten. Wir werden die Resultate aus der Analysis auch
prasentieren (aber ohne Beweise, immerhin mit Gegenbeispielen).
Im Folgenden ist (Xn)n∈N eine Folge von Zufallsgrossen auf einem Wahrscheinlichkeitsraum
(Ω,A, P ); ebenso ist X eine Zufallsgrosse auf dem gleichen (Ω,A, P ).
1. Ein erster Konvergenzbegriff macht einen Ruckgriff auf die gewohnliche Konvergenz
einer Folge von reellen Zahlen: die Konvergenz in Wahrscheinlichkeit, auch stochas-
tische Konvergenz genannt. Dazu wahlen wir ein festes ε > 0 und berechnen
pn(ε) := P [|Xn −X| > ε].
Dieses pn(ε) ist jetzt eine reelle Zahl! Wenn wir jetzt n → ∞ gehen lassen, dann ist das
eine gewohnliche Konvergenz von reellen Zahlen (hoffentlich gegen 0). Exakte Definition:
Wir sagen, dass eine Folge von Zufallsgrossen Xn, n ≥ 0, in Wahrscheinlichkeit gegen eine
Zufallsgrosse X konvergiert, wenn fur jedes ε > 0 gilt:
limn→∞
P [|Xn −X| > ε] = 0.
In den Anwendungen ist die Zufallsgrosse X haufig ein Mittelwert (von iid Xi) oder 0.
Diese Konvergenz kommt beim Gesetz der grossen Zahlen vor (WLLN: Weak Law of
Large Numbers).
101
2. Ein weiterer Konvergenzbegriff macht ebenfalls Ruckgriff auf die gewohnliche Konver-
genz einer Folge von reellen Zahlen: die fast sichere Konvergenz. Jargon: fs-Konvergenz
(fast sichere) oder as-Konvergenz (almost surely); in der Analysis eher ae-Konvergenz (al-
most everywhere). Dazu fixiert man zuerst ein bestimmtes Elementarereignis ω. Man
kann sich dann fur dieses ω fragen, ob limn→∞Xn(ω) = X(ω). Falls dies nicht nur fur ein
bestimmtes ω gilt, sondern im Gegenteil die Menge aller ω’s mit dieser Eigenschaft Mass
1 haben, dann liegt fs-Konvergenz vor. Exakte Definition: Die Folge von Zufallsgrossen
Xn, n ≥ 0, konvergiert fs gegen X, wenn
P [ω| limn→∞
Xn(ω) = X(ω)] = 1.
Auch hier wird in den Anwendungen die Zufallsgrosse X haufig ein Mittelwert (von iid Xi)
oder 0 sein. Auch diese Konvergenz kommt beim Gesetz der grossen Zahlen vor (SLLN:
Strong Law of Large Numbers).
Leute von der Gasse sprechen in den beiden ersten Fallen vom ”limP” und vom ”Plim”.
3. Der dritte wichtige Konvergenzbegriff wird uber die Erwartungswerte definiert: die
sogenannte Lp-Konvergenz. Die Folge (Xn), n ≥ 1, konvergiert gegen eine Zufallsgrosse
X in der Lp-Norm (eigentlich eine Pseudo-Norm), wenn gilt:
limn→∞
E[|Xn −X|p] = 0.
Auch hier wird X haufig eine Konstante sein. Fur p = 2 spricht man auch von Konvergenz
im quadratischen Mittel.
4. Die vierte Konvergenzart tanzt insofern aus der Reihe, als dass die Folge der Zu-
fallsgrossen Xn nicht auf demselben Wahrscheinlichkeitsraum definiert sein muss (wir wer-
den nicht einzelne ω’s von Anfang bis Unendlich verfolgen). Man stutzt sich bei dieser
Konvergenz auf die Verteilungsfunktion; dies gibt der Konvergenz in Verteilung auch
den Namen: Eine Folge von Zufallsgrossen Xn, n ≥ 1, konvergiert in Verteilung gegen eine
Zufallsgrosse X, wenn die Folge der Verteilungsfunktionen FXn(a) gegen die Verteilungs-
funktion FX(a) konvergiert und zwar an allen Stetigkeitspunkten von FX ! Es gibt viele
102
alternative Definitionen dieser Konvergenzart (auch in allgemeinen metrischen Raumen),
die hier vorgestellte ist die elementarste. Diese Konvergenz haben wir in WTS-Kapitel 5
schon kennengelernt. Die Konvergenz war dort gegen eine Standard-Normalverteilung -
die Verteilungsfunktion der Normalverteilung ist bekanntlich uberall stetig, womit wir die
Sache mit den Stetigkeitspunkten in der WTS gar nicht beachten mussten.
Vergleich zur Vorlesung WTS:
1. Mit fs-Konvergenz und Lp-Konvergenz haben wir zwei neue Konvergenzarten kennen-
gelernt.
2. Neu haben wir eine allgemeine Zufallsgrosse X als Limes und nicht mehr nur einen
Mittelwert oder eine N (0, 1)-Zufallsgrosse.
3. In der elementaren WTS (auch in der Mittelschule und fur Nicht-Mathematiker/innen
an den Hochschulen) wird meist die Konvergenz in Wahrscheinlichkeit gebraucht um die
Konvergenz des arithmetischen Mittels gegen den theoretischen Mittelwert (eine reelle
Zahl und keine Zufallsgrosse mit positiver Varianz) zu formulieren (LLN) und die Kon-
vergenz in Verteilung fur den CLT. Kurz: Konvergenz in Wahrscheinlichkeit fur Konver-
genz gegen einen einzelnen Punkt und Konvergenz in Verteilung gegen eine Zufallsgrosse
mit positiver Varianz. Dies ist am Anfang der Ausbildung als Gedachtnisstutze und
Orientierung durchaus erlaubt - ab jetzt aber zu simpel.
103
5.2 DAS Schema (WT)
104
5.3 Konvergenzsatze
Satz 5.1 [Lp-Konvergenz ⇒ Konvergenz in Wahrscheinlichkeit] Sei (Xn),
n ≥ 1, eine Folge von Zufallsgrossen, welche in der Lp-Norm gegen eine Zufallsgrosse X
konvergiert. Dann konvergiert die Folge auch in Wahrscheinlichkeit gegen X.
Beweis von Satz 5.1 Œ nehmen wir X = 0. Sei ε > 0. Wir haben
E[|Xn|p] ≥ E[|Xn|pI|Xn|≥ε] ≥ εpE[I|Xn|≥ε] = εpP [|Xn| ≥ ε]. (5.1)
Wenn die Folge aber in Lp konvergiert, dann wegen (5.1) auch in Wahrscheinlichkeit.
Lemma 5.2 [p ≥ q ≥ 1: Lp-Konvergenz⇒ Lq-Konvergenz] Sei (Xn), n ≥ 1, eine
Folge von Zufallsgrossen, welche in der Lp-Norm gegen eine Zufallsgrosse X konvergiert
und sei p ≥ q ≥ 1. Dann konvergiert die Folge auch in der Lq-Norm gegen X.
Beweis von Lemma 5.2:
105
Satz 5.3 [fs-Konvergenz ⇒ Konvergenz in Wahrscheinlichkeit] Sei (Xn), n ≥1, eine Folge von Zufallsgrossen, welche fs gegen eine Zufallsgrosse X konvergiert. Dann
konvergiert die Folge auch in Wahrscheinlichkeit gegen X.
Beweis von Satz 5.3
106
Satz 5.4 [Konvergenz in Wahrscheinlichkeit ⇒ Konvergenz in Verteilung]
Sei (Xn), n ≥ 1, eine Folge von Zufallsgrossen, welche in Wahrscheinlichkeit gegen eine
Zufallsgrosse X konvergiert. Dann konvergiert die Folge auch in Verteilung gegen X.
Beweis von Satz 5.4
Man beachte auch den Spezialfall einer Konvergenz gegen eine Konstante auf Blatt 11 als
Erganzung zu Satz 5.4.
107
5.4 Beispiele und Gegenbeispiele
5.4.1 Erstes Beispiel/Gegenbeispiel
Sei (Ω,A, P ) = ([0, 1],B([0, 1]), λ). Wir definieren eine Folge von Zufallsgrossen
Xn(ω) := 1[0,1/n](ω).
Untersuchen Sie dieses Beispiel im Hinblick auf Ihre bisherigen Kenntnisse aus Kapitel 5.
108
5.4.2 Zweites Beispiel/Gegenbeispiel
Sei (Ω,A, P ) = ([0, 1],B([0, 1]), λ). Wir definieren eine Folge von Zufallsgrossen
Xn(ω) := n1[0,1/n](ω).
Untersuchen Sie dieses Beispiel im Hinblick auf Ihre bisherigen Kenntnisse aus Kapitel 5.
109
5.4.3 Drittes Beispiel/Gegenbeispiel
Finden Sie ein Beispiel, das zeigt, dass aus der Konvergenz in L1 nicht zwingend die
fs-Konvergenz folgt.
110
5.5 Und wie sieht das Ganze in der Analysis aus?
111
5.6 LLN (WLLN, SLLN) revisited
Aus Zeitgrunden konnen wir den Beweis des SLLN im FS 10 nicht fuhren, er folgt im
FS 12. Interessierte StudentInnen sind bis dann auf Karr verwiesen.
Definition 5.5 [Gesetz der grossen Zahlen] Eine Folge Xi, i ≥ 1, von Zu-
fallsgrossen mit endlichen Erwartungswerten genugt dem (schwachen/starken) Gesetz der
grossen Zahlen, wenn die Folge
1n
n∑
i=1
(Xi − E[Xi])
(in Wahrscheinlichkeit/fast sicher) gegen 0 konvergiert. Die Abkurzungen WLLN und
SLLN stehen englisch fur Weak Law of Large Numbers (bei Konvergenz in Wahrschein-
lichkeit) resp. Strong Law of Large Numbers (bei fast sicherer Konvergenz).
In Satz 5.3 sehen wir, dass aus SLLN die WLLN folgt. Das Gesetz der grossen Zahlen ist
offenbar eine Eigenschaft einer Folge. Es gilt folgender starker Satz, welcher ubrigens nicht
die Existenz einer Varianz fordert:
Satz 5.6 [Satz von Kolmogoroff] Sei Xi, i ≥ 1, eine Folge von paarweise un-
abhangigen, identisch verteilten Zufallsgrossen mit E[|X1|] <∞. Dann genugt diese Folge
dem SLLN; es gilt also1n
n∑
i=1
Xi → E[X1]
fast sicher, falls n→∞. Diese Folge genugt wegen Satz 5.3 auch dem WLLN.
Beweis: Karr und/oder FS 12 in dieser Vlsg.
112