Bisher beschränkten wir uns auf ein abzählbares
Ω
{\displaystyle \Omega }
(Vermeidung technischer Schwierigkeiten). Es gibt jedoch Zufallsexperimente, für welche ein überabzählbares
Ω
{\displaystyle \Omega }
angemessen ist.
1. Messung einer physikalischen Größe mit einer großen Genauigkeit. (
Ω
=
R
{\displaystyle \Omega =\mathbb {R} }
)
2. Exakter Zeitpunkt des Eintretens eines Erdbebenstoßes oder eines Telefonanrufs. (
Ω
=
R
+
{\displaystyle \Omega =\mathbb {R} _{+}}
)
3. Idealisiertes "stetiges" Roulette. (
Ω
=
[
0
,
2
π
[
{\displaystyle \Omega =[0,2\pi [}
) - Winkel statt diskrete Anzahl an Kreissektoren
4. Pseudo-Zufallszahlen. (
Ω
=
[
0
,
1
]
{\displaystyle \Omega =[0,1]}
)
In Beispiel 4. verlangen wir intuitiv von einer Wahrscheinlichkeitsverteilung
P
{\displaystyle P}
auf
[
0
,
1
]
{\displaystyle [0,1]}
:
P
(
[
a
,
b
]
)
=
b
−
a
,
0
≤
a
≤
b
≤
1
{\displaystyle P([a,b])=b-a,\quad 0\leq a\leq b\leq 1}
, insbesondere
(*)
P
(
{
w
}
)
=
0
{\displaystyle P(\lbrace w\rbrace )=0}
.
Das mathematische Problem besteht nun darin, dass es keine Abbildung
P
:
S
(
[
0
,
1
]
)
→
[
0
,
1
]
{\displaystyle P:{\mathcal {S}}([0,1])\to [0,1]}
gibt, die normiert und
σ
{\displaystyle \sigma }
-additiv ist und (*) erfüllt (Maßproblem).
Statt auf ganz
S
(
Ω
)
{\displaystyle {\mathcal {S}}(\Omega )}
das Maß zu definieren, schränkt man
P
{\displaystyle P}
auf einem Teilsystem der Potenzmenge von
[
0
,
1
]
{\displaystyle [0,1]}
, die dann nur bestimmte Teilmengen
A
⊂
Ω
{\displaystyle A\subset \Omega }
enthält. Das Teilsystem
S
⊂
S
(
Ω
)
{\displaystyle {\mathcal {S}}\subset {\mathcal {S}}(\Omega )}
.
S
{\displaystyle {\mathcal {S}}}
soll dann aber so beschaffen sein, dass die üblichen Mengenoperationen
∩
,
∪
,
.
.
.
{\displaystyle \cap ,\cup ,...}
nicht aus
S
{\displaystyle {\mathcal {S}}}
herausführen.
Wenn man das Maß von Teilmengen
A
1
,
A
2
,
…
{\displaystyle A_{1},A_{2},\ldots }
aus der Potenzmenge von
Ω
{\displaystyle \Omega }
kennt, möchte man auch von Vereinigungen, Schnitten und Komplemente der Mengen die Maß angeben können. Damit dies überhaupt machtbar ist, müssen diese Mengenoperationen wieder Elemente aus dem Definitionsbereich des Maßes liefern. Aus diesen Anforderungen ergibt sich die Definition der
σ
{\displaystyle \sigma }
-Algebra.
Ist
Ω
{\displaystyle \Omega }
eine beliebige, nichtleere Menge, so heißt ein Mengensystem
S
⊂
S
(
Ω
)
{\displaystyle {\mathcal {S}}\subset {\mathcal {S}}(\Omega )}
eine
σ
{\displaystyle \sigma }
-Algebra über
Ω
{\displaystyle \Omega }
, wenn gilt
a)
Ω
∈
S
{\displaystyle \Omega \in {\mathcal {S}}}
b)
A
∈
S
⇒
A
¯
∈
S
{\displaystyle A\in {\mathcal {S}}\Rightarrow {\bar {A}}\in {\mathcal {S}}}
c)
A
1
,
A
2
,
.
.
.
∈
S
⇒
∪
i
=
1
∞
A
i
∈
U
{\displaystyle A_{1},A_{2},...\in {\mathcal {S}}\Rightarrow \cup _{i=1}^{\infty }A_{i}\in {\mathcal {U}}}
1. Es ist
∅
=
Ω
¯
∈
S
{\displaystyle \varnothing ={\bar {\Omega }}\in {\mathcal {S}}}
2.
A
1
,
A
2
,
.
.
.
∈
S
⇒
∩
i
=
1
∞
A
i
=
∪
i
=
1
∞
A
¯
i
∈
S
{\displaystyle A_{1},A_{2},...\in {\mathcal {S}}\Rightarrow \cap _{i=1}^{\infty }A_{i}=\cup _{i=1}^{\infty }{\bar {A}}_{i}\in {\mathcal {S}}}
3. In c) bzw 2. können wir auch
∪
i
=
1
∞
{\displaystyle \cup _{i=1}^{\infty }}
bzw.
∩
i
=
1
∞
{\displaystyle \cap _{i=1}^{\infty }}
einsetzen. Setze
A
n
+
1
=
A
n
+
2
=
.
.
.
=
∅
{\displaystyle A_{n+1}=A_{n+2}=...=\varnothing }
bzw.
A
n
+
1
=
A
n
+
2
=
.
.
.
=
Ω
{\displaystyle A_{n+1}=A_{n+2}=...=\Omega }
.
4.
B
(
Ω
)
{\displaystyle {\mathcal {B}}(\Omega )}
ist eine
σ
{\displaystyle \sigma }
-Algebra ('größte'),
{
∅
,
Ω
}
{\displaystyle \lbrace \varnothing ,\Omega \rbrace }
ist eine
σ
{\displaystyle \sigma }
-Algebra ('kleinste').
5. Ist
I
⊂
S
(
Ω
)
{\displaystyle {\mathcal {I}}\subset {\mathcal {S}}(\Omega )}
ein vorgegebenes Mengensystem, so existiert unter den
σ
{\displaystyle \sigma }
-Algebraen, die
I
{\displaystyle {\mathcal {I}}}
umfassen, eine kleinste
σ
{\displaystyle \sigma }
-Algebra (!). Wir nennen sie die von
I
{\displaystyle {\mathcal {I}}}
erzeugte
σ
{\displaystyle \sigma }
-Algebra
σ
(
I
)
{\displaystyle \sigma ({\mathcal {I}})}
.
I
{\displaystyle {\mathcal {I}}}
heißt dann Erzeugendensystem von
σ
(
I
)
{\displaystyle \sigma ({\mathcal {I}})}
.
6. Ein Paar
(
Ω
,
S
)
{\displaystyle (\Omega ,{\mathcal {S}})}
,
S
{\displaystyle {\mathcal {S}}}
σ
{\displaystyle \sigma }
-Algebra über
Ω
{\displaystyle \Omega }
, heißt messbarer Raum.
Ein Triplet
(
Ω
,
S
,
P
)
{\displaystyle (\Omega ,{\mathcal {S}},P)}
heißt (allgemeiner) Wahrscheinlichkeitsraum, falls
a)
Ω
{\displaystyle \Omega }
nichtleere Menge
b)
S
{\displaystyle {\mathcal {S}}}
σ
{\displaystyle \sigma }
-Algebra über
Ω
{\displaystyle \Omega }
c)
P
:
S
→
[
0
,
1
]
{\displaystyle P:{\mathcal {S}}\to [0,1]}
mit
(i)
P
(
Ω
)
=
1
{\displaystyle P(\Omega )=1}
(ii)
P
(
∪
i
=
1
∞
A
i
)
=
∑
i
=
1
∞
P
(
A
i
)
{\displaystyle P(\cup _{i=1}^{\infty }A_{i})=\sum _{i=1}^{\infty }P(A_{i})}
für paarweise disjunkte
A
1
,
A
2
,
.
.
.
∈
S
{\displaystyle A_{1},A_{2},...\in {\mathcal {S}}}
1.
P
{\displaystyle P}
heißt Wahrscheinlichkeitsverteilung auf
(
Ω
,
S
)
{\displaystyle (\Omega ,{\mathcal {S}})}
. Auch die übrigen Bezeichnungen vom Beginn der Vorlesung sind weiterhin gültig, wenn man
S
(
Ω
)
{\displaystyle {\mathcal {S}}(\Omega )}
durch die
σ
{\displaystyle \sigma }
-Algebra
S
{\displaystyle {\mathcal {S}}}
ersetzt (
A
∈
S
{\displaystyle A\in {\mathcal {S}}}
statt
A
∈
Ω
{\displaystyle A\in \Omega }
(oder
A
∈
S
(
Ω
)
{\displaystyle A\in {\mathcal {S}}(\Omega )}
)).
2. Der diskrete Wahrscheinlichkeitsraum ergibt sich als Spezialfall der Definition:
Ω
{\displaystyle \Omega }
abzählbar,
S
=
S
(
Ω
)
=
σ
{
{
w
}
w
∈
Ω
}
{\displaystyle {\mathcal {S}}={\mathcal {S}}(\Omega )=\sigma \lbrace \lbrace w\rbrace w\in \Omega \rbrace }
.
Konstruktion der Borelschen
σ
{\displaystyle \sigma }
-Algebra über
Ω
=
R
k
,
k
≥
1
{\displaystyle \Omega =\mathbb {R} ^{k},k\geq 1}
. Das Mengensystem
I
k
⊂
S
(
R
k
)
{\displaystyle {\mathcal {I}}^{k}\subset {\mathcal {S}}(\mathbb {R} ^{k})}
bestehe aus allen k-dimensionalen Intervallen. Für
a
=
(
a
1
,
.
.
.
a
k
)
,
b
=
(
b
1
,
.
.
.
,
b
k
)
∈
R
k
{\displaystyle a=(a_{1},...a_{k}),b=(b_{1},...,b_{k})\in \mathbb {R} ^{k}}
(d.h.
a
i
=
−
∞
{\displaystyle a_{i}=-\infty }
und
b
i
=
+
∞
{\displaystyle b_{i}=+\infty }
sind zugelassen) mit
a
<
b
{\displaystyle a<b}
(d.h.
a
i
<
b
i
{\displaystyle a_{i}<b_{i}}
für
i
=
1
,
.
.
.
,
k
{\displaystyle i=1,...,k}
) definiert man das k-dimensionale Intervall
(
a
,
b
]
=
⊗
i
=
1
n
(
a
i
,
b
i
]
=
{
x
∈
R
k
:
a
i
<
x
i
<
b
i
{\displaystyle (a,b]=\otimes _{i=1}^{n}(a_{i},b_{i}]=\lbrace x\in \mathbb {R} ^{k}:a_{i}<x_{i}<b_{i}}
, für
i
=
1
,
.
.
.
,
k
}
{\displaystyle i=1,...,k\rbrace }
.
Man führt das Mengensystem
I
k
=
{
(
a
,
b
]
,
a
<
b
}
{\displaystyle {\mathcal {I}}^{k}=\lbrace (a,b],a<b\rbrace }
ein (beachte
R
k
∈
I
k
{\displaystyle \mathbb {R} ^{k}\in {\mathcal {I}}^{k}}
).
Sei
B
k
=
σ
(
I
k
)
{\displaystyle {\mathcal {B}}^{k}=\sigma ({\mathcal {I}}^{k})}
die kleinste
σ
{\displaystyle \sigma }
-Algebra, die alle
k
{\displaystyle k}
-dimensionalen Intervalle auf
I
k
{\displaystyle {\mathcal {I}}^{k}}
enthält.
B
{\displaystyle {\mathcal {B}}}
heißt
σ
{\displaystyle \sigma }
-Algebra der Borelschen Mengen oder kurz Borelsche
σ
{\displaystyle \sigma }
-Algebra.
Satz aus der Topologie/Maßtheorie:
a) Die
σ
{\displaystyle \sigma }
-Algebra
B
k
{\displaystyle {\mathcal {B}}^{k}}
der Borelschen Mengen enthält alle offenen und alle abgeschlossenen Mengen des
R
k
{\displaystyle \mathbb {R} ^{k}}
.
b) Es gibt nicht-Borelsche Mengen des
R
k
{\displaystyle \mathbb {R} ^{k}}
.
c)
B
k
{\displaystyle {\mathcal {B}}^{k}}
wir auch erzeugt von jedem der drei folgenden Mengensystemen:
das System der offenen Intervalle
(
a
,
b
)
{\displaystyle (a,b)}
des
R
k
{\displaystyle \mathbb {R} ^{k}}
.
das System der abgeschlossenen Intervalle
[
a
,
b
]
{\displaystyle [a,b]}
des
R
k
{\displaystyle \mathbb {R} ^{k}}
.
das System der links abgeschlossenen und rechts offenen Mengen
[
a
,
b
)
{\displaystyle [a,b)}
des
R
k
{\displaystyle \mathbb {R} ^{k}}
.
Zur Festlegung einer Wahrscheinlichkeitsverteilung
P
{\displaystyle P}
auf
R
k
{\displaystyle \mathbb {R} ^{k}}
braucht man nicht alle
P
(
B
)
,
B
∈
B
k
{\displaystyle P(B),B\in {\mathcal {B}}^{k}}
auf allen Intervallen. Es gilt nämlich folgender Satz.
Sei
P
~
:
I
k
→
[
0
,
1
]
{\displaystyle {\tilde {P}}:{\mathcal {I}}^{k}\to [0,1]}
eine Abbildung, so dass gilt:
i)
P
~
(
R
k
)
=
1
{\displaystyle {\tilde {P}}(\mathbb {R} ^{k})=1}
ii)
P
~
(
∪
i
=
1
∞
I
i
)
=
∑
i
=
1
∞
P
~
(
I
i
)
{\displaystyle {\tilde {P}}(\cup _{i=1}^{\infty }I_{i})=\sum _{i=1}^{\infty }{\tilde {P}}(I_{i})}
für paarweise disjunkte
I
1
,
I
2
,
.
.
.
∈
I
k
{\displaystyle I_{1},I_{2},...\in {\mathcal {I}}^{k}}
mit
∪
i
=
1
∞
I
i
∈
I
k
{\displaystyle \cup _{i=1}^{\infty }I_{i}\in {\mathcal {I}}^{k}}
Dann existiert genau eine Wahrscheinlichkeitsverteilung
P
{\displaystyle P}
auf
B
k
{\displaystyle {\mathcal {B}}^{k}}
, so dass
P
|
I
k
=
P
~
{\displaystyle P|{\mathcal {I}}^{k}={\tilde {P}}}
(d.h.
P
(
I
)
=
P
~
(
I
)
{\displaystyle P(I)={\tilde {P}}(I)}
für alle
I
∈
I
k
{\displaystyle I\in {\mathcal {I}}^{k}}
). (
P
{\displaystyle P}
heißt Fortsetzung von
P
~
{\displaystyle {\tilde {P}}}
auf ganz
B
k
{\displaystyle {\mathcal {B}}^{k}}
.)
Öfter ist nun eine Teilmenge von
R
k
{\displaystyle \mathbb {R} ^{k}}
als Ergebnisraum
Ω
{\displaystyle \Omega }
von Interesse (z.B.:
Ω
=
[
0
,
1
]
k
{\displaystyle \Omega =[0,1]^{k}}
). Dann werden alls Größen auf
Ω
⊂
R
k
{\displaystyle \Omega \subset \mathbb {R} ^{k}}
eingeschränkt:
Ω
∩
I
k
=
{
Ω
∩
I
,
I
∈
I
k
}
{\displaystyle \Omega \cap {\mathcal {I}}^{k}=\lbrace \Omega \cap I,I\in {\mathcal {I}}^{k}\rbrace }
statt
I
k
{\displaystyle {\mathcal {I}}^{k}}
;
Ω
∩
B
k
=
{
Ω
∩
B
k
,
B
∈
B
k
}
{\displaystyle \Omega \cap {\mathcal {B}}^{k}=\lbrace \Omega \cap {\mathcal {B}}^{k},B\in {\mathcal {B}}^{k}\rbrace }
statt
B
k
{\displaystyle {\mathcal {B}}^{k}}
('Borelsche Mengen in
Ω
{\displaystyle \Omega }
');
P
|
Ω
∩
B
k
{\displaystyle P|\Omega \cap {\mathcal {B}}^{k}}
statt
P
{\displaystyle P}
('Restriktion von
P
{\displaystyle P}
auf
Ω
∩
B
k
{\displaystyle \Omega \cap {\mathcal {B}}^{k}}
').
(
Ω
,
Ω
∩
B
k
,
P
|
Ω
∩
B
k
)
{\displaystyle (\Omega ,\Omega \cap {\mathcal {B}}^{k},P|\Omega \cap {\mathcal {B}}^{k})}
bilden einen Wahrscheinlichkeitsraum.
Ω
=
[
0
,
2
π
)
,
Ω
∩
I
1
=
{
(
a
,
b
]
,
0
≤
a
<
b
≤
2
π
}
{\displaystyle \Omega =[0,2\pi ),\Omega \cap {\mathcal {I}}^{1}=\lbrace (a,b],0\leq a<b\leq 2\pi \rbrace }
.
Durch
P
~
(
a
,
b
]
=
b
−
a
2
π
{\displaystyle {\tilde {P}}(a,b]={\frac {b-a}{2\pi }}}
wird auf
Ω
∩
I
1
{\displaystyle \Omega \cap {\mathcal {I}}^{1}}
eine Abbildung in
[
0
,
1
]
{\displaystyle [0,1]}
definiert, welche die Eigenschaften i) und ii) des Fortsetzungssatzes erfüllt.
P
~
{\displaystyle {\tilde {P}}}
legt eine Wahrscheinlichkeitsverteilung
P
{\displaystyle P}
auf
Ω
∩
B
1
{\displaystyle \Omega \cap {\mathcal {B}}^{1}}
fest ('Gleichverteilung auf
[
0
,
2
π
)
{\displaystyle [0,2\pi )}
').
Zeitpunkt des Auftretens eines Ereignisses
Ω
=
[
0
,
∞
)
{\displaystyle \Omega =[0,\infty )}
; durch
P
~
(
a
,
b
]
=
e
−
λ
a
e
−
λ
b
,
0
≤
a
≤
b
≤
∞
{\displaystyle {\tilde {P}}(a,b]=e^{-\lambda a}e^{-\lambda b},0\leq a\leq b\leq \infty }
(
λ
>
0
{\displaystyle \lambda >0}
fest) wird eine Wahrscheinlichkeitsverteilung
P
{\displaystyle P}
auf
[
0
,
∞
)
∩
B
1
≡
B
+
1
{\displaystyle [0,\infty )\cap {\mathcal {B}}^{1}\equiv {\mathcal {B}}_{+}^{1}}
festgelegt ('Exponentialverteilung mit Paramter
λ
{\displaystyle \lambda }
').
Zukünftig schreiben wir statt
P
~
{\displaystyle {\tilde {P}}}
ebenfalls
P
{\displaystyle P}
.
Die Unabhängigkeit von Ereignissen
A
1
,
.
.
.
,
A
n
∈
S
{\displaystyle A_{1},...,A_{n}\in {\mathcal {S}}}
in einem Wahrscheinlichkeitsraum
(
Ω
,
S
,
P
)
{\displaystyle (\Omega ,{\mathcal {S}},P)}
definiert man wie bereits geschehen durch die Eigenschaft:
P
(
A
j
1
∩
.
.
.
∩
A
j
k
)
=
P
(
A
j
1
)
⋅
.
.
.
⋅
P
(
A
j
k
)
{\displaystyle P(A_{j_{1}}\cap ...\cap A_{j_{k}})=P(A_{j_{1}})\cdot ...\cdot P(A_{j_{k}})}
für alle
∅
≠
{
j
1
,
.
.
.
,
j
k
}
⊂
{
1
,
.
.
.
,
n
}
{\displaystyle \varnothing \neq \lbrace j_{1},...,j_{k}\rbrace \subset \lbrace 1,...,n\rbrace }
. Sind
P
1
,
.
.
.
P
k
{\displaystyle P_{1},...P_{k}}
Wahrscheinlichkeitsverteilungene auf
(
R
,
B
1
)
{\displaystyle (\mathbb {R} ,{\mathcal {B}}^{1})}
, so heißt die Wahrscheinlichkeitsverteilung
P
{\displaystyle P}
auf
(
R
k
,
B
j
k
)
{\displaystyle (\mathbb {R} ^{k},{\mathcal {B}}_{j}^{k})}
Produkt der
P
1
,
.
.
.
,
P
k
{\displaystyle P_{1},...,P_{k}}
, kurz
P
=
P
1
×
.
.
.
×
P
k
{\displaystyle P=P_{1}\times ...\times P_{k}}
, falls
P
(
B
1
×
.
.
.
×
B
k
)
=
P
1
(
B
1
)
⋅
.
.
.
⋅
P
k
(
B
k
)
{\displaystyle P(B_{1}\times ...\times B_{k})=P_{1}(B_{1})\cdot ...\cdot P_{k}(B_{k})}
für alle
B
1
,
.
.
.
,
B
k
∈
B
1
{\displaystyle B_{1},...,B_{k}\in {\mathcal {B}}^{1}}
.
Der Begriff des Produktes von (allgemeinen) Wahrscheinlichkeitsräumen
(
Ω
i
,
S
i
,
P
i
)
{\displaystyle (\Omega _{i},{\mathcal {S}}_{i},P_{i})}
,
i
=
1
,
.
.
.
,
n
{\displaystyle i=1,...,n}
verlangt den Begriff der Produkt-
σ
{\displaystyle \sigma }
-Algebra
U
=
S
1
×
.
.
.
×
S
k
{\displaystyle {\mathcal {U}}={\mathcal {S}}_{1}\times ...\times {\mathcal {S}}_{k}}
. Wir beschränken uns auf den Spezialfall
S
i
=
B
1
,
U
=
B
k
{\displaystyle {\mathcal {S}}_{i}={\mathcal {B}}^{1},{\mathcal {U}}={\mathcal {B}}^{k}}
, für den wir diesen Begriff nicht benötigen.
(Elementare) bedingte Wahrscheinlichkeit
Bearbeiten
Der Begriff
P
(
B
|
A
)
{\displaystyle P(B|A)}
, falls
P
(
A
)
>
0
{\displaystyle P(A)>0}
, der (elementaren) bedingten Wahrscheinlichkeit, und die Formel von der totalen Wahrscheinlichkeit, Bayessche Formel, Produkt gelten auf die Wahrscheinlichkeitsräume
(
Ω
,
S
,
P
)
{\displaystyle (\Omega ,{\mathcal {S}},P)}
, falls alle auftretenden Ereignisse
A
,
B
,
A
1
,
.
.
.
,
A
m
{\displaystyle A,B,A_{1},...,A_{m}}
aus
S
{\displaystyle {\mathcal {S}}}
genommen werden. Der allgemeine Begriff der bedingten Wahrscheinlichkeitsverteilung und des bedingten Erwartungswertes werden hier nicht gebraucht.
Zunächst Beschränkung auf den Wahrscheinlichkeitsraum
(
R
,
B
1
,
P
)
{\displaystyle (\mathbb {R} ,{\mathcal {B}}^{1},P)}
. Zur Festlegung von Wahrscheinlichkeitsverteilungen auf
(
R
,
B
1
)
{\displaystyle (\mathbb {R} ,{\mathcal {B}}^{1})}
(bzw. auf
(
R
∩
Ω
,
B
1
∩
Ω
)
{\displaystyle (\mathbb {R} \cap \Omega ,{\mathcal {B}}^{1}\cap \Omega )}
) reicht es aus, wegen
(
a
,
b
]
=
(
−
∞
,
b
]
∖
(
−
∞
,
a
]
{\displaystyle (a,b]=(-\infty ,b]\setminus (-\infty ,a]}
und
P
(
a
,
b
]
=
P
(
−
∞
,
b
]
−
P
(
−
∞
,
a
]
{\displaystyle P(a,b]=P(-\infty ,b]-P(-\infty ,a]}
, alleine die Funktion
F
(
t
)
=
P
(
−
∞
,
t
]
,
t
∈
R
{\displaystyle F(t)=P(-\infty ,t],t\in \mathbb {R} }
zu betrachten.
(kumulative) Verteilungsfunktion (Definition)
Bearbeiten
Sei
P
{\displaystyle P}
eine Wahrscheinlichkeitsverteilung auf
(
R
,
B
1
)
{\displaystyle (\mathbb {R} ,{\mathcal {B}}^{1})}
. Dann heißt die Funktion
F
P
:
R
→
[
0
,
1
]
,
F
P
(
t
)
=
P
(
−
∞
,
t
]
,
t
∈
R
{\displaystyle F_{P}:\mathbb {R} \to [0,1],F_{P}(t)=P(-\infty ,t],t\in \mathbb {R} }
, (kumulative) Verteilungsfunktion von
P
{\displaystyle P}
.
(Im Folgenden sei
F
(
t
+
)
=
l
i
m
s
↓
t
F
(
s
)
,
F
(
t
−
)
=
l
i
m
s
↑
t
F
(
s
)
{\displaystyle F(t+)=lim_{s\downarrow t}F(s),F(t-)=lim_{s\uparrow t}F(s)}
, (falls existiert).)
Sei
F
(
t
)
≡
F
P
(
t
)
,
t
∈
R
{\displaystyle F(t)\equiv F_{P}(t),t\in \mathbb {R} }
, Verteilungsfunktion von
P
{\displaystyle P}
. Dann gilt:
i)
F
(
t
)
{\displaystyle F(t)}
ist (nicht notwendig streng) monoton wachsend,
0
≤
F
(
t
)
≤
1
{\displaystyle 0\leq F(t)\leq 1}
.
ii)
F
(
t
+
)
=
F
(
t
)
{\displaystyle F(t+)=F(t)}
("rechtsseitig stetig")
iii)
F
(
t
−
)
=
F
(
t
)
−
P
(
{
w
}
)
{\displaystyle F(t-)=F(t)-P(\lbrace w\rbrace )}
iv)
l
i
m
t
→
−
∞
F
(
t
)
=
0
,
l
i
m
t
→
∞
F
(
t
)
=
1
{\displaystyle lim_{t\to -\infty }F(t)=0,lim_{t\to \infty }F(t)=1}
i) Monotonieeigenschaft von
P
{\displaystyle P}
.
ii) Sei
t
n
↓
t
(
t
n
>
t
)
{\displaystyle t_{n}\downarrow t(t_{n}>t)}
. Zerlege
(
t
,
t
n
]
=
⋃
i
=
n
∞
(
t
i
+
1
,
t
i
]
{\displaystyle (t,t_{n}]=\bigcup _{i=n}^{\infty }(t_{i+1},t_{i}]}
. Dann ist
F
(
t
+
)
=
l
i
m
n
→
∞
F
(
t
n
)
=
l
i
m
n
→
∞
[
F
(
t
)
+
P
(
t
,
t
n
]
]
{\displaystyle F(t+)=lim_{n\to \infty }F(t_{n})=lim_{n\to \infty }[F(t)+P(t,t_{n}]]}
=
l
i
m
n
→
∞
[
F
(
t
)
+
∑
i
=
n
∞
P
(
t
i
+
1
,
t
i
]
]
=
F
(
t
)
+
0
{\displaystyle =lim_{n\to \infty }[F(t)+\sum _{i=n}^{\infty }P(t_{i+1},t_{i}]]=F(t)+0}
da die Reihe
∑
i
=
1
∞
P
(
t
i
+
1
,
t
i
]
=
P
(
t
,
t
1
]
<
∞
{\displaystyle \sum _{i=1}^{\infty }P(t_{i+1},t_{i}]=P(t,t_{1}]<\infty }
konvergiert.
iii) Sei
t
n
↑
t
(
t
n
<
t
)
{\displaystyle t_{n}\uparrow t(t_{n}<t)}
. Zerlege
(
t
1
,
t
n
=
⋃
i
=
1
n
−
1
(
t
i
,
t
i
+
1
]
{\displaystyle (t_{1},t_{n}=\bigcup _{i=1}^{n-1}(t_{i},t_{i+1}]}
. Dann ist
F
(
t
−
)
=
l
i
m
n
→
∞
F
(
t
n
)
=
l
i
m
n
→
∞
[
F
(
t
1
)
+
P
(
t
1
,
t
n
]
]
{\displaystyle F(t-)=lim_{n\to \infty }F(t_{n})=lim_{n\to \infty }[F(t_{1})+P(t_{1},t_{n}]]}
=
l
i
m
n
→
∞
[
F
(
t
1
1
)
+
∑
i
=
1
n
−
1
P
(
t
i
,
t
i
+
1
]
]
{\displaystyle =lim_{n\to \infty }[F(t_{1}1)+\sum _{i=1}^{n-1}P(t_{i},t_{i+1}]]}
=
F
(
t
1
)
+
P
(
⋃
i
=
1
∞
(
t
i
,
t
i
+
1
]
)
=
F
(
t
1
)
+
P
(
t
1
,
t
)
{\displaystyle =F(t_{1})+P(\bigcup _{i=1}^{\infty }(t_{i},t_{i+1}])=F(t_{1})+P(t_{1},t)}
=
P
(
−
∞
,
t
)
=
F
(
t
)
−
P
(
{
w
}
)
{\displaystyle =P(-\infty ,t)=F(t)-P(\lbrace w\rbrace )}
iv) Analog zu ii) und iii).
Die Limiten in ii), iii), iv) existieren wegen i).
Im Folgenden bezeichne
⟨
a
,
b
⟩
{\displaystyle \langle a,b\rangle }
für
−
∞
≤
a
<
b
≤
∞
{\displaystyle -\infty \leq a<b\leq \infty }
eines der Intervalle
[
a
,
b
]
,
(
a
,
b
)
,
[
a
,
b
)
,
(
a
,
b
]
{\displaystyle [a,b],(a,b),[a,b),(a,b]}
. Wobei im Fall
a
=
−
∞
{\displaystyle a=-\infty }
nur
(
−
∞
,
b
⟩
{\displaystyle (-\infty ,b\rangle }
und im Fall
b
=
∞
{\displaystyle b=\infty }
nur
⟨
a
,
∞
)
{\displaystyle \langle a,\infty )}
zugelassen wird.
Sei
F
{\displaystyle F}
Verteilungsfunktion von
P
{\displaystyle P}
.
P
(
a
,
b
]
=
F
(
b
)
−
F
(
a
)
{\displaystyle P(a,b]=F(b)-F(a)}
, inbesondere
P
(
−
∞
,
b
)
=
F
(
b
)
{\displaystyle P(-\infty ,b)=F(b)}
.
P
(
a
,
b
)
=
F
(
b
−
)
−
F
(
a
)
{\displaystyle P(a,b)=F(b-)-F(a)}
, inbesondere
P
(
a
,
∞
)
=
1
−
F
(
a
)
{\displaystyle P(a,\infty )=1-F(a)}
.
P
[
a
,
b
]
=
P
(
b
)
−
P
(
a
−
)
{\displaystyle P[a,b]=P(b)-P(a-)}
.
[
a
,
b
)
=
F
(
b
−
)
−
F
(
a
−
)
{\displaystyle [a,b)=F(b-)-F(a-)}
.
1. Falls
F
{\displaystyle F}
bei
a
{\displaystyle a}
stetig und
F
{\displaystyle F}
auf dem Intervall
[
a
,
b
]
{\displaystyle [a,b]}
konstant ist, so ist
P
[
a
,
b
]
=
0
{\displaystyle P[a,b]=0}
.
2. Zusammen mit dem Fortsetzungssatz folgt, dass
P
{\displaystyle P}
durch Vorgabe einer Verteilungsfunktion (d.i. eine Funktion
F
(
t
)
,
t
∈
R
{\displaystyle F(t),t\in \mathbb {R} }
, mit den Eigenschaften i), ii), iv)) eindeutig festgelegt wird, wenn man setzt
P
(
a
,
b
]
=
F
(
b
)
−
F
(
a
)
{\displaystyle P(a,b]=F(b)-F(a)}
.
Im Fall der Exponentialverteilung aus dem Beispiel 1.5.3, bei der
F
(
t
)
=
{
0
,
t
<
0
λ
e
−
λ
t
,
t
≥
0
{\displaystyle F(t)=\left\{{\begin{array}{ll}0,&t<0\\\lambda e^{-\lambda t},&t\geq 0\end{array}}\right.}
ist, stellt man fest, dass
F
′
=
f
{\displaystyle F'=f}
bzw.
F
(
t
)
=
∫
−
∞
t
f
(
x
)
d
x
{\displaystyle F(t)=\int _{-\infty }^{t}f(x)dx}
, mit
f
(
x
)
=
{
0
,
x
<
0
λ
e
−
λ
t
,
x
≥
0
{\displaystyle f(x)=\left\{{\begin{array}{ll}0,&x<0\\\lambda e^{-\lambda t},&x\geq 0\end{array}}\right.}
.
Sei
F
P
(
t
)
,
t
∈
R
{\displaystyle F_{P}(t),t\in \mathbb {R} }
, Verteilungsfunktion von
P
{\displaystyle P}
. Existiert dann eine messbare Funktion
f
P
:
R
→
[
0
,
∞
)
{\displaystyle f_{P}:\mathbb {R} \to [0,\infty )}
mit
F
P
(
t
)
=
∫
−
∞
∞
f
P
(
x
)
d
x
{\displaystyle F_{P}(t)=\int _{-\infty }^{\infty }f_{P}(x)dx}
für alle
t
∈
R
{\displaystyle t\in \mathbb {R} }
, so heißt
f
P
(
x
)
,
x
∈
R
{\displaystyle f_{P}(x),x\in \mathbb {R} }
, Wahrscheinlichkeitsdichte oder kurz Dichte von
P
{\displaystyle P}
.
1. Das Integral
∫
−
∞
∞
{\displaystyle \int _{-\infty }^{\infty }}
lässt sich als uneigentliches Riemann-Integral oder als Lebesgue-Integral auffassen. Der Begriff 'messbar' wird später erläutert.
2. Ist die stetige Verteilungsfunktion
F
{\displaystyle F}
auf
R
∖
D
{\displaystyle \mathbb {R} \setminus D}
(
D
{\displaystyle D}
leer oder endlich) stetig differenzierbar, so besitzt
F
{\displaystyle F}
die Dichte
f
(
x
)
=
F
′
(
x
)
,
x
∈
R
∖
D
{\displaystyle f(x)=F'(x),x\in \mathbb {R} \setminus D}
, (
f
(
x
)
{\displaystyle f(x)}
auf
D
{\displaystyle D}
beliebig festgelegt).
3. Besitzt
F
{\displaystyle F}
eine Dichte, so ist
F
(
t
)
,
t
∈
R
{\displaystyle F(t),t\in \mathbb {R} }
stetig (d.h.
F
(
t
)
=
F
(
t
+
)
=
F
(
t
−
)
{\displaystyle F(t)=F(t+)=F(t-)}
) und die Formeln für
P
⟨
a
,
b
⟩
{\displaystyle P\langle a,b\rangle }
liefert für alle vier Intervalltypen die Formel
P
⟨
a
,
b
⟩
=
F
(
b
)
−
F
(
a
)
{\displaystyle P\langle a,b\rangle =F(b)-F(a)}
.
Besitzt eine Wahrscheinlichkeitsverteilung
P
{\displaystyle P}
auf
(
R
,
B
)
{\displaystyle (\mathbb {R} ,{\mathcal {B}})}
eine Dichte
f
=
f
P
{\displaystyle f=f_{P}}
, so gilt:
P
⟨
a
,
b
⟩
=
∫
a
b
f
(
x
)
d
x
{\displaystyle P\langle a,b\rangle =\int _{a}^{b}f(x)dx}
Insbesondere gilt:
∫
−
∞
∞
f
(
x
)
d
x
=
1
{\displaystyle \int _{-\infty }^{\infty }f(x)dx=1}
Folgt direkt aus Bemerkung 3.
1. Wir können also eine Dichte
f
{\displaystyle f}
durch die Eigenschaft
f
:
R
∈
[
0
,
∞
)
{\displaystyle f:\mathbb {R} \in [0,\infty )}
,
f
{\displaystyle f}
integrierbar mit
∫
−
∞
∞
f
(
x
)
d
x
=
1
{\displaystyle \int _{-\infty }^{\infty }f(x)dx=1}
festlegen.
2. Durch Vorgabe einer Dichte
f
{\displaystyle f}
ist eine Wahrscheinlichkeitsverteilung
P
{\displaystyle P}
auf
(
R
,
B
)
{\displaystyle (\mathbb {R} ,{\mathcal {B}})}
eindeutig festgelegt.
3. Der Begriff der Dichte spielt im Fall
Ω
=
R
{\displaystyle \Omega =\mathbb {R} }
die gleiche Rolle wie der Begriff der Wahrscheinlichkeitsfunktion im Falle eines abzählbaren
Ω
{\displaystyle \Omega }
(nur: eine Dichte braucht nicht notwendigerweise zu existieren!).
Gleichverteilung auf dem Intervall
Ω
=
[
A
,
B
]
⊂
R
,
A
<
B
{\displaystyle \Omega =[A,B]\subset \mathbb {R} ,A<B}
.
Dichte:
f
(
x
)
=
{
0
,
x
∉
[
A
,
B
]
1
B
−
A
,
x
∈
[
A
,
B
]
{\displaystyle f(x)=\left\{{\begin{array}{ll}0,&x\notin [A,B]\\{\frac {1}{B-A}},&x\in [A,B]\end{array}}\right.}
Verteilungsfunktion:
F
(
x
)
=
{
0
,
x
<
A
x
−
A
B
−
A
,
A
≤
x
≤
B
1
,
x
>
B
{\displaystyle F(x)=\left\{{\begin{array}{ll}0,&x<A\\{\frac {x-A}{B-A}},&A\leq x\leq B\\1,&x>B\end{array}}\right.}
Exponentialverteilung mit dem Parameter
λ
>
0
{\displaystyle \lambda >0}
:
Dichte:
f
(
x
)
=
{
0
,
x
<
0
λ
e
−
λ
x
,
x
≥
0
{\displaystyle f(x)=\left\{{\begin{array}{ll}0,&x<0\\\lambda e^{-\lambda x},&x\geq 0\end{array}}\right.}
Verteilungsfunktion:
F
(
x
)
=
{
0
,
x
<
0
1
−
e
−
λ
e
,
x
≥
0
{\displaystyle F(x)=\left\{{\begin{array}{ll}0,&x<0\\1-e^{-\lambda e},&x\geq 0\end{array}}\right.}
Verwendung:
Wartezeit (bis zum Eintreten eines Ereignisses).
Diskrete Verteilung auf
{
x
1
,
x
2
,
.
.
.
}
⊂
R
{\displaystyle \lbrace x_{1},x_{2},...\rbrace \subset \mathbb {R} }
(oder
{
x
1
,
.
.
.
,
x
n
}
⊂
R
{\displaystyle \lbrace x_{1},...,x_{n}\rbrace \subset \mathbb {R} }
) mit vorgegebener Wahrscheinlichkeitsfunktion
P
{
x
i
}
{\displaystyle P\lbrace x_{i}\rbrace }
. Setze für
A
∈
B
1
{\displaystyle A\in {\mathcal {B}}^{1}}
P
(
A
)
=
∑
i
,
x
i
≤
x
P
(
{
x
i
}
)
{\displaystyle P(A)=\sum _{i,x_{i}\leq x}P(\lbrace x_{i}\rbrace )}
P
{\displaystyle P}
bildet ein Wahrscheinlichkeitsmaß auf
(
R
,
B
)
{\displaystyle (\mathbb {R} ,{\mathcal {B}})}
, mit der Verteilungsfunktion:
F
(
x
)
=
∑
i
:
x
i
≤
x
P
(
{
x
i
}
)
{\displaystyle F(x)=\sum _{i:x_{i}\leq x}P(\lbrace x_{i}\rbrace )}
Es existiert jedoch keine Dichte!
Normalverteilung mit Parametern
μ
{\displaystyle \mu }
und
σ
2
,
μ
∈
R
,
σ
2
>
0
{\displaystyle \sigma ^{2},\mu \in \mathbb {R} ,\sigma ^{2}>0}
:
Dichte:
ϕ
μ
,
σ
2
(
x
)
=
1
2
π
σ
e
1
2
⋅
(
x
−
μ
σ
)
2
{\displaystyle \phi _{\mu ,\sigma ^{2}}(x)={\frac {1}{{\sqrt {2\pi }}\sigma }}e^{{\frac {1}{2}}\cdot ({\frac {x-\mu }{\sigma }})^{2}}}
Verteilungsfunktion:
Φ
μ
,
σ
2
(
x
)
=
∫
−
∞
x
ϕ
μ
,
σ
2
(
t
)
d
t
{\displaystyle \Phi _{\mu ,\sigma ^{2}}(x)=\int _{-\infty }^{x}\phi _{\mu ,\sigma ^{2}}(t)dt}
Abkürzung:
N
(
μ
,
σ
2
)
{\displaystyle N(\mu ,\sigma ^{2})}
Verwendung: Symmetrisch um einen 'wahren' Wert
μ
{\displaystyle \mu }
streuende Messgröße.
Spezialfall:
N
(
0
,
1
)
{\displaystyle N(0,1)}
'Standard-Normalverteilung', man schreibt
ϕ
=
ϕ
0
,
1
,
Φ
=
Φ
0
,
1
{\displaystyle \phi =\phi _{0,1},\Phi =\Phi _{0,1}}
.
ϕ
μ
,
σ
2
(
x
)
=
1
σ
ϕ
(
x
−
μ
σ
)
,
Φ
μ
,
σ
2
(
x
)
=
Φ
(
x
−
μ
σ
)
{\displaystyle \phi _{\mu ,\sigma ^{2}}(x)={\frac {1}{\sigma }}\phi ({\frac {x-\mu }{\sigma }}),\Phi _{\mu ,\sigma ^{2}}(x)=\Phi ({\frac {x-\mu }{\sigma }})}
(Substitutionsregel)
Aus dieser Beziehung folgt:
∫
−
∞
∞
ϕ
μ
,
σ
2
(
x
)
d
x
=
Φ
μ
,
σ
2
(
∞
)
=
Φ
(
∞
)
=
∫
−
∞
∞
ϕ
(
x
)
d
x
=
1
,
{\displaystyle \int _{-\infty }^{\infty }\phi _{\mu ,\sigma ^{2}}(x)dx=\Phi _{\mu ,\sigma ^{2}}(\infty )=\Phi (\infty )=\int _{-\infty }^{\infty }\phi (x)dx=1,}
so dass
ϕ
μ
,
σ
2
{\displaystyle \phi _{\mu ,\sigma ^{2}}}
eine Dichte ist.
Das Konzept der Dichte lässt sich auch im Fall
Ω
=
R
k
{\displaystyle \Omega =\mathbb {R} ^{k}}
verwirklichen. Eine Dichte im
R
k
{\displaystyle \mathbb {R} ^{k}}
ist eine nicht negative (aber messbare) Funktion
f
(
x
)
=
f
(
x
1
,
.
.
.
,
x
k
)
,
x
∈
R
{\displaystyle f(x)=f(x_{1},...,x_{k}),x\in \mathbb {R} }
mit (Integrierbarkeit vorausgesetzt):
∫
R
k
f
(
x
1
,
.
.
.
,
x
k
)
d
k
x
=
1
{\displaystyle \int _{\mathbb {R} ^{k}}f(x_{1},...,x_{k})d^{k}x=1}
Für ein
B
∈
B
k
{\displaystyle B\in {\mathcal {B}}^{k}}
definiert man
∫
B
f
(
x
1
,
.
.
.
,
x
k
)
d
k
x
=
∫
R
k
f
(
x
)
d
k
x
=
∫
R
k
1
B
(
x
)
f
(
x
)
d
k
x
.
{\displaystyle \int _{B}f(x_{1},...,x_{k})d^{k}x=\int _{\mathbb {R} ^{k}}f(x)d^{k}x=\int _{\mathbb {R} ^{k}}1_{B}(x)f(x)d^{k}x.}
Wir benötigen den folgenden Satz der Integrationstheorie.
Ist
f
≥
0
{\displaystyle f\geq 0}
eine integrierbare Funktion auf dem
R
k
{\displaystyle \mathbb {R} ^{k}}
, so wird durch
B
↦
∫
B
f
(
x
)
d
k
x
,
b
∈
B
k
{\displaystyle B\mapsto \int _{B}f(x)d^{k}x,b\in {\mathcal {B}}^{k}}
eine
σ
{\displaystyle \sigma }
-additive Abbildung von
B
k
{\displaystyle {\mathcal {B}}^{k}}
in
[
0
,
∞
)
{\displaystyle [0,\infty )}
definiert. D.h. für paarweise disjunkte
B
1
,
.
.
.
,
B
k
∈
B
k
{\displaystyle B_{1},...,B_{k}\in {\mathcal {B}}^{k}}
gilt:
∫
⋃
B
i
f
(
x
)
d
k
x
=
∑
i
=
1
∞
∫
B
i
f
(
x
)
d
k
x
{\displaystyle \int _{\bigcup B_{i}}f(x)d^{k}x=\sum _{i=1}^{\infty }\int _{B_{i}}f(x)d^{k}x}
Über den Satz der monotonen Konvergenz.
Sei
f
(
x
)
,
x
∈
R
k
{\displaystyle f(x),x\in \mathbb {R} ^{k}}
eine Dichte und
(
a
,
b
]
{\displaystyle (a,b]}
ein
n
{\displaystyle n}
-dimensionales Intervall
(
a
,
b
]
=
⊗
i
=
1
k
(
a
i
,
b
i
]
{\displaystyle (a,b]=\otimes _{i=1}^{k}(a_{i},b_{i}]}
.
a) Setzt man
(*)
P
(
a
,
b
]
=
∫
(
a
,
b
]
f
(
x
)
d
k
x
{\displaystyle P(a,b]=\int _{(a,b]}f(x)d^{k}x}
so wird eine Wahrscheinlichkeitsverteilung
P
{\displaystyle P}
auf
(
R
k
,
B
k
)
{\displaystyle (\mathbb {R} ^{k},{\mathcal {B}}^{k})}
eindeutig festgelegt. (Anstelle von
(
a
,
b
]
{\displaystyle (a,b]}
lässt sich auch jeder andere Intervalltyp
⟨
a
,
b
⟩
=
⊗
i
=
1
k
⟨
a
i
,
b
i
⟩
{\displaystyle \langle a,b\rangle =\otimes _{i=1}^{k}\langle a_{i},b_{i}\rangle }
einsetzen.)
b) Für die Wahrscheinlichkeitsverteilung
P
{\displaystyle P}
aus a) gilt, allgemeiner als (*):
P
(
B
)
=
∫
B
f
(
x
)
d
k
x
(
B
∈
B
k
)
{\displaystyle P(B)=\int _{B}f(x)d^{k}x(B\in {\mathcal {B}}^{k})}
a) Durch (*) wird eine Abbildung
P
:
F
k
→
[
0
,
1
]
{\displaystyle P:F^{k}\to [0,1]}
definiert, die wegen
∫
R
k
f
(
x
)
d
k
x
=
1
{\displaystyle \int _{\mathbb {R} ^{k}}f(x)d^{k}x=1}
normiert ist und aufgrund des vorangegangenen Satzes
σ
{\displaystyle \sigma }
-additiv auf
F
k
{\displaystyle F^{k}}
ist. Nach dem Fortsetzungssatz hat sie eine eindeutige Fortsetzung auf
B
k
{\displaystyle {\mathcal {B}}^{k}}
.
b) Folgt dann aus dem vorangegangenen Satz und der Eindeutigkeitsaussage von a).
k
{\displaystyle k}
-dimensionale Normalenverteilung mit Paramter
μ
∈
R
k
{\displaystyle \mu \in \mathbb {R} ^{k}}
und
Σ
{\displaystyle \Sigma }
(symmetrische
k
×
k
{\displaystyle k\times k}
-Matrix, positiv definit), kurz
N
(
μ
,
Σ
)
{\displaystyle N(\mu ,\Sigma )}
-Verteilung.
Dichte:
f
(
x
)
=
1
(
s
π
)
k
d
e
t
(
Σ
)
e
−
1
2
(
x
−
μ
)
T
⋅
Σ
−
1
⋅
(
x
−
μ
)
{\displaystyle f(x)={\frac {1}{\sqrt {(s\pi )^{k}det(\Sigma )}}}e^{-{\frac {1}{2}}(x-\mu )^{T}\cdot \Sigma ^{-1}\cdot (x-\mu )}}
mit
x
∈
R
k
.
{\displaystyle x\in \mathbb {R} ^{k}.}
Abkürzung:
(
N
k
(
μ
,
Σ
)
)
.
{\displaystyle (N_{k}(\mu ,\Sigma )).}
N
k
(
0
,
I
k
)
{\displaystyle N_{k}(0,I_{k})}
(
k
{\displaystyle k}
-dimensionale Standard-Normalenverteilung).
Im Fall
μ
=
0
∈
R
k
{\displaystyle \mu =0\in \mathbb {R} ^{k}}
und
Σ
=
I
k
{\displaystyle \Sigma =I_{k}}
(
k
{\displaystyle k}
-dimensionale Einheitsmatrix) reduziert sich die Gleichung der Dichte aus dem obigen Beispiel auf
f
(
x
)
=
1
(
s
π
)
k
e
−
1
2
(
x
1
2
+
.
.
.
+
x
k
2
)
=
Π
i
=
1
k
e
−
1
2
x
(
s
π
)
{\displaystyle f(x)={\frac {1}{\sqrt {(s\pi )^{k}}}}e^{-{\frac {1}{2}}(x_{1}^{2}+...+x_{k}^{2})}=\Pi _{i=1}^{k}{\frac {e^{-{\frac {1}{2}}x}}{\sqrt {(s\pi )}}}}
mit
x
=
(
x
1
,
.
.
.
,
x
k
)
∈
R
k
{\displaystyle x=(x_{1},...,x_{k})\in \mathbb {R} ^{k}}
.
f
(
x
)
{\displaystyle f(x)}
hat die Normierungseigenschaft.
Zu Beginn der Vorlesung hatten wir jede Abbildung:
Ω
→
Ω
′
{\displaystyle \Omega \to \Omega '}
als Zufallsgröße bezeichnet:
(
Ω
,
S
,
P
)
→
(
Ω
′
,
S
′
,
P
X
)
{\displaystyle (\Omega ,{\mathcal {S}},P)\to (\Omega ',{\mathcal {S}}',P_{X})}
. Jetzt müssen wir sicherstellen, dass die Urbilder
X
−
1
(
A
′
)
,
A
′
∈
S
′
{\displaystyle X^{-1}(A'),A'\in {\mathcal {S}}'}
auch Element von
S
{\displaystyle {\mathcal {S}}}
sind.
a) Sind
(
Ω
,
S
)
,
(
Ω
′
,
S
′
)
{\displaystyle (\Omega ,{\mathcal {S}}),(\Omega ',{\mathcal {S}}')}
messbare Räume, so heißt eine Abbildung
X
:
Ω
→
Ω
′
{\displaystyle X:\Omega \to \Omega '}
Zufallsgröße (auf
(
Ω
,
S
)
{\displaystyle (\Omega ,{\mathcal {S}})}
, mit Werten in
Ω
′
{\displaystyle \Omega '}
), falls
X
−
1
(
A
′
)
∈
S
∀
A
′
∈
S
′
{\displaystyle X^{-1}(A')\in {\mathcal {S}}\forall A'\in {\mathcal {S}}'}
b) Ist
X
:
Ω
→
Ω
′
{\displaystyle X:\Omega \to \Omega '}
Zufallsgröße und
P
{\displaystyle P}
eine Wahrscheinlichkeitsverteilung auf
(
Ω
,
S
)
{\displaystyle (\Omega ,{\mathcal {S}})}
, so heißt
P
X
:
S
′
→
[
0
,
1
]
{\displaystyle P_{X}:{\mathcal {S}}'\to [0,1]}
mit
P
X
(
A
′
)
=
P
(
X
−
1
(
A
′
)
)
,
A
′
∈
S
′
{\displaystyle P_{X}(A')=P(X^{-1}(A')),A'\in {\mathcal {S}}'}
Verteilung von
X
{\displaystyle X}
.
1. Man zeige genau wie zu Beginn der Vorlesung, dass
P
X
{\displaystyle P_{X}}
eine Wahrscheinlichkeitsverteilung auf
(
Ω
′
,
S
′
)
{\displaystyle (\Omega ',{\mathcal {S}}')}
ist.
2. In der Maßtheorie nennt man eine Abbildung
X
{\displaystyle X}
mit der Eigenschaft a) messbar bezüglich
S
,
S
′
{\displaystyle {\mathcal {S}},{\mathcal {S}}'}
. (Eine messbare Funktion
f
:
R
k
→
R
{\displaystyle f:\mathbb {R} ^{k}\to \mathbb {R} }
ist also messbar bezüglich
B
k
,
B
1
{\displaystyle {\mathcal {B}}^{k},{\mathcal {B}}^{1}}
.)
3. Im Fall
Ω
′
=
R
k
,
S
′
=
B
k
{\displaystyle \Omega '=\mathbb {R} ^{k},{\mathcal {S}}'={\mathcal {B}}^{k}}
spricht man von einem
k
{\displaystyle k}
-dimensionalen Zufallsvektor, im Fall
k
=
1
{\displaystyle k=1}
von einer Zufallsvariablen.
4. Es gibt nichtmessbare Funktionen
F
:
R
→
R
{\displaystyle F:\mathbb {R} \to \mathbb {R} }
. Ist nämlich
C
⊂
R
1
{\displaystyle C\subset \mathbb {R} ^{1}}
nicht borelsch, so ist
f
=
1
C
{\displaystyle f=1_{C}}
nicht messbar.
Seien
(
Ω
,
S
)
,
(
Ω
′
,
S
′
)
{\displaystyle (\Omega ,{\mathcal {S}}),(\Omega ',{\mathcal {S}}')}
messbare Räume,
F
′
⊂
S
′
{\displaystyle F'\subset {\mathcal {S}}'}
sei Erzeugendensystem von
S
′
{\displaystyle {\mathcal {S}}'}
(d.h.
σ
(
F
′
)
=
S
′
{\displaystyle \sigma (F')={\mathcal {S}}'}
). Die Abbildung
X
:
Ω
→
Ω
′
{\displaystyle X:\Omega \to \Omega '}
ist genau dann Zufallsgröße, wenn
X
−
1
(
A
′
)
∈
S
,
∀
A
′
∈
F
′
{\displaystyle X^{-1}(A')\in {\mathcal {S}},\forall A'\in F'}
.
Aus 1) folgt 3) (trivial). Sei nun 3) erfüllt. Setze
ϕ
′
=
{
A
′
∈
S
′
:
X
−
1
(
A
′
)
∈
S
}
{\displaystyle \phi '=\lbrace A'\in {\mathcal {S}}':X^{-1}(A')\in {\mathcal {S}}\rbrace }
,
man zeigt, dass
ϕ
′
{\displaystyle \phi '}
eine
σ
{\displaystyle \sigma }
-Algebra ist. Aus
F
′
⊂
ϕ
′
⊂
S
′
{\displaystyle F'\subset \phi '\subset {\mathcal {S}}'}
folgt
S
′
=
σ
(
F
′
)
⊂
σ
(
ϕ
′
)
=
ϕ
′
⊂
σ
(
S
′
)
=
S
′
⇒
ϕ
′
=
S
′
.
{\displaystyle {\mathcal {S}}'=\sigma (F')\subset \sigma (\phi ')=\phi '\subset \sigma ({\mathcal {S}}')={\mathcal {S}}'\Rightarrow \phi '={\mathcal {S}}'.}
Sei
(
Ω
,
S
)
{\displaystyle (\Omega ,{\mathcal {S}})}
ein messbarer Raum,
X
:
Ω
→
R
{\displaystyle X:\Omega \to \mathbb {R} }
ist Zufallsvariable genau dann, wenn
{
X
<
b
}
≡
X
−
1
(
−
∞
,
b
]
∈
S
,
∀
b
∈
R
{\displaystyle \lbrace X<b\rbrace \equiv X^{-1}(-\infty ,b]\in {\mathcal {S}},\forall b\in \mathbb {R} }
(äquivalent:
≤
,
≥
,
>
{\displaystyle \leq ,\geq ,>}
statt
<
{\displaystyle <}
)
Insbesondere ist jede stetige (stückweise stetige) Abbildung
X
:
R
k
→
R
{\displaystyle X:\mathbb {R} ^{k}\to \mathbb {R} }
Zufallsvariable auf
(
R
k
,
B
k
)
{\displaystyle (\mathbb {R} ^{k},{\mathcal {B}}^{k})}
.
Setze
F
′
=
{
(
−
∞
,
b
]
:
b
∈
R
}
{\displaystyle F'=\lbrace (-\infty ,b]:b\in \mathbb {R} \rbrace }
. Man zeigt, dass
σ
(
F
′
)
=
B
1
{\displaystyle \sigma (F')={\mathcal {B}}^{1}}
, so dass der vorangegangene Satz anwendbar ist. Für ein stetiges
X
:
R
k
→
R
{\displaystyle X:\mathbb {R} ^{k}\to \mathbb {R} }
ist
X
−
1
(
−
∞
,
b
)
{\displaystyle X^{-1}(-\infty ,b)}
offene Menge, ist in
R
k
{\displaystyle \mathbb {R} ^{k}}
, also aus
B
k
{\displaystyle {\mathcal {B}}^{k}}
.
Sei
X
=
(
X
1
,
.
.
.
,
X
,
k
)
{\displaystyle X=(X_{1},...,X_{,}k)}
eine Abbildung:
Ω
→
R
k
{\displaystyle \Omega \to \mathbb {R} ^{k}}
, und
(
Ω
,
S
)
{\displaystyle (\Omega ,{\mathcal {S}})}
messbarer Raum. Dann ist
X
{\displaystyle X}
ein Zufallsvektor genau dann, wenn jedes
X
i
{\displaystyle X_{i}}
eine Zufallsvariable ist (
i
=
1
,
.
.
.
,
k
{\displaystyle i=1,...,k}
).
Es gilt:
X
i
−
1
(
a
,
b
]
=
X
−
1
(
R
×
.
.
.
×
R
×
(
a
,
b
]
×
R
×
.
.
.
×
R
)
{\displaystyle X_{i}^{-1}(a,b]=X^{-1}(\mathbb {R} \times ...\times \mathbb {R} \times (a,b]\times \mathbb {R} \times ...\times \mathbb {R} )}
mit
(
a
,
b
]
{\displaystyle (a,b]}
an der
i
{\displaystyle i}
-ten Stelle, woraus die Behauptung folgt.
Sind
(
Ω
,
S
)
,
(
Ω
′
,
S
′
)
,
(
Ω
″
,
S
″
)
{\displaystyle (\Omega ,{\mathcal {S}}),(\Omega ',{\mathcal {S}}'),(\Omega '',{\mathcal {S}}'')}
messbare Räume und
X
:
Ω
→
Ω
′
,
Y
:
Ω
′
→
Ω
″
{\displaystyle X:\Omega \to \Omega ',Y:\Omega '\to \Omega ''}
Zufallsgrößen, so ist auch
Y
∘
X
:
Ω
→
Ω
″
{\displaystyle Y\circ X:\Omega \to \Omega ''}
eine Zufallsgröße (Beweis klar).
Die eingeführte Notaion "
F
{\displaystyle F}
ist eine Verteilungsfunktion von
P
{\displaystyle P}
" und "
f
{\displaystyle f}
ist Dichte von
P
{\displaystyle P}
" wird durch die Verteilung
P
X
{\displaystyle P_{X}}
von
X
{\displaystyle X}
angewandt:
Man sagt dann "
F
{\displaystyle F}
ist Verteilungsfunktion von
X
{\displaystyle X}
"(d.h.
F
X
(
x
)
=
P
(
x
∈
X
)
=
P
X
(
−
∞
,
x
]
{\displaystyle F_{X}(x)=P(x\in X)=P_{X}(-\infty ,x]}
für eine Zufallsvariable von
X
{\displaystyle X}
) und
f
X
{\displaystyle f_{X}}
ist Dichte von
X
{\displaystyle X}
(aber
X
{\displaystyle X}
hat Dichte
f
{\displaystyle f}
).
Ist die Zufallsvariable
X
{\displaystyle X}
eine Wartezeit und
P
X
{\displaystyle P_{X}}
eine Exponentialverteilung (mit
λ
>
0
{\displaystyle \lambda >0}
), so hat
X
{\displaystyle X}
die
Verteilungsfunktion:
F
X
(
x
)
=
{
0
,
x
<
0
1
−
e
−
λ
x
,
x
≥
0
{\displaystyle F_{X}(x)=\left\{{\begin{array}{ll}0,&x<0\\1-e^{-\lambda x},&x\geq 0\end{array}}\right.}
bzw. die Dichte:
f
X
(
x
)
=
{
0
,
x
<
0
λ
e
−
λ
x
,
x
≥
0
{\displaystyle f_{X}(x)=\left\{{\begin{array}{ll}0,&x<0\\\lambda e^{-\lambda x},&x\geq 0\end{array}}\right.}
Hat der Zufallsvektor
X
=
(
X
1
,
.
.
.
,
X
k
)
{\displaystyle X=(X_{1},...,X_{k})}
die Dichte
f
(
x
)
=
f
X
(
x
)
,
x
∈
R
k
{\displaystyle f(x)=f_{X}(x),x\in \mathbb {R} ^{k}}
, so gilt für ein
k
{\displaystyle k}
-dimensionales Intervall
(
a
,
b
]
=
⊗
i
=
1
k
(
a
i
,
b
i
]
{\displaystyle (a,b]=\otimes _{i=1}^{k}(a_{i},b_{i}]}
:
P
X
(
a
,
b
]
=
∫
a
k
b
k
.
.
.
∫
a
1
b
1
f
(
x
1
,
.
.
.
,
x
k
)
d
x
1
.
.
.
d
x
k
{\displaystyle P_{X}(a,b]=\int _{a_{k}}^{b_{k}}...\int _{a_{1}}^{b_{1}}f(x_{1},...,x_{k})dx_{1}...dx_{k}}
Hat
X
{\displaystyle X}
die Dichte
f
(
x
)
,
x
∈
R
k
{\displaystyle f(x),x\in \mathbb {R} ^{k}}
, so hat die Komponente
X
i
{\displaystyle X_{i}}
die Randdichte
f
X
i
(
x
i
)
=
∫
R
k
−
1
f
(
x
1
,
.
.
.
,
x
k
)
d
x
1
.
.
.
d
x
i
−
1
d
x
i
+
1
.
.
.
d
x
k
{\displaystyle f_{X_{i}}(x_{i})=\int _{\mathbb {R} ^{k-1}}f(x_{1},...,x_{k})dx_{1}...dx_{i-1}dx_{i+1}...dx_{k}}
.
Der folgende Satz gibt die Dichte von
ϕ
∘
X
{\displaystyle \phi \circ X}
an, wenn die Dichte von
X
{\displaystyle X}
gegeben ist.
Der
k
{\displaystyle k}
-dimensionale Zufallsvektor
X
{\displaystyle X}
besitzt die Dichte
f
(
x
)
,
x
∈
R
k
{\displaystyle f(x),x\in \mathbb {R} ^{k}}
, wobei für eine offene Menge
U
⊂
R
k
{\displaystyle U\subset \mathbb {R} ^{k}}
gilt:
f
(
x
)
=
0
{\displaystyle f(x)=0}
für
x
∉
U
{\displaystyle x\notin U}
. Sei
ϕ
:
U
→
V
,
V
⊂
R
k
{\displaystyle \phi :U\to V,V\subset \mathbb {R} ^{k}}
eine bijektive Abbildung mit
ϕ
,
ϕ
−
1
{\displaystyle \phi ,\phi ^{-1}}
stetig differenzierbar.
Dann hat der
k
{\displaystyle k}
-dimensionale Zufallsvektor
Y
=
ϕ
∘
X
{\displaystyle Y=\phi \circ X}
eine Dichte und es gilt
g
(
y
)
=
0
,
y
∉
V
{\displaystyle g(y)=0,y\notin V}
g
(
y
)
=
f
(
ϕ
−
1
(
y
)
)
⋅
|
d
e
t
(
d
ϕ
−
1
d
y
(
y
)
)
|
,
y
∈
V
{\displaystyle g(y)=f(\phi ^{-1}(y))\cdot |det({\frac {d\phi ^{-1}}{dy}}(y))|,y\in V}
wobei
(
d
ϕ
−
1
d
y
(
y
)
)
=
(
d
ϕ
i
−
1
d
y
j
(
y
)
)
,
(
i
,
j
=
1
,
.
.
.
,
k
)
{\displaystyle ({\frac {d\phi ^{-1}}{dy}}(y))=({\frac {d\phi _{i}^{-1}}{dy_{j}}}(y)),(i,j=1,...,k)}
die
k
×
k
{\displaystyle k\times k}
Funktionsmatrix von
ϕ
−
1
{\displaystyle \phi ^{-1}}
ist.
Zur Festlegung der Verteilung (und damit der Dichte) von
Y
=
ϕ
∘
X
{\displaystyle Y=\phi \circ X}
genügt es,
ϕ
{\displaystyle \phi }
alleine auf
U
{\displaystyle U}
festzulegen. Sind nämlich
ϕ
{\displaystyle \phi }
und
ϕ
~
:
R
k
→
R
k
{\displaystyle {\tilde {\phi }}:\mathbb {R} ^{k}\to \mathbb {R} ^{k}}
mit
ϕ
|
U
=
ϕ
~
|
U
{\displaystyle \phi |U={\tilde {\phi }}|U}
, so gilt
P
ϕ
~
∘
X
=
P
ϕ
∘
X
{\displaystyle P_{{\tilde {\phi }}\circ X}=P_{\phi \circ X}}
.
In der Tat, sei
B
∈
B
k
{\displaystyle B\in {\mathcal {B}}^{k}}
, dann
P
ϕ
~
∘
X
(
B
)
=
P
(
X
∈
ϕ
~
−
1
(
B
)
)
=
P
(
X
∈
ϕ
~
−
1
(
B
)
∩
U
)
{\displaystyle P_{{\tilde {\phi }}\circ X}(B)=P(X\in {\tilde {\phi }}^{-1}(B))=P(X\in {\tilde {\phi }}^{-1}(B)\cap U)}
=
P
(
X
∈
ϕ
−
1
(
B
)
∩
U
)
=
P
(
X
∈
ϕ
−
1
(
B
)
)
=
P
ϕ
∘
X
(
B
)
{\displaystyle =P(X\in \phi ^{-1}(B)\cap U)=P(X\in \phi ^{-1}(B))=P_{\phi \circ X}(B)}
die zweite Gleichheit gilt wegen
P
(
X
∈
U
¯
)
=
∫
U
¯
f
(
x
)
d
x
=
0
,
{\displaystyle P(X\in {\bar {U}})=\int _{\bar {U}}f(x)dx=0,}
da
f
(
x
)
=
0
{\displaystyle f(x)=0}
für
x
∉
U
{\displaystyle x\notin U}
.
Sei
A
∈
B
k
{\displaystyle A\in {\mathcal {B}}^{k}}
offen, dann gilt wegen der zweiten Gleichheit (
P
(
X
∈
U
¯
)
=
0
{\displaystyle P(X\in {\bar {U}})=0}
):
P
ϕ
∘
X
(
A
)
=
P
(
X
∈
ϕ
−
1
(
A
)
)
=
P
(
X
∈
ϕ
−
1
(
A
)
∩
U
)
{\displaystyle P_{\phi \circ X}(A)=P(X\in \phi ^{-1}(A))=P(X\in \phi ^{-1}(A)\cap U)}
=
∫
ϕ
−
1
(
A
)
∩
U
f
(
x
)
d
x
=
∫
ϕ
−
1
(
a
∩
V
)
f
(
x
)
d
x
{\displaystyle =\int _{\phi ^{-1}(A)\cap U}f(x)dx=\int _{\phi ^{-1}(a\cap V)}f(x)dx}
=
∫
(
A
∩
V
)
f
(
ϕ
−
1
(
x
)
)
⋅
|
d
e
t
d
ϕ
−
1
d
y
(
y
)
|
d
y
≡
∫
A
g
(
y
)
d
y
{\displaystyle =\int _{(A\cap V)}f(\phi ^{-1}(x))\cdot |det{\frac {d\phi ^{-1}}{dy}}(y)|dy\equiv \int _{A}g(y)dy}
wobei wir den Transformationssatz für Integrale angewandt haben. Speziell gilt für offenes
A
=
⊗
i
=
k
k
(
a
i
,
b
i
)
{\displaystyle A=\otimes _{i=k}^{k}(a_{i},b_{i})}
:
P
ϕ
∘
X
(
A
)
=
∫
a
k
b
k
.
.
.
∫
a
1
b
1
g
(
y
)
d
y
{\displaystyle P_{\phi \circ X}(A)=\int _{a_{k}}^{b_{k}}...\int _{a_{1}}^{b_{1}}g(y)dy}
d.h.
g
(
y
)
{\displaystyle g(y)}
ist Dichte von
ϕ
∘
X
{\displaystyle \phi \circ X}
.
Besitzt der
k
{\displaystyle k}
-dimensionale Zufallsvektor
X
{\displaystyle X}
die Dichte
f
(
x
)
,
x
∈
R
k
{\displaystyle f(x),x\in \mathbb {R} ^{k}}
, so lautet die Dichte
g
(
y
)
,
y
∈
R
k
{\displaystyle g(y),y\in \mathbb {R} ^{k}}
von
Y
=
A
⋅
X
+
b
{\displaystyle Y=A\cdot X+b}
, (A invertierbare
k
×
k
{\displaystyle k\times k}
-Matrix,
b
∈
R
k
{\displaystyle b\in \mathbb {R} ^{k}}
)
g
(
y
)
=
1
|
d
e
t
A
|
f
(
A
−
1
(
y
−
b
)
)
,
y
∈
R
k
.
{\displaystyle g(y)={\frac {1}{|detA|}}f(A^{-1}(y-b)),y\in \mathbb {R} ^{k}.}
ϕ
(
X
)
=
A
⋅
X
+
b
{\displaystyle \phi (X)=A\cdot X+b}
ist auf
U
=
R
k
{\displaystyle U=\mathbb {R} ^{k}}
bijektiv, mit
ϕ
−
1
(
y
)
=
A
−
1
(
y
−
b
)
{\displaystyle \phi ^{-1}(y)=A^{-1}(y-b)}
und
d
e
t
(
d
ϕ
−
1
(
y
)
d
y
)
=
d
e
t
(
A
−
1
)
=
1
d
e
t
(
A
)
.
{\displaystyle det({\frac {d\phi ^{-1}(y)}{dy}})=det(A^{-1})={\frac {1}{det(A)}}.}
k
{\displaystyle k}
-dimensionale Normalenverteilung.
1. Ist
X
{\displaystyle X}
N
(
0
,
I
k
)
{\displaystyle N(0,I_{k})}
-verteilt (d.h.
f
(
x
)
=
(
1
2
π
)
k
e
−
1
2
x
T
x
,
x
=
(
x
1
,
.
.
.
,
x
k
)
T
{\displaystyle f(x)=({\frac {1}{\sqrt {2\pi }}})^{k}e^{-{\frac {1}{2}}x^{T}x},x=(x_{1},...,x_{k})^{T}}
), so besitzt
Y
=
A
⋅
X
+
μ
{\displaystyle Y=A\cdot X+\mu }
(
A
{\displaystyle A}
invertierbare
k
×
k
{\displaystyle k\times k}
-Matrix,
μ
∈
R
k
{\displaystyle \mu \in \mathbb {R} ^{k}}
) die Dichte
g
(
y
)
=
1
|
d
e
t
(
A
)
|
(
1
2
π
)
k
⋅
e
−
1
2
(
y
−
μ
)
T
(
A
−
1
)
T
⋅
A
−
1
(
y
−
μ
)
{\displaystyle g(y)={\frac {1}{|det(A)|}}({\frac {1}{\sqrt {2\pi }}})^{k}\cdot e^{-{\frac {1}{2}}(y-\mu )^{T}(A^{-1})^{T}\cdot A^{-1}(y-\mu )}}
=
1
(
2
π
)
k
d
e
t
(
Σ
)
e
−
1
2
(
y
−
μ
)
T
⋅
Σ
−
1
(
y
−
μ
)
{\displaystyle ={\frac {1}{\sqrt {(2\pi )^{k}det(\Sigma )}}}e^{-{\frac {1}{2}}(y-\mu )^{T}\cdot \Sigma ^{-1}(y-\mu )}}
mit
Σ
=
A
⋅
A
T
{\displaystyle \Sigma =A\cdot A^{T}}
. (Dann ist
Σ
−
1
=
(
A
⋅
A
T
)
−
1
=
(
A
−
1
)
⋅
A
−
1
{\displaystyle \Sigma ^{-1}=(A\cdot A^{T})^{-1}=(A^{-1})\cdot A^{-1}}
,
Σ
{\displaystyle \Sigma }
symmetrisch, positiv definit,
d
e
t
(
Σ
)
=
(
d
e
t
(
A
)
)
2
{\displaystyle det(\Sigma )=(det(A))^{2}}
).
Y
{\displaystyle Y}
ist also
N
k
(
μ
,
Σ
)
{\displaystyle N_{k}(\mu ,\Sigma )}
-verteilt.
2. Ist umgekehrt
Y
N
k
(
μ
,
Σ
)
{\displaystyle YN_{k}(\mu ,\Sigma )}
-verteilt (
Σ
{\displaystyle \Sigma }
symmetrisch, positiv definit), so ist
X
=
(
Σ
−
1
2
)
T
⋅
(
y
−
μ
)
N
k
(
0
,
I
k
)
{\displaystyle X=(\Sigma ^{-{\frac {1}{2}}})^{T}\cdot (y-\mu )N_{k}(0,I_{k})}
-verteilt. Dabei ist
Σ
−
1
2
{\displaystyle \Sigma ^{-{\frac {1}{2}}}}
eine intvertierbare
k
×
k
{\displaystyle k\times k}
-Matrix mit
Σ
−
1
=
(
Σ
−
1
2
)
⋅
(
Σ
−
1
2
)
T
{\displaystyle \Sigma ^{-1}=(\Sigma ^{-{\frac {1}{2}}})\cdot (\Sigma ^{-{\frac {1}{2}}})^{T}}
(
(
Σ
−
1
2
)
T
=
A
{\displaystyle (\Sigma ^{-{\frac {1}{2}}})^{T}=A}
aus 1.).
Für symmetrische, positiv definite
B
{\displaystyle B}
existieren verschiedene "Wurzeln"
B
1
2
{\displaystyle B^{\frac {1}{2}}}
von
B
{\displaystyle B}
mit (+)
B
=
B
1
2
⋅
(
B
1
2
)
T
{\displaystyle B=B^{\frac {1}{2}}\cdot (B^{\frac {1}{2}})^{T}}
(oben mit
B
=
Σ
−
1
,
B
1
2
=
A
−
1
{\displaystyle B=\Sigma ^{-1},B^{\frac {1}{2}}=A^{-1}}
):
1. symmetrische Wurzel,
B
1
2
{\displaystyle B^{\frac {1}{2}}}
symmetrisch, positiv definit
2. Cholesky Wurzel,
B
1
2
{\displaystyle B^{\frac {1}{2}}}
obere Dreiecksmatrix
In jedem Fall ist
d
e
t
(
B
1
2
)
=
d
e
t
B
{\displaystyle det(B^{\frac {1}{2}})={\sqrt {detB}}}
und (+).
a) Die auf
(
Ω
,
S
,
P
)
{\displaystyle (\Omega ,{\mathcal {S}},P)}
definierten Zufallsvariablen
X
1
,
.
.
.
,
X
n
{\displaystyle X_{1},...,X_{n}}
heißen unabhängig, falls für alle
B
1
,
.
.
.
,
B
n
∈
B
1
{\displaystyle B_{1},...,B_{n}\in {\mathcal {B}}^{1}}
gilt:
P
(
X
1
∈
B
1
,
.
.
.
,
X
n
∈
B
n
)
=
P
(
X
1
∈
B
1
)
⋅
.
.
.
⋅
P
(
X
n
∈
B
n
)
{\displaystyle P(X_{1}\in B_{1},...,X_{n}\in B_{n})=P(X_{1}\in B_{1})\cdot ...\cdot P(X_{n}\in B_{n})}
b) Abzählbar viele Zufallsvariablen
X
1
,
X
2
,
.
.
.
{\displaystyle X_{1},X_{2},...}
heißen unabhängig, wenn je endlich viele
X
i
1
,
.
.
.
,
X
i
n
{\displaystyle X_{i_{1}},...,X_{i_{n}}}
unabhängig sind.
Die auf
(
Ω
,
S
,
P
)
{\displaystyle (\Omega ,{\mathcal {S}},P)}
definierten Zufallsvariablen
X
1
,
.
.
.
,
X
n
{\displaystyle X_{1},...,X_{n}}
sind unabhängig genau dann, wenn
P
(
X
1
,
.
.
.
,
X
n
)
=
P
X
1
×
.
.
.
×
P
X
n
.
{\displaystyle P_{(X_{1},...,X_{n})}=P_{X_{1}}\times ...\times P_{X_{n}}.}
Es gelte
P
(
X
1
,
.
.
.
,
X
n
)
=
P
X
1
×
.
.
.
×
P
X
n
{\displaystyle P_{(X_{1},...,X_{n})}=P_{X_{1}}\times ...\times P_{X_{n}}}
:
Seien
B
1
,
.
.
,
B
n
∈
B
1
{\displaystyle B_{1},..,B_{n}\in {\mathcal {B}}^{1}}
, dann gilt:
P
(
X
1
∈
B
1
,
.
.
.
,
X
n
∈
B
n
)
=
P
(
X
1
,
.
.
.
,
X
n
)
(
B
1
×
.
.
.
×
B
n
)
{\displaystyle P(X_{1}\in B_{1},...,X_{n}\in B_{n})=P_{(X_{1},...,X_{n})}(B_{1}\times ...\times B_{n})}
=
P
X
1
×
.
.
.
×
P
X
n
(
B
1
×
.
.
.
×
B
n
)
=
P
X
1
(
B
1
)
⋅
.
.
.
⋅
P
X
n
(
B
n
)
{\displaystyle =P_{X_{1}}\times ...\times P_{X_{n}}(B_{1}\times ...\times B_{n})=P_{X_{1}}(B_{1})\cdot ...\cdot P_{X_{n}}(B_{n})}
=
P
(
X
1
∈
B
1
)
⋅
.
.
.
⋅
P
(
X
n
∈
B
n
)
{\displaystyle =P(X_{1}\in B_{1})\cdot ...\cdot P(X_{n}\in B_{n})}
Es gelte
X
1
,
.
.
.
,
X
n
{\displaystyle X_{1},...,X_{n}}
unabhängig:
P
(
X
1
,
.
.
.
,
X
n
)
(
B
1
×
.
.
.
×
B
n
)
=
P
(
X
1
⊂
B
1
)
⋅
.
.
.
⋅
P
(
X
n
⊂
B
n
)
{\displaystyle P_{(X_{1},...,X_{n})}(B_{1}\times ...\times B_{n})=P(X_{1}\subset B_{1})\cdot ...\cdot P(X_{n}\subset B_{n})}
=
P
(
X
1
∈
B
1
)
⋅
.
.
.
⋅
P
(
X
n
∈
B
n
)
=
P
X
1
(
B
1
)
⋅
.
.
.
⋅
P
X
n
(
B
n
)
{\displaystyle =P(X_{1}\in B_{1})\cdot ...\cdot P(X_{n}\in B_{n})=P_{X_{1}}(B_{1})\cdot ...\cdot P_{X_{n}}(B_{n})}
Da die
σ
{\displaystyle \sigma }
-Algebra
B
n
{\displaystyle {\mathcal {B}}^{n}}
von dem System der Intervalle
(
a
,
b
]
=
⊗
1
n
(
a
i
,
b
i
]
{\displaystyle (a,b]=\otimes _{1}^{n}(a_{i},b_{i}]}
erzeugt werden, genügt es, statt a) der Definition für alle
a
,
b
∈
R
n
,
a
<
b
{\displaystyle a,b\in \mathbb {R} ^{n},a<b}
zu finden:
P
(
a
1
⊂
X
1
≤
b
1
,
.
.
.
,
a
n
⊂
X
n
≤
b
n
)
=
P
(
a
1
⊂
X
1
≤
b
1
)
⋅
.
.
.
⋅
P
(
a
n
⊂
X
n
≤
b
n
)
{\displaystyle P(a_{1}\subset X_{1}\leq b_{1},...,a_{n}\subset X_{n}\leq b_{n})=P(a_{1}\subset X_{1}\leq b_{1})\cdot ...\cdot P(a_{n}\subset X_{n}\leq b_{n})}
Auch Intervalltypen
[
)
,
[
]
,
(
)
{\displaystyle [),[],()}
können anstelle von (] verwendet werden.
Die Zufallsvariablen
X
1
,
.
.
.
,
X
n
{\displaystyle X_{1},...,X_{n}}
mögen die Dichten
f
1
,
.
.
.
,
f
n
{\displaystyle f_{1},...,f_{n}}
besitzen.
Dann gilt:
X
1
,
.
.
.
,
X
n
{\displaystyle X_{1},...,X_{n}}
unabhängig
⇑⇓
{\displaystyle \Uparrow \Downarrow }
(
X
1
,
.
.
.
,
X
n
)
{\displaystyle (X_{1},...,X_{n})}
hat Dichte
f
(
x
1
,
.
.
.
,
x
n
)
=
f
(
x
1
)
⋅
.
.
.
⋅
f
(
x
n
)
{\displaystyle f(x_{1},...,x_{n})=f(x_{1})\cdot ...\cdot f(x_{n})}
"
⇓
{\displaystyle \Downarrow }
" Sind
X
1
,
.
.
.
,
X
n
{\displaystyle X_{1},...,X_{n}}
unabhängig, dann folgt:
P
(
x
1
,
.
.
.
,
x
n
)
(
(
a
1
,
b
1
]
×
.
.
.
×
(
a
n
,
b
n
]
)
=
P
X
1
(
a
1
,
b
1
]
⋅
.
.
.
⋅
P
X
n
(
a
n
,
b
n
]
{\displaystyle P_{(x_{1},...,x_{n})}((a_{1},b_{1}]\times ...\times (a_{n},b_{n}])=P_{X_{1}}(a_{1},b_{1}]\cdot ...\cdot P_{X_{n}}(a_{n},b_{n}]}
=
∫
a
1
b
1
f
1
(
x
1
)
d
x
1
⋅
.
.
.
⋅
∫
a
n
b
n
f
n
(
x
n
)
d
x
n
{\displaystyle =\int _{a_{1}}^{b_{1}}f_{1}(x_{1})dx_{1}\cdot ...\cdot \int _{a_{n}}^{b_{n}}f_{n}(x_{n})dx_{n}}
=
∫
a
1
b
1
.
.
.
∫
a
n
b
n
f
1
(
x
1
)
⋅
.
.
.
⋅
f
n
(
x
n
)
d
x
1
⋅
.
.
.
⋅
d
x
n
{\displaystyle =\int _{a_{1}}^{b_{1}}...\int _{a_{n}}^{b_{n}}f_{1}(x_{1})\cdot ...\cdot f_{n}(x_{n})dx_{1}\cdot ...\cdot dx_{n}}
⇒
(
X
1
,
.
.
.
,
X
n
)
{\displaystyle \Rightarrow (X_{1},...,X_{n})}
hat Dichte
f
(
x
1
,
.
.
.
,
x
n
)
,
(
x
1
,
.
.
.
,
x
n
)
∈
R
n
{\displaystyle f(x_{1},...,x_{n}),(x_{1},...,x_{n})\in \mathbb {R} ^{n}}
.
"
⇑
{\displaystyle \Uparrow }
" Analog.
X
=
(
X
1
,
.
.
.
,
X
n
)
{\displaystyle X=(X_{1},...,X_{n})}
ist
N
(
0
,
I
k
)
{\displaystyle {\mathcal {N}}(0,I_{k})}
-verteilt genau dann, wenn die
X
1
,
.
.
.
,
X
n
{\displaystyle X_{1},...,X_{n}}
unabhängig und
N
(
0
,
1
)
{\displaystyle {\mathcal {N}}(0,1)}
-verteilt sind.
Sind
X
1
,
.
.
.
,
X
n
{\displaystyle X_{1},...,X_{n}}
unabhängig mit den Dichten
f
X
i
(
x
)
=
f
i
(
x
)
=
1
2
π
e
−
x
2
2
,
x
∈
R
{\displaystyle f_{X_{i}}(x)=f_{i}(x)={\frac {1}{\sqrt {2\pi }}}e^{-{\frac {x^{2}}{2}}},x\in \mathbb {R} }
so hat
(
X
1
,
.
.
.
,
X
n
)
{\displaystyle (X_{1},...,X_{n})}
gemäß des Satzes die Dichte
f
(
x
1
,
.
.
.
,
x
n
)
=
Π
i
=
1
n
f
i
(
x
i
)
=
1
2
π
2
e
−
1
2
(
x
1
2
+
.
.
.
+
x
n
2
)
=
1
2
π
n
e
−
1
2
(
x
T
⋅
x
)
{\displaystyle f(x_{1},...,x_{n})=\Pi _{i=1}^{n}f_{i}(x_{i})={\frac {1}{{\sqrt {2\pi }}^{2}}}e^{-{\frac {1}{2}}(x_{1}^{2}+...+x_{n}^{2})}={\frac {1}{{\sqrt {2\pi }}^{n}}}e^{-{\frac {1}{2}}(x^{T}\cdot x)}}
mit
x
=
(
x
1
,
.
.
.
,
x
n
)
{\displaystyle x=(x_{1},...,x_{n})}
. Umgekehrt folgt:
X
{\displaystyle X}
hat die Dichte
f
(
x
1
,
.
.
.
,
x
n
)
=
1
2
π
n
e
−
1
2
(
x
T
⋅
x
)
=
Π
i
=
1
n
1
2
π
n
e
−
1
2
(
x
i
2
)
{\displaystyle f(x_{1},...,x_{n})={\frac {1}{{\sqrt {2\pi }}n}}e^{-{\frac {1}{2}}(x^{T}\cdot x)}=\Pi _{i=1}^{n}{\frac {1}{{\sqrt {2\pi }}^{n}}}e^{-{\frac {1}{2}}(x_{i}^{2})}}
Man stellt fest, durch Integration
∫
−
∞
∞
{\displaystyle \int _{-\infty }^{\infty }}
über die Komponenten
x
1
,
.
.
.
,
x
i
−
1
,
x
i
+
1
,
.
.
.
,
x
n
{\displaystyle x_{1},...,x_{i-1},x_{i+1},...,x_{n}}
, dass
f
i
(
x
i
)
{\displaystyle f_{i}(x_{i})}
die Dichte von
X
i
{\displaystyle X_{i}}
sein muss, so dass die Unabhängigkeit und
N
(
0
,
1
)
{\displaystyle {\mathcal {N}}(0,1)}
-Verteilung der
X
i
{\displaystyle X_{i}}
folgt.
Für unabhängige
X
1
,
X
2
{\displaystyle X_{1},X_{2}}
gilt:
P
X
1
+
X
2
(
{
x
1
}
)
=
∑
k
P
X
1
(
{
x
1
}
)
⋅
P
X
2
(
{
x
−
x
1
}
)
{\displaystyle P_{X_{1}+X_{2}}(\lbrace x_{1}\rbrace )=\sum _{k}P_{X_{1}}(\lbrace x_{1}\rbrace )\cdot P_{X_{2}}(\lbrace x-x_{1}\rbrace )}
Sind
X
1
,
X
2
{\displaystyle X_{1},X_{2}}
unabhängige Zufallsvariabeln mit Dichten
f
1
,
f
2
{\displaystyle f_{1},f_{2}}
, dann besitzt die Zufallsvariable
X
1
+
X
2
{\displaystyle X_{1}+X_{2}}
die Dichte
f
(
x
)
=
∫
−
∞
∞
f
1
(
x
1
)
f
2
(
x
−
x
1
)
d
x
.
{\displaystyle f(x)=\int _{-\infty }^{\infty }f_{1}(x_{1})f_{2}(x-x_{1})dx.}
Für die Verteilungsfunktion
F
(
y
)
:
P
(
X
1
+
X
2
≤
y
)
{\displaystyle F(y):P(X_{1}+X_{2}\leq y)}
weisen wir
F
(
y
)
=
∫
−
∞
y
f
(
x
)
d
x
{\displaystyle F(y)=\int _{-\infty }^{y}f(x)dx}
nach. Es ist
P
(
X
1
+
X
2
≤
y
)
=
P
(
X
1
,
X
2
)
(
{
(
x
1
,
x
2
)
:
x
1
+
x
2
≤
y
}
)
{\displaystyle P(X_{1}+X_{2}\leq y)=P_{(X_{1},X_{2})}(\lbrace (x_{1},x_{2}):x_{1}+x_{2}\leq y\rbrace )}
=
∫
{
(
x
1
,
x
2
)
:
x
1
+
x
2
≤
y
}
f
1
(
x
1
)
⋅
f
2
(
x
2
)
d
x
2
d
x
1
{\displaystyle =\int _{\lbrace (x_{1},x_{2}):x_{1}+x_{2}\leq y\rbrace }f_{1}(x_{1})\cdot f_{2}(x_{2})dx_{2}dx_{1}}
=
∫
−
∞
∞
∫
−
∞
y
−
x
1
f
1
(
x
1
)
⋅
f
2
(
x
2
)
d
x
2
d
x
1
{\displaystyle =\int _{-\infty }^{\infty }\int _{-\infty }^{y-x_{1}}f_{1}(x_{1})\cdot f_{2}(x_{2})dx_{2}dx_{1}}
=
∫
−
∞
∞
∫
−
∞
y
f
1
(
x
1
)
⋅
f
2
(
x
2
−
x
1
)
d
x
2
d
x
1
{\displaystyle =\int _{-\infty }^{\infty }\int _{-\infty }^{y}f_{1}(x_{1})\cdot f_{2}(x_{2}-x_{1})dx_{2}dx_{1}}
=
∫
−
∞
y
∫
−
∞
∞
f
1
(
x
1
)
⋅
f
2
(
x
2
−
x
)
d
x
1
d
x
2
{\displaystyle =\int _{-\infty }^{y}\int _{-\infty }^{\infty }f_{1}(x_{1})\cdot f_{2}(x_{2}-x)dx_{1}dx_{2}}
=
∫
−
∞
y
∫
−
∞
∞
f
1
(
x
1
)
⋅
f
2
(
x
−
x
1
)
d
x
1
d
x
2
{\displaystyle =\int _{-\infty }^{y}\int _{-\infty }^{\infty }f_{1}(x_{1})\cdot f_{2}(x-x_{1})dx_{1}dx_{2}}
mit der Dichte
p
(
x
)
=
∫
−
∞
∞
f
1
(
x
1
)
⋅
f
2
(
x
−
x
1
)
d
x
1
.
{\displaystyle p(x)=\int _{-\infty }^{\infty }f_{1}(x_{1})\cdot f_{2}(x-x_{1})dx_{1}.}
Sind
X
1
,
.
.
.
,
X
n
{\displaystyle X_{1},...,X_{n}}
unabhängige Zufallsvariablen, so heißt die Wahrscheinlichkeitsverteilung
P
X
1
+
.
.
.
+
X
n
≡
P
X
1
∗
.
.
.
∗
P
X
n
{\displaystyle P_{X_{1}+...+X_{n}}\equiv P_{X_{1}}*...*P_{X_{n}}}
Faltung von
P
X
1
+
.
.
.
+
X
n
{\displaystyle P_{X_{1}+...+X_{n}}}
(mit "
∗
{\displaystyle *}
" ist Faltungssymbol).
Sei
S
n
{\displaystyle S_{n}}
die Wartezeit zwischen dem
n
−
1
{\displaystyle n-1}
-ten und
n
{\displaystyle n}
-ten Ereignis. Die Zufallsvariable
T
n
=
S
1
+
.
.
.
+
S
n
{\displaystyle T_{n}=S_{1}+...+S_{n}}
stellt die Wartezeit des
n
{\displaystyle n}
-ten Ereignisses dar. Unter den Voraussetzungen
1. Die Zufallsvariablen
S
1
,
S
2
,
.
.
.
{\displaystyle S_{1},S_{2},...}
sind unabhängig
2. Jedes
S
i
{\displaystyle S_{i}}
ist exponentialverteilt mit dem Paramter
λ
{\displaystyle \lambda }
("
ϵ
(
λ
)
{\displaystyle \epsilon (\lambda )}
-verteilt")
wollen wir die Dichte der Zufallsvariable
T
n
{\displaystyle T_{n}}
berechnen. Es gilt:
f
n
(
x
)
=
λ
n
⋅
x
n
−
1
(
n
−
1
)
!
⋅
e
−
λ
x
,
x
≥
0
{\displaystyle f_{n}(x)={\frac {\lambda ^{n}\cdot x^{n-1}}{(n-1)!}}\cdot e^{-\lambda x},x\geq 0}
(
f
n
(
x
)
=
0
{\displaystyle f_{n}(x)=0}
falls
x
<
0
{\displaystyle x<0}
)
Die Wahrscheinlichkeitsverteilung mit der Dichte
f
n
{\displaystyle f_{n}}
heißt Gammaverteilung mit Parametern
n
{\displaystyle n}
und
λ
{\displaystyle \lambda }
, kurz
Γ
(
n
,
λ
)
{\displaystyle \Gamma (n,\lambda )}
(
I
n
{\displaystyle I_{n}}
heißt dann
Γ
(
n
,
λ
)
{\displaystyle \Gamma (n,\lambda )}
-verteilt).
Γ
(
n
,
λ
)
=
ϵ
(
λ
)
∗
.
.
.
∗
ϵ
(
λ
)
{\displaystyle \Gamma (n,\lambda )=\epsilon (\lambda )*...*\epsilon (\lambda )}
(n-mal gefaltet)
Zerlegt man einen Satz von Zufallsvariablen in disjunkte Gruppen und setzt auf die Gruppen Funktionen an, so erhalten wir unabhängige Zufallsvariablen.
X
1
,
.
.
.
,
X
n
{\displaystyle X_{1},...,X_{n}}
seien unabhängige Zufallsvariablen, für
m
≤
n
{\displaystyle m\leq n}
sei
{
1
,
.
.
.
,
n
}
=
I
1
∪
.
.
.
∪
I
m
{\displaystyle \lbrace 1,...,n\rbrace =I_{1}\cup ...\cup I_{m}}
eine Zerlegung der Indexmenge und
ϕ
j
{\displaystyle \phi _{j}}
Zufallsvariable auf
(
R
k
j
,
b
k
j
)
{\displaystyle (\mathbb {R} ^{k_{j}},{\mathcal {b}}^{k_{j}})}
,
k
j
=
|
I
j
|
{\displaystyle k_{j}=|I_{j}|}
,
j
=
1
,
.
.
.
,
m
{\displaystyle j=1,...,m}
(
∑
j
=
1
m
k
j
=
n
)
{\displaystyle (\sum _{j=1}^{m}k_{j}=n)}
. Bezeichnet
Y
j
{\displaystyle Y_{j}}
den
k
j
{\displaystyle k_{j}}
-dimensionalen Zufallsvektor
(
X
i
,
i
∈
I
)
{\displaystyle (X_{i},i\in I)}
, dann sind
ϕ
1
⋅
Y
1
,
.
.
.
,
ϕ
m
⋅
Y
m
{\displaystyle \phi _{1}\cdot Y_{1},...,\phi _{m}\cdot Y_{m}}
unabhängige Zufallsvariablen.
Ohne Einschränkung sei
I
1
=
{
1
,
.
.
.
,
k
1
}
,
I
2
=
{
k
1
+
1
,
.
.
.
,
k
1
+
k
2
}
,
.
.
.
{\displaystyle I_{1}=\lbrace 1,...,k_{1}\rbrace ,I_{2}=\lbrace k_{1}+1,...,k_{1}+k_{2}\rbrace ,...}
Zunächst zeigen wir, dass die
m
{\displaystyle m}
Zufallsvektoren
Y
1
,
.
.
.
,
Y
m
{\displaystyle Y_{1},...,Y_{m}}
unabhängig sind, im Sinne von
(*)
P
(
Y
1
,
.
.
.
,
Y
m
)
(
C
1
×
.
.
.
×
C
m
)
=
P
Y
1
(
C
1
)
⋅
.
.
.
⋅
P
Y
m
(
C
m
)
{\displaystyle P_{(Y_{1},...,Y_{m})}(C_{1}\times ...\times C_{m})=P_{Y_{1}}(C_{1})\cdot ...\cdot P_{Y_{m}}(C_{m})}
für alle
C
j
∈
B
k
j
,
j
=
1
,
.
.
.
,
m
{\displaystyle C_{j}\in {\mathcal {B}}^{k_{j}},j=1,...,m}
.
Für die speziellen
C
j
{\displaystyle C_{j}}
der Form
C
j
=
B
1
j
×
.
.
.
×
B
k
j
,
B
l
j
∈
B
1
{\displaystyle C_{j}=B_{1}^{j}\times ...\times B_{k}^{j},B_{l}^{j}\in {\mathcal {B}}^{1}}
gilt wegen
(
Y
1
,
.
.
.
,
Y
m
)
=
(
X
1
,
.
.
.
,
X
n
)
,
(
C
1
,
.
.
.
,
C
m
)
=
(
B
1
j
,
.
.
.
,
B
k
m
j
)
{\displaystyle (Y_{1},...,Y_{m})=(X_{1},...,X_{n}),(C_{1},...,C_{m})=(B_{1}^{j},...,B_{k_{m}}^{j})}
:
P
(
Y
1
,
.
.
.
,
Y
m
)
(
C
1
×
.
.
.
×
C
m
)
=
P
(
X
1
,
.
.
.
,
X
n
)
(
B
1
1
×
.
.
.
×
B
k
m
m
)
{\displaystyle P_{(Y_{1},...,Y_{m})}(C_{1}\times ...\times C_{m})=P_{(X_{1},...,X_{n})}(B_{1}^{1}\times ...\times B_{k_{m}}^{m})}
=
P
X
1
(
B
1
1
)
⋅
.
.
.
⋅
P
X
n
(
B
k
m
m
)
{\displaystyle =P_{X_{1}}(B_{1}^{1})\cdot ...\cdot P_{X_{n}}(B_{k_{m}}^{m})}
=
⊗
i
∈
I
1
P
X
i
(
B
1
1
×
.
.
.
×
B
k
1
1
)
⋅
.
.
.
⋅
⊗
i
∈
I
m
P
X
i
(
B
1
m
×
.
.
.
×
B
k
m
m
)
{\displaystyle =\otimes _{i\in I_{1}}P_{X_{i}}(B_{1}^{1}\times ...\times B_{k_{1}}^{1})\cdot ...\cdot \otimes _{i\in I_{m}}P_{X_{i}}(B_{1}^{m}\times ...\times B_{k_{m}}^{m})}
=
P
Y
1
(
C
1
)
⋅
.
.
.
⋅
P
Y
m
(
C
m
)
{\displaystyle =P_{Y_{1}}(C_{1})\cdot ...\cdot P_{Y_{m}}(C_{m})}
Nach dem Fortsetzungssatz gilt dann (*) auch für alle
C
j
∈
B
k
j
{\displaystyle C_{j}\in {\mathcal {B}}^{k_{j}}}
.
Nun wird die Unabhängigkeit der
ϕ
1
∘
Y
1
,
.
.
.
,
ϕ
m
∘
Y
m
{\displaystyle \phi _{1}\circ Y_{1},...,\phi _{m}\circ Y_{m}}
gezeigt. Es gilt:
P
ϕ
1
∘
Y
1
,
.
.
.
,
ϕ
m
∘
Y
m
)
(
B
1
×
.
.
.
×
B
m
)
=
.
.
.
=
P
ϕ
1
∘
Y
1
(
B
1
)
⋅
.
.
.
⋅
P
ϕ
m
∘
Y
m
(
B
m
)
{\displaystyle P_{\phi _{1}\circ Y_{1},...,\phi _{m}\circ Y_{m})}(B_{1}\times ...\times B_{m})=...=P_{\phi _{1}\circ Y_{1}}(B_{1})\cdot ...\cdot P_{\phi _{m}\circ Y_{m}}(B_{m})}
Wir führen den Begriff des Erwartungswert
E
(
X
)
{\displaystyle E(X)}
einer Zufallsvariable
X
{\displaystyle X}
ein, indem wir uns a den entsprechenden Begriff für den diskreten Fall durch eine Approximation von
X
{\displaystyle X}
(durch eine Folge diskreter Zufallsvariablen
X
n
{\displaystyle X_{n}}
) anhängen.
Für eine beliebige Zufallsvariable
X
{\displaystyle X}
auf
(
Ω
,
S
)
{\displaystyle (\Omega ,{\mathcal {S}})}
definiert man jedes
n
∈
N
{\displaystyle n\in \mathbb {N} }
die Zufallsvariable (
n
{\displaystyle n}
-te Approximierte):
X
n
(
w
)
=
∑
i
=
−
∞
∞
k
n
1
A
k
,
n
(
w
)
{\displaystyle X_{n}(w)=\sum _{i=-\infty }^{\infty }{\frac {k}{n}}1_{A_{k,n}}(w)}
A
k
,
n
=
{
w
:
k
n
≤
X
(
w
)
<
k
+
1
n
}
{\displaystyle A_{k,n}=\lbrace w:{\frac {k}{n}}\leq X(w)<{\frac {k+1}{n}}\rbrace }
d.h.
{
X
n
(
w
)
k
n
,
w
∈
A
k
,
n
0
,
s
o
n
s
t
{\displaystyle \left\{{\begin{array}{ll}X_{n}(w){\frac {k}{n}},&w\in A_{k,n}\\0,&sonst\end{array}}\right.}
Es ist
A
k
,
n
∈
S
{\displaystyle A_{k,n}\in {\mathcal {S}}}
, so dass
X
n
{\displaystyle X_{n}}
eine Zufallsvariable ist, und zwar mit höchstens abzählbar vielen Werten (
±
k
n
,
k
∈
Z
{\displaystyle \pm {\frac {k}{n}},k\in \mathbb {Z} }
). Gemäß der Definition für den Erwartungswert diskreter Zufallsvariablen setzen wir für die diskrete Zufallsvariable
X
n
{\displaystyle X_{n}}
:
E
(
X
n
)
=
∑
i
=
−
∞
∞
P
(
A
k
,
n
)
{\displaystyle E(X_{n})=\sum _{i=-\infty }^{\infty }P(A_{k,n})}
(mit
P
(
A
k
,
n
)
=
P
X
n
{
k
n
}
{\displaystyle P(A_{k,n})=P_{X_{n}}\lbrace {\frac {k}{n}}\rbrace }
), sofern
∑
i
=
−
∞
∞
|
k
|
n
P
(
A
k
,
n
)
≡
E
(
|
X
n
|
)
<
∞
.
{\displaystyle \sum _{i=-\infty }^{\infty }{\frac {|k|}{n}}P(A_{k,n})\equiv E(|X_{n}|)<\infty .}
a)
X
n
≤
X
≤
X
n
+
1
n
{\displaystyle X_{n}\leq X\leq X_{n}+{\frac {1}{n}}}
, insbesondere
|
X
−
X
n
|
≤
1
n
{\displaystyle |X-X_{n}|\leq {\frac {1}{n}}}
b)
|
X
n
−
X
m
|
≤
1
n
+
1
m
{\displaystyle |X_{n}-X_{m}|\leq {\frac {1}{n}}+{\frac {1}{m}}}
, denn
|
X
n
−
X
m
≤
|
X
n
−
X
|
+
|
X
−
X
m
|
{\displaystyle |X_{n}-X_{m}\leq |X_{n}-X|+|X-X_{m}|}
und a)
c)
E
|
X
n
−
X
m
|
≤
1
n
+
1
m
{\displaystyle E|X_{n}-X_{m}|\leq {\frac {1}{n}}+{\frac {1}{m}}}
, aus b) und Eigenschaften von
E
{\displaystyle E}
d) Existiert
E
(
X
n
)
{\displaystyle E(X_{n})}
für
n
∈
N
{\displaystyle n\in \mathbb {N} }
, so existiert auch
E
(
X
m
)
{\displaystyle E(X_{m})}
für alle
m
≥
n
{\displaystyle m\geq n}
, denn
E
(
X
m
)
≤
E
|
X
m
−
X
n
|
+
E
(
X
m
)
<
∞
{\displaystyle E(X_{m})\leq E|X_{m}-X_{n}|+E(X_{m})<\infty }
e) Existiert
E
(
X
n
)
{\displaystyle E(X_{n})}
für (mindestens) ein
n
∈
N
{\displaystyle n\in \mathbb {N} }
, so bildet
E
(
X
n
)
,
n
≥
n
0
{\displaystyle E(X_{n}),n\geq n_{0}}
eine Cauchyfolge, denn
|
E
(
X
n
)
−
E
(
X
m
)
|
=
|
E
(
X
n
−
X
m
)
|
≤
E
|
X
n
−
X
m
|
=
1
n
+
1
m
→
0
,
n
,
m
→
∞
{\displaystyle |E(X_{n})-E(X_{m})|=|E(X_{n}-X_{m})|\leq E|X_{n}-X_{m}|={\frac {1}{n}}+{\frac {1}{m}}\to 0,n,m\to \infty }
Falls für (mindestens) ein
n
∈
N
{\displaystyle n\in \mathbb {N} }
der Erwartungswert
E
(
X
n
)
{\displaystyle E(X_{n})}
der
n
{\displaystyle n}
-ten Approximation für
X
{\displaystyle X}
existiert, so setzt man
E
(
X
)
=
l
i
m
n
→
∞
E
(
X
n
)
{\displaystyle E(X)=lim_{n\to \infty }E(X_{n})}
(Existenz nach e) gesichert) und sagt:
E
(
X
)
{\displaystyle E(X)}
existiert oder
X
{\displaystyle X}
besitzt einen Erwartungswert. Man schreibt auch:
E
(
X
)
=
∫
a
X
(
w
)
P
(
d
w
)
{\displaystyle E(X)=\int _{a}X(w)P(dw)}
.
Dieses "
P
{\displaystyle P}
-Integral von
X
{\displaystyle X}
" ist von Typ "Lebesgue-Stieltjes" (Intervalleinteilung auf der
y
{\displaystyle y}
-Achse), im Unterschied zum Riemann-Integral (Einteilung auf der
x
{\displaystyle x}
-Achse).
a)
E
(
X
)
{\displaystyle E(X)}
existiert genau dann, wenn
E
|
X
|
{\displaystyle E|X|}
existiert (d.h.
E
|
X
|
<
∞
{\displaystyle E|X|<\infty }
).
b) Ist
X
(
Ω
)
{\displaystyle X(\Omega )}
abzählbar, so ist
E
(
X
)
=
∑
x
∈
X
(
Ω
)
x
⋅
P
X
{
w
}
{\displaystyle E(X)=\sum _{x\in X(\Omega )}x\cdot P_{X}\lbrace w\rbrace }
, falls die Reihe absolut kovergiert.
a) Mehrfache Anwendung der Eigenschaften von
E
(
X
n
)
{\displaystyle E(X_{n})}
a) liefert
|
X
n
|
≤
|
X
|
+
|
X
−
X
n
|
≤
|
X
|
+
1
n
≤
|
X
|
n
+
2
n
{\displaystyle |X_{n}|\leq |X|+|X-X_{n}|\leq |X|+{\frac {1}{n}}\leq |X|_{n}+{\frac {2}{n}}}
und
|
X
|
n
≤
.
.
.
≤
|
X
n
|
+
1
n
{\displaystyle |X|_{n}\leq ...\leq |X_{n}|+{\frac {1}{n}}}
, woraus a) folgt.
b) Setze
I
k
,
n
=
(
k
n
,
k
+
1
n
]
{\displaystyle I_{k,n}=({\frac {k}{n}},{\frac {k+1}{n}}]}
. Wegen
P
(
X
n
=
k
n
)
=
∑
x
∈
I
k
,
n
P
(
X
=
x
)
{\displaystyle P(X_{n}={\frac {k}{n}})=\sum _{x\in I_{k,n}}P(X=x)}
ist
(*)
{
E
(
X
n
)
=
∑
k
=
−
∞
∞
k
n
∑
x
∈
I
k
,
n
P
(
X
=
x
)
≤
∑
k
=
−
∞
∞
∑
x
∈
I
k
,
n
x
P
(
X
=
x
)
=
∑
x
∈
X
(
Ω
)
x
P
(
X
=
x
)
≤
∑
k
=
−
∞
∞
k
+
1
n
∑
x
∈
T
k
,
n
P
(
X
=
x
)
=
E
(
X
n
)
+
1
n
{\displaystyle \left\{{\begin{array}{ll}E(X_{n})=\sum _{k=-\infty }^{\infty }{\frac {k}{n}}\sum _{x\in I_{k,n}}P(X=x)\\\leq \sum _{k=-\infty }^{\infty }\sum _{x\in I_{k,n}}xP(X=x)\\=\sum _{x\in X(\Omega )}xP(X=x)\\\leq \sum _{k=-\infty }^{\infty }{\frac {k+1}{n}}\sum _{x\in T_{k,n}}P(X=x)=E(X_{n})+{\frac {1}{n}}\end{array}}\right.}
Falls die Reihe
∑
x
P
(
X
=
x
)
{\displaystyle \sum xP(X=x)}
absolut konvergiert, so wegen
E
(
X
n
)
≤
∑
|
x
|
P
(
X
=
x
)
+
1
n
<
∞
{\displaystyle E(X_{n})\leq \sum |x|P(X=x)+{\frac {1}{n}}<\infty }
(ähnliche Abschätzung wie (*)) auch die Reihe
E
(
X
n
)
{\displaystyle E(X_{n})}
, so dass
l
i
m
n
→
∞
{\displaystyle lim_{n\to \infty }}
in (*) die Behauptung liefert.
Im speziellen Fall, dass
X
{\displaystyle X}
eine Dichte besitzt, berechnet sich
E
(
X
)
{\displaystyle E(X)}
wie folgt.
Besitzt die Zufallsvariable
X
{\displaystyle X}
eine Dichte
f
(
x
)
,
x
∈
R
{\displaystyle f(x),x\in \mathbb {R} }
, so ist
E
(
X
)
=
∫
−
∞
∞
x
f
(
x
)
d
x
,
{\displaystyle E(X)=\int _{-\infty }^{\infty }xf(x)dx,}
sofern
∫
−
∞
∞
|
x
|
f
(
x
)
d
x
<
∞
.
{\displaystyle \int _{-\infty }^{\infty }|x|f(x)dx<\infty .}
Wegen
P
(
X
n
=
k
n
)
=
P
(
k
n
≤
X
≤
k
+
1
n
)
=
∫
k
n
k
+
1
n
f
(
x
)
d
x
{\displaystyle P(X_{n}={\frac {k}{n}})=P({\frac {k}{n}}\leq X\leq {\frac {k+1}{n}})=\int _{\frac {k}{n}}^{\frac {k+1}{n}}f(x)dx}
ist:
(*)
E
(
X
n
)
=
∑
k
=
−
∞
∞
k
n
∫
k
n
k
+
1
n
f
(
x
)
d
x
≤
∑
k
=
−
∞
∞
x
f
(
x
)
d
x
{\displaystyle E(X_{n})=\sum _{k=-\infty }^{\infty }{\frac {k}{n}}\int _{\frac {k}{n}}^{\frac {k+1}{n}}f(x)dx\leq \sum _{k=-\infty }^{\infty }xf(x)dx}
=
∫
−
∞
∞
x
f
(
x
)
d
x
≤
∑
k
=
−
∞
∞
k
+
1
n
∫
k
n
k
+
1
n
x
f
(
x
)
d
x
=
E
(
X
n
)
+
1
n
{\displaystyle =\int _{-\infty }^{\infty }xf(x)dx\leq \sum _{k=-\infty }^{\infty }{\frac {k+1}{n}}\int _{\frac {k}{n}}^{\frac {k+1}{n}}xf(x)dx=E(X_{n})+{\frac {1}{n}}}
(Ähnliche Überlegung zur absoluten Konvergenz
E
(
X
n
)
l
i
m
n
→
∞
{\displaystyle E(X_{n})lim_{n\to \infty }}
in (*) liefert die Behauptung.
Allgemeiner gilt der folgende Satz (
k
{\displaystyle k}
-dimensionaler Zufallsvektor
X
{\displaystyle X}
, Komposition
ϕ
∘
X
{\displaystyle \phi \circ X}
).
Besitzt ein
k
{\displaystyle k}
-dimensionaler Zufallsvektor
X
{\displaystyle X}
die Dichte
f
(
x
)
,
x
∈
R
{\displaystyle f(x),x\in \mathbb {R} }
, und ist
ϕ
{\displaystyle \phi }
eine (messbare) Funktion von
R
k
→
R
{\displaystyle \mathbb {R} ^{k}\to \mathbb {R} }
, gilt:
E
(
ϕ
∘
X
)
=
∫
R
k
ϕ
(
x
)
f
(
x
)
d
k
x
,
{\displaystyle E(\phi \circ X)=\int _{\mathbb {R} ^{k}}\phi (x)f(x)d^{k}x,}
sofern
∫
R
k
|
ϕ
|
f
d
k
x
<
∞
.
{\displaystyle \int _{\mathbb {R} ^{k}}|\phi |fd^{k}x<\infty .}
Gemäß dem Satz über Verkettung von Zufallsvariablen ist
ϕ
∘
X
{\displaystyle \phi \circ X}
eine Zufallsvariable. Ähnlich wie oben gilt:
E
(
ϕ
∘
X
)
n
=
.
.
.
≤
.
.
.
=
∫
R
k
ϕ
(
x
)
f
(
x
)
d
k
x
≤
.
.
.
=
E
(
ϕ
∘
X
)
n
+
1
n
{\displaystyle E(\phi \circ X)_{n}=...\leq ...=\int _{\mathbb {R} ^{k}}\phi (x)f(x)d^{k}x\leq ...=E(\phi \circ X)_{n}+{\frac {1}{n}}}
Wie bei diskreten Zufallsvariablen haben wir auch hier die Monotonie und die Linearität des Erwartungswertes.
Sind
X
{\displaystyle X}
und
Y
{\displaystyle Y}
Zufallsvariablen mit Erwartungswerten
E
(
X
)
{\displaystyle E(X)}
und
E
(
Y
)
{\displaystyle E(Y)}
, so gilt:
a)
E
(
a
X
+
b
Y
)
{\displaystyle E(aX+bY)}
existiert und
E
(
a
X
+
b
Y
)
=
a
E
(
X
)
+
b
E
(
Y
)
{\displaystyle E(aX+bY)=aE(X)+bE(Y)}
für alle
a
,
b
∈
R
{\displaystyle a,b\in \mathbb {R} }
b)
E
(
X
)
≤
E
(
Y
)
{\displaystyle E(X)\leq E(Y)}
, falls
X
≤
Y
{\displaystyle X\leq Y}
.
c)
E
(
1
)
=
1
{\displaystyle E(1)=1}
Folgt aus den entsprechenden Eigenschaften für diskrete Zufallsvariablen. Für die Existenz des Erwartungswertes ist das sogenannte Majorantenkriterium nützlich.
Sind
X
,
Y
{\displaystyle X,Y}
Zufallsvariablen mit
|
X
|
≤
Y
{\displaystyle |X|\leq Y}
und
E
(
Y
)
{\displaystyle E(Y)}
existiert (d.h.
E
(
Y
)
<
∞
{\displaystyle E(Y)<\infty }
), so existiert auch
E
(
X
)
{\displaystyle E(X)}
(und es ist
E
(
X
)
≤
E
(
Y
)
{\displaystyle E(X)\leq E(Y)}
nach b)).
Für die approximierten Zufallsvariablen
|
X
|
n
{\displaystyle |X|_{n}}
und
Y
n
{\displaystyle Y_{n}}
gilt
|
X
|
n
≤
Y
n
{\displaystyle |X|_{n}\leq Y_{n}}
und deshalb:
E
(
|
X
|
n
)
≤
E
(
Y
n
)
<
∞
{\displaystyle E(|X|_{n})\leq E(Y_{n})<\infty }
(Letzteres für
n
≤
n
0
{\displaystyle n\leq n_{0}}
nach Voraussetzung). Also existiert auch
E
|
X
|
{\displaystyle E|X|}
und - nach den Eigenschaften von
E
(
X
)
{\displaystyle E(X)}
, a) - auch
E
(
X
)
{\displaystyle E(X)}
.
Existieren für unabhängige Zufallsvariablen
X
{\displaystyle X}
und
Y
{\displaystyle Y}
die Erwartungswerte
E
(
X
)
{\displaystyle E(X)}
und
E
(
Y
)
{\displaystyle E(Y)}
, so existiert auch der Erwartungswert für
X
⋅
Y
{\displaystyle X\cdot Y}
und es gilt
E
(
X
⋅
Y
)
=
E
(
X
)
⋅
E
(
Y
)
.
{\displaystyle E(X\cdot Y)=E(X)\cdot E(Y).}
Man kann die Approximation
X
n
,
Y
n
{\displaystyle X_{n},Y_{n}}
in der Form
X
n
=
ϕ
(
X
)
,
Y
n
=
ϕ
(
Y
)
{\displaystyle X_{n}=\phi (X),Y_{n}=\phi (Y)}
schreiben, mit einer geeigneten messbaren Funktion
ϕ
≡
ϕ
n
{\displaystyle \phi \equiv \phi _{n}}
. Somit sind dann auch
X
n
,
Y
n
{\displaystyle X_{n},Y_{n}}
unabhängige Zufallsvariablen und
X
n
⋅
Y
n
{\displaystyle X_{n}\cdot Y_{n}}
hat einen Erwartungswert und es gilt
E
(
X
n
⋅
Y
n
)
=
E
(
X
n
)
⋅
E
(
Y
n
)
.
{\displaystyle E(X_{n}\cdot Y_{n})=E(X_{n})\cdot E(Y_{n}).}
Wir haben die Ungleichung
|
(
X
⋅
Y
)
n
−
X
n
⋅
Y
n
|
{\displaystyle |(X\cdot Y)_{n}-X_{n}\cdot Y_{n}|}
≤
|
(
X
⋅
Y
)
n
−
|
X
⋅
Y
|
+
|
X
⋅
Y
|
−
|
X
n
⋅
Y
|
+
|
X
n
⋅
Y
|
−
X
n
⋅
Y
n
|
{\displaystyle \leq |(X\cdot Y)_{n}-|X\cdot Y|+|X\cdot Y|-|X_{n}\cdot Y|+|X_{n}\cdot Y|-X_{n}\cdot Y_{n}|}
≤
1
n
+
1
n
|
Y
|
+
1
n
|
X
n
|
≤
1
n
(
2
+
|
X
|
+
|
Y
|
)
≡
1
n
Z
{\displaystyle \leq {\frac {1}{n}}+{\frac {1}{n}}|Y|+{\frac {1}{n}}|X_{n}|\leq {\frac {1}{n}}(2+|X|+|Y|)\equiv {\frac {1}{n}}Z}
E
(
X
⋅
Y
)
n
{\displaystyle E(X\cdot Y)_{n}}
existiert, also auch
E
(
X
⋅
Y
)
{\displaystyle E(X\cdot Y)}
E
(
X
n
⋅
Y
n
)
−
E
(
X
⋅
Y
)
n
→
n
→
∞
0
{\displaystyle E(X_{n}\cdot Y_{n})-E(X\cdot Y)_{n}\to ^{n\to \infty }0}
so dass (*) die Behauptung liefert.
Für das nun folgende ('höhere Momente') wird wiederholt folgende Ungleichung benutzt:
|
a
±
b
|
m
≤
C
m
(
|
a
|
m
+
|
b
|
m
)
{\displaystyle |a\pm b|^{m}\leq C_{m}(|a|^{m}+|b|^{m})}
für alle
a
,
b
∈
R
,
m
∈
N
{\displaystyle a,b\in \mathbb {R} ,m\in \mathbb {N} }
, mit
C
m
=
2
m
−
1
{\displaystyle C_{m}=2^{m-1}}
.
Diese Ungleichung folgt aus der Jensenschen Ungleichung in der Form (
r
,
m
∈
N
,
a
i
>
0
{\displaystyle r,m\in \mathbb {N} ,a_{i}>0}
):
1
r
m
(
a
1
+
.
.
.
+
a
r
)
m
≤
1
r
(
a
1
m
+
.
.
.
+
a
r
m
)
{\displaystyle {\frac {1}{r^{m}}}(a_{1}+...+a_{r})^{m}\leq {\frac {1}{r}}(a_{1}^{m}+...+a_{r}^{m})}
(im Beweis ist
r
=
2
{\displaystyle r=2}
.)
Sei
(
Ω
,
S
,
P
)
{\displaystyle (\Omega ,{\mathcal {S}},P)}
ein Wahrscheinlichkeitsraum.
a) Für
m
∈
N
{\displaystyle m\in \mathbb {N} }
bezeichnet
L
m
≡
L
m
(
P
)
{\displaystyle {\mathcal {L}}_{m}\equiv {\mathcal {L}}_{m}(P)}
die Menge aller Zufallsvariablen auf
(
Ω
,
S
)
{\displaystyle (\Omega ,{\mathcal {S}})}
mit
E
|
X
|
m
<
∞
{\displaystyle E|X|^{m}<\infty }
. Für
X
∈
L
m
{\displaystyle X\in {\mathcal {L}}_{m}}
heißt
E
|
X
|
m
{\displaystyle E|X|^{m}}
das absolute
m
{\displaystyle m}
-te Moment (
E
(
X
m
)
{\displaystyle E(X^{m})}
das
m
{\displaystyle m}
-te).
b) Für
X
∈
L
m
{\displaystyle X\in {\mathcal {L}}_{m}}
führt man noch ein: das
m
{\displaystyle m}
-te zentrierte Moment
E
(
(
X
−
E
X
)
m
)
{\displaystyle E((X-EX)^{m})}
und das absolute
m
{\displaystyle m}
-te zentrierte Moment
E
(
|
X
E
X
|
m
)
{\displaystyle E(|X_{E}X|^{m})}
.
c) Speziell für
X
∈
L
2
{\displaystyle X\in {\mathcal {L}}_{2}}
heißt
V
a
r
(
X
)
=
E
(
X
E
X
)
2
{\displaystyle Var(X)=E(X_{E}X)^{2}}
Varianz von
X
{\displaystyle X}
und
σ
(
X
)
=
V
a
r
(
X
)
{\displaystyle \sigma (X)={\sqrt {Var(X)}}}
Standardabweichung von
X
{\displaystyle X}
. Wie bereits bei diskreten Zufallsvariablen gilt auch hier
V
a
r
(
a
X
+
b
)
=
a
2
V
a
r
(
X
)
{\displaystyle Var(aX+b)=a^{2}Var(X)}
und
V
a
r
(
X
)
=
E
(
X
2
−
(
E
X
)
2
)
{\displaystyle Var(X)=E(X^{2}-(EX)^{2})}
.
Ferner gilt:
V
a
r
(
X
)
=
0
{\displaystyle Var(X)=0}
genau dann, wenn
P
(
X
=
c
o
n
s
t
)
=
1
{\displaystyle P(X=const)=1}
('
X
=
c
o
n
s
t
.
{\displaystyle X=const.}
,
P
{\displaystyle P}
fast überall').
E
X
2
=
0
{\displaystyle EX^{2}=0}
genau dann, wenn
P
(
X
=
0
)
=
1
{\displaystyle P(X=0)=1}
('
X
=
0
{\displaystyle X=0}
,
P
{\displaystyle P}
fast überall')
X
{\displaystyle X}
gleichverteilt auf
[
a
,
b
]
{\displaystyle [a,b]}
,
a
<
b
{\displaystyle a<b}
. Dann ist
X
∗
=
X
−
a
b
−
a
{\displaystyle X^{*}={\frac {X-a}{b-a}}}
gleichverteilt auf
[
0
,
1
]
{\displaystyle [0,1]}
und
E
X
∗
=
∫
0
1
x
⋅
1
⋅
d
x
=
1
2
↦
X
=
a
+
(
b
−
a
)
X
∗
E
X
=
a
⋅
1
2
(
b
−
a
)
=
1
2
(
a
+
b
)
{\displaystyle EX^{*}=\int _{0}^{1}x\cdot 1\cdot dx={\frac {1}{2}}{\stackrel {X=a+(b-a)X^{*}}{\mapsto }}EX=a\cdot {\frac {1}{2}}(b-a)={\frac {1}{2}}(a+b)}
E
(
X
∗
)
=
∫
0
1
x
⋅
1
⋅
d
x
=
1
3
{\displaystyle E(X^{*})=\int _{0}^{1}x\cdot 1\cdot dx={\frac {1}{3}}}
V
a
r
(
X
∗
)
=
1
3
+
1
4
=
1
12
,
{\displaystyle Var(X^{*})={\frac {1}{3}}+{\frac {1}{4}}={\frac {1}{12}},}
also
V
a
r
(
X
)
=
1
12
(
b
−
a
)
2
{\displaystyle Var(X)={\frac {1}{12}}(b-a)^{2}}
.
X
{\displaystyle X}
exponentialverteilt mit Parameter
λ
>
0
{\displaystyle \lambda >0}
E
X
=
∫
0
∞
x
⋅
λ
⋅
e
−
λ
x
⋅
d
x
=
x
=
λ
x
1
λ
∫
0
∞
s
⋅
e
−
x
⋅
d
s
=
1
λ
{\displaystyle EX=\int _{0}^{\infty }x\cdot \lambda \cdot e^{-\lambda x}\cdot dx{\stackrel {x=\lambda x}{=}}{\frac {1}{\lambda }}\int _{0}^{\infty }s\cdot e^{-x}\cdot ds={\frac {1}{\lambda }}}
E
X
2
=
∫
0
∞
x
2
⋅
λ
⋅
e
−
λ
x
=
s
=
λ
x
1
λ
2
∫
0
∞
s
2
⋅
e
−
s
⋅
d
s
=
2
λ
2
{\displaystyle EX^{2}=\int _{0}^{\infty }x^{2}\cdot \lambda \cdot e^{-\lambda x}{\stackrel {s=\lambda x}{=}}{\frac {1}{\lambda ^{2}}}\int _{0}^{\infty }s^{2}\cdot e^{-s}\cdot ds={\frac {2}{\lambda ^{2}}}}
V
a
r
(
X
)
=
2
λ
2
−
1
λ
2
=
1
λ
2
{\displaystyle Var(X)={\frac {2}{\lambda ^{2}}}-{\frac {1}{\lambda ^{2}}}={\frac {1}{\lambda ^{2}}}}
Normalverteilung
N
(
μ
,
σ
2
)
{\displaystyle N(\mu ,\sigma ^{2})}
Ist
X
{\displaystyle X}
N
(
μ
,
σ
)
{\displaystyle N(\mu ,\sigma )}
-verteilt, dann ist
X
∗
=
X
−
μ
σ
{\displaystyle X^{*}={\frac {X-\mu }{\sigma }}}
N
(
0
,
1
)
{\displaystyle N(0,1)}
-verteilt. Es gilt:
E
X
∗
=
∫
−
∞
∞
|
x
>
e
−
1
2
x
2
d
x
=
0
{\displaystyle EX^{*}=\int _{-\infty }^{\infty }|x>e^{-{\frac {1}{2}}x^{2}}dx=0}
wegen
ϕ
(
x
)
=
ϕ
(
−
x
)
{\displaystyle \phi (x)=\phi (-x)}
und wegen
∫
∞
∞
|
x
>
e
1
2
x
2
d
x
<
∞
.
{\displaystyle \int _{\infty }^{\infty }|x>e^{\frac {1}{2x^{2}}}dx<\infty .}
Ferner:
V
a
r
(
X
∗
)
=
E
(
X
∗
)
2
=
∫
−
∞
∞
x
⋅
x
ϕ
(
x
)
d
x
=
∫
−
∞
∞
ϕ
(
x
)
d
x
=
1
{\displaystyle Var(X^{*})=E(X^{*})^{2}=\int _{-\infty }^{\infty }x\cdot x\phi (x)dx=\int _{-\infty }^{\infty }\phi (x)dx=1}
Es folgt für
X
=
μ
+
σ
X
∗
{\displaystyle X=\mu +\sigma X^{*}}
:
E
X
=
μ
{\displaystyle EX=\mu }
,
V
a
r
(
X
)
=
σ
2
.
{\displaystyle Var(X)=\sigma ^{2}.}
Die
N
(
μ
,
σ
2
)
{\displaystyle N(\mu ,\sigma ^{2})}
-Verteilung kann also als Normalenverteilung mit Erwartungswert
μ
{\displaystyle \mu }
und Varianz
σ
2
{\displaystyle \sigma ^{2}}
charakterisiert werden.
Den Anschluss an die Lineare Algebra/Funktionalanalysis liefert der folgende Satz.
Seien
(
Ω
,
S
,
P
)
{\displaystyle (\Omega ,{\mathcal {S}},P)}
und
m
∈
N
{\displaystyle m\in \mathbb {N} }
vorgegeben.
a)
L
m
{\displaystyle {\mathcal {L}}_{m}}
ist ein linearer Raum.
b)
L
n
⊂
L
m
{\displaystyle {\mathcal {L}}_{n}\subset {\mathcal {L}}_{m}}
für alle
n
≥
m
{\displaystyle n\geq m}
. D.h. aus
E
|
X
|
n
<
∞
{\displaystyle E|X|^{n}<\infty }
für ein
n
∈
N
{\displaystyle n\in \mathbb {N} }
folgt
E
|
X
|
m
<
∞
{\displaystyle E|X|^{m}<\infty }
für
m
≤
n
{\displaystyle m\leq n}
, insbesondere ist
E
|
X
|
<
∞
{\displaystyle E|X|<\infty }
.
a) Majorantenkriterium und die Ungleichung des letzten Satzes liefern für
a
,
b
∈
R
{\displaystyle a,b\in \mathbb {R} }
:
|
a
X
+
b
Y
|
m
≤
C
m
(
|
a
|
m
|
X
|
m
+
|
b
|
m
|
Y
|
m
)
{\displaystyle |aX+bY|^{m}\leq C_{m}(|a|^{m}|X|^{m}+|b|^{m}|Y|^{m})}
b) Sei
E
|
X
|
n
<
∞
{\displaystyle E|X|^{n}<\infty }
. Dann gilt für
m
≤
n
{\displaystyle m\leq n}
wegen
|
X
|
m
≤
1
⋅
1
{
|
X
|
≤
1
}
+
|
X
|
1
{
|
X
|
≥
1
}
≤
1
+
|
X
|
n
{\displaystyle |X|^{m}\leq 1\cdot 1_{\lbrace |X|\leq 1\rbrace }+|X|1_{\lbrace |X|\geq 1\rbrace }\leq 1+|X|^{n}}
auch
E
|
X
|
m
<
∞
{\displaystyle E|X|^{m}<\infty }
.
Wichtig sind die folgenden stochastischen Ungleichungen.
Markov-Ungleichung:
Ist
X
∈
L
m
{\displaystyle X\in {\mathcal {L}}_{m}}
für ein
m
∈
N
{\displaystyle m\in \mathbb {N} }
, so gilt für jedes
ϵ
<
0
{\displaystyle \epsilon <0}
:
P
(
|
X
|
≥
ϵ
)
≤
E
|
X
|
m
ϵ
m
{\displaystyle P(|X|\geq \epsilon )\leq {\frac {E|X|^{m}}{\epsilon ^{m}}}}
Tschebyschoff-Ungleichung:
Insbesondere für
X
∈
L
2
{\displaystyle X\in {\mathcal {L}}_{2}}
:
P
(
|
X
−
E
X
|
≥
ϵ
)
≤
V
a
r
(
X
)
ϵ
2
{\displaystyle P(|X-EX|\geq \epsilon )\leq {\frac {Var(X)}{\epsilon ^{2}}}}
Wiederholte Anwendung der Monotonieeigenschaften von
E
{\displaystyle E}
:
E
|
X
|
m
≥
E
(
|
X
|
m
1
{
|
X
|
≥
1
}
)
≥
ϵ
m
E
(
1
{
|
X
|
≥
1
}
)
=
ϵ
P
(
|
X
|
≥
ϵ
)
{\displaystyle E|X|^{m}\geq E(|X|^{m}1_{\lbrace |X|\geq 1\rbrace })\geq \epsilon ^{m}E(1_{\lbrace |X|\geq 1\rbrace })=\epsilon P(|X|\geq \epsilon )}
setzt man in die Markov-Ungleichung speziell
X
−
E
X
{\displaystyle X-EX}
statt
X
{\displaystyle X}
ein, sowie
m
=
2
{\displaystyle m=2}
, so erhält man die Tschebyschoff-Ungleichung.
Für Zufallsvariablen
X
,
Y
∈
L
2
{\displaystyle X,Y\in {\mathcal {L}}_{2}}
gilt
X
⋅
Y
∈
L
1
{\displaystyle X\cdot Y\in {\mathcal {L}}_{1}}
und
[
E
(
X
⋅
Y
)
]
2
≤
E
(
X
)
2
⋅
E
(
Y
)
2
{\displaystyle [E(X\cdot Y)]^{2}\leq E(X)^{2}\cdot E(Y)^{2}}
. Das '='-Zeichen gilt genau dann, wenn
a
X
+
b
Y
=
0
{\displaystyle aX+bY=0}
,
P
{\displaystyle P}
fast überall für
a
,
b
,
a
2
+
b
2
>
0
{\displaystyle a,b,a^{2}+b^{2}>0}
.
Im linearen Raum
L
2
{\displaystyle {\mathcal {L}}_{2}}
können wir ein 'Fast-Skalarprodukt' einführen:
Für
X
,
Y
∈
L
1
{\displaystyle X,Y\in {\mathcal {L}}_{1}}
setze
⟨
X
,
Y
⟩
=
E
(
X
,
Y
)
{\displaystyle \langle X,Y\rangle =E(X,Y)}
.
⟨
⋅
,
⋅
⟩
{\displaystyle \langle \cdot ,\cdot \rangle }
ist dann eine bilineare, symmetrische, positiv semidefinite (
⟨
X
,
X
⟩
≥
0
{\displaystyle \langle X,X\rangle \geq 0}
) Form. Aus
⟨
X
,
X
⟩
=
0
{\displaystyle \langle X,X\rangle =0}
folgt aber nur
X
=
0
{\displaystyle X=0}
fast überall (und nicht
X
=
0
{\displaystyle X=0}
) .
Sind
X
,
Y
∈
L
2
{\displaystyle X,Y\in {\mathcal {L}}_{2}}
, dann heißen
a)
C
o
v
(
X
,
Y
)
=
E
(
(
X
−
E
X
)
⋅
(
Y
−
E
Y
)
)
=
E
(
X
⋅
Y
)
−
E
(
X
)
⋅
E
(
Y
)
{\displaystyle Cov(X,Y)=E((X-EX)\cdot (Y-EY))=E(X\cdot Y)-E(X)\cdot E(Y)}
die Kovarianz von
X
{\displaystyle X}
und
Y
{\displaystyle Y}
.
b)
X
,
Y
{\displaystyle X,Y}
unkorreliert, falls
C
o
v
(
X
,
Y
)
=
0
{\displaystyle Cov(X,Y)=0}
.
c)
ρ
(
X
,
Y
)
=
C
o
v
(
X
,
Y
)
σ
(
X
)
σ
(
Y
)
{\displaystyle \rho (X,Y)={\frac {Cov(X,Y)}{\sigma (X)\sigma (Y)}}}
Korrelation (oder Korrelationskoeffizient) von
X
{\displaystyle X}
und
Y
{\displaystyle Y}
, sofern
σ
(
X
)
,
σ
(
Y
)
>
0
{\displaystyle \sigma (X),\sigma (Y)>0}
.
Die Folgerungen für diskrete Zufallsvariablen bezüglich der Kovarianz gelten weiterhin sowie die Eigenschaften von der Varianz und der Kovarianz. Im Hinblick auf die obige Bemerkung gilt:
X
,
Y
{\displaystyle X,Y}
unkorreliert, falls
X
−
E
X
⊥
Y
−
E
Y
{\displaystyle X-EX\perp Y-EY}
(bezüglich
⟨
⋅
,
⋅
⟩
{\displaystyle \langle \cdot ,\cdot \rangle }
).
Momente der
k
{\displaystyle k}
-dimensionalen Normalverteilung.
Ist
X
=
(
X
1
,
.
.
.
,
X
k
)
{\displaystyle X=(X_{1},...,X_{k})}
N
k
(
μ
,
Σ
)
{\displaystyle N_{k}(\mu ,\Sigma )}
-verteilt,
μ
=
(
μ
1
,
.
.
.
,
μ
k
)
T
∈
R
k
,
Σ
=
(
σ
i
,
j
)
{\displaystyle \mu =(\mu _{1},...,\mu _{k})^{T}\in \mathbb {R} ^{k},\Sigma =(\sigma _{i,j})}
symmetrische, positiv definite
k
×
k
{\displaystyle k\times k}
-Matrix.
Behauptung:
E
X
i
=
μ
i
,
C
o
v
(
X
i
,
X
j
)
=
σ
i
,
j
{\displaystyle EX_{i}=\mu _{i},Cov(X_{i},X_{j})=\sigma _{i,j}}
Die Parameter
μ
,
Σ
{\displaystyle \mu ,\Sigma }
der
N
k
(
μ
,
Σ
)
{\displaystyle N_{k}(\mu ,\Sigma )}
-Verteilung bilden also den Erwartungswert-Vektor bzw. die Matrix der Kovarianz (Cov-Matrix) des
N
k
(
μ
,
Σ
)
{\displaystyle N_{k}(\mu ,\Sigma )}
-verteilten Zufallvektors
X
{\displaystyle X}
.
Für diskrete Zufallsvariablen
X
{\displaystyle X}
mit Werten
Z
+
{\displaystyle \mathbb {Z} _{+}}
erwies sich die erzeugende Funktion
G
(
s
)
=
E
s
X
=
∑
k
=
0
∞
s
k
P
X
{
k
}
{\displaystyle G(s)=Es^{X}=\sum _{k=0}^{\infty }s^{k}P_{X}\lbrace k\rbrace }
als nützlich, und zwar bei der Berechnung von Momenten, Faltungen und Grenzverteilungen.
Eine vergleichbare Funktion hat die charakteristische Funktion in der allgemeinen Wahrscheinlichkeitstheorie, in der
X
{\displaystyle X}
eine beliebige Zufallsvariable ist. Anstelle des Erwartungswertes
s
X
{\displaystyle s^{X}}
(der nicht notwendigerweise existiert) bildet man den Erwartungswert der komplexwertigen Variablen "
e
i
X
{\displaystyle e^{iX}}
".
Für eine komplexe Zahl
z
=
a
+
b
i
,
a
=
R
e
(
z
)
∈
R
,
b
=
I
m
(
z
)
∈
R
{\displaystyle z=a+bi,a=Re(z)\in \mathbb {R} ,b=Im(z)\in \mathbb {R} }
setze man
|
z
|
=
a
2
+
b
2
=
z
⋅
z
¯
{\displaystyle |z|={\sqrt {a^{2}+b^{2}}}={\sqrt {z\cdot {\bar {z}}}}}
. Es ist
z
=
r
⋅
e
i
ϕ
{\displaystyle z=r\cdot e^{i\phi }}
mit
r
=
|
z
|
,
e
i
ϕ
=
c
o
s
(
ϕ
)
+
i
sin
(
ϕ
)
{\displaystyle r=|z|,e^{i\phi }=cos(\phi )+i\sin(\phi )}
. Es gilt
|
z
⋅
w
|
=
|
z
|
⋅
|
w
|
{\displaystyle |z\cdot w|=|z|\cdot |w|}
.
Sei
(
Ω
,
S
,
P
)
{\displaystyle (\Omega ,{\mathcal {S}},P)}
ein Wahrscheinlichkeitsraum.
a) Sind
z
1
,
z
2
{\displaystyle z_{1},z_{2}}
Zufallsvariablen auf
(
Ω
,
S
)
{\displaystyle (\Omega ,{\mathcal {S}})}
, (
z
i
:
Ω
→
R
{\displaystyle z_{i}:\Omega \to \mathbb {R} }
) so bildet
z
=
z
1
+
i
z
2
{\displaystyle z=z_{1}+iz_{2}}
eine komplexwertige Zufallsgröße auf
(
Ω
,
S
)
{\displaystyle (\Omega ,{\mathcal {S}})}
, (
z
:
Ω
→
C
{\displaystyle z:\Omega \to \mathbb {C} }
).
b) Existieren
E
(
z
1
)
,
E
(
z
2
)
{\displaystyle E(z_{1}),E(z_{2})}
, so heißt die komplexe Zahl
E
(
z
)
:=
E
(
z
1
)
+
i
E
(
z
2
)
{\displaystyle E(z):=E(z_{1})+iE(z_{2})}
Erwartungswert von
z
{\displaystyle z}
.
a) Sind
z
,
z
¯
{\displaystyle z,{\bar {z}}}
komplexe Zufallsgrößen und existieren
E
(
z
)
,
E
(
z
¯
)
{\displaystyle E(z),E({\bar {z}})}
, so gilt:
E
(
z
+
z
¯
)
=
E
(
z
)
+
E
(
z
¯
)
{\displaystyle E(z+{\bar {z}})=E(z)+E({\bar {z}})}
E
(
v
⋅
z
)
=
v
⋅
E
(
z
)
,
v
∈
C
{\displaystyle E(v\cdot z)=v\cdot E(z),v\in \mathbb {C} }
b)
|
E
(
z
)
|
≤
E
(
|
z
|
)
<
∞
{\displaystyle |E(z)|\leq E(|z|)<\infty }
.
Charakteristische Funktion (Definition)
Bearbeiten
Sei
X
{\displaystyle X}
eine Zufallsvariable auf
(
Ω
,
S
)
{\displaystyle (\Omega ,{\mathcal {S}})}
, so heißt die komplexwertige Funktion
ϕ
X
:
R
→
C
{\displaystyle \phi _{X}:\mathbb {R} \to \mathbb {C} }
:
ϕ
X
(
t
)
≡
ϕ
(
t
)
=
e
i
t
x
=
E
(
c
o
s
(
t
x
)
)
+
i
E
(
s
i
n
(
t
x
)
)
{\displaystyle \phi _{X}(t)\equiv \phi (t)=e^{itx}=E(cos(tx))+iE(sin(tx))}
charakteristische Funktion von
X
{\displaystyle X}
.
Aus
e
i
t
x
=
c
o
s
(
t
x
)
+
i
s
i
n
(
t
x
)
{\displaystyle e^{itx}=cos(tx)+isin(tx)}
folgt wegen
|
c
o
s
(
t
x
)
|
≤
1
{\displaystyle |cos(tx)|\leq 1}
,
|
s
i
n
(
t
x
)
|
≤
1
{\displaystyle |sin(tx)|\leq 1}
die Existenz von
E
(
c
o
s
(
t
x
)
)
{\displaystyle E(cos(tx))}
und
E
(
s
i
n
(
t
x
)
)
{\displaystyle E(sin(tx))}
, also von
(
e
i
x
t
)
{\displaystyle (e^{ixt})}
.
Beispiele für charakteristische Funktionen:
ϕ
X
(
t
)
=
1
{\displaystyle \phi _{X}(t)=1}
ϕ
X
(
t
)
=
c
o
s
(
t
)
{\displaystyle \phi _{X}(t)=cos(t)}
ϕ
X
(
t
)
=
e
−
t
2
2
{\displaystyle \phi _{X}(t)=e^{-{\frac {t^{2}}{2}}}}
ϕ
X
(
t
)
=
e
e
i
t
−
1
{\displaystyle \phi _{X}(t)=e^{e^{it}-1}}
ϕ
X
(
t
)
=
1
1
+
i
t
{\displaystyle \phi _{X}(t)={\frac {1}{1+it}}}
ϕ
X
(
t
)
=
1
i
t
(
e
i
t
−
1
)
,
(
ϕ
X
(
0
)
=
1
{\displaystyle \phi _{X}(t)={\frac {1}{it}}(e^{it}-1),(\phi _{X}(0)=1}
ϕ
X
(
t
)
=
e
−
|
t
|
{\displaystyle \phi _{X}(t)=e^{-|t|}}
ϕ
X
(
t
)
=
(
1
−
|
t
|
)
1
[
−
1
,
1
]
(
t
)
{\displaystyle \phi _{X}(t)=(1-|t|)1_{[-1,1]}(t)}
Keine charakteristischen Funktionen sind:
ϕ
(
t
)
=
s
i
n
(
t
)
{\displaystyle \phi (t)=sin(t)}
ϕ
(
t
)
=
1
−
t
2
{\displaystyle \phi (t)=1-t^{2}}
ϕ
(
t
)
=
1
[
−
1
,
1
]
(
t
)
{\displaystyle \phi (t)=1_{[-1,1]}(t)}
ϕ
(
t
)
=
e
−
|
t
|
2
{\displaystyle \phi (t)=e^{-|t|^{2}}}
Wegen
|
e
i
t
x
|
=
1
{\displaystyle |e^{itx}|=1}
gilt
|
ϕ
(
t
)
|
=
|
E
(
e
i
t
x
)
|
≤
E
(
|
e
i
x
t
|
)
=
E
(
1
)
=
1
{\displaystyle |\phi (t)|=|E(e^{itx})|\leq E(|e^{ixt}|)=E(1)=1}
,
ϕ
(
0
)
=
E
(
1
)
=
1
{\displaystyle \phi (0)=E(1)=1}
.
ϕ
X
{\displaystyle \phi _{X}}
ist gleichmäßig stetig. (ohne Beweis)
ϕ
a
X
+
b
(
t
)
=
E
(
e
i
t
(
a
X
+
b
)
)
=
e
i
t
b
⋅
E
(
e
i
t
a
X
)
=
i
t
b
⋅
ϕ
X
(
t
a
)
,
a
,
b
∈
R
.
{\displaystyle \phi _{aX+b}(t)=E(e^{it(aX+b)})=e^{itb}\cdot E(e^{itaX})=itb\cdot \phi _{X}(ta),a,b\in \mathbb {R} .}
Ist
X
{\displaystyle X}
eine Zufallsvariable mit Werten in
Z
+
{\displaystyle \mathbb {Z} _{+}}
, so ist
ϕ
X
(
t
)
=
E
(
e
i
t
x
)
=
E
(
c
o
s
(
t
x
)
)
+
i
E
(
s
i
n
(
t
x
)
)
{\displaystyle \phi _{X}(t)=E(e^{itx})=E(cos(tx))+iE(sin(tx))}
=
∑
k
=
0
∞
c
o
s
(
t
k
)
⋅
P
(
X
=
k
)
+
i
∑
k
=
0
∞
s
i
n
(
t
k
)
⋅
P
(
X
=
k
)
{\displaystyle =\sum _{k=0}^{\infty }cos(tk)\cdot P(X=k)+i\sum _{k=0}^{\infty }sin(tk)\cdot P(X=k)}
=
∑
k
=
0
∞
(
e
i
t
)
k
⋅
P
(
{
k
}
)
{\displaystyle =\sum _{k=0}^{\infty }(e^{it})^{k}\cdot P(\lbrace k\rbrace )}
(vgl. mit
g
x
(
s
)
=
E
(
s
x
)
=
∑
k
=
k
∞
s
k
⋅
P
x
(
{
k
}
)
,
s
∈
[
0
,
1
]
{\displaystyle g_{x}(s)=E(s^{x})=\sum _{k=k}^{\infty }sk\cdot P_{x}(\lbrace k\rbrace ),s\in [0,1]}
) Also (!) lautet die charakteristische Gleichung von
X
{\displaystyle X}
:
X
{\displaystyle X}
B
(
n
,
p
)
{\displaystyle B(n,p)}
-verteilt:
ϕ
X
(
t
)
=
(
1
−
p
+
p
e
i
t
)
n
,
t
∈
R
{\displaystyle \phi _{X}(t)=(1-p+pe^{it})^{n},t\in \mathbb {R} }
X
{\displaystyle X}
P
(
λ
)
{\displaystyle P(\lambda )}
-verteilt:
ϕ
X
(
t
)
=
e
λ
e
i
t
−
1
,
t
∈
R
{\displaystyle \phi _{X}(t)=e^{\lambda e^{it}-1},t\in \mathbb {R} }
X
{\displaystyle X}
exponentialverteilt mit Paramter
λ
>
0
{\displaystyle \lambda >0}
:
ϕ
X
(
t
)
=
λ
λ
−
i
t
,
t
∈
R
{\displaystyle \phi _{X}(t)={\frac {\lambda }{\lambda -it}},t\in \mathbb {R} }
X
{\displaystyle X}
sei
N
(
0
,
1
)
{\displaystyle N(0,1)}
-verteilt:
ϕ
X
(
t
)
=
E
(
e
i
t
x
)
=
E
(
c
o
s
(
t
x
)
)
+
i
E
(
s
i
n
(
t
x
)
)
{\displaystyle \phi _{X}(t)=E(e^{itx})=E(cos(tx))+iE(sin(tx))}
=
∫
−
∞
∞
(
c
o
s
(
t
x
)
)
1
2
π
e
−
x
2
2
d
x
+
i
∫
−
∞
∞
(
s
i
n
(
t
x
)
)
1
2
π
e
−
x
2
2
d
x
{\displaystyle =\int _{-\infty }^{\infty }(cos(tx)){\frac {1}{\sqrt {2\pi }}}e^{-{\frac {x^{2}}{2}}}dx+i\int _{-\infty }^{\infty }(sin(tx)){\frac {1}{\sqrt {2\pi }}}e^{-{\frac {x^{2}}{2}}}dx}
⇒
ϕ
X
′
(
t
)
=
∫
−
∞
∞
(
s
i
n
(
t
x
)
)
1
2
π
(
−
x
)
e
−
x
2
2
d
x
{\displaystyle \Rightarrow \phi '_{X}(t)=\int _{-\infty }^{\infty }(sin(tx)){\frac {1}{\sqrt {2\pi }}}(-x)e^{-{\frac {x^{2}}{2}}}dx}
=
[
(
s
i
n
(
t
x
)
)
1
2
π
(
−
x
)
e
−
x
2
2
]
−
∞
∞
{\displaystyle =[(sin(tx)){\frac {1}{\sqrt {2\pi }}}(-x)e^{-{\frac {x^{2}}{2}}}]_{-\infty }^{\infty }}
=
∫
−
∞
∞
t
⋅
c
o
s
(
t
x
)
1
2
π
e
−
x
2
2
d
x
{\displaystyle =\int _{-\infty }^{\infty }t\cdot cos(tx){\frac {1}{\sqrt {2\pi }}}e^{-{\frac {x^{2}}{2}}}dx}
=
−
t
⋅
ϕ
X
(
t
)
d
d
t
(
ϕ
X
(
t
)
⋅
e
−
x
2
2
)
{\displaystyle =-t\cdot \phi _{X}(t){\frac {d}{dt}}(\phi _{X}(t)\cdot e^{-{\frac {x^{2}}{2}}})}
=
ϕ
X
′
(
t
)
⋅
e
−
x
2
2
+
ϕ
X
(
t
)
⋅
t
⋅
e
−
x
2
2
{\displaystyle =\phi '_{X}(t)\cdot e^{-{\frac {x^{2}}{2}}}+\phi _{X}(t)\cdot t\cdot e^{-{\frac {x^{2}}{2}}}}
=
e
−
x
2
2
[
ϕ
X
′
(
t
)
+
t
ϕ
X
(
t
)
]
=
0
{\displaystyle =e^{-{\frac {x^{2}}{2}}}[\phi '_{X}(t)+t\phi _{X}(t)]=0}
⇒
ϕ
X
(
t
)
⋅
e
−
x
2
2
=
c
=
c
o
n
s
t
.
{\displaystyle \Rightarrow \phi _{X}(t)\cdot e^{-{\frac {x^{2}}{2}}}=c=const.}
⇒
{
ϕ
X
(
t
)
=
c
⋅
e
−
x
2
2
ϕ
X
(
0
)
=
1
⇒
c
=
1
}
{\displaystyle \Rightarrow \left\{{\begin{array}{ll}\phi _{X}(t)=c\cdot e^{-{\frac {x^{2}}{2}}}\\\phi _{X}(0)=1\Rightarrow c=1\end{array}}\right\}}
⇒
ϕ
X
(
t
)
=
e
−
x
2
2
{\displaystyle \Rightarrow \phi _{X}(t)=e^{-{\frac {x^{2}}{2}}}}
X
{\displaystyle X}
sei
N
(
0
,
1
)
{\displaystyle N(0,1)}
-verteilt
⇒
ϕ
X
(
t
)
=
?
{\displaystyle \Rightarrow \phi _{X}(t)=?}
X
=
σ
Γ
+
μ
,
Γ
{\displaystyle X=\sigma \Gamma +\mu ,\Gamma }
N
(
0
,
1
)
{\displaystyle N(0,1)}
-verteilt.
⇒
ϕ
X
(
t
)
⋅
e
i
t
μ
⋅
ϕ
Y
(
σ
t
)
=
e
i
t
μ
⋅
e
−
1
2
σ
2
t
2
.
{\displaystyle \Rightarrow \phi _{X}(t)\cdot e^{it\mu }\cdot \phi _{Y}(\sigma t)=e^{it\mu }\cdot e^{-{\frac {1}{2}}\sigma ^{2}t^{2}}.}
Seien
X
,
Y
{\displaystyle X,Y}
Zufallsvariablen. Dann gilt:
ϕ
X
=
ϕ
Y
⇔
P
X
=
P
Y
{\displaystyle \phi _{X}=\phi _{Y}\Leftrightarrow P_{X}=P_{Y}}
Sind
X
,
Y
{\displaystyle X,Y}
unabhängige Zufallsvariablen, so gilt
ϕ
X
+
Y
=
ϕ
X
+
ϕ
y
{\displaystyle \phi _{X+Y}=\phi _{X}+\phi _{y}}
.
ϕ
X
+
Y
=
E
(
e
i
t
(
x
+
y
)
)
=
E
(
e
i
t
x
⋅
e
i
t
y
)
=
E
(
e
i
t
x
)
⋅
E
(
e
i
t
y
)
=
ϕ
X
+
ϕ
Y
{\displaystyle \phi _{X+Y}=E(e^{it(x+y)})=E(e^{itx}\cdot e^{ity})=E(e^{itx})\cdot E(e^{ity})=\phi _{X}+\phi _{Y}}
Für den obigen Beweis wurde der folgende Hilfssatz genutzt.
Seien
X
,
Y
{\displaystyle X,Y}
unabhängige Zufallsvariablen,
f
=
f
1
+
f
2
{\displaystyle f=f_{1}+f_{2}}
,
g
=
g
1
+
g
2
{\displaystyle g=g_{1}+g_{2}}
komplexwertige Funktionen, so gilt, falls
E
(
f
(
x
)
)
,
E
(
g
(
x
)
)
{\displaystyle E(f(x)),E(g(x))}
existieren:
E
(
f
(
x
)
⋅
g
(
y
)
)
=
E
(
f
(
x
)
)
⋅
E
(
(
y
)
)
{\displaystyle E(f(x)\cdot g(y))=E(f(x))\cdot E((y))}
Es gilt
N
(
μ
1
,
σ
1
2
)
×
N
(
μ
2
,
σ
2
2
)
=
N
(
μ
1
+
μ
2
,
σ
1
2
+
σ
2
2
)
{\displaystyle N(\mu _{1},\sigma _{1}^{2})\times N(\mu _{2},\sigma _{2}^{2})=N(\mu _{1}+\mu _{2},\sigma _{1}^{2}+\sigma _{2}^{2})}
.
Sei
X
1
{\displaystyle X_{1}}
N
(
μ
1
,
σ
1
2
)
{\displaystyle N(\mu _{1},\sigma _{1}^{2})}
-verteilt und
X
2
{\displaystyle X_{2}}
N
(
μ
2
,
σ
2
)
{\displaystyle N(\mu _{2},\sigma ^{2})}
-verteilt, mit
X
1
,
X
2
{\displaystyle X_{1},X_{2}}
unabhängig.
ϕ
X
1
+
X
2
(
t
)
=
ϕ
X
1
⋅
ϕ
X
2
(
t
)
=
e
i
t
μ
1
⋅
e
1
2
σ
1
2
t
2
⋅
e
i
t
μ
2
⋅
e
−
1
2
σ
2
2
t
2
{\displaystyle \phi _{X_{1}+X_{2}}(t)=\phi _{X_{1}}\cdot \phi _{X_{2}}(t)=e^{it\mu _{1}}\cdot e^{{\frac {1}{2}}\sigma _{1}^{2}t^{2}}\cdot e^{it\mu _{2}}\cdot e^{-{\frac {1}{2}}\sigma _{2}^{2}t^{2}}}
=
e
i
t
(
μ
1
+
μ
2
)
⋅
e
−
1
2
(
σ
1
2
+
σ
2
2
)
t
2
{\displaystyle =e^{it(\mu _{1}+\mu _{2})}\cdot e^{-{\frac {1}{2}}(\sigma _{1}^{2}+\sigma _{2}^{2})t^{2}}}
⇒
Behauptung
.
{\displaystyle \Rightarrow {\text{Behauptung}}.}
Für die Zufallsvariable
X
{\displaystyle X}
existieren
E
(
X
m
)
{\displaystyle E(X^{m})}
für ein
∈
N
{\displaystyle \in \mathbb {N} }
. Dann ist die charakteristische Funktion
ϕ
X
{\displaystyle \phi _{X}}
m
{\displaystyle m}
-mal stetig differenzierbar mit
ϕ
X
(
m
)
(
0
)
=
i
m
E
(
X
m
)
{\displaystyle \phi _{X}^{(m)}(0)=i^{m}E(X^{m})}
(für
m
{\displaystyle m}
gerade gilt auch die Umkehrung).