Es sei
(
X
,
Y
)
{\displaystyle (X,Y)}
ein diskreter zufälliger Vektor über
(
Ω
,
F
,
P
)
{\displaystyle (\Omega ,{\mathcal {F}},P)}
mit (endlichen oder abzählbar unendlichen) Wertebereichen
X
(
Ω
)
=
{
x
1
,
x
2
,
…
}
{\displaystyle X(\Omega )=\{x_{1},x_{2},\ldots \}}
bzw.
Y
(
Ω
)
=
{
y
1
,
y
2
,
…
}
{\displaystyle Y(\Omega )=\{y_{1},y_{2},\ldots \}}
. Wir vereinbaren folgende Bezeichnungen:
(2.1)
p
k
m
=
P
(
X
=
x
k
,
Y
=
y
m
)
,
{\displaystyle p_{km}=P(X=x_{k},Y=y_{m}),}
(2.2)
p
k
⋅
=
∑
m
p
k
m
=
P
(
X
=
x
k
)
,
{\displaystyle p_{k\cdot }=\sum _{m}p_{km}=P(X=x_{k}),}
(2.3)
p
⋅
m
=
∑
k
p
k
m
=
P
(
Y
=
y
m
)
.
{\displaystyle p_{\cdot m}=\sum _{k}p_{km}=P(Y=y_{m}).}
Für
y
m
∈
Y
(
Ω
)
{\displaystyle y_{m}\in Y(\Omega )}
bezeichne
X
|
Y
=
y
m
{\displaystyle X|Y=y_{m}}
die Zufallsgröße mit Wertebereich
(
X
|
Y
=
y
m
)
(
Ω
)
=
X
(
Ω
)
{\displaystyle (X|Y=y_{m})(\Omega )=X(\Omega )}
und Verteilung
P
(
(
X
|
Y
=
y
m
)
=
x
k
)
=
P
(
X
=
x
k
|
Y
=
y
m
)
=
p
k
m
p
⋅
m
(
x
k
∈
X
(
Ω
)
)
.
{\displaystyle P((X|Y=y_{m})=x_{k})=P(X=x_{k}|Y=y_{m})={\frac {p_{km}}{p_{\cdot m}}}\quad (x_{k}\in X(\Omega )).}
Der Erwartungswert
E
(
X
|
Y
=
y
m
)
{\displaystyle \mathbb {E} (X|Y=y_{m})}
der Zufallsgröße
X
|
Y
=
y
m
{\displaystyle X|Y=y_{m}}
heißt bedingter Erwartungswert von
X
{\displaystyle X}
unter der Bedingung
Y
=
y
m
{\displaystyle Y=y_{m}}
. Die Funktion
Ψ
:
Y
(
Ω
)
⟹
R
,
Ψ
(
y
)
:=
E
(
X
|
Y
=
y
)
{\displaystyle \Psi :Y(\Omega )\Longrightarrow \mathbb {R} ,\Psi (y):=\mathbb {E} (X|Y=y)}
heißt bedingte Erwartungswertfunktion von
X
|
Y
{\displaystyle X|Y}
.
Für
y
m
∈
Y
(
Ω
)
{\displaystyle y_{m}\in Y(\Omega )}
erhält man
E
(
X
|
Y
=
y
m
)
=
∑
k
x
k
⋅
P
(
X
=
x
k
|
Y
=
y
m
)
=
∑
k
x
k
⋅
p
k
m
p
⋅
m
.
{\displaystyle \mathbb {E} (X|Y=y_{m})=\sum _{k}x_{k}\cdot P(X=x_{k}|Y=y_{m})=\sum _{k}x_{k}\cdot {\frac {p_{km}}{p_{\cdot m}}}.}
Völlig analog führt man die Zufallsgröße
Y
|
X
=
x
k
{\displaystyle Y|X=x_{k}}
ein.
Für
x
k
∈
X
(
Ω
)
{\displaystyle x_{k}\in X(\Omega )}
bezeichne
Y
|
X
=
x
k
{\displaystyle Y|X=x_{k}}
die Zufallsgröße mit Wertebereich
(
Y
|
X
=
x
k
)
(
Ω
)
=
Y
(
Ω
)
{\displaystyle (Y|X=x_{k})(\Omega )=Y(\Omega )}
und Verteilung
P
(
(
Y
|
X
=
x
k
)
=
y
m
)
=
P
(
Y
=
y
m
|
X
=
x
k
)
=
p
k
m
p
k
⋅
(
y
m
∈
Y
(
Ω
)
)
.
{\displaystyle P((Y|X=x_{k})=y_{m})=P(Y=y_{m}|X=x_{k})={\frac {p_{km}}{p_{k\cdot }}}\quad (y_{m}\in Y(\Omega )).}
Der Erwartungswert
E
(
Y
|
X
=
x
k
)
{\displaystyle \mathbb {E} (Y|X=x_{k})}
der Zufallsgröße
Y
|
X
=
x
k
{\displaystyle Y|X=x_{k}}
heißt bedingter Erwartungswert von
Y
{\displaystyle Y}
unter der Bedingung
X
=
x
k
{\displaystyle X=x_{k}}
. Die Funktion
Φ
:
X
(
Ω
)
⟹
R
,
Φ
(
x
)
:=
E
(
Y
|
X
=
x
)
{\displaystyle \Phi :X(\Omega )\Longrightarrow \mathbb {R} ,\Phi (x):=\mathbb {E} (Y|X=x)}
heißt bedingte Erwartungswertfunktion von
Y
|
X
{\displaystyle Y|X}
.
Für den bedingten Erwartungswert
E
(
Y
|
X
=
x
k
)
{\displaystyle \mathbb {E} (Y|X=x_{k})}
ergibt sich
E
(
Y
|
X
=
x
k
)
=
∑
k
y
m
⋅
P
(
Y
=
y
m
|
X
=
x
k
)
=
∑
k
y
m
⋅
p
k
m
p
k
⋅
.
{\displaystyle \mathbb {E} (Y|X=x_{k})=\sum _{k}y_{m}\cdot P(Y=y_{m}|X=x_{k})=\sum _{k}y_{m}\cdot {\frac {p_{km}}{p_{k\cdot }}}.}
Es wird stets vorausgesetzt
p
k
⋅
>
0
,
p
⋅
m
>
0
{\displaystyle p_{k\cdot }>0,p_{\cdot m}>0}
(sonst können die bedingten Wahrscheinlichkeiten nicht gebildet werden). Da aber
p
k
m
=
0
{\displaystyle p_{km}=0}
nicht ausgeschlossen ist, kann für einige
k
{\displaystyle k}
und
m
{\displaystyle m}
gelten
P
(
(
Y
|
X
=
x
k
)
=
y
m
)
=
0
=
P
(
(
X
|
Y
=
y
m
)
=
x
k
)
{\displaystyle P((Y|X=x_{k})=ym)=0=P((X|Y=y_{m})=x_{k})}
.
Der bedingte Erwartungswert
Φ
(
x
k
)
=
E
(
Y
|
X
=
x
k
)
{\displaystyle \Phi (x_{k})=\mathbb {E} (Y|X=x_{k})}
ist eine Verfeinerung des Erwartungswertes
E
Y
{\displaystyle \mathbb {E} Y}
.
Φ
(
X
)
=
E
(
Y
|
X
)
{\displaystyle \Phi (X)=\mathbb {E} (Y|X)}
ist eine Zufallsgröße, die mit Wahrscheinlichkeit
p
k
⋅
{\displaystyle p_{k\cdot }}
den Wert
E
(
Y
|
X
=
x
k
)
{\displaystyle \mathbb {E} (Y|X=x_{k})}
annimmt. Somit sollte der Erwartungswert von
Φ
(
X
)
{\displaystyle \Phi (X)}
gleich dem Erwartungswert von
Y
{\displaystyle Y}
sein. Analog ist
Ψ
(
y
m
)
=
E
(
X
|
Y
=
y
m
)
{\displaystyle \Psi (y_{m})=\mathbb {E} (X|Y=y_{m})}
eine Verfeinerung des Erwartungswertes
E
X
{\displaystyle \mathbb {E} X}
. Die Zufallsgröße
Ψ
(
Y
)
=
E
(
X
|
Y
)
{\displaystyle \Psi (Y)=\mathbb {E} (X|Y)}
nimmt mit Wahrscheinlichkeit
p
⋅
m
{\displaystyle p_{\cdot m}}
den Wert
E
(
X
|
Y
=
y
m
)
{\displaystyle \mathbb {E} (X|Y=y_{m})}
an und es ist zu vermuten, dass gilt
E
Ψ
(
Y
)
=
E
X
{\displaystyle \mathbb {E} \Psi (Y)=\mathbb {E} X}
.
(2.4)
E
(
E
(
Y
|
X
)
=
E
Y
,
E
(
E
(
X
|
Y
)
=
E
X
.
{\displaystyle \mathbb {E} (\mathbb {E} (Y|X)=\mathbb {E} Y,\quad \mathbb {E} (\mathbb {E} (X|Y)=\mathbb {E} X.}
E
(
E
(
X
|
Y
)
)
=
∑
l
E
(
X
|
Y
=
y
l
)
⋅
p
⋅
l
=
∑
l
∑
k
x
k
p
k
l
p
⋅
l
p
⋅
l
=
∑
k
x
k
∑
l
p
k
l
=
∑
k
x
k
p
k
⋅
=
E
X
,
{\displaystyle \mathbb {E} (\mathbb {E} (X|Y))=\sum _{l}\mathbb {E} (X|Y=y_{l})\cdot p_{\cdot l}=\sum _{l}\sum _{k}x_{k}{\frac {p_{kl}}{p_{\cdot l}}}p_{\cdot l}=\sum _{k}x_{k}\sum _{l}p_{kl}=\sum _{k}x_{k}p_{k\cdot }=\mathbb {E} X,}
E
(
E
(
Y
|
X
)
)
=
∑
k
E
(
Y
|
X
=
x
k
)
⋅
p
k
⋅
=
∑
k
∑
l
y
l
p
k
l
p
k
⋅
p
k
⋅
=
∑
l
y
l
∑
k
p
k
l
=
∑
l
y
l
p
⋅
l
=
E
Y
.
{\displaystyle \mathbb {E} (\mathbb {E} (Y|X))=\sum _{k}\mathbb {E} (Y|X=x_{k})\cdot p_{k\cdot }=\sum _{k}\sum _{l}y_{l}{\frac {p_{kl}}{p_{k\cdot }}}p_{k\cdot }=\sum _{l}y_{l}\sum _{k}p_{kl}=\sum _{l}y_{l}p_{\cdot l}=\mathbb {E} Y.}
q.e.d.
Die bedingten Erwartungswertfunktionen lösen die anfangs skizzierte Aufgabenstellung.
Seien
X
,
Y
{\displaystyle X,Y}
diskrete zufällige Größen über
(
Ω
,
F
,
P
)
{\displaystyle (\Omega ,{\mathcal {F}},P)}
. Für
Ψ
:
Y
(
Ω
)
→
R
,
Ψ
(
y
)
:=
E
(
X
|
Y
=
y
)
{\displaystyle \Psi :Y(\Omega )\to \mathbb {R} ,\quad \Psi (y):=\mathbb {E} (X|Y=y)}
sowie
Φ
:
X
(
Ω
)
⇒
R
,
Φ
(
x
)
:=
E
(
Y
|
X
=
x
)
{\displaystyle \Phi :X(\Omega )\Rightarrow \mathbb {R} ,\quad \Phi (x):=\mathbb {E} (Y|X=x)}
gelten die Beziehungen
E
(
Y
−
Φ
(
X
)
)
2
=
inf
g
:
R
→
R
E
(
Y
−
g
(
X
)
)
2
,
{\displaystyle \mathbb {E} (Y-\Phi (X))^{2}=\inf _{g:\mathbb {R} \to \mathbb {R} }\mathbb {E} (Y-g(X))^{2},}
E
(
X
−
Ψ
(
Y
)
)
2
=
inf
g
:
R
→
R
E
(
X
−
g
(
Y
)
)
2
.
{\displaystyle \mathbb {E} (X-\Psi (Y))^{2}=\inf _{g:\mathbb {R} \to \mathbb {R} }\mathbb {E} (X-g(Y))^{2}.}
Für eine beliebige Funktion
g
:
R
→
R
{\displaystyle g:\mathbb {R} \to \mathbb {R} }
gilt
(2.5)
E
(
Y
−
g
(
X
)
)
2
=
E
(
Y
−
Φ
(
X
)
+
Φ
(
X
)
−
g
(
X
)
)
2
{\displaystyle \mathbb {E} (Y-g(X))^{2}=\mathbb {E} (Y-\Phi (X)+\Phi (X)-g(X))^{2}}
(2.6)
=
E
(
Y
−
Φ
(
X
)
)
2
+
E
(
Φ
(
X
)
−
g
(
X
)
)
2
+
2
E
(
Y
−
Φ
(
X
)
)
(
Φ
(
X
)
−
g
(
X
)
)
.
{\displaystyle =\mathbb {E} (Y-\Phi (X))^{2}+\mathbb {E} (\Phi (X)-g(X))^{2}+2\mathbb {E} (Y-\Phi (X))(\Phi (X)-g(X)).}
Der letzte Summand ist aber gleich Null, denn
(2.7)
E
(
Y
−
Φ
(
X
)
)
(
Φ
(
X
)
−
g
(
X
)
)
{\displaystyle \mathbb {E} (Y-\Phi (X))(\Phi (X)-g(X))}
(2.8)
=
∑
l
∑
k
(
y
l
−
Φ
(
x
k
)
)
(
Φ
(
x
k
)
−
g
(
x
k
)
)
p
k
l
p
k
⋅
⋅
p
k
⋅
{\displaystyle =\sum _{l}\sum _{k}(y_{l}-\Phi (x_{k}))(\Phi (x_{k})-g(x_{k})){\frac {p_{kl}}{p_{k\cdot }}}\cdot p_{k\cdot }}
(2.9)
=
∑
k
[
(
Φ
(
x
k
)
−
g
(
x
k
)
)
(
∑
l
y
l
p
k
l
p
k
⋅
−
Φ
(
x
k
)
∑
l
p
k
l
p
k
⋅
)
]
p
k
⋅
{\displaystyle =\sum _{k}\left[(\Phi (x_{k})-g(x_{k}))\left(\sum _{l}y_{l}{\frac {p_{kl}}{p_{k\cdot }}}-\Phi (x_{k})\sum _{l}{\frac {p_{kl}}{p_{k\cdot }}}\right)\right]p_{k\cdot }}
(2.10)
=
∑
k
[
(
Φ
(
x
k
)
−
g
(
x
k
)
)
(
Φ
(
x
k
)
−
Φ
(
x
k
)
p
k
⋅
p
k
⋅
)
]
p
k
⋅
=
0.
{\displaystyle =\sum _{k}\left[(\Phi (x_{k})-g(x_{k}))\left(\Phi (x_{k})-\Phi (x_{k}){\frac {p_{k\cdot }}{p_{k\cdot }}}\right)\right]p_{k\cdot }=0.}
Der Ausdruck
E
(
Y
−
g
(
X
)
)
2
≥
0
{\displaystyle \mathbb {E} (Y-g(X))^{2}\geq 0}
wird damit minimal für
g
(
x
)
=
Φ
(
x
)
{\displaystyle g(x)=\Phi (x)}
. Auf der Menge
R
∖
X
(
Ω
)
{\displaystyle \mathbb {R} \setminus X(\Omega )}
können wir natürlich
g
{\displaystyle g}
beliebig definieren. Analog wird
E
(
X
−
g
(
Y
)
)
2
{\displaystyle \mathbb {E} (X-g(Y))^{2}}
minimiert durch die Funktion
g
(
y
)
=
Ψ
(
y
)
=
E
(
X
|
Y
=
y
)
{\displaystyle g(y)=\Psi (y)=\mathbb {E} (X|Y=y)}
.
q.e.d.
Die Funktion
Ψ
:
Y
(
Ω
)
→
R
,
Ψ
(
y
)
=
E
(
X
|
Y
=
y
)
{\displaystyle \Psi :Y(\Omega )\to \mathbb {R} ,\Psi (y)=\mathbb {E} (X|Y=y)}
heißt Regressionsfunktion erster Art von
X
{\displaystyle X}
bezüglich
Y
{\displaystyle Y}
.
Analog nennt man
Φ
:
X
(
Ω
)
→
R
,
Φ
(
x
)
=
E
(
Y
|
X
=
x
)
{\displaystyle \Phi :X(\Omega )\to \mathbb {R} ,\Phi (x)=\mathbb {E} (Y|X=x)}
Regressionsfunktion erster Art von
Y
{\displaystyle Y}
bezüglich
X
{\displaystyle X}
.
Seien
X
,
Y
{\displaystyle X,Y}
stetige Zufallsgrößen über einem Wahrscheinlichkeitsraum
(
Ω
,
F
,
P
)
{\displaystyle (\Omega ,{\mathcal {F}},P)}
mit gemeinsamer Dichtefunktion
f
{\displaystyle f}
, d. h.
f
:
R
2
→
[
0
,
∞
)
{\displaystyle f:\mathbb {R} ^{2}\to [0,\infty )}
mit
P
(
X
∈
[
a
1
,
a
2
)
,
Y
∈
[
b
1
,
b
2
)
)
=
∫
a
1
a
2
∫
b
1
b
2
f
(
x
,
y
)
d
y
d
x
(
a
1
<
a
2
,
b
1
<
b
2
)
.
{\displaystyle P(X\in [a_{1},a_{2}),Y\in [b_{1},b_{2}))=\int \limits _{a_{1}}^{a_{2}}\int \limits _{b_{1}}^{b_{2}}f(x,y)\,dydx\quad (a_{1}<a_{2},b_{1}<b_{2}).}
Die entsprechenden Randverteilungen von
X
{\displaystyle X}
und
Y
{\displaystyle Y}
erhält man durch entsprechende Integration der Dichte
f
{\displaystyle f}
:
(2.11)
f
X
(
x
)
=
∫
R
f
(
x
,
y
)
d
y
(
x
∈
R
)
,
{\displaystyle f_{X}(x)=\int \limits _{\mathbb {R} }f(x,y)\,dy\quad (x\in \mathbb {R} ),}
(2.12)
f
Y
(
y
)
=
∫
R
f
(
x
,
y
)
d
x
(
y
∈
R
)
.
{\displaystyle f_{Y}(y)=\int \limits _{\mathbb {R} }f(x,y)\,dx\quad (y\in \mathbb {R} ).}
Wie in Kapitel 2.2 wollen wir auch in diesem Fall bedingte Verteilungen, bedingte Erwartungswerte und die entsprechenden Erwartungswertfunktionen bilden. Da aber für alle
y
∈
R
{\displaystyle y\in \mathbb {R} }
P
(
Y
=
y
)
=
0
{\displaystyle P(Y=y)=0}
gilt, existieren die bedingten Wahrscheinlichkeiten
P
(
X
∈
A
|
Y
=
y
)
{\displaystyle P(X\in A|Y=y)}
nicht. Allerdings können wir überprüfen, ob der Grenzwert
lim
h
↓
0
P
(
X
∈
A
|
Y
∈
(
y
,
y
+
h
)
)
{\displaystyle \lim _{h\downarrow 0}P(X\in A|Y\in (y,y+h))}
existiert. Diese Verteilung kann dann als Verteilung der Zufallsgröße
X
|
Y
=
y
{\displaystyle X|Y=y}
interpretiert werden.
Wir nehmen an, dass
f
Y
{\displaystyle f_{Y}}
(zumindest einseitig) stetig ist im Punkt
y
{\displaystyle y}
und dass gilt
f
Y
(
y
)
>
0
{\displaystyle f_{Y}(y)>0}
. O. B. d. A. sei
f
Y
{\displaystyle f_{Y}}
in
y
{\displaystyle y}
stetig von rechts. Dann existiert ein
h
>
0
{\displaystyle h>0}
mit
f
Y
(
u
)
>
0
{\displaystyle f_{Y}(u)>0}
für
u
∈
[
y
,
y
+
h
]
{\displaystyle u\in [y,y+h]}
und
P
(
Y
∈
[
y
,
y
+
h
]
)
>
0
{\displaystyle P(Y\in [y,y+h])>0}
. Für
A
∈
R
{\displaystyle A\in \mathbb {R} }
gilt
(2.13)
P
(
X
∈
A
|
Y
∈
[
y
,
y
+
h
)
)
=
P
(
x
∈
A
,
Y
∈
[
y
,
y
+
h
)
)
P
(
Y
∈
[
y
,
y
+
h
)
)
{\displaystyle P(X\in A|Y\in [y,y+h))={\frac {P(x\in A,Y\in [y,y+h))}{P(Y\in [y,y+h))}}}
(2.14)
=
∫
A
∫
y
y
+
h
f
(
u
,
v
)
d
u
d
v
∫
y
y
+
h
f
Y
(
v
)
d
v
=
∫
A
1
h
∫
y
y
+
h
f
(
u
,
v
)
d
u
d
v
1
h
∫
y
y
+
h
f
Y
(
v
)
d
v
{\displaystyle ={\frac {\int \limits _{A}\int \limits _{y}^{y+h}f(u,v)\,dudv}{\int \limits _{y}^{y+h}f_{Y}(v)\,dv}}={\frac {\int \limits _{A}{\frac {1}{h}}\int \limits _{y}^{y+h}f(u,v)\,dudv}{{\frac {1}{h}}\int \limits _{y}^{y+h}f_{Y}(v)\,dv}}}
Dadurch erhalten wir
(2.15)
lim
h
↓
0
P
(
X
∈
A
|
Y
∈
[
y
,
y
+
h
)
)
=
∫
A
[
lim
h
↓
0
1
h
∫
y
y
+
h
f
(
u
,
v
)
d
v
]
d
u
lim
h
↓
0
1
h
∫
y
y
+
h
f
Y
(
v
)
d
v
{\displaystyle \lim _{h\downarrow 0}P(X\in A|Y\in [y,y+h))={\frac {\int \limits _{A}\left[\lim \limits _{h\downarrow 0}{\frac {1}{h}}\int \limits _{y}^{y+h}f(u,v)\,dv\right]\,du}{\lim \limits _{h\downarrow 0}{\frac {1}{h}}\int \limits _{y}^{y+h}f_{Y}(v)\,dv}}}
(2.16)
=
∫
A
f
(
u
,
y
)
d
u
f
Y
(
y
)
.
{\displaystyle ={\frac {\int \limits _{A}f(u,y)\,du}{f_{Y}(y)}}.}
Für alle
y
{\displaystyle y}
mit
f
Y
(
y
)
>
0
{\displaystyle f_{Y}(y)>0}
sei
g
:
R
→
R
{\displaystyle g:\mathbb {R} \to \mathbb {R} }
gegeben durch
g
(
x
)
:=
f
(
x
,
y
)
/
f
Y
(
y
)
{\displaystyle g(x):=f(x,y)/f_{Y}(y)}
. Die Funktion
g
{\displaystyle g}
ist eine Dichtefunktion, denn
∫
R
g
(
x
)
d
x
=
∫
R
f
(
x
,
y
)
f
Y
(
y
)
d
x
=
f
Y
(
y
)
f
Y
(
y
)
=
1.
{\displaystyle \int \limits _{\mathbb {R} }g(x)\,dx=\int \limits _{\mathbb {R} }{\frac {f(x,y)}{f_{Y}(y)}}\,dx={\frac {f_{Y}(y)}{f_{Y}(y)}}=1.}
Für
y
{\displaystyle y}
mit
f
Y
(
y
)
>
0
{\displaystyle f_{Y}(y)>0}
sei
X
|
Y
=
y
{\displaystyle X|Y=y}
die zufällige Größe mit der Dichtefunktion
f
(
x
,
y
)
/
f
Y
(
y
)
{\displaystyle f(x,y)/f_{Y}(y)}
. Die Zufallsgröße
X
|
Y
=
y
{\displaystyle X|Y=y}
heißt bedingte zufällige Größe von
X
{\displaystyle X}
unter
Y
=
y
{\displaystyle Y=y}
.
E
(
X
|
Y
=
y
)
{\displaystyle \mathbb {E} (X|Y=y)}
heißt bedingter Erwartungswert von
X
{\displaystyle X}
unter
Y
=
y
{\displaystyle Y=y}
.
Für alle
y
∈
R
{\displaystyle y\in \mathbb {R} }
mit
f
Y
(
y
)
>
0
{\displaystyle f_{Y}(y)>0}
gilt
E
(
X
|
Y
=
y
)
=
∫
R
x
f
(
x
,
y
)
f
Y
(
y
)
d
x
.
{\displaystyle \mathbb {E} (X|Y=y)=\int \limits _{\mathbb {R} }x{\frac {f(x,y)}{f_{Y}(y)}}\,dx.}
Analog erhalten wir für
x
∈
R
{\displaystyle x\in \mathbb {R} }
mit
f
X
(
x
)
>
0
{\displaystyle f_{X}(x)>0}
die Beziehung
E
(
Y
|
X
=
x
)
=
∫
R
y
f
(
x
,
y
)
f
X
(
x
)
d
y
.
{\displaystyle \mathbb {E} (Y|X=x)=\int \limits _{\mathbb {R} }y{\frac {f(x,y)}{f_{X}(x)}}\,dy.}
Für stetige Zufallsgrößen gilt genau wie für diskrete, dass die bedingten Erwartungswerte die (theoretische) Lösung des Regressionsproblems darstellen (siehe Theorem 2.2).
Seien
X
,
Y
{\displaystyle X,Y}
stetige zufällige Größen über
(
Ω
,
F
,
P
)
{\displaystyle (\Omega ,{\mathcal {F}},P)}
. Wir setzen
Ψ
:
R
→
R
,
Ψ
(
y
)
:=
{
E
(
X
|
Y
=
y
)
,
f
u
¨
r
y
∈
R
m
i
t
f
Y
(
y
)
>
0
,
0
s
o
n
s
t
{\displaystyle \Psi :\mathbb {R} \to \mathbb {R} ,\quad \Psi (y):={\begin{cases}\mathbb {E} (X|Y=y),&f{\ddot {u}}r\ y\in \mathbb {R} \ mit\ f_{Y}(y)>0,\\0&sonst\end{cases}}}
sowie
Φ
:
R
⇒
R
,
Φ
(
x
)
:=
{
E
(
Y
|
X
=
x
)
,
f
u
¨
r
x
∈
R
m
i
t
f
X
(
x
)
>
0
,
0
,
s
o
n
s
t
.
{\displaystyle \Phi :\mathbb {R} \Rightarrow \mathbb {R} ,\quad \Phi (x):={\begin{cases}\mathbb {E} (Y|X=x),&f{\ddot {u}}r\ x\in \mathbb {R} \ mit\ f_{X}(x)>0,\\0,&sonst.\end{cases}}}
Es gilt
E
(
Y
−
Φ
(
X
)
)
2
=
inf
g
:
R
→
R
E
(
Y
−
g
(
X
)
)
2
,
{\displaystyle \mathbb {E} (Y-\Phi (X))^{2}=\inf _{g:\mathbb {R} \to \mathbb {R} }\mathbb {E} (Y-g(X))^{2},}
E
(
X
−
Ψ
(
Y
)
)
2
=
inf
g
:
R
→
R
E
(
X
−
g
(
Y
)
)
2
.
{\displaystyle \mathbb {E} (X-\Psi (Y))^{2}=\inf _{g:\mathbb {R} \to \mathbb {R} }\mathbb {E} (X-g(Y))^{2}.}
Wie im diskreten Fall erhält man für eine beliebige messbare Funktion
g
:
R
→
R
{\displaystyle g:\mathbb {R} \to \mathbb {R} }
(2.17)
E
(
Y
−
g
(
X
)
)
2
=
E
(
Y
−
Φ
(
X
)
+
Φ
(
X
)
−
g
(
X
)
)
2
{\displaystyle \mathbb {E} (Y-g(X))^{2}=\mathbb {E} (Y-\Phi (X)+\Phi (X)-g(X))^{2}}
(2.18)
=
E
(
Y
−
Φ
(
X
)
)
2
+
E
(
Φ
(
X
)
−
g
(
X
)
)
2
+
2
E
(
Y
−
Φ
(
X
)
)
(
Φ
(
X
)
−
g
(
X
)
)
.
{\displaystyle =\mathbb {E} (Y-\Phi (X))^{2}+\mathbb {E} (\Phi (X)-g(X))^{2}+2\mathbb {E} (Y-\Phi (X))(\Phi (X)-g(X)).}
Analog zum Beweis von Theorem 2.2 zeigen wir, dass der letzte Summand verschwindet
(2.19)
E
(
Y
−
Φ
(
X
)
)
(
Φ
(
X
)
−
g
(
X
)
)
=
∫
R
∫
R
(
y
−
Φ
(
x
)
)
(
Φ
(
x
)
−
g
(
x
)
)
f
(
x
,
y
)
f
X
(
x
)
⋅
f
X
(
x
)
d
x
d
y
{\displaystyle \mathbb {E} (Y-\Phi (X))(\Phi (X)-g(X))=\int \limits _{\mathbb {R} }\int \limits _{\mathbb {R} }(y-\Phi (x))(\Phi (x)-g(x)){\frac {f(x,y)}{f_{X}(x)}}\cdot f_{X}(x)\,dxdy}
(2.20)
=
∫
R
[
(
Φ
(
x
)
−
g
(
x
)
)
(
∫
R
y
f
(
x
,
y
)
f
X
(
x
)
d
y
−
Φ
(
x
)
∫
R
f
(
x
,
y
)
f
X
(
x
)
d
y
)
]
f
X
(
x
)
d
x
{\displaystyle =\int \limits _{\mathbb {R} }\left[(\Phi (x)-g(x))\left(\int \limits _{\mathbb {R} }y{\frac {f(x,y)}{f_{X}(x)}}\,dy-\Phi (x)\int \limits _{\mathbb {R} }{\frac {f(x,y)}{f_{X}(x)}}\,dy\right)\right]f_{X}(x)\,dx}
(2.21)
=
∫
R
[
(
Φ
(
x
)
−
g
(
x
)
)
(
Φ
(
x
)
−
Φ
(
x
)
f
X
(
x
)
f
X
(
x
)
)
]
f
X
(
x
)
d
x
=
0.
{\displaystyle =\int \limits _{\mathbb {R} }\left[(\Phi (x)-g(x))\left(\Phi (x)-\Phi (x){\frac {f_{X}(x)}{f_{X}(x)}}\right)\right]f_{X}(x)\,dx=0.}
Der Ausdruck
E
(
Y
−
g
(
X
)
)
2
≥
0
{\displaystyle \mathbb {E} (Y-g(X))^{2}\geq 0}
wird damit minimal für
g
(
x
)
=
Φ
(
x
)
{\displaystyle g(x)=\Phi (x)}
. Auf der Menge
{
x
∈
R
:
f
X
(
x
)
=
0
}
{\displaystyle \{x\in \mathbb {R} :f_{X}(x)=0\}}
setzt man die Funktion
g
{\displaystyle g}
o. B. d. A. gleich Null. Analog wird
E
(
X
−
g
(
Y
)
)
2
{\displaystyle \mathbb {E} (X-g(Y))^{2}}
minimiert durch die Funktion
g
(
y
)
=
Ψ
(
y
)
=
E
(
X
|
Y
=
y
)
{\displaystyle g(y)=\Psi (y)=\mathbb {E} (X|Y=y)}
.
q.e.d.
Sei
(
X
,
Y
)
{\displaystyle (X,Y)}
zufälliger Vektor mit
X
≥
0
,
Y
≥
0
{\displaystyle X\geq 0,Y\geq 0}
und Dichte
f
(
x
,
y
)
=
a
p
Γ
(
p
)
⋅
y
p
e
−
(
a
+
x
)
y
(
x
≥
0
,
y
≥
0
)
,
{\displaystyle f(x,y)={\frac {a^{p}}{\Gamma (p)}}\cdot y^{p}e^{-(a+x)y}\quad (x\geq 0,y\geq 0),}
wobei
a
>
0
,
p
>
0
{\displaystyle a>0,p>0}
. Berechne die Regressionsfunktion
Ψ
(
y
)
=
E
(
X
|
Y
=
y
)
{\displaystyle \Psi (y)=\mathbb {E} (X|Y=y)}
.
Lösung: Für
y
>
0
{\displaystyle y>0}
gilt
f
Y
(
y
)
=
∫
0
∞
a
p
Γ
(
p
)
⋅
y
p
e
−
(
a
+
x
)
y
d
x
=
a
p
Γ
(
p
)
⋅
y
p
−
1
e
−
a
y
,
{\displaystyle f_{Y}(y)=\int \limits _{0}^{\infty }{\frac {a^{p}}{\Gamma (p)}}\cdot y^{p}e^{-(a+x)y}\,dx={\frac {a^{p}}{\Gamma (p)}}\cdot y^{p-1}e^{-ay},}
d. h.
Y
∼
Gam
(
a
,
p
)
{\displaystyle Y\sim \operatorname {Gam} (a,p)}
. Somit ergibt sich für
x
≥
0
,
y
>
0
{\displaystyle x\geq 0,y>0}
als Dichte der Zufallsgröße
X
|
Y
=
y
{\displaystyle X|Y=y}
der Ausdruck
f
X
|
Y
=
y
(
x
)
=
y
⋅
e
−
y
x
{\displaystyle f_{X|Y=y}(x)=y\cdot e^{-yx}}
, d. h.
X
|
Y
=
y
∼
Exp
(
y
)
{\displaystyle X|Y=y\sim \operatorname {Exp} (y)}
. Wir erhalten schließlich
Ψ
(
y
)
=
E
(
X
|
Y
=
y
)
=
1
y
(
y
>
0
)
.
{\displaystyle \Psi (y)=\mathbb {E} (X|Y=y)={\frac {1}{y}}\quad (y>0).}
Es sei erwähnt, dass für
x
≥
0
{\displaystyle x\geq 0}
gilt
f
X
(
x
)
=
∫
0
∞
a
p
Γ
(
p
)
⋅
y
p
e
−
(
a
+
x
)
y
d
y
=
p
⋅
a
p
(
a
+
x
)
p
+
1
.
{\displaystyle f_{X}(x)=\int \limits _{0}^{\infty }{\frac {a^{p}}{\Gamma (p)}}\cdot y^{p}e^{-(a+x)y}\,dy={\frac {p\cdot a^{p}}{(a+x)^{p+1}}}.}
Die Zufallsgröße
X
{\displaystyle X}
hat damit eine sog. Pareto -Verteilung, also
f
X
(
x
)
=
p
⋅
a
p
(
a
+
x
)
p
+
1
(
x
≥
0
)
.
{\displaystyle f_{X}(x)={\frac {p\cdot a^{p}}{(a+x)^{p+1}}}\quad (x\geq 0).}
(
X
,
Y
)
{\displaystyle (X,Y)}
habe die gemeinsame Dichtefunktion
f
(
x
,
y
)
=
1
2
π
exp
{
−
x
2
−
2
x
y
+
2
y
2
2
}
(
(
x
,
y
)
∈
R
2
)
.
{\displaystyle f(x,y)={\frac {1}{2\pi }}\exp \left\{-{\frac {x^{2}-2xy+2y^{2}}{2}}\right\}\quad ((x,y)\in \mathbb {R} ^{2}).}
Berechne die Regressionsfunktionen
Ψ
(
y
)
=
E
(
X
|
Y
=
y
)
{\displaystyle \Psi (y)=\mathbb {E} (X|Y=y)}
sowie
Φ
(
x
)
=
E
(
Y
|
X
=
x
)
{\displaystyle \Phi (x)=\mathbb {E} (Y|X=x)}
!
Lösung: Wir erinnern noch einmal an die aus der Analysis bekannte Beziehung (3.2). Daraus folgt (nach einfacher Substitution), dass für alle
a
∈
R
{\displaystyle a\in \mathbb {R} }
gilt
(2.22)
∫
−
∞
∞
1
2
π
exp
{
−
(
u
−
a
)
2
/
2
}
d
u
=
1.
{\displaystyle \int \limits _{-\infty }^{\infty }{\frac {1}{\sqrt {2\pi }}}\exp\{-(u-a)^{2}/2\}\,du=1.}
Für die Randdichte
f
Y
{\displaystyle f_{Y}}
ergibt sich
(2.23)
f
Y
(
y
)
=
∫
−
∞
∞
f
(
x
,
y
)
d
x
=
1
2
π
exp
{
−
y
2
2
}
∫
−
∞
∞
1
2
π
exp
{
−
(
x
−
y
)
2
2
}
d
x
=
1
2
π
exp
{
−
y
2
2
}
.
{\displaystyle f_{Y}(y)=\int \limits _{-\infty }^{\infty }f(x,y)\,dx={\frac {1}{\sqrt {2\pi }}}\exp \left\{-{\frac {y^{2}}{2}}\right\}\int \limits _{-\infty }^{\infty }{\frac {1}{\sqrt {2\pi }}}\exp \left\{-{\frac {(x-y)^{2}}{2}}\right\}\,dx={\frac {1}{\sqrt {2\pi }}}\exp \left\{-{\frac {y^{2}}{2}}\right\}.}
Folglich gilt
Y
∼
N
(
0
,
1
)
{\displaystyle Y\sim {\mathcal {N}}(0,1)}
und als Dichte der Zufallsgröße
X
|
Y
=
y
{\displaystyle X|Y=y}
erhält man
f
X
|
Y
=
y
(
x
)
=
f
(
x
,
y
)
f
Y
(
y
)
=
1
2
π
exp
{
−
(
x
−
y
)
2
2
}
.
{\displaystyle f_{X|Y=y}(x)={\frac {f(x,y)}{f_{Y}(y)}}={\frac {1}{\sqrt {2\pi }}}\exp \left\{-{\frac {(x-y)^{2}}{2}}\right\}.}
Es gilt also
X
|
Y
=
y
∼
N
(
y
,
1
)
{\displaystyle X|Y=y\sim {\mathcal {N}}(y,1)}
und damit
Ψ
(
y
)
=
E
(
X
|
Y
=
y
)
=
y
.
{\displaystyle \Psi (y)=\mathbb {E} (X|Y=y)=y.}
Analog berechnen wir die Randdichte
f
X
{\displaystyle f_{X}}
:
(2.24)
f
X
(
x
)
=
∑
−
∞
∞
f
(
x
,
y
)
d
y
=
1
2
π
exp
{
x
2
4
}
∑
−
∞
∞
exp
{
−
(
x
2
−
y
)
2
}
d
y
{\displaystyle f_{X}(x)=\sum \limits _{-\infty }^{\infty }f(x,y)\,dy={\frac {1}{2\pi }}\exp \left\{{\frac {x^{2}}{4}}\right\}\sum \limits _{-\infty }^{\infty }\exp \left\{-\left({\frac {x}{2}}-y\right)^{2}\right\}\,dy}
(2.25)
=
1
2
π
exp
{
x
2
4
}
∑
−
∞
∞
exp
{
−
u
2
}
d
u
=
1
2
π
exp
{
x
2
4
}
⋅
π
{\displaystyle ={\frac {1}{2\pi }}\exp \left\{{\frac {x^{2}}{4}}\right\}\sum \limits _{-\infty }^{\infty }\exp\{-u^{2}\}\,du={\frac {1}{2\pi }}\exp \left\{{\frac {x^{2}}{4}}\right\}\cdot {\sqrt {\pi }}}
(2.26)
=
1
4
π
exp
{
x
2
2
}
,
{\displaystyle ={\frac {1}{\sqrt {4\pi }}}\exp \left\{{\frac {x^{2}}{2}}\right\},}
woraus wir auf
X
∼
N
(
0
,
2
)
{\displaystyle X\sim {\mathcal {N}}(0,2)}
schließen. Es ergibt sich
f
Y
|
X
=
x
(
y
)
=
f
(
x
,
y
)
f
X
(
x
)
=
1
π
exp
{
−
(
x
2
−
y
)
2
}
,
{\displaystyle f_{Y|X=x}(y)={\frac {f(x,y)}{f_{X}(x)}}={\frac {1}{\sqrt {\pi }}}\exp \left\{-\left({\frac {x}{2}}-y\right)^{2}\right\},}
d. h.
Y
|
X
=
x
∼
N
(
x
/
2
,
1
/
2
)
{\displaystyle Y|X=x\sim {\mathcal {N}}(x/2,1/2)}
, was auf
Φ
(
x
)
=
E
(
Y
|
X
=
x
)
=
x
2
{\displaystyle \Phi (x)=\mathbb {E} (Y|X=x)={\frac {x}{2}}}
führt.
(
X
,
Y
)
{\displaystyle (X,Y)}
habe die gemeinsame Dichtefunktion
f
(
x
,
y
)
=
{
y
2
exp
{
(
1
+
x
)
y
}
,
wenn
x
>
0
,
y
>
0
0
,
sonst.
{\displaystyle f(x,y)={\begin{cases}y^{2}\exp\{(1+x)y\},&{\text{wenn }}x>0,y>0\\0,&{\text{sonst.}}\end{cases}}}
Berechne die Erwartungswertfunktionen
Ψ
(
y
)
,
Φ
(
x
)
{\displaystyle \Psi (y),\Phi (x)}
!
(
X
,
Y
)
{\displaystyle (X,Y)}
zufälliger Vektor. Die zufällige Größe
α
X
+
β
{\displaystyle \alpha X+\beta }
heißt Regressionsgerade von
Y
{\displaystyle Y}
bezüglich
X
{\displaystyle X}
, falls
E
(
Y
−
(
α
X
+
β
)
)
2
=
inf
a
,
b
∈
R
E
(
Y
−
(
a
X
+
b
)
)
2
{\displaystyle \mathbb {E} (Y-(\alpha X+\beta ))^{2}=\inf _{a,b\in \mathbb {R} }\mathbb {E} (Y-(aX+b))^{2}}
β
=
E
Y
−
α
E
X
,
α
=
Cov
(
X
,
Y
)
Var
(
X
)
=
E
(
X
Y
)
−
E
X
⋅
E
Y
E
(
X
2
)
−
(
E
X
)
2
=
ϱ
⋅
σ
(
Y
)
σ
(
X
)
.
{\displaystyle \beta =\mathbb {E} Y-\alpha \mathbb {E} X,\quad \alpha ={\frac {\operatorname {Cov} (X,Y)}{\operatorname {Var} (X)}}={\frac {\mathbb {E} (XY)-\mathbb {E} X\cdot \mathbb {E} Y}{\mathbb {E} (X^{2})-(\mathbb {E} X)^{2}}}=\varrho \cdot {\frac {\sigma (Y)}{\sigma (X)}}.}
2.5 Allgemeine bedingte Erwartungswerte
Bearbeiten
„Es ist nöthig zu bemerken, daß die Unklarheit im Begriffe durch die Abstraktheit hervorgerufen wird, die bei der Anwendung auf wirkliche Messungen überflüssig wird.“ Nikolai Iwanowitsch Lobatschewski, 1835
Nikolai Lobatschewski
Im Kapitel 2.2 wurde der Begriff des bedingten Erwartungswerts an Hand des Spezialfalls diskreter Zufallsgrößen verdeutlicht. Wir haben festgestellt, dass alle für
E
(
X
|
Y
)
{\displaystyle \mathbb {E} (X|Y)}
wesentlichen Informationen über
Y
{\displaystyle Y}
in der
σ
{\displaystyle \sigma }
-Algebra
σ
(
Y
)
{\displaystyle \sigma (Y)}
stecken. Wir sagen, dass
σ
(
Y
)
{\displaystyle \sigma (Y)}
Träger der Information über
Y
{\displaystyle Y}
ist. Wir wollen dies nun auf allgemeine Zufallsgrößen und
σ
{\displaystyle \sigma }
-Algebren übertragen.
Seien
Y
,
Y
1
,
Y
2
{\displaystyle Y,Y_{1},Y_{2}}
Zufallsgrößen über einem Wahrscheinlichkeitsraum
[
Ω
,
F
,
P
]
{\displaystyle [\Omega ,{\mathcal {F}},P]}
,
F
~
{\displaystyle {\tilde {\mathcal {F}}}}
eine
σ
{\displaystyle \sigma }
-Subalgebra von
F
{\displaystyle {\mathcal {F}}}
. Wir sagen, dass
F
~
{\displaystyle {\tilde {\mathcal {F}}}}
die volle Information über
Y
{\displaystyle Y}
enthält, falls gilt
σ
(
Y
)
⊆
F
~
{\displaystyle \sigma (Y)\subseteq {\tilde {\mathcal {F}}}}
. Wir sagen,
Y
2
{\displaystyle Y_{2}}
enthält mehr Information als
Y
1
{\displaystyle Y_{1}}
, falls gilt
σ
(
Y
1
)
⊂
σ
(
Y
2
)
{\displaystyle \sigma (Y_{1})\subset \sigma (Y_{2})}
.
Ist
Y
{\displaystyle Y}
eine
F
~
{\displaystyle {\tilde {\mathcal {F}}}}
-messbare Funktion, so enthält
F
~
{\displaystyle {\tilde {\mathcal {F}}}}
die volle Information über
Y
{\displaystyle Y}
. Wir entnehmen, dass
σ
(
Y
)
{\displaystyle \sigma (Y)}
die volle Information über den bedingten Erwartungswert
E
(
X
|
σ
(
Y
)
)
{\displaystyle \mathbb {E} (X|\sigma (Y))}
enthält. Dies und die oben aufgeführte Eigenschaft werden die definierenden Eigenschaften für allgemeine bedingte Erwartungswerte sein.
Sei
[
Ω
,
F
,
P
]
{\displaystyle [\Omega ,{\mathcal {F}},P]}
,
F
~
{\displaystyle {\tilde {\mathcal {F}}}}
eine
σ
{\displaystyle \sigma }
-Subalgebra von
F
{\displaystyle {\mathcal {F}}}
,
X
{\displaystyle X}
eine Zufallsgröße. Eine Zufallsgröße
Z
{\displaystyle Z}
heißt bedingter Erwartungswert von
X
{\displaystyle X}
unter der
σ
{\displaystyle \sigma }
-Algebra
F
~
{\displaystyle {\tilde {\mathcal {F}}}}
, falls
σ
(
Z
)
⊆
F
~
,
{\displaystyle \sigma (Z)\subseteq {\tilde {\mathcal {F}}},}
E
(
X
I
A
)
=
E
(
Z
I
A
)
(
A
∈
F
~
)
.
{\displaystyle \mathbb {E} (X\mathbb {I} _{A})=\mathbb {E} (Z\mathbb {I} _{A})\quad (A\in {\tilde {\mathcal {F}}}).}
Symbolisch schreiben wir:
Z
:=
E
(
X
|
F
~
)
{\displaystyle Z:=\mathbb {E} (X|{\tilde {\mathcal {F}}})}
.
Bei diskreten Zufallsgrößen können wir explizit die bedingten Erwartungswerte berechnen. Allgemein ist dies schwierig oder unmöglich - Definition 2.7 ist alles andere als konstruktiv. Deshalb ist es wichtig, Rechenregeln für bedingte Erwartungswerte zu haben, die es einem ermöglichen, mit bedingten Erwartungswerten zu operieren, ohne ihre spezielle Form zu kennen. Wir werden die folgenden Eigenschaften nicht beweisen, sondern nur kommentieren.
Im folgenden sei
[
Ω
,
F
,
P
]
{\displaystyle [\Omega ,{\mathcal {F}},P]}
ein Wahrscheinlichkeitsraum,
F
~
{\displaystyle {\tilde {\mathcal {F}}}}
eine
σ
{\displaystyle \sigma }
-Subalgebra von
F
{\displaystyle {\mathcal {F}}}
sowie
X
,
X
1
,
X
2
{\displaystyle X,X_{1},X_{2}}
Zufallsgrößen (also
F
{\displaystyle {\mathcal {F}}}
-messbare Funktionen).
Ist
E
|
X
|
<
∞
{\displaystyle \mathbb {E} |X|<\infty }
, so existiert
E
(
X
|
F
~
)
{\displaystyle \mathbb {E} (X|{\tilde {\mathcal {F}}})}
und ist eindeutig in folgendem Sinne: Sind
Z
1
,
Z
2
{\displaystyle Z_{1},Z_{2}}
Zufallsgrößen mit den Eigenschaften 1. und 2. von Definition 2.7, so ist
P
{\displaystyle P}
-fast sicher
Z
1
=
Z
2
{\displaystyle Z_{1}=Z_{2}}
.
Der bedingte Erwartungswert ist linear: Für alle
a
,
b
∈
R
{\displaystyle a,b\in \mathbb {R} }
gilt
P
{\displaystyle P}
-f. s.
(2.27)
E
(
a
X
1
+
b
X
2
|
F
~
)
=
a
⋅
E
(
X
1
|
F
~
)
+
b
⋅
E
(
X
2
|
F
~
)
.
{\displaystyle \mathbb {E} (aX_{1}+bX_{2}|{\tilde {\mathcal {F}}})=a\cdot \mathbb {E} (X_{1}|{\tilde {\mathcal {F}}})+b\cdot \mathbb {E} (X_{2}|{\tilde {\mathcal {F}}}).}
(2.28)
E
(
E
(
X
|
F
~
)
)
=
E
X
.
{\displaystyle \mathbb {E} (\mathbb {E} (X|{\tilde {\mathcal {F}}}))=\mathbb {E} X.}
Sind
σ
(
X
)
{\displaystyle \sigma (X)}
und
F
~
{\displaystyle {\tilde {\mathcal {F}}}}
unabhängig, so gilt
P
{\displaystyle P}
-f. s.
(2.29)
E
(
X
|
F
~
)
)
=
E
X
.
{\displaystyle \mathbb {E} (X|{\tilde {\mathcal {F}}}))=\mathbb {E} X.}
Ist
σ
(
X
)
⊆
F
~
{\displaystyle \sigma (X)\subseteq {\tilde {\mathcal {F}}}}
(d. h.
X
{\displaystyle X}
ist sogar
F
~
{\displaystyle {\tilde {\mathcal {F}}}}
-messbar), so gilt
P
{\displaystyle P}
-f. s.
(2.30)
E
(
X
|
F
~
)
)
=
X
.
{\displaystyle \mathbb {E} (X|{\tilde {\mathcal {F}}}))=X.}
Speziell ist also
E
(
X
1
|
X
2
)
=
X
1
{\displaystyle \mathbb {E} (X_{1}|X_{2})=X_{1}}
, falls
σ
(
X
1
)
⊆
σ
(
X
2
)
{\displaystyle \sigma (X_{1})\subseteq \sigma (X_{2})}
.
Ist
σ
(
X
1
)
⊆
F
~
{\displaystyle \sigma (X_{1})\subseteq {\tilde {\mathcal {F}}}}
(d. h.
X
1
{\displaystyle X_{1}}
ist sogar
F
~
{\displaystyle {\tilde {\mathcal {F}}}}
-messbar), so gilt für alle
X
2
{\displaystyle X_{2}}
P
{\displaystyle P}
-f. s.
(2.31)
E
(
X
1
X
2
|
F
~
)
)
=
X
1
E
(
X
2
|
F
~
)
.
{\displaystyle \mathbb {E} (X_{1}X_{2}|{\tilde {\mathcal {F}}}))=X_{1}\mathbb {E} (X_{2}|{\tilde {\mathcal {F}}}).}
Ist
F
1
⊆
F
~
{\displaystyle {\mathcal {F}}_{1}\subseteq {\tilde {\mathcal {F}}}}
eine weitere
σ
{\displaystyle \sigma }
-Subalgebra, so gilt
P
{\displaystyle P}
-f. s.
(2.32)
E
[
E
(
X
|
F
1
)
|
F
~
]
=
E
(
X
|
F
~
)
,
{\displaystyle \mathbb {E} [\mathbb {E} (X|{\mathcal {F}}_{1})|{\tilde {\mathcal {F}}}]=\mathbb {E} (X|{\tilde {\mathcal {F}}}),}
(2.33)
E
[
E
(
X
|
F
~
)
|
F
1
]
=
E
(
X
|
F
~
)
.
{\displaystyle \mathbb {E} [\mathbb {E} (X|{\tilde {\mathcal {F}}})|{\mathcal {F}}_{1}]=\mathbb {E} (X|{\tilde {\mathcal {F}}}).}
Sind
σ
(
X
1
)
{\displaystyle \sigma (X_{1})}
und
F
~
{\displaystyle {\tilde {\mathcal {F}}}}
unabhängig und ist
σ
(
X
2
)
⊆
F
~
{\displaystyle \sigma (X_{2})\subseteq {\tilde {\mathcal {F}}}}
, so gilt für eine beliebige Funktion
h
:
R
2
→
R
{\displaystyle h:\mathbb {R} ^{2}\to \mathbb {R} }
(Existenz der Erwartungswerte vorausgesetzt)
P
{\displaystyle P}
-f. s.
(2.34)
E
(
h
(
X
1
,
X
2
)
|
F
~
)
=
E
(
E
X
1
h
(
X
1
,
X
2
)
|
F
~
)
,
{\displaystyle \mathbb {E} (h(X_{1},X_{2})|{\tilde {\mathcal {F}}})=\mathbb {E} (\mathbb {E} _{X_{1}}h(X_{1},X_{2})|{\tilde {\mathcal {F}}}),}
wobei
E
X
1
h
(
X
1
,
X
2
)
{\displaystyle \mathbb {E} _{X_{1}}h(X_{1},X_{2})}
den nur bezüglich
X
1
{\displaystyle X_{1}}
gebildeten Erwartungswert bezeichnet.
Beachte, dass
E
X
h
(
X
,
Y
)
{\displaystyle \mathbb {E} _{X}h(X,Y)}
eine Zufallsgröße ist und zwar gilt
(
E
X
h
(
X
,
Y
)
)
(
ω
)
=
E
X
h
(
X
,
Y
(
ω
)
)
{\displaystyle (\mathbb {E} _{X}h(X,Y))(\omega )=\mathbb {E} _{X}h(X,Y(\omega ))}
. Wir wollen die Bildung
E
X
h
(
X
,
Y
)
{\displaystyle \mathbb {E} _{X}h(X,Y)}
etwas illustrieren.
X
{\displaystyle X}
habe die Dichtefunktion
f
X
{\displaystyle f_{X}}
. Dann gilt
E
X
h
(
X
,
Y
)
=
∫
−
∞
∞
h
(
x
,
Y
)
f
X
(
x
)
d
x
.
{\displaystyle \mathbb {E} _{X}h(X,Y)=\int \limits _{-\infty }^{\infty }h(x,Y)f_{X}(x)\,dx.}
Ist beispielsweise
h
(
x
,
y
)
=
x
⋅
y
{\displaystyle h(x,y)=x\cdot y}
, erhält man
E
X
h
(
X
,
Y
)
=
E
X
(
X
Y
)
=
Y
E
X
{\displaystyle \mathbb {E} _{X}h(X,Y)=\mathbb {E} _{X}(XY)=Y\mathbb {E} X}
. Ist
h
(
x
,
y
)
=
x
+
y
{\displaystyle h(x,y)=x+y}
, ergibt sich
E
X
h
(
X
,
Y
)
=
E
X
(
X
+
Y
)
=
E
X
+
Y
{\displaystyle \mathbb {E} _{X}h(X,Y)=\mathbb {E} _{X}(X+Y)=\mathbb {E} X+Y}
.
Sei
[
Ω
,
F
,
P
]
{\displaystyle [\Omega ,{\mathcal {F}},P]}
ein Wahrscheinlichkeitsraum,
F
~
⊆
F
{\displaystyle {\tilde {\mathcal {F}}}\subseteq {\mathcal {F}}}
eine
σ
{\displaystyle \sigma }
-Subalgebra. Die Zufallsgröße
E
(
X
|
F
~
)
{\displaystyle \mathbb {E} (X|{\tilde {\mathcal {F}}})}
sollte man stets als eine Verfeinerung oder ein Update der Information
E
X
{\displaystyle \mathbb {E} X}
auffassen, wenn die Information
F
~
{\displaystyle {\tilde {\mathcal {F}}}}
gegeben ist. Von allen Zufallsgrößen, die bereits
F
~
{\displaystyle {\tilde {\mathcal {F}}}}
-messbar sind, besitzt
E
(
X
|
F
~
)
{\displaystyle \mathbb {E} (X|{\tilde {\mathcal {F}}})}
die folgende Minimalitätseigenschaft in Bezug auf die mittlere quadratische Abweichung.
Sei
[
Ω
,
F
,
P
]
{\displaystyle [\Omega ,{\mathcal {F}},P]}
ein Wahrscheinlichkeitsraum,
F
~
⊆
F
{\displaystyle {\tilde {\mathcal {F}}}\subseteq {\mathcal {F}}}
eine
σ
{\displaystyle \sigma }
-Subalgebra.
L
2
(
F
~
)
{\displaystyle L_{2}({\tilde {\mathcal {F}}})}
bezeichne die Menge aller quadratisch integrierbaren
F
~
{\displaystyle {\tilde {\mathcal {F}}}}
-messbaren Zufallsgrößen. Für eine beliebige Zufallsgröße
X
{\displaystyle X}
mit
E
X
2
<
∞
{\displaystyle \mathbb {E} X^{2}<\infty }
gilt
(2.35)
E
[
X
−
E
(
X
|
F
~
)
]
2
=
min
Z
∈
L
2
(
F
~
)
E
(
X
−
Z
)
2
.
{\displaystyle \mathbb {E} \left[X-\mathbb {E} (X|{\tilde {\mathcal {F}}})\right]^{2}=\min _{Z\in L_{2}({\tilde {\mathcal {F}}})}\mathbb {E} (X-Z)^{2}.}
Sei
[
Ω
,
F
,
P
]
{\displaystyle [\Omega ,{\mathcal {F}},P]}
ein Wahrscheinlichkeitsraum,
X
{\displaystyle X}
und
Y
{\displaystyle Y}
Zufallsgrößen. Die Zufallsgröße
E
(
X
|
σ
(
Y
)
)
{\displaystyle \mathbb {E} (X|\sigma (Y))}
heißt bedingter Erwartungswert von
X
{\displaystyle X}
unter der Bedingung
Y
{\displaystyle Y}
. Symbolisch schreibt man auch
E
(
X
|
Y
)
{\displaystyle \mathbb {E} (X|Y)}
.
Wegen Theorem 2.12 ist
E
(
X
|
Y
)
{\displaystyle \mathbb {E} (X|Y)}
diejenige Funktion von
Y
{\displaystyle Y}
, die im quadratischen Mittel der Zufallsgröße
X
{\displaystyle X}
am nächsten ist. Anwendung findet diese Aussage in der Statistik in der sog. Regressionsanalyse . Wir sagen auch, dass
E
(
X
|
F
~
)
{\displaystyle \mathbb {E} (X|{\tilde {\mathcal {F}}})}
die beste Vorhersage von
X
{\displaystyle X}
bei gegebenem
F
~
{\displaystyle {\tilde {\mathcal {F}}}}
ist.
Zum Schluss noch als technisches Hilfsmittel eine wichtige Ungleichung.
Sei
f
:
R
→
R
{\displaystyle f:\mathbb {R} \to \mathbb {R} }
eine konvexe Funktion und
X
{\displaystyle X}
eine Zufallsgröße auf einem Wahrscheinlichkeitsraum
[
Ω
,
F
,
P
]
{\displaystyle [\Omega ,{\mathcal {F}},P]}
mit
E
|
X
|
<
∞
{\displaystyle \mathbb {E} |X|<\infty }
sowie
E
|
f
(
X
)
|
<
∞
{\displaystyle \mathbb {E} |f(X)|<\infty }
. Es gilt
(2.36)
f
(
E
X
)
≤
E
f
(
X
)
.
{\displaystyle f(\mathbb {E} X)\leq \mathbb {E} f(X).}
Für eine beliebige
σ
{\displaystyle \sigma }
-Subalgebra
F
~
⊆
F
{\displaystyle {\tilde {\mathcal {F}}}\subseteq {\mathcal {F}}}
gilt
(2.37)
f
(
E
X
|
F
~
)
≤
E
[
f
(
X
)
|
F
~
]
.
{\displaystyle f(\mathbb {E} X|{\tilde {\mathcal {F}}})\leq \mathbb {E} [f(X)|{\tilde {\mathcal {F}}}].}