Gegeben sei ein endlicher Wahrscheinlichkeitsraum
(
Ω
,
S
,
P
)
{\displaystyle (\Omega ,{\mathcal {S}},P)}
, Gleichverteilung über
(
Ω
,
S
)
{\displaystyle (\Omega ,{\mathcal {S}})}
und
S
:=
℘
(
(
Ω
)
{\displaystyle {\mathcal {S}}:=\wp ((\Omega )}
.
A
,
B
⊂
Ω
,
A
≠
∅
{\displaystyle A,B\subset \Omega ,A\neq \varnothing }
. In dem einführenden Beispiel betrachten wir die Ereignisse:
A
{\displaystyle A}
: Stochastik-Klausur bestanden
B
{\displaystyle B}
: Fachwissenschaftliche Grundlagen mit 4,0 bestanden
Mit welcher Wahrscheinlichkeit
P
(
A
|
B
)
{\displaystyle P(A|B)}
besteht man die Stochastik-Klausur
A
{\displaystyle A}
, wenn man die Klausur zu den fachwissenschaftlichen Grundlagen nur mit 4,0 bestanden hat (d.h.
B
{\displaystyle B}
erfüllt ist)?
Wir nehmen an, dass das Ereignis
B
{\displaystyle B}
eintritt. Welche Definition ist sinnvoll für die Wahrscheinlichkeit von
B
{\displaystyle B}
, unter der Bedingung, dass
A
{\displaystyle A}
eingetreten ist?
Wenn die Bedingung
B
{\displaystyle B}
eintritt, so kann
A
{\displaystyle A}
nur dann eintreten, wenn das Ereignis
A
∩
B
{\displaystyle A\cap B}
eintritt.
Wir konzentrieren uns auf die Realisationen
ω
∈
A
{\displaystyle \omega \in A}
und betrachten sie als gleichwahrscheinlich (Laplace-Verteilung ).
Allgemein gilt dann
P
(
C
)
=
|
C
|
|
Ω
|
{\displaystyle P(C)={\frac {|C|}{|\Omega |}}}
für alle
C
∈
S
{\displaystyle C\in {\mathcal {S}}}
.
Damit kann die Wahrscheinlichkeit von
A
{\displaystyle A}
unter der Bedingung
B
{\displaystyle B}
wie folgt definiert werden:
P
(
A
|
B
)
:=
|
A
∩
B
|
|
B
|
=
|
A
∩
B
|
∖
|
Ω
|
|
B
|
∖
|
Ω
|
=
P
(
A
∩
B
)
P
(
B
)
{\displaystyle P(A|B):={\frac {|A\cap B|}{|B|}}={\frac {|A\cap B|\setminus |\Omega |}{|B|\setminus |\Omega |}}={\frac {P(A\cap B)}{P(B)}}}
Dabei wurde der Bruch mit
1
|
Ω
|
{\displaystyle {\frac {1}{|\Omega |}}}
erweitert, um in Zähler und Nenner die Laplace-Wahrscheinlichkeiten für die Ereignisse
A
∩
B
{\displaystyle A\cap B}
und
B
{\displaystyle B}
zu erzeugen.
Sei
(
Ω
,
S
,
P
)
{\displaystyle (\Omega ,{\mathcal {S}},P)}
ein Wahrscheinlichkeitsraum,
A
∈
S
{\displaystyle A\in {\mathcal {S}}}
mit
P
(
B
)
>
0
{\displaystyle P(B)>0}
.
a) Die Abbildung
P
(
⋅
|
B
)
:
S
→
[
0
,
1
]
{\displaystyle P(\cdot |B):{\mathcal {S}}\to [0,1]}
, die gemäß
P
(
A
|
B
)
=
P
(
A
∩
B
)
P
(
B
)
,
A
,
B
∈
S
{\displaystyle P(A|B)={\frac {P(A\cap B)}{P(B)}},A,B\in {\mathcal {S}}}
definiert ist, heißt bedingte Wahrscheinlichkeitsverteilung über
Ω
{\displaystyle \Omega }
unter (der Bedingung)
B
{\displaystyle B}
.
b) Die Zahl
P
(
A
|
B
)
{\displaystyle P(A|B)}
heißt bedingte Wahrscheinlichkeit von
A
{\displaystyle A}
unter (der Bedingung)
B
{\displaystyle B}
.
Beweisen Sie, dass
P
(
⋅
|
B
)
{\displaystyle P(\cdot |B)}
eine Wahrscheinlichkeitsverteilung auf dem Messraum
(
Ω
,
S
)
{\displaystyle (\Omega ,{\mathcal {S}})}
ist.
Es gilt
P
(
Ω
|
B
)
=
1
{\displaystyle P(\Omega |B)=1}
. Die Wahrscheinlichkeit von
P
(
⋅
|
B
)
{\displaystyle P(\cdot |B)}
ist allerdings auf
B
{\displaystyle B}
konzentriert".
Zeigen Sie dazu, dass
P
(
A
|
B
)
=
0
{\displaystyle P(A|B)=0}
für alle
A
⊂
B
¯
=
Ω
∖
B
{\displaystyle A\subset {\bar {B}}=\Omega \setminus B}
Zeigen Sie, dass für
B
⊂
A
{\displaystyle B\subset A}
,
A
≠
B
{\displaystyle A\not =B}
gilt, dass
P
(
A
|
B
)
=
1
{\displaystyle P(A|B)=1}
(Hinweis: Zeigen Sie, dass
P
(
A
¯
|
B
)
=
0
{\displaystyle P({\bar {A}}|B)=0}
gilt!)
Weißer und schwarzer Würfel werden gleichzeitig geworfen. Berechne die bedingte Wahrscheinlichkeit, mit dem schwarzen Würfel eine '6' zeigt (
A
{\displaystyle A}
) unter der Bedingung, dass die Summe der Augenzahlen '11' beträgt (
B
{\displaystyle B}
).
Berechnen Sie die bedingte Wahrscheinlichkeit
P
(
A
|
B
)
{\displaystyle P(A|B)}
Berechnen Sie ferner die Wahrscheinlichkeit
P
(
B
|
A
)
{\displaystyle P(B|A)}
, also der Wahrscheinlichkeit, dass die Würfelsumm 11 beträgt unter der Bedingung, dass der schwarze Würfel eine 6 zeigt.
Formt man die Definitionsformel von oben um zu
P
(
A
∩
B
)
=
P
(
B
)
⋅
P
(
A
|
B
)
{\displaystyle P(A\cap B)=P(B)\cdot P(A|B)}
, so kann man die Wahrscheinlichkeit des gleichzeitig Eintretens von
A
{\displaystyle A}
und
B
{\displaystyle B}
mithilfe der bedingten Wahrscheinlichkeit darstellen.
Wir betrachten im Nachfolgenden eine Technik, eine Wahrscheinlichkeit auf
Ω
{\displaystyle \Omega }
durch bedingten Wahrscheinlichkeiten zusammenzusetzen.
Anmerkung
(
A
1
,
.
.
.
,
A
m
)
{\displaystyle (A_{1},...,A_{m})}
heißt Zerlegung von
Ω
{\displaystyle \Omega }
auf
(
Ω
,
S
)
{\displaystyle (\Omega ,{\mathcal {S}})}
, falls
⋃
i
=
1
m
A
i
=
Ω
,
A
i
∩
A
j
=
∅
{\displaystyle \bigcup _{i=1}^{m}A_{i}=\Omega ,A_{i}\cap A_{j}=\varnothing }
für alle
i
≠
j
{\displaystyle i\neq j}
und
A
i
,
A
j
∈
S
{\displaystyle A_{i},A_{j}\in {\mathcal {S}}}
Zerlegung
Sei
(
A
1
,
.
.
.
,
A
m
)
{\displaystyle (A_{1},...,A_{m})}
eine Zerlegung von
Ω
{\displaystyle \Omega }
auf
(
Ω
,
S
)
{\displaystyle (\Omega ,{\mathcal {S}})}
. Für jedes
i
=
1
,
.
.
.
,
m
{\displaystyle i=1,...,m}
sei eine auf
A
i
{\displaystyle A_{i}}
konzentrierte Wahrscheinlichkeitsverteilung
Q
A
i
{\displaystyle {Q_{A}}_{i}}
auf
(
Ω
,
S
)
{\displaystyle (\Omega ,{\mathcal {S}})}
gegeben (d.h.
Q
A
i
(
A
i
)
=
1
{\displaystyle {Q_{A}}_{i}(A_{i})=1}
) sowie Zahlen
p
i
∈
[
0
,
1
]
{\displaystyle p_{i}\in [0,1]}
mit
∑
i
=
1
m
p
i
=
1
{\displaystyle \sum _{i=1}^{m}p_{i}=1}
.
(a) Dann existiert genau eine Wahrscheinlichkeitsverteilung
P
{\displaystyle P}
auf
Ω
{\displaystyle \Omega }
mit
(i)
P
(
A
i
)
=
p
i
{\displaystyle P(A_{i})=p_{i}}
.
(ii)
P
(
B
|
A
i
)
=
Q
A
i
(
B
)
{\displaystyle P(B|A_{i})={Q_{A}}_{i}(B)}
, falls
p
i
>
0
{\displaystyle p_{i}>0}
für alle
i
=
1
,
.
.
.
,
m
{\displaystyle i=1,...,m}
.
(b) Es gilt
P
(
B
)
=
∑
i
=
1
m
p
i
⋅
Q
A
i
(
B
)
{\displaystyle P(B)=\sum _{i=1}^{m}p_{i}\cdot {Q_{A}}_{i}(B)}
für jedes
B
∈
S
{\displaystyle B\in {\mathcal {S}}}
.
Zerlegungsatz 1
Man definiere
P
{\displaystyle P}
gemäß Formel b) und rechnet nach, dass
P
{\displaystyle P}
eine Wahrscheinlichkeitsverteilung auf
Ω
{\displaystyle \Omega }
ist. Wie in der letzten Bemerkung gilt für die paarweise disjunkten
A
i
{\displaystyle A_{i}}
Q
A
i
(
A
j
)
=
{
0
,
i
≠
j
1
,
i
=
j
{\displaystyle {Q_{A}}_{i}(A_{j})=\left\{{\begin{array}{ll}0,&i\neq j\\1,&i=j\end{array}}\right.}
Daraus folgt sofort (ai)
P
(
A
k
)
=
∑
i
=
1
m
p
i
⋅
Q
A
i
(
A
k
)
=
p
k
{\displaystyle P(A_{k})=\sum _{i=1}^{m}p_{i}\cdot {Q_{A}}_{i}(A_{k})=p_{k}}
.
Für ein beliebiges
p
i
>
0
{\displaystyle p_{i}>0}
und
B
∈
S
{\displaystyle B\in {\mathcal {S}}}
gilt
P
(
B
|
A
i
)
=
P
(
A
i
∩
B
)
P
(
A
i
)
=
1
p
i
∑
j
=
1
m
p
j
Q
A
j
(
A
i
∩
B
)
=
{\displaystyle P(B|A_{i})={\frac {P(A_{i}\cap B)}{P(A_{i})}}={\frac {1}{p_{i}}}\sum _{j=1}^{m}p_{j}{Q_{A}}_{j}(A_{i}\cap B)=}
=
p
i
p
i
(
Q
A
i
(
A
i
∩
B
)
+
Q
A
i
(
A
¯
i
∩
B
)
=
Q
A
i
(
B
)
)
{\displaystyle ={\frac {p_{i}}{p_{i}}}({Q_{A}}_{i}(A_{i}\cap B)+{Q_{A}}_{i}({\bar {A}}_{i}\cap B)={Q_{A}}_{i}(B))}
also ii).
Sei
P
~
{\displaystyle {\tilde {P}}}
eine (weitere) Wahrscheinlichkeitsverteilung auf
(
Ω
,
S
)
{\displaystyle (\Omega ,{\mathcal {S}})}
, die (ai) und (aii) erfüllt. Dann gilt für
B
⊂
Ω
{\displaystyle B\subset \Omega }
und wegen
B
=
Ω
∩
B
=
(
⋃
j
=
1
m
A
j
)
∩
B
{\displaystyle B=\Omega \cap B=\left(\bigcup _{j=1}^{m}A_{j}\right)\cap B}
die Gleichung
P
~
(
B
)
=
P
~
(
⋃
j
=
1
m
A
j
∩
B
)
=
∑
j
=
1
m
P
~
(
A
j
∩
B
)
=
{\displaystyle {\tilde {P}}(B)={\tilde {P}}\left(\bigcup _{j=1}^{m}A_{j}\cap B\right)=\sum _{j=1}^{m}{\tilde {P}}(A_{j}\cap B)=}
=
∑
j
=
1
m
P
~
(
A
j
)
⋅
P
~
(
B
|
A
j
)
=
(
i
)
,
(
i
i
)
∑
j
=
1
m
p
j
Q
A
j
(
B
)
=
P
(
B
)
.
◻
{\displaystyle =\sum _{j=1}^{m}{\tilde {P}}(A_{j})\cdot {\tilde {P}}(B|A_{j}){\stackrel {(i),(ii)}{=}}\sum _{j=1}^{m}p_{j}{Q_{A}}_{j}(B)=P(B).\qquad \Box }
Für jedes
B
⊂
Ω
{\displaystyle B\subset \Omega }
und eine Zerlegung
(
A
1
,
…
,
A
m
)
{\displaystyle (A_{1},\ldots ,A_{m})}
von
Ω
{\displaystyle \Omega }
auf
(
Ω
,
S
)
{\displaystyle (\Omega ,{\mathcal {S}})}
gilt also für alle
B
∈
S
{\displaystyle B\in {\mathcal {S}}}
:
P
(
B
)
=
∑
j
=
1
m
P
(
A
j
)
P
(
B
|
A
j
)
{\displaystyle P(B)=\sum _{j=1}^{m}P(A_{j})P(B|A_{j})}
("Formel der totalen Wahrscheinlichkeit").
Beweisen Sie den Satz der totalen Wahrscheinlichkeit über die Zerlegung von
Ω
{\displaystyle \Omega }
.
Ist
P
{\displaystyle P}
eine Wahrscheinlichkeitsverteilung auf
Ω
{\displaystyle \Omega }
,
(
A
1
,
.
.
.
,
A
m
)
{\displaystyle (A_{1},...,A_{m})}
einer Zerlegung von
Ω
{\displaystyle \Omega }
auf
(
Ω
,
S
)
{\displaystyle (\Omega ,{\mathcal {S}})}
, so gilt für jedes
B
∈
S
{\displaystyle B\in {\mathcal {S}}}
mit
P
(
B
)
>
0
{\displaystyle P(B)>0}
und
i
=
1
,
.
.
.
,
m
{\displaystyle i=1,...,m}
P
(
A
i
|
B
)
=
P
(
B
|
A
i
)
⋅
P
(
A
i
)
∑
j
=
1
m
P
(
B
|
A
j
)
⋅
P
(
A
j
)
.
{\displaystyle P(A_{i}|B)={\frac {P(B|A_{i})\cdot P(A_{i})}{\sum _{j=1}^{m}P(B|A_{j})\cdot P(A_{j})}}.}
P
(
A
i
|
B
)
=
P
(
A
i
∩
B
)
P
(
B
)
=
P
(
B
|
A
i
)
⋅
P
(
A
i
)
∑
j
=
1
m
P
(
B
|
A
j
)
⋅
P
(
A
j
)
{\displaystyle P(A_{i}|B)={\frac {P(A_{i}\cap B)}{P(B)}}={\frac {P(B|A_{i})\cdot P(A_{i})}{\sum _{j=1}^{m}P(B|A_{j})\cdot P(A_{j})}}}
Man beachte, dass auf der linken und rechten Seite "Argument und Bedingung" vertauscht auftreten. In einer außermathematischen Deutung spielen
A
j
{\displaystyle A_{j}}
die Rolle von (verschiedenen) Ursachen für die Wirkung von
B
{\displaystyle B}
.
Ω
{\displaystyle \Omega }
sei die Gesamtheit der Personen aus der Bevölkerung.
p
⋅
100
%
{\displaystyle p\cdot 100\%}
der Bevölkerung (
K
⊂
Ω
{\displaystyle K\subset \Omega }
) leidet an der Krankheit. Ein Test für diese Krankheit spreche bei
k
⋅
100
%
{\displaystyle k\cdot 100\%}
der Kranken aus
K
{\displaystyle K}
an und bei
g
⋅
100
%
{\displaystyle g\cdot 100\%}
der Gesunden (
Ω
∖
K
{\displaystyle \Omega \setminus K}
) positiv an (
k
=
{\displaystyle k=}
Sensitivität,
1
−
g
=
{\displaystyle 1-g=}
Spezifität des Testes). Mit welcher Wahrscheinlichkeit hat eine zufällig ausgewählte Person
ω
∈
Ω
{\displaystyle \omega \in \Omega }
die Krankheit,
wenn der Test positiv ausfällt?
wenn der Test negativ ausfällt?
Sei
P
{\displaystyle P}
eine Wahrscheinlichkeitsverteilung auf
Ω
{\displaystyle \Omega }
und seien
A
1
,
.
.
.
,
A
n
⊂
Ω
{\displaystyle A_{1},...,A_{n}\subset \Omega }
mit
P
(
A
1
∩
.
.
.
∩
A
n
−
1
)
>
0
{\displaystyle P(A_{1}\cap ...\cap A_{n-1})>0}
. Dann gilt die sogenannte "Produktformel":
P
(
A
1
∩
.
.
.
∩
A
n
)
=
P
(
A
1
)
⋅
P
(
A
2
|
A
1
)
⋅
P
(
A
3
|
A
1
∩
A
2
)
⋅
.
.
.
⋅
P
(
A
n
|
A
1
∩
.
.
.
∩
A
n
−
1
)
{\displaystyle P(A_{1}\cap ...\cap A_{n})=P(A_{1})\cdot P(A_{2}|A_{1})\cdot P(A_{3}|A_{1}\cap A_{2})\cdot ...\cdot P(A_{n}|A_{1}\cap ...\cap A_{n-1})}
Die Faktoren auf der rechten Seite sind definiert wegen
P
(
A
1
)
≥
P
(
A
1
∩
A
2
)
≥
.
.
.
≥
P
(
A
1
∩
.
.
.
∩
A
n
−
1
)
>
0.
{\displaystyle P(A_{1})\geq P(A_{1}\cap A_{2})\geq ...\geq P(A_{1}\cap ...\cap A_{n-1})>0.}
P
(
A
1
∩
.
.
.
∩
A
n
)
=
P
(
A
1
∩
.
.
.
∩
A
n
−
1
)
⋅
P
(
A
n
|
A
1
∩
.
.
.
∩
A
n
−
1
)
{\displaystyle P(A_{1}\cap ...\cap A_{n})=P(A_{1}\cap ...\cap A_{n-1})\cdot P(A_{n}|A_{1}\cap ...\cap A_{n-1})}
=
P
(
A
1
∩
.
.
.
∩
A
n
−
2
)
⋅
P
(
A
n
−
1
|
A
1
∩
.
.
.
∩
A
n
−
1
)
⋅
P
(
A
n
|
A
1
∩
.
.
.
∩
A
n
−
1
)
=
.
.
.
{\displaystyle =P(A_{1}\cap ...\cap A_{n-2})\cdot P(A_{n-1}|A_{1}\cap ...\cap A_{n-1})\cdot P(A_{n}|A_{1}\cap ...\cap A_{n-1})=...}
=
P
(
A
1
)
⋅
P
(
A
2
|
A
1
)
⋅
P
(
A
3
|
A
1
∩
A
2
)
⋅
.
.
.
⋅
P
(
A
n
|
A
1
∩
.
.
.
∩
A
n
−
1
)
◻
{\displaystyle =P(A_{1})\cdot P(A_{2}|A_{1})\cdot P(A_{3}|A_{1}\cap A_{2})\cdot ...\cdot P(A_{n}|A_{1}\cap ...\cap A_{n-1})\ \Box }
Dieser Satz verallgemeinert die Formel
P
(
A
∩
B
)
=
P
(
A
)
⋅
P
(
B
|
A
)
.
{\displaystyle P(A\cap B)=P(A)\cdot P(B|A).}