Gesetze der großen Zahlen haben die Konvergenz von
1
n
(
(
X
1
−
μ
1
)
+
.
.
.
+
(
X
n
−
μ
n
)
)
{\displaystyle {\frac {1}{n}}((X_{1}-\mu _{1})+...+(X_{n}-\mu _{n}))}
gegen 0 zum Inhalt, wenn
X
1
,
X
2
,
.
.
.
{\displaystyle X_{1},X_{2},...}
eine Folge von Zufallsvariablen ist und
μ
i
=
E
(
X
i
)
{\displaystyle \mu _{i}=E(X_{i})}
.
Sind
X
1
,
X
2
,
.
.
.
{\displaystyle X_{1},X_{2},...}
unabhängige,
B
(
n
,
p
)
{\displaystyle B(n,p)}
-verteilte Zufallsvariablen, so vermutet man eine Konvergenz von
1
n
∑
i
=
1
n
X
i
{\displaystyle {\frac {1}{n}}\sum _{i=1}^{n}X_{i}}
('relative Häufigkeit') gegen
p
{\displaystyle p}
('Auftrittswahrscheinlichkeit'). Dabei müssen Konvergenzbegriffe der Stochastik eingeführt werden.
Wir sagen, dass eine Folge
Y
1
,
Y
2
,
.
.
.
{\displaystyle Y_{1},Y_{2},...}
(
X
1
,
X
2
,
.
.
.
{\displaystyle X_{1},X_{2},...}
) von Zufallsvariablen (auf einem Wahrscheinlichkeitsraum
(
Ω
,
S
,
P
)
{\displaystyle (\Omega ,{\mathcal {S}},P)}
)
a) stochastisch gegen eine Zufallsvariable Y konvergiert, falls
∀
ϵ
>
0
:
P
(
|
Y
n
−
Y
|
≥
E
)
→
0
,
(
n
→
∞
)
{\displaystyle \forall \epsilon >0:P(|Y_{n}-Y|\geq E)\to 0,(n\to \infty )}
gilt. Man schreibt dafür
Y
n
→
P
Y
{\displaystyle Y_{n}{\stackrel {P}{\to }}Y}
.
b) mit existierendem Erwartungswert
μ
i
=
E
(
X
i
)
{\displaystyle \mu _{i}=E(X_{i})}
das schwache Gesetz der großen Zahlen erfüllt, falls eine Folge
Y
n
=
1
n
[
(
X
1
−
μ
1
)
+
.
.
.
+
(
X
n
−
μ
n
)
]
,
n
=
1
,
2
,
.
.
.
{\displaystyle Y_{n}={\frac {1}{n}}[(X_{1}-\mu _{1})+...+(X_{n}-\mu _{n})],n=1,2,...}
von Zufallsvariablen stochastsich gegen 0 konvergiert.
Y
n
→
p
0
{\displaystyle Y_{n}{\stackrel {p}{\to }}0}
Schwaches Gesetz der großen Zahlen (Satz)
Bearbeiten
Sind
X
1
,
X
2
{\displaystyle X_{1},X_{2}}
paarweise unkorrelierte Zufallsvariablen (auf dem Wahrscheinlichkeitsraum
(
Ω
,
S
,
P
)
{\displaystyle (\Omega ,{\mathcal {S}},P)}
) mit
X
i
∈
L
2
{\displaystyle X_{i}\in {\mathcal {L}}_{2}}
und mit
1
n
2
∑
i
=
1
n
V
a
r
(
X
i
)
→
0
{\displaystyle {\frac {1}{n^{2}}}\sum _{i=1}^{n}Var(X_{i})\to 0}
, (
n
→
∞
{\displaystyle n\to \infty }
), so erfüllt diese Folge
X
1
,
X
2
,
.
.
.
{\displaystyle X_{1},X_{2},...}
das schwache Gesetz der großen Zahlen.
Für die Zufallsvariablen
Y
n
=
1
n
∑
(
X
i
,
μ
i
)
{\displaystyle Y_{n}={\frac {1}{n}}\sum (X_{i},\mu _{i})}
gilt
E
Y
n
=
0
{\displaystyle EY_{n}=0}
und
V
a
r
(
Y
n
)
=
1
n
2
∑
i
=
1
n
V
a
r
(
X
i
)
→
0
{\displaystyle Var(Y_{n})={\frac {1}{n^{2}}}\sum _{i=1}^{n}Var(X_{i})\to 0}
, (
n
→
∞
{\displaystyle n\to \infty }
) liefert die Tschebyscheff-Ungleichung
P
(
|
Y
n
=
E
(
Y
n
)
|
≥
ϵ
)
≤
V
a
r
(
Y
n
)
ϵ
2
→
0
,
{\displaystyle P(|Y_{n}=E(Y_{n})|\geq \epsilon )\leq {\frac {Var(Y_{n})}{\epsilon ^{2}}}\to 0,}
(
n
→
∞
{\displaystyle n\to \infty }
)
Sind
X
1
{\displaystyle X_{1}}
und
X
2
{\displaystyle X_{2}}
unabhängige Zufallsvariablen aus
L
2
{\displaystyle {\mathcal {L}}_{2}}
mit gleichmäßig beschränkten Varianzen (d.h.
V
a
r
(
X
i
)
≤
M
<
∞
{\displaystyle Var(X_{i})\leq M<\infty }
∀
i
=
1
,
2
,
.
.
.
{\displaystyle \forall i=1,2,...}
), dann erfüllt dies Folge das schwache Gesetz der großen Zahlen.
Ist
X
n
=
X
1
+
.
.
.
+
X
n
{\displaystyle X^{n}=X_{1}+...+X_{n}}
B
(
n
,
p
)
{\displaystyle B(n,p)}
-verteilt (
X
1
,
X
2
,
.
.
.
{\displaystyle X_{1},X_{2},...}
unabhängig
B
(
1
,
p
)
{\displaystyle B(1,p)}
-verteilt), so gilt:
1
n
X
n
→
P
p
′
{\displaystyle {\frac {1}{n}}X^{n}{\stackrel {P}{\to }}p'}
Umgangssprachlich: die relativen Häufigkeiten des Ereignisses '1' konvergieren stochastisch gegen
w
{\displaystyle w}
.
Die stochstische Konvergenz stellt einen relativ schwachen Konvergenzbegriff dar. So braucht für kein
w
∈
Ω
{\displaystyle w\in \Omega }
gewöhnliche Konvergenz
Y
n
(
w
)
→
Y
(
w
)
{\displaystyle Y_{n}(w)\to Y(w)}
, (
n
→
∞
{\displaystyle n\to \infty }
), stattzufinden, wie das folgende Beispiel zeigt.
Sei
(
Ω
,
U
,
P
)
=
(
[
0
,
1
]
,
[
0
,
1
]
∩
B
1
,
Gleichverteilung
)
{\displaystyle (\Omega ,{\mathcal {U}},P)=([0,1],[0,1]\cap {\mathcal {B}}^{1},{\text{Gleichverteilung}})}
. Man definiere die Folge
Y
n
=
1
A
n
,
n
≥
1
{\displaystyle Y_{n}=1_{A_{n}},n\geq 1}
, durch
A
n
=
{
w
→
[
0
,
1
]
:
∃
m
∈
N
mit
w
+
m
→
[
a
n
−
1
,
a
n
]
}
{\displaystyle A_{n}=\lbrace w\to [0,1]:\exists m\in \mathbb {N} \,{\text{mit}}\,w+m\to [a_{n-1},a_{n}]\rbrace }
,
wobei
A
0
=
0
{\displaystyle A_{0}=0}
und
a
n
=
1
+
1
2
+
.
.
.
+
1
n
{\displaystyle a_{n}=1+{\frac {1}{2}}+...+{\frac {1}{n}}}
, (
w
∈
[
a
n
−
1
,
a
n
]
mod
1
{\displaystyle w\in [a_{n-1},a_{n}]{\text{mod}}1}
).
Es gilt
1.
Y
n
→
P
0
{\displaystyle Y_{n}{\stackrel {P}{\to }}0}
, denn für
ϵ
∈
(
0
,
1
)
{\displaystyle \epsilon \in (0,1)}
ist
P
(
|
Y
n
−
0
|
>
ϵ
)
=
P
(
Y
n
=
1
)
=
P
(
A
n
)
=
1
n
→
0
{\displaystyle P(|Y_{n}-0|>\epsilon )=P(Y_{n}=1)=P(A_{n})={\frac {1}{n}}\to 0}
.
2. Die Folge
Y
n
(
w
)
{\displaystyle Y_{n}(w)}
konvergiert für kein
w
∈
[
0
,
1
]
{\displaystyle w\in [0,1]}
, wegen der Konvergenz der harmonischen Reihe.
Der Konvergenzberiff
Y
n
(
w
)
=
Y
(
w
)
{\displaystyle Y_{n}(w)=Y(w)}
∀
w
∈
Ω
{\displaystyle \forall w\in \Omega }
ist für die Stochastik unbrauchbar. So ist für
Y
n
=
1
n
X
n
{\displaystyle Y_{n}={\frac {1}{n}}X^{n}}
,
X
n
{\displaystyle X^{n}}
B
(
n
,
p
)
{\displaystyle B(n,p)}
-verteilt:
Y
n
(
w
)
{\displaystyle Y_{n}(w)}
nicht konvergent für viele
w
{\displaystyle w}
.
Wir nehmen die Sprechweise wieder auf: Eine Aussage gilt '
P
{\displaystyle P}
fast überal' oder '
P
{\displaystyle P}
fast sicher' (synonym), wenn die Menge
A
{\displaystyle A}
aller
w
{\displaystyle w}
für die die Aussage richtig ist, die Wahrscheinlichkeit 1 hat:
P
(
A
)
=
1
{\displaystyle P(A)=1}
.
a) Eine Folge
Y
1
,
Y
2
,
.
.
.
{\displaystyle Y_{1},Y_{2},...}
von Zufallsvariablen (auf einem Wahrscheinlichkeitsraum
(
Ω
,
S
,
P
)
{\displaystyle (\Omega ,{\mathcal {S}},P)}
) konvergiert fast sicher gegen die Zufallsvariable
Y
{\displaystyle Y}
, falls
P
{
w
:
l
i
m
n
→
∞
Y
n
(
w
)
=
Y
(
w
)
}
=
1.
{\displaystyle P\lbrace w:lim_{n\to \infty }Y_{n}(w)=Y(w)\rbrace =1.}
Man schreibt kürzer:
P
(
l
i
m
n
Y
n
=
Y
)
=
1
{\displaystyle P(lim_{n}Y_{n}=Y)=1}
bzw.
Y
n
→
Y
{\displaystyle Y_{n}\to Y}
P
{\displaystyle P}
fast sicher.
b) Man sagt, dass eine Folge
X
1
,
X
2
,
.
.
.
{\displaystyle X_{1},X_{2},...}
von Zufallsvariablen auf
(
Ω
,
S
,
P
)
{\displaystyle (\Omega ,{\mathcal {S}},P)}
mit existierenden Erwartungswerten
μ
i
≡
E
(
X
i
)
{\displaystyle \mu _{i}\equiv E(X_{i})}
das starke Gesetz der großen Zahlen erfüllt, falls die Folge
Y
n
=
1
n
[
(
X
1
−
μ
1
)
+
.
.
.
+
(
X
n
−
μ
n
)
]
{\displaystyle Y_{n}={\frac {1}{n}}[(X_{1}-\mu _{1})+...+(X_{n}-\mu _{n})]}
,
n
=
1
,
2
,
.
.
.
{\displaystyle n=1,2,...}
,
P
{\displaystyle P}
-f.s. gegen 0 konvergiert:
Y
n
→
0
{\displaystyle Y_{n}\to 0}
P
{\displaystyle P}
-f.s.
Aus
Y
n
→
Y
{\displaystyle Y_{n}\to Y}
P
{\displaystyle P}
-f.s. folgt
Y
m
→
P
Y
{\displaystyle Y_{m}{\stackrel {P}{\to }}Y}
(ohne Beweis). Das obige Beispiel zeigt, dass die Umkehrung nicht (vereinfachtes Beispiel siehe später) gilt. Das wichtigste Hilfsmittel zum Beweis eines starken Gesetzes der großen Zahlen ist das folgende Lemma von Borel-Cantelli, das auch sonst wichtig ist.
Sei
(
Ω
,
U
,
P
)
{\displaystyle (\Omega ,{\mathcal {U}},P)}
ein Wahrscheinlichkeitsraum und
A
1
,
A
2
,
.
.
.
{\displaystyle A_{1},A_{2},...}
eine Folge von Ereignissen aus
U
{\displaystyle {\mathcal {U}}}
. Sei
A
∗
{\displaystyle A^{*}}
das Ereignis, dass unendlich viele der
A
{\displaystyle A}
's eintreten:
A
∗
=
{
w
∈
Ω
:
w
∈
A
i
;
für unendlich viele
i
∈
N
}
{\displaystyle A^{*}=\lbrace w\in \Omega :w\in A_{i};\,{\text{für unendlich viele}}\,i\in \mathbb {N} \rbrace }
a) Gilt
∑
i
=
1
∞
P
(
A
i
)
≤
∞
{\displaystyle \sum _{i=1}^{\infty }P(A_{i})\leq \infty }
, dann ist
P
(
A
∗
)
=
0
{\displaystyle P(A^{*})=0}
.
b) Sind die
A
1
,
A
2
,
.
.
.
{\displaystyle A_{1},A_{2},...}
unabhängig und ist
∑
i
=
1
∞
{\displaystyle \sum _{i=1}^{\infty }}
, dann ist
P
(
A
∗
)
=
1
{\displaystyle P(A^{*})=1}
.
a) Es ist
w
∈
A
∗
{\displaystyle w\in A^{*}}
genau dann, wenn es
∀
n
∈
N
{\displaystyle \forall n\in \mathbb {N} }
ein
i
≥
n
{\displaystyle i\geq n}
gibt,
w
∈
A
i
{\displaystyle w\in A_{i}}
. D.h.
A
∗
=
⋂
n
=
1
∞
⋃
i
≥
n
A
i
.
{\displaystyle A^{*}=\bigcap _{n=1}^{\infty }\bigcup _{i\geq n}A_{i}.}
Da
A
∗
⊂
∪
i
≥
n
A
i
{\displaystyle A^{*}\subset \cup _{i\geq n}A_{i}}
für jedes
n
∈
N
{\displaystyle n\in \mathbb {N} }
ist, gilt:
P
(
A
∗
)
=
P
(
⋃
i
≥
n
A
i
≤
∑
i
≥
n
P
(
A
i
)
→
0
{\displaystyle P(A^{*})=P(\bigcup _{i\geq n}A_{i}\leq \sum _{i\geq n}P(A_{i})\to 0}
für
n
→
∞
{\displaystyle n\to \infty }
.
b) Wir benutzen die Ungleichung
1
−
x
≤
e
−
x
,
∀
x
∈
R
{\displaystyle 1-x\leq e^{-x},\forall x\in \mathbb {R} }
und die Unabhängigkeit der
A
¯
1
,
A
¯
2
,
.
.
.
{\displaystyle {\bar {A}}_{1},{\bar {A}}_{2},...}
. Es gilt für alle
n
{\displaystyle n}
und
N
≥
n
{\displaystyle N\geq n}
:
P
(
⋂
i
=
1
∞
A
¯
i
)
≤
P
(
⋂
i
=
n
N
A
¯
i
)
=
Π
i
=
n
N
(
1
−
P
(
A
i
)
≤
Π
i
=
n
N
e
−
P
(
A
i
)
=
e
x
p
(
−
∑
i
=
n
N
P
(
A
i
)
)
→
0
{\displaystyle P(\bigcap _{i=1}^{\infty }{\bar {A}}_{i})\leq P(\bigcap _{i=n}^{N}{\bar {A}}_{i})=\Pi _{i=n}^{N}(1-P(A_{i})\leq \Pi _{i=n}^{N}e^{-P(A_{i})}=exp(-\sum _{i=n}^{N}P(A_{i}))\to 0}
für
N
→
∞
{\displaystyle N\to \infty }
, wegen der Divergenz der Reihe. Also
P
(
A
¯
i
)
=
0
{\displaystyle P({\bar {A}}_{i})=0}
für jedes
n
{\displaystyle n}
:
P
(
A
¯
i
∗
)
=
P
(
⋃
n
=
1
∞
⋂
i
≥
n
A
¯
i
)
≤
∑
n
=
1
∞
P
(
⋂
A
¯
i
)
=
0
{\displaystyle P({\bar {A}}_{i}^{*})=P(\bigcup _{n=1}^{\infty }\bigcap _{i\geq n}{\bar {A}}_{i})\leq \sum _{n=1}^{\infty }P(\bigcap {\bar {A}}_{i})=0}
d.h.
P
(
A
∗
)
=
1
{\displaystyle P(A^{*})=1}
.
1. Teil b) rechtfertigt den populären Ausdruck: "Ein Ereignis, das (mit positiver Wahrscheinlichkeit) eintreten kann, tritt mit (
P
{\displaystyle P}
)- Sicherheit einmal ein (sogar beliebig oft), wenn nur genügend (unabhängige) Versuche durchgeführt werden".
2. Teil b) lässt sich als weiteres Beispiel einer Folge
Y
n
,
n
≥
1
{\displaystyle Y_{n},n\geq 1}
angeben, die stochastisch konvergiert, aber nicht fast sicher. Seien
Y
1
,
Y
2
,
.
.
.
{\displaystyle Y_{1},Y_{2},...}
unabhängige
B
(
1
,
1
n
)
{\displaystyle B(1,{\frac {1}{n}})}
-verteilte Zufallsvariablen. Dann gilt
Y
n
→
P
0
{\displaystyle Y_{n}{\stackrel {P}{\to }}0}
, denn für ein
0
<
ϵ
<
1
{\displaystyle 0<\epsilon <1}
ist
P
(
|
Y
n
|
>
ϵ
)
=
P
(
Y
n
=
1
)
=
1
n
→
0
{\displaystyle P(|Y_{n}|>\epsilon )=P(Y_{n}=1)={\frac {1}{n}}\to 0}
, (
n
→
∞
{\displaystyle n\to \infty }
).
3. Anderseits konvergiert die Folge für
P
{\displaystyle P}
fast alle
w
2
{\displaystyle w^{2}}
nicht! Denn wegen
∑
n
P
(
Y
n
=
1
)
=
∑
n
1
n
→
∞
{\displaystyle \sum _{n}P(Y_{n}=1)=\sum _{n}{\frac {1}{n}}\to \infty }
folgt
P
(
l
i
m
s
u
p
Y
n
=
1
)
=
m
p
(
A
∗
)
=
1
{\displaystyle P(limsupY_{n}=1)=mp(A^{*})=1}
und wegen
∑
n
m
p
(
Y
n
=
0
)
=
∑
n
(
1
−
1
n
)
=
∞
{\displaystyle \sum _{n}mp(Y_{n}=0)=\sum _{n}(1-{\frac {1}{n}})=\infty }
folgt
P
(
l
i
m
i
n
f
Y
n
=
0
)
=
m
p
(
B
∗
)
=
1.
{\displaystyle P(liminfY_{n}=0)=mp(B^{*})=1.}
Starkes Gesetz der großen Zahlen (Satz)
Bearbeiten
Bilden
X
1
,
X
2
,
.
.
.
{\displaystyle X_{1},X_{2},...}
eine Folge paarweise unkorrelierter Zufallsvariablen auf einem Wahrscheinlichkeitsraum
(
Ω
,
U
,
P
)
{\displaystyle (\Omega ,{\mathcal {U}},P)}
, aus
L
2
{\displaystyle {\mathcal {L}}_{2}}
mit beschränkter Varianz (d.h.
V
a
r
(
X
i
)
≤
M
<
∞
{\displaystyle Var(X_{i})\leq M<\infty }
für alle
i
{\displaystyle i}
), so erfüllt die Folge das starke Gesetz der großen Zahlen.
Definiere
Y
n
=
1
n
∑
i
=
1
n
X
i
′
{\displaystyle Y_{n}={\frac {1}{n}}\sum _{i=1}^{n}X'_{i}}
,
X
i
′
=
X
i
−
E
(
X
i
)
{\displaystyle X'_{i}=X_{i}-E(X_{i})}
.
Wir zeigen zunächst, dass
Y
n
2
=
1
n
2
∑
i
=
1
n
2
X
i
′
→
0
{\displaystyle Y_{n^{2}}={\frac {1}{n^{2}}}\sum _{i=1}^{n^{2}}X'_{i}\to 0}
P
{\displaystyle P}
-f.s.
Gemäß der Formel von Bienaymé ist
V
a
r
(
Y
n
2
)
=
1
n
4
∑
i
=
k
n
2
V
a
r
(
X
i
)
≤
1
n
2
M
{\displaystyle Var(Y_{n^{2}})={\frac {1}{n^{4}}}\sum _{i=k}^{n^{2}}Var(X_{i})\leq {\frac {1}{n^{2}}}M}
so dass Tschebyschoff für alle
ϵ
>
0
{\displaystyle \epsilon >0}
und für die Menge
A
k
ϵ
=
{
w
:
|
Y
n
2
(
w
)
|
≥
ϵ
}
{\displaystyle A_{k}^{\epsilon }=\lbrace w:|Y_{n^{2}}(w)|\geq \epsilon \rbrace }
gilt:
P
(
A
k
ϵ
)
≤
1
ϵ
V
a
r
(
Y
n
2
)
≤
M
n
2
ϵ
2
{\displaystyle P(A_{k}^{\epsilon })\leq {\frac {1}{\epsilon }}Var(Y_{n^{2}})\leq {\frac {M}{n^{2}\epsilon ^{2}}}}
sowie
∑
n
=
1
∞
P
(
A
n
ϵ
)
<
∞
.
{\displaystyle \sum _{n=1}^{\infty }P(A_{n}^{\epsilon })<\infty .}
Borel-Cantelli-Lemma Teil a) liefert für
A
∗
ϵ
=
{
w
:
|
Y
n
2
(
w
)
|
≥
ϵ
{\displaystyle A^{*\epsilon }=\lbrace w:|Y_{n^{2}}(w)|\geq \epsilon }
, für
∞
{\displaystyle \infty }
viele
n
}
{\displaystyle n\rbrace }
:
P
(
A
∗
ϵ
)
=
0
{\displaystyle P(A^{*\epsilon })=0}
Es folgt:
P
(
⋃
k
=
1
∞
A
∗
1
k
)
≤
∑
k
=
1
∞
P
(
A
∗
1
k
=
0
{\displaystyle P(\bigcup _{k=1}^{\infty }A^{*{\frac {1}{k}}})\leq \sum _{k=1}^{\infty }P(A^{*{\frac {1}{k}}}=0}
bzw.
P
(
⋂
k
=
1
∞
A
∗
1
k
)
=
1
,
{\displaystyle P(\bigcap _{k=1}^{\infty }A^{*{\frac {1}{k}}})=1,}
denn für
w
∈
⋂
k
=
1
∞
A
∗
1
k
{\displaystyle w\in \bigcap _{k=1}^{\infty }A^{*{\frac {1}{k}}}}
gilt
Y
n
2
(
w
)
≥
1
k
{\displaystyle Y_{n^{2}}(w)\geq {\frac {1}{k}}}
nur für endliche viele
n
{\displaystyle n}
(für alle
k
{\displaystyle k}
), d.h. für
P
{\displaystyle P}
fast sicher (für alle
w
{\displaystyle w}
) gilt:
∀
ϵ
>
0
∃
m
0
=
m
0
(
w
,
ϵ
)
{\displaystyle \forall \epsilon >0\exists m_{0}=m_{0}(w,\epsilon )}
, so dass
(*)
|
Y
n
2
(
w
)
|
≤
ϵ
∀
n
2
≥
m
0
.
{\displaystyle |Y_{n^{2}}(w)|\leq \epsilon \forall n^{2}\geq m_{0}.}
Für beliebige
m
∈
N
{\displaystyle m\in \mathbb {N} }
sei
n
=
n
(
m
)
{\displaystyle n=n(m)}
diejenige natürliche Zahl, für welche
n
2
≤
m
<
(
n
+
1
)
2
{\displaystyle n^{2}\leq m<(n+1)^{2}}
ist. Mit analogen Methoden wie in (1) zeigt man für die Menge
B
∗
ϵ
=
{
w
:
|
m
n
2
>
m
(
w
)
−
Y
n
2
(
w
)
|
≥
ϵ
für
∞
viele
m
}
{\displaystyle B^{*\epsilon }=\lbrace w:|{\frac {m}{n^{2}}}>_{m}(w)-Y_{n^{2}}(w)|\geq \epsilon \,{\text{ für}}\,\infty \,{\text{ viele}}\,m\rbrace }
dass
P
(
⋂
n
=
1
∞
B
∗
ϵ
)
=
1
{\displaystyle P(\bigcap _{n=1}^{\infty }B^{*\epsilon })=1}
Folglich gilt für
P
{\displaystyle P}
fast sicher:
∀
ϵ
>
0
∃
m
0
≡
m
0
(
w
,
ϵ
)
{\displaystyle \forall \epsilon >0\exists m_{0}\equiv m_{0}(w,\epsilon )}
mit
(**)
|
m
n
2
Y
m
(
w
)
−
Y
n
2
(
w
)
|
≤
ϵ
{\displaystyle |{\frac {m}{n^{2}}}Y_{m}(w)-Y_{n^{2}}(w)|\leq \epsilon }
für alle
m
≤
m
0
.
{\displaystyle m\leq m_{0}.}
Die beiden Gleichungen (*) und (**) liefern für
P
{\displaystyle P}
fast sicher:
∀
ϵ
>
0
∃
m
0
≡
m
=
(
w
,
ϵ
)
{\displaystyle \forall \epsilon >0\exists m_{0}\equiv m_{=}(w,\epsilon )}
mit
|
Y
m
(
w
)
|
≤
m
n
2
|
Y
m
(
w
)
|
≤
|
m
n
2
Y
m
(
w
)
−
Y
n
2
(
w
)
|
+
|
Y
n
2
(
w
)
|
≤
2
ϵ
{\displaystyle |Y_{m}(w)|\leq {\frac {m}{n^{2}}}|Y_{m}(w)|\leq |{\frac {m}{n^{2}}}Y_{m}(w)-Y_{n^{2}}(w)|+|Y_{n^{2}}(w)|\leq 2\epsilon }
für alle
m
≥
m
0
{\displaystyle m\geq m_{0}}
. Das heißt aber
Y
n
→
0
{\displaystyle Y_{n}\to 0}
P
{\displaystyle P}
fast sicher.
Entsprechend der starken Aussage benötigt der Satz auch eine stärkere Voraussetzung als der Satz zum schwachen Gesetz der großen Zahlen.
Ist
X
n
{\displaystyle X^{n}}
B
(
n
,
p
)
{\displaystyle B(n,p)}
-verteilt, so gilt
1
n
X
n
→
p
{\displaystyle {\frac {1}{n}}X^{n}\to p}
P
{\displaystyle P}
fast sicher. Hierdurch wird die Aussage des Beispiels zum schwachen Gesetz der großen Zahlen verbessert. Dieses Ergebnis bestätigt die Brauchbarkeit unseres wahrscheinlichkeitstheoretischen Konzeptes. Es präzisiert die Intuition, dass sich für große
n
{\displaystyle n}
annähert.
1
n
(
X
n
)
{\displaystyle {\frac {1}{n}}(X^{n})}
beobachte relative Häufigkeit eines Ereignisses an
p
{\displaystyle p}
(axiomatisch eingeführte Wahrscheinlichkeit der Ereignisse).
In diesem Abschnitt Verallgemeinerung (und Beweis) des Grenzwertsatzes von DeMoivre-Laplace auf Summen unabhängiger, identisch verteilter Zufallsvariablen (anstatt nur unabhängige Bernoullivariablen). Der Beweis zum zentralen Grenzwertsatz von Lindberg-Lexy (später) benutzt einen Stetigkeitssatz für charakteristische Funktionen und einen dritten Konvergenzbegriff ('Verteilungskonvergenz').
Seien
X
1
,
X
2
,
.
.
.
{\displaystyle X_{1},X_{2},...}
Zufallsvariablen aus
L
2
{\displaystyle {\mathcal {L}}_{2}}
. Man sagt, dass diese Folge den zentralen Grenzwertsatz erfüllt, falls für die Standardisierten der Partialsummen
S
n
=
X
1
+
.
.
.
+
X
n
{\displaystyle S_{n}=X_{1}+...+X_{n}}
mit
S
n
∗
=
S
n
−
E
(
S
n
)
V
a
r
(
S
n
)
{\displaystyle S_{n}^{*}={\frac {S_{n}-E(S_{n})}{\sqrt {Var(S_{n})}}}}
(
≡
{\displaystyle \equiv }
Standardisieren) gilt:
l
i
m
n
→
∞
P
(
a
<
S
n
≤
b
)
→
Φ
(
b
)
−
Φ
(
a
)
∀
a
<
b
;
a
,
b
∈
R
{\displaystyle lim_{n\to \infty }P(a<S_{n}\leq b)\to \Phi (b)-\Phi (a)\forall a<b;a,b\in \mathbb {R} }
Dabei ist
Φ
(
x
)
,
x
∈
R
{\displaystyle \Phi (x),x\in \mathbb {R} }
, die Verteilungsfunktion der
N
(
0
,
1
)
{\displaystyle N(0,1)}
-Verteilung. Es reicht,
l
i
m
n
→
∞
P
(
S
n
∗
≤
x
)
=
Φ
(
x
)
∀
x
∈
R
{\displaystyle lim_{n\to \infty }P(S_{n}^{*}\leq x)=\Phi (x)\forall x\in \mathbb {R} }
zu zeigen.
1. Die Gültigkeit des zentralen Grenzwertsatzes eröffnet die Möglichkeit, unter Umständen nicht (oder nur schwer) berechenbare Wahrscheinlichkeiten
P
(
a
<
S
∗
≤
b
)
{\displaystyle P(a<S^{*}\leq b)}
durch die Werte der
N
(
0
,
1
)
{\displaystyle N(0,1)}
-Verteilung zu approximieren.
2. Sind
X
1
,
X
2
,
.
.
.
{\displaystyle X_{1},X_{2},...}
unabhängig, mit identischen Erwartungswerten
μ
=
E
(
X
i
)
{\displaystyle \mu =E(X_{i})}
und identischen Varianzen
σ
2
=
V
a
r
(
X
i
)
{\displaystyle \sigma ^{2}=Var(X_{i})}
, so wird aus der Standardisierten oben
S
n
z
=
S
n
−
n
μ
n
σ
=
1
n
∑
i
=
1
n
(
X
i
−
μ
σ
)
=
n
X
¯
n
−
μ
σ
≠
X
¯
m
=
1
n
∑
i
=
1
n
X
i
.
{\displaystyle S_{n}^{z}={\frac {S_{n}-n\mu }{{\sqrt {n}}\sigma }}={\frac {1}{\sqrt {n}}}\sum _{i=1}^{n}({\frac {X_{i}-\mu }{\sigma }})={\sqrt {n}}{\frac {{\bar {X}}_{n}-\mu }{\sigma }}\neq {\bar {X}}_{m}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}.}
3. Um einen zentralen Grenzwertsatz zu beweisen, müssen wir zeigen:
F
n
∗
(
x
)
→
Φ
(
x
)
,
∀
x
∈
R
,
n
→
∞
{\displaystyle F_{n}^{*}(x)\to \Phi (x),\forall x\in \mathbb {R} ,n\to \infty }
wenn
F
n
∗
(
x
)
{\displaystyle F_{n}^{*}(x)}
die Verteilungsfunktion von
S
n
∗
(
x
)
{\displaystyle S_{n}^{*}(x)}
ist.
Diese Aussage stellt einen dritten Konvergenzbegriff dar (Verteilungskonvergenz).
Allgemein wird Folgendes definiert:
Eine Folge
Y
n
,
n
≥
1
{\displaystyle Y_{n},n\geq 1}
von Zufallsvariablen heißt Verteilungskonvergenz gegen die Zufallsvariable
Y
0
{\displaystyle Y_{0}}
, falls bei
n
→
∞
{\displaystyle n\to \infty }
F
n
(
x
)
→
F
0
(
x
)
∀
x
∈
C
(
F
0
)
,
{\displaystyle F_{n}(x)\to F_{0}(x)\forall x\in {\mathcal {C}}(F_{0}),}
dabei bezeichnet
F
n
{\displaystyle F_{n}}
und
F
0
{\displaystyle F_{0}}
die Verteilungsfunktion von
Y
n
{\displaystyle Y_{n}}
und
F
0
{\displaystyle F_{0}}
und
C
(
F
0
)
⊂
R
{\displaystyle {\mathcal {C}}(F_{0})\subset \mathbb {R} }
die Menge alle Stetigkeitsstellen von
F
0
{\displaystyle F_{0}}
. Man schreibt kurz:
Y
n
→
D
Y
{\displaystyle Y_{n}{\stackrel {\mathcal {D}}{\to }}Y}
(oder auch
Y
n
→
B
Y
{\displaystyle Y_{n}{\stackrel {\mathcal {B}}{\to }}Y}
), wobei
D
{\displaystyle {\mathcal {D}}}
hier 'Distribution' bedeutet.
1. Der Begriff der Verteilungskonvergenz verlangt nicht, das alle
Y
n
,
Y
0
{\displaystyle Y_{n},Y_{0}}
auf demselben Wahrscheinlichkeitsraum definiert sind.
2. Für stetige Verteilungsfunktionen
F
0
{\displaystyle F_{0}}
, wie zum Beispiel
Φ
{\displaystyle \Phi }
ist
C
(
F
0
)
=
R
{\displaystyle {\mathcal {C}}(F_{0})=\mathbb {R} }
. Die Forderung
F
n
(
x
)
→
F
0
(
x
)
∀
x
∈
R
{\displaystyle F_{n}(x)\to F_{0}(x)\forall x\in \mathbb {R} }
erweist sich als zu restriktiv.
So gilt im folgenden Beispiel diese Forderung nicht, sondern lediglich jene aus der Definition.
Y
n
,
Y
0
{\displaystyle Y_{n},Y_{0}}
seien 'entartete' Zufallsvariablen mit
P
(
Y
n
=
1
n
)
=
1
,
P
(
Y
0
→
0
)
=
1
{\displaystyle P(Y_{n}={\frac {1}{n}})=1,P(Y_{0}\to 0)=1}
.
Für
F
n
(
x
)
=
1
[
1
n
,
∞
[
{\displaystyle F_{n}(x)=1_{[{\frac {1}{n}},\infty [}}
und
F
0
(
x
)
=
1
[
0
,
∞
)
{\displaystyle F_{0}(x)=1_{[0,\infty )}}
gilt:
C
(
F
0
)
=
R
∖
{
0
}
{\displaystyle {\mathcal {C}}(F_{0})=\mathbb {R} \setminus \lbrace 0\rbrace }
und
lim
F
n
(
x
)
=
{
1
,
x
>
0
0
,
x
<
0
=
F
0
(
x
)
{\displaystyle \lim F_{n}(x)=\left\{{\begin{array}{ll}1,&x>0\\0,&x<0\end{array}}\right.=F_{0}(x)}
Bei
x
=
0
{\displaystyle x=0}
gilt:
0
=
l
i
m
n
→
∞
F
n
(
x
)
≠
F
0
(
0
)
=
1
{\displaystyle 0=lim_{n\to \infty }F_{n}(x)\neq F_{0}(0)=1}
3. Der nächste Satz zeigt, dass aus stochastischer Konvergenz die Verteilungskonvergenz folgt. Zusammen mit der Konvergenz von Folgen von Zufallsvariablen folgt:
Y
n
→
Y
{\displaystyle Y_{n}\to Y}
P
{\displaystyle P}
fast sicher
⇒
Y
n
→
P
Y
0
→
Y
n
→
D
Y
0
{\displaystyle \Rightarrow Y_{n}{\stackrel {P}{\to }}Y_{0}\to Y_{n}{\stackrel {\mathcal {D}}{\to }}Y_{0}}
.
Sind
Y
n
,
n
≥
1
{\displaystyle Y_{n},n\geq 1}
, und
Y
0
{\displaystyle Y_{0}}
Zufallsvariablen (auf einem Wahrscheinlichkeitsraum
(
Ω
,
U
,
P
)
{\displaystyle (\Omega ,{\mathcal {U}},P)}
), mit
Y
n
→
P
Y
0
{\displaystyle Y_{n}{\stackrel {P}{\to }}Y_{0}}
, so gilt
Y
n
→
D
Y
0
{\displaystyle Y_{n}{\stackrel {\mathcal {D}}{\to }}Y_{0}}
.
Sei
x
∈
R
{\displaystyle x\in \mathbb {R} }
und
ϵ
>
0
{\displaystyle \epsilon >0}
beliebig. Dann folgt aus der Alternative "
Y
0
−
Y
n
Y
ϵ
{\displaystyle Y_{0}-Y_{n}Y_{\epsilon }}
" die Inklusion
{
w
:
Y
n
(
w
)
≤
x
}
⊂
{
w
:
Y
0
(
w
)
≤
x
+
ϵ
}
∩
{
w
:
Y
0
(
w
)
−
Y
n
(
w
)
>
ϵ
}
{\displaystyle \lbrace w:Y_{n}(w)\leq x\rbrace \subset \lbrace w:Y_{0}(w)\leq x+\epsilon \rbrace \cap \lbrace w:Y_{0}(w)-Y_{n}(w)>\epsilon \rbrace }
und damit
P
(
Y
n
≤
x
)
≤
P
(
Y
0
≤
x
+
ϵ
)
+
P
(
Y
0
−
Y
n
>
ϵ
)
.
{\displaystyle P(Y_{n}\leq x)\leq P(Y_{0}\leq x+\epsilon )+P(Y_{0}-Y_{n}>\epsilon ).}
Wegen
Y
n
→
Y
0
{\displaystyle Y_{n}\to Y_{0}}
konvergiert der zweite Summand gegen 0, so dass
l
i
m
s
u
p
n
→
∞
P
(
Y
n
≤
x
)
≤
P
(
Y
0
≤
x
+
ϵ
)
≡
F
0
(
x
+
ϵ
)
.
{\displaystyle limsup_{n\to \infty }P(Y_{n}\leq x)\leq P(Y_{0}\leq x+\epsilon )\equiv F_{0}(x+\epsilon ).}
Analog:
l
i
m
i
n
f
n
→
∞
P
(
Y
n
≤
x
)
≥
F
0
(
x
−
ϵ
)
{\displaystyle liminf_{n\to \infty }P(Y_{n}\leq x)\geq F_{0}(x-\epsilon )}
.
Ist also
x
∈
C
(
F
0
)
{\displaystyle x\in {\mathcal {C}}(F_{0})}
, so folgt mit
F
n
(
x
)
=
P
(
Y
n
≤
x
)
{\displaystyle F_{n}(x)=P(Y_{n}\leq x)}
:
l
i
m
s
u
p
n
F
n
(
x
)
≤
F
0
(
x
)
≤
l
i
m
i
n
f
n
F
n
(
x
)
,
{\displaystyle limsup_{n}F_{n}(x)\leq F_{0}(x)\leq liminf_{n}F_{n}(x),}
d.i.
l
i
m
F
n
(
x
)
=
F
0
(
x
)
{\displaystyle limF_{n}(x)=F_{0}(x)}
Die Umkehrung ist nicht richtig!
Sei
Y
0
{\displaystyle Y_{0}}
B
(
1
,
1
2
)
{\displaystyle B(1,{\frac {1}{2}})}
-verteilt und
Y
n
=
1
−
Y
0
{\displaystyle Y_{n}=1-Y_{0}}
für alle
n
≥
1
{\displaystyle n\geq 1}
. Dann ist jedes
Y
n
{\displaystyle Y_{n}}
wieder
B
(
1
,
1
2
)
{\displaystyle B(1,{\frac {1}{2}})}
-verteilt und damit
Y
n
→
D
Y
0
{\displaystyle Y_{n}{\stackrel {\mathcal {D}}{\to }}Y_{0}}
(sogar
Y
n
=
D
Y
0
{\displaystyle Y_{n}{\stackrel {\mathcal {D}}{=}}Y_{0}}
).
Y
n
,
n
≥
1
{\displaystyle Y_{n},n\geq 1}
konvergiert aber nicht stochastisch gegen
Y
0
{\displaystyle Y_{0}}
, denn für
ϵ
∈
(
0
,
1
)
{\displaystyle \epsilon \in (0,1)}
ist
P
(
|
Y
n
−
Y
0
|
>
ϵ
)
=
Y
n
=
1
−
Y
0
P
(
|
1
−
2
⋅
Y
0
|
>
ϵ
)
=
1
∀
n
≥
1.
{\displaystyle P(|Y_{n}-Y_{0}|>\epsilon ){\stackrel {Y_{n}=1-Y_{0}}{=}}P(|1-2\cdot Y_{0}|>\epsilon )=1\,\forall n\geq 1.}
Der Stetigkeitssatz für diskrete Wahrschenlichkeitsverteilungen besagt, dass der Limes einer Folge von Wahrscheinlichkeitsfunktionen, d.h.
a
n
=
l
i
m
n
→
∞
ρ
k
n
,
k
=
0
,
1
,
.
.
.
{\displaystyle a_{n}=lim_{n\to \infty }\rho _{k}^{n},k=0,1,...}
genau dann ist, wenn der Limes der zugehörenden erzeugenden Funktionen existiert. Zunächst stellen wir fest, das die Aussage eine Verteilungskonvergenz bedeutet.
Sind
Y
n
,
n
≥
1
{\displaystyle Y_{n},n\geq 1}
, und
Y
0
{\displaystyle Y_{0}}
Z
+
{\displaystyle \mathbb {Z} _{+}}
-wertige Zufallsvariablen und setzt man
ρ
k
n
=
P
(
Y
n
=
k
)
,
k
∈
Z
+
,
n
=
1
,
2
,
.
.
.
{\displaystyle \rho _{k}^{n}=P(Y_{n}=k),k\in \mathbb {Z} _{+},n=1,2,...}
so gilt
ρ
k
0
=
l
i
m
n
ρ
k
n
{\displaystyle \rho _{k}^{0}=lim_{n}\rho _{k}^{n}}
genau dann, wenn
P
(
Y
o
∈
U
)
=
l
i
m
n
→
∞
P
(
Y
n
∈
U
)
{\displaystyle P(Y_{o}\in {\mathcal {U}})=lim_{n\to \infty }P(Y_{n}\in {\mathcal {U}})}
in allen
A
∈
Z
{\displaystyle A\in \mathbb {Z} }
.
Setzt man
A
=
(
−
∞
,
x
]
{\displaystyle A=(-\infty ,x]}
, so hat man
Y
n
→
D
Y
0
,
n
→
∞
{\displaystyle Y_{n}{\stackrel {\mathcal {D}}{\to }}Y_{0},n\to \infty }
.
In der allgemeinen Wahrscheinlichkeitstheorie wird der Stetigkeitssatz mit Hilfe der zugehörigen charakteristischen Funktionen
ϕ
(
n
)
=
E
(
e
i
t
Y
n
)
,
t
∈
R
{\displaystyle \phi (n)=E(e^{itY_{n}}),t\in \mathbb {R} }
formuliert.
Seien
Y
n
,
n
≥
1
{\displaystyle Y_{n},n\geq 1}
, eine Folge von Zufallsvariablen und
ϕ
n
{\displaystyle \phi _{n}}
die Folge der zugehörenden charakteristischen Funktionen.
Y
n
{\displaystyle Y_{n}}
ist verteilungskonvergent gegen eine Zufallsvariable
Y
0
{\displaystyle Y_{0}}
genau dann, wenn
ϕ
n
{\displaystyle \phi _{n}}
gegen eine Funktion
ϕ
0
{\displaystyle \phi _{0}}
konvergiert, die an der Stelle 0 stetig ist.
ϕ
0
{\displaystyle \phi _{0}}
ist dann charakteristische Funktion von
Y
0
:
ϕ
(
0
)
=
E
(
e
i
t
Y
0
)
,
t
∈
R
{\displaystyle Y_{0}:\phi (0)=E(e^{itY_{0}}),t\in \mathbb {R} }
.
Y
n
→
D
Y
0
⇔
ϕ
(
t
)
=
ϕ
0
(
t
)
,
∀
t
∈
R
{\displaystyle Y_{n}{\stackrel {\mathcal {D}}{\to }}Y_{0}\Leftrightarrow \phi (t)=\phi _{0}(t),\forall t\in \mathbb {R} }
. Die Stetigkeit von
ϕ
0
{\displaystyle \phi _{0}}
bei 0 garantiert erst, dass
ϕ
0
{\displaystyle \phi _{0}}
wieder charakteristiche Funktion einer Zufallsvariablen ist.
Im folgenden Beispiel ist das nicht der Fall.
Y
n
{\displaystyle Y_{n}}
sei gleichverteilt auf
(
−
n
,
n
)
{\displaystyle (-n,n)}
. Dann gilt
ϕ
n
(
t
)
=
{
s
i
n
(
n
t
)
n
t
,
t
≠
0
1
,
t
=
0
{\displaystyle \phi _{n}(t)=\left\{{\begin{array}{ll}{\frac {sin(nt)}{nt}},&t\neq 0\\1,&t=0\end{array}}\right.}
und
l
i
m
ϕ
n
(
t
)
=
{
0
,
t
≠
0
1
,
t
=
0
{\displaystyle lim\phi _{n}(t)=\left\{{\begin{array}{ll}0,&t\neq 0\\1,&t=0\end{array}}\right.}
mit bei 0 unstetigen Grenzfunktionen.
Für die Verteilungsfunktion
F
n
(
x
)
{\displaystyle F_{n}(x)}
von
Y
0
{\displaystyle Y_{0}}
gilt:
l
i
m
F
n
(
x
)
=
l
i
m
n
→
∞
{
0
,
x
<
−
n
n
+
x
2
n
,
x
∈
(
−
n
,
n
)
1
,
x
>
n
}
=
1
2
,
{\displaystyle limF_{n}(x)=lim_{n\to \infty }\left\{{\begin{array}{ll}0,&x<-n\\{\frac {n+x}{2n}},&x\in (-n,n)\\1,&x>n\end{array}}\right\}={\frac {1}{2}},}
was keine Verteilungsfunktion darstellt. Es gibt kein
Y
0
{\displaystyle Y_{0}}
mit
Y
n
→
D
Y
0
{\displaystyle Y_{n}{\stackrel {\mathcal {D}}{\to }}Y_{0}}
. Statt
Y
n
→
D
Y
0
{\displaystyle Y_{n}{\stackrel {\mathcal {D}}{\to }}Y_{0}}
,
Y
0
{\displaystyle Y_{0}}
N
(
0
,
1
)
{\displaystyle N(0,1)}
-verteilt, schreibt man auch 'gemischt':
Y
n
→
D
N
(
0
,
1
)
{\displaystyle Y_{n}{\stackrel {\mathcal {D}}{\to }}N(0,1)}
Nun zeigen wir, dass die standardisierten Partialsummen
S
n
∗
{\displaystyle S_{n}^{*}}
(nehmen jetzt die Rolle von
Y
n
{\displaystyle Y_{n}}
ein) verteilungskonvergent gegen die
N
(
0
,
1
)
{\displaystyle N(0,1)}
-Verteilung sind.
Zentraler Grenzwertsatz von Lindberg-Lexy (Satz)
Bearbeiten
Gegebn sei eine Folge
X
1
,
X
2
,
.
.
.
{\displaystyle X_{1},X_{2},...}
von unabhängigen, identisch verteilten Zufallsvariablen aus
L
2
{\displaystyle {\mathcal {L}}_{2}}
(
μ
≡
E
(
X
)
,
σ
2
≡
V
a
r
(
X
i
)
>
0
{\displaystyle \mu \equiv E(X),\sigma ^{2}\equiv Var(X_{i})>0}
). Dann gilt für die Folge
S
n
∗
=
(
X
1
+
.
.
.
+
X
n
)
n
μ
n
σ
{\displaystyle S_{n}^{*}={\frac {(X_{1}+...+X_{n})n\mu }{{\sqrt {n}}\sigma }}}
der standardisierten Partialsummen von
X
n
,
n
≥
1
{\displaystyle X_{n},n\geq 1}
, die Verteilungskonvergenz
S
n
∗
→
D
N
(
0
,
1
)
n
→
∞
{\displaystyle S_{n}^{*}{\stackrel {\mathcal {D}}{\to }}N(0,1)\,\,n\to \infty }
.
Ist
ϕ
(
t
)
{\displaystyle \phi (t)}
die charakteristische Funktion von
X
i
−
μ
{\displaystyle X_{i}-\mu }
(für alle
i
{\displaystyle i}
dieselbe), so lautet die charakteristische Funktion
ϕ
S
n
∗
=
ϕ
n
∗
=
1
n
σ
∑
i
=
1
n
X
i
−
μ
{\displaystyle \phi _{S_{n}^{*}}=\phi _{n}^{*}={\frac {1}{{\sqrt {n}}\sigma }}\sum _{i=1}^{n}X_{i}-\mu }
ϕ
n
∗
(
t
)
=
ϕ
∑
i
=
1
n
X
i
−
μ
(
t
n
σ
)
=
Π
i
=
1
n
ϕ
(
t
n
σ
)
=
(
ϕ
(
t
n
σ
)
)
n
{\displaystyle \phi _{n}^{*}(t)=\phi _{\sum _{i=1}^{n}X_{i}-\mu }({\frac {t}{{\sqrt {n}}\sigma }})=\Pi _{i=1}^{n}\phi ({\frac {t}{{\sqrt {n}}\sigma }})=(\phi ({\frac {t}{{\sqrt {n}}\sigma }}))^{n}}
Taylorentwicklung von
ϕ
(
t
)
{\displaystyle \phi (t)}
an der Stelle
t
=
0
{\displaystyle t=0}
:
ϕ
(
t
)
=
1
+
ϕ
′
(
0
)
⋅
t
+
1
2
ϕ
″
(
0
)
⋅
t
2
+
r
2
(
t
)
{\displaystyle \phi (t)=1+\phi '(0)\cdot t+{\frac {1}{2}}\phi ''(0)\cdot t^{2}+r_{2}(t)}
mit
r
2
(
t
)
t
2
→
0
{\displaystyle {\frac {r_{2}(t)}{t^{2}}}\to 0}
bei
t
→
∞
{\displaystyle t\to \infty }
.
Nach dem Satz zur Berechnung von Momenten ist
ϕ
′
(
0
)
=
i
⋅
E
(
X
i
−
μ
)
=
0
{\displaystyle \phi '(0)=i\cdot E(X_{i}-\mu )=0}
(*)
ϕ
″
(
0
)
=
−
E
(
X
i
−
μ
)
2
=
σ
2
{\displaystyle \phi ''(0)=-E(X_{i}-\mu )^{2}=\sigma ^{2}}
,
so dass
ϕ
(
t
)
=
1
−
1
2
σ
2
t
2
+
r
2
(
t
)
.
{\displaystyle \phi (t)=1-{\frac {1}{2}}\sigma ^{2}t^{2}+r_{2}(t).}
Das
ϕ
n
∗
{\displaystyle \phi _{n}^{*}}
aus Teil (1) lautet mit Formel (*):
ϕ
n
∗
(
t
)
=
[
1
−
1
2
t
2
n
+
r
2
(
t
n
σ
)
]
n
=
(
1
−
t
2
2
(
1
+
a
(
t
)
)
)
n
{\displaystyle \phi _{n}^{*}(t)=[1-{\frac {1}{2}}{\frac {t^{2}}{n}}+r_{2}({\frac {t}{{\sqrt {n}}\sigma }})]^{n}=(1-{\frac {t^{2}}{2}}(1+a(t)))^{n}}
mit
a
(
t
)
=
r
2
(
t
n
σ
)
t
2
2
n
→
0
{\displaystyle a(t)={\frac {r_{2}({\frac {t}{{\sqrt {n}}\sigma }})}{\frac {t^{2}}{2n}}}\to 0}
für
t
→
∞
.
{\displaystyle t\to \infty .}
Es folgt mit einem
ϵ
{\displaystyle \epsilon }
-Argument
ϕ
n
∗
(
t
)
→
n
→
∞
ϵ
t
2
2
∀
t
∈
R
.
{\displaystyle \phi _{n}^{*}(t){\stackrel {n\to \infty }{\to }}\epsilon ^{\frac {t^{2}}{2}}\,\,\forall t\in \mathbb {R} .}
Die charakteristische Funktion der
N
(
0
,
1
)
{\displaystyle N(0,1)}
-Verteilung ist so, dass der Stetigkeitssatz zusammen mit dem Eindeutigkeitssatz die Behauptung liefern.
1. Im Spezialfall unabhängiger,
N
(
μ
,
σ
2
)
{\displaystyle N(\mu ,\sigma ^{2})}
-verteilter
X
i
{\displaystyle X_{i}}
ist gemäß dem Beispiel zum Faltungssatz jede
S
n
∗
{\displaystyle S_{n}^{*}}
N
(
0
,
1
)
{\displaystyle N(0,1)}
-verteilt, so dass hier sogar Gleichheit
F
S
n
=
Φ
{\displaystyle F_{S_{n}}=\Phi }
für jedes
n
{\displaystyle n}
gilt.
2. Im zentralen Grenzwertsatz kann die unabhängig-Voraussetzung nicht ersatzlos gestrichen werden. Als Gegenbeispiel wähle man identische
X
1
=
X
2
=
.
.
.
{\displaystyle X_{1}=X_{2}=...}
.
3. Anwendungsbeispiel: Gewinnung von
N
(
0
,
1
)
{\displaystyle N(0,1)}
-verteilten Zufallsvariablen aus
U
[
0
,
1
]
{\displaystyle U[0,1]}
-verteilten Zufallsvariablen.
Sind
X
1
,
X
2
,
.
.
.
{\displaystyle X_{1},X_{2},...}
unabhängig und
U
[
0
,
1
]
{\displaystyle U[0,1]}
gleichverteilt, so ist wegen
μ
=
1
2
,
σ
2
=
1
12
{\displaystyle \mu ={\frac {1}{2}},\sigma ^{2}={\frac {1}{12}}}
S
n
−
n
2
n
12
{\displaystyle {\frac {S_{n}-{\frac {n}{2}}}{\sqrt {\frac {n}{12}}}}}
approximiert
N
(
0
,
1
)
{\displaystyle N(0,1)}
-verteilt (
S
n
)
=
X
1
+
.
.
.
x
n
{\displaystyle S_{n})=X_{1}+...x_{n}}
).
Für
n
=
48
{\displaystyle n=48}
ist
S
n
−
24
2
{\displaystyle {\frac {S_{n}-24}{2}}}
angenähert
N
(
0
,
1
)
{\displaystyle N(0,1)}
-verteilt.