In einer Menge von
N
∈
N
{\textstyle N\in \mathbb {N} }
Objekten sind
K
∈
{
1
,
.
.
.
,
N
}
{\textstyle K\in \{1,...,N\}}
Objekte mit einer bestimmten Eigenschaft ausgezeichnet. Nun werden daraus
n
∈
{
1
,
.
.
.
,
n
}
{\textstyle n\in \{1,...,n\}}
Objekte zufällig ausgewählt (gezogen). Wichtig ist dabei, dass die Ziehung zufällig und unabhängig von der Eigenschaft ist, d.h. die ausgezeichneten Objekte haben dieselbe Chance gezogen zu werden, wie die anderen Objekte.
Die ZV
A
{\textstyle A}
beschreibt die Zahl
k
∈
{
1
,
.
.
.
,
n
}
{\textstyle k\in \{1,...,n\}}
der ausgezeichneten Objekte unter den Gezogenen.
Man sagt:
A
{\textstyle A}
ist hypergeometrisch verteilt mit
K
{\textstyle K}
Ausgezeichneten bei
N
{\textstyle N}
Objekten insgesamt (bzw. mit
N
−
K
{\textstyle N-K}
Nicht-Ausgezeichneten) und
n
{\textstyle n}
Gezogenen.
Die möglichen Werte von
A
{\textstyle A}
sind dann
0
,
…
,
n
{\textstyle 0,\ldots ,n}
und es gilt:
P
(
A
=
k
)
=
(
K
k
)
(
N
−
K
n
−
k
)
(
N
n
)
für
k
∈
{
0
,
…
,
n
}
{\displaystyle P(A=k)={\frac {{K \choose k}{N-K \choose n-k}}{N \choose n}}\quad {\text{für }}k\in \{0,\ldots ,n\}}
Für
N
=
70
,
K
=
12
{\textstyle N=70,\ K=12}
und
n
=
20
{\textstyle n=20}
ist beispielsweise:
P
(
A
=
4
)
=
0.244497
P
(
A
=
10
)
=
0.000021
P
(
A
=
15
)
=
0
{\displaystyle {\begin{array}{rcccl}P(A=4)&=&0.244497\\P(A=10)&=&0.000021\\P(A=15)&=&0\end{array}}}
Für
N
=
12
,
K
=
7
,
n
=
8
{\textstyle N=12,\ K=7,\ n=8}
ist:
k
0
1
2
3
4
5
6
7
8
P
(
A
=
k
)
∥
∥
∥
∥
∥
∥
∥
∥
∥
0
0
0
0.071
0.354
0.424
0.141
0.010
0
{\displaystyle {\begin{array}{c||c|c|c|c|c|c|c|c|c}k&0&1&2&3&4&5&6&7&8\\\hline &&&&&&&&&\\P(A=k)&&&&&&&&&\\\parallel &\parallel &\parallel &\parallel &\parallel &\parallel &\parallel &\parallel &\parallel \\&0&0&0&0.071&0.354&0.424&0.141&0.010&0\end{array}}}
Hier einige weitere Beispiele:
Interaktive Shiny-App zur Hypergeometrischen Verteilung:
Download und Link
Es folgt:
P
(
A
≤
k
)
=
∑
j
=
0
k
(
K
j
)
(
N
−
K
n
−
j
)
(
N
n
)
{\displaystyle P(A\leq k)=\sum \limits _{j=0}^{k}{\frac {{K \choose j}{N-K \choose n-j}}{N \choose n}}}
P
(
A
≥
k
)
=
∑
j
=
k
n
(
K
j
)
(
N
−
K
n
−
j
)
(
N
n
)
{\displaystyle P(A\geq k)=\sum \limits _{j=k}^{n}{\frac {{K \choose j}{N-K \choose n-j}}{N \choose n}}}
P
(
k
≤
A
≤
ℓ
)
=
∑
j
=
k
ℓ
(
K
j
)
(
N
−
K
n
−
j
)
(
N
n
)
{\displaystyle P(k\leq A\leq \ell )=\sum \limits _{j=k}^{\ell }{\frac {{K \choose j}{N-K \choose n-j}}{N \choose n}}}
Für
N
=
70
,
K
=
12
{\textstyle N=70,\ K=12}
und
n
=
20
{\textstyle n=20}
ist beispielsweise:
P
(
3
≤
A
≤
5
)
=
0.658525
P
(
A
≤
4
)
=
0.778049
P
(
A
≥
4
)
=
0.466448
{\displaystyle {\begin{array}{rclcl}P(3\leq A\leq 5)&=&0.658525\\&&&&\\P(A\leq 4)&=&0.778049\\&&&&\\P(A\geq 4)&=&0.466448\end{array}}}
In R :
dhyper(
k
,
K
,
N
−
K
,
n
)
ergibt:
P
(
A
=
k
)
=
(
K
k
)
(
N
−
K
n
−
k
)
(
N
n
)
phyper(
k
,
K
,
N
−
K
,
n
)
ergibt:
P
(
A
≤
k
)
=
∑
j
=
0
k
(
K
j
)
(
N
−
K
n
−
j
)
(
N
n
)
1
−
phyper(
k
−
1
,
K
,
N
−
K
,
n
)
ergibt:
P
(
A
≥
k
)
)
=
∑
j
=
k
n
(
K
j
)
(
N
−
K
n
−
j
)
(
N
n
)
phyper(
ℓ
,
K
,
N
−
K
,
n
)
−
phyper(
k
−
1
,
K
,
N
−
K
,
n
)
ergibt:
P
(
k
≤
A
≤
ℓ
)
=
∑
j
=
k
ℓ
(
K
j
)
(
N
−
K
n
−
j
)
(
N
n
)
{\displaystyle {\begin{array}{|c|c|c|c|}\hline \quad \color {blue}{{\text{dhyper(}}k,K,N-K,n)}&{\text{ergibt:}}&P(A=k)&=&{\frac {{K \choose k}{N-K \choose n-k}}{N \choose n}}\\\hline \quad \color {blue}{{\text{phyper(}}k,K,N-K,n)}&{\text{ergibt:}}&P(A\leq k)&=&\sum \limits _{j=0}^{k}{\frac {{K \choose j}{N-K \choose n-j}}{N \choose n}}\\\hline \quad \color {blue}{1-{\text{phyper(}}k-1,K,N-K,n)}&{\text{ergibt:}}&P(A\geq k))&=&\sum \limits _{j=k}^{n}{\frac {{K \choose j}{N-K \choose n-j}}{N \choose n}}\\\hline \quad \color {blue}{{\text{phyper(}}\ell ,K,N-K,n)-{\text{phyper(}}k-1,K,N-K,n)}&{\text{ergibt:}}&P(k\leq A\leq \ell )&=&\sum \limits _{j=k}^{\ell }{\frac {{K \choose j}{N-K \choose n-j}}{N \choose n}}\\\hline \end{array}}}
Berechnen Sie für eine hypergeometrisch verteilte ZV
A
{\textstyle A}
mit den jeweils angegebenen Werten für
N
,
K
{\textstyle N,K}
und
n
{\textstyle n}
die angegebenen Wahrscheinlichkeiten:
Für
N
=
14
,
K
=
4
{\textstyle N=14,\ K=4}
und
n
=
7
{\textstyle n=7}
:
P
(
A
=
k
)
{\textstyle \quad P(A=k)}
für alle
k
=
0
,
…
,
7
{\textstyle k=0,\ldots ,7}
Für
N
=
25
,
K
=
8
{\textstyle N=25,\ K=8}
und
n
=
8
{\textstyle n=8}
:
P
(
A
≤
2
)
,
P
(
A
≥
4
)
,
P
(
1
≤
A
≤
3
)
{\textstyle \quad P(A\leq 2),\ P(A\geq 4),\ P(1\leq A\leq 3)}
Für
N
=
140
,
K
=
30
{\textstyle N=140,\ K=30}
und
n
=
20
{\textstyle n=20}
:
P
(
A
≤
7
)
,
P
(
A
≥
5
)
,
P
(
3
≤
A
≤
6
)
{\textstyle \quad P(A\leq 7),\ P(A\geq 5),\ P(3\leq A\leq 6)}
(Ziehen ohne Zurücklegen) Aus einer Lostrommel, die
N
{\textstyle N}
Kugeln enthält, von denen
K
{\textstyle K}
rot sind, werden ohne Zurücklegen
n
{\textstyle n}
Kugeln gezogen. Die ZV für die Anzahl der roten Kugeln unter den Gezogenen ist hypergeometrisch verteilt.
In einem Teich befinden sich
350
{\textstyle 350}
Fische einer Art, von denen
80
{\textstyle 80}
markiert sind. Nun werden
45
{\textstyle 45}
Fische gefangen. Die ZV für die Zahl der markierten Fische unter den Gefangenen ist hypergeometrisch verteilt mit
N
=
350
,
K
=
80
{\textstyle N=350,\ K=80}
und
n
=
45
{\textstyle n=45}
. (Voraussetzung: Die markierten Fische sind über den See gleichmäßig verteilt und lassen sich genauso leicht fangen, wie die Übrigen.)
In einer Klasse befinden sich
12
{\textstyle 12}
Jungen und
15
{\textstyle 15}
Mädchen. Es werden
10
{\textstyle 10}
Schüler/innen für ein Projekt ausgelost. Die ZV, die die Zahl der Jungen unter den Ausgelosten angibt, ist hypergeometrisch verteilt mit
N
=
27
,
K
=
12
{\textstyle N=27,\ K=12}
und
n
=
10
{\textstyle n=10}
.
Wie groß ist beim Lotto (6 aus 49) die Wahrscheinlichkeit, genau
k
{\textstyle k}
Richtige zu haben (
k
=
0
,
…
,
6
{\textstyle k=0,\ldots ,6}
).
Bei einem Multiple-Choice Test gibt es 20 Aussagen, von denen genau 10 richtig sind. Ein unvorbereiteter Teilnehmer kreuzt willkürlich genau 10 Aussagen an. Wie groß ist die Wahrscheinlichkeit, dass dabei
(i)
mindestens 6
(ii)
weniger als 4
(iii)
zwischen 1 und 5
{\displaystyle {\text{(i)}}\ {\text{mindestens 6}}\quad \quad {\text{(ii)}}\ {\text{weniger als 4}}\quad \quad {\text{(iii)}}\ {\text{zwischen 1 und 5}}}
der angekreuzten Aussagen richtig sind?
Unter 500 Glühbirnen in einem Karton befinden sich 35 defekte. Bei einer Qualitätskontrolle werden 50 Birnen getestet. Wie groß
{\textstyle \;}
ist die Wahrscheinlichkeit, dass
(i)
mindestens 4
(ii)
zwischen 1 und 3
(iii)
keine
{\displaystyle {\text{(i)}}\ {\text{mindestens 4}}\quad \quad {\text{(ii)}}\ {\text{zwischen 1 und 3}}\quad \quad {\text{(iii)}}\ {\text{keine}}}
der Birnen defekt ist?
Für eine hypergeometrisch verteilte ZV
A
{\textstyle A}
mit
N
,
K
,
n
{\textstyle N,K,n}
wie bisher gilt:
E
(
A
)
=
n
⋅
K
N
und
V
(
A
)
=
n
⋅
K
N
⋅
(
1
−
K
N
)
⋅
N
−
n
N
−
1
{\displaystyle E(A)=n\cdot {\frac {K}{N}}\quad {\text{und}}\quad V(A)=n\cdot {\frac {K}{N}}\cdot \left(1-{\frac {K}{N}}\right)\cdot {\frac {N-n}{N-1}}}
Für
N
=
9
,
K
=
4
{\textstyle N=9,\ K=4}
und
n
=
6
{\textstyle n=6}
haben wir oben bereits die Wahrscheinlichkeitsverteilung bestimmt. Daraus ergibt sich:
E
(
A
)
=
2.667
V
(
A
)
=
0.5556
{\displaystyle {\begin{array}{rcccl}E(A)&=&2.667\\V(A)&=&0.5556\end{array}}}
Für
N
=
30
,
K
=
18
{\textstyle N=30,\ K=18}
und
n
=
12
{\textstyle n=12}
berechnen wir zunächst
P
(
A
=
k
)
=
(
18
k
)
(
12
12
−
k
)
(
30
12
)
{\textstyle P(A=k)={\frac {{18 \choose k}{12 \choose 12-k}}{30 \choose 12}}}
für alle möglichen Werte
k
=
0
,
…
,
12
{\textstyle k=0,\ldots ,12}
:
k
0
1
2
3
4
5
6
P
(
T
=
k
)
<
0.001
<
0.001
0.0001
0.0021
0.0175
0.0785
0.1983
k
7
8
9
10
11
12
P
(
A
=
k
)
0.2914
0.2504
0.1237
0.0334
0.0044
0.0002
{\displaystyle {\begin{array}{|c||c|c|c|c|c|c|c|}\hline \hline k&0&1&2&3&4&5&6\\P(T=k)&<0.001&<0.001&0.0001&0.0021&0.0175&0.0785&0.1983\\\hline \hline k&7&8&9&10&11&12&\\P(A=k)&0.2914&0.2504&0.1237&0.0334&0.0044&0.0002&\\\hline \hline \end{array}}}
Daraus ergibt sich:
E
(
A
)
=
7.2
V
(
A
)
=
1.7876
{\displaystyle {\begin{array}{rclclccclcl}E(A)&=&7.2\\V(A)&=&1.7876\end{array}}}
Bestimmen Sie für eine hypergeometrsich verteilte ZV
Z
{\textstyle Z}
mit
N
=
100
{\textstyle N=100}
,
K
=
30
{\textstyle K=30}
und
n
=
20
{\textstyle n=20}
die nachfolgenden Werte:
P
(
Z
=
10
)
{\textstyle P(Z=10)}
P
(
Z
≤
17
)
{\textstyle P(Z\leq 17)}
P
(
Z
≥
11
)
{\textstyle P(Z\geq 11)}
P
(
Z
=
20
)
{\textstyle P(Z=20)}
Bestimmen Sie Erwartungswert und Varianz.
Wenn für die Vorlesung 79 Menschen angemeldet sind, von denen ca. 30 Personen auch regelmäßig in die Vorlesung kommen. Die Klausur wird von 40 Personen geschrieben. Wie hoch ist die Wahrscheinlichkeit, dass
alle 30 Personen aus der Vorlesung die Klausur mitschreiben?
mindestens 20 Personen aus der Vorlesung die Klausur mitschreiben?
maximal 20 Personen aus der Vorlesung die Klausur mitschreiben?
Bestimmen Sie auch Erwartungswert und Varianz.
Schätzung der Zahl der ausgezeichneten Objekte K
Bearbeiten
Von
N
=
1000
{\textstyle N=1000}
Glübirnen einer Lieferung sind eine unbekannte Anzahl
K
{\textstyle K}
defekt. Man testet
n
=
15
{\textstyle n=15}
zufällig ausgewählte Birnen und stellt fest, dass
k
=
2
{\textstyle k=2}
davon defekt sind. Wie kann man daraus auf die Zahl
K
{\textstyle K}
schließen?
Situation:
Es sind
N
,
n
und
k
bekannt, aber nicht
K
.
Wie kann man
K
sinnvoll schätzen?
{\displaystyle {\text{Es sind }}N,n{\text{ und }}k{\text{ bekannt, aber nicht }}K.{\text{Wie kann man }}K{\text{ sinnvoll schätzen?}}}
Genauer:
N
∈
N
{\textstyle N\in \mathbb {N} }
und
n
∈
{
1
,
…
,
N
}
{\textstyle n\in \{1,\ldots ,N\}}
sind feststehend und bekannt. Oft kann man
n
{\textstyle n}
selbst festlegen.
k
∈
{
0
,
…
,
n
}
{\textstyle k\in \{0,\ldots ,n\}}
entsteht zufällig, ist dann aber bekannt.
K
∈
{
0
,
…
,
N
}
{\textstyle K\in \{0,\ldots ,N\}}
steht fest, ist aber nicht bekannt.
System mit Parameter
K
⟶
zufällig
Daten
k
⟶
methodisch
Schätzung
K
^
für
K
{\displaystyle {\text{System mit Parameter }}K{\stackrel {\text{zufällig}}{\longrightarrow }}{\text{Daten }}k{\stackrel {\text{methodisch}}{\longrightarrow }}{\text{Schätzung }}{\hat {K}}{\text{ für }}K}
Wiederum ist dabei folglich die Schätzung zufällig .
Durch
K
^
=
k
⋅
N
n
{\textstyle {\hat {K}}={\frac {k\cdot N}{n}}}
erhält man eine erwartungstreue Schätzung für
K
{\textstyle K}
.
Genauer: Die Zahl
k
{\textstyle k}
hängt vom Zufall ab und wird (vor der Datenerhebung) durch die ZV
A
{\textstyle A}
beschrieben. Da die Schätzung für (die feste aber unbekannte Zahl)
K
{\textstyle K}
von
k
{\textstyle k}
abhängt, ist sie ebenfalls vom Zufall abhängig. Die Schätzung
K
^
=
A
⋅
N
n
{\textstyle {\hat {K}}={\frac {A\cdot N}{n}}}
kann somit als ZV beschrieben werden. Dabei gilt dann (unabhängig vom unbekannten Wert
K
∈
{
0
,
…
,
N
}
{\textstyle K\in \{0,\ldots ,N\}}
) stets
E
(
K
^
)
=
E
(
A
⋅
N
n
)
=
K
{\textstyle E({\hat {K}})=E\left({\frac {A\cdot N}{n}}\right)=K}
.
N
=
15
n
=
8
k
=
3
⇒
K
^
=
5.625
N
=
40
n
=
12
k
=
3
⇒
K
^
=
33.33
N
=
1000
n
=
15
k
=
2
⇒
K
^
=
133.33
{\displaystyle {\begin{array}{ccccrcccl}N=15&n=8&k=3&\Rightarrow &{\hat {K}}&=&5.625\\N=40&n=12&k=3&\Rightarrow &{\hat {K}}&=&33.33\\N=1000&n=15&k=2&\Rightarrow &{\hat {K}}&=&133.33\end{array}}}
Mit der Maximum-Likelihood-Methode wird
K
∈
{
0
,
…
,
N
}
{\textstyle K\in \{0,\ldots ,N\}}
(basierend auf der zufälligen Zahl
k
{\textstyle k}
) so geschätzt, dass die Wahrscheinlichkeit
P
(
A
=
k
)
{\textstyle P(A=k)}
maximal wird. Wir suchen also die Maximumstelle der Likelihood-Funktion
L
:
{
0
,
…
,
N
}
→
[
0
,
1
]
,
L
(
K
)
=
(
K
k
)
⋅
(
N
−
K
n
−
k
)
(
N
n
)
{\displaystyle L:\{0,\ldots ,N\}\to [0,1],\ L(K)={\frac {{K \choose k}\cdot {N-K \choose n-k}}{N \choose n}}}
Man stellt fest:
Die Maximumstelle(n) von
L
{\textstyle L}
ist/sind:
{
K
^
1
=
k
⋅
(
N
+
1
)
n
−
1
und
K
^
2
=
k
⋅
(
N
+
1
)
n
,
falls
k
⋅
(
N
+
1
)
n
∈
N
ist.
K
^
=
⌊
k
⋅
(
N
+
1
)
n
⌋
,
falls
k
⋅
(
N
+
1
)
n
∉
N
ist.
}
{\displaystyle \left\{{\begin{array}{lcc}{\hat {K}}_{1}={\frac {k\cdot (N+1)}{n}}-1\quad {\text{und}}\quad {\hat {K}}_{2}={\frac {k\cdot (N+1)}{n}}&,&{\text{falls}}\ {\frac {k\cdot (N+1)}{n}}\in \mathbb {N} \ {\text{ist.}}\\{\hat {K}}=\left\lfloor {\frac {k\cdot (N+1)}{n}}\right\rfloor &,&{\text{falls}}\ {\frac {k\cdot (N+1)}{n}}\notin \mathbb {N} \ {\text{ist.}}\end{array}}\right\}}
(dabei bezeichnet
⌊
x
⌋
{\textstyle \lfloor x\rfloor }
die größte ganze Zahl, die kleiner oder gleich
x
{\textstyle x}
ist)
N
=
15
,
n
=
8
,
k
=
3
:
K
1
^
=
3
⋅
16
8
−
1
=
5
{\displaystyle N=15,n=8,k=3:{\hat {K_{1}}}={\frac {3\cdot 16}{8}}-1=5}
und
K
2
^
=
3
⋅
16
8
=
6
{\displaystyle \;{\hat {K_{2}}}={\frac {3\cdot 16}{8}}=6}
N
=
40
,
n
=
12
,
k
=
10
:
K
^
=
⌊
10
⋅
41
12
⌋
=
34
{\displaystyle N=40,n=12,k=10:{\hat {K}}=\left\lfloor {\frac {10\cdot 41}{12}}\right\rfloor =34}
N
=
1000
,
n
=
15
,
k
=
2
:
K
^
=
⌊
2
⋅
1001
15
⌋
=
133
{\displaystyle N=1000,n=15,k=2:{\hat {K}}=\left\lfloor {\frac {2\cdot 1001}{15}}\right\rfloor =133}
Gib eine Methode an, mit der man aus
k
{\textstyle k}
ein Intervall
[
K
U
,
K
O
]
{\textstyle [K_{U},K_{O}]}
bestimmen kann, so dass die Wahrscheinlichkeit, dass sich ein Intervall ergibt, das
K
{\textstyle K}
enthält, garantiert (also für jeden denkbaren Wert von
K
{\textstyle K}
) größer oder gleich einem vorgegebenen Konfidenzniveau
δ
{\textstyle \delta }
ist.
System mit Parameter
K
⟶
zufällig
Daten
k
{\displaystyle {\text{System mit Parameter }}K{\stackrel {\text{zufällig}}{\longrightarrow }}{\text{Daten }}k}
⟶
methodisch
(Intervall-)Schätzung
[
K
U
,
K
O
]
für
K
{\displaystyle {\stackrel {\text{methodisch}}{\longrightarrow }}{\text{(Intervall-)Schätzung }}[K_{U},K_{O}]{\text{ für }}K}
Ziel:
Für jeden möglichen Wert von
K
:
P
(
[
K
U
,
K
O
]
∋
K
)
≥
δ
{\displaystyle {\textbf {Ziel:}}{\text{ Für jeden möglichen Wert von }}K:\quad P\left([K_{U},K_{O}]\ni K\right)\geq \delta }
Eine sinnvolle Möglichkeit wird im Folgenden beschrieben:
IVS für K, die ein gegebenes Konfidenzniveau einhält
Bearbeiten
Gegeben seien
N
∈
N
{\textstyle N\in \mathbb {N} }
und
n
∈
{
1
,
…
,
n
}
{\textstyle n\in \{1,\ldots ,n\}}
. Unbekannt sei
K
∈
{
0
,
…
,
N
}
{\textstyle K\in \{0,\ldots ,N\}}
. Weiter sei ein Konfidenzniveau
δ
∈
]
0
,
1
[
{\textstyle \delta \in ]0,1[}
vorgegeben.
Basierend auf der zufälligen Zahl
k
{\textstyle k}
geht man nun wie folgt vor:
Man bestimmt
K
U
{\textstyle K_{U}}
als die kleinstmögliche Zahl mit
phyper(
k
−
1
,
K
U
,
N
−
K
U
,
n
)
{\displaystyle \color {blue}{{\text{phyper(}}k-1,K_{U},N-K_{U},n)}}
=
∑
j
=
0
k
−
1
(
K
U
j
)
⋅
(
N
−
K
U
n
−
j
)
(
N
n
)
<
1
+
δ
2
{\textstyle =\sum \limits _{j=0}^{k-1}{\frac {{K_{U} \choose j}\cdot {N-K_{U} \choose n-j}}{N \choose n}}<{\frac {1+\delta }{2}}}
Man bestimmt
K
O
{\textstyle K_{O}}
als die größtmögliche Zahl mit
phyper(
k
−
1
,
K
O
,
N
−
K
O
,
n
)
{\displaystyle \color {blue}{{\text{phyper(}}k-1,K_{O},N-K_{O},n)}}
=
∑
j
=
0
k
(
K
O
j
)
⋅
(
N
−
K
O
n
−
j
)
(
N
n
)
>
1
−
δ
2
{\textstyle =\sum \limits _{j=0}^{k}{\frac {{K_{O} \choose j}\cdot {N-K_{O} \choose n-j}}{N \choose n}}>{\frac {1-\delta }{2}}}
Ohne weiter in die mathematischen Hintergründe einzusteigen, halten wir fest, dass die folgende (bei Intervallschätzungen immer zu erreichende) Bedingung bei diesem Verfahren garantiert erfüllt ist:
P
(
[
K
U
,
K
O
]
∋
K
)
≥
δ
(D.h. das Konfidenzniveau
δ
wird eingehalten.)
{\displaystyle P\left([K_{U},K_{O}]\ni K\right)\geq \delta \quad {\text{(D.h. das Konfidenzniveau }}\delta {\text{ wird eingehalten.)}}}
Man beachte, dass der Aussage "
K
∈
[
K
U
,
K
O
]
{\textstyle K\in [K_{U},K_{O}]}
{\textstyle \;}
" eine Wahrscheinlichkeit zugeschrieben werden kann, weil die Intervallgrenzen
K
U
{\textstyle K_{U}}
und
K
O
{\textstyle K_{O}}
zufällig sind (und nicht etwa der unbekannte Wert
K
{\textstyle K}
).
Wir betrachten erneut den Fall
n
=
1000
,
n
=
15
,
k
=
2
{\textstyle n=1000,n=15,k=2}
und führen eine Intervallschätzung zum Niveau
δ
=
0.95
{\textstyle \delta =0.95}
durch.
Wir suchen also zunächst die kleinstmögliche Zahl
K
U
{\textstyle K_{U}}
mit
phyper(
1
,
K
U
,
1000
−
K
U
,
15
)
{\displaystyle \quad \color {blue}{{\text{phyper(}}1,K_{U},1000-K_{U},15)}}
<
0.975
{\textstyle <0.975}
Durch Ausprobieren findet man:
K
U
=
17
{\textstyle \quad K_{U}=17}
Analog suchen wir die größtmögliche Zahl mit
phyper(
2
,
K
O
,
1000
−
K
O
,
15
)
{\displaystyle \quad \color {blue}{{\text{phyper(}}2,K_{O},1000-K_{O},15)}}
>
0.025
{\textstyle >0.025}
Durch Ausprobieren findet man:
K
0
=
402
{\textstyle \quad K_{0}=402}
Damit ist
[
K
U
,
K
O
]
=
[
17
,
402
]
{\textstyle [K_{U},K_{O}]=[17,402]}
das gesuchte Konfidenzintervall zu
δ
=
0.95
{\textstyle \delta =0.95}
.
Für
N
=
200
{\textstyle N=200}
und
n
=
18
{\textstyle n=18}
berechnet man abhängig von
k
{\textstyle k}
die folgenden ML-Schätzungen und Intervallschätzungen zum Vertrauensniveau
δ
=
0.7
{\textstyle \delta =0.7}
:
k
0
1
2
3
4
5
6
7
8
9
K
^
0
11
22
33
44
55
67
78
89
100
K
∈
[
0
,
19
]
[
2
,
34
]
[
8
,
47
]
[
16
,
60
]
[
24
,
72
]
[
33
,
84
]
[
43
,
95
]
[
52
,
106
]
[
62
,
117
]
[
73
,
127
]
{\displaystyle {\begin{array}{|c||c|c|c|c|c|c|c|c|c|c|}\hline k&0&1&2&3&4&5&6&7&8&9\\\hline {\hat {K}}&0&11&22&33&44&55&67&78&89&100\\\hline K\in &[0,19]&[2,34]&[8,47]&[16,60]&[24,72]&[33,84]&[43,95]&[52,106]&[62,117]&[73,127]\\\hline \end{array}}}
k
10
11
12
13
14
15
16
17
18
K
^
111
122
134
145
156
167
178
189
201
K
∈
[
83
,
138
]
[
94
,
148
]
[
105
,
157
]
[
116
,
167
]
[
128
,
176
]
[
140
,
184
]
[
153
,
192
]
[
166
,
198
]
[
181
,
200
]
{\displaystyle {\begin{array}{|c||c|c|c|c|c|c|c|c|c|}\hline k&10&11&12&13&14&15&16&17&18\\\hline {\hat {K}}&111&122&134&145&156&167&178&189&201\\\hline K\in &[83,138]&[94,148]&[105,157]&[116,167]&[128,176]&[140,184]&[153,192]&[166,198]&[181,200]\\\hline \end{array}}}
Angenommen, es ist
K
=
120
{\textstyle K=120}
. Dann ist die Intervallschätzung für
k
∈
{
9
,
10
,
12
,
12
,
13
}
{\textstyle k\in \{9,10,12,12,13\}}
korrekt. Die Wahrscheinlichkeit dafür ist:
P
(
9
≤
A
≤
13
)
=
0.792
{\displaystyle P(9\leq A\leq 13)=0.792}
Angenommen, es ist
K
=
48
{\textstyle K=48}
. Dann ist die Intervallschätzung für
k
∈
{
3
,
4
,
5
,
6
}
{\textstyle k\in \{3,4,5,6\}}
korrekt. Die Wahrscheinlichkeit dafür ist:
P
(
3
≤
A
≤
6
)
=
0.749
{\displaystyle P(3\leq A\leq 6)=0.749}
Angenommen, es ist
K
=
199
{\textstyle K=199}
. Dann ist die Intervallschätzung nur für
k
=
18
{\textstyle k=18}
korrekt. Die Wahrscheinlichkeit dafür ist:
P
(
A
=
18
)
=
0.91
{\displaystyle P(A=18)=0.91}
Das mathematische Modell garantiert, dass die Intervallschätzung bei beliebigem
K
{\textstyle K}
immer mindestens mit der Wahrscheinlichkeit
δ
{\textstyle \delta }
korrekt ist.
In Ihrem Wohnort stehen
N
=
153
{\textstyle N=153}
Wohngebaude. Sie wissen, dass nur Eines von Vieren einen Keller hat.
Führen Sie für
K
{\textstyle K}
eine Punktschätzung durch, stellen Sie die Maximum-Likelihood-Funktion auf und plotten Sie diese in R.
Geben Sie die Formeln für die Intervallschätzung mit
δ
=
0.9
{\textstyle \delta =0.9}
für
K
{\textstyle K}
an.
In einem See befindet sich eine unbekannte Anzahl
N
{\textstyle N}
von Fischen einer Art. Man möchte wissen, wie groß
N
{\textstyle N}
in etwa ist. Dazu fängt man eine (kleinere) Anzahl
K
{\textstyle K}
von Fischen und markiert sie. Dann setzt man sie wieder aus und wartet einen angemessenen Zeitraum. Dann fängt man in einem zweiten Fischzug
n
{\textstyle n}
Fische und bestimmt die Anzahl
k
{\textstyle k}
der markierten Fische unter ihnen.
Beispielsweise hat man
K
=
100
{\textstyle K=100}
Fische markiert und unter
n
=
50
{\textstyle n=50}
gefangenen Fischen
k
=
14
{\textstyle k=14}
markierte Fische wiedergefunden.
Wie kann man daraus eine sinnvolle Schätzung für
N
{\textstyle N}
abgeben?
Situation:
Es sind
K
,
n
und
k
bekannt, aber nicht
N
.
Wie kann man
N
sinnvoll schätzen?
{\displaystyle {\text{ Es sind }}K,n{\text{ und }}k{\text{bekannt, aber nicht }}N.{\text{Wie kann man }}N{\text{ sinnvoll schätzen?}}}
Genauer:
K
∈
N
{\textstyle K\in \mathbb {N} }
und
n
∈
N
{\textstyle n\in \mathbb {N} }
sind fest und bekannt. Manchmal kann man
K
{\textstyle K}
und
n
{\textstyle n}
selbst festlegen.
k
∈
{
0
,
…
,
n
}
{\textstyle k\in \{0,\ldots ,n\}}
entsteht zufällig, ist dann aber bekannt.
N
∈
N
{\textstyle N\in \mathbb {N} }
mit
N
≥
max
(
n
,
K
)
{\textstyle N\geq \max(n,K)}
steht fest, ist aber nicht bekannt.
System mit Parameter
N
⟶
zufällig
Daten
k
⟶
methodisch
Schätzung
N
^
für
N
{\displaystyle {\text{System mit Parameter }}N{\stackrel {\text{zufällig}}{\longrightarrow }}{\text{Daten }}k{\stackrel {\text{methodisch}}{\longrightarrow }}{\text{Schätzung }}{\hat {N}}{\text{ für }}N}
Wiederum ist damit die Schätzung zufällig .
Durch
N
^
=
K
⋅
n
k
{\textstyle {\hat {N}}={\frac {K\cdot n}{k}}}
erhält man eine Schätzung für
N
{\textstyle N}
.
Dabei gilt:
1
N
^
=
k
K
⋅
n
{\textstyle {\frac {1}{\hat {N}}}={\frac {k}{K\cdot n}}}
ist erwartungstreu für
1
N
{\textstyle {\frac {1}{N}}}
.
Genauer: Die Zahl
k
{\textstyle k}
hängt vom Zufall ab und wird (vor der Datenerhebung) durch die ZV
A
{\textstyle A}
beschrieben. Da die Schätzung für (die feste aber unbekannte Zahl)
N
{\textstyle N}
von
k
{\textstyle k}
abhängt, ist sie ebenfalls vom Zufall abhängig. Die Schätzung
N
^
=
K
⋅
n
A
{\textstyle {\hat {N}}={\frac {K\cdot n}{A}}}
kann somit als ZV beschrieben werden. Dabei gilt dann (unabhängig vom unbekannten Wert
N
∈
N
{\textstyle N\in \mathbb {N} }
) stets
E
(
1
N
^
)
=
E
(
A
K
⋅
n
)
=
1
N
{\textstyle E\left({\frac {1}{\hat {N}}}\right)=E\left({\frac {A}{K\cdot n}}\right)={\frac {1}{N}}}
.
K
=
25
n
=
16
k
=
10
⇒
N
^
=
40
K
=
25
n
=
16
k
=
10
⇒
N
^
=
133.33
K
=
100
n
=
50
k
=
14
⇒
N
^
=
357.14
{\displaystyle {\begin{array}{ccccrcccl}K=25&n=16&k=10&\Rightarrow &{\hat {N}}&=&40\\K=25&n=16&k=10&\Rightarrow &{\hat {N}}&=&133.33\\K=100&n=50&k=14&\Rightarrow &{\hat {N}}&=&357.14\end{array}}}
Schätzung für N mit der Maximum-Likelihood-Methode
Bearbeiten
Mit der Maximum-Likelihood-Methode wird
N
∈
{
max
(
K
,
n
)
,
…
}
{\textstyle N\in \{\max(K,n),\ldots \}}
(basierend auf der zufälligen Zahl
k
{\textstyle k}
) so geschätzt, dass die Wahrscheinlichkeit
P
(
A
=
k
)
{\textstyle P(A=k)}
maximal wird. Wir suchen also die Maximumstelle der Likelihood-Funktion
L
:
{
max
(
K
,
n
)
,
…
}
→
[
0
,
1
]
,
L
(
N
)
=
(
K
k
)
⋅
(
N
−
K
n
−
k
)
(
N
n
)
{\displaystyle L:\{\max(K,n),\ldots \}\to [0,1],\ L(N)={\frac {{K \choose k}\cdot {N-K \choose n-k}}{N \choose n}}}
Man stellt fest:
Die Maximumstelle(n) ist/sind von
L
{\textstyle L}
:
{
N
^
1
=
K
⋅
n
k
−
1
und
N
^
2
=
K
⋅
n
k
,
falls
K
⋅
n
k
∈
N
ist.
N
^
=
⌊
K
⋅
n
k
⌋
,
falls
K
⋅
n
k
∉
N
ist.
}
{\displaystyle \left\{{\begin{array}{lcc}{\hat {N}}_{1}={\frac {K\cdot n}{k}}-1\quad {\text{und}}\quad {\hat {N}}_{2}={\frac {K\cdot n}{k}}&,&{\text{falls}}\ {\frac {K\cdot n}{k}}\in \mathbb {N} \ {\text{ist.}}\\{\hat {N}}=\left\lfloor {\frac {K\cdot n}{k}}\right\rfloor &,&{\text{falls}}\ {\frac {K\cdot n}{k}}\notin \mathbb {N} \ {\text{ist.}}\end{array}}\right\}}
(dabei bezeichnet
⌊
x
⌋
{\textstyle \lfloor x\rfloor }
die größte ganze Zahl, die kleiner oder gleich
x
{\textstyle x}
ist)
K
=
25
,
n
=
16
,
k
=
10
:
N
^
=
⌊
25
⋅
16
10
⌋
=
40
{\displaystyle K=25,n=16,k=10:{\hat {N}}=\left\lfloor {\frac {25\cdot 16}{10}}\right\rfloor =40}
K
=
25
,
n
=
16
,
k
=
3
:
N
^
=
⌊
25
⋅
16
3
⌋
=
133
{\displaystyle K=25,n=16,k=3:{\hat {N}}=\left\lfloor {\frac {25\cdot 16}{3}}\right\rfloor =133}
K
=
100
,
n
=
50
,
k
=
14
:
N
^
=
⌊
100
⋅
50
14
⌋
=
357
{\displaystyle K=100,n=50,k=14:{\hat {N}}=\left\lfloor {\frac {100\cdot 50}{14}}\right\rfloor =357}
Gib eine Methode an, mit der man aus
k
{\textstyle k}
ein Intervall
[
N
U
,
N
O
]
{\textstyle [N_{U},N_{O}]}
bestimmen kann, so dass die Wahrscheinlichkeit, dass sich ein Intervall ergibt, das
N
{\textstyle N}
enthält, auf jeden Fall (also für jeden denkbaren Wert von
N
{\textstyle N}
) mindestens ein vorgegebenes Konfidenzniveau
δ
{\textstyle \delta }
ist.
System mit Parameter
N
⟶
zufällig
Daten
k
{\displaystyle {\text{System mit Parameter }}N{\stackrel {\text{zufällig}}{\longrightarrow }}{\text{Daten }}k}
⟶
methodisch
(Intervall-)Schätzung
[
N
U
,
N
O
]
für
N
{\displaystyle {\stackrel {\text{methodisch}}{\longrightarrow }}{\text{(Intervall-)Schätzung }}[N_{U},N_{O}]{\text{ für }}N}
Ziel:
Für jeden möglichen Wert von
N
:
P
(
[
N
U
,
N
O
]
∋
N
)
≥
δ
{\displaystyle {\textbf {Ziel:}}{\text{ Für jeden möglichen Wert von }}N:\quad P\left([N_{U},N_{O}]\ni N\right)\geq \delta }
Eine sinnvolle Möglichkeit wird im Folgenden beschrieben.
IVS für N, die ein gegebenes Konfidenzniveau einhält
Bearbeiten
Gegeben seien
K
,
n
∈
{
1
,
…
,
n
}
{\textstyle K,n\in \{1,\ldots ,n\}}
. Unbekannt sei
N
∈
{
max
(
K
,
n
)
,
…
,
N
}
{\textstyle N\in \{\max(K,n),\ldots ,N\}}
. Weiter sei ein Konfidenzniveau
δ
∈
]
0
,
1
[
{\textstyle \delta \in ]0,1[}
vorgegeben.
Basierend auf der zufälligen Zahl
k
{\textstyle k}
geht man nun wie folgt vor:
Man bestimmt
N
U
{\textstyle N_{U}}
als die kleinstmögliche Zahl mit
phyper(
k
,
K
,
N
U
−
K
,
n
)
{\displaystyle \quad \color {blue}{{\text{phyper(}}k,K,N_{U}-K,n)}}
=
∑
j
=
0
k
(
K
j
)
⋅
(
N
U
−
K
n
−
j
)
(
N
U
n
)
>
1
−
δ
2
{\textstyle =\sum \limits _{j=0}^{k}{\frac {{K \choose j}\cdot {N_{U}-K \choose n-j}}{N_{U} \choose n}}>{\frac {1-\delta }{2}}}
Man bestimmt
N
O
{\textstyle N_{O}}
als die größtmögliche Zahl mit
phyper(
k
−
1
,
K
,
N
O
−
K
,
n
)
{\displaystyle \quad \color {blue}{{\text{phyper(}}k-1,K,N_{O}-K,n)}}
=
∑
j
=
0
k
−
1
(
K
j
)
⋅
(
N
O
−
K
n
−
j
)
(
N
O
n
)
<
1
+
δ
2
{\textstyle =\sum \limits _{j=0}^{k-1}{\frac {{K \choose j}\cdot {N_{O}-K \choose n-j}}{N_{O} \choose n}}<{\frac {1+\delta }{2}}}
Wir halten fest, dass die folgende (bei Intervallschätzungen immer zu erreichende) Bedingung bei diesem Verfahren garantiert erfüllt ist:
P
(
[
N
U
,
N
O
]
∋
N
)
≥
δ
(D.h. das Konfidenzniveau
δ
wird eingehalten.)
{\displaystyle P\left([N_{U},N_{O}]\ni N\right)\geq \delta \quad {\text{(D.h. das Konfidenzniveau }}\delta {\text{ wird eingehalten.)}}}
Man beachte, dass der Aussage "
N
∈
[
N
U
,
N
O
]
{\textstyle N\in [N_{U},N_{O}]}
"
{\textstyle \;}
eine Wahrscheinlichkeit zugeschrieben werden kann, weil die Intervallgrenzen
N
U
{\textstyle N_{U}}
und
N
O
{\textstyle N_{O}}
zufällig sind (und nicht etwa der unbekannte Wert
N
{\textstyle N}
).
Wir betrachten erneut den Fall
K
=
100
,
n
=
50
,
k
=
14
{\textstyle K=100,n=50,k=14}
und führen eine Intervallschätzung zum Niveau
δ
=
0.8
{\textstyle \delta =0.8}
durch.
Wir suchen also zunächst die kleinstmögliche Zahl
N
U
{\textstyle N_{U}}
mit
phyper(
14
,
100
,
N
U
−
100
,
50
)
{\displaystyle \quad \color {blue}{{\text{phyper(}}14,100,N_{U}-100,50)}}
>
0.1
{\textstyle >0.1}
Durch Ausprobieren findet man:
N
U
=
272
{\textstyle \quad N_{U}=272}
Analog suchen wir die größtmögliche Zahl mit
phyper(
13
,
100
,
N
O
−
100
,
50
)
{\displaystyle \quad \color {blue}{{\text{phyper(}}13,100,N_{O}-100,50)}}
<
0.9
{\textstyle <0.9}
Durch Ausprobieren findet man:
N
0
=
499
{\textstyle \quad N_{0}=499}
Damit ist
[
N
U
,
N
O
]
=
[
272
,
499
]
{\textstyle [N_{U},N_{O}]=[272,499]}
das gesuchte Konfidenzintervall zu
δ
=
0.8
{\textstyle \delta =0.8}
.
Einige Zeit nach einem Wiederansiedlungsversuch einer Spezies wollen Sie wissen, ob dieser geglückt ist und die Spezies sich vermehrt hat.
Geben Sie an, wie Sie zur Überprüfung vorgehen würden (Sie können nicht alle Exemplare zählen).
Seien nun
K
=
18
,
n
=
17
und
k
=
7
{\textstyle K=18,n=17\;{\text{und}}\;k=7}
. Bestimmen Sie
N
{\textstyle N}
mittels der einfachen Punktschätzung, stellen Sie die Maximum-Likelihood-Funktion auf, plotten diese in R und führen eine Intervallschätzung mit
δ
=
0.9
{\textstyle \delta =0.9}
durch.
Was fällt Ihnen hinsichtlich der verschiedenen Schätzungen auf? Vergleichen Sie Ihre Ergebnisse.