Kurs:Statistik für Anwender/Allgemeines über Hypothesentests

Hypothesentests

Allgemeines über Hypothesentests

Beispiele Anwendung von Hypothesentests

Hypothesentests eignen sich für viele verschiedene statistische Fragen:

Ist die Trefferwahrscheinlichkeit ${\textstyle p}$ einer Binomialverteilung größer als ${\textstyle 0.9}$ (bzw. kleiner als ${\textstyle 0.6}$ , bzw. genau gleich ${\textstyle 0.5}$ )?
Ist der Erwartungswert ${\textstyle \mu }$ einer normalverteilen Größe größer (bzw. kleiner, bzw. gleich) einem gegebenen Wert ${\textstyle \mu _{0}}$ ?
Ist eine ZV normalverteilt (bzw. exponentialverteilt)?
Ist eine ZV exponentialverteilt mit ${\textstyle \lambda =0.0025}$ ?
Sind zwei (oder mehr) ZV unabhängig voneinander?
Haben zwei (oder mehr) ZV die gleiche Verteilung?

Einleitung

Es gibt viele verschiedene Testverfahren, die sich hinsichtlich Durchführung und Testqualität stark unterscheiden. Wir können im Rahmen dieser Vorlesung nur eine kleine Auswahl vorstellen. In diesem einleitenden Abschitt beschreiben wir die (grundsätzliche) Funktionsweise eines Hypothesentests.

Nullhypothese und Gegenhypothese

Der erste Schritt eines Test besteht in der Formulierung der sogenannten Nullhypothese. Die Nullhypothese ist eine Aussage über die Verteilung einer ZV oder über ihre Parameter. Nun soll geprüft werden, ob die Nullhypothese durch die erhobenen Daten (z.B. eine Stichprobe) widerlegt werden kann (mit einer gewissen vorgegebenen Sicherheit) oder nicht. Es ist mit einem Hypothesentest nicht möglich, die Nullhypothese mit einer vorgegebenen Sicherheit zu bestätigen.

Wir bezeichnen die Nullhypothese mit ${\textstyle H_{0}}$ . Die Gegenaussage nennt man dann Gegenhypothese, sie wird mit ${\textstyle H_{1}}$ bezeichnet.

Beispiele I

Es wird vorausgesetzt, dass eine ZV ${\textstyle T}$ binomialverteilt ist. Die Trefferwahrscheinlichkeit ${\textstyle p}$ ist dabei unbekannt. Man untersucht das Hypothesenpaar:
$H_{0}:\ p\geq 0.3\quad \quad H_{1}:\ p<0.3$
Es wird vorausgesetzt, dass eine ZV ${\textstyle X}$ normalverteilt ist. Dabei sind ${\textstyle \mu \in \mathbb {R} }$ und ${\textstyle \sigma >0}$ unbekannt. Man untersucht das Hypothesenpaar:
$H_{0}:\ \mu =50;\quad \quad H_{1}:\ \mu \not =50$

Beispiele II

Bei einem Würfel (von dem man bezweifelt, dass er ein Laplace-Würfel ist) seien ${\textstyle p_{j}\ (j=1,\ldots ,6)}$ die (unbekannten) Wahrscheinlichkeiten für die Augenzahlen ${\textstyle 1,\ldots ,6}$ . Man untersucht das Hypothesenpaar:
$H_{0}:\ p_{j}={\frac {1}{6}}\ {\text{für alle}}\ j=1,\ldots ,6;\quad \quad$ $H_{1}:\ p_{j}\not ={\frac {1}{6}}\ {\text{für mindestens ein}}\ j\in \{1,\ldots ,6\}$
Die ZV ${\textstyle X}$ beschreibe das Gewicht von Hühnereieren. Man untersucht das Hypothesenpaar:
${\textstyle \quad \quad \quad \quad \quad H_{0}:\ X}$ ist normalverteilt
${\textstyle \quad \quad \quad \quad \quad H_{1}:\ X}$ ist nicht normalverteilt

Beispiele III

Die ZV ${\textstyle X}$ und ${\textstyle Y}$ beschreiben das Wahlverhalten von Männern bzw. Frauen. Man untersucht das Hypothesenpaar: $H_{0}:\ X\;{\text{und}}\;Y\;{\text{haben diesselbe Verteilung}}\quad \quad$ $H_{1}:\ X\;{\text{und}}\;Y\;{\text{haben verschiedene Verteilungen}}$

Parametrische Verfahren

Man unterscheidet Parametrische und Nichtparametrische Verfahren:

Parametrische Verfahren: Dabei wird von Beginn an vorausgesetzt, dass eine bestimmte Verteilungsart vorliegt (etwa eine Binomialverteilung bzw. eine Normalverteilung). Die Nullhypothese macht dann eine Aussage über einen oder mehrere Parameter der Verteilung (etwa ${\textstyle p}$ bzw. ${\textstyle \mu }$ oder ${\textstyle \sigma }$ ).
Liegt die angenommene Verteilungsart (auch näherungsweise) nicht vor, so wird dies vom Test nicht aufgedeckt. Der Test liefert dann möglicherweise unsinnige Resultate.

Nichtparametrische Verfahren

Nichtparametrische Verfahren: Im Voraus werden keine Annahmen über die Art der Verteilung(en) gemacht. Der Test kann dann beispielsweise prüfen, ob eine bestimmte Verteilung oder Verteilungsart vorliegen kann oder ob die Daten mit einer ganz bestimmten Verteilung vereinbar sind.

Beispiel fehlerhafte Produkte und Trefferwahrscheinlichkeit

Ein Hersteller behauptet, dass seine Maschine mit maximal $70\%$ ein fehlerhaftes Produkt herstellt. Dies entspricht der Nullhypothese ${\textstyle H_{0}:p\geq 0.7}$ bezüglich der Trefferwahrscheinlichkeit ${\textstyle p}$ einer Binomialverteilung, die angibt, dass ein fehlerhaftes Produkt produziert wurde. Man führt ${\textstyle n=10}$ Versuche durch und erhält dabei ${\textstyle k}$ Treffer, d.h. ein fehlerhaftes Produkt. Es ist sinnvoll, die Nullhypothese abzulehnen, wenn ${\textstyle k}$ klein ist, also zum Beispiel für ${\textstyle k=0,1,2,3}$ . Die Eine Ablehnung bestärkt so die Aussage des Herstellers. Sollte man ${\textstyle H_{0}}$ auch für ${\textstyle k=4}$ oder ${\textstyle k=5}$ ablehnen?

Signifikanzniveau

Vor der Durchführung eines Tests wird ein Signifikanzniveau ${\textstyle \alpha }$ (z.B. ${\textstyle \alpha =0.05}$ ) und ein Testverfahren festgelegt. Erst danach werden die Daten gesichtet und man kommt (mit dem gewählten Verfahren) zu einer der folgenden Entscheidungen:

Ablehnen oder Nicht-Ablehnen der Nullhypothese I

Die Nullhypothese ist (zum Signifikanzniveau ${\textstyle \alpha }$ ) abzulehnen. Es folgt die Annahme der Gegenhypothese. Falls man (aufgrund der gewählten Methode und den erhobenen Daten) die Nullhypothese ablehnen kann, spricht man von einem signifikanten Ergebnis.
Die Nullhypothese kann (zum Signifikanzniveau ${\textstyle \alpha }$ ) nicht abgelehnt werden.

Ablehnen oder Nicht-Ablehnen der Nullhypothese II

Man beachte: Eine Nicht-Ablehnung der Nullhypothese bedeutet nicht ihre Annahme. In diesem Fall bleibt die Frage nach ihrer Gültigkeit offen. Mögliche Formulierungen des Testergebnisses sind in diesem Fall:

{\begin{array}{cl }&{\text{Die Nullhypothese wird nicht abgelehnt.}}\\{\text{oder}}&{\text{Die Nullhypothese ist mit den Daten vereinbar.}}\end{array}}

Es gibt auch Situationen, in denen der Anwender aufgrund der Vereinbarkeit der Daten mit der Nullhyothese vermutet, dass diese wahr ist, um mit den Daten weiterrechnen zu können. Dies ist eine Vermutung und keine Annahme der Nullhypothese im engeren Sinne.

Fehler erster und zweiter Art

Da die Entscheidung bzgl. Ablehnung bzw. Nicht-Ablehnung der Nullhypothese auf den Daten basiert und diese vom Zufall abhängig sind, ist auch die Entscheidung vom Zufall abhängig.
${\textstyle {\text{ZV, über die }}H_{0}{\text{ eine Aussage macht}}\quad {\stackrel {\text{zufällig}}{\longrightarrow }}\quad {\text{Daten}}}$
${\textstyle \quad {\stackrel {\text{methodisch}}{\longrightarrow }}\quad {\text{Entscheidung bzgl. }}H_{0}}$

Es können folgende Fehler auftreten:
${\begin{array}{|r||c|c|}\hline &{\text{Nullhypothese wird abgelehnt}}&{\text{Nullhypothese wird nicht abgelehnt}}\\\hline \hline {\text{Nullhypothese trifft zu}}&{\text{Fehler erster Art (}}\alpha {\text{-Fehler)}}&{\text{kein Fehler}}\\\hline {\text{Nullhypothese trifft nicht zu}}&{\text{ kein Fehler}}&{\text{Fehler zweiter Art (}}\beta {\text{-Fehler)}}\\\hline \end{array}}$

Anmerkung zum Fehler zweiter Art

Der ${\textstyle \beta }$ -Fehler ist kein eigentlicher Fehler, da der Test in diesem Fall keine Aussage macht. Trotzdem möchte man ihn natürlich vermeiden.

Einhaltung des Signifikanzniveaus

Zur Einhaltung des vorgegebenen Signifikanzniveaus ${\textstyle \alpha }$ ist die folgende zentrale Bedingung unbedingt einzuhalten:
Falls die Nullhypothese zutrifft, so wird sie höchstens mit der Wahrscheinlichkeit $\alpha$ abgelehnt.
kurz: Falls $H_{0}$ wahr ist, ist garantiert: $\;P\left(H_{0}\ {\text{wird abgelehnt}}\right)\leq \alpha$
oder: Die Wahrscheinlichkeit für einen $\alpha$ -Fehler ist höchstens $\alpha$

Beispiel fehlerhafte Produkte und Trefferwahrscheinlichkeit Fortsetzung I

Beispiel I

Wir betrachten erneut die Nullhypothese ${\textstyle H_{0}:p\geq 0.7\;}$ für die Trefferwahrscheinlichkeit ${\textstyle p}$ einer binomialverteilten ZV mit der Versuchszahl ${\textstyle n=10}$ . Die Entscheidung bzgl. ${\textstyle H_{0}}$ basiert auf der Trefferzahl ${\textstyle T}$ . Wir untersuchen verschiedene (plausible) Varianten:

Man legt das Signifikanzniveau auf ${\textstyle \alpha =0.1}$ fest.

Bei einem Testverfahren soll die Nullhypothese für ${\textstyle T\leq 3}$ abgelehnt werden. Die Wahrscheinlichkeit einer Ablehnung von ${\textstyle H_{0}}$ beträgt dann im Grenzfall ${\textstyle p=0.7\ (\ast )}$ : $P\left(H_{0}\ {\text{wird abgelehnt}}\right)=P(T\leq 3){\stackrel {(\ast )}{=}}\sum \limits _{j=0}^{3}{10 \choose j}(0.7)^{j}(0.3)^{n-j}=0.0106$ Falls ${\textstyle H_{0}}$ gilt, ist ${\textstyle p\geq 0.7\quad \Rightarrow \quad P\left({\text{Ablehnung}}\right)=P(T\leq 3)\leq 0.0106<\alpha }$
Der Test hält also das Signifikanzniveau ein.

Beispiel II

Bei einem Testverfahren soll die Nullhypothese für ${\textstyle T\leq 4}$ abgelehnt werden. Die Wahrscheinlichkeit einer Ablehnung von ${\textstyle H_{0}}$ beträgt dann im Grenzfall ${\textstyle p=0.7\ (\ast )}$ : $P\left(H_{0}\ {\text{wird abgelehnt}}\right)=P(T\leq 4){\stackrel {(\ast )}{=}}\sum \limits _{j=0}^{4}{10 \choose j}(0.7)^{j}(0.3)^{n-j}=0.0473$ Falls ${\textstyle H_{0}}$ gilt, ist ${\textstyle p\geq 0.7\quad \Rightarrow \quad P\left({\text{Ablehnung}}\right)=P(T\leq 4)\leq 0.0473<\alpha }$
Der Test hält also das Signifikanzniveau ein.
Bei einem Testverfahren soll die Nullhypothese für ${\textstyle T\leq 5}$ abgelehnt werden. Die Wahrscheinlichkeit einer Ablehnung von ${\textstyle H_{0}}$ beträgt dann im Grenzfall ${\textstyle p=0.7\ (\ast )}$ : $P\left(H_{0}\ {\text{wird abgelehnt}}\right)=P(T\leq 5){\stackrel {(\ast )}{=}}\sum \limits _{j=0}^{4}{10 \choose j}(0.7)^{j}(0.3)^{n-j}=0.1503\not <\alpha$ Der Test hält also das Signifikanzniveau nicht ein.

p-Wert und Teststatistik

p-Wert I

Bei vielen Testverfahren kann man den sogenannten ${\textstyle p}$ -Wert ${\textstyle {\mathfrak {p}}}$ zur Einschätzung des Testergebnisses heranziehen. Er entspricht dem minimalen Wert für das Signifikanzniveau ${\textstyle \alpha }$ , bei dem die Nullhypothese gerade noch abgelehnt wird.

Der ${\textstyle p}$ -Wert ist eine Zahl ${\textstyle {\mathfrak {p}}\in [0,1]}$ , die aus den erhaltenen Daten ${\textstyle D}$ berechnet wird (und damit vom Zufall abhängt). Er deutet an, wie glaubhaft es ist, diese Daten zu erhalten, wenn die Nullhypothese wahr ist (und damit umgekehrt, wie glaubhaft die Nullhypothese bei Erhalt dieser Daten ist).

p-Wert II

Genauer gesagt, ist der ${\textstyle p}$ -Wert eine (genauer gesagt die kleinstmögliche) Oberschranke für die Wahrscheinlichkeit, die erhaltenen Daten oder noch Extremere (d.h. Daten mit einem noch kleineren ${\textstyle p}$ -Wert) zu erhalten, falls ${\textstyle H_{0}}$ wahr ist. Hat man einen bestimmten ${\textstyle p}$ -Wert ${\textstyle {\mathfrak {p}}^{\ast }}$ erhalten, so weiß man:

${\text{Falls }}H_{0}{\text{ gilt, ist:}}\quad \underbrace {P\left({\mathfrak {p}}\leq {\mathfrak {p}}^{\ast }\right)} _{\text{ für einen zufälligen p-Wert}}\leq {\mathfrak {p}}^{\ast }$

Beispiel Interpretation p-Wert und H0 I

Hat man aus den Daten einen konkreten ${\textstyle p}$ -Wert ${\textstyle {\mathfrak {p}}^{\ast }=0.243}$ bestimmt, so gilt:

Falls ${\textstyle H_{0}}$ wahr ist, so war (vor der Datenerhebung) die Wahrscheinlichkeit einen solch kleinen (oder noch kleineren) p-Wert zu erhalten höchstens ${\textstyle 0.243}$ .
Dies ist kein besonders geringer Wert. Es kann daher durchaus sein, dass ${\textstyle H_{0}}$ gilt. Der p-Wert und die damit verbundenen Daten sprechen nicht gegen ${\textstyle H_{0}}$ (bzw. sind mit ${\textstyle H_{0}}$ vereinbar).

Beispiel Interpretation p-Wert und H0 II

Hat man aus den Daten einen konkreten ${\textstyle p}$ -Wert ${\textstyle {\mathfrak {p}}^{\ast }=0.0243}$ bestimmt, so gilt:
Falls ${\textstyle H_{0}}$ wahr ist, so war (vor der Datenerhebung) die Wahrscheinlichkeit einen solch kleinen (oder noch kleineren) p-Wert zu erhalten höchstens ${\textstyle 0.0243}$ .
Falls ${\textstyle H_{0}}$ wahr ist, wäre also ein unwahrscheinlicher Fall eingetreten. Der p-Wert und die damit verbundenen Daten sprechen also gegen ${\textstyle H_{0}}$ .

Beispiel Interpretation p-Wert und H0 III

Hat man aus den Daten einen konkreten ${\textstyle p}$ -Wert ${\textstyle {\mathfrak {p}}^{\ast }=0.00243}$ bestimmt, so gilt:
Falls ${\textstyle H_{0}}$ wahr ist, so war (vor der Datenerhebung) die Wahrscheinlichkeit einen solch kleinen (oder noch kleineren) p-Wert zu erhalten höchstens ${\textstyle 0.00243}$ .
Falls ${\textstyle H_{0}}$ wahr ist, wäre also ein extrem unwahrscheinlicher Fall eingetreten. Der p-Wert und die damit verbundenen Daten sprechen also stark gegen ${\textstyle H_{0}}$ .

Ablehnung H0 zu gegebenem Signifikanzniveau

Mit dem ${\textstyle p}$ -Wert wird also angedeutet, wie extrem ${\textstyle \;}$ die erhaltenen Daten sind, wenn die Nullhypothese gilt: je kleiner der ${\textstyle p}$ -Wert, desto unwahrscheinlicher ist das erhaltene Ergebnis, wenn ${\textstyle H_{0}}$ wahr ist, und folglich umso mehr spricht das Ergebnis gegen die Nullhypothese. (Im Fall ${\textstyle {\mathfrak {p}}=0}$ könnte man sicher sein, dass ${\textstyle H_{0}}$ nicht gilt.)
\textbf{Merke:} Zu einem gegebenen Siginfikanzniveau $\alpha$ lehnt man $H_{0}$ ab, wenn gilt:

{\mathfrak {p}}\leq \alpha

Beispiel fehlerhafte Produkte und Trefferwahrscheinlichkeit Fortsetzung II

Wir betrachten erneut das Beispiel ${\textstyle H_{0}:p\geq 0.7}$ in Bezug auf die Trefferwahrscheinlichkeit ${\textstyle p}$ einer Binomialverteilung zur Versuchszahl ${\textstyle n=10}$ :

Falls ${\textstyle H_{0}}$ gilt, ist der ’extremste’ Wert für die Trefferzahl ${\textstyle T^{\ast }=k=0}$ . Die Wahrscheinlichkeit, dass dieser Fall eintritt, beträgt ${\textstyle P(T=0)={10 \choose 0}p^{0}(1-p)^{10-0}}$ und wird (falls ${\textstyle H_{0}}$ wahr ist) maximal für ${\textstyle p=0.7}$ , also: $H_{0}\ {\text{gilt}}\quad \Rightarrow \quad P(T=0)\leq {10 \choose 0}(0.7)^{0}(1-0.7)^{10-0}\approx 0.00001$ Bei der Trefferzahl ${\textstyle T^{\ast }=k=0}$ ist der ${\textstyle p}$ -Wert also ${\textstyle {\mathfrak {p}}^{\ast }=0.00001}$ .

Beispiel fehlerhafte Produkte und Trefferwahrscheinlichkeit Fortsetzung III

Falls ${\textstyle H_{0}}$ gilt, ist der ’zweitextremste’ Wert für die Trefferzahl ${\textstyle T^{\ast }=k=1}$ . Die Wahrscheinlichkeit, dass dieser oder der (noch extremere) Fall ${\textstyle T=0}$ eintritt, beträgt ${\textstyle P(T\leq 1)=\sum \limits _{j=0}^{1}{10 \choose j}p^{j}(1-p)^{10-j}}$ und wird (falls ${\textstyle H_{0}}$ wahr ist) maximal für ${\textstyle p=0.7}$ , also: $H_{0}\ {\text{gilt}}\quad \Rightarrow \quad P(T\leq 1)\leq \sum \limits _{j=0}^{1}{10 \choose j}(0.7)^{j}(1-0.7)^{10-j}\approx 0.00014$ Bei der Trefferzahl ${\textstyle T^{\ast }=k=0}$ ist der ${\textstyle p}$ -Wert also ${\textstyle {\mathfrak {p}}^{\ast }=0.00014}$ .

Beispiel fehlerhafte Produkte und Trefferwahrscheinlichkeit Fortsetzung IV

Falls ${\textstyle H_{0}}$ gilt, ist der ’nächstextremste’ Wert für die Trefferzahl ${\textstyle T^{\ast }=k=2}$ . Die Wahrscheinlichkeit, dass dieser oder einer der (noch extremeren) Fälle ${\textstyle T=0}$ oder ${\textstyle T=1}$ eintritt, beträgt ${\textstyle P(T\leq 2)=\sum \limits _{j=0}^{2}{10 \choose j}p^{j}(1-p)^{10-j}}$ und wird (falls ${\textstyle H_{0}}$ wahr ist) maximal für ${\textstyle p=0.7}$ , also: $H_{0}\ {\text{gilt}}\quad \Rightarrow \quad P(T\leq 2)\leq \sum \limits _{j=0}^{2}{10 \choose j}(0.7)^{j}(1-0.7)^{10-j}\approx 0.00159$ Bei der Trefferzahl ${\textstyle T^{\ast }=2}$ ist der ${\textstyle p}$ -Wert also ${\textstyle {\mathfrak {p}}^{\ast }=0.00159}$ .
und so weiter

Beispiel fehlerhafte Produkte und Trefferwahrscheinlichkeit Fortsetzung V

Man sieht, dass sich der ${\textstyle p}$ -Wert einer Trefferzahl ${\textstyle T^{\ast }=k}$ (bei dieser Methode) direkt durch ${\textstyle {\mathfrak {p}}^{\ast }=\sum \limits _{j=0}^{k}{n \choose j}(p_{0})^{j}(1-p_{0})^{n-j}}$ berechnen lässt, also:
${\begin{array}{|c||c|c|c|c|c|c|c|c|c|c|c|}\hline \ T^{\ast }=k&0&1&2&3&4&5&6&7&8&9&10\\\hline \ {\mathfrak {p}}^{\ast }&0.00001&0.00014&0.00159&0.01059&0.04735&0.15027&0.35039&0.61722&0.85069&0.97175&1\\\hline \end{array}}$
Für ${\textstyle T^{\ast }=k=4}$ liegt dieser ${\textstyle p}$ -Wert noch unter dem Signifikanzniveau ${\textstyle \alpha =0.1}$ . Daher kann man ${\textstyle H_{0}}$ bei 4 Treffern noch ablehnen.
Für ${\textstyle T^{\ast }=k=5}$ überschreitet der ${\textstyle p}$ -Wert das Signifikanzniveau. Daher kann man ${\textstyle H_{0}}$ bei 5 Treffern nicht mehr ablehnen.

Anmerkung p-Wert und Ablehnung H0

Man beachte, dass die Anordnung der verschiedenen Werte von ${\textstyle k}$ gemäß der Eigenschaft ’extrem’ im Allgemeinen willkürlich ist. Bei der betrachteten Nullhypothese ${\textstyle \;H_{0}:p\geq 0.7}$ besteht die einzige sinnvolle Möglichkeit aber darin, kleine Trefferzahlen als extrem einzustufen. (Wir werden aber auch noch andere Fälle betrachten, in denen diese Festlegung nicht so eindeutig ist und vorab festgelegt werden muss.)

p-Wert als zufällige Größe

Der ${\textstyle p}$ -Wert wird aus den (zufälligen) Daten ermittelt und ist daher selbst wieder eine zufällige Größe. Erhält man so einen bestimmten ${\textstyle p}$ -Wert ${\textstyle {\mathfrak {p}}^{\ast }}$ , so gilt immer die Bedingung ${\text{Wenn }}H_{0}{\text{ wahr ist, so folgt:}}\quad \underbrace {P\left({\mathfrak {p}}\leq {\mathfrak {p}}^{\ast }\right)} _{\text{ für einen zufälligen p-Wert}}\leq {\mathfrak {p}}^{\ast }$

Teststatistik:

Manche Tests benutzen eine sogenannte Teststatistik (oder Testfunktion) ${\textstyle T}$ , um die Nullhypothese ${\textstyle H_{0}}$ zu bewerten. Die Teststatistik wird aus den Daten (mit einer zuvor festgelegten, möglichst plausiblen) Methode berechnet (und hängt daher vom Zufall ab).

Dabei können hohe oder niedrige Werte der Teststatistik gegen ${\textstyle H_{0}}$ sprechen. (Dies muss vorher festgelegt werden, ist aber im Zusammenhang mit der Idee der Teststatistik meist klar.)

Zusammenhang p-Wert und Teststatistik

Aus der aus den erhaltenen Daten berechneten Teststatistik ${\textstyle T^{\ast }}$ ergibt sich dann der ${\textstyle p}$ -Wert wie folgt:

Niedrige Werte von T sprechen gegene H0

Falls niedrige Werte von ${\textstyle T}$ gegen ${\textstyle H_{0}}$ sprechen:

Der p-Wert ${\textstyle {\mathfrak {p}}^{\ast }}$ ist eine (genauer gesagt die kleinstmögliche) Oberschranke für die Wahrscheinlichkeit, die erhaltenen Daten oder noch Extremere (d.h. Daten mit einer noch kleineren Teststatistik) zu erhalten, falls ${\textstyle H_{0}}$ wahr ist. Hat man eine bestimmte Teststatistik ${\textstyle T^{\ast }}$ erhalten, so weiß man:

${\text{Falls }}H_{0}{\text{ gilt, ist:}}\quad \underbrace {P\left(T\leq T^{\ast }\right)} _{\text{ für eine zufällige Testatistik }}\leq {\mathfrak {p}}^{\ast }$

Hohe Werte von T sprechen gegene H0

Falls hohe Werte von ${\textstyle T}$ gegen ${\textstyle H_{0}}$ sprechen:

Der p-Wert ${\textstyle {\mathfrak {p}}^{\ast }}$ ist eine (genauer gesagt die kleinstmögliche) Oberschranke für die Wahrscheinlichkeit, die erhaltenen Daten oder noch Extremere (d.h. Daten mit einer noch größeren Teststatistik) zu erhalten, falls ${\textstyle H_{0}}$ wahr ist. Hat man eine bestimmte Teststatistik ${\textstyle T^{\ast }}$ erhalten, so weiß man: ${\text{Falls }}H_{0}{\text{ gilt, ist:}}\quad \underbrace {P\left(T\geq T^{\ast }\right)} _{\text{für eine zufällige Testatistik T}}\leq {\mathfrak {p}}^{\ast }$

Beispiel 1

Bei der Nullhypothese ${\textstyle H_{0}:p\geq 0.7}$ für die Trefferwahrscheinlichkeit ${\textstyle p}$ einer binomialverteilten ZV ${\textstyle T}$ mit der Versuchszahl ${\textstyle n=10}$ ist es sinnvoll, als Teststatistik einfach die Trefferzahl ${\textstyle T}$ selbst zu wählen, wobei niedrige Werte von ${\textstyle T}$ gegen ${\textstyle H_{0}}$ sprechen.

Beispiel 2.1

Man hat die Vermutung, dass bei einem Würfel nicht alle Zahlen mit der gleichen Wahrscheinlichkeit fallen. Man betrachtet daher die Nullhypothese $H_{0}:\ p_{1}=p_{2}=\ldots =p_{6}={\frac {1}{6}}$
(Dabei seien ${\textstyle p_{1},\ldots ,,p_{6}}$ die Wahrscheinlichkeiten für die einzlenen Zahlen ${\textstyle 1,\ldots ,6}$ .)
Nun sammelt man Daten: Dazu würfelt man ${\textstyle 600}$ -mal und erhält dabei absolute Häufigkeiten ${\textstyle h_{1},\ldots ,h_{6}}$ für die einzelnen Zahlen.

Beispiel 2.2

Eine sinnvolle Methode in deser Situation basiert auf der folgenden (aus ${\textstyle h_{1},\ldots ,h_{6}}$ berechneten) Teststatistik: ${\textstyle \quad T={\frac {1}{100}}\cdot \sum \limits _{k=1}^{6}(h_{k}-100)^{2}}$

Die Idee dabei ist, dass — falls ${\textstyle H_{0}}$ gilt — die absoluten Häufigkeiten ${\textstyle h_{1},\ldots ,h_{6}}$ mit hoher Wahrscheinlichkeit alle nahe bei ${\textstyle 100}$ liegen. (Die Teststatistik berechnet sich aus den Abweichungen der ${\textstyle h_{k}}$ von ${\textstyle 100}$ .)

Beispiel 2.3

Es folgend einige Zahlenbeispiele mit konkreten Daten ${\textstyle h_{1}^{\ast },\ldots ,h_{6}^{\ast }}$ :

Liegen alle ${\textstyle h_{k}^{\ast }}$ in der Nähe von ${\textstyle 100}$ , so ist ${\textstyle T^{\ast }}$ klein, beispielsweise: $h_{1}^{\ast }=96,\ h_{2}^{\ast }=101,\ h_{3}^{\ast }=97,\ h_{4}^{\ast }=111,\ h_{5}^{\ast }=103,\ h_{6}^{\ast }=92$ ${\begin{aligned}T^{\ast }&=2.2\end{aligned}}$
Der ${\textstyle p}$ -Wert berechnet sich daraus wie folgt: ${\textstyle \quad {\mathfrak {p}}^{\ast }=\underbrace {P(T\geq 2.2)} _{{\text{falls}}\ H_{0}\ {\text{gilt}}}\approx 0.8208}$

Beispiel 2.4

Anmerkung: Die Berechnung des p-Werts erfolgt hier näherungsweise mit Methoden, die an dieser Stelle noch nicht unmittelbar nachvollziehbar sind. (Genaueres hierzu folgt später bei der Behandlung von ${\textstyle \chi ^{2}}$ -Anpassungstests.)

Beispiel 2.5

Falls einige der ${\textstyle h_{k}^{\ast }}$ weit weg von ${\textstyle 100}$ liegen, so ist ${\textstyle T^{\ast }}$ groß, beispielsweise: $h_{1}^{\ast }=76,\ h_{2}^{\ast }=87,\ h_{3}^{\ast }=117,\ h_{4}^{\ast }=139,\ h_{5}^{\ast }=100,\ h_{6}^{\ast }=81$ ${\begin{aligned}T^{\ast }&=29.16\end{aligned}}$
Der ${\textstyle p}$ -Wert berechnet sich daraus wie folgt: ${\textstyle \quad {\mathfrak {p}}^{\ast }=\underbrace {P(T\geq 2.2)} _{{\text{falls}}\ H_{0}\ {\text{gilt}}}\approx 0.00002157}$

Beispiel 2.6

Anmerkung: Die Berechnung des p-Werts erfolgt hier näherungsweise mit Methoden, die an dieser Stelle noch nicht unmittelbar nachvollziehbar sind. (Genaueres hierzu folgt später bei der Behandlung von ${\textstyle \chi ^{2}}$ -Anpassungstests.)

Man sieht: Je größer die Teststatistik ${\textstyle T^{\ast }}$ ist, desto kleiner ist der ${\textstyle p}$ -Wert ${\textstyle {\mathfrak {p}}^{\ast }}$ und desto stärker sprechen die Daten gegen ${\textstyle H_{0}}$ .

Allgemeine Anmerkungen zu Hypothesentests

Hier noch einige Anmerkungen zu Hypothesentests im Allgemeinen:

Allgemeine Anmerkungen zu Hypothesentests I

Zu einem gegebenem Signifikanzniveau ${\textstyle \alpha }$ ist eine Nullhypothese genau dann abzulehnen, wenn der ${\textstyle p}$ -Wert ${\textstyle {\mathfrak {p}}\leq \alpha }$ ist.

Zu einer korrekten Vorgehensweise gehört es allerdings, das Signifikanzniveau vor der Datenerhebung festzulegen (es darf nicht im Nachhinein gleich oder etwas größer als der ${\textstyle p}$ -Wert festgesetzt werden).

Der ${\textstyle p}$ -Wert liefert Anhaltspunkte zur Beurteilung der Nullhypothese, die über die reine Frage nach der Ablehnung hinausgehen.

Allgemeine Anmerkungen zu Hypothesentests II

Beispiel: Für ${\textstyle \alpha =0.05}$ und ${\textstyle {\mathfrak {p}}=0.07}$ kann man zwar nicht ablehnen, das Ergebnis ist aber im Hinblick auf die Gültigkeit der Nullhypothese dennoch ziemlich unwahrscheinlich.

Es ist nicht zulässig, die Nullhypothese erst nach einem Blick auf die Daten auszuwählen. Dann könnte man nämlich eine bestimmte (möglicherweise rein zufällige) Auffälligkeit in den Daten ausnutzen, um ein signifikantes Ergebnis zu erhalten. Da es bei manchen Datenmengen viele denkbare Nullhypothesen gibt, wäre die Wahrscheinlichkeit, dass man auf diese Art und Weise ein signifikantes Ergebnis erhält, deutlich erhöht (und damit größer als übliche Signifikanzniveaus).

Allgemeine Anmerkungen zu Hypothesentests III

Die Nullhypothese sollte also immer vor der Datenerhebung formuliert werden. Sie sollte idealerweise im Zusammenhang mit einer begründeten Vermutung stehen, diese kann dann mit dem Hypothesentest ggf. statistisch bestätigt werden.

In vielen Situationen stehen mehrere Testverfahren zum Überprüfen einer bestimmten Nullhypothese zur Verfügung. Diese liefern dann auch verschiedene ${\textstyle p}$ -Werte. Zu einer korrekten Vorgehensweise gehört es, das benutzte Verfahren vor der Datenerhebung auszuwählen (und nicht im Nachhinein eines mit einem geringen ${\textstyle p}$ -Wert auszuwählen).

Allgemeine Anmerkungen zu Hypothesentests IV

In wissenschaftlichen Zeitschriften werden oft bevorzugt signifikante Ergebnisse veröffentlicht. Dies kann zu folgendem Problem führen: Falls ${\textstyle H_{0}}$ gilt, ist ein signifikantes Ergebnis bei einer einzelnen Untersuchung unwahrscheinlich. Andererseits ist es bei einer Vielzahl von Studien (zum selben Forschungsgegenstand) die Wahrscheinlichkeit, dass einige (wenige) signifikante Ergebnisse entstehen, deutlich erhöht (und damit größer als übliche Signifikanzniveaus). Wenn nur die signifikanten Ergebnisse veröffentlicht werden, kann ein fehlerhaftes Bild entstehen. Diese Problematik ist unter dem Begriff Publikationsbias bekannt.

Seiteninformation

Diese Lernresource können Sie als Wiki2Reveal-Foliensatz darstellen.

Wiki2Reveal

Dieser Wiki2Reveal Foliensatz wurde für den Lerneinheit Kurs:Statistik für Anwender' erstellt der Link für die Wiki2Reveal-Folien wurde mit dem Wiki2Reveal-Linkgenerator erstellt.

Die Seite wurde als Dokumententyp PanDocElectron-SLIDE erstellt.
Link zur Quelle in Wikiversity: https://de.wikiversity.org/wiki/Kurs:Statistik%20f%C3%BCr%20Anwender/Allgemeines%20%C3%BCber%20Hypothesentests
siehe auch weitere Informationen zu Wiki2Reveal und unter Wiki2Reveal-Linkgenerator.