Kurs:Statistik für Anwender/Allgemeines über Hypothesentests

Hypothesentests

Bearbeiten

Allgemeines über Hypothesentests

Bearbeiten

Beispiele Anwendung von Hypothesentests

Bearbeiten

Hypothesentests eignen sich für viele verschiedene statistische Fragen:

  • Ist die Trefferwahrscheinlichkeit   einer Binomialverteilung größer als   (bzw. kleiner als  , bzw. genau gleich  )?
  • Ist der Erwartungswert   einer normalverteilen Größe größer (bzw. kleiner, bzw. gleich) einem gegebenen Wert  ?
  • Ist eine ZV normalverteilt (bzw. exponentialverteilt)?
  • Ist eine ZV exponentialverteilt mit  ?
  • Sind zwei (oder mehr) ZV unabhängig voneinander?
  • Haben zwei (oder mehr) ZV die gleiche Verteilung?

Einleitung

Bearbeiten

Es gibt viele verschiedene Testverfahren, die sich hinsichtlich Durchführung und Testqualität stark unterscheiden. Wir können im Rahmen dieser Vorlesung nur eine kleine Auswahl vorstellen. In diesem einleitenden Abschitt beschreiben wir die (grundsätzliche) Funktionsweise eines Hypothesentests.

Nullhypothese und Gegenhypothese

Bearbeiten

Der erste Schritt eines Test besteht in der Formulierung der sogenannten Nullhypothese. Die Nullhypothese ist eine Aussage über die Verteilung einer ZV oder über ihre Parameter. Nun soll geprüft werden, ob die Nullhypothese durch die erhobenen Daten (z.B. eine Stichprobe) widerlegt werden kann (mit einer gewissen vorgegebenen Sicherheit) oder nicht. Es ist mit einem Hypothesentest nicht möglich, die Nullhypothese mit einer vorgegebenen Sicherheit zu bestätigen.

Wir bezeichnen die Nullhypothese mit  . Die Gegenaussage nennt man dann Gegenhypothese, sie wird mit   bezeichnet.

Beispiele I

Bearbeiten
  • Es wird vorausgesetzt, dass eine ZV   binomialverteilt ist. Die Trefferwahrscheinlichkeit   ist dabei unbekannt. Man untersucht das Hypothesenpaar:
     
  • Es wird vorausgesetzt, dass eine ZV   normalverteilt ist. Dabei sind   und   unbekannt. Man untersucht das Hypothesenpaar:
     

Beispiele II

Bearbeiten
  • Bei einem Würfel (von dem man bezweifelt, dass er ein Laplace-Würfel ist) seien   die (unbekannten) Wahrscheinlichkeiten für die Augenzahlen  . Man untersucht das Hypothesenpaar:
       
  • Die ZV   beschreibe das Gewicht von Hühnereieren. Man untersucht das Hypothesenpaar:
      ist normalverteilt
      ist nicht normalverteilt

Beispiele III

Bearbeiten
  • Die ZV   und   beschreiben das Wahlverhalten von Männern bzw. Frauen. Man untersucht das Hypothesenpaar:    

Parametrische Verfahren

Bearbeiten

Man unterscheidet Parametrische und Nichtparametrische Verfahren:

  • Parametrische Verfahren: Dabei wird von Beginn an vorausgesetzt, dass eine bestimmte Verteilungsart vorliegt (etwa eine Binomialverteilung bzw. eine Normalverteilung). Die Nullhypothese macht dann eine Aussage über einen oder mehrere Parameter der Verteilung (etwa   bzw.   oder  ).
    Liegt die angenommene Verteilungsart (auch näherungsweise) nicht vor, so wird dies vom Test nicht aufgedeckt. Der Test liefert dann möglicherweise unsinnige Resultate.

Nichtparametrische Verfahren

Bearbeiten
  • Nichtparametrische Verfahren: Im Voraus werden keine Annahmen über die Art der Verteilung(en) gemacht. Der Test kann dann beispielsweise prüfen, ob eine bestimmte Verteilung oder Verteilungsart vorliegen kann oder ob die Daten mit einer ganz bestimmten Verteilung vereinbar sind.

Beispiel fehlerhafte Produkte und Trefferwahrscheinlichkeit

Bearbeiten

Ein Hersteller behauptet, dass seine Maschine mit maximal   ein fehlerhaftes Produkt herstellt. Dies entspricht der Nullhypothese   bezüglich der Trefferwahrscheinlichkeit   einer Binomialverteilung, die angibt, dass ein fehlerhaftes Produkt produziert wurde. Man führt   Versuche durch und erhält dabei   Treffer, d.h. ein fehlerhaftes Produkt. Es ist sinnvoll, die Nullhypothese abzulehnen, wenn   klein ist, also zum Beispiel für  . Die Eine Ablehnung bestärkt so die Aussage des Herstellers. Sollte man   auch für   oder   ablehnen?

Signifikanzniveau

Bearbeiten

Vor der Durchführung eines Tests wird ein Signifikanzniveau   (z.B.  ) und ein Testverfahren festgelegt. Erst danach werden die Daten gesichtet und man kommt (mit dem gewählten Verfahren) zu einer der folgenden Entscheidungen:

Ablehnen oder Nicht-Ablehnen der Nullhypothese I

Bearbeiten
  • Die Nullhypothese ist (zum Signifikanzniveau  ) abzulehnen. Es folgt die Annahme der Gegenhypothese. Falls man (aufgrund der gewählten Methode und den erhobenen Daten) die Nullhypothese ablehnen kann, spricht man von einem signifikanten Ergebnis.
  • Die Nullhypothese kann (zum Signifikanzniveau  ) nicht abgelehnt werden.

Ablehnen oder Nicht-Ablehnen der Nullhypothese II

Bearbeiten

Man beachte: Eine Nicht-Ablehnung der Nullhypothese bedeutet nicht ihre Annahme. In diesem Fall bleibt die Frage nach ihrer Gültigkeit offen. Mögliche Formulierungen des Testergebnisses sind in diesem Fall:

 

Es gibt auch Situationen, in denen der Anwender aufgrund der Vereinbarkeit der Daten mit der Nullhyothese vermutet, dass diese wahr ist, um mit den Daten weiterrechnen zu können. Dies ist eine Vermutung und keine Annahme der Nullhypothese im engeren Sinne.

Fehler erster und zweiter Art

Bearbeiten

Da die Entscheidung bzgl. Ablehnung bzw. Nicht-Ablehnung der Nullhypothese auf den Daten basiert und diese vom Zufall abhängig sind, ist auch die Entscheidung vom Zufall abhängig.
 
 

Es können folgende Fehler auftreten:
 

Anmerkung zum Fehler zweiter Art

Bearbeiten

Der  -Fehler ist kein eigentlicher Fehler, da der Test in diesem Fall keine Aussage macht. Trotzdem möchte man ihn natürlich vermeiden.

Einhaltung des Signifikanzniveaus

Bearbeiten

Zur Einhaltung des vorgegebenen Signifikanzniveaus   ist die folgende zentrale Bedingung unbedingt einzuhalten:
Falls die Nullhypothese zutrifft, so wird sie höchstens mit der Wahrscheinlichkeit   abgelehnt.
kurz: Falls   wahr ist, ist garantiert: 
oder: Die Wahrscheinlichkeit für einen  -Fehler ist höchstens  

Beispiel fehlerhafte Produkte und Trefferwahrscheinlichkeit Fortsetzung I

Bearbeiten
Beispiel I
Bearbeiten

Wir betrachten erneut die Nullhypothese   für die Trefferwahrscheinlichkeit   einer binomialverteilten ZV mit der Versuchszahl  . Die Entscheidung bzgl.   basiert auf der Trefferzahl  . Wir untersuchen verschiedene (plausible) Varianten:

Man legt das Signifikanzniveau auf   fest.

  • Bei einem Testverfahren soll die Nullhypothese für   abgelehnt werden. Die Wahrscheinlichkeit einer Ablehnung von   beträgt dann im Grenzfall  :   Falls   gilt, ist  
    Der Test hält also das Signifikanzniveau ein.
Beispiel II
Bearbeiten
  • Bei einem Testverfahren soll die Nullhypothese für   abgelehnt werden. Die Wahrscheinlichkeit einer Ablehnung von   beträgt dann im Grenzfall  :   Falls   gilt, ist  
    Der Test hält also das Signifikanzniveau ein.
  • Bei einem Testverfahren soll die Nullhypothese für   abgelehnt werden. Die Wahrscheinlichkeit einer Ablehnung von   beträgt dann im Grenzfall  :   Der Test hält also das Signifikanzniveau nicht ein.

p-Wert und Teststatistik

Bearbeiten

p-Wert I

Bearbeiten

Bei vielen Testverfahren kann man den sogenannten  -Wert   zur Einschätzung des Testergebnisses heranziehen. Er entspricht dem minimalen Wert für das Signifikanzniveau  , bei dem die Nullhypothese gerade noch abgelehnt wird.

Der  -Wert ist eine Zahl  , die aus den erhaltenen Daten   berechnet wird (und damit vom Zufall abhängt). Er deutet an, wie glaubhaft es ist, diese Daten zu erhalten, wenn die Nullhypothese wahr ist (und damit umgekehrt, wie glaubhaft die Nullhypothese bei Erhalt dieser Daten ist).

p-Wert II

Bearbeiten

Genauer gesagt, ist der  -Wert eine (genauer gesagt die kleinstmögliche) Oberschranke für die Wahrscheinlichkeit, die erhaltenen Daten oder noch Extremere (d.h. Daten mit einem noch kleineren  -Wert) zu erhalten, falls   wahr ist. Hat man einen bestimmten  -Wert   erhalten, so weiß man:


 

Beispiel Interpretation p-Wert und H0 I
Bearbeiten
  • Hat man aus den Daten einen konkreten  -Wert   bestimmt, so gilt:

Falls   wahr ist, so war (vor der Datenerhebung) die Wahrscheinlichkeit einen solch kleinen (oder noch kleineren) p-Wert zu erhalten höchstens  .
Dies ist kein besonders geringer Wert. Es kann daher durchaus sein, dass   gilt. Der p-Wert und die damit verbundenen Daten sprechen nicht gegen   (bzw. sind mit   vereinbar).

Beispiel Interpretation p-Wert und H0 II
Bearbeiten
  • Hat man aus den Daten einen konkreten  -Wert   bestimmt, so gilt:
    Falls   wahr ist, so war (vor der Datenerhebung) die Wahrscheinlichkeit einen solch kleinen (oder noch kleineren) p-Wert zu erhalten höchstens  .
    Falls   wahr ist, wäre also ein unwahrscheinlicher Fall eingetreten. Der p-Wert und die damit verbundenen Daten sprechen also gegen  .
Beispiel Interpretation p-Wert und H0 III
Bearbeiten
  • Hat man aus den Daten einen konkreten  -Wert   bestimmt, so gilt:
    Falls   wahr ist, so war (vor der Datenerhebung) die Wahrscheinlichkeit einen solch kleinen (oder noch kleineren) p-Wert zu erhalten höchstens  .
    Falls   wahr ist, wäre also ein extrem unwahrscheinlicher Fall eingetreten. Der p-Wert und die damit verbundenen Daten sprechen also stark gegen  .
Ablehnung H0 zu gegebenem Signifikanzniveau
Bearbeiten

Mit dem  -Wert wird also angedeutet, wie extrem die erhaltenen Daten sind, wenn die Nullhypothese gilt: je kleiner der  -Wert, desto unwahrscheinlicher ist das erhaltene Ergebnis, wenn   wahr ist, und folglich umso mehr spricht das Ergebnis gegen die Nullhypothese. (Im Fall   könnte man sicher sein, dass   nicht gilt.)
\textbf{Merke:} Zu einem gegebenen Siginfikanzniveau   lehnt man   ab, wenn gilt:

 
Beispiel fehlerhafte Produkte und Trefferwahrscheinlichkeit Fortsetzung II
Bearbeiten

Wir betrachten erneut das Beispiel   in Bezug auf die Trefferwahrscheinlichkeit   einer Binomialverteilung zur Versuchszahl  :

  • Falls   gilt, ist der ’extremste’ Wert für die Trefferzahl  . Die Wahrscheinlichkeit, dass dieser Fall eintritt, beträgt   und wird (falls   wahr ist) maximal für  , also:   Bei der Trefferzahl   ist der  -Wert also  .
Beispiel fehlerhafte Produkte und Trefferwahrscheinlichkeit Fortsetzung III
Bearbeiten
  • Falls   gilt, ist der ’zweitextremste’ Wert für die Trefferzahl  . Die Wahrscheinlichkeit, dass dieser oder der (noch extremere) Fall   eintritt, beträgt   und wird (falls   wahr ist) maximal für  , also:   Bei der Trefferzahl   ist der  -Wert also  .
Beispiel fehlerhafte Produkte und Trefferwahrscheinlichkeit Fortsetzung IV
Bearbeiten
  • Falls   gilt, ist der ’nächstextremste’ Wert für die Trefferzahl  . Die Wahrscheinlichkeit, dass dieser oder einer der (noch extremeren) Fälle   oder   eintritt, beträgt   und wird (falls   wahr ist) maximal für  , also:   Bei der Trefferzahl   ist der  -Wert also  .
  • und so weiter
Beispiel fehlerhafte Produkte und Trefferwahrscheinlichkeit Fortsetzung V
Bearbeiten

Man sieht, dass sich der  -Wert einer Trefferzahl   (bei dieser Methode) direkt durch   berechnen lässt, also:
 
Für   liegt dieser  -Wert noch unter dem Signifikanzniveau  . Daher kann man   bei 4 Treffern noch ablehnen.
Für   überschreitet der  -Wert das Signifikanzniveau. Daher kann man   bei 5 Treffern nicht mehr ablehnen.

Anmerkung p-Wert und Ablehnung H0
Bearbeiten

Man beachte, dass die Anordnung der verschiedenen Werte von   gemäß der Eigenschaft ’extrem’ im Allgemeinen willkürlich ist. Bei der betrachteten Nullhypothese   besteht die einzige sinnvolle Möglichkeit aber darin, kleine Trefferzahlen als extrem einzustufen. (Wir werden aber auch noch andere Fälle betrachten, in denen diese Festlegung nicht so eindeutig ist und vorab festgelegt werden muss.)

p-Wert als zufällige Größe
Bearbeiten

Der  -Wert wird aus den (zufälligen) Daten ermittelt und ist daher selbst wieder eine zufällige Größe. Erhält man so einen bestimmten  -Wert  , so gilt immer die Bedingung  

Teststatistik:

Bearbeiten

Manche Tests benutzen eine sogenannte Teststatistik (oder Testfunktion)  , um die Nullhypothese   zu bewerten. Die Teststatistik wird aus den Daten (mit einer zuvor festgelegten, möglichst plausiblen) Methode berechnet (und hängt daher vom Zufall ab).

Dabei können hohe oder niedrige Werte der Teststatistik gegen   sprechen. (Dies muss vorher festgelegt werden, ist aber im Zusammenhang mit der Idee der Teststatistik meist klar.)

Zusammenhang p-Wert und Teststatistik
Bearbeiten

Aus der aus den erhaltenen Daten berechneten Teststatistik   ergibt sich dann der  -Wert wie folgt:

Niedrige Werte von T sprechen gegene H0
Bearbeiten
  • Falls niedrige Werte von   gegen   sprechen:

Der p-Wert   ist eine (genauer gesagt die kleinstmögliche) Oberschranke für die Wahrscheinlichkeit, die erhaltenen Daten oder noch Extremere (d.h. Daten mit einer noch kleineren Teststatistik) zu erhalten, falls   wahr ist. Hat man eine bestimmte Teststatistik   erhalten, so weiß man:

 

Hohe Werte von T sprechen gegene H0
Bearbeiten
  • Falls hohe Werte von   gegen   sprechen:

Der p-Wert   ist eine (genauer gesagt die kleinstmögliche) Oberschranke für die Wahrscheinlichkeit, die erhaltenen Daten oder noch Extremere (d.h. Daten mit einer noch größeren Teststatistik) zu erhalten, falls   wahr ist. Hat man eine bestimmte Teststatistik   erhalten, so weiß man:  

Beispiel 1
Bearbeiten
  • Bei der Nullhypothese   für die Trefferwahrscheinlichkeit   einer binomialverteilten ZV   mit der Versuchszahl   ist es sinnvoll, als Teststatistik einfach die Trefferzahl   selbst zu wählen, wobei niedrige Werte von   gegen   sprechen.
Beispiel 2.1
Bearbeiten
  • Man hat die Vermutung, dass bei einem Würfel nicht alle Zahlen mit der gleichen Wahrscheinlichkeit fallen. Man betrachtet daher die Nullhypothese  
    (Dabei seien   die Wahrscheinlichkeiten für die einzlenen Zahlen  .)

    Nun sammelt man Daten: Dazu würfelt man  -mal und erhält dabei absolute Häufigkeiten   für die einzelnen Zahlen.

Beispiel 2.2
Bearbeiten

Eine sinnvolle Methode in deser Situation basiert auf der folgenden (aus   berechneten) Teststatistik:  

Die Idee dabei ist, dass — falls   gilt — die absoluten Häufigkeiten   mit hoher Wahrscheinlichkeit alle nahe bei   liegen. (Die Teststatistik berechnet sich aus den Abweichungen der   von  .)

Beispiel 2.3
Bearbeiten

Es folgend einige Zahlenbeispiele mit konkreten Daten  :

    • Liegen alle   in der Nähe von  , so ist   klein, beispielsweise:    
      Der  -Wert berechnet sich daraus wie folgt:  

    Beispiel 2.4
    Bearbeiten

    Anmerkung: Die Berechnung des p-Werts erfolgt hier näherungsweise mit Methoden, die an dieser Stelle noch nicht unmittelbar nachvollziehbar sind. (Genaueres hierzu folgt später bei der Behandlung von  -Anpassungstests.)

    Die Daten sprechen nicht gegen die Nullhypothese.

    Beispiel 2.5
    Bearbeiten

    Falls einige der   weit weg von   liegen, so ist   groß, beispielsweise:    
    Der  -Wert berechnet sich daraus wie folgt:  

    Beispiel 2.6
    Bearbeiten

    Anmerkung: Die Berechnung des p-Werts erfolgt hier näherungsweise mit Methoden, die an dieser Stelle noch nicht unmittelbar nachvollziehbar sind. (Genaueres hierzu folgt später bei der Behandlung von  -Anpassungstests.)

    Diese Daten sprechen sehr stark gegen die Nullhypothese.


Man sieht: Je größer die Teststatistik   ist, desto kleiner ist der  -Wert   und desto stärker sprechen die Daten gegen  .

Allgemeine Anmerkungen zu Hypothesentests

Bearbeiten

Hier noch einige Anmerkungen zu Hypothesentests im Allgemeinen:

Allgemeine Anmerkungen zu Hypothesentests I

Bearbeiten
  • Zu einem gegebenem Signifikanzniveau   ist eine Nullhypothese genau dann abzulehnen, wenn der  -Wert   ist.

Zu einer korrekten Vorgehensweise gehört es allerdings, das Signifikanzniveau vor der Datenerhebung festzulegen (es darf nicht im Nachhinein gleich oder etwas größer als der  -Wert festgesetzt werden).

Der  -Wert liefert Anhaltspunkte zur Beurteilung der Nullhypothese, die über die reine Frage nach der Ablehnung hinausgehen.

Allgemeine Anmerkungen zu Hypothesentests II

Bearbeiten
  • Beispiel: Für   und   kann man zwar nicht ablehnen, das Ergebnis ist aber im Hinblick auf die Gültigkeit der Nullhypothese dennoch ziemlich unwahrscheinlich.
  • Es ist nicht zulässig, die Nullhypothese erst nach einem Blick auf die Daten auszuwählen. Dann könnte man nämlich eine bestimmte (möglicherweise rein zufällige) Auffälligkeit in den Daten ausnutzen, um ein signifikantes Ergebnis zu erhalten. Da es bei manchen Datenmengen viele denkbare Nullhypothesen gibt, wäre die Wahrscheinlichkeit, dass man auf diese Art und Weise ein signifikantes Ergebnis erhält, deutlich erhöht (und damit größer als übliche Signifikanzniveaus).

Allgemeine Anmerkungen zu Hypothesentests III

Bearbeiten
  • Die Nullhypothese sollte also immer vor der Datenerhebung formuliert werden. Sie sollte idealerweise im Zusammenhang mit einer begründeten Vermutung stehen, diese kann dann mit dem Hypothesentest ggf. statistisch bestätigt werden.

  • In vielen Situationen stehen mehrere Testverfahren zum Überprüfen einer bestimmten Nullhypothese zur Verfügung. Diese liefern dann auch verschiedene  -Werte. Zu einer korrekten Vorgehensweise gehört es, das benutzte Verfahren vor der Datenerhebung auszuwählen (und nicht im Nachhinein eines mit einem geringen  -Wert auszuwählen).

Allgemeine Anmerkungen zu Hypothesentests IV

Bearbeiten
  • In wissenschaftlichen Zeitschriften werden oft bevorzugt signifikante Ergebnisse veröffentlicht. Dies kann zu folgendem Problem führen: Falls   gilt, ist ein signifikantes Ergebnis bei einer einzelnen Untersuchung unwahrscheinlich. Andererseits ist es bei einer Vielzahl von Studien (zum selben Forschungsgegenstand) die Wahrscheinlichkeit, dass einige (wenige) signifikante Ergebnisse entstehen, deutlich erhöht (und damit größer als übliche Signifikanzniveaus). Wenn nur die signifikanten Ergebnisse veröffentlicht werden, kann ein fehlerhaftes Bild entstehen. Diese Problematik ist unter dem Begriff Publikationsbias bekannt.

Seiteninformation

Bearbeiten

Diese Lernresource können Sie als Wiki2Reveal-Foliensatz darstellen.

Wiki2Reveal

Bearbeiten

Dieser Wiki2Reveal Foliensatz wurde für den Lerneinheit Kurs:Statistik für Anwender' erstellt der Link für die Wiki2Reveal-Folien wurde mit dem Wiki2Reveal-Linkgenerator erstellt.