Allgemeines über Hypothesentests (1)

Bearbeiten

Für viele dieser Fragestellungen gibt es verschiedene Testverfahren, die sich hinsichtlich Durchführung und Testqualität stark unterscheiden. Wir können im Rahmen dieser Vorlesung nur eine kleine Auswahl vorstellen. In diesem einleitenden Abschnitt beschreiben wir die (grundsätzliche) Funktionsweise eines Hypothesentests.

Der erste Schritt eines Test besteht in der Formulierung der sogenannten Nullhypothese. Die Nullhypothese ist eine Aussage über die Verteilung einer ZV oder über ihre Parameter. Nun soll geprüft werden, ob die Nullhypothese durch die erhobenen Daten (z.B. eine Stichprobe) widerlegt werden kann (mit einer gewissen vorgegebenen Sicherheit) oder nicht.

Allgemeines über Hypothesentests (2)

Bearbeiten

Es ist mit einem Hypothesentest nicht möglich, die Nullhypothese mit einer vorgegebenen Sicherheit zu bestätigen. Wir bezeichnen die Nullhypothese mit  . Die Gegenaussage nennt man dann Gegenhypothese, sie wird mit   bezeichnet.

Man unterscheidet:

  • Parametrische Verfahren: Dabei wird von Beginn an vorausgesetzt, dass eine bestimmte Verteilungsart vorliegt (etwa eine Binomialverteilung bzw. eine Normalverteilung usw.). Die Nullhypothese macht dann eine Aussage über einen oder mehrere Parameter der Verteilung (etwa   bzw.   und/oder  ).

Allgemeines über Hypothesentests (3)

Bearbeiten

Liegt die angenommene Verteilungsart (auch näherungsweise) nicht vor, so wird dies vom Test nicht aufgedeckt. Der Test liefert dann möglicherweise unsinnige Resultate.

  • Nichtparametrische Verfahren: Im Voraus werden keine Annahmen über die Art der Verteilung(en) gemacht. Der Test kann dann beispielsweise prüfen, ob eine bestimmte Verteilung oder Verteilungsart vorliegen kann oder ob die Daten mit einer ganz bestimmten Verteilung vereinbar sind.

Allgemeines über Hypothesentests (4)

Bearbeiten

Vor der Durchführung eines Tests wird ein Signifikanzniveau   (z.B.  ) und ein Testverfahren festgelegt. Erst werden die Daten gesichtet und man kommt (mit dem gewählten Verfahren) zu einer der folgenden Entscheidungen:

  • Die Nullhypothese ist (zum Signifikanzniveau  ) abzulehnen.

Falls man (aufgrund der gewählten Methode und den erhobenen Daten) die Nullhypothese ablehnen kann, spricht man von einem signifikanten Ergebnis.

  • Die Nullhypothese kann (zum Signifikanzniveau  ) nicht abgelehnt werden.

Allgemeines über Hypothesentests (5)

Bearbeiten

Man beachte: Eine Nicht-Ablehnung der Nullhypothese bedeutet ihre Annahme. In diesem Fall bleibt die Frage nach ihrer Gültigkeit offen. Mögliche Formulierungen des Testergebnisses sind in diesem Fall:
 

Da die Entscheidung bzgl. Ablehnung bzw. Nicht-Ablehnung der Nullhypothese auf den Daten basiert und diese vom Zufall abhängig sind, ist auch die Entscheidung vom Zufall abhängig
 

p-Wert und Teststatistik (1)

Bearbeiten

Bei vielen Testverfahren kann man den sogenannten  -Wert   zur Einschätzung des Testergebnisses heranziehen. Er entspricht dem minimalen Wert für das Signifikanzniveau   bei dem die Nullhypothese gerade noch abgelehnt wird.

Der  -Wert ist eine Zahl  , die aus den erhaltenen Daten   berechnet wird (und damit vom Zufall abhängt). Er deutet an, wie glaubhaft es ist, diese Daten zu erhalten, wenn die Nullhypothese wahr ist (und damit umgekehrt, wie glaubhaft die Nullhypothese bei Erhalt dieser Daten ist).

Genauer gesagt ist der  -Wert eine (genauer gesagt die kleinstmögliche) Oberschranke für die Wahrscheinlichkeit, die erhaltenen Daten oder noch Extremere (d.h. Daten mit einem noch kleineren  -Wert) zu erhalten, falls   wahr ist.

p-Wert und Teststatistik (2)

Bearbeiten

Hat man einen bestimmten  -Wert   erhalten, so weiß man:  

Mit dem  -Wert wird also angedeutet, wie extrem die erhaltenen Daten sind, wenn die Nullhypothese gilt: je kleiner der  -Wert, desto unwahrscheinlicher ist das erhaltene Ergebnis, wenn   wahr ist, und folglich umso mehr spricht das Ergebnis gegen die Nullhypothese. (Im Fall   könnte man sicher sein, dass   nicht gilt.)


p-Wert und Teststatistik (3)

Bearbeiten

Manche Tests benutzen eine sogenannte Teststatistik (oder Testfunktion)  , um die Nullhypothese   zu bewerten. Die Teststatistik wird aus den Daten (mit einer zuvor festgelegten, möglichst plausiblen) Methode berechnet (und hängt daher vom Zufall ab).

Dabei können hohe oder niedrige Werte der Teststatistik gegen   sprechen. (Dies muss vorher festgelegt werden, ist aber im Zusammenhang mit der Idee der Teststatistik meist klar.)

Aus der aus den erhaltenen Daten berechneten Teststatistik   ergibt sich dann der  -Wert wie folgt:

p-Wert und Teststatistik (4)

Bearbeiten
  • Der p-Wert   ist eine (genauer gesagt die kleinstmögliche) Oberschranke für die Wahrscheinlichkeit, die erhaltenen Daten oder noch Extremere (d.h. Daten mit einer noch kleineren Teststatistik) zu erhalten, falls   wahr ist. Hat man eine bestimmte Teststatistik   erhalten, so weiß man:  

p-Wert und Teststatistik (5)

Bearbeiten
  • Der p-Wert   ist eine (genauer gesagt die kleinstmögliche) Oberschranke für die Wahrscheinlichkeit, die erhaltenen Daten oder noch Extremere (d.h. Daten mit einer noch größeren Teststatistik) zu erhalten, falls   wahr ist. Hat man eine bestimmte Teststatistik   erhalten, so weiß man:  

Anmerkungen (1)

Bearbeiten
  • Zu einem gegebenem Signifikanzniveau   ist eine Nullhypothese genau dann abzulehnen, wenn der  -Wert   ist.

    Zu einer korrekten Vorgehensweise gehört es allerdings, das Signifikanzniveau vor der Datenerhebung festzulegen (es darf nicht im Nachhinein gleich oder etwas größer als der  -Wert festgesetzt werden).

    Der  -Wert liefert Anhaltspunkte zur Beurteilung der Nullhypothese, die über die reine Frage nach der Ablehnung hinausgehen.

  • Anmerkungen (2)

    Bearbeiten
  • Es ist nicht zulässig, die Nullhypothese erst nach einem Blick auf die Daten auszuwählen. Dann könnte man nämlich eine bestimmte (möglicherweise rein zufällige) Auffälligkeit in den Daten ausnutzen, um ein signifikantes Ergebnis zu erhalten. Da es bei manchen Datenmengen viele denkbare Nullhypothesen gibt, wäre die Wahrscheinlichkeit, dass man auf diese Art und Weise ein signifikantes Ergebnis erhält, deutlich erhöht (und damit größer als übliche Signifikanzniveaus).

    Die Nullhypothese sollte also immer vor der Datenerhebung formuliert werden. Sie sollte idealerweise im Zusammenhang mit einer begründeten Vermutung stehen, diese kann dann mit dem Hypothesentest ggf. statistisch bestätigt werden.

  • Anmerkungen (3)

    Bearbeiten
  • In vielen Situationen stehen mehrere Testverfahren zum Überprüfen einer bestimmten Nullhypothese zur Verfügung. Diese liefern dann auch verschiedene  -Werte. Zu einer korrekten Vorgehensweise gehört es, das benutzte Verfahren vor der Datenerhebung auszuwählen (und nicht im Nachhinein eines mit einem geringen  -Wert auszuwählen).

  • In wissenschaftlichen Zeitschriften werden oft bevorzugt signifikante Ergebnisse veröffentlicht. Dies kann zu folgendem Problem führen:

    Anmerkungen (4)

    Bearbeiten

    Falls   gilt, ist ein signifikantes Ergebnis bei einer einzelnen Untersuchung unwahrscheinlich. Andererseits ist es bei einer Vielzahl von Studien (zum selben Forschungsgegenstand) die Wahrscheinlichkeit, dass einige (wenige) signifikante Ergebnisse entstehen, deutlich erhöht (und damit größer als übliche Signifikanzniveaus). Wenn nur die signifikanten Ergebnisse veröffentlicht werden, kann ein fehlerhaftes Bild entstehen.

    Diese Problematik ist unter dem Begriff Publikationsbias bekannt.

Tests zur Binomialverteilung (1)

Bearbeiten

Situation: Die Trefferwahrscheinlichkeit   einer Binomialverteilung ist unbekannt.
Wir betrachten in diesem Kapitel einige Nullhypothesen bezüglich   (einseitige und zweiseitige Tests) und erklären jeweils die Berechnung des p-Werts. Alle Verfahren basieren dabei auf der Trefferzahl   bei   Versuchen.

Tests zur Binomialverteilung (2)

Bearbeiten
  1. Voraussetzung:   binomialverteilt mit Versuchszahl   und Trefferwahrscheinlichkeit  

    Hypothesenpaar:   und   (linksseitiger Test; Dabei ist   vorgegeben.)

    Vorliegende Daten: Trefferzahl  

    Teststatistik: Trefferzahl   (niedrige Werte von   sprechen gegen  )

    Tests zur Binomialverteilung (3)

    Bearbeiten

     -Wert zu konkreter Trefferzahl   :  

    Ablehnbereich bei gegebenem Signifikanzniveau  :  

    Tests zur Binomialverteilung (4)

    Bearbeiten
  2. Voraussetzung:   binomialverteilt mit Versuchszahl   und Trefferwahrscheinlichkeit  

    Hypothesenpaar:   und  
    (Dabei ist   vorgegeben.)

    Vorliegende Daten: Trefferzahl  

    Teststatistik: Trefferzahl   (hohe Werte von   sprechen gegen  )

    Tests zur Binomialverteilung (5)

    Bearbeiten

     -Wert zu konkreter Trefferzahl   :  

    Ablehnbereich bei gegebenem Signifikanzniveau  :  

    Tests zur Binomialverteilung (6)

    Bearbeiten
  3. Wir betrachten nun das Hypothesenpaar:   und   (   vorgegeben)

    An diesem Fall soll verdeutlicht werden, dass es bisweilen mehrere sinnvolle Testverfahren gibt, die unterschiedliche Ergebnisse liefern können.
    Anmerkung: Zu einer seriösen Vorgehensweise gehört es, sich der Datenerhebung auf ein Testverfahren festzulegen (und nicht im Nachhinein ein Testverfahren auszuwählen, dass bei den vorliegenden Daten einen möglichst kleinen  -Wert hat, um so ein signifikantes Ergebnis zu erhalten).

    Tests zur Binomialverteilung (7)

    Bearbeiten

    Klar ist hier: Die Nullhypothese sollte sowohl für zu kleine und auch für zu große beobachtete Trefferzahlen abgelehnt werden.

    Voraussetzung:   binomialverteilt mit Versuchszahl   und Trefferwahrscheinlichkeit  

    Hypothesenpaar:   und  

    Vorliegende Daten: Trefferzahl  

    Teststatistik:   (hohe Werte von   sprechen gegen  )

    Tests zur Binomialverteilung (8)

    Bearbeiten
    Idee: Falls   gilt, ist   und damit ist  . Die Teststatistik   gibt die Abweichung der Trefferzahl von ihrem Erwartungswert (unter  ) an.

     -Wert zu konkreter Teststatistik   :  

    Der  -Wert entspricht damit der Wahrscheinlichkeit (bei Gültigkeit von  ), dass beobachtete Ergebnis oder ein im Hinblick auf   noch extremeres Ergebnis zu erhalten. Bei dieser Methode wurde eine Trefferzahl als extrem angesehen, wenn sie stark vom Erwartungswert (unter  ) abweicht.

    Tests zur Binomialverteilung (9)

    Bearbeiten

    2. Methode

    Tests zur Binomialverteilung (10)

    Bearbeiten

    Voraussetzung:   binomialverteilt mit Versuchszahl   und Trefferwahrscheinlichkeit  

    Hypothesenpaar:   und  

    Vorliegende Daten: Trefferzahl  

    Teststatistik:   (niedrige WErte von   sprechen gegen  )
    Idee: Falls   gilt, ist   und damit ist  . Die Teststatistik   gibt an, wie wahrscheinlich die beobachtete Trefferzahl ist, falls   gilt.

    Tests zur Binomialverteilung (11)

    Bearbeiten

     -Wert zu konkreter Teststatistik   :  

    Der  -Wert entspricht damit der Wahrscheinlichkeit (bei Gültigkeit von  ), dass beobachtete Ergebnis oder ein im Hinblick auf   noch extremeres Ergebnis zu erhalten. Bei diesem Test wurde eine Trefferzahl als extrem angesehen, wenn sie unwahrscheinlich ist, falls   gilt.