Kurs:Statistik für Anwender/Allgemeines über Hypothesentests
Hypothesentests
BearbeitenAllgemeines über Hypothesentests
BearbeitenBeispiele Anwendung von Hypothesentests
BearbeitenHypothesentests eignen sich für viele verschiedene statistische Fragen:
- Ist die Trefferwahrscheinlichkeit einer Binomialverteilung größer als (bzw. kleiner als , bzw. genau gleich )?
- Ist der Erwartungswert einer normalverteilen Größe größer (bzw. kleiner, bzw. gleich) einem gegebenen Wert ?
- Ist eine ZV normalverteilt (bzw. exponentialverteilt)?
- Ist eine ZV exponentialverteilt mit ?
- Sind zwei (oder mehr) ZV unabhängig voneinander?
- Haben zwei (oder mehr) ZV die gleiche Verteilung?
Einleitung
BearbeitenEs gibt viele verschiedene Testverfahren, die sich hinsichtlich Durchführung und Testqualität stark unterscheiden. Wir können im Rahmen dieser Vorlesung nur eine kleine Auswahl vorstellen. In diesem einleitenden Abschitt beschreiben wir die (grundsätzliche) Funktionsweise eines Hypothesentests.
Nullhypothese und Gegenhypothese
BearbeitenDer erste Schritt eines Test besteht in der Formulierung der sogenannten Nullhypothese. Die Nullhypothese ist eine Aussage über die Verteilung einer ZV oder über ihre Parameter. Nun soll geprüft werden, ob die Nullhypothese durch die erhobenen Daten (z.B. eine Stichprobe) widerlegt werden kann (mit einer gewissen vorgegebenen Sicherheit) oder nicht. Es ist mit einem Hypothesentest nicht möglich, die Nullhypothese mit einer vorgegebenen Sicherheit zu bestätigen.
Wir bezeichnen die Nullhypothese mit . Die Gegenaussage nennt man dann Gegenhypothese, sie wird mit bezeichnet.
Beispiele I
Bearbeiten- Es wird vorausgesetzt, dass eine ZV binomialverteilt ist. Die Trefferwahrscheinlichkeit ist dabei unbekannt. Man untersucht das Hypothesenpaar:
- Es wird vorausgesetzt, dass eine ZV normalverteilt ist. Dabei sind und unbekannt. Man untersucht das Hypothesenpaar:
Beispiele II
Bearbeiten- Bei einem Würfel (von dem man bezweifelt, dass er ein Laplace-Würfel ist) seien die (unbekannten) Wahrscheinlichkeiten für die Augenzahlen . Man untersucht das Hypothesenpaar:
- Die ZV beschreibe das Gewicht von Hühnereieren. Man untersucht das Hypothesenpaar:
ist normalverteilt
ist nicht normalverteilt
Beispiele III
Bearbeiten- Die ZV und beschreiben das Wahlverhalten von Männern bzw. Frauen. Man untersucht das Hypothesenpaar:
Parametrische Verfahren
BearbeitenMan unterscheidet Parametrische und Nichtparametrische Verfahren:
- Parametrische Verfahren: Dabei wird von Beginn an vorausgesetzt, dass eine bestimmte Verteilungsart vorliegt (etwa eine Binomialverteilung bzw. eine Normalverteilung). Die Nullhypothese macht dann eine Aussage über einen oder mehrere Parameter der Verteilung (etwa bzw. oder ).
Liegt die angenommene Verteilungsart (auch näherungsweise) nicht vor, so wird dies vom Test nicht aufgedeckt. Der Test liefert dann möglicherweise unsinnige Resultate.
Nichtparametrische Verfahren
Bearbeiten- Nichtparametrische Verfahren: Im Voraus werden keine Annahmen über die Art der Verteilung(en) gemacht. Der Test kann dann beispielsweise prüfen, ob eine bestimmte Verteilung oder Verteilungsart vorliegen kann oder ob die Daten mit einer ganz bestimmten Verteilung vereinbar sind.
Beispiel fehlerhafte Produkte und Trefferwahrscheinlichkeit
BearbeitenEin Hersteller behauptet, dass seine Maschine mit maximal ein fehlerhaftes Produkt herstellt. Dies entspricht der Nullhypothese bezüglich der Trefferwahrscheinlichkeit einer Binomialverteilung, die angibt, dass ein fehlerhaftes Produkt produziert wurde. Man führt Versuche durch und erhält dabei Treffer, d.h. ein fehlerhaftes Produkt. Es ist sinnvoll, die Nullhypothese abzulehnen, wenn klein ist, also zum Beispiel für . Die Eine Ablehnung bestärkt so die Aussage des Herstellers. Sollte man auch für oder ablehnen?
Signifikanzniveau
BearbeitenVor der Durchführung eines Tests wird ein Signifikanzniveau (z.B. ) und ein Testverfahren festgelegt. Erst danach werden die Daten gesichtet und man kommt (mit dem gewählten Verfahren) zu einer der folgenden Entscheidungen:
Ablehnen oder Nicht-Ablehnen der Nullhypothese I
Bearbeiten- Die Nullhypothese ist (zum Signifikanzniveau ) abzulehnen. Es folgt die Annahme der Gegenhypothese. Falls man (aufgrund der gewählten Methode und den erhobenen Daten) die Nullhypothese ablehnen kann, spricht man von einem signifikanten Ergebnis.
- Die Nullhypothese kann (zum Signifikanzniveau ) nicht abgelehnt werden.
Ablehnen oder Nicht-Ablehnen der Nullhypothese II
BearbeitenMan beachte: Eine Nicht-Ablehnung der Nullhypothese bedeutet nicht ihre Annahme. In diesem Fall bleibt die Frage nach ihrer Gültigkeit offen. Mögliche Formulierungen des Testergebnisses sind in diesem Fall:
Es gibt auch Situationen, in denen der Anwender aufgrund der Vereinbarkeit der Daten mit der Nullhyothese vermutet, dass diese wahr ist, um mit den Daten weiterrechnen zu können. Dies ist eine Vermutung und keine Annahme der Nullhypothese im engeren Sinne.
Fehler erster und zweiter Art
BearbeitenDa die Entscheidung bzgl. Ablehnung bzw. Nicht-Ablehnung der Nullhypothese auf den Daten basiert und diese vom Zufall abhängig sind, ist auch die Entscheidung vom Zufall abhängig.
Es können folgende Fehler auftreten:
Anmerkung zum Fehler zweiter Art
BearbeitenDer -Fehler ist kein eigentlicher Fehler, da der Test in diesem Fall keine Aussage macht. Trotzdem möchte man ihn natürlich vermeiden.
Einhaltung des Signifikanzniveaus
BearbeitenZur Einhaltung des vorgegebenen Signifikanzniveaus ist die folgende zentrale Bedingung unbedingt einzuhalten:
Falls die Nullhypothese zutrifft, so wird sie höchstens mit der Wahrscheinlichkeit abgelehnt.
kurz: Falls wahr ist, ist garantiert:
oder: Die Wahrscheinlichkeit für einen -Fehler ist höchstens
Beispiel fehlerhafte Produkte und Trefferwahrscheinlichkeit Fortsetzung I
BearbeitenBeispiel I
BearbeitenWir betrachten erneut die Nullhypothese
für die Trefferwahrscheinlichkeit einer binomialverteilten ZV mit der Versuchszahl . Die Entscheidung bzgl. basiert auf der Trefferzahl . Wir untersuchen verschiedene (plausible) Varianten:
Man legt das Signifikanzniveau auf fest.
- Bei einem Testverfahren soll die Nullhypothese für abgelehnt werden. Die Wahrscheinlichkeit einer Ablehnung von beträgt dann im Grenzfall : Falls gilt, ist
Der Test hält also das Signifikanzniveau ein.
Beispiel II
Bearbeiten- Bei einem Testverfahren soll die Nullhypothese für abgelehnt werden. Die Wahrscheinlichkeit einer Ablehnung von beträgt dann im Grenzfall : Falls gilt, ist
Der Test hält also das Signifikanzniveau ein. - Bei einem Testverfahren soll die Nullhypothese für abgelehnt werden. Die Wahrscheinlichkeit einer Ablehnung von beträgt dann im Grenzfall : Der Test hält also das Signifikanzniveau nicht ein.
p-Wert und Teststatistik
Bearbeitenp-Wert I
BearbeitenBei vielen Testverfahren kann man den sogenannten -Wert zur Einschätzung des Testergebnisses heranziehen. Er entspricht dem minimalen Wert für das Signifikanzniveau , bei dem die Nullhypothese gerade noch abgelehnt wird.
Der -Wert ist eine Zahl , die aus den erhaltenen Daten berechnet wird (und damit vom Zufall abhängt). Er deutet an, wie glaubhaft es ist, diese Daten zu erhalten, wenn die Nullhypothese wahr ist (und damit umgekehrt, wie glaubhaft die Nullhypothese bei Erhalt dieser Daten ist).
p-Wert II
BearbeitenGenauer gesagt, ist der -Wert eine (genauer gesagt die kleinstmögliche) Oberschranke für die Wahrscheinlichkeit, die erhaltenen Daten oder noch Extremere (d.h. Daten mit einem noch kleineren -Wert) zu erhalten, falls wahr ist. Hat man einen bestimmten -Wert erhalten, so weiß man:
Beispiel Interpretation p-Wert und H0 I
Bearbeiten- Hat man aus den Daten einen konkreten -Wert bestimmt, so gilt:
Falls wahr ist, so war (vor der Datenerhebung) die Wahrscheinlichkeit einen solch kleinen (oder noch kleineren) p-Wert zu erhalten höchstens .
Dies ist kein besonders geringer Wert. Es kann daher durchaus sein, dass gilt. Der p-Wert und die damit verbundenen Daten sprechen nicht gegen (bzw. sind mit vereinbar).
Beispiel Interpretation p-Wert und H0 II
Bearbeiten- Hat man aus den Daten einen konkreten -Wert bestimmt, so gilt:
Falls wahr ist, so war (vor der Datenerhebung) die Wahrscheinlichkeit einen solch kleinen (oder noch kleineren) p-Wert zu erhalten höchstens .
Falls wahr ist, wäre also ein unwahrscheinlicher Fall eingetreten. Der p-Wert und die damit verbundenen Daten sprechen also gegen .
Beispiel Interpretation p-Wert und H0 III
Bearbeiten- Hat man aus den Daten einen konkreten -Wert bestimmt, so gilt:
Falls wahr ist, so war (vor der Datenerhebung) die Wahrscheinlichkeit einen solch kleinen (oder noch kleineren) p-Wert zu erhalten höchstens .
Falls wahr ist, wäre also ein extrem unwahrscheinlicher Fall eingetreten. Der p-Wert und die damit verbundenen Daten sprechen also stark gegen .
Ablehnung H0 zu gegebenem Signifikanzniveau
BearbeitenMit dem -Wert wird also angedeutet, wie extrem die erhaltenen Daten sind, wenn die Nullhypothese gilt: je kleiner der -Wert, desto unwahrscheinlicher ist das erhaltene Ergebnis, wenn wahr ist, und folglich umso mehr spricht das Ergebnis gegen die Nullhypothese. (Im Fall könnte man sicher sein, dass nicht gilt.)
\textbf{Merke:} Zu einem gegebenen Siginfikanzniveau lehnt man ab, wenn gilt:
Beispiel fehlerhafte Produkte und Trefferwahrscheinlichkeit Fortsetzung II
BearbeitenWir betrachten erneut das Beispiel in Bezug auf die Trefferwahrscheinlichkeit einer Binomialverteilung zur Versuchszahl :
- Falls gilt, ist der ’extremste’ Wert für die Trefferzahl . Die Wahrscheinlichkeit, dass dieser Fall eintritt, beträgt und wird (falls wahr ist) maximal für , also: Bei der Trefferzahl ist der -Wert also .
Beispiel fehlerhafte Produkte und Trefferwahrscheinlichkeit Fortsetzung III
Bearbeiten- Falls gilt, ist der ’zweitextremste’ Wert für die Trefferzahl . Die Wahrscheinlichkeit, dass dieser oder der (noch extremere) Fall eintritt, beträgt und wird (falls wahr ist) maximal für , also: Bei der Trefferzahl ist der -Wert also .
Beispiel fehlerhafte Produkte und Trefferwahrscheinlichkeit Fortsetzung IV
Bearbeiten- Falls gilt, ist der ’nächstextremste’ Wert für die Trefferzahl . Die Wahrscheinlichkeit, dass dieser oder einer der (noch extremeren) Fälle oder eintritt, beträgt und wird (falls wahr ist) maximal für , also: Bei der Trefferzahl ist der -Wert also .
- und so weiter
Beispiel fehlerhafte Produkte und Trefferwahrscheinlichkeit Fortsetzung V
BearbeitenMan sieht, dass sich der -Wert einer Trefferzahl (bei dieser Methode) direkt durch berechnen lässt, also:
Für liegt dieser -Wert noch unter dem Signifikanzniveau . Daher kann man bei 4 Treffern noch ablehnen.
Für überschreitet der -Wert das Signifikanzniveau. Daher kann man bei 5 Treffern nicht mehr ablehnen.
Anmerkung p-Wert und Ablehnung H0
BearbeitenMan beachte, dass die Anordnung der verschiedenen Werte von gemäß der Eigenschaft ’extrem’ im Allgemeinen willkürlich ist. Bei der betrachteten Nullhypothese besteht die einzige sinnvolle Möglichkeit aber darin, kleine Trefferzahlen als extrem einzustufen. (Wir werden aber auch noch andere Fälle betrachten, in denen diese Festlegung nicht so eindeutig ist und vorab festgelegt werden muss.)
p-Wert als zufällige Größe
BearbeitenDer -Wert wird aus den (zufälligen) Daten ermittelt und ist daher selbst wieder eine zufällige Größe. Erhält man so einen bestimmten -Wert , so gilt immer die Bedingung
Teststatistik:
BearbeitenManche Tests benutzen eine sogenannte Teststatistik (oder Testfunktion) , um die Nullhypothese zu bewerten. Die Teststatistik wird aus den Daten (mit einer zuvor festgelegten, möglichst plausiblen) Methode berechnet (und hängt daher vom Zufall ab).
Dabei können hohe oder niedrige Werte der Teststatistik gegen sprechen. (Dies muss vorher festgelegt werden, ist aber im Zusammenhang mit der Idee der Teststatistik meist klar.)
Zusammenhang p-Wert und Teststatistik
BearbeitenAus der aus den erhaltenen Daten berechneten Teststatistik ergibt sich dann der -Wert wie folgt:
Niedrige Werte von T sprechen gegene H0
Bearbeiten- Falls niedrige Werte von gegen sprechen:
Der p-Wert ist eine (genauer gesagt die kleinstmögliche) Oberschranke für die Wahrscheinlichkeit, die erhaltenen Daten oder noch Extremere (d.h. Daten mit einer noch kleineren Teststatistik) zu erhalten, falls wahr ist. Hat man eine bestimmte Teststatistik erhalten, so weiß man:
Hohe Werte von T sprechen gegene H0
Bearbeiten- Falls hohe Werte von gegen sprechen:
Der p-Wert ist eine (genauer gesagt die kleinstmögliche) Oberschranke für die Wahrscheinlichkeit, die erhaltenen Daten oder noch Extremere (d.h. Daten mit einer noch größeren Teststatistik) zu erhalten, falls wahr ist. Hat man eine bestimmte Teststatistik erhalten, so weiß man:
Beispiel 1
Bearbeiten- Bei der Nullhypothese für die Trefferwahrscheinlichkeit einer binomialverteilten ZV mit der Versuchszahl ist es sinnvoll, als Teststatistik einfach die Trefferzahl selbst zu wählen, wobei niedrige Werte von gegen sprechen.
Beispiel 2.1
Bearbeiten- Man hat die Vermutung, dass bei einem Würfel nicht alle Zahlen mit der gleichen Wahrscheinlichkeit fallen. Man betrachtet daher die Nullhypothese
(Dabei seien die Wahrscheinlichkeiten für die einzlenen Zahlen .)Nun sammelt man Daten: Dazu würfelt man -mal und erhält dabei absolute Häufigkeiten für die einzelnen Zahlen.
Beispiel 2.2
BearbeitenEine sinnvolle Methode in deser Situation basiert auf der folgenden (aus berechneten) Teststatistik:
Die Idee dabei ist, dass — falls gilt — die absoluten Häufigkeiten mit hoher Wahrscheinlichkeit alle nahe bei liegen. (Die Teststatistik berechnet sich aus den Abweichungen der von .)
Beispiel 2.3
BearbeitenEs folgend einige Zahlenbeispiele mit konkreten Daten :
Liegen alle in der Nähe von , so ist klein, beispielsweise:
Der -Wert berechnet sich daraus wie folgt:
Beispiel 2.4
BearbeitenAnmerkung: Die Berechnung des p-Werts erfolgt hier näherungsweise mit Methoden, die an dieser Stelle noch nicht unmittelbar nachvollziehbar sind. (Genaueres hierzu folgt später bei der Behandlung von -Anpassungstests.)
Beispiel 2.5
BearbeitenFalls einige der weit weg von liegen, so ist groß, beispielsweise:
Der -Wert berechnet sich daraus wie folgt:
Beispiel 2.6
BearbeitenAnmerkung: Die Berechnung des p-Werts erfolgt hier näherungsweise mit Methoden, die an dieser Stelle noch nicht unmittelbar nachvollziehbar sind. (Genaueres hierzu folgt später bei der Behandlung von -Anpassungstests.)
Man sieht: Je größer die Teststatistik ist, desto kleiner ist der -Wert und desto stärker sprechen die Daten gegen .
Allgemeine Anmerkungen zu Hypothesentests
BearbeitenHier noch einige Anmerkungen zu Hypothesentests im Allgemeinen:
Allgemeine Anmerkungen zu Hypothesentests I
BearbeitenZu einem gegebenem Signifikanzniveau ist eine Nullhypothese genau dann abzulehnen, wenn der -Wert ist.
Zu einer korrekten Vorgehensweise gehört es allerdings, das Signifikanzniveau vor der Datenerhebung festzulegen (es darf nicht im Nachhinein gleich oder etwas größer als der -Wert festgesetzt werden).
Der -Wert liefert Anhaltspunkte zur Beurteilung der Nullhypothese, die über die reine Frage nach der Ablehnung hinausgehen.
Allgemeine Anmerkungen zu Hypothesentests II
Bearbeiten- Beispiel: Für und kann man zwar nicht ablehnen, das Ergebnis ist aber im Hinblick auf die Gültigkeit der Nullhypothese dennoch ziemlich unwahrscheinlich.
Es ist nicht zulässig, die Nullhypothese erst nach einem Blick auf die Daten auszuwählen. Dann könnte man nämlich eine bestimmte (möglicherweise rein zufällige) Auffälligkeit in den Daten ausnutzen, um ein signifikantes Ergebnis zu erhalten. Da es bei manchen Datenmengen viele denkbare Nullhypothesen gibt, wäre die Wahrscheinlichkeit, dass man auf diese Art und Weise ein signifikantes Ergebnis erhält, deutlich erhöht (und damit größer als übliche Signifikanzniveaus).
Allgemeine Anmerkungen zu Hypothesentests III
BearbeitenDie Nullhypothese sollte also immer vor der Datenerhebung formuliert werden. Sie sollte idealerweise im Zusammenhang mit einer begründeten Vermutung stehen, diese kann dann mit dem Hypothesentest ggf. statistisch bestätigt werden.
In vielen Situationen stehen mehrere Testverfahren zum Überprüfen einer bestimmten Nullhypothese zur Verfügung. Diese liefern dann auch verschiedene -Werte. Zu einer korrekten Vorgehensweise gehört es, das benutzte Verfahren vor der Datenerhebung auszuwählen (und nicht im Nachhinein eines mit einem geringen -Wert auszuwählen).
Allgemeine Anmerkungen zu Hypothesentests IV
Bearbeiten- In wissenschaftlichen Zeitschriften werden oft bevorzugt signifikante Ergebnisse veröffentlicht. Dies kann zu folgendem Problem führen: Falls gilt, ist ein signifikantes Ergebnis bei einer einzelnen Untersuchung unwahrscheinlich. Andererseits ist es bei einer Vielzahl von Studien (zum selben Forschungsgegenstand) die Wahrscheinlichkeit, dass einige (wenige) signifikante Ergebnisse entstehen, deutlich erhöht (und damit größer als übliche Signifikanzniveaus). Wenn nur die signifikanten Ergebnisse veröffentlicht werden, kann ein fehlerhaftes Bild entstehen. Diese Problematik ist unter dem Begriff Publikationsbias bekannt.
Seiteninformation
BearbeitenDiese Lernresource können Sie als Wiki2Reveal-Foliensatz darstellen.
Wiki2Reveal
BearbeitenDieser Wiki2Reveal Foliensatz wurde für den Lerneinheit Kurs:Statistik für Anwender' erstellt der Link für die Wiki2Reveal-Folien wurde mit dem Wiki2Reveal-Linkgenerator erstellt.
- Die Seite wurde als Dokumententyp PanDocElectron-SLIDE erstellt.
- Link zur Quelle in Wikiversity: https://de.wikiversity.org/wiki/Kurs:Statistik%20f%C3%BCr%20Anwender/Allgemeines%20%C3%BCber%20Hypothesentests
- siehe auch weitere Informationen zu Wiki2Reveal und unter Wiki2Reveal-Linkgenerator.