Mit einem -Anpassungstest kann für eine diskrete oder stetige ZV getestet werden, ob eine ganz bestimmte (vermutete oder zu widerlegende) Verteilung vorliegen könnte.
Χ²-Anpassungstest für diskrete VerteilungBearbeiten
Teststatistik: (hohe Werte von sprechen gegen ) Idee: Falls gilt, so erwartet man, dass nahe bei ist (man bezeichnet auch als erwartete absolute Häufigkeit) und dass sich somit ein niedriger Wert für ergibt. Folglich sprechen hohe Werte von gegen , niedrige Werte von sind mit vereinbar.
-Wert zu konkreter Teststatistik :
Dabei bezeichnet die Verteilungsfunktion einer -Verteilung mit FG.
Ein Würfel soll überprüft werden, ob er alle Augenzahlen mit der gleichen Wahrscheinlichkeit zeigt. Man betrachtet also die ZV ’Augenzahl’ . Diese kann nur die Werte annehmen. Zu prüfen ist, ob diesen Werten die Wahrscheinlichkeiten zugeordnet sind. Wir testen dazu die Nullhypothese
Zur Überprüfung von wird der Würfel -mal geworfen. Es ergeben sich die folgenden (absoluten) Häufigkeiten der Augenzahlen:
(Kann man anhand dieser Beobachtungen davon ausgehen, dass bei diesem Würfel alle Augenzahlen mit der gleichen Wahrscheinlichkeit auftreten?)
Ausgehend davon, dass der Würfel tatsächlich alle Zahlen mit gleicher Wahrscheinlichkeit zeigt (dass also gilt), ist die Wahrscheinlichkeit für die gefundenen (oder noch stärkere) Abweichungen der absoluten Häufigkeiten von den erwarteten absoluten Häufigkeiten (gemessen mit der Teststatistik ) also und ist damit so groß, dass man (zu üblichen Signifikanzniveaus) nicht ablehnen kann.
Ein Händler möchte wissen, ob die Verteilung seines Absatzes der Verteilung der Marken im Gesamtmarkt entspricht. Eine Untersuchung ergibt:
-Wert .
Falls gilt, ist die Wahrscheinlichkeit für das beobachtete Ergebnis (oder eines mit einer noch höheren Teststatistik) sehr gering, nämlich nur . Dies spricht sehr stark gegen . (Etwa zum Signifikanzniveau kann abgelehnt werden.)
Erhält man bei einem -Anpassungstest ein signifikantes Ergebnis (kleiner p-Wert bzw. Ablehung von ), so kann man schließen, dass (vermutlich) eine Abweichung von der in der Nullhypothese angegebenen Verteilung vorliegt. Der Test macht aber zunächst keine Aussage darüber, auf welche der einzelnen Wahrscheinlichkeiten sich diese Abweichung bezieht. (Die Daten geben jedoch Hinweise darauf.)
Der -Anpassungstest ist kein exakter Test. Das bedeutet, dass der p-Wert durch die oben angegebenen Formel näherungsweise (und nicht exakt) berechnet wird. Dieser Test sollte nur verwendet werden, wenn gewisse Mindestgrößen für die erwarteten absoluten Häufigkeiten vorliegen (dann sind die Näherungen gut genug). Als Faustregel findet man (unter anderem), dass alle größer oder gleich und mindestens 80% der größer oder gleich sein müssen.
Die Funktion chisq.test gibt eine Warnung aus, wenn nicht alle größer oder gleich sind. In diesem Fall sollte man also dem Testergebnis nicht zu sehr vertrauen (selbst bei einem signifikanten Ergebnis). Es bieten sich dann etwa folgende Möglichkeiten:
erhöhen und damit erreichen, dass für alle ist
mehrere Werte von zusammenfassen, dies entspricht der Bildung von ’Klassen’ (s.u.), dabei gehen allerdings Teile der Informationen verloren
An einer Uni gibt es die vier Fächer A, B, C und D. Insgesamt studieren der Studierenden Fach A, der Studierenden Fach B, der Studierenden Fach C und der Studierenden Fach D. An einem Sportkurs nehmen Studierende teil, davon mit Fach A, mit Fach B, mit Fach C und mit Fach D. Überprüfen Sie anhand dieser Daten die Nullhypothese, dass das Interesse an dem Sportkurs bei den Studierenden der verschiedenen Fächer gleich groß ist.
Ein Tierbestand wird auf Präverenzen hinsichtlich der Aufenthaltswahrscheinlichkeit untersucht. Dazu wurde ein Gebiet in 6 unterschiedlich große Bereiche, in denen eine unterschiedliche Nahrungszusammensetzung für die Tiere gegeben sind, aufgeteilt und die Tiere in jedem der Bereiche gezählt. Man erhält:
Untersuchen Sie, ob die Daten belegen, dass die Nahrungszusammensetzung dafür sorgt, dass sich die Tiere in manchen Bezirken grundsätzlich gerner aufhalten als in anderen.
Variante des Χ²-Anpassungstest für stetige Verteilungen:Bearbeiten
Für eine ZV, bei der unendlich viele reelle Zahlen als Werte möglich sind, kann man auch einen -Anpassungstest verwenden. Man muss allerdings vorab den Bereich der möglichen Werte (recht willkürlich) in verschiedene Klassen unterteilen. Getestet werden können Nullhypothesen, die besagen, dass eine bestimmte (vollständig festgelegte) Verteilung vorliegt.
Voraussetzung: eine beliebige (diskrete oder) stetige ZV
Hypothesenpaar: ist nach -verteilt ist nicht nach -verteilt
(Hierbei ist eine bestimmte (zu prüfende) Verteilung mit bestimmten vorgegebenen Parametern.)
Vorüberlegung: Man teilt (vor einem Blick auf die Daten) den Bereich der möglichen Werte von in verschiedene (überschneidungsfreie) Klassen ein und berechnet für jede der Klassen die sogenannte Klassenwahrscheinlichkeit, dass einen Wert aus dieser Klasse annimmt, falls gilt. (Dazu benötigt man theoretische Kenntnisse über die Verteilung und verwendet Methoden aus der Wahrscheinlichkeitsrechnung, siehe Kapitel 4.)
Man möchte testen, ob eine ZV normalverteilt mit und sein könnte und betrachtet dazu die Nullhypothese: ist normalverteilt mit und
Der Bereich der möglichen Werte (also ) wird wie folgt in Klassen eingeteilt:
Die Klassenwahrscheinlichkeiten berechnen sich nun wie folgt (vergleiche Normalverteilte ZV ):
Die Wahl der Klassen kann das Testergebnis beeinflussen. Daher müssen die Klassen schon vor der Datenerhebung festgelegt werden. Darüber hinaus gibt es keine festen Regeln für die Einteilung der Klassen. Es macht meist Sinn, die Klassen als Intervalle zu wählen und darauf zu achten, dass die unter erwarteten Klassenhäufigkeiten in etwa gleich groß und allesamt größer oder gleich sind. Auf jeden Fall sollte man vor der Durchführung eines Tests sorgfältig über die Wahl der Klassen nachdenken.
Bei dem angegebenen Verfahren wird das Testergebnis durch die exakten Werte der Stichprobe nicht beeinflusst, lediglich die Klassenhäufigkeiten sind von Bedeutung (Teile der vorhanden Informationen werden nicht genutzt). Genau genommen entspricht dies nicht einem Test der Nullhypothese ist nach verteilt ( bezeichne eine bestimmte Verteilung)
sondern von
Damit kann der Test Abweichungen von der hypothetischen Verteilung , die die Klassenwahrscheinlichkeiten nicht beeinflussen, nicht aufdecken.
Variante des Χ²-Anpassungstest zum Testen auf die Art der Verteilung:Bearbeiten
Will man lediglich testen, dass eine bestimmte Verteilungsart vorliegt, so kann man den oder die unbekannten Parameter schätzen und dann einen Anpassungstest wie oben durchführen. In diesem Fall verringert sich die Zahl der Freiheitsgrade um die Anzahl der geschätzten Parameter, man benutzt also die -Verteilung , wobei die Zahl der Klassen und die Zahl der geschätzten Parameter ist.
Es soll überprüft werden, ob die ’Lebensdauer’ von Seifenblasen (in Sekunden) exponentialverteilt ist (das hieße, die Wahrscheinlichkeit, dass eine Blase im kommenden Zeitraum platzt, ändert sich nicht, wenn die Blase eine Zeitlang ’überlebt’ hat). Man formuliert dazu die Nullhypothese ist exponentialverteilt (mit irgendeinem Parameter ) und legt die Klassen wie folgt fest:
Zur Berechnung der Klassenwahrscheinlichkeiten unter (und damit der erwarteten Klassenhäufigkeiten) muss der Parameter geschätzt werden.
An einer Kreuzung wird mehrfach die Zeit zwischen zwei Unfällen festgestellt. Es ergeben sich die folgenden Daten (gemessen in Tagen):
Führen Sie einen -Anpassungstest erst für vermutete (aufgrund theoretischer Üerlegungen) und dann für geschätze Paramter durch. Wählen Sie die Klassengrenzen und selbst. Anmerkung: Diese Aufgabe ist bewusst sehr offen gestellt - entscheiden Sie selbst!
Vorliegende Daten: Unabhängige Stichproben
Daraus ermittelt man die absoluten Häufigkeiten
für . Oft fasst man diese in einer sogenannten Kontingenztabelle zusammen, dabei entspricht der absoluten Häufigkeit aller Ausprägungen der Stichprobe von , was gerade die Stichprobenlänge von ist:
Teststatistik:
(hohe Werte von sprechen gegen ) Idee: Die Idee dabei ist, dass man im Falle der Gültigkeit von annehmen kann, dass die relativen Häufigkeiten von bei und nahe bei der gesamten relativen Häufigkeit von sind, das heißt dass
zu erwarten ist, wenn gilt. Dies hätte dann zur Folge, dass die bei der Berechnung von auftretenden Quadrate (und damit auch selbst) eher kleine Werte annimmt, wenn gilt. Also spricht ein hoher Wert von gegen .
Man kann diesen Test in R mit chisq.test(h) durchführen. Dabei muss eine Matrix (mit 2 Zeilen und Spalten) sein, deren Einträge mit denen der Kontingenztabelle übereinstimmen (d.h. in der ersten Zeile von befinden sich die Werte und in der zweiten Zeile die Werte .)
Man erreicht dies zum Beispiel mit:
Es soll untersucht werden, ob Frauen und Männer das gleiche Wahlverhalten zeigen. Zu den 5 zur Auswahl stehenden Parteien wurden 120 Frauen und 100 Männer befragt. Es ergab sich folgende Kontingenztabelle:
Falls und stetige ZV sind, kann man den -Homogenitätstest immer noch durchführen, wenn man die Menge der möglichen Werte der beiden ZV vor der Datenerhebung in Klassen aufteilt und dann die absoluten Klassenhäufigkeiten
Man beachte dabei, dass die Wahl der Klassen das Testergebnis beeinflussen kann und dass der Test bestimmte Unterschiede in den Verteilungen von und nicht mehr aufdecken kann, genau genommen untersucht man nun statt der Nullhypothese
Zwei Maschinen und sollen Kaffee in Päckchen mit je 500 g abfüllen. Es soll festgestellt werden, ob beide Maschinen gleich arbeiten, dazu sollen 60 Päckchen von und 40 Päckchen von untersucht werden. Man bildet (zum Beispiel) die folgenden Klassen
und betrachtet dann die Stichproben. Es ergeben sich die folgenden Werte für die Gewichte der einzelnen Päckchen:
Ein zweiseitiger Zwei-Stichproben--Test (Welch-Test) zur Nullhypothese
liefert einen -Wert von . (Die empirischen Mittelwerte und unterscheiden sich auch nicht sehr stark.) Der Unterschied zwischen den beiden Verteilungen scheint also eher nicht an ihren Erwartungswerten zu liegen.
Da die Teststatistik nur approximativ -verteilt ist, kann der Test nur angewendet werden, wenn die unter erwarteten absoluten Häufigkeiten und groß genug sind (Regel: alle und mindestens 80% davon ). Sind sie nicht alle , so erhält man bei Anwendung der Funktion chisq.test eine Warnung.
In einer Studie soll auf Unterschiede in zwei Habitaten und in Bezug auf die Zusammensetzung der Ameisenpopulation untersucht werden. Dazu wird in beiden Habitaten eine Falle aufgestellt und die Anzahl der darin gefangenen Individuen der jeweiligen Ameisenarten gezählt:
Untersuchen Sie mit einem - Homogenitätstest, ob die Habitate einen Einfluss auf die Zusammensetzung der Ameisenpopulationen haben.
Kuss et al. (The fouled player should not take the penalty himself: An empirical investigation of an old German football myth, J. Sports Sciences 25, no. 9, 963967, 2007) berichten über die Elfmeter in der 1. Fußballbundesliga (der Herren) von August 1993 bis Februar 1995. Es wurde festgestellt, dass von 92 Elfmetern, bei denen der Gefoulte selbst geschossen hatte, 74 verwandelt wurden. Von 733 Elfmetern, bei denen der Gefoulte nicht selbst geschossen hatte, wurden 547 verwandelt. Stützen diese Daten die These, dass der Gefoulte den Elfmeter nicht selbst schießen sollte ?
Betrachten Sie erneut die beiden Abfüllanlagen für Kaffee mit den ZV und . Prüfen Sie erneut mit vier Klassen, ob die gleiche Verteilung vor liegt. Verwenden Sie die Daten aus dem R-Skript datenUEB10.r von GitHub.
Diese ist -verteilt mit Freiheitsgraden, man berechnet den -Wert durch .
Man kann dies in R (wie im Fall , siehe oben) mit chisq.test() tun, wobei die Matrix , die der Kontingenztabelle entspricht, diesmal eine Matrix mit Zeilen und Spalten sein muss.
An drei Schulen wird eine Vergleichsarbeit geschrieben. Dabei ergeben sich die folgenden Notenspiegel:
Untersuchen Sie mit einem - Homogenitätstest, ob diese Daten belegen, dass es an den Schulen signifikante Unterschiede bezüglich der Wahrscheinlichkeitsverteilung für die verschiedenen Noten gibt.
Χ²-Unabhängigkeitstest für diskrete oder stetige VerteilungenBearbeiten
Mit einem -Unabhängigkeitstest kann für zwei diskrete oder stetige ZV anhand verbundener Stichproben getestet werden, ob sie unabhängig voneinander sein könnten. (Mathematisch unterscheidet sich diese Variante nicht von dem zuvor behandelten Homogenitätstest für zwei oder mehr unabhängige ZV. In Bezug auf Anwendungsbezug, Formulierung und Interpretation bestehen aber Unterschiede, die wir hier behandeln wollen.)
Voraussetzung: diskrete oder stetige ZV mit den möglichen Werten oder den Klassen diskrete oder stetige ZV mit den möglichen Werten oder den Klassen Hypothesenpaar:
Teststatistik:(hohe Werte von sprechen gegen ) Idee: Falls gilt, erwartet man, dass die entsprechende Tabelle der relativen Häufigkeiten mit hoher Wahrscheinlichkeit in etwa eine Multiplikationstabelle ist, d.h. dass
für alle auftretenden Paare gilt. (Man schreibt manchmal auch und nennt dies die unter erwartete absolute Häufigkeit von für und für .)
Dies geht völlig analog zum Fall der Homogenitätshypothese (siehe oben) mit , falls die Matrix entsprechend der Kontingenztabelle ( Zeilen, Spalten) ist.
In einem Leichtathletikverein werden die Leistungen im Kugelstoßen und im 100 Meter-Lauf untersucht. Man teilt die möglichen Zeiten und Weiten in Klassen ein, erfasst die Leistungen von Sportlern und stellt die absoluten Klassenhäufigkeiten in der Kontingenzabelle zusammen:
Also ergibt sich der -Wert zur Unabhängigkeitshypothese als und damit kann sie nicht abgelehnt werden. Allerdings sind hier einige (3 von 12) erwartete absolute Häufigkeiten kleiner als 5 und damit ist die Approximation der Verteilung von durch die -Verteilung möglicherweise zu ungenau.
Abschließende Bemerkungen zu den Χ²-TestsBearbeiten
Zum Abschluss dieses Abschnitts noch einige Anmerkungen zu Vor- und Nachteilen von -Tests.
Die Tests sind vielseitig einsetzbar (viele verschiedenartige Nullhypothesen können damit getestet werden).
Die Idee ist (relativ) leicht verständlich.
Die Tests sind verteilungsfrei, d.h. es muss nicht vorausgesetzt werden, dass eine bestimmte Verteilungsart vorliegt. Insbesondere bei diskreten Verteilungen werden diese Tests daher oft verwendet.
R (und andere Statistik-Software-Pakete) haben die Tests implementiert.
Bei stetigen ZV beeinflusst die (willkürliche) Bildung der Klassen das Testergebnis. Diese kann auch dazu führen, dass bestimmte Abweichungen von der Nullhypothese vom Test nicht mehr aufgedeckt werden können.
Für zu kleine Stichproben (genauer: für zu kleine erwartete absolute Häufigkeiten) können die Tests nicht angewendet werden, da dann die näherungsweise Berechnung des p-Werts nicht genau genug ist. Man sollte dann auf ’exakte’ Tests zurückgreifen (z.B. Fisher-Test auf Unabhängigkeit).
Ein direkter Vergleich mehrerer Testverfahren bezüglich der Güte (Teststärke) liefert meist kein eindeutiges Ergebnis, da verschiedene Abweichungen von der Nullhypothese denkbar sind und mit bestimmten Tests manche davon ’besser’ und andere ’schlechter’ vom Test angezeigt werden, d.h. die Wahrscheinlichkeit eines signifikanten Ergebnisses ist je nach Wahl des Testverfahrens in manchen Situationen (in denen vorliegt) größer und in anderen kleiner. Es gibt jedoch (je nach Nullhypothese) insbesondere für stetige Verteilungen sinnvolle Alternativen zum -Test, die ’in den meisten Fällen’ mit höherer Wahrscheinlichkeit ein signifikantes Ergebnis liefern (also eine bessere Güte bzw. höhere Teststärke haben).