Kurs:Statistik für Anwender/Tests für normalverteilte Zufallsvariablen

Tests für normalverteilte Zufallsvariablen

Bearbeiten

Einstichprobentests

Bearbeiten

Bei Einstichprobentests werden Hypothesen über die Parameter einer normalverteilten ZV mit Hilfe einer Stichprobe (der Länge  ) getestet.

Situation: Es sei bekannt, dass eine ZV   normalverteilt ist. Allerdings sind   und   nicht bekannt. Es liegt eine Stichprobe   der Länge   von   vor.

Daraus kann man zunächst den arithmetischen Mittelwert und die empirische Standardabweichung berechnen, also:  

Wiederholung Hypothesentest I

Bearbeiten

Bei einem Hypothesentest ist wie folgt vorzugehen: Zunächst stellt man eine Nullhypothese auf (hier eine Aussage, die   oder   betrifft) und legt das Signifikanzniveau   sowie die Methode zur Berechnung des p-Werts fest. Dann erst sichtet man die Daten der Stichprobe und kommt anhand dieser Daten mit dem zuvor festgelegten Verfahren zu einer Entscheidung:
 

Wiederholung Hypothesentest II

Bearbeiten

Somit hängt auch die Entscheidung bzgl.   vom Zufall ab und es kann daher zu Fehlern kommen. Wie bei allen Hypothesentests ist aber immer garantiert:  
(Wir werden dies nicht immer wieder begründen. Bei allen Verfahren ist dies aber stets garantiert.)

Linksseitiger t-Test

Bearbeiten
Voraussetzung und Hypothesenpaar
Bearbeiten

Voraussetzung:   normalverteilt mit EW   und Standardabweichung  
Hypothesenpaar:   und  
(Dabei ist   vorgegeben.)

Vorliegende Daten: Stichprobe  

Teststatistik und p-Wert
Bearbeiten

Teststatistik:   (niedrige Werte von   sprechen gegen  )

 -Wert zu konkreter Teststatistik  :  
Dabei bezeichnet   die Verteilungsfunktion einer  -Verteilung mit   FG.

Durchführung mit R:  " less ", )
(Dabei muss   ein Vektor mit den Daten   sein.)

Beispiel linksseitiger t-Test:
Bearbeiten

Beim Testen der Nullhypothese   zu einer (normalverteilten) ZV   erhält man die folgende Stichprobe  :
 
Daraus dann  

Rechtsseitiger t-Test

Bearbeiten
Voraussetzung und Hypothesenpaar
Bearbeiten

Voraussetzung:   normalverteilt mit EW   und Standardabweichung  
Hypothesenpaar:   und  
(Dabei ist   vorgegeben.)

Vorliegende Daten: Stichprobe  

Teststatistik und p-Wert
Bearbeiten

Teststatistik:   (hohe Werte von   sprechen gegen  )

 -Wert zu konkreter Teststatistik  :  
Dabei bezeichnet   die Verteilungsfunktion einer  -Verteilung mit   FG.

Durchführung mit R:  " greater ", )
(Dabei muss   ein Vektor mit den Daten   sein.)

Beispiel rechtsseitiger t-Test:
Bearbeiten

Beim Testen der Nullhypothese   zu einer (normalverteilten) ZV   erhält man die folgende Stichprobe  :  
Daraus ergibt sich  

Zweiseitiger t-Test

Bearbeiten
Voraussetzung und Hypothesenpaar
Bearbeiten

Voraussetzung:   normalverteilt mit EW   und Standardabweichung  
Hypothesenpaar:   und  
(Dabei ist   vorgegeben.)

Vorliegende Daten: Stichprobe  

Teststatistik und p-Wert
Bearbeiten

Teststatistik:   (hohe Werte von   sprechen gegen  )

 -Wert zu konkreter Teststatistik  :  
Dabei bezeichnet   die Verteilungsfunktion einer  -Verteilung mit   FG.

Durchführung mit R:  " two.sided ", )
(Dabei muss   ein Vektor mit den Daten   sein.)

Beispiel zweiseitiger t-Test
Bearbeiten

Beim Testen der Nullhypothese   zu einer (normalverteilten) ZV   erhält man die folgende Stichprobe  :    
Daraus ergibt sich  

Linksseitiger Test zur Standardabweichung

Bearbeiten
Voraussetzung und Hypothesenpaar
Bearbeiten

Voraussetzung:   normalverteilt mit EW   und Standardabweichung  
Hypothesenpaar:   und  
(Dabei ist   vorgegeben.)

Vorliegende Daten: Stichprobe  

Teststatistik und p-Wert
Bearbeiten

Teststatistik:   (niedrige Werte von   sprechen gegen  )

 -Wert zu konkreter Teststatistik  :  
Dabei bezeichnet   die Verteilungsfunktion einer  -Verteilung mit   FG.

Beispiel: Linksseitiger Test zur Standardabweichung
Bearbeiten

Für eine (normalverteilte) ZV   betrachtet man die Nullhypothese   und testet diese mit Hilfe der folgenden Stichprobe  :  
Daraus ergibt sich
 

Rechtsseitiger Test zur Standardabweichung

Bearbeiten
Voraussetzung und Hypothesenpaar
Bearbeiten

Voraussetzung:   normalverteilt mit EW   und Standardabweichung  
Hypothesenpaar:  und  
(Dabei ist   vorgegeben.)

Vorliegende Daten: Stichprobe  

Teststatistik und p-Wert
Bearbeiten

Teststatistik:   (hohe Werte von   sprechen gegen  )

 -Wert zu konkreter Teststatistik  :  
Dabei bezeichnet   die Verteilungsfunktion einer  -Verteilung mit   FG.

Beispiel: Rechtsseitiger Test zur Standardabweichung
Bearbeiten

Für eine (normalverteilte) ZV   betrachtet man die Nullhypothese   und testet diese mit Hilfe der folgenden Stichprobe  :
 
Daraus ergibt sich dann  

Zweiseitiger Test zur Standardabweichung

Bearbeiten
Voraussetzung und Hypothesenpaar
Bearbeiten

Voraussetzung:   normalverteilt mit EW   und Standardabweichung  
Hypothesenpaar:   und  

(Dabei ist   vorgegeben.)

Vorliegende Daten: Stichprobe  

Teststatistik und p-Wert
Bearbeiten

Teststatistik:   (hohe Werte von   sprechen gegen  )

 -Wert:
 
Dabei bezeichnet   die Verteilungsfunktion einer  -Verteilung mit   FG.

Beispiel: Zweiseitiger Test zur Standardabweichung
Bearbeiten

Für eine (normalverteilte) ZV   betrachtet man die Nullhypothese   und testet diese mit Hilfe der folgenden Stichprobe  :    
Daraus ergibt sich  

Anmerkungen zu den t-Tests I

Bearbeiten
  • Würde man die Standardabweichung   (aber nicht den EW  ) der Normalverteilung kennen, so könnte man   durch   ersetzen und statt der  -Verteilung   die Standardnormverteilung   benutzen. Dies könnte man näherungsweise auch dann tun, wenn   groß ist, da sich dann die  -Verteilung der Standardnormalverteilung annähert. Benutzt man   statt  , so spricht man von einem Gauß-Test.

Anmerkungen zu den t-Tests II

Bearbeiten
  • Grundsätzlich sind bei einer ZV  , die nicht normalverteilt ist, sondern eine beliebige (unbekannte) Verteilung hat, die in diesem Kapitel vorgestellten t-Tests (und auch die Tests zur Standardabweichung  ) mathematisch nicht exakt. Falls aber   groß genug ist (eine Faustregel besagt  , im allgemeinen hängt dies aber von der unbekannten Verteilung ab), so funktionieren die  -Tests (wie auch die entsprechenden Gauß-Tests) näherungsweise immer noch und liefern gute Ergebnisse. Man sagt: Die Tests sind robust gegenüber Verletzungen der Normalverteilungsannahme.

Aufgabe 1.1

Bearbeiten

Gegeben ist eine Stichprobe   (die Sie als Vektor daten in der Datei datenUEB7.R auf GitHub finden) zu einer normalverteilten Größe   mit unbekannten Parametern   und  .
Bestimmen Sie anhand dieser Daten zu den folgenden Nullhypothesen jeweils den p-Wert:
 ;  ;  ;   ;   ;  
(Verwenden Sie die in der Vorlesung behandelten Tests).

Aufgabe 1.2

Bearbeiten

Eine Firma füllt maschinell Saft in 1,5-Liter-Flaschen ab. Sie behauptet dabei die folgenden Standards einzuhalten:

  • Die durchschnittliche (zu erwartende) Füllmenge beträgt mindestens   Liter.

  • Die Standardabweichung der Füllmenge beträgt nicht mehr als   Liter.

  • Mindestens   aller Flaschen enthalten mindestens   Liter.

Verwenden Sie die Daten aus dem R-Skript datenUEB7.r unter GitHub.

Aufgabe 2

Bearbeiten

Wie verändert sich bei den Nullhypothesen für den Erwartungswert   einer Normalverteilung      

jeweils der p-Wert des entsprechenden t-Tests, wenn:

  •   und   unverändert bleiben und   größer wird?
  •   und   unverändert bleiben und   größer wird?
  •   und   unverändert bleiben und   größer wird?

Erklären Sie Ihre Antworten (kurz).

Zweistichprobentests

Bearbeiten

Wir untersuchen nun den Fall, dass zwei (normalverteilte) ZV   vorliegen, deren Erwartungswerte   wir vergleichen wollen. Dazu werden zwei unabhängige Stichproben   und   erhoben, anhand derer man dann Hypothesentests durchführen kann.

Beispiel Anwendung Zweistichprobentest I

Bearbeiten

Das Gewicht von Afrikanischen (ZV  ) und Indischen Elefantenkühen (ZV  ) wird untersucht. Für die Erwartungswerte   bzw.   kann man (z.B.) folgende Hypothesen aufstellen:

 

Es ergeben sich folgende Stichproben (Werte in kg):
Stichprobe für  :
 
 

Stichprobe für   :
 
 

Beispiel Anwendung Zweistichprobentest II

Bearbeiten

Möchte man einen "empirischen Nachweis"  erbringen, dass Afrikanische Elefantenkühe (im erwarteten Durchschnitt) schwerer sind als Indische, so kann man die Nullhypothese   einem Test unterziehen. Bei einem signifikanten Ergebnis wird   abgelehnt und folglich die Gegenhypothese   bestätigt (  könnte trotzdem gelten, allerdings hat eine Ablehnung dann maximal Wahrscheinlichkeit  ).

Zweistichproben-t-Test

Bearbeiten

Man spricht dabei von Zweistichprobentests, d.h. es werden Hypothesen über die Parameter zweier ZV mit Hilfe zweier (unabhängiger) Stichprobe (der Längen   und  ) getestet.
Man bezeichnet diese Tests als Zweistichproben-t-Test bzw. Welch-Test.

Voraussetzung
Bearbeiten

Voraussetzung:   normalverteilt mit EW   und   und Standardabweichungen   und  
Beachte dazu: Für eine exakte Vorgehensweise muss vorausgesetzt werden, dass   und   normalverteilt sind. Allerdings erzielt man mit den hier vorgestellten  -Tests (für genügend große Stichprobenumfänge, Faustregel:  ) auch dann gute Resultate, wenn   und   nicht normalverteilt sind.

Hypothesenpaare
Bearbeiten
  1.   und   (  vorgegeben)
  2.   und   (  vorgegeben)
  3.   und   (  vorgegeben)

(Man beachte insbesondere den Fall  .)
Vorliegende Daten: Unabhängige Stichproben:  

Teststatistik
Bearbeiten

 
Je nach Variante gilt dabei:

  1. Hohe Werte von   sprechen gegen  .
  2. Niedrige Werte von   sprechen gegen  .
  3. Hohe Werte von   sprechen gegen  .
Zahl der Freiheitsgrade und p-Wert
Bearbeiten

Zahl der Freiheitsgrade:  
 -Wert zu konkreter Teststatistik: (je nach Variante)

  1.  
  2.  
  3.  


Dabei ist   die  -Verteilung mit   Freiheitsgrade. (Man beachte, dass die  -Verteilung auch für nicht-ganzzahlige Freiheitsgrade definiert werden kann.)

Beispiel Anwendung Zweistichprobentest III

Bearbeiten

In obigem Beispiel (Gewicht der Elefanten) testen wir die Nullhypothese   . Dies entspricht Fall (i) mit  . Mit den oben angegebenen Daten berechnet man
 
Der kleine  -Wert spricht gegen   und damit für die Gegenhypothese  , die besagt, dass Afrikanische Elefantenkühe im Schnitt schwerer sind als Indische. Ob man dies als (empirischen) Nachweis von   akzeptiert, hängt von der Wahl des Signifikanzniveaus ab (für   kann   abgelehnt werden, nicht jedoch für  ).

Beispiel Anwendung Zweistichprobentest IV

Bearbeiten

Man könnte dies variieren, indem man (z.B.) die Nullhypothese   betrachtet, die besagt, dass Afrikanische Elefantenkühe im Schnitt nicht mehr als 100kg schwerer sind als Indische. Dies entspricht Fall (i) mit  . Es ergeben sich die Teststatistik   mit dem Freiheitsgrad  . Daraus resultiert der  -Wert von  . Damit kann   also (zu üblichen Signifikanzniveaus) nicht abgelehnt werden.

Hypothesentests anhand verbundener Stichproben

Bearbeiten

Verbundene Stichproben

Bearbeiten

Eine sogenannte verbundene Stichprobe für zwei ZV   und   erhält man, wenn man die einzelnen Werte der Stichproben für   und   einander eindeutig zuordnen kann. Dies ist meist dann der Fall, wenn man die Stichproben für   und   an den gleichen ’Untersuchungseinheiten’ erhebt.

Datenpaare

Bearbeiten

Die Daten liegen dabei in Form von Paaren   vor (dabei können   und   jeweils einander zugeordnet werden). Die beiden einzelnen Stichproben   und   haben die gleiche Länge   und müssen nicht unabhängig voneinander sein.

Falls   und   außerdem ZV bezeichnen, die in derselben Einheit angegeben werden können, so kann man die Differenz   bilden. Für   liegt dann eine Stichprobe   vor, die sich wie folgt ergibt:  

Beispiel verbundene Stichproben

Bearbeiten
  • Schadstoffkonzentrationen an   verschiedenen Orten zu zwei Zeitpunkten
  • Blutwerte von   Personen vor und nach Einnahme eines Medikaments
  • Temperaturen an zwei Orten   und   zu   verschiedenen Zeitpunkten
  • Leistung einer Gruppe von   Schülern in Mathematik und Physik

Zusammenhang zum Einstichprobentest

Bearbeiten

Wir betrachten nun einige Hypothesenpaare, die sich auf Vergleiche der EW von   und   beziehen. Da diese auch mit dem EW von   formuliert werden können, können hier die Einstichproben-t-Tests auf   angewendet werden.
Die Idee dabei ist, dass EW und empirischer Mittelwert linear sind, also:
 

Voraussetzung

Bearbeiten

  normalverteilt mit   und  
Beachte dazu: Für eine exakte Vorgehensweise muss vorausgesetzt werden, dass   normalverteilt ist. Allerdings erzielt man mit den hier vorgestellten  -Tests (für genügend große Stichprobenumfänge, Faustregel:  ) auch dann gute Resultate, wenn   nicht normalverteilt ist.

Hypothesenpaare

Bearbeiten
  1.   und   (  vorgegeben)
    Äquivalent ist:
      und  
  2.   und   (  vorgegeben)
    Äquivalent ist:
      und  
  3.   und   (  vorgegeben)
    Äquivalent ist:
      und  

(Man beachte insbesondere den Fall  .)

Vorliegende Daten und p-Wert

Bearbeiten

Vorliegende Daten: Verbundene Stichproben:  
Daraus ergibt sich eine Stichprobe für  :  

p-Wert: (vgl. die Einstichproben-t-Tests, angewendet auf  )

  1.  
  2.  
  3.  

Anmerkung

Bearbeiten

Es gilt  . Die empirische Standardabweichung   kann aber im Allgemeinen nicht aus   und   bestimmt werden, wenn   und   nicht unabhängig sind.

Beispiel 1.1

Bearbeiten

Man bestimmt an 40 zufällig über mehrere Jahre verteilten Tagen die Tageshöchsttemperatur   und   an zwei Orten und erhält folgende Werte:  

Beispiel 1.2

Bearbeiten

Zum Testen der Nullhypothese   ("Die erwarteten Tageshöchsttemperaturen   am ersten Ort sind um mindestens 4 Grad höher als die erwarteten Tageshöchsttemperaturen   am zweiten Ort.") kann man nun einfach die Differenz   betrachten und die äquivalente Nullhypothese   mit einem  -Test untersuchen.
Dieses Vorgehen ist wegen   näherunsgweise gerechtfertigt, für kleine   müsste man zunächst prüfen, ob die Temperaturdifferenzen   normalverteilt sind.

Beispiel 1.3

Bearbeiten

Mit dem arithmetischen Mittel und der Standardabweichung erhält man mit   einen sehr geringen  -Wert und kann daher die Nullhypothese ablehnen. Also ist davon auszugehen, dass es am ersten Ort (im zu erwartenden Mittel) weniger als   Grad wärmer ist als am zweiten Ort.

Aufgabe 1.1

Bearbeiten

Stellen Sie in den folgenden Situationen eine passende Nullhypothese auf, berechnen Sie mit einem geeigneten Test den p-Wert und interpretieren Sie das Ergebnis:

Aufgabe 1.2.1

Bearbeiten

Ein Dünger soll getestet werden. Die Ernteerträge werden bei einer Reihe von ungedüngten (Test-)Feldern und einer Reihe gedüngter Felder bestimmt. Man erhält die Daten (in Tonnen/Hektar), die in den Vektoren ohne (Erträge der Felder ohne Dünger) und mit (Erträge der Felder mit Dünger) gespeichert sind (siehe Datei DatenUEB8.r auf GitHub).

Aufgabe 1.2.2

Bearbeiten

Kann dadurch (zum Signifikanzniveau  ) empirisch belegt werden, dass

  • der Dünger eine Zunahme des (erwarteten) Ertrags bewirkt?

  • der Dünger eine Zunahme des (erwarteten) Ertrags um mindestens eine halbe Tonne pro Hektar bewirkt?

  • der Dünger dazu führt, dass die gedüngten Felder einen (erwarteten) Ertrag von mehr als 9.6t / h erzielen?

Aufgabe 1.3.1

Bearbeiten

Die Mitglieder eines Sportvereins machen zusammen ein Ausdauertraining über mehrere Wochen. Vor und nach dem Training machen alle jeweils einen 1000m Testlauf. Die Zeiten werden festgehalten. Die Daten (in Sekunden) sind in den Vektoren vor (vor dem Training) und nach (nach dem Training) gespeichert. (Dabei sind gleiche Stellen der beiden Vektoren jeweils derselben Person zuzuordnen.)

Aufgabe 1.3.2

Bearbeiten

Kann dadurch (zum Signifikanzniveau  ) empirisch belegt werden, dass

  • durch das Training eine Verbesserung beim 1000m-Lauf zu erwarten ist?

  • durch das Training eine durchschnittliche Verbesserung von mindestens 5 Sekunden beim 1000m-Lauf zu erwarten ist?

Seiteninformation

Bearbeiten

Diese Lernresource können Sie als Wiki2Reveal-Foliensatz darstellen.

Wiki2Reveal

Bearbeiten

Dieser Wiki2Reveal Foliensatz wurde für den Lerneinheit Kurs:Statistik für Anwender' erstellt der Link für die Wiki2Reveal-Folien wurde mit dem Wiki2Reveal-Linkgenerator erstellt.