Kurs:Statistik für Anwender/Normalverteilte Zufallsvariablen

Normalverteilte Zufallsvariable

Bearbeiten

Standardnormalverteilung

Bearbeiten

Gaußsche Dichtefunktion

Bearbeiten

Die Funktion
 
heißt Gaußche Dichtefunktion (bzw. Gaußsche Glockenkurve). Es gilt  .

Verteilungsfunktion

Bearbeiten

Folglich ist   die Dichtefunktion einer ZV mit Verteilungsfunktion
 
Man nennt   die Standardnormalverteilung. Zufallsvariablen mit Dichte  , nennt man standardnormalverteilt.

Berechnung in R

Bearbeiten

Da das Integral über   nicht geschlossen lösbar ist, benutzt man geeignete Software zur Berechnung von  .
In R erhält man   durch pnorm( ).

Eigenschaften der Standardnormalverteilung

Bearbeiten

Einige wichtige Eigenschaften von   und  :

Eigenschaften der Standardnormalverteilung I
Bearbeiten
  • Die Dichtefunktion   ist symmetrisch zur  -Achse. Sie ist monoton wachsend auf   und monoton fallend auf  , hat also die Maximumstelle  . Wendepunkte liegen an den Stellen  . Es gilt  .

 

Eigenschaften der Standardnormalverteilung II
Bearbeiten
  • Für alle   gilt  . Folglich gilt für eine standardnormalverteilte ZV   stets:    

 

Eigenschaften der Standardnormalverteilung III
Bearbeiten
  • Eine standardnormalverteilte ZV hat Erwartungswert   und Varianz  .

Beispiel Standardnormalverteilte ZV

Bearbeiten

Für eine standardnormalverteilte ZV   gilt:

 

 

 

Außerdem ist

 

und analog

 

Normalverteilung

Bearbeiten

Dichtefunktion

Bearbeiten

Seien   und   gegeben.

Eine ZV   mit der W-Dichte  
heißt normalverteilt mit EW   und SA  .

Verteilungsfunktion

Bearbeiten

Für die Verteilungsfunktion   von   gilt dann:  
Dabei ist   definiert durch:  
Beachte:   kann nur (computerunterstützt) näherungsweise berechnet werden, da obiges Integral nicht analytisch gelöst werden kann.

Beispiel Dichte- und Verteilungsfunktion

Bearbeiten

 

Beispiel Dichte- und Verteilungsfunktion interkativ

Bearbeiten

Interaktive Shiny-App zur Normalverteilung:
Download und Link

Anmerkungen zur Normalverteilung I

Bearbeiten
  • Der EW   entspricht der Maximumstelle von  . Daher ist es wahrscheinlicher, dass eine Realisation einer normalverteilten ZV   in der Nähe des EW liegt, als dass sie (in einem gleich großen Bereich) weit vom EW entfernt liegt.

  •   ist symmetrisch bezüglich der Parallellen zur  -Achse durch  . Die Wahrscheinlichkeit, dass eine Realisation von   in einem bestimmten Bereich liegt ist genauso groß wie die Wahrscheinlichkeit, dass sie in dem am EW gespiegelten Bereich liegt.

Anmerkungen zur Normalverteilung II

Bearbeiten
  • Ist   groß, so ist die Kurve   breiter, d.h. die Wahrscheinlichkeit dafür, dass eine Realisation von   weit entfernt vom EW liegt, ist dann größer. Ist   klein, so liegen die Realisationen von   mit noch höherer Wahrscheinlichkeit in der Nähe des EW.

Berechnung von Wahrscheinlichkeiten

Bearbeiten

Für eine normalverteilte ZV   mit EW   und Standardabweichung   gilt für beliebige Zahlen   mit  :    

Beispiel Berechnung von Wahrscheinlichkeiten

Bearbeiten
  • Für eine normalverteilte Größe   mit   und   gilt:
     

  • Für eine normalverteilte Größe   mit   und   gilt:
     

Erwartungswert und Standardabweichung

Bearbeiten

Für eine normalverteilte ZV   mit EW   und Standardabweichung   gilt:
 

Praktische Anwendung der NV

Bearbeiten

Viele in Natur und Umwelt vorkommenden ZV sind (zumindest näherungsweise) normalverteilt. In der Tat kann dies mathematisch erklärt werden. Nach dem Zentralen Grenzwertsatz ist jede ZV, die sich als Summe vieler unabhängiger ZV ergibt (unter gewissen, meist erfüllten Bedingungen) annähernd normalverteilt.

Beispiele Anwendung der NV I

Bearbeiten
  • Eine binomialverteilte Größe (  Versuche, Trefferwahrscheinlicheit  ) ist annnähernd normalverteilt mit   und  , wenn   groß ist (auf diesen Fall gehen wir später nochmals ausführlicher ein).
  • Die ZV für die Summe der Augenzahlen beim Werfen vieler Würfel ist annähernd normalverteilt.
  • Zeitspannen, die sich aus vielen (unabhängigen) kleinen Einheiten zusammensetzen, können als näherungsweise normalverteilt angenommen werden, beispielsweise die Zeit, die ein Kundenberater für 20 telefonische Beratungsgespräche braucht.

Beispiele Anwendung der NV II

Bearbeiten
  • Zufällig zustandegekommene Messfehler sind oft näherungsweise normalverteilt mit Erwartungswert   (im Gegensatz zu systematischen Messfehlern).
  • Der Ertrag einer Ernte ist abhängig von vielen zufälligen Einflüssen. Nimmt man an, dass diese Faktoren unabhängig voneinander gewisse Beiträge liefern, so folgt daraus, dass der Ernteertrag näherungsweise normalverteilt ist.

Berechnung in R

Bearbeiten

Für eine normalverteilte ZV   mit EW   und Standardabweichung   berechnet man in R:

  • die Funktionswerte der W-Dichte von   durch:  
  • die Funktionswerte der VF von   durch:  
  • die Wahrscheinlichkeit für   durch:  

Aufgabe 1.1

Bearbeiten

Setzen Sie alle Parameter in die bekannten Formeln zur Berechnung der Wahrscheinlichkeiten bei normalverteilten ZVen ein und nutzen Sie dann zur Berechnung den R-Befehl pnorm.

1. Berechnen Sie für eine mit EW   und Standardabweichung   normalverteilte ZV   die Wahrscheinlichkeiten:  
2. Plotten Sie mit R den Graph der Dichtefunktion von X aus Aufgabe a). Markieren Sie die in Aufgabe a) berechneten Wahrscheinlichkeiten in einem Ausdruck des geplotteten Graphen.

Aufgabe 1.2

Bearbeiten

3. Zeigen Sie, dass bei einer normalverteilten Zufallsvariable   mit EW   und Standardabweichung   die Wahrscheinlichkeiten    
nicht von   und   abhängen und berechnen Sie diese Wahrscheinlichkeitswerte.
4. Sortieren Sie (ohne zu rechnen) für eine normalverteilte Zufallsvariable   mit   und   die folgenden Wahrscheinlichkeiten der Größe nach:  ,  ,  ,  ,  .

Aufgabe 1.3

Bearbeiten

5. Sortieren Sie (ohne zu rechnen) für eine normalverteilte Zufallsvariablen   die Wahrscheinlichkeitswerte für   für die folgenden Werte von   und   der Größe nach:
  und  ,
  und  ,
  und  ,
  und  .

Sigma-Regeln

Bearbeiten

( -Regeln für normalverteilte ZV)
Wir betrachten eine normalverteilte ZV   mit EW   und Standardabweichung  . Dann gilt:
 

Beispiel Sigma-Regeln

Bearbeiten

Speziell für   ergeben sich die  -Regeln:

  •  
    d.h. ca. 68,27% der Werte von   liegen näher als   beim EW
  •  
    d.h. ca. 95,45% der Werte von   liegen näher als   beim EW
  •  
    d.h. ca. 99,73% der Werte von   liegen näher als   beim EW

Der Zentrale Grenzwertsatz

Bearbeiten

In der Praxis treten oft ZV auf, die (annähernd) normalverteilt sind. Dies lässt sich mit mathematischen Methoden erklären. Grundlage dafür ist der folgende sogenannte Zentrale Grenwertsatz, der (etwas präziser formuliert) bewiesen werden kann:

ZV als Summe vieler unabhängiger ZV

Bearbeiten

Falls eine ZV   mit Erwartungswert   und Standardabweichung   die Summe von vielen unabhängigen ZV ist (also:   mit   groß), so gilt (unter gewissen Zusatzvoraussetzungen, die wir hier nicht diskutieren wollen, die aber in der Praxis oft erfüllt sind):

 

  entspricht in diesem Sinne also näherungsweise einer Normalverteilung mit demselben Ewartungswert und derselben Standardabweichung.

Spezialfall

Bearbeiten

Ein wichtiger Spezialfall davon ist die folgende Situation: Von einer ZV   ist nur der Erwartungswert   und die Standardabweichung   bekannt. Ansonsten weiß man nichts über die Art der Verteilung. Nun sei   die Summe von   unabhängigen ZV, die alle diesselbe Verteilung wie   haben. Dann ist   approximativ normalverteilt mit  .

Beispiel 1.1

Bearbeiten

  Würfel werden geworfen. Die ZV   beschreibt die Augensumme. Damit folgt, dass   ist, wobei   unabhängig sind und alle dieselbe Wahrscheinlichkeitsverteilung haben wie die ZV für die Zahl eines einzelnen Würfels (  beschreibt die Zahl des  -ten Würfels). Es gilt:

 

Nach dem Zentralen Grenzwertsatz ist   approximativ normalverteilt mit   und  . Also folgt etwa:

Beispiel 1.2

Bearbeiten
  •  

Da   nur ganzzahlige Werte annehmen kann, kann die   durch jede Zahl aus dem halboffenen Intervall   ersetzt werden. Mit dem mittleren Wert   hofft man auf eine möglichst gute Approximation.

  •  

Auf der rechten Seite kann jede Zahl aus dem halboffenen Intervall   stehen. Erneut wählt man den mittleren Wert mit dem Ziel einer möglichst guten Approximation.

  •  
  •  

Beispiel 2

Bearbeiten

  sei die ZV für die Dauer (in Minuten) eines Gespräch eines Telefonberaters (bekannt sei hier, dass   und  ).
  ist dann die ZV für die Dauer von (unabhängigen)   Gesprächen.
Dann ist
 
Man kann also   als approximativ normalverteilt mit   und   annehmen.

Beispiel 3

Bearbeiten

Die Lebensdauer   eines elektronischen Bauteils (in Tagen) ist exponentialverteilt zum Parameter  . Dann gilt   und  .
Man hat nun 50 der Bauteile zur Vefügung und setzt diese nacheinander ein (solange sie funktionieren). Die ZV  , die die Gesamtlaufzeit beschreibt ist dann die Summe der 50 einzelnen Laufzeiten, also  , wobei   unabhängig voneinander sind und alle die gleiche Verteilung haben (dieselbe wie  ). Folglich ist   approximativ normalverteilt mit  . Also folgt beispielsweise:

 

Praktische Anwendung des ZGWS

Bearbeiten

In der Praxis kann man oft davon ausgehen (bzw. vermuten), dass eine ZV   die Summe von   unabhängigen ZV (  groß) ist. Dann folgt aus dem Zentralen Grenzwertsatz, dass   approximativ normalverteilt ist.


Beispiel 1

Bearbeiten

Sei   die ZV für die Zeit, die ein bestimmter Student morgens vom Aufstehen bis zum Erreichen der Uni benötigt. Dann gilt etwa:
   

Wenn man davon ausgeht, dass diese ZV alle unahängig sind, dann liegt die Vermutung nahe, dass   normalverteilt ist (  und   sind dann allerdings zunächst unbekannt).

Beispiel 2

Bearbeiten

Die Regenmenge in einem Jahr (an einem bestimmten Ort) ist die Summe der Regenmengen an den 365 Tagen dieses Jahres. Diese Tagesregenmengen sind weitgehend (aber nicht vollständig) unabhängig voneinander, denn es gibt kaum einen Zusammenhang zwischen den Regenmengen zweier Tage, die nicht zu nah beisammen liegen. Die Regenmenge eines einzelnen Tages ist sicherlich nicht normalverteilt, die jährliche Regenmenge hingegen (approximativ) schon.

Aufgabe 3

Bearbeiten

Die Zufallsvariable   beschreibe die Zeit (in Minuten), die man insgesamt warten muss, wenn man  -mal (unabhängig voneinander) mit der Bahn fährt. Dabei sei jede einzelne Wartezeit     als gleichverteilt auf dem Intervall   angenommen.
(Das ist sinnvoll, wenn die Bahn alle   Minuten fährt und man zu einem zufälligen Zeitpunkt zur Haltestelle kommt).
Nach dem zentralen Grenzwertsatz (ZGWS) ist   (näherungsweise) normalverteilt.
Berechnen Sie zunächst die Parameter   und   der (näherungsweise) normalverteilten ZV   und damit dann die Wahrscheinlichkeit, dass Sie eine Gesamtwartezeit   zwischen 1000 und 1100 Minuten haben.

Aufgabe 4

Bearbeiten

Die Lebensdauer (in Betriebsstunden) eines elektronischen Bauteils sei exponentialverteilt mit Parameter  . Eine Firma hat   dieser Bauteile zur Verfügung, die nacheinander eingesetzt werden können (es wird immer nur eines benötigt). Berechnen Sie die Wahrscheinlichkeit, dass die Bauteile insgesamt mindestens   Betriebsstunden funktionieren.
Es sei hierzu     die Betriebsdauer eines Bauteils und   für alle  . Außerdem sei die Betriebszeit der einzelnen Bauteile als unabhängig voneinander angenommen. Dann ist die Gesamtbetirebsdauer aller Bauteile   näherungsweise normalverteilt. Berechnen Sie   und  .

Approximation der Binomialverteilung mit der Normalverteilung

Bearbeiten

Binomialverteilung

Bearbeiten

Einen Spezialfall des Zentralen Grenzwertsatzes erhält man bei der Betrachtung einer binomialverteilten ZV  . Es ist:  

Binomialverteilung bei großer Stichprobe 1

Bearbeiten

Falls   groß ist, kann man daher die Wahrscheinlichkeit   näherungsweise berechnen, indem man   durch eine normalverteilte ZV   mit Erwartungswert   und Standardabweichung   ersetzt, es gilt also:

 

Binomialverteilung bei großer Stichprobe 2

Bearbeiten

Ist speziell  , so gilt (weil   nur ganze Zahlen annehmen kann)      
und folglich
   

Beispiel

Bearbeiten
  • Für   und   gilt:  
  • Für   und   gilt:  

Punktschätzungen für den Erwartungswert und Standardabweichung

Bearbeiten

Sei   eine normalverteilte ZV, für die   und   unbekannt sind.
Basierend auf einer Stichprobe   sind folgende Punktschätzungen sinnvoll:

  •   wird geschätzt durch:  
  •   wird geschätzt durch:  

Intervallschätzung für Erwartungswert und Standardabweichung

Bearbeiten

Bestimmung Standardabweichung und arithmetisches Mittel

Bearbeiten

Sei   eine normalverteilte ZV, für die   und   unbekannt sind.
Basierend auf einer Stichprobe   berechnet man zunächst
 

Davon ausgehend kann man nun wie folgt Intervallschätzungen für   bzw.   zu einem vorgegebenen Konfidenzniveau   berechnen:

Intervallschätzungen für Erwartungswert

Bearbeiten

Ist   die Zahl mit  , so erhält man eine Intervallschätzung   für   durch:  

Intervallschätzungen für Erwartungswert in R

Bearbeiten

Diese Konfidenzintervalle für   können in R direkt berechnet werden. Sind die Daten der Stichprobe in einem Vektor   eingetragen, so ergibt der Befehl   ein Konfidenzintervall zum Konfidenzniveau  .

Intervallschätzungen für Standardabweichung in R

Bearbeiten

Sind   und   die Zahlen mit  
so erhält man eine Intervallschätzung   für   durch:  

Einhaltung des Konfidenzniveaus

Bearbeiten

Es ist bewiesen, dass diese Methoden zur Berechnung von Intervallschätzungen für   bzw.   beide das vorgegebene Konfidenzniveau   einhalten, das heißt unabhängig von den wahren Werten von   und   ist vor der Erhebung der Daten garantiert:
 

Anmerkungen

Bearbeiten
  • Hier gilt sogar:  
  • Man beachte, dass dabei die Intervallgrenzen   und   bzw.   und   vom Zufall abhängen (denn für ihre Berechnung werden die Daten   verwendet). Andererseits sind   und   zwar unbekannt, aber fest und hängen daher nicht vom Zufall ab. Nachdem man die Konfidenzintervalle berechnet hat, sind die Aussagen   bzw.   daher entweder wahr oder falsch, man kann ihnen aber keine Wahrscheinlichkeit mehr zuweisen.

Beispiel:

Bearbeiten

Wir betrachten die ZV  , die die jährliche Regenmenge an einem bestimmten Ort (in mm) beschreibt. Wir gehen dabei davon aus, dass   normalverteilt ist (dies ist plausibel, denn   ist die Summe von   täglichen Regenmengen, die in weiten Teilen annähernd unabhängig voneinander sind).

Es liegt eine Stichprobe über   Jahre mit den folgenden Daten   vor:

 

Wir berechnen nun Intervallschätzungen für   und   zum Konfidenzniveau  :

  1. IVS für  :  
  2. IVS für  :
    Man bestimmt zunächst die Zahlen   mit:  

Aufgabe 1.1

Bearbeiten

Ein Düngemittel soll auf Wirksamkeit untersucht werden. Eine Messreihe ergibt für das Wachstum einer behandelten Pflanze innerhalb einer Woche die folgende (für ein sinnvolles Experiment deutlich zu kurze) Urliste von Werten (in cm):   Wir nehmen an, dass das Merkmal Wachstum durch eine normalverteilte Zufallsvariable   mit unbekannten Parametern   und   beschrieben werden kann.

  • Geben Sie eine Punktschätzung für die Paramter   und   der normalverteilten ZV   an.

Aufgabe 1.2

Bearbeiten

Wir nehmen nun an, dass diese Schätzungen den wahren Werten von   und   entsprechen. Wie groß ist dann die Wahrscheinlichkeit, dass eine behandelte Pflanze innerhalb einer Woche

  • zwischen 8 cm und 12 cm wächst?
  • exakt 9.73 cm gewachsen ist?
  • mit 10.8 cm Wachstum gemessen wird, wenn die Messmethode bis auf einen Millimeter genau ist?

Berechnen Sie Intervallschätzungen für   und   zum Konfidenzniveau  .

Aufgabe 2

Bearbeiten

Ein Umweltwissenschaftler untersucht den Einfluss verschiedener Habitate auf das Gewicht der Waldspitzmaus (Sorex araneus). Dazu wird das Gewicht der untersuchten Mäuse als normalverteilt mit unbekannten Parametern   und   angenommen. Bei einer Untersuchung werden   Mäuse gewogen. Man ermittelt aus den Daten (angegeben in Gramm) den arithmetischen Mittelwert   und die empirische Standardabweichung  .
Berechnen Sie Punkt- und Intervallschätzungen für   und   zum Konfidenzniveau  .

Aufgabe 3.1

Bearbeiten

Wie verändert sich die Breite   eines Konfidenzintervalls   für den unbekannten Erwartungswert   einer normalverteilten Zufallsvariable  , basierend auf einer Stichprobe   der Länge n, zum Konfidenzniveau  , falls

  •   größer wird und  ,  ,   unverändert bleiben ?
  •   größer wird und   und   unverändert bleiben ?
  •   größer wird und   und   unverändert bleiben ?
  •   größer wird und   und   unverändert bleiben ?

Aufgabe 3.2

Bearbeiten

Wie verändert sich die Breite   eines Konfidenzintervalls   für die unbekannte Standardabweichung   einer normalverteilten Zufallsvariable  , basierend auf einer Stichprobe   der Länge n, zum Konfidenzniveau  , falls

  •   größer wird und   und   unverändert bleiben ?
  •   größer wird und   und   unverändert bleiben ?
  •   größer wird und   und   unverändert bleiben ?

Seiteninformation

Bearbeiten

Diese Lernresource können Sie als Wiki2Reveal-Foliensatz darstellen.

Wiki2Reveal

Bearbeiten

Dieser Wiki2Reveal Foliensatz wurde für den Lerneinheit Kurs:Statistik für Anwender' erstellt der Link für die Wiki2Reveal-Folien wurde mit dem Wiki2Reveal-Linkgenerator erstellt.