Kurs:Statistik für Anwender/Streumaße

Streumaße

Bearbeiten

Ein Streumaß eines Merkmals gibt an, wie stark die Beobachtungswerte ’verteilt’ sind. Manche Streumaße berechnen sich aus der Abweichung der Beobachtungswerte vom Mittelwert.

Spannweite

Bearbeiten

Ist   ein quantitatives Merkmal mit der Grundgesamtheit  , so nennt man  
die Spannweite von  .

Beispiel Spannweite

Bearbeiten

(vergleiche Beispiele Modalwert)

  • Beispiel I (Verkehrsmittel): Bildung der Spannweite macht hier keinen Sinn
  • Beispiel II (Versuchspflanzen):  
  • Beispiel III (Daphnien):  

Anmerkung zur Spannweite

Bearbeiten

Die Spannweite hängt nur von den beiden extremen Merkmalsausprägungen ab und nutzt daher nur einen sehr kleinen Teil der vorhandenen Informationen.

Berechnung der Spannweite in R

Bearbeiten

In R: Man erstellt einen Vektor daten mit den Daten der Urliste und kann dann mit max(daten)-min(daten) die Spannweite berechnen.

p-Quantile

Bearbeiten

Definition p-Quantile I

Bearbeiten

Ist   ein mindestens nach einer Ordinalskala verteiltes Merkmal mit dem Merkmalsraum   und ist   eine Zahl, so heißt eine Merkmalsausprägung    -Quantil, falls:
 
(Man schreibt   für ein  -Quantil des Merkmals  .)

Definition p-Quantile II

Bearbeiten
  • Der Anteil der Beobachtungswerte,die   sind, ist höchstens  .
  • Der Anteil der Beobachtungswerte, die   sind, ist mindestens  .

Das heißt: Durch die Hinzunahme der einen Merkmalsausprägung   (zu denen, die kleiner sind) erreicht oder überschreitet der Anteil der Beobachtungswerte den Wert  . (Der Median ist ein  -Quantil.)

Berechnung p-Quantile

Bearbeiten

Ist   die geordnete Datenreihe zu  , so gilt

  • Ist  , so ist   das einzige  -Quantil. (Dabei bezeichnet   (zu  ) die größte ganze Zahl, die   ist.)
  • Ist  , so sind   und   die einzigen  -Quantile. (Für quantitative Merkmale bezeichnet man in diesem Fall oft auch   als das  -Quantil.)

Beispiele p-Quantile

Bearbeiten

(vergleiche Beispiele Modalwert)

Beispiel Versuchspflanzen I
Bearbeiten

Bei einer Gruppe von Versuchspflanzen der selben Art wird das Wachstum der Sprossachse (in cm) gemessen, man erhält folgende Urliste:
 
 
Bei 23 Werten ist

  • das  -Quantil der  -te, Beobachtungswert, also  
  • das  -Quantil der  -te, Beobachtungswert, also  
Beispiel Versuchspflanzen II
Bearbeiten
  • das  -Quantil der  -te, Beobachtungswert, also  
Beispiel Daphnien
Bearbeiten

Bei 50 Daphnien wird die Anzahl der Nachkommen erhoben. Man erhält die folgenden absoluten Häufigkeiten:

 

Bei 50 Werten ist  

Berechnung p-Quantile in R

Bearbeiten

In R: Man erstellt einen Vektor daten mit den Daten der Urliste und kann dann mit quantile(daten, ,type=2) das  -Quantil berechnen.

Quartil und Perzentil

Bearbeiten

Man nennt die Quantile   auch 1., 2. und 3. Quartil von  . Zusätzlich bezeichnet man die Extremwerte   und   als 0. und 4. Quartil von  . Außerdem bezeichnet man ein (das)  -Quantil (für  ) auch als  -tes Perzentil. Für quantitative Merkmale bezeichnet man die Differenz     als  -Quantilsabstand, insbesondere heißt   Quartilsabstand.

Boxplots

Bearbeiten

Mit Hilfe der Quantile lassen sich verschiedene informative grafische Darstellungen für Merkmale erstellen, die insbesondere zum Vergleich von Merkmalen gut geeignet sind. Eine verbreitetes Beispiel dafür sind die sogenannten Boxplots, die in verschiedenen Varianten auftreten.

Erstellung von Boxplots I

Bearbeiten

Für ein quantitativ verteiltes Merkmal   geht man dabei beispielsweise wie folgt vor:

  • Die Skala nach der das Merkmal   verteilt ist, wird eingezeichnet.
  • Eine Box wird eingetragen, die vom 1. bis zum 3.Quartil reicht. Auf Höhe des 2. Quartils wird die Box durch einen Trennstrich in 2 Teile geteilt. (Variante: Der Trennstrich wird auf Höhe des arithmetischen Mittelwerts eingetragen.)

Erstellung von Boxplots II

Bearbeiten
  • An beiden Enden der Box werden die sogenannten Whiskers (Fühler, Antennen) angetragen. Sie reichen (von der Box) bis zum 0-ten bzw. 4-ten Quartil, also bis zu dem minimalen bzw. maximalen Beobachtungswert. (Variante: Die Länge der Whiskers wird durch die 1,5-fache Länge des Quartilsabstand   beschränkt. Werte außerhalb der Whiskers werden noch durch einzelne Punkte dargestellt. Damit verhindert man, das einzelne ’Ausreißer’ die Whiskers massiv beeinflussen.)

Vorraussetzung an Skala

Bearbeiten

Boxplots eignen sich nicht für Merkmale, die nur nach einer Ordinalskala verteilt sind. In dem Fall lassen sich zwar die Quartile sinnvoll definieren, aber die Einzeichnung der Skala suggeriert bestimmte Abstände zwischen den Beobachtungswerten (dies ist erst bei einer Intervallskala sinnvoll). Bei zu kleiner Datenmenge ist zu beachten, dass einzelne Beobachtungswerte einen Boxplot sehr stark beeinflussen.

Beispiele Boxplot

Bearbeiten

(vergleiche Beispiele Modalwert)

Beispiel Versuchspflanzen
Bearbeiten

Es ist:  

 

Beispiel Daphnien
Bearbeiten

Es ist:  

 

Erstellung Boxplot in R

Bearbeiten

In R: Man erstellt einen Datenvektor daten und erhält dann mit boxplot(daten,range=0) (für eine unbeschränkte Länge der Whiskers) bzw. boxplot(daten,range=1.5) (für Whiskers, die auf die  -fache Länge der Box beschränkt sind) einen Boxplot.

Histogramm und Boxplot

Bearbeiten

Interaktive Shiny-App zum Vergleich Histogramm und Boxplot:
Download und Link

Perzentilbänder

Bearbeiten

Eine weitere Darstellungsart sind die sogenannten Perzentilbänder. Wie bei Boxplots kann man darin bestimmte Quantile (Perzentile) ablesen. Perzentilbänder können auf vielfältige Art und Weise gestaltet werden.

Beispiel Perzentilband

Bearbeiten

Die unteren 5% der Schüler erreichen weniger als 300 Punkte,die oberen 5% mehr als 650 Punkte.Die mittleren 50% der Schüler (25-75%) liegen zwischen 420 und 580 Punkten.Im Mittel wird ein Leistungsniveau von 500 Punkten erreicht.


 

Varianz und Standardabweichung

Bearbeiten

Definition Varianz und Standardabweichung

Bearbeiten

Ist   ein quantitatives Merkmal, so heißt
 
(empirische) Varianz von   und   (empirische) Standardabweichung von  .
(Man schreibt häufig   für die Varianz von  .)

Sind   die Merkmalsausprägungen von  , so gilt
 

Beispiele Varianz und Standardabweichung I
Bearbeiten

(vergleiche Beispiele Modalwert)

  • Beispiel II (Versuchspflanzen): Es ist   und   und folglich  .
  • Beispiel III (Daphnien): Es ist   und   und folglich  .

Weitere Formel zur Berechnung von s x

Bearbeiten

Zur Berechnung von   eignet sich die Formel:

 

Beispiele Varianz und Standardabweichung II
Bearbeiten

In obigem Beispiel II (Versuchspflanzen) ist  

Varianz und lineare Verknüpfung

Bearbeiten

Für ein quantitatives Merkmal   und   gilt:  

Beispiel Varianz und lineare Verknüpfung
Bearbeiten

Wir betrachten das Beispiel der Temperaturangaben aus Beispiel Linearität des Mittelwerts. Dabei war  . Man berechnet:  

  • Die empirische Standardabweichung eines Merkmals ist die Wurzel aus der mittleren quadratischen Abweichung vom Mittellwert. Die Betrachtung der quadratischen Abweichung hat zur Folge, dass Ausreißer (Beobachtungswerte, die weit entfernt vom Mittlwert liegen) besonders stark gewichtet werden.

    Berechnung in R I

    Bearbeiten

    In R: Man erstellt einen Vektor daten mit den Daten der Urliste und kann dann mit mean(daten^2)-mean(daten)^2 die Varianz   beziehungsweise mit sqrt(mean(daten^2)-mean(daten)^2) die Standardabweichung   berechnen.

    Berechnung in R II

    Bearbeiten

    Alternativ kann man mit var(daten) die sogenannte korrigierte Stichprobenvarianz
     
    und mit sd(daten) die Wurzel daraus, also
     
    berechnen. (Die Berechnung dieses Ausdrucks macht in der schließenden Statistik Sinn, siehe Vorlesung ’Statistik für Anwender II’.)

    Aufgabe I

    Bearbeiten

    Gegeben Sei die Grundgesamtheit aller Kinder von Ehepaaren ( ):
     


    • Berechnen Sie für das Merkmal "Zahl der Geschwister" den Modalwert, den Median, den arithmetischen Mittelwert.
      Hinweis: Bestimmen Sie zunächst die möglichen Merkmalsausprägungen und ihre absoluten Häufigkeiten.
    • Bestimmen Sie die Spannweite, Varianz und Standardabweichung sowohl für die Anzahl der Kinder als auch für die Anzahl der Geschwister.

    Aufgabe II

    Bearbeiten

    In einem Versuch zum Wachstum der Sprossachse einer bestimmten Art werden die folgenden Werte in mm ermittelt:
    8, 2, 15, 16, 7, 11, 4, 19, 11, 12, 13, 9, 5, 6, 8, 13, 6, 14, 17, 8

    • Bestimmen Sie Median, Modalwert und arithmetisches Mittel.
    • Bestimmen Sie die Spannweite, Varianz und Standardabweichung.
    • Berechnen Sie die absoluten und relative Häufigkeit zur Klassierung mit den folgenden Grenzen:  
      Berechnen Sie dann auch die Häufigkeitsdichten und erstellen Sie ein Histogramm.

    Standardisierte Merkmale

    Bearbeiten

    Definition standardisiertes Merkmal

    Bearbeiten

    Ein (quantitatives) Merkmal   heißt standardisiert, falls   und   ist.

    Normalerweise treten bei Beobachtungen praktisch nie standardisierte Merkmale auf. Man kann aber jedes Merkmal mit einer einfachen Transformation standadisieren. Es gilt: Ist   ein quantitatives Merkmal, so ist  
    ein standardisiertes Merkmal. Man nennt   standardisiertes Merkmal zu  .

    Anmerkung standardisiertes Merkmal I

    Bearbeiten

    Für einen Merkmalsträger   entspricht   dem Unterschied von   und dem Mittelwert von   gemessen in Standardabweichungen. Man beachte:  


    Beispiel standardisiertes Merkmal 1

    Bearbeiten

    (vergleiche Beispiele Modalwert)

    • Beispiel II (Versuchspflanzen):
      • Es ist   und  .
      • Ist   ein Spross mit  , so ist  . Damit ist der Spross um   Standardabweichungen größer als das arithmetische Mittel aller Sprossen aus der untersuchten Grundgesamtheit.
      • Ist   ein Spross mit  , so ist  . Damit ist der Spross um   Standardabweichungen kleiner als das arithmetische Mittel aller Sprossen aus der untersuchten Grundgesamtheit.

    Beispiel standardisiertes Merkmal 2

    Bearbeiten
      • Ist   ein Spross mit  , so ist  . Damit ist der Spross um   Standardabweichungen größer als das arithmetische Mittel aller Sprossen aus der untersuchten Grundgesamtheit.
    • Beispiel III (Daphnien):
      • Es ist   und  . Für eine Daphnie   mit   gilt  . Die Kinderzahl der Familie ist also um   Standardabweichungen größer als der Durchschnitt (arithmetisches Mittel) aller Familien aus der untersuchten Grundgesamtheit.


    Anmerkung standardisiertes Merkmal II

    Bearbeiten

    Für   mit   gilt  

    Aufgabe 1.1

    Bearbeiten

    Zwei Speerwerfer   und   absolvieren jeweils eine Trainingsserie und erzielen dabei die folgenden Weiten:

     
     

     
     

    • Berechnen Sie jeweils den Median und den arithmetischen Mittelwert.
    • Berechnen Sie jeweils die Spannweite, die empirische Varianz und die empirische Standardabweichung.

    Aufgabe 1.2

    Bearbeiten
    • Beide waren der Meinung, dass ihr letzter Wurf besonders gut war. Benutzen Sie die standardisierten Merkmale   und  , um dies zu beurteilen.

    Aufgabe 2

    Bearbeiten

    Diskutieren Sie: Wie wirkt sich das Vergrößern des Datensatzes auf die die verschiedenen Lage- und Streuungsmaße aus?

    Seiteninformation

    Bearbeiten

    Diese Lernresource können Sie als Wiki2Reveal-Foliensatz darstellen.

    Wiki2Reveal

    Bearbeiten

    Dieser Wiki2Reveal Foliensatz wurde für den Lerneinheit Kurs:Statistik für Anwender' erstellt der Link für die Wiki2Reveal-Folien wurde mit dem Wiki2Reveal-Linkgenerator erstellt.