Kurs:Statistik für Anwender/Streumaße
Streumaße
BearbeitenEin Streumaß eines Merkmals gibt an, wie stark die Beobachtungswerte ’verteilt’ sind. Manche Streumaße berechnen sich aus der Abweichung der Beobachtungswerte vom Mittelwert.
Spannweite
BearbeitenIst ein quantitatives Merkmal mit der Grundgesamtheit , so nennt man
die Spannweite von .
Beispiel Spannweite
Bearbeiten(vergleiche Beispiele Modalwert)
- Beispiel I (Verkehrsmittel): Bildung der Spannweite macht hier keinen Sinn
- Beispiel II (Versuchspflanzen):
- Beispiel III (Daphnien):
Anmerkung zur Spannweite
BearbeitenDie Spannweite hängt nur von den beiden extremen Merkmalsausprägungen ab und nutzt daher nur einen sehr kleinen Teil der vorhandenen Informationen.
Berechnung der Spannweite in R
BearbeitenIn R: Man erstellt einen Vektor daten mit den Daten der Urliste und kann dann mit max(daten)-min(daten) die Spannweite berechnen.
p-Quantile
BearbeitenDefinition p-Quantile I
BearbeitenIst ein mindestens nach einer Ordinalskala verteiltes Merkmal mit dem Merkmalsraum und ist eine Zahl, so heißt eine Merkmalsausprägung -Quantil, falls:
(Man schreibt für ein -Quantil des Merkmals .)
Definition p-Quantile II
Bearbeiten- Der Anteil der Beobachtungswerte,die sind, ist höchstens .
- Der Anteil der Beobachtungswerte, die sind, ist mindestens .
Das heißt: Durch die Hinzunahme der einen Merkmalsausprägung (zu denen, die kleiner sind) erreicht oder überschreitet der Anteil der Beobachtungswerte den Wert . (Der Median ist ein -Quantil.)
Berechnung p-Quantile
BearbeitenIst die geordnete Datenreihe zu , so gilt
- Ist , so ist das einzige -Quantil. (Dabei bezeichnet (zu ) die größte ganze Zahl, die ist.)
- Ist , so sind und die einzigen -Quantile. (Für quantitative Merkmale bezeichnet man in diesem Fall oft auch als das -Quantil.)
Beispiele p-Quantile
Bearbeiten(vergleiche Beispiele Modalwert)
Beispiel Versuchspflanzen I
BearbeitenBei einer Gruppe von Versuchspflanzen der selben Art wird das Wachstum der Sprossachse (in cm) gemessen, man erhält folgende Urliste:
Bei 23 Werten ist
- das -Quantil der -te, Beobachtungswert, also
- das -Quantil der -te, Beobachtungswert, also
Beispiel Versuchspflanzen II
Bearbeiten- das -Quantil der -te, Beobachtungswert, also
Beispiel Daphnien
BearbeitenBei 50 Daphnien wird die Anzahl der Nachkommen erhoben. Man erhält die folgenden absoluten Häufigkeiten:
Bei 50 Werten ist
Berechnung p-Quantile in R
BearbeitenIn R: Man erstellt einen Vektor daten mit den Daten der Urliste und kann dann mit quantile(daten, ,type=2) das -Quantil berechnen.
Quartil und Perzentil
BearbeitenMan nennt die Quantile auch 1., 2. und 3. Quartil von . Zusätzlich bezeichnet man die Extremwerte und als 0. und 4. Quartil von . Außerdem bezeichnet man ein (das) -Quantil (für ) auch als -tes Perzentil. Für quantitative Merkmale bezeichnet man die Differenz als -Quantilsabstand, insbesondere heißt Quartilsabstand.
Boxplots
BearbeitenMit Hilfe der Quantile lassen sich verschiedene informative grafische Darstellungen für Merkmale erstellen, die insbesondere zum Vergleich von Merkmalen gut geeignet sind. Eine verbreitetes Beispiel dafür sind die sogenannten Boxplots, die in verschiedenen Varianten auftreten.
Erstellung von Boxplots I
BearbeitenFür ein quantitativ verteiltes Merkmal geht man dabei beispielsweise wie folgt vor:
- Die Skala nach der das Merkmal verteilt ist, wird eingezeichnet.
- Eine Box wird eingetragen, die vom 1. bis zum 3.Quartil reicht. Auf Höhe des 2. Quartils wird die Box durch einen Trennstrich in 2 Teile geteilt. (Variante: Der Trennstrich wird auf Höhe des arithmetischen Mittelwerts eingetragen.)
Erstellung von Boxplots II
Bearbeiten- An beiden Enden der Box werden die sogenannten Whiskers (Fühler, Antennen) angetragen. Sie reichen (von der Box) bis zum 0-ten bzw. 4-ten Quartil, also bis zu dem minimalen bzw. maximalen Beobachtungswert. (Variante: Die Länge der Whiskers wird durch die 1,5-fache Länge des Quartilsabstand beschränkt. Werte außerhalb der Whiskers werden noch durch einzelne Punkte dargestellt. Damit verhindert man, das einzelne ’Ausreißer’ die Whiskers massiv beeinflussen.)
Vorraussetzung an Skala
BearbeitenBoxplots eignen sich nicht für Merkmale, die nur nach einer Ordinalskala verteilt sind. In dem Fall lassen sich zwar die Quartile sinnvoll definieren, aber die Einzeichnung der Skala suggeriert bestimmte Abstände zwischen den Beobachtungswerten (dies ist erst bei einer Intervallskala sinnvoll). Bei zu kleiner Datenmenge ist zu beachten, dass einzelne Beobachtungswerte einen Boxplot sehr stark beeinflussen.
Beispiele Boxplot
Bearbeiten(vergleiche Beispiele Modalwert)
Beispiel Versuchspflanzen
BearbeitenEs ist:
Beispiel Daphnien
BearbeitenEs ist:
Erstellung Boxplot in R
BearbeitenIn R: Man erstellt einen Datenvektor daten und erhält dann mit boxplot(daten,range=0) (für eine unbeschränkte Länge der Whiskers) bzw. boxplot(daten,range=1.5) (für Whiskers, die auf die -fache Länge der Box beschränkt sind) einen Boxplot.
Histogramm und Boxplot
BearbeitenInteraktive Shiny-App zum Vergleich Histogramm und Boxplot:
Download und Link
Perzentilbänder
BearbeitenEine weitere Darstellungsart sind die sogenannten Perzentilbänder. Wie bei Boxplots kann man darin bestimmte Quantile (Perzentile) ablesen. Perzentilbänder können auf vielfältige Art und Weise gestaltet werden.
Beispiel Perzentilband
BearbeitenDie unteren 5% der Schüler erreichen weniger als 300 Punkte,die oberen 5% mehr als 650 Punkte.Die mittleren 50% der Schüler (25-75%) liegen zwischen 420 und 580 Punkten.Im Mittel wird ein Leistungsniveau von 500 Punkten erreicht.
Varianz und Standardabweichung
BearbeitenDefinition Varianz und Standardabweichung
BearbeitenIst ein quantitatives Merkmal, so heißt
(empirische) Varianz von und (empirische) Standardabweichung von .
(Man schreibt häufig für die Varianz von .)
Sind die Merkmalsausprägungen von , so gilt
Beispiele Varianz und Standardabweichung I
Bearbeiten(vergleiche Beispiele Modalwert)
- Beispiel II (Versuchspflanzen): Es ist und und folglich .
- Beispiel III (Daphnien): Es ist und und folglich .
Weitere Formel zur Berechnung von s x
BearbeitenZur Berechnung von eignet sich die Formel:
Beispiele Varianz und Standardabweichung II
BearbeitenIn obigem Beispiel II (Versuchspflanzen) ist
Varianz und lineare Verknüpfung
BearbeitenFür ein quantitatives Merkmal und gilt:
Beispiel Varianz und lineare Verknüpfung
BearbeitenWir betrachten das Beispiel der Temperaturangaben aus Beispiel Linearität des Mittelwerts. Dabei war . Man berechnet:
Die empirische Standardabweichung eines Merkmals ist die Wurzel aus der mittleren quadratischen Abweichung vom Mittellwert. Die Betrachtung der quadratischen Abweichung hat zur Folge, dass Ausreißer (Beobachtungswerte, die weit entfernt vom Mittlwert liegen) besonders stark gewichtet werden.
Berechnung in R I
BearbeitenIn R: Man erstellt einen Vektor daten mit den Daten der Urliste und kann dann mit mean(daten^2)-mean(daten)^2 die Varianz beziehungsweise mit sqrt(mean(daten^2)-mean(daten)^2) die Standardabweichung berechnen.
Berechnung in R II
BearbeitenAlternativ kann man mit var(daten) die sogenannte korrigierte Stichprobenvarianz
und mit sd(daten) die Wurzel daraus, also
berechnen. (Die Berechnung dieses Ausdrucks macht in der schließenden Statistik Sinn, siehe Vorlesung ’Statistik für Anwender II’.)
Aufgabe I
BearbeitenGegeben Sei die Grundgesamtheit aller Kinder von Ehepaaren ( ):
- Berechnen Sie für das Merkmal "Zahl der Geschwister" den Modalwert, den Median, den arithmetischen Mittelwert.
Hinweis: Bestimmen Sie zunächst die möglichen Merkmalsausprägungen und ihre absoluten Häufigkeiten. - Bestimmen Sie die Spannweite, Varianz und Standardabweichung sowohl für die Anzahl der Kinder als auch für die Anzahl der Geschwister.
Aufgabe II
BearbeitenIn einem Versuch zum Wachstum der Sprossachse einer bestimmten Art werden die folgenden Werte in mm ermittelt:
8, 2, 15, 16, 7, 11, 4, 19, 11, 12, 13, 9, 5, 6, 8, 13, 6, 14, 17, 8
- Bestimmen Sie Median, Modalwert und arithmetisches Mittel.
- Bestimmen Sie die Spannweite, Varianz und Standardabweichung.
- Berechnen Sie die absoluten und relative Häufigkeit zur Klassierung mit den folgenden Grenzen:
Berechnen Sie dann auch die Häufigkeitsdichten und erstellen Sie ein Histogramm.
Standardisierte Merkmale
BearbeitenDefinition standardisiertes Merkmal
BearbeitenEin (quantitatives) Merkmal heißt standardisiert, falls und ist.
Normalerweise treten bei Beobachtungen praktisch nie standardisierte Merkmale auf. Man kann aber jedes Merkmal mit einer einfachen Transformation standadisieren. Es gilt: Ist ein quantitatives Merkmal, so ist
ein standardisiertes Merkmal. Man nennt standardisiertes Merkmal zu .
Anmerkung standardisiertes Merkmal I
BearbeitenFür einen Merkmalsträger entspricht dem Unterschied von und dem Mittelwert von gemessen in Standardabweichungen. Man beachte:
Beispiel standardisiertes Merkmal 1
Bearbeiten(vergleiche Beispiele Modalwert)
- Beispiel II (Versuchspflanzen):
- Es ist und .
- Ist ein Spross mit , so ist . Damit ist der Spross um Standardabweichungen größer als das arithmetische Mittel aller Sprossen aus der untersuchten Grundgesamtheit.
- Ist ein Spross mit , so ist . Damit ist der Spross um Standardabweichungen kleiner als das arithmetische Mittel aller Sprossen aus der untersuchten Grundgesamtheit.
Beispiel standardisiertes Merkmal 2
Bearbeiten- Ist ein Spross mit , so ist . Damit ist der Spross um Standardabweichungen größer als das arithmetische Mittel aller Sprossen aus der untersuchten Grundgesamtheit.
- Beispiel III (Daphnien):
- Es ist und . Für eine Daphnie mit gilt . Die Kinderzahl der Familie ist also um Standardabweichungen größer als der Durchschnitt (arithmetisches Mittel) aller Familien aus der untersuchten Grundgesamtheit.
Anmerkung standardisiertes Merkmal II
BearbeitenFür mit gilt
Aufgabe 1.1
BearbeitenZwei Speerwerfer und absolvieren jeweils eine Trainingsserie und erzielen dabei die folgenden Weiten:
- Berechnen Sie jeweils den Median und den arithmetischen Mittelwert.
- Berechnen Sie jeweils die Spannweite, die empirische Varianz und die empirische Standardabweichung.
Aufgabe 1.2
Bearbeiten- Beide waren der Meinung, dass ihr letzter Wurf besonders gut war. Benutzen Sie die standardisierten Merkmale und , um dies zu beurteilen.
Aufgabe 2
BearbeitenDiskutieren Sie: Wie wirkt sich das Vergrößern des Datensatzes auf die die verschiedenen Lage- und Streuungsmaße aus?
Seiteninformation
BearbeitenDiese Lernresource können Sie als Wiki2Reveal-Foliensatz darstellen.
Wiki2Reveal
BearbeitenDieser Wiki2Reveal Foliensatz wurde für den Lerneinheit Kurs:Statistik für Anwender' erstellt der Link für die Wiki2Reveal-Folien wurde mit dem Wiki2Reveal-Linkgenerator erstellt.
- Die Seite wurde als Dokumententyp PanDocElectron-SLIDE erstellt.
- Link zur Quelle in Wikiversity: https://de.wikiversity.org/wiki/Kurs:Statistik%20f%C3%BCr%20Anwender/Streuma%C3%9Fe
- siehe auch weitere Informationen zu Wiki2Reveal und unter Wiki2Reveal-Linkgenerator.