Kurs:Statistik für Anwender/Darstellung eindimensionaler Merkmale

Darstellung eindimensionaler Merkmale Bearbeiten

Urliste Bearbeiten

Für ein Merkmal   mit einer Grundgesamtheit   bezeichnet man die tabellarische Darstellung

 

als Urliste des Merkmals. Die Urliste enthält alle Informationen des Merkmals, diese sind allerdings nicht geordnet. Auch die Auflistung der Beobachtungswerte
 

bezeichnet man als Urliste (Kurzform).

 

der Beobachtungswerte die geordnete Datenreihe.


Beispiel Urliste und geordnete Datenreihe Bearbeiten

In einer Klassenarbeit erhielten die Schüler einer Klasse folgende Noten (Urliste):

 
Daraus ergibt sich die geordnete Datenreihe:
 

Absolute und relative Häufigkeiten Bearbeiten

Für ein Merkmal   mit einer Grundgesamtheit   bezeichnet man zu einer Merkmalsausprägung  

  • die natürliche Zahl
     

    als absolute Häufigkeit der Merkmalsausprägung  .
  • den Quotienten
     

    als relative Häufigkeit der Merkmalsausprägung  .

Ist  , so gilt

 

Beispiel absolute und relative Häufigkeiten Bearbeiten

In obigem Beispiel der Noten der Schüler ist
 

Verschiedene einfache Diagramme Bearbeiten

Die folgenden Darstellungen sind schon bei nominalskalierten Merkmalen geeignet:

  • Säulen- bzw. Balkendiagramm: Absolute oder relative Häufigkeiten werden als Höhe von Säulen bzw. Balken dargestellt.
  • Kreisdiagramm: Relative Häufigkeiten werden als Anteile eines Kreises (in Form eines Sektors dargestellt). Der Winkel des Sektors zu einer Merkmalsausprägung   beträgt dabei  .
  • Stapeldiagramm: Relative Häufigkeiten werden als Flächen in einer Rechtecksäule dargestellt.

Beispiel Kreisdiagramm Bearbeiten

In obigem Beispiel ergeben sich das folgende Kreisdiagramm:

 

Beispiel Säulendiagramm Bearbeiten

Und das folgende Säulendiagramm

 

Erstellung Kreis- und Säulendiagramm in R Bearbeiten

In R: Man trage die möglichen Merkmalsausprägungen und die zugehörigen absoluten Häufigkeiten in Vektoren ein, z.B.

note  c(”1” , ”2” , ”3” , ”4” , ”5” ,”6”)

und

anzahl   c(3,6,7,4,3,1) und kann dann mit pie(anzahl,note) ein Kreisdiagramm und barplot(anzahl,names.arg=note) ein Säulendiagramm erstellen.

Klassierung von Daten Bearbeiten

Um Ergebnisse übersichtlich darzustellen und um bestimmte Sachverhalte hervorzuheben, ist es oft notwendig/sinnvoll die Merkmalsausprägungen in bestimmten Gruppen (Klassen) zusammenzufassen. Damit können die Daten weniger fein aber hinreichend informativ dargestellt werden. (Was hinreichend ist, hängt vom Verwendungszweck und der Darstellung der Daten ab.)

Klasseneinteilung Bearbeiten

Für ein Merkmal   mit einer Grundgesamtheit   kann man auch eine Klassierung (oder Klasseneinteilung) vornehmen. Dazu unterteilt man die Menge der möglichen Ausprägungen in verschiedene (überschneidungsfreie) Klassen. Jede Merkmalsausprägung ist damit in genau einer Klasse enthalten.

Klassenhäufigkeit Bearbeiten

Zu jeder Klasse   betrachtet man nun ihre absolute und ihre relative Häufigkeit:

 

Sind   die verschiedenen Klassen, so gilt:
 

Da dabei Informationen verloren gehen, sollte man bei der Einteilung der verschiedenen Klassen im Hinblick auf Verwendungszweck und Informationsgehalt sehr sorgfältig sein bzw. klassierte Daten mit Bedacht zur Kenntnis nehmen.

Beispiel Klassierung I Bearbeiten

Das folgende Säulendiagramm stellt die relativen Häufigkeiten der Zweitstimmenanteile der Parteien bei der Bundestagswahl 2009 dar:


 


Hierbei wurden CDU und CSU (eine Fraktion) zu einer Klasse zusammengefasst (aber noch farblich getrennt) und alle Parteien, die weniger als 5% der Stimmen erreicht haben, zu der Klasse ’Sonstige’ zusammengefasst.

Beispiel Klassierung II Bearbeiten

Der Hamburger Sportverein (HSV) erzielte in der Fußball-Bundesliga in 20 aufeienanderfolgenden Spielzeiten die folgenden Platzierungen (Urliste):

 
Säulendiagramme zu zwei (mit besonderer Absicht gewählten) Klassierungen:

Beispiel Klassierung IIa Bearbeiten

Klassen mit Plätze 1-5, Plätze 6-9, Plätze 10-13, Plätze 14-18:

 

Beispiel Klassierung IIb Bearbeiten

Klassen mit Plätze 1-2, Plätze 3-6, Plätze 7-10, Plätze 11-18

 

Auswahl von Klassen I Bearbeiten

Für die Auswahl von Klassen gibt es viele Möglichkeiten. Je nach Auswahl der Klassen kann das präsentierte Ergebnis (obgleich es stets der Wahrheit entspricht) sehr unterschiedliche Wirkung haben.

  • Um eine gewisse Objektivität zu gewährleisten, sollte die Einteilung in die verschiedenen Klassen vor der Datenerhebung geschehen. Will man nachträglich noch eine Veränderung der Klassen vornehmen, sollte man dies inhaltlich begründen können.
  • Eine Fautsregel besagt, dass bei   untersuchten Merkmalsträgern, die Zahl der Klassen etwa   sein sollte. Dies ist sicher nicht in allen Fällen sinnvoll, kann aber ein Anhaltspunkt sein.

Auswahl von Klassen II Bearbeiten

  • Bei quantitativen Merkmalen ist die Entscheidung, ob man Intervalle gleicher oder verschiedener Länge als Klassen verwenden will, zu treffen und nach Möglichkeit inhaltlich zu begründen.

Die Frage nach der Einteilung der Klassen lässt sich in allgemeinem Rahmen nicht mathematisch ableiten. Man muss sie daher im Einzelfall ’mit gesundem Menschenverstand’ angehen.

Histogramm Bearbeiten

Bildung von Klassen Bearbeiten

Wir betrachten nun ein quantitatives (d.h. mindestens nach einer Intervallskala verteiltes) Merkmal   mit Grundgesamtheit  . Nimmt man dabei Klassierungen vor, so ist es (meist) sinnvoll die Klassen als (halboffene) Intervalle zu wählen. Man wählt dazu zunächst   Intervallgrenzen

 

derart dass alle möglichen Merkmalsausprägungen   liegen (dabei kann auch   und/oder   gewählt werden) und betrachtet dann die   Klassen:
 

Klassenhäufigkeit Bearbeiten

Dann gehört jede Merkmalsausprägung zu genau einer der Klassen   und man kann jeder Klasse eine absolute Häufigkeit   und eine relative Häufigkeit   zuordnen.

Klassenhäufigkeitsdichte Bearbeiten

Weiterhin betrachtet man zu jeder Klasse   die jeweilige Klassenbreite   (Intervalllänge) und ermittelt daraus die Häufigkeitsdichte   innerhalb von  . Die Funktion

 
heißt Häufigkeitsdichtefunktion von   bezüglich der Klassierung  . Ihren Graphen bezeichnet man als Histogramm.

Beispiel Histogramm Bearbeiten

Gegeben sei folgende Urliste eines Merkmals   (mit  ):

 
 

Wir betrachten die folgenden durch Intervallgrenzen gegebenen Klassierungen:
Beispiel Klassierung I Bearbeiten

 

 

 

Beispiel Klassierung II Bearbeiten

 

 

 

Anmerkungen Histogramm I Bearbeiten

  • Anstatt   hätte man auch Intervalle der Form   betrachten können.
  • Die Fläche des  -ten Rechtecks im Histogramm beträgt
     

    Da sich die relativen Häufigkeiten zu   summieren, beträgt die Summe der Flächeninhalte aller Rechtecke eines Histogramms stets  . Anders formuliert:
     

Anmerkungen Histogramm II Bearbeiten

  • Die Auswahl der Klassen als Intervalle macht bereits Sinn, wenn ein Merkmal nach einer Ordinalskala verteilt ist. Die Betrachtung von Klassenbreiten (und damit auch das Erstellen von Histogrammen) ist jedoch erst bei Merkmalen sinnvoll, die mindestens nach einer Intervallskala verteilt sind.

Histogramm in R Bearbeiten

In R: Man erstellt einen Vektor   mit den Daten der Urliste, also z.B.

 
 

sowie einen Vektor mit den Intervallgrenzen, also z.B.
 

und kann dann mit
 

ein Histogramm erstellen.

Aufgabe Histogramm Bearbeiten

Zur Bestimmung des Reproduktionsverhaltens unter Stress werden die Nachkommen einer Daphnienzucht gewogen. Man erhält folgende Urliste (in mg):
 
 
 
 
 

Aufgabe Histogramm Fortsetzung Bearbeiten

  1. Berechnen Sie die absoluten und relativen Häufigkeiten zu der durch die folgenden Grenzen ergebenden Klassierung:
     
    Berechnen Sie dann auch die Häufigkeitsdichten und erstellen Sie ein Histogramm.
  2. Verfahren Sie analog für die (gröbere) Klasseneinteilung mit den Grenzen
     

.

Seiteninformation Bearbeiten

Diese Lernresource können Sie als Wiki2Reveal-Foliensatz darstellen.

Wiki2Reveal Bearbeiten

Dieser Wiki2Reveal Foliensatz wurde für den Lerneinheit Kurs:Statistik für Anwender' erstellt der Link für die Wiki2Reveal-Folien wurde mit dem Wiki2Reveal-Linkgenerator erstellt.