Benutzer:O.tacke/2013/coursera-computing for data analysis

Da ich gerade ein bisschen mit einer kleien statistischen Auswertung zu tun habe, habe ich mir PSPP und R als Hilfsmittel installiert. Für das, was ich vorhabe, reicht PSPP eigentlich vollkommen aus, andererseits befriedigt R meinen Spieltrieb eher.

Von Bastian Greshake habe ich auf Twitter den Tipp bekommen, dass gerade heute ein Kurs auf Coursera startet: Computing for Data Analysis. Der dreht sich um die Datenanalyse speziell mit R. Da ich selbst noch nie an einem solchen xMOOC teilgenommen habee, nutze ich einfach die Gelegenheit und sammele hier meine Erfahrungen. Kritisch hat sich ja bereits Rolf Schulmeister als Undercover Student damit auseinander gesetzt.

Ergebnisse

Bearbeiten
  1. xMOOC im Selbstversuch: Rechnergestützte Datenanalyse
  2. xMOOC im Selbstversuch: Halbzeit
  3. xMOOC im Selbstversuch: Der Abschluss

Mein erster Eindruck

Bearbeiten

Der Kurs läuft vier Wochen, 3 bis 5 Stunden sollte ich pro Woche einkalkulieren. Das klingt doch durchaus machbar. Okay, eine blogähnliche Startseite, eine Kursbeschreibung mit Zielen und Hinweisen dazu, wie der Kurs bestanden wird. In der Lernumgebung gibt es zum Tummeln kurze Videos, Dokumente, Quizzes, ein Forum zum Austauschen, ...

Schauen wir doch einmal!

  • Etwa 2 Stunden an Videos für Woche Nr. 1 - bleibt aber nicht mehr viel Zeit zum Lernen, wenn 3-5 Stunden pro Woche angesetzt sein sollen. Die Laufzeit der Videos ist ja nicht gleichzusetzen mit der Zeit, die ich tatsächlich davor sitze - ich mache eine Pause, ich probiere gleich etwas im Interpreter aus, mache Notizen, ich schaue eine Sequenz noch einmal... Die Rechnung ist mager!
  • Benutzer auf dem Demo-Rechner heißt Amelia, eine Referenz auf Doctor Who?
  • Professor Peng befürwortet Reproducible Research (Open Data), finde ich gut!
  • Stellt sich und seinen Hintergrund kurz vor, finde ich auch gut. Die Hinweise im Einstiegsvideo zu den zu absolvierenden Quizzes bzw. Aufgaben steht aber im Widerspruch zum Kurstext.
  • Videos leider nichts als vertonte hässliche Textwüsten-Folien als Folienfilm. Dilemma der Folienumente: Zu viel für eine "Präsentation", zu wenig für ein Skript. Das Video bringt als Bonus die Tonspur für diejenigen, die lieber einem Lehrenden zuhören. Das verschenkt in meinen Augen leider Potenzial des Mediums Video. Mir wäre hier ein guter Text lieber gewesen.
  • Material wird nur wochenweise freigeschaltet. Wenn ich viel Zeit habe, kann ich nicht vorarbeiten.
  • Didaktisch nicht durchdacht: Offenbar lassen sich Datentypen unter dem Prinzip des "least common denominator" in eine Reihenfolge bringen (Video Woche 1, Kapitel 2, Abschnitt 4, Folie 9). In R wird bei der Zusammenstellung eines Vectors aus verschiedenen Datentypen versucht, diese "auf einen Nenner" zu bringen. Würfele ich etwa einen character mit einem integer zusammen, stehen im Vector nachher zwei character drin, denn ich kann Zahlen immer auch als Zeichen interpretieren, aber nicht umgekehrt. Aus logical (aka boolean) und integer werden integer, denn FALSE ist typischerweise 0, TRUE typischerweise 1. So ergibt sich die Abstufung logical => integer => numeric => complex => character - mathematisch (nicht ganz korrekt wegen der Umwandlung) ist das bloß eine Verschachtelung von Teilmengen. Dann wäre es nicht schädlich gewesen, diese Reihenfolge schon bei der Einführung der Typen auf Folie 2 zu verwenden, das später grafisch mit Pfeilen darzustellen (Pentagramm, Stufe, was weiß ich). Überhaupt hätte man das an vielen Stellen grafisch veranschaulichen können.
  • Didaktisch fraglich, wenn jemand noch nie programmiert hat. Am Anfang werden einem abstrakte Konzepte um die Ohren gehauen, ohne dass man weiß, wozu die gut sein sollen. Muss ich also auch nachlesen, um es zu verstehen. Erinnert mich an die klassische Vorlesung: Der Prof. hält einen Vortrag, hängt die Leute ab, und erarbeiten muss ich mir doch alles selbst.
  • Abstraktion wird gebracht, Konkretisierung selbst allein. Ob die dafür notwendigen Vorkenntnisse von allen mitgebracht werden? Was gebraucht wird, wird leider nicht angegeben.
  • Ein Advance Organizer als Einstieg wäre was gewesen.
  • Auch seltsam: Es geht um Statistik, zumindest da sollten doch Vorkenntnisse vorhanden sein. Bei factors auf Folie 19 gibt es halt "ordered" und "unordered". Erstgenannte sind bei ordinal skalierten Daten sinnvoll, unordered bei nominal skalierten. Wäre das nicht eine super Gelegenheit gewesen, um an die grundlegendsten Statistik-Kenntnisse anzuknüpfen?
  • Die Programmier-Hausaufgabe wird über einen lächerlichen Multiple-Choice-Test abgefragt, der auch komplett ohne Programmierkenntnisse gelöst werden kann. Man erhält eine CSV-Tabelle, mit der eigentlich in R gearbeitet werden soll. Die erste Frage lautet tatsächlich, welche Bezeichnungen in der Spaltenüberschrift stehen!? Klar, man betrügt sich selbst, wenn man das nicht als Gelegenheit nutzt, um das mit R herauszutüfteln, aber die Punkte bekommt man so oder so zugeschrieben. Was wird das für das "Zertifikat" denn geprüft??? Wenigstens soll wohl in späteren Hausaufgaben auch wirklich Quelltext produziert und eingeschickt werden.
  • Die Multiple-Choice-Fragen als Test zur Woche sind schon etwas kniffeliger, passen aber überhaupt nicht zur Zielsetzung des Kurses! Schwieriger sind die Fragen, die sich auf Datentypen beziehen. Zum einen wurden manche Dinge dazu gar nicht im Kurs behandeln, etwa dass der colon-Operator in R aus einem numeric einen integer macht. Lässt sich zwar ganz einfach mit is.integer prüfen, aber das nun wirklich nicht dabei, um mit R statistische Auswertungen zu basteln. Das mag für Informatiker relevant sein, aber nicht wirklich für diejenigen, die R einfach praktisch einsetzen wollen.

Zweite Woche

Bearbeiten
  • Mehr Videozeit als in Woche 1
  • Quizzes unsinnig. Was bringen Fragen wie "Was wird in R ausgegeben, wenn ich XY eingebe?" -> Lässt sich schließlich einfach in R eingeben und gucken, was dabei herauskommt. Einfach unreflektiert Multiple-Choice-Aufgaben einer Offline-Klausur übernommen? Die "schwierigeren" Fragen zielen auf Verständnis von R ab, aber die Antworten werden a) in den Videos gegeben und b) bringen sie nicht dabei weiter, mit R statistische Auswertungen zu erledigen.
  • Die eigentlich sehr einfachen Programmieraufgaben werden diesmal per Unit-Tests geprüft, das ist doch wenigstens mal was. Wer noch nie programmiert hat, dürfte sich aber sehr schwer tun mit den Aufgaben. Der Kurs bereitet überhaupt nicht darauf vor, die veranschlagten 3-5 Stunden reichen dann hinten und vorne nicht. Im Forum haben bereits die ersten aufgegeben, nachdem sie schon für die erste kurze Aufgabe mehrere Stunden benötigt haben. Wer schon programmieren kann, macht das mit Links, hätte dafür aber kein Vorlesungsvideo benötigt.