Kurs:Maschinelles Lernen/Hypothesen aus Daten Ableiten

Vorherige Seite: K1 - Grundbegriffe des maschinellen Lernens
Nächste Seite: K2 - Lineare Regression in einer Dimension

Formulierung des Problems Bearbeiten

Mit dem vorliegenden Datensatz   können zwar viele aber sicher nicht alle Hypothesen getestet werden. Wie auf der vorherigen Seite bereits bemerkt, wird dazu der Hypothesenraum eingeschränkt. Es bietet sich an, dazu ein Modell mit einer gewissen Anzahl an Parametern zu entwerfen. Diese Parameter können zu einem Vektor   zusammengefasst werden. Der betrachtete Hypothesenraum   mit den Hypothesen   ist damit eine Teilmenge des gesammten Hypothesenraums  . Aufgrund der speziellen Wahl von   kann der betrachtete Hypothesenraum als isomorph zu   angesehen werden. In diesem Fall besteht die Aufgabe des maschinellen Lernens darin einen Parametervektor   zu finden, so dass (salopp formuliert)   gilt. Die Parameter   können bspw. im Rahmen der Neuronalen Netze die Gewichte der einzelnen Neuronen sein. Auf der anderen Seite gibt, es Parameter, die zwar festgelegt, aber nicht varriert werden, die also nicht in den Parametervektor   einfließen. Sie werden als Hyperparameter bezeichnet. Bei Neuronalen Netzen wäre dies bspw. die Zahl der Neuronen und die Architektur des Netzes.

Risiko- und Verlustfunktion Bearbeiten

Um nun   zu finden, bietet es sich an, die Fehler des Modells durch eine Funktion

 

zu quantifizieren und versuchen diese zu minimieren. Die Funktion   wird als Risiko bezeichnet. Da   allerdings nicht bekannt ist, muss   genähert werden. Dazu wird auf Grundlage eines vorliegenden Datensatzes   das empirische Risiko

 

mit der Verlustfunktion (engl. loss function)

 

eingeführt. Häufig wird stattdessen das empirische Risiko auch als Funktion des Datensatzes unter vorliegen einer bestimmten Hypothese   aufgefasst. An die Verlustfunktion werden zwei Bedingungen gestellt:

  • Da das Minimum von   gesucht werden soll, sollte diese Funktion nach unten beschränkt sein. Gleichzeitig sollen Fehler den Wert des empirischen Risikos erhöhen. Daher sollte für alle Hypothesen, Eingabe- und Ausgabewerte der Zusammenhang   gelten.
  • Das Minimum einer Funktion kann mit den Methoden der Differentialrechung gefunden werden, wenn die Funktion differenzierbar ist. Da Ableitungen linear sind, muss jeder Summand differenzzierbar sein, womit sich die Bedingung einer differenzierbaren Verlustfunktion motivieren lässt.

Für Regressionen wird häufig der quadratische Fehler

 

als Verlustfunktion verwendet.
Für eine Klassifikation wird stattdessen die sog. Kreuzentropie

 

verwendet, wobei hier die Vereinbarung   getroffen wird.

Verallgemeinerungsfehler Bearbeiten

Da   nur eine Näherung für   ist, kann es passieren, dass bei der Minimierung des empirischen Risikos zunächst auch das Risiko sinkt, es aber ab einem bestimmten Punkt wieder ansteigt. Ab diesem Moment passt sich das Modell Ausreißer des vorliegenden Datensatzes an und es wird vom Overfitting gesprochen. Um dies zu Quantifizieren wird der Verallgemeinerungsfehler (engl. generalization gap)

 

eingeführt. Dieser soll möglichst klein gehalten werden. In der Praxis wird ein vorliegender Datensatz dazu in drei Teile aufgespalten:

  • Trainingsdatensatz: Der Trainingsdatensatz   besteht aus etwa 70 % der Daten und wird dem Namen entsprechend dazu verwendet, das Modell zu trainieren, also passende Parameter  , welche das empirische Risiko minimieren, zu finden. Aus diesem wird ständig der Trainingsfehler   bestimmt, welcher eine monoton fallende Funktion darstellt.
  • Validierungsdatensatz: Der Validierungsdatensatz   besteht aus etwa 20 % des Datensatzes und evaluiert während des Trainings für verschiedene Hypothesen das empirische Risiko, woraus der Validierungsfehler   bestimmt wird. Dieser wird zwar zunächst fallen, für ein zu lange andauerendes Training aber wieder beginnen zu steigen, da das Modell beginnt, die Ausreißer des Trainingsdatensatzes zu lernen. Der Punkt an dem der Validierungsfehler minimal ist, stellt oft den besten Satz an Parametern dar.
  • Testdatensatz: Die verbleibenden etwa 10 % des Datensatzes stellen den Testdatensatz   dar, der verwendet wird, um die Vorhersagekraft des Systems zu bestimmen. Durch auswerten des empirischen Risikos für diesen Datensatz wird der Testfehler   zu bestimmen. Um den Verallgemeinerungsfehler abzuschätzen wird die Größe   bestimmt.