Kurs:Maschinelles Lernen/Klassifikation mittels Gradientenabstieg

Vorherige Seite: K2 - Feature Engineering
Nächste Seite: K3 - Klassifikation mittels Support Vector Machines

Formulierung des Problems und passender Hypothesen

Bearbeiten

Als Eingabedaten liegen wieder Punkte   aus dem   vor. Für eine binäre Klassifikation, die hier betrachtet werden soll, sind die möglichen Ausgabewerte aus dem Raum  . Das bedeutet, es müssen Hypothesen gesucht werden, die Abbildungen der Form

 

sind.

Im Kapitel über Vektoren war zu erkennen, dass der Raum   durch eine Hyperebene, welche durch

 

beschrieben wird, in zwei Bereiche geteilt wird. Daher läge es nahe eine Hypothese der Art

 

zu formulieren, wobei

 

die Theta-Funktion ist. Diese Form einer Hypothese ist allerdings für ein Gradientenabstiegsverfahren ungeeignet, da die Theta-Funktion an der Stelle   nicht differenzierbar ist.

Statt der Theta-Funktion wird daher die Sigmoidfunktion (auch als logistische Funktion bezeichnet)

 

betrachtet werden. Sie verfügt über die Grenzwerte

 

und ist mit der Ableitung

 

in jedem Punkt differenzierbar. Damit kann dann zur Optimierung die Hypothese

 

verwendet werden, womit die Idealen Gewichte   bestimmt werden. Zur schlussendlichen Klassifikation muss aber die Theta-Funktion

 

verwendet werden.

Verlustfunktion und empirisches Risiko

Bearbeiten

Für Klassifikationsverfahren wird mit der Vereinbarung   die Kreuzentropie

 

als Verlustfunktion verwendet. Durch Einsetzen der Hypothese mit der Sigmoid-Funktion kann diese zu

 

bestimmt werden.

Für das empirische Risiko

 

für einen vorliegenden Datensatz mit   Datenpunkten kann so der Ausdruck

 

gefunden werden. Darin taucht die erweiterte Datenmatrix   in einem Matrixvektorprodukt mit   auf. (Dies lässt sich in bspw. in Python mit numpy besonders effizient durchführen. Die Summe über   trifft hingegen nicht mit den indizierten Größen auf, so dass diese explizit bestimmt werden muss.)

Wird der Gradient des empirischen Risikos bestimmt, so kann der Ausdruck

 

gefunden werden.

In der Praxis wird hierbei der Faktor   oft ignoriert. Durch die Einführung eines Hyperparametrs   kann die Entscheidung an der Sigmoidfunktion mit   noch härter gemacht werden. In diesem Fall nehmen das empirische Risiko und sein Gradient die Formen

 

und

 

an.

Feature Engineering

Bearbeiten

Wie auch bei linearen Regressionen lassen sich Klassifikationsprobleme weiterhin durch lineare Zusammenhänge lösen, wenn ein Feature Engineering durchgeführt wird. Dazu kann folgendes Beispiel betrachtet werden. Im zweidimensionalen Raum   sollen Punkte in zwei Kategorien   klassifiziert werden. Durch Augenmaß ist bereits zu erkennen, dass die Separation durch einen Kreis mit Radius   erfolgen könnte. Ein solcher wird durch

 

beschrieben. Dies stellt aber einen linearen Zusammenhang in   und   dar. Wird insgesamt der Grad   betrachtet, müssen wesentlich mehr Terme berücksichtigt werden. So würde sich für eine Feature Map mit dem Grad   die Form

 

ergeben. Typischerweise wird eine Feature Map die Form

 

mit   haben. Aus   wird dann die erweiterten Datenmatrix   für das oben beschriebene Gradientenabstiegsverfahren erstellt.