Kurs:Maschinelles Lernen/Klassifikation mittels Gradientenabstieg
Vorherige Seite: K2 - Feature Engineering
Nächste Seite: K3 - Klassifikation mittels Support Vector Machines
Formulierung des Problems und passender Hypothesen
BearbeitenAls Eingabedaten liegen wieder Punkte aus dem vor. Für eine binäre Klassifikation, die hier betrachtet werden soll, sind die möglichen Ausgabewerte aus dem Raum . Das bedeutet, es müssen Hypothesen gesucht werden, die Abbildungen der Form
sind.
Im Kapitel über Vektoren war zu erkennen, dass der Raum durch eine Hyperebene, welche durch
beschrieben wird, in zwei Bereiche geteilt wird. Daher läge es nahe eine Hypothese der Art
zu formulieren, wobei
die Theta-Funktion ist. Diese Form einer Hypothese ist allerdings für ein Gradientenabstiegsverfahren ungeeignet, da die Theta-Funktion an der Stelle nicht differenzierbar ist.
Statt der Theta-Funktion wird daher die Sigmoidfunktion (auch als logistische Funktion bezeichnet)
betrachtet werden. Sie verfügt über die Grenzwerte
und ist mit der Ableitung
in jedem Punkt differenzierbar. Damit kann dann zur Optimierung die Hypothese
verwendet werden, womit die Idealen Gewichte bestimmt werden. Zur schlussendlichen Klassifikation muss aber die Theta-Funktion
verwendet werden.
Verlustfunktion und empirisches Risiko
BearbeitenFür Klassifikationsverfahren wird mit der Vereinbarung die Kreuzentropie
als Verlustfunktion verwendet. Durch Einsetzen der Hypothese mit der Sigmoid-Funktion kann diese zu
bestimmt werden.
Für das empirische Risiko
für einen vorliegenden Datensatz mit Datenpunkten kann so der Ausdruck
gefunden werden. Darin taucht die erweiterte Datenmatrix in einem Matrixvektorprodukt mit auf. (Dies lässt sich in bspw. in Python mit numpy
besonders effizient durchführen. Die Summe über trifft hingegen nicht mit den indizierten Größen auf, so dass diese explizit bestimmt werden muss.)
Wird der Gradient des empirischen Risikos bestimmt, so kann der Ausdruck
gefunden werden.
In der Praxis wird hierbei der Faktor oft ignoriert. Durch die Einführung eines Hyperparametrs kann die Entscheidung an der Sigmoidfunktion mit noch härter gemacht werden. In diesem Fall nehmen das empirische Risiko und sein Gradient die Formen
und
an.
Feature Engineering
BearbeitenWie auch bei linearen Regressionen lassen sich Klassifikationsprobleme weiterhin durch lineare Zusammenhänge lösen, wenn ein Feature Engineering durchgeführt wird. Dazu kann folgendes Beispiel betrachtet werden. Im zweidimensionalen Raum sollen Punkte in zwei Kategorien klassifiziert werden. Durch Augenmaß ist bereits zu erkennen, dass die Separation durch einen Kreis mit Radius erfolgen könnte. Ein solcher wird durch
beschrieben. Dies stellt aber einen linearen Zusammenhang in und dar. Wird insgesamt der Grad betrachtet, müssen wesentlich mehr Terme berücksichtigt werden. So würde sich für eine Feature Map mit dem Grad die Form
ergeben. Typischerweise wird eine Feature Map die Form
mit haben. Aus wird dann die erweiterten Datenmatrix für das oben beschriebene Gradientenabstiegsverfahren erstellt.