Kurs:Maschinelles Lernen/Lineare Regression in d Dimension

Vorherige Seite: K2 - Lineare Regression in einer Dimension
Nächste Seite: K2 - Feature Engineering

Verallgemeinerung auf Dimensionen

Bearbeiten

Wie lässt sich nun eine lineare Regression anwenden, wenn   und   vorliegt? In einem solchen Fall, kann für ein lineares Modell die Hypothese

 

mit  ,   und   verwendet werden.

Darstellung als Skalarprodukt

Bearbeiten

Die obige Notation der Abbildung durch ein Skalarprodukt mit  ,   und   ausgedrückt werden:

 

Empirisches Risiko

Bearbeiten

Damit ist das empirische Risiko durch

 

gegeben und muss für alle Komponenten von   minimiert werden. Es müssen also alle Ableitungen von   nach   für   verschwinden. Daraus lassen sich die   Bedinungen

 

herleiten. Bei diesen handelt es sich um ein lineares Gleichungssystem, das bspw. durch den Gauß-Algorithmus gelöst werden kann. Allerdings wird das Verfahren auf der nächsten Seite (Feature Engineering) so erweitert, dass keine linearen Systeme mehr auftreten, weshalb hier eine etwas andere Methode verwendet werden soll.

Gradienten-Abstiegsverfahren

Bearbeiten

Die Ableitungen des empirischen Risikos nach den einzelnen Parametern können auch als ein Vektor der Form

 

zusammen gefasst werden. Dieser Vektor wird als Gradient bezeichnet und zeigt in die Richtung des stärksten Anstiegs des empirischen Risikos. Damit zeigt sein negatives aber auch in jene Richtung, in der das empirische Risiko am stärksten abnimmt. Genau wie im Abschnitt über Ableitungen lässt sich so ein iteratives Verfahren für die Gewichte in der Form

 

aufstellen. Dieses wird als Gradientenabstieg bezeichnet. Die Proportionalitätskonstante   wird als Lernrate bezeichnet und ist ein Hyperparameter. Typische Werte für die Lernrate liegen bei  . Die hier vorgestellte Iteration ist ein naiver Gradientenabstieg. Es kann passieren, dass dieser gar nicht oder nur sehr langsam zum gesuchten globalen Minimum führt. Stattdessen, kann auch ein stochastischer Gradientenabstieg mit einer Auswertung an einem einzelnen Datenpunkt oder mit einer Teilmenge des gesamten Datensatzes (einem Batch) durchgeführt werden. (Dann wird zwischen Iterationen und Epochen unterschieden: Iterationen sind die Anzahl der Updates der Gewichte, während die Zahl der Epochen angibt, wie oft der gesamte Datensatz zum Trainieren verwendet wurde)

Es lässt sich zeigen, dass bei einer linearen Regression der Gradient des empirischen Risikos mit der erweiterten Datenmatrix   und dem Ergebnisvektor   durch

 

dargestellt werden kann, wobei häufig der Faktor   in der Praxis unterdrückt wird.