Kurs:Maschinelles Lernen/Lineare Regression in d Dimension
Vorherige Seite: K2 - Lineare Regression in einer Dimension
Nächste Seite: K2 - Feature Engineering
Verallgemeinerung auf Dimensionen
BearbeitenWie lässt sich nun eine lineare Regression anwenden, wenn und vorliegt? In einem solchen Fall, kann für ein lineares Modell die Hypothese
mit , und verwendet werden.
Darstellung als Skalarprodukt
BearbeitenDie obige Notation der Abbildung durch ein Skalarprodukt mit , und ausgedrückt werden:
Empirisches Risiko
BearbeitenDamit ist das empirische Risiko durch
gegeben und muss für alle Komponenten von minimiert werden. Es müssen also alle Ableitungen von nach für verschwinden. Daraus lassen sich die Bedinungen
herleiten. Bei diesen handelt es sich um ein lineares Gleichungssystem, das bspw. durch den Gauß-Algorithmus gelöst werden kann. Allerdings wird das Verfahren auf der nächsten Seite (Feature Engineering) so erweitert, dass keine linearen Systeme mehr auftreten, weshalb hier eine etwas andere Methode verwendet werden soll.
Gradienten-Abstiegsverfahren
BearbeitenDie Ableitungen des empirischen Risikos nach den einzelnen Parametern können auch als ein Vektor der Form
zusammen gefasst werden. Dieser Vektor wird als Gradient bezeichnet und zeigt in die Richtung des stärksten Anstiegs des empirischen Risikos. Damit zeigt sein negatives aber auch in jene Richtung, in der das empirische Risiko am stärksten abnimmt. Genau wie im Abschnitt über Ableitungen lässt sich so ein iteratives Verfahren für die Gewichte in der Form
aufstellen. Dieses wird als Gradientenabstieg bezeichnet. Die Proportionalitätskonstante wird als Lernrate bezeichnet und ist ein Hyperparameter. Typische Werte für die Lernrate liegen bei . Die hier vorgestellte Iteration ist ein naiver Gradientenabstieg. Es kann passieren, dass dieser gar nicht oder nur sehr langsam zum gesuchten globalen Minimum führt. Stattdessen, kann auch ein stochastischer Gradientenabstieg mit einer Auswertung an einem einzelnen Datenpunkt oder mit einer Teilmenge des gesamten Datensatzes (einem Batch) durchgeführt werden. (Dann wird zwischen Iterationen und Epochen unterschieden: Iterationen sind die Anzahl der Updates der Gewichte, während die Zahl der Epochen angibt, wie oft der gesamte Datensatz zum Trainieren verwendet wurde)
Es lässt sich zeigen, dass bei einer linearen Regression der Gradient des empirischen Risikos mit der erweiterten Datenmatrix und dem Ergebnisvektor durch
dargestellt werden kann, wobei häufig der Faktor in der Praxis unterdrückt wird.