Kurs:Maschinelles Lernen/Lineare Regression in d Dimension

Vorherige Seite: K2 - Lineare Regression in einer Dimension
Nächste Seite: K2 - Feature Engineering

Verallgemeinerung auf $d$ Dimensionen

Wie lässt sich nun eine lineare Regression anwenden, wenn $X=\mathbb {R} ^{d}$ und $Y=\mathbb {R}$ vorliegt? In einem solchen Fall, kann für ein lineares Modell die Hypothese

 $h_{\vec {w}}({\vec {x}})=w_{0}+\sum _{k=1}^{d}w_{k}x_{k}=\sum _{k=0}^{d}w_{k}x_{k}$

mit ${\vec {w}}\in \mathbb {R} ^{d+1}$ , ${\vec {x}}\in \mathbb {R} ^{d}$ und $x_{0}=1$ verwendet werden.

Darstellung als Skalarprodukt

Die obige Notation der Abbildung durch ein Skalarprodukt mit ${\vec {x}}=(x_{1},\ldots ,x_{n})\in \mathbb {R} ^{d}$ , $x=(1,x_{1},\ldots ,x_{n})\in \mathbb {R} ^{d+1}$ und ${\vec {w}}=(w_{0},w_{1},\ldots ,w_{n})\in \mathbb {R} ^{d+1}$ ausgedrückt werden:

 $h_{\vec {w}}({\vec {x}})=\langle {\vec {w}},x\rangle =\sum _{k=0}^{d}w_{k}x_{k}=w_{0}\cdot 1+\sum _{k=1}^{d}w_{k}x_{k}$

Empirisches Risiko

Damit ist das empirische Risiko durch

 ${\hat {R}}={\frac {1}{N}}\sum _{i=1}^{N}(h_{\vec {w}}({\vec {x}}_{i})-y_{i})^{2}={\frac {1}{N}}\sum _{i=1}^{N}\left(\sum _{k=0}^{d}w_{k}x_{ik}-y_{i}\right)^{2}$

gegeben und muss für alle Komponenten von ${\vec {w}}$ minimiert werden. Es müssen also alle Ableitungen von ${\hat {R}}$ nach $w_{l}$ für $l\in \{0,1,\dots ,d\}$ verschwinden. Daraus lassen sich die $l$ Bedinungen

 $\sum _{k=0}^{d}w_{k}s(x_{k},x_{l})=s(y,x_{l})$

herleiten. Bei diesen handelt es sich um ein lineares Gleichungssystem, das bspw. durch den Gauß-Algorithmus gelöst werden kann. Allerdings wird das Verfahren auf der nächsten Seite (Feature Engineering) so erweitert, dass keine linearen Systeme mehr auftreten, weshalb hier eine etwas andere Methode verwendet werden soll.

Gradienten-Abstiegsverfahren

Die Ableitungen des empirischen Risikos nach den einzelnen Parametern können auch als ein Vektor der Form

 $\nabla _{\vec {w}}{\hat {R}}={\begin{pmatrix}{\frac {\partial {\hat {R}}}{\partial w_{0}}}\\{\frac {\partial {\hat {R}}}{\partial w_{1}}}\\\vdots \\{\frac {\partial {\hat {R}}}{\partial w_{d}}}\end{pmatrix}}\in \mathbb {R} ^{d+1}$

zusammen gefasst werden. Dieser Vektor wird als Gradient bezeichnet und zeigt in die Richtung des stärksten Anstiegs des empirischen Risikos. Damit zeigt sein negatives aber auch in jene Richtung, in der das empirische Risiko am stärksten abnimmt. Genau wie im Abschnitt über Ableitungen lässt sich so ein iteratives Verfahren für die Gewichte in der Form

 ${\vec {w}}^{(n+1)}={\vec {w}}^{(n)}-\eta \nabla _{\vec {w}}{\hat {R}}({\vec {w}}^{(n)})$

aufstellen. Dieses wird als Gradientenabstieg bezeichnet. Die Proportionalitätskonstante $\eta$ wird als Lernrate bezeichnet und ist ein Hyperparameter. Typische Werte für die Lernrate liegen bei $\eta \approx 10^{-4}$ . Die hier vorgestellte Iteration ist ein naiver Gradientenabstieg. Es kann passieren, dass dieser gar nicht oder nur sehr langsam zum gesuchten globalen Minimum führt. Stattdessen, kann auch ein stochastischer Gradientenabstieg mit einer Auswertung an einem einzelnen Datenpunkt oder mit einer Teilmenge des gesamten Datensatzes (einem Batch) durchgeführt werden. (Dann wird zwischen Iterationen und Epochen unterschieden: Iterationen sind die Anzahl der Updates der Gewichte, während die Zahl der Epochen angibt, wie oft der gesamte Datensatz zum Trainieren verwendet wurde)

Es lässt sich zeigen, dass bei einer linearen Regression der Gradient des empirischen Risikos mit der erweiterten Datenmatrix ${\underline {X}}'$ und dem Ergebnisvektor ${\vec {y}}$ durch

 $\nabla _{\vec {w}}{\hat {R}}({\vec {w}}^{(n)})={\frac {2}{N}}{\underline {X}}'^{T}({\underline {X}}'{\vec {w}}^{(n)}-{\vec {y}})$

dargestellt werden kann, wobei häufig der Faktor ${\frac {2}{N}}$ in der Praxis unterdrückt wird.

Kurs:Maschinelles Lernen/Lineare Regression in d Dimension

Verallgemeinerung auf d {\displaystyle d} Dimensionen

Darstellung als Skalarprodukt

Empirisches Risiko

Gradienten-Abstiegsverfahren

Verallgemeinerung auf $d$ Dimensionen