Kurs:Maschinelles Lernen/Ableitungen

Nächste Seite: K0 - Vektoren

Definiton

Bearbeiten

Die Ableitung einer stetigen Funktion   ist durch

 

definiert. Sie erlaubt es, die momentane Steigung einer Funktion an der Stelle   und somit die Tangente der Funktion durch den Punkt   zu bestimmen. Der Differenzenquotient

 

bestimmt an der Stelle   die Steigung der Sekante durch die Punkte   und  .

Als Beispiel soll die Funktion

 

betrachtet werden. Für diese lässt sich

 

bestimmen. Wird der Differenzenquotient

 

gebildet, kann im Grenzfall   die Ableitung

 

gefunden werden.

Bestimme mittels Differenzenquotient die Ableitung der Funktion  

Lösungen

Liste wichtiger Ableitungen

Bearbeiten
   
   
   
   
   
   
   

Ableitungen gehorchen den folgenden Regeln

  • Linearität  
  • Produktregel  
  • Kettenregel  
  • Quotientenregel  
  • Umkehrfunktionen  

Die obenstehenden Regeln können aus der Definition der Ableitung hergeleitet werden. So kann beispielsweise für die Produktregel die Größe

 

gefunden und damit der Differenzenquotient

 

aufgestellt werden. Sind beide Funktionen differenzierbar, so existieren die Grenzwerte der beiden Brüche. Darüber hinaus ist eine Vorraussetzung für Differenzierbarkeit die Stetigkeit der Funktionen, so dass   gegen   konvergiert. Auf diese Weise kann im Grenzfall   die Produktregel

 

gefunden werden.

Aufgaben

Bearbeiten

Bestimme   für

  •  
  •  
  •  

Lösungen

Extremstellen von Funktionen

Bearbeiten

Extremstellen einer Funktion beschreiben ein lokales Minimum oder Maximum einer Funktion. An einer Extremstelle ist die Ableitung der Funktion immer Null. Mit der zweiten Ableitung kann geprüft werden, ob es sich um ein Minimum oder Maximum handelt. Ist die zweite Ableitung auch Null, kann es sich um einen Sattelpunkt handeln. Zur Übersicht kann die folgende Tabelle helfen.

Art der Stelle    
Maximum    
Minimum    
Sattelpunkt    

Bestimme das Paar   für die Extremstelle der Funktion  

Lösungen

Gradienten-Abstieg

Bearbeiten

Es ist nicht immer möglich, mit einfachen Mitteln die Lage einer Extremstelle zu ermitteln. Als Beispiel kann die Funktion

 

betrachtet werden. Die Ableitung ist durch

 

gegeben und zum Finden der Nullstelle muss die Gleichung

 

gelöst werden. Mit elementaren Funktionen ist dies nicht möglich. (Tatsächlich kann diese Gleichung aber durch die eigens dafür definierte Lambert'sche W-Funktion gelöst werden)

Stattdessen kann ein iteratives Verfahren verwendet werden, um sich der Extremstelle zu nähern. Dazu wird an einem beliebigen Punkt   gestartet. Häufig werden Probleme so formuliert, dass nur ein Minimum gesucht werden muss, und so soll es hier auch gemacht werden. Liegt   leicht rechts eines Minimums, so ist die Steigung dort positiv. Liegt   hingegen leicht links eines Minimums, so wird die Steigung dort negativ sein. Das Vorzeichen der Ableitung kann also verwendet werden, um die relative Lage eines neuen Punktes   zu bestimmen. Dieser kann durch

 

mit einer festzulegenden Schrittweite   festgelget werden.

Würde die Schrittweite   auf einen konstanten Wert gesetzt werden, so würden für große Entfernungen vom Minimum genauso große Schritte gemacht werden, wie für kleine Entfernungen. Darüber hinaus könnte das Minimum entweder per Zufall getroffen werden oder es wird sich eine alternierende Folge zwischen zwei Werten rechts und links des Minimums einstellen. Stattdessen ist es sinnvoll, zu bemerken, dass die Ableitung in der Nähe des Minimums betragsmäßig besonders kleine Werte annimmt. Wird   also proportional zu   gewählt, so bleibt die Möglichkeit offen, dem Minimum beliebig nahe zu kommen. Auf diese Weise kann nach dem ersten Schritt die Stelle

 

ermittelt werden. Die Proportionalitätskonstante   wird im Rahmen des maschinellen Lernens als Lernrate bezeichnet und zählt zu den sogenannten Hyperparamtern.

Das Verfahren kann nun von der Stelle   ausgehend wiederholt werden. Auf diese Weise lässt sich iterativ eine Folge von Stellen

 

ermitteln, die bei geeigneter Wahl von   und   gegen die Lage des Minimums konvergieren sollte.

Da im Rahmen des maschinellen Lernens Funktionen mehrerer Variablen betrachtet werden, muss auch der Ableitungsbegriff erweitert werden. In diesem Zusammenhang wird der sogenannte Gradient eingeführt und bei diesem Verfahren vom Gradientenabstiegsverfahren gesprochen. Um einen ersten Eindruck dieses Verfahrens zu bekommen, können die GeoGebra-Datei Gradientenabstieg und das Jupyter Notebook Gradientenabstiegsverfahren betrachtet werden.