Benutzer:Stepri2005/Kurs:Optimierung II/Einführung

In diesem Kapitel stellen wir einige Ergebnisse aus der Optimierung I zusammen, wobei wir einige von ihnen auf den Spezialfall der in diesem Kurs behandelten unrestringierten Optimierung einschränken.

1.1 Einleitung

Bearbeiten

In diesem Kurs werden Algorithmen zur Lösung des unrestringierten (stetigen) Optimierungsproblems

 

für eine stetige Zielfunktion   in   Veränderlichen untersucht. Der Einfachheit halber fordern wir im Allgemeinen, dass die in einem Problem vorkommenden Funktionen auf dem ganzen   definiert sind und dort die gewünschten Differenzierbarkeitseigenschaften haben. Es würde in den meisten Fällen reichen, diese Eigenschaften nur auf einer offenen Umgebung der betrachteten lokalen Lösung zu fordern. Das Wort „ “, abgekürzt „ “, ist wieder als Aufforderung und nicht als „ “ im mathematischen Sinne von Minimum zu verstehen. Die Aufgabe   ist demnach gleichbedeutend mit dem Problem

 

und es nicht unbedingt von Vorneherein klar, ob   auf   einen kleinsten Funktionswert besitzt. Falls   sein Minimum auf   in einem Punkt   annimmt, dann kann das Problem   bekanntlich auch in der Form

 

geschrieben werden.

Ein unrestringiertes Maximierungsproblem kann aufgrund der Identität

(1.1)  

in ein Minimierungsproblem umgeschrieben werden, so dass es genügt, nur Minimierungsprobleme zu betrachten. Den Wert

(1.2)  

bezeichnen wir wieder als den Minimalwert von Problem  . Es sei ergänzt, dass man für   setzt:

 

Da es uninteressant ist, eine lineare Funktion über dem ganzen   zu minimieren (warum?), können wir implizit annehmen, dass   nichtlinear ist. Ist   eine konvexe Funktion, so handelt es sich offenbar bei   um ein spezielles konvexes Optimierungsproblem. In diesem Zusammenhang wiederholen wir nochmals:

Definition 1.1

Bearbeiten
Eine Menge   heißt konvex, wenn gilt:
 

Definition 1.2

Bearbeiten
Sei   eine Funktion und   eine konvexe Menge.
(i)   heißt konvex auf  , falls gilt:
(1.3)  
(ii)   heißt strikt konvex auf  , falls gilt:
 
(iii)   heißt gleichmäßig konvex auf  , falls eine Konstante  , genannt (gleichmäßige) Konvexitätskonstante, existiert, so dass gilt:
(1.4)  
(iv)   heißt konkav (strikt konkav, gleichmäßig konkav) auf  , wenn   konvex (strikt konvex, gleichmäßig konvex) auf   ist.
Falls   ist, kann in (i) - (iv) der Zusatz „auf  “ fortgelassen werden.

Weiter heißt eine reellwertige Funktion der Gestalt

(1.5)  

mit   und   affin oder affn-linear und im Fall   auch linear. Der Einfachheit halber sprechen wir häufig auch bei   von einer Funktion, obwohl es sich dabei streng genommen um den Funktionswert einer Funktion   handelt. Affin-lineare Funktionen sind sowohl konvex als auch konkav, aber nicht gleichmäßig konvex.

Wichtig sind noch die Charakterisierungen konvexer Funktionen durch erste und zweite Ableitungen, welche in den folgenden beiden Sätzen zusammengefasst sind:

Satz 1.3

Bearbeiten
Sei   konvex und  . (Mit   bezeichnen wir die Menge aller auf einer offenen Obermenge   von    -mal stetig differenzierbaren Funktionen  , wobei   von   abhängen darf.) Dann gilt:
(i)   ist auf   genau dann konvex, wenn gilt:
(1.6)  
(ii)   ist auf   genau dann strikt konvex, wenn gilt:
 
(iii)   ist auf   genau dann gleichmäßig konvex mit Konstante  , wenn gilt:
 

Satz 1.4

Bearbeiten
Sei   konvex und  . Dann gilt:
(i) Ist   für alle   positiv semidefinit, so ist   konvex auf  .
(ii) Ist   für alle   positiv definit, so ist   strikt konvex auf  .
(iii) Gibt es eine Konstante  , so dass
(1.7)  
gilt, so ist   gleichmäßig konvex auf   mit Konstante  .
(iv) Ist   offen, so gelten auch die Umkehrungen von (i) und (iii).

Mit

 

für ein   bezeichnen wir die offene  -Umgebung von  . Weiter verwenden wir die folgenden Definitionen.

Definition 1.5

Bearbeiten
(i)   heißt globale Lösung von Problem  , falls
 
gilt und strikt globale Lösung im Fall
 
(ii)   heißt lokale Lösung von Problem  , falls ein   existiert, so dass
(1.8)  

gilt und strikt lokale Lösung im Fall

 
Statt von einer Lösung spricht man auch von einem Minimalpunkt oder einem Minimierer.

Im Fall, dass   eine lokale oder globale Lösung von Problem   ist, sagt man auch, dass   bzw.   sein lokales bzw. globales Minimum in   annimmt. Wir unterscheiden hier also zwischen einem Minimierer von  , einem Punkt, und einem Minimum von  , d. h. dem zugehörigen Funktionswert.

Jede globale Lösung von Problem   ist gemäß Definition 1.5 auch eine lokale Lösung des Problems. Konvexe Probleme besitzen die wichtige Eigenschaft, dass für sie umgekehrt auch jede lokale Lösung eine globale Lösung ist:

Satz 1.6

Bearbeiten
Es sei   eine konvexe Funktion. Dann gilt:
(i) Jede (strikt) lokale Lösung von Problem   ist auch (strikt) globale Lösung.
(ii) Ist   strikt konvex, dann besitzt Problem   höchstens eine globale Lösung.
(iii) Die Menge aller globalen Lösungen von Problem   ist konvex und abgeschlossen.

Im konvexen Fall brauchen wir also nicht zwischen lokalen und globalen Lösungen von Problem   zu unterscheiden und sprechen wir daher oft auch nur von Lösungen. Man denke jedoch daran, dass eine auf dem   strikt konvexe Funktion keinen Minimalpunkt haben muss (z. B.  ). Wenn eine stetige, strikt konvexe Funktion aber einen Minimalpunkt besitzt, dann ist er gemäß dem letzten Satz eindeutig.

Für den Nachweis der Existenz eines Minimalpunktes von   im Fall des unrestringierten Optimierungsproblems   lässt sich der Satz von Weierstraß nicht anwenden, weil der zulässige Bereich dieses Problems nicht beschränkt und damit nicht kompakt ist. Eine Teilmenge des   ist genau dann kompakt, wenn sie abgeschlossen und beschränkt ist. Bekanntlich genügt es jedoch für den Nachweis der Existenz einer Lösung  , dass die Niveaumenge

 

für ein   beschränkt ist. Für diese Menge hat man:

Lemma 1.7

Bearbeiten
Seien   und  . Dann gilt:
(i) Es ist  .
(ii) Ist   konvex, so ist   eine konvexe Menge.
(iii)   ist abgeschlossen.

Weiter war in Optimierung I gezeigt worden:

Satz 1.8

Bearbeiten
Es seien   und  . Ist die Niveaumenge   beschränkt, dann besitzt das Problem   eine globale Lösung.

Für konvexe Optimierungsprobleme mit einer differenzierbaren, gleichmäßig konvexen Zielfunktion kann die Existenz garantiert werden.

Satz 1.9

Bearbeiten
Es seien   und   eine auf   gleichmäßig konvexe Funktion. Dann folgt:
(i) Die Menge   ist kompakt.
(ii) Das Problem   besitzt genau eine Lösung.

1.2 Positiv definite Matrizen und quadratische Funktionen

Bearbeiten

Wenn nichts anderes gesagt ist, meinen wir mit   die Euklidische Vektornorm bzw. die durch sie induzierte Matrixnorm, die Spektralnorm. Eine symmetrische Matrix   ist genau dann positiv definit, wenn alle ihre Eigenwerte positiv sind und damit ihr kleinster Eigenwert   größer als Null ist. Sie ist folglich insbesondere nichtsingulär. Ist   ihr größter Eigenwert, so ist weiter   der kleinste und   der größte Eigenwert von  . Demnach ist auch   eine symmetrische, positiv definite Matrix. Für die Kondition von   hinsichtlich der Spektralnorm gilt somit

(1.9)  

Weiter benötigen wir die folgenden Resultate aus der Optimierung I.

Lemma 1.10

Bearbeiten
Für eine symmetrische Matrix   gilt
(1.10)  
Im Fall, dass   positiv definit ist, hat man ferner
(1.11)  

Lemma 1.11

Bearbeiten
Ist   eine symmetrische, positiv semidefinite Matrix und  , dann ist die Matrix   symmetrisch und positiv semidefinit. Ist überdies   positiv definit und  , dann ist auch   positiv definit.

Von zentralem Interesse in der Optimierung sind quadratische Funktionen. Denn jede zweimal stetig differenzierbare Funktion lässt sich nach dem Satz von Taylor durch eine quadratische Funktion lokal annähern.

Definition 1.12

Bearbeiten
Unter einer quadratischen Funktion versteht man eine Funktion  , welche durch
(1.12)  
definiert ist, wobei   und   eine symmetrische Matrix ist.

Für die quadratische Funktion in (1.12) hat man

(1.13)  

Der Faktor   vor dem quadratischen Term in (1.12) bewirkt also, dass der Gradient und die Hesse-Matrix von   keinen Faktor vor   enthalten. Für quadratische Funktionen hat man weiter:

Lemma 1.13

Bearbeiten
Für die quadratische Funktion   in (1.12) gilt:
(i)   ist genau dann konvex, wenn   positiv semidefinit ist.
(ii)   ist genau dann gleichmäßig konvex, wenn   positiv definit ist.
(iii) Wenn   gleichmäßig konvex ist, so ist
(1.14)  
die größtmögliche Konvexitätskonstante für  .

1.3 Optimalitätskriterien

Bearbeiten

Zur Berechnung und Identifizierung einer Lösung ist die von der Anschauung her natürliche Definition 1.5 einer lokalen bzw. globalen Lösung eines Optimierungsproblems im Allgemeinen nicht geeignet. Daher interessieren notwendige und hinreichende Optimalitätskriterien dafür, dass in einem Punkt eine lokale bzw. globale Lösung des gegebenen Problems vorliegt. Für das unrestringierte Optimierungsproblem

 

hat man bekanntlich die folgenden Optimalitätskriterien.

Satz 1.14

Bearbeiten
(i) (Notwendige Optimalitätsbedingung erster Ordnung)
Es sei   lokale Lösung von Problem   und  . Dann ist
 
(ii) (Notwendige Optimalitätsbedingungen zweiter Ordnung)
Es sei   lokale Lösung von Problem   und  . Dann gilt:
  ist positiv semidefinit.
(iii) (Hinreichende Optimalitätsbedingungen zweiter Ordnung)
Es sei   und für   gelte
  ist positiv definit.
Dann ist   strikt lokale Lösung von Problem  .

In diesem Zusammenhang definieren wir:

Definition 1.15

Bearbeiten
Es sei  .
(i) Ein Punkt   mit   heißt stationärer oder kritischer Punkt von   bzw. stationäre oder kritische Lösung von Problem  .
(ii) Ein stationärer Punkt von  , der weder lokaler Minimalpunkt noch lokaler Maximalpunkt von   ist, heißt Sattelpunkt.

Wir geben einige Beispiele kritischer Punkte.

Beispiel 1.16

Bearbeiten

Wir untersuchen die kritischen Punkte der drei auf   definierten Funktionen

 

Die Gradienten dieser Funktionen lauten

 

Demnach ist   in allen drei Fällen der einzige kritische Punkt. Die Hesse-Matrizen der Funktionen in diesem Punkt sind gegeben durch

 

Da   Eigenwerte entgegengesetzten Vorzeichens aufweist, können wir durch Anwendung von Satz 1.14 auf   und   schließen, dass   ein Sattelpunkt von   ist. (  nimmt in   entlang der  -Richtung ein Minimum und entlang der  -Richtung ein Maximum an.) Dagegen liefert Satz 1.14 für   und   keine Aussage über  , denn die Matrizen   und   sind zwar positiv semidefinit, aber nicht positiv definit. In der Tat hat offenbar   in   einen Sattelpunkt und   dort einen Minimalpunkt.


Eine Funktion kann natürlich mehrere lokale Minimal- und Maximalpunkte sowie Sattelpunkte besitzen. Für konvexe Probleme können wir aber aus den bisherigen Ergebnissen die folgende wichtige Information ableiten.

Korollar 1.17

Bearbeiten
Es sei   konvex. Dann ist   genau dann Lösung von Problem  , wenn   ist.

Dies folgt aus den Sätzen 1.14 und 1.3, wenn man in (1.6)   setzt und   berücksichtigt. Aus Korollar 1.17 zusammen mit Satz 1.9 (für  ) können wir ferner schließen:

Korollar 1.18

Bearbeiten
Ist   gleichmäßig konvex auf der Niveaumenge   für ein  , so existiert genau ein   mit   und   ist die eindeutige Lösung von Problem  .

1.4 Konvergenzraten

Bearbeiten

Zuletzt wollen wir die Definitionen der wichtigsten Konvergenzraten und einige ihrer Eigenschaften wiederholen, wobei   eine beliebige Norm auf dem   sei. (Konvergenz im   hinsichtlich einer Norm impliziert die Konvergenz hinsichtlich jeder anderen Norm.)

Definition 1.19

Bearbeiten
Sei   eine Folge im   mit  .
(i) Die Folge   konvergiert von (mindestens) der Ordnung   (gegen  ), wenn ein   und ein   existieren, so dass gilt:
(1.15)  
(ii) Die Folge   konvergiert von (mindestens) der Ordnung   (gegen  ), wenn ein   und ein   existieren, so dass gilt:
(1.16)  
(iii) Die Folge   konvergiert superlinear (gegen  ), wenn eine Folge   von Zahlen   mit   und ein   existieren, so dass gilt:
(1.17)  

Im Fall, dass   (mindestens) von der Ordnung 1 konvergiert, spricht man auch von linearer Konvergenz der Folge. Ist die Konvergenzordnung einer Folge (mindestens)  , so spricht man von quadratischer Konvergenz.

Die Bedingung (1.17) für superlineare Konvergenz kann man auch äquivalent durch die Bedingung

(1.18)  

ersetzen, sofern   für ein   ist. (Letzteres kann sicher für die Iteriertenfolge eines numerischen Verfahrens angenommen werden, da dieses abbrechen sollte, wenn   für ein   ist.) Quadratische Konvergenz impliziert superlineare Konvergenz und diese wiederum lineare Konvergenz.

Lineare Konvergenz mit einer Konstanten   kann sehr langsame Konvergenz bedeuten. Man hofft also, dass in der Praxis im Fall der linearen Konvergenz   und im Fall der quadratischen Konvergenz   nicht allzu groß ist. Quadratische Konvergenz ist eine für die Praxis ausgesprochen gute Eigenschaft eines Verfahrens. Man beachte aber, dass die schnelle Konvergenz einer quadratisch konvergenten Folge erst für  , also für alle hinreichend großen   eintritt und die Ungleichung (1.16) mit   im Fall   uninteressant ist.

Die Eigenschaften der superlinearen und quadratischen Konvergenz einer Folge im   gelten unabhängig von der gerade gewählten Norm, während die Eigenschaft der linearen Konvergenz normabhängig ist. Sofern wir nichts anderes sagen, beziehen wir uns immer auf Konvergenz im Sinne der Euklidischen Norm.

Wenn wir nichts anderes sagen, meinen wir mit den Konvergenzordnungen die oben definierten, die auch als Q-Ordnungen bezeichnet werden. Neben diesen werden gelegentlich auch die etwas schwächeren R-Ordnungen verwendet.

Definition 1.20

Bearbeiten
Sei   eine Folge im   mit  . Dann konvergiert   R-linear (R-superlinear, R-quadratisch) gegen  , wenn es eine Folge   von Zahlen   gibt, welche Q-linear (Q-superlinear, Q-quadratisch) gegen 0 konvergiert und für die mit einem   gilt:
(1.19)