Benutzer:Stepri2005/Kurs:Optimierung/Grundlagen

In den Abschnitten 2.1-2.4 werden grundlegende Aussagen über Vektor- und Matrixnormen zusammengestellt, wie sie z. B. auch in der Numerischen Mathematik 1 vermittelt werden. Matrixnormen werden in diesem Manuskript zur Optimierung 1 aber nur am Rande benötigt. So wird der Einfluss der Größe der Konditionen der in einem Problem vorkommenden Matrizen auf dessen numerische Lösung nur am Rande angesprochen (s. Abschnitt 7.3).

2.1 Normen

Bearbeiten

Die Größe einer reellen Zahl und damit den Abstand zweier reeller Zahlen misst man bekanntlich mit dem Betrag. In der Mathematik ist es häufig auch erforderlich, den „Abstand“ zweier Vektoren, Matrizen, Funktionen, usw. zu beschreiben. Welchen „Abstand“ hat aber beispielsweise eine gegebene Matrix von einer Matrix, die in Bezug auf diese leicht gestört ist?

Man benötigt also einen geeigneten Abstandsbegriff auf dem entsprechenden Vektorraum, der bestimmten Grundregeln genügen sollte, wie man sie vom Rechnen mit dem Betrag reeller Zahlen her kennt. Einen solchen Abstandsbegriff für einen beliebigen Vektorraum   über   liefert die folgende, bereits aus der Numerischen Mathematik bekannte Definition einer Norm. Es sei dabei

 

Definition 2.1

Bearbeiten
Eine Abbildung   heißt Norm (auf  ), falls Folgendes gilt:
(i)  
(ii)   (Positive Homogenität),
(iii)   (Dreiecksungleichung).

Aus den Normgesetzen leitet man die Beziehung

(2.1)  

ab. Einen Vektorraum  , auf dem eine Norm   definiert ist, bezeichnet man als einen normierten Vektorraum. Die Konvergenz einer Folge von Vektoren in einem solchen Raum wird folgendermaßen definiert. (Vektoren einer Folge indizieren wir mit einem hochgestellten und Zahlen einer Folge mit einem tiefgestellten Index. Es heißt also z. B.   und  .)

Definition 2.2

Bearbeiten
Es sei   eine Norm auf  . Eine Folge   von Vektoren   konvergiert gegen  , kurz
 
wenn gilt:
 

Unter Verwendung der Ungleichung in (2.1) schließt man damit:

Korollar 2.3

Bearbeiten
Eine Norm   ist eine stetige Abbildung, d. h., es gilt
 

Eine auf   definierte Norm bezeichnet man als Vektornorm und eine auf dem Raum   aller reellen  -Matrizen definierte Norm als Matrixnorm. In der Praxis können je nach Zusammenhang unterschiedliche Normen für einen Vektorraum sinnvoll oder praktisch leichter handhabbar sein. Die drei gebräuchlichsten Vektornormen sind die Euklidische oder  -Norm

(2.2)  

die Summen- oder  -Norm

(2.3)  

und die Maximum- oder  -Norm

(2.4)  

wobei jeweils   ist. Dass es sich dabei tatsächlich um Normen im Sinne von Definition 2.2 handelt, wurde bereits in der Numerischen Mathematik gezeigt. Dort findet man auch den Hinweis, dass dies gerade die sog.  -Normen für   und   sind.

Ein wichtiges Ergebnis in diesem Zusammenhang, das insbesondere für die Räume   und   relevant ist, lautet:

Satz 2.4

Bearbeiten
Ist   ein endlich-dimensionaler Vektorraum und sind   und   zwei beliebige Normen auf  , so sind diese „äquivalent“, d. h., es gibt Konstanten  , so dass gilt:
(2.5)  

Demnach ist jede Folge im  , die bezüglich irgendeiner Norm konvergiert, auch bezüglich jeder anderen Norm auf dem   konvergent. Der Beweis des Satzes kann hier nicht gegeben werden (siehe dafür z. B. [Heu92, S. 103]). Der Nachweis der Äquivalenz speziell der  -Normen auf dem   ist eine Aufgabe in der Numerischen Mathematik.

Als nächstes gehen wir auf Matrixnormen ein. Spezielle Matrixnormen für Matrizen   sind die Zeilensummennorm

(2.6)  

und die Spaltensummennorm

(2.7)  

Die Normeigenschaften wurden für die Zeilensummennorm in Analysis 2 nachgewiesen. Der Beweis für die Spaltensummennorm verläuft ganz analog. Für die Normen in (2.6) und (2.7) geben wir ein Beispiel.

Beispiel 2.5

Bearbeiten

Man betrachte die Matrix

 

Bildung der Summen der Beträge der Koeffizienten in jeder Zeile von   liefert

 

Bildung der Summen der Beträge der Koeffizienten in jeder Spalte von   ergibt

 

2.2 Induzierte Matrixnormen

Bearbeiten

Im Folgenden sei   entweder eine Vektornorm auf dem   oder eine Matrixnorm auf dem Raum  , wobei durch den Inhalt „ “ von   klar ist, um was es sich jeweils handelt. (Vektoren bezeichnen wir, wie üblich, mit kleinen und Matrizen mit großen Buchstaben.) Jeder gegebenen Vektornorm wird nun in der nächsten Definition eine spezielle Matrixnorm zugeordnet, wobei anschließend zu zeigen ist, dass es sich dabei tatsächlich um eine Norm handelt und dass diese Norm von praktischem Interesse ist.

Definition 2.6

Bearbeiten
Sei   eine Norm auf dem  . Dann heißt die durch
(2.8)  
für   definierte Norm die durch die Vektornorm   induzierte Matrixnorm.

Man beachte, dass in der Definition (2.8) von   nur die Vektornorm verwendet wird. Wegen der Kompaktheit der Menge

 

und der Stetigkeit der Norm wird nach dem Satz von Weierstraß (vgl. Satz 2.38) das Maximum in (2.8) tatsächlich angenommen, so dass die Verwendung von „ “ korrekt ist. Offenbar gilt für die Norm in (2.8)

(2.9)  

Speziell für die Einheitsmatrix   erhält man bei beliebiger Wahl der Vektornorm für die durch diese Norm induzierte Matrixnorm

 

Lemma 2.7

Bearbeiten
Die in (2.8) eingeführte „induzierte Matrixnorm“ ist eine Norm im Sinne von Definition 2.1.

Für   sei

(2.10)  

Weiter sei zunächst  . Dann schließt man für jedes   mit  , dass   und damit   ist. Aus den Axiomen für die Vektornorm folgt daher   für jedes   mit  . Dies ist nur für   möglich, da im Fall, dass   für mindestens ein   und   ist, für den Einheitsvektor   folgen würde:  . Ist umgekehrt  , so ergibt sich mit (2.10)

 

Weiter erschließt man unter Verwendung der Normaxiome für die Vektornorm mit  

 

und für  

 

Damit erhält man für ein geeignetes   mit  

 
 

q.e.d.

Induzierte Matrixnormen, wie wir sie von nun an nur noch betrachten werden, sind deshalb von besonderem Interesse, weil sie neben den allgemeinen Normeigenschaften die sehr nützlichen, zusätzlichen Eigenschaften besitzen, welche in dem folgenden Satz angegeben werden.

Satz 2.8

Bearbeiten
Für die in Definition 2.6 eingeführte Matrixnorm gilt
(2.11)  
sowie
(2.12)  

Für   ist die Ungleichung in (2.11) trivialerweise erfüllt. Für   ergibt sie sich aus den Abschätzungen

 

Weiter gilt für   und damit  

 

Im Fall   und   hat man trivialerweise

 

Somit folgt für alle  

 

und damit

 

q.e.d.

Der folgende Satz besagt nun, dass die in (2.6) und (2.7) eingeführte Zeilen- und Spaltensummennorm gerade die durch die Vektornormen   und   induzierten Matrixnormen sind.

Satz 2.9

Bearbeiten
Sei  . Für die durch die Vektornormen   und   induzierte Matrixnorm   bzw.   gilt
  (Zeilensummennorm),
  (Spaltensummennorm).

Wir weisen die Behauptung für die Zeilensummennorm nach. Für jedes   gilt

 

Somit ergibt sich für  

 

und demzufolge gemäß (2.9)

 

Zum Beweis der umgekehrten Abschätzung sei   beliebig, aber fest gewählt und   der Vektor mit Koeffizienten

 

Offenbar ist  . Somit schließt man

(2.13)  

Da   beliebig gewählt war, folgt die behauptete Darstellung für  . Der Beweis für die Spaltensummennorm verläuft ganz ähnlich.

q.e.d.

Die wichtige Matrixnorm, welche durch die Euklidische Vektornorm induziert wird, ist leider nicht so einfach zu berechnen wie die Zeilen- oder Spaltensummennorm. Auf sie gehen wir im folgenden Abschnitt ein.

2.3 Die Spektralnorm

Bearbeiten

Eine symmetrische Matrix   heißt positiv semidefinit, wenn

 

gilt und positiv definit im Fall

 

Bezeichnen wir die Eigenwerte von   mit   und insbesondere den größten Eigenwert von   mit  , so ist aus der Linearen Algebra folgende Aussage bekannt:

Satz 2.10

Bearbeiten
Eine symmetrische Matrix   ist genau dann positiv semidefinit, wenn
 
ist und genau dann positiv definit, wenn gilt:
 

Über die Eigenwerte einer Matrix definieren wir weiter:

Definition 2.11

Bearbeiten
Für eine Matrix   heißt
 
das Spektrum und
 
der Spektralradius von  .

Die durch die Euklidische Vektornorm induzierte Matrixnorm einer Matrix   kann mit dem Spektralradius, d. h. dem größten Eigenwert von   dargestellt werden.

Satz 2.12

Bearbeiten
Sei  . Für die durch die Euklidische Vektornorm   induzierte Matrixnorm   gilt
 

Die Matrix   ist wegen   symmetrisch und wegen

 

positiv semidefinit. Somit besitzt   Eigenwerte     und gibt es zu   ein System   von orthonormalen Eigenvektoren, d. h., es ist

 

und

(2.15)  

Für   gibt es daher mit Koeffizienten   eine Darstellung  . Damit folgt

 

sowie

(2.16)  
 

Somit hat man

(2.17)  

Für einen Eigenvektor   zu einem maximalen Eigenwert   gilt

 

Folglich wird das Maximum in (2.17) für   angenommen und kann das „ “ dort durch „ “ ersetzt werden.

q.e.d.

Die Matrixnorm   bezeichnet man auch als Spektralnorm. Dieser Name begründet sich durch den letzten Satz bzw. durch die in folgendem Satz angegebene Identität für symmetrische Matrizen.

Satz 2.13

Bearbeiten
Sei   eine symmetrische Matrix, d. h.  . Dann gilt
(2.18)  
Für jede andere durch eine Vektornorm induzierte Matrixnorm   folgt
(2.19)  

Aufgrund der vorausgesetzten Symmetrie von   gilt   und

 

da   die quadrierten Eigenwerte von   als Eigenwerte hat. Daher schließt man

 

Da   symmetrisch ist, sind ferner alle Eigenwerte von   reell. Ist   ein Eigenvektor zum Eigenwert   und somit  , dann folgt für eine beliebige durch die Vektornorm   induzierte Matrixnorm  

 

Damit ist alles gezeigt.

q.e.d.

Für eine reelle symmetrische Matrix ist also gemäß (2.19) der Wert der Spektralnorm unter allen Werten für induzierte Matrixnormen der kleinste. Die Spektralnorm wäre deshalb stets die favorisierte Norm für Matrizen, wenn ihre Berechnung im Allgemeinen nicht unvergleichlich aufwändiger wäre als die der Zeilen- oder Spaltensummennorm.

Beispiel 2.14

Bearbeiten

(1) Für die symmetrische Matrix

 

berechnet man die Eigenwerte  , so dass mit (2.18) folgt:

 

Weiter ergibt sich  . Man vergleiche hierzu (2.19).

(2) Für die nicht symmetrische Matrix

 

berechnet man unter Verwendung von Satz 2.12

 

Demgegenüber erhält man für die Zeilen- und Spaltensummennorm

 

In diesem Fall ist also  . Letzteres zeigt, dass auf die Voraussetzung der Symmetrie der Matrix in Satz 2.13 nicht verzichtet werden kann.


2.4 Die Kondition einer Matrix

Bearbeiten

In der Numerischen Mathematik spielen Konditionszahlen im Zusammenhang mit der Stabilität eines numerischen Verfahrens eine große Rolle. Die in der folgenden Definition eingeführte Konditionszahl für Matrizen ist insbesondere im Zusammenhang mit der numerischen Lösung von linearen Gleichungssystemen relevant. Dies wird mit Satz 2.17 deutlich werden. Es bezeichne hierbei   generell wieder eine Vektornorm oder die durch sie induzierte Matrixnorm.

Definition 2.15

Bearbeiten
Sei   eine reguläre Matrix. Die Zahl
 
heißt Kondition oder Konditionszahl der Matrix   (bezüglich der Norm  ).

Man beachte, dass die Größe der Konditionszahl einer Matrix im Allgemeinen von der gewählten Matrixnorm abhängig ist. Für symmetrische Matrizen liefert offenbar die Spektralnorm gemäß (2.19) die kleinste Konditionszahl für alle induzierten Matrixnormen:

 

Satz 2.16

Bearbeiten
Sei   eine reguläre Matrix. Für die Kondition von   bezüglich der Matrixnorm   folgt
(2.20)  

Die Beziehung (2.20) ergibt sich aus

 

q.e.d.

Die Konditionszahl   gibt also die Bandbreite an, um die sich die Vektorlänge eines Vektors   bei Multiplikation mit   ändern kann. Aus (2.20) ergibt sich zudem

 

wobei   wieder die Einheitsmatrix ist.

Wir betrachten nun den folgenden Satz im Hinblick auf die Lösung linearer Gleichungssysteme. In diesem Satz wird die Lösung   eines Systems   mit der Lösung   eines gestörten Systems mit Matrix   und rechter Seite   verglichen, wobei die Größe der Störung, d. h.   nicht zu groß sein darf. (Einen Beweis des Satzes findet man in [Pla00].)

Satz 2.17

Bearbeiten
Sei   eine reguläre Matrix und   eine Matrix mit  . Gilt für Vektoren  
 
so folgt für den relativen Fehler von   bezüglich   die Abschätzung
(2.21)  

Die Konstanten   und \|\Delta b\| / \|b\|</math> sind offenbar gerade die relativen Fehler bezüglich   und  , die durch die Störungen   und   verursacht werden. Deren Summe wird in (2.21) verstärkt durch den Faktor

 

Dieser Faktor ist offenbar um so größer je größer die Kondition   von   ist. Im Fall   spricht man daher von einem schlecht konditionierten Gleichungssystem. (Dabei steht „ “ für „viel größer als“.)

Für ein schlecht konditioniertes lineares Gleichungssystem können sich also kleine Eingabefehler in den „Daten“   und   sehr stark auf die Lösung des Systems   auswirken, und sie tun dies normalerweise auch. Solche Eingabefehler macht man z. B. natürlicherweise, wenn man irrationale Zahlen wie   oder   in einen Computer eingibt. Rundungsfehler, wie sie aufgrund der endlichen Zahlendarstellung beim Rechnen auf einem Computer nicht zu vermeiden sind, sind dabei noch gar nicht mit berücksichtigt. Bei Problemen, von denen man weiß, dass die Kondition der Matrix sehr groß ist, ist also Vorsicht im Hinblick auf die Interpretation der Genauigkeit der erzielten Lösung geboten. Wir geben im folgenden Abschnitt ein Beispiel für eine solche Matrix.

2.5 Positiv definite Matrizen

Bearbeiten

Wenn nichts anderes gesagt ist, meinen wir von nun an mit   der Einfachheit halber immer die Euklidische Vektornorm bzw. die durch sie induzierte Matrixnorm, die Spektralnorm. Folglich bedeutet   die durch die Spektralnorm definierte Konditionszahl einer Matrix.

In diesem Kurs spielen symmetrische, positiv definite Matrizen eine große Rolle. Solche Matrizen sind insbesondere nichtsingulär. Ist   der kleinste und   der größte Eigenwert der symmetrischen, positiv definiten Matrix  , so ist offenbar   der kleinste und   der größte Eigenwert von  . Demnach ist auch   eine symmetrische, positiv definite Matrix. Damit ergibt sich weiter für die Kondition einer solchen Matrix hinsichtlich der Spektralnorm:

(2.22)  

Beispiel 2.18

Bearbeiten

Sei   mit   gegeben durch

 

Für kleines   ist diese Matrix nahezu singulär. Insbesondere errechnet man für   im Fall   die Eigenwerte

 

Also ist   symmetrisch und positiv definit und erhält man gemäß (2.22) für die Kondition von   bezüglich der Spektralnorm

 

Ein lineares Gleichungssystem mit   als Systemmatrix ist demnach ein schlecht konditioniertes Gleichungssystem.


Wir benötigen ferner folgendes Resultat:

Lemma 2.19

Bearbeiten
Für eine symmetrische, positiv definite Matrix   gilt
(2.23)  
sowie
(2.24)  

Da die Matrix   symmetrisch ist, existiert zu ihren Eigenwerten   eine Orthonormalbasis   von Eigenvektoren. Somit kann jedes   mit Koeffizienten   in der Form   dargestellt werden. Nun gilt

 

so dass man analog zu (2.16) erhält:

 

Letzteres impliziert wegen   und

 

die Ungleichungen in (2.23). Die Ungleichungen in (2.24) ergeben sich durch Anwendung von (2.23) auf  .

Bemerkung 2.20

Bearbeiten

Wählt man   in (2.23) als einen zu   bzw.   gehörenden Eigenvektor, so ergibt sich offenbar Gleichheit in der jeweiligen Ungleichung. Entsprechend schließt man für (2.24). Die Ungleichungen in (2.23) und (2.24) sind somit „scharf“.

Ferner werden wir uns auf die folgende Aussage beziehen.

Lemma 2.21

Bearbeiten
Ist   eine symmetrische, positiv semidefinite Matrix und  , dann ist die Matrix   symmetrisch und positiv semidefinit. Ist überdies   positiv definit und  , dann ist auch   positiv definit.

Die Matrix   ist wegen

 

symmetrisch und wegen

(2.25)  

positiv semidefinit. Die Rangbedingung an   impliziert, dass   genau dann gilt, wenn   ist. Für   hat man daher in (2.25) „ “, wenn   positiv definit ist.

q.e.d.

2.6 Konvexe Mengen und Funktionen

Bearbeiten

Besonders einfach geformte Mengen im   sind konvexe Mengen. Dies sind Mengen, bei denen für zwei beliebige Punkte aus der Menge auch die gesamte Strecke, die sie verbindet, wieder in der Menge liegt. Mathematisch lässt sich dies folgendermaßen ausdrücken:

Definition 2.22

Bearbeiten
Eine Menge   heißt konvex, wenn gilt:
 

Man macht sich leicht klar, dass der Durchschnitt einer beliebigen Anzahl konvexer Mengen ebenfalls konvex ist, dass aber die Vereinigung konvexer Mengen nicht notwendig wieder eine konvexe Menge ergibt.

Definition 2.23

Bearbeiten
Hat   mit     die Gestalt
 
so sagt man,   ist eine Konvexkombination der    .

Das folgende Lemma lässt sich mittels vollständiger Induktion beweisen.

Lemma 2.24

Bearbeiten
Jede Konvexkombination von endlich vielen Elementen einer konvexen Menge   ist wieder Element von  .

In Abschnitt 1.1 hatten wir bereits lineare und quadratische Funktionen eingeführt. Jede Funktion  , die auf   nicht identisch mit einer affin-linearen Funktion ist, bezeichnet man als nichtlinear. Unter den nichtlinearen Funktionen interessieren im Hinblick auf Minimierungsprobleme besonders die konvexen Funktionen.

Anschaulich ist eine reellwertige Funktion   in   Veränderlichen konvex, wenn der Graph von   zwischen zwei beliebigen Punkten   und   unterhalb der Sekante liegt, welche die beiden Punkte   und   auf dem Graphen verbindet oder wenn er mit dieser Sekante zusammenfällt. Befindet sich der Graph von  , abgesehen von den beiden Punkten   und  , strikt unterhalb dieser Sekante, so bezeichnet man   als strikt konvex.

Konvexe und strikt konvexe Funktionen können, aber müssen nicht so gekrümmt sein, dass sie Minimalpunkte besitzen. So hat die strikt konvexe Funktion   auf   genau einen Minimalpunkt, während die strikt konvexe Funktion   für   ihr Minimum nicht annimmt. Im Hinblick auf die Existenz von Minima spielen daher gleichmäßig konvexe Funktionen in der Optimierung eine große Rolle (vgl. Satz 2.42). Wir wollen die diskutierten Begriffe nun mathematisch fassen:

Definition 2.25

Bearbeiten
Sei   eine Funktion und   eine konvexe Menge.
(i)   heißt konvex auf  , falls gilt:
(2.26)  
(ii)   heißt strikt konvex auf  , falls gilt:
 
(iii)   heißt gleichmäßig konvex auf  , falls eine Konstante  , genannt (gleichmäßige) Konvexitätskonstante, existiert, so dass gilt:
(2.27)  
(iv)   heißt konkav (strikt konkav, gleichmäßig konkav) auf  , wenn   konvex (strikt konvex, gleichmäßig konvex) auf   ist.
Falls   ist, kann in (i) - (iv) der Zusatz „auf  “ fortgelassen werden.

Ist   eine affin-lineare Funktion der Gestalt

 

so gilt für alle   und  

 

Wie auch schon anschaulich klar ist, sind also affin-lineare Funktionen sowohl konvexe als auch konkave Funktionen.

Es gibt nun eine ganze Reihe nützlicher Bedingungen, mit welchen man die Konvexität gewisser Funktionenklassen erschließen kann. Das folgende, leicht zu beweisende Lemma gibt ein Beispiel dafür an.

Lemma 2.26

Bearbeiten
Für   seien   und seien   konvexe Funktionen auf einer konvexen Menge  . Dann ist auch die Funktion
(2.28)  
auf </math>K</math> konvex.

Wie man unmittelbar aus den Definitionen erschließt, ist jede gleichmäßig konvexe Funktion strikt konvex und jede strikt konvexe Funktion auch konvex. Die Umkehrungen dieser Implikationen müssen aber nicht gelten. So ist eine affin-lineare Funktion konvex, aber nicht strikt konvex und ist die Funktion   für   strikt konvex, aber nicht gleichmäßig konvex. Denn wäre sie gleichmäßig konvex, so erhielte man gemäß (2.26) für   und ein  

 

Dies kann jedoch für hinreichend große   nicht richtig sein, da der rechte Ausdruck für   gegen 0 strebt.

Es ist zumeist sehr mühsam, eine Konvexitätseigenschaft für eine gegebene Funktion mittels der obigen Definitionen nachzuweisen. Deshalb sind, wie oft in der Mathematik, Bedingungen von Interesse, mit denen sich ein solcher Nachweis möglicherweise leichter führen lässt. Derartige Bedingungen werden wir im folgenden Abschnitt herleiten, so dass wir erst danach weitere Beispiele konvexer Funktionen betrachten wollen. Zuvor sei im Hinblick auf restringierte Optimierungsprobleme aber noch das folgende Ergebnis festgehalten.

Lemma 2.27

Bearbeiten
Seien   Funktionen und sei   die Menge
(2.29)  
(i) Sind die   und   stetig, so ist   abgeschlossen.
(ii) Sind die   konvex und die   affin-linear, so ist   konvex.

Um die Abgeschlossenheit von   zu beweisen, zeigen wir, dass der Grenzwert jeder konvergenten Folge aus   wieder in   liegt. Sei also   eine Folge mit   und  . Dann folgt für alle   und  

 

Es kann weder   noch   gelten, da dann auch   bzw.   für alle hinreichend großen   folgen würde. Also ist  .

Für den Nachweis der Konvexität von   seien   und

 

Da die   konvex und die   affin-linear sind, folgt dann

 
 

Also hat man  , womit die Konvexität von   bewiesen ist.

q.e.d.

Man beachte, dass in Aussage (ii) von Lemma 2.27 für die   Konvexität, aber für die   affine Linearität gefordert ist. Denn während eine Ungleichungsnebenbedingung   mit einer konvexen Funktion   einen konvexen Bereich definiert, tut dies eine Gleichungsrestriktion   mit einer nichtlinear-konvexen Funktion   nicht.

2.7 Charakterisierungen konvexer Funktionen

Bearbeiten

Einmal bzw. zweimal stetig differenzierbare, konvexe Funktionen lassen sich durch Bedingungen erster und zweiter Ordnung charakterisieren. So ist eine einmal stetig differenzierbare Funktion in einer Veränderlichen offenbar genau dann konvex gekrümmt, wenn jede Tangente an ihren Graphen unterhalb des Graphen liegt bzw. mit diesem zusammenfällt. Dies ist im eindimensionalen Fall die Interpretation von Teil (i) des folgenden Satzes. Ähnlich kann man für eine strikt oder gleichmäßig konvexe Funktion argumentieren.

Satz 2.28

Bearbeiten
Sei   konvex und  . (Mit   bezeichnen wir die Menge aller auf einer offenen Obermenge   von    -mal stetig differenzierbaren Funktionen  , wobei   von   abhängen darf.) Dann gilt:
(i)   ist auf   genau dann konvex, wenn gilt:
(2.30)  
(ii)   ist auf   genau dann strikt konvex, wenn gilt:
 
(iii)   ist auf   genau dann gleichmäßig konvex mit Konstante  , wenn gilt:
 

  für (i), (iii)“:   sei konvex bzw. gleichmäßig konvex auf  . Dann gilt mit   bzw.   für alle   und  :

 

Für   impliziert dies

(2.31)  

Nach Definition der Richtungsableitung von   bei   in Richtung   hat man

 

so dass Grenzwertbildung für   in (2.31) das gewünschte Ergebnis liefert:

(2.32)  

  für (ii)“: Ist   strikt konvex, dann ist   auch konvex, so dass für   gemäß (2.32) gilt:

(2.33)  

Für alle   mit   und   folgt daher unter Ausnutzung von (2.33) und der strikten Konvexität von  

 
 

  für (i), (iii)“: Mit   bzw.   sei

(2.34)  

Da   eine konvexe Menge ist, liegt für   und jedes   auch   in  . Somit liefert (2.34), angewandt auf   und   bzw.   und  ,

 
 

Multipliziert man die erste dieser Ungleichungen mit   und die zweite mit   und addiert man anschließend beide Ungleichungen, so erhält man

 
 

Wegen der Definition von   ist dabei

 

womit das gewünschte Ergebnis folgt. Der Beweis der Richtung „ “ für (ii) erfolgt analog, indem man   setzt und überall „ “ gegen „ “ austauscht.

q.e.d.

Der nächste Satz charakterisiert die unterschiedlichen Konvexitätseigenschaften durch zweite Ableitungen.

Satz 2.29

Bearbeiten
Sei   konvex und  . Dann gilt:
(i) Ist   für alle   positiv semidefinit, so ist   konvex auf  .
(ii) Ist   für alle   positiv definit, so ist   strikt konvex auf  .
(iii) Gibt es eine Konstante  , so dass
(2.35)  
gilt, so ist   gleichmäßig konvex auf   mit Konstante  .
(iv) Ist   offen, so gelten auch die Umkehrungen von (i) und (iii).

(i)-(iii): Seien   und  . Weiter sei

 

Dann gilt nach dem Satz von Taylor mit einem  

 

bzw.

 

wobei offenbar   in   liegt. Mit Satz 2.28 folgt damit unter Anwendung der im Satz geforderten Eigenschaften der Hesse-Matrix von   auf   die Behauptung.

(iv):   sei offen und   sei auf   konvex   bzw. gleichmäßig konvex  . Weiter sei   und   beliebig. Dann ist   für alle hinreichend kleinen  . Für diese   gilt nach Satz 2.28 (iii):

 
 

Addition der beiden Ungleichungen liefert

 

so dass für alle hinreichend kleinen   folgt:

 

Grenzübergang für   liefert schließlich die Ungleichung in (2.35).

q.e.d.

Die Umkehrung der Aussage (ii) von Satz 2.29 muss für eine offene konvexe Menge   nicht gelten. Dies zeigt das folgende erste Beispiel 2.30.

Beispiel 2.30

Bearbeiten

(i) Sei   und  . Dann schließt man

 

so dass nach dem Mittelwertsatz für ein   zwischen   und   folgt:

 

Gemäß Satz 2.28 ist also   auf   strikt konvex. Aber es ist  .

(ii) Für   ist  . Also ist   nach Satz 2.29 strikt konvex auf  . Wegen

 

existiert aber kein  , so dass   für alle   und damit (2.35) gilt. Demzufolge ist   auf   nicht gleichmäßig konvex.


Als weiteres Beispiel wollen wir im nächsten Abschnitt die für die nichtlineare Optimierung wichtige Klasse der quadratischen Funktionen auf mögliche Konvexitätseigenschaften hin untersuchen. Dies ist mit Hilfe der nun zur Verfügung stehenden Ergebnisse einfacher als mit der ursprünglichen Definition 2.25.

2.8 Quadratische Funktionen

Bearbeiten

Definition 2.31

Bearbeiten
Unter einer quadratischen Funktion versteht man eine Funktion  , welche durch
(2.36)  
definiert ist, wobei   und   eine symmetrische Matrix ist.

Für die quadratische Funktion in (2.36) hat man

(2.37)  

Der Faktor   vor dem quadratischen Term in (2.36) bewirkt also, dass der Gradient und die Hesse-Matrix von   keinen Faktor vor   enthalten.

Bemerkung 2.32

Bearbeiten

Die Forderung der Symmetrie von   für eine quadratische Funktion stellt keine Einschränkung dar. Denn jede Funktion wie in (2.36), die nicht mit einer symmetrischen Matrix gegeben ist, kann auch mit einer symmetrischen Matrix dargestellt werden. Die Vorgehensweise dabei soll nicht allgemein beschrieben, sondern nur an dem folgenden kleinen Beispiel verdeutlicht werden:

 
 

Mit Satz 2.29 lässt sich nun leicht charakterisieren, wann eine quadratische Funktion   auf dem   konvex bzw. gleichmäßig konvex ist.

Lemma 2.33

Bearbeiten
Für die quadratische Funktion   in (2.36) gilt:
(i)   ist genau dann konvex, wenn   positiv semidefinit ist.
(ii)   ist genau dann gleichmäßig konvex, wenn   positiv definit ist.
(iii) Wenn   gleichmäßig konvex ist, so ist
(2.38)  
die größtmögliche Konvexitätskonstante für  .

Es ist  . Die Aussagen (i) und (ii) folgen damit aus Satz 2.29, wobei man für (ii) die linke Ungleichung in (2.23) berücksichtige. Ist nun   gleichmäßig konvex mit Konvexitätskonstante  , so ist nach Satz 2.29   positiv definit und die Ungleichung in (2.35) mit   erfüllt. Damit gilt also die linke Ungleichung in (2.23) mit  . Gemäß Bemerkung 2.20 ist   die größtmögliche Konstante für die letztere Ungleichung. Aus Teil (iii) von Satz 2.29 ergibt sich damit, dass   auch mit der Konvexitätskonstante   gleichmäßig konvex ist.

q.e.d.

Beispielsweise ist also die quadratische Funktion

 

auf   gleichmäßig konvex. Denn die sie definierende Matrix hat die positiven Eigenwerte   und  .

Ein praktisch relevantes Beispiel für eine quadratische Funktion ist die Funktion, welche bei der linearen Ausgleichsrechnung zu minimieren ist.

Beispiel 2.34

Bearbeiten

Hat ein lineares Gleichungssystem   mit   und   mehr Gleichungen als Unbekannte, so ist es typischerweise nicht lösbar. Für   macht es also Sinn, ein   als „Lösung“ zu akzeptieren, für welches der Defekt   hinsichtlich der Norm   bzw., was äquivalent damit ist, hinsichtlich der quadrierten Norm   auf dem   minimal wird. Gesucht ist dann also eine Lösung des linearen Ausgleichsproblems

 

Die Zielfunktion dieses Problems lässt sich als quadratische Funktion der Gestalt (2.36) schreiben:

 
 

Die Matrix   darin ist wegen   symmetrisch und wegen

 

positiv semidefinit. Im Fall   ist diese Matrix sogar positiv definit, da dann die Spalten von   linear unabhängig sind und folglich gilt:

 

Gemäß Lemma 2.33 ist die Zielfunktion des linearen Ausgleichsproblems also eine konvexe und im Fall   eine gleichmäßig konvexe, quadratische Funktion.


2.9 Problemstellung und zentrale Begriffe

Bearbeiten

Wir betrachten nun das allgemeine Optimierungsproblem

(2.39) Minimiere   über alle  

mit zulässigem Bereich   und Zielfunktion  . In diesem und dem nächsten Abschnitt wollen wir einige grundlegende Begriffe und Aussagen über die Existenz und Eindeutigkeit von Lösungen für solche Optimierungsprobleme bereit stellen. Vorrangig denken wir dabei an den unrestringierten Fall   und den restringierten Fall, bei dem   in der Form

(2.40)  

mit Funktionen   gegeben ist.

Ist   eine konvexe Menge und   konvex auf  , dann bezeichnet man das Problem (2.39) als ein konvexes Optimierungsproblem. Insbesondere ist   ein Problem der Gestalt

 

Speziell im Fall   liegt ein lineares Optimierungsproblem vor:

 

Der zulässige Bereich eines linearen und eines quadratischen Optimierungsproblems ist konvex (Lemma 2.27). Ein quadratisches Optimierungsproblem ist weiterhin genau dann konvex, wenn   eine positiv semidefinite Matrix ist (Lemma 2.33). Ergebnisse für quadratische Optimierungsprobleme mit positiv semidefiniter Matrix   sind offenbar auch auf lineare Optimierungsprobleme anwendbar. Die Voraussetzung der positiven Definitheit für   schließt aber den linearen Fall aus.

Wie ebenfalls schon Abschnitt 1.1 gesagt wurde, liegt ein nichtlineares Optimierungsproblem vor, wenn   (im unrestringierten Fall) bzw. mindestens eine der Funktionen   und   (im restringierten Fall) nichtlinear ist. Konvexe Optimierungsprobleme sind also spezielle nichtlineare Optimierungsprobleme. Denkt man bei einem nichtlinearen Problem ausdrücklich nicht an ein konvexes Problem, so sagt man auch, dass das Problem nichtkonvex oder nichtkonvex-nichtlinear ist.

Den Wert

(2.41)  

nennt man den Minimalwert von Problem (2.39). Für   ist er endlich oder  . Beispiele sind

 

Für den Fall   definiert man

 

Jedes  , für das   auf   den Minimalwert   annimmt, für das also   gilt, nennt man globale Lösung des Optimierungsproblems. Weitere Lösungsbegriffe werden mit der folgenden Definition eingeführt. Dabei bezeichne

 

für ein   die offene  -Umgebung von  .

Definition 2.36

Bearbeiten
(i)   heißt globale Lösung von Problem (2.39), falls
f 
gilt und strikt globale Lösung im Fall
 
(ii)   heißt lokale Lösung von Problem (2.39), falls ein   existiert, so dass
(2.42)  
gilt und strikt lokale Lösung im Fall
 
Statt von einer Lösung von Problem (2.39) spricht man auch von einem Minimalpunkt oder einem Minimierer.

Im Fall, dass   eine lokale oder globale Lösung von Problem (2.39) ist, sagt man auch, dass   bzw.   sein lokales bzw. globales Minimum in   annimmt. Wir unterscheiden hier also zwischen einem Minimierer von  , einem Punkt, und einem Minimum von  , d. h. dem zugehörigen Funktionswert.

Jede globale Lösung von Problem (2.39) ist gemäß Definition 2.36 auch eine lokale Lösung des Problems. Konvexe Probleme besitzen die wichtige Eigenschaft, dass für sie umgekehrt auch jede lokale Lösung eine globale Lösung ist:

Satz 2.37

Bearbeiten
Es sei   konvex und   eine konvexe Funktion. Dann gilt:
(i) Jede (strikt) lokale Lösung von Problem (2.39) ist auch (strikt) globale Lösung.
(ii) Ist   strikt konvex auf  , dann besitzt Problem (2.39) höchstens eine globale Lösung.
(iii) Die Menge aller globalen Lösungen von Problem (2.39) ist konvex. Ist   abgeschlossen, so ist sie auch abgeschlossen.

Übung!

2.10 Existenz und Eindeutigkeit von Lösungen

Bearbeiten

Wir diskutieren nun als nächstes die Existenz und Eindeutigkeit von Lösungen des Optimierungsproblems

(2.43) Minimiere   über alle  ,

wobei wieder   und   seien. Ist   eine nichtleere, abgeschlossene und beschränkte Menge, so besitzt das Problem (2.43) nach dem folgenden, aus der Analysis bekannten Satz von Weierstraß eine globale Lösung. (Es sei daran erinnert, dass eine Menge im   genau dann kompakt ist, wenn sie abgeschlossen und beschränkt ist.)

Satz 2.38 (Weierstraß)

Bearbeiten
Jede auf einer nichtleeren kompakten Menge stetige reellwertige Funktion in   Veränderlichen nimmt dort ihr (globales) Minimum und Maximum an.

In der Praxis ist der zulässige Bereich   eines Minimierungsproblems jedoch häufig unbeschränkt und insbesondere ist er dies natürlich im Fall   des unrestringierten Optimierungsproblems. Wie als nächstes gezeigt werden soll, genügt es jedoch für den Nachweis der Existenz einer Lösung von Problem (2.43), dass   nichtleer und dass für ein   die Niveaumenge

 

beschränkt ist. Bevor wir dies zeigen wollen, seien einige Eigenschaften dieser Menge aufgeführt.

Lemma 2.39

Bearbeiten
Seien   und  . Dann gilt:
(i) Es ist  .
(ii) Ist   eine konvexe Menge und   konvex auf  , d. h., ist das Problem (2.43) ein konvexes Optimierungsproblem, so ist   konvex.
(iii) Ist   abgeschlossen, so ist auch   abgeschlossen.

(i) Es ist   und  . Demzufolge gilt  .

(ii) Seien   und  . Dann folgt zunächst   und wegen der Konvexität von   auch  . Da   nach Voraussetzung eine konvexe Menge ist, schließt man aus der ebenfalls vorausgesetzten Konvexität von   auf  , dass gilt:

 

Also hat man zusammen   und ist damit   konvex.

(iii) Sei nun   eine Folge in  , welche gegen ein   konvergiert. Dann ist per Definition   und wegen der vorausgesetzten Abgeschlossenheit von   auch  . Außerdem hat man  , so dass mit der Stetigkeit von   auch   folgt. Zusammen hat man also  , was die Abgeschlossenheit von   beweist.

q.e.d.

Im Hinblick auf die letzte Aussage stellen wir fest, dass   natürlich im Fall   abgeschlossen ist und dass   dies auch im restringierten Fall ist, wenn   gilt (vgl. Lemma 2.27). Es gilt nun, wie bereits oben gesagt wurde:

Satz 2.40

Bearbeiten
Es seien   und  . Ist die Niveaumenge   kompakt, dann besitzt das Problem (2.43) eine globale Lösung.

Nach Satz 2.38 nimmt   unter den gegebenen Voraussetzungen sein Minimum auf der gemäß Lemma 2.39 (i) nichtleeren Menge   an, d. h., es existiert ein  , so dass gilt:

 

Da man für   die Beziehung   hat, folgt damit die Behauptung.

q.e.d.

Die Voraussetzung der Kompaktheit der Niveaumenge   für ein   ist eine klassische Annahme in der Optimierung. Aufgrund der Beobachtung, die dem Satz 2.40 vorangeht, bleibt für deren Nachweis im Fall unrestringierter und restringierter Optimierungsprobleme mit stetigen Funktionen nur zu garantieren, dass   beschränkt ist. Sind die Probleme insbesondere konvex, so kann man in diesem Zusammenhang beweisen, dass   für jedes   genau dann beschränkt ist, wenn die Menge der Lösungen des Problems beschränkt ist (z. B. [ReeRü98, S. 203]). Letzteres ist sicher für jedes vernünftige praktische Problem der Fall.

Der nächste Satz zeigt nun die Bedeutung der Eigenschaft der gleichmäßigen Konvexität für die Optimierung. Denn mit dem bis hierhin Erreichten können wir für konvexe Optimierungsprobleme mit einer differenzierbaren, gleichmäßig konvexen Zielfunktion die Existenz und Eindeutigkeit einer Lösung unter schwachen Voraussetzungen an   garantieren.

Satz 2.41

Bearbeiten
Es seien   eine abgeschlossene konvexe Menge,   und   eine auf   gleichmäßig konvexe Funktion. Dann folgt:
(i) Die Menge   ist kompakt.
(ii) Problem (2.43) besitzt genau eine Lösung.

Zum Beweis von (i) machen wir für   folgende Abschätzung, wobei wir hintereinander die Definition der gleichmäßigen Konvexität von   mit Konvexitätskonstante  , die Ungleichung   und Satz 2.28 (i) verwenden:

 
 

Daraus schließen wir nach Division durch   und Anwendung der Ungleichung aus (2.1)

 

Also ist (i) richtig. Aussage (ii) folgt aus (i) mit den Sätzen 2.37 und 2.40.

q.e.d.

Beispiel 2.42

Bearbeiten

Es seien   und   eine symmetrische Matrix. Das quadratische Optimierungsproblem

 

ist ein konvexes Optimierungsproblem, wenn   positiv semidefinit ist (Lemma 2.33). Man beachte, dass eine Konstante in der Zielfunktion fortgelassen werden kann, da sich durch sie nur der Minimalwert, aber nicht die Lösungsmenge des Problems ändert. Ist   sogar positiv definit und der zulässige Bereich von   nichtleer, so besitzt   genau eine Lösung (Lemma 2.33 und Satz 2.41).