In den Abschnitten 2.1-2.4 werden grundlegende Aussagen über Vektor- und Matrixnormen zusammengestellt, wie sie z. B. auch in der Numerischen Mathematik 1 vermittelt werden. Matrixnormen werden in diesem Manuskript zur Optimierung 1 aber nur am Rande benötigt. So wird der Einfluss der Größe der Konditionen der in einem Problem vorkommenden Matrizen auf dessen numerische Lösung nur am Rande angesprochen (s. Abschnitt 7.3).
Die Größe einer reellen Zahl und damit den Abstand zweier reeller Zahlen misst man bekanntlich mit dem Betrag. In der Mathematik ist es häufig auch erforderlich, den „Abstand“ zweier Vektoren, Matrizen, Funktionen, usw. zu beschreiben. Welchen „Abstand“ hat aber beispielsweise eine gegebene Matrix von einer Matrix, die in Bezug auf diese leicht gestört ist?
Man benötigt also einen geeigneten Abstandsbegriff auf dem entsprechenden Vektorraum, der bestimmten Grundregeln genügen sollte, wie man sie vom Rechnen mit dem Betrag reeller Zahlen her kennt. Einen solchen Abstandsbegriff für einen beliebigen Vektorraum über liefert die folgende, bereits aus der Numerischen Mathematik bekannte Definition einer Norm. Es sei dabei
Eine Abbildung heißt Norm (auf ), falls Folgendes gilt:
(i)
(ii) (Positive Homogenität),
(iii) (Dreiecksungleichung).
Aus den Normgesetzen leitet man die Beziehung
(2.1)
ab. Einen Vektorraum , auf dem eine Norm definiert ist, bezeichnet man als einen normierten Vektorraum. Die Konvergenz einer Folge von Vektoren in einem solchen Raum wird folgendermaßen definiert. (Vektoren einer Folge indizieren wir mit einem hochgestellten und Zahlen einer Folge mit einem tiefgestellten Index. Es heißt also z. B. und .)
Eine Norm ist eine stetige Abbildung, d. h., es gilt
Eine auf definierte Norm bezeichnet man als Vektornorm und eine auf dem Raum aller reellen -Matrizen definierte Norm als Matrixnorm. In der Praxis können je nach Zusammenhang unterschiedliche Normen für einen Vektorraum sinnvoll oder praktisch leichter handhabbar sein. Die drei gebräuchlichsten Vektornormen sind die Euklidische oder -Norm
(2.2)
die Summen- oder -Norm
(2.3)
und die Maximum- oder -Norm
(2.4)
wobei jeweils ist. Dass es sich dabei tatsächlich um Normen im Sinne von Definition 2.2 handelt, wurde bereits in der Numerischen Mathematik gezeigt. Dort findet man auch den Hinweis, dass dies gerade die sog. -Normen für und sind.
Ein wichtiges Ergebnis in diesem Zusammenhang, das insbesondere für die Räume und relevant ist, lautet:
Ist ein endlich-dimensionaler Vektorraum und sind und zwei beliebige Normen auf , so sind diese „äquivalent“, d. h., es gibt Konstanten , so dass gilt:
(2.5)
Demnach ist jede Folge im , die bezüglich irgendeiner Norm konvergiert, auch bezüglich jeder anderen Norm auf dem konvergent. Der Beweis des Satzes kann hier nicht gegeben werden (siehe dafür z. B. [Heu92, S. 103]). Der Nachweis der Äquivalenz speziell der -Normen auf dem ist eine Aufgabe in der Numerischen Mathematik.
Als nächstes gehen wir auf Matrixnormen ein. Spezielle Matrixnormen für Matrizen sind die Zeilensummennorm
(2.6)
und die Spaltensummennorm
(2.7)
Die Normeigenschaften wurden für die Zeilensummennorm in Analysis 2 nachgewiesen. Der Beweis für die Spaltensummennorm verläuft ganz analog. Für die Normen in (2.6) und (2.7) geben wir ein Beispiel.
Im Folgenden sei entweder eine Vektornorm auf dem oder eine Matrixnorm auf dem Raum , wobei durch den Inhalt „“ von klar ist, um was es sich jeweils handelt. (Vektoren bezeichnen wir, wie üblich, mit kleinen und Matrizen mit großen Buchstaben.) Jeder gegebenen Vektornorm wird nun in der nächsten Definition eine spezielle Matrixnorm zugeordnet, wobei anschließend zu zeigen ist, dass es sich dabei tatsächlich um eine Norm handelt und dass diese Norm von praktischem Interesse ist.
für definierte Norm die durch die Vektornorm induzierte Matrixnorm.
Man beachte, dass in der Definition (2.8) von nur die Vektornorm verwendet wird. Wegen der Kompaktheit der Menge
und der Stetigkeit der Norm wird nach dem Satz von Weierstraß (vgl. Satz 2.38) das Maximum in (2.8) tatsächlich angenommen, so dass die Verwendung von „“ korrekt ist. Offenbar gilt für die Norm in (2.8)
(2.9)
Speziell für die Einheitsmatrix erhält man bei beliebiger Wahl der Vektornorm für die durch diese Norm induzierte Matrixnorm
Weiter sei zunächst . Dann schließt man für jedes mit , dass und damit ist. Aus den Axiomen für die Vektornorm folgt daher für jedes mit . Dies ist nur für möglich, da im Fall, dass für mindestens ein und ist, für den Einheitsvektor folgen würde: . Ist umgekehrt , so ergibt sich mit (2.10)
Weiter erschließt man unter Verwendung der Normaxiome für die Vektornorm mit
und für
Damit erhält man für ein geeignetes mit
q.e.d.
Induzierte Matrixnormen, wie wir sie von nun an nur noch betrachten werden, sind deshalb von besonderem Interesse, weil sie neben den allgemeinen Normeigenschaften die sehr nützlichen, zusätzlichen Eigenschaften besitzen, welche in dem folgenden Satz angegeben werden.
Für ist die Ungleichung in (2.11) trivialerweise erfüllt. Für ergibt sie sich aus den Abschätzungen
Weiter gilt für und damit
Im Fall und hat man trivialerweise
Somit folgt für alle
und damit
q.e.d.
Der folgende Satz besagt nun, dass die in (2.6) und (2.7) eingeführte Zeilen- und Spaltensummennorm gerade die durch die Vektornormen und induzierten Matrixnormen sind.
Wir weisen die Behauptung für die Zeilensummennorm nach. Für jedes gilt
Somit ergibt sich für
und demzufolge gemäß (2.9)
Zum Beweis der umgekehrten Abschätzung sei beliebig, aber fest gewählt und der Vektor mit Koeffizienten
Offenbar ist . Somit schließt man
(2.13)
Da beliebig gewählt war, folgt die behauptete Darstellung für . Der Beweis für die Spaltensummennorm verläuft ganz ähnlich.
q.e.d.
Die wichtige Matrixnorm, welche durch die Euklidische Vektornorm induziert wird, ist leider nicht so einfach zu berechnen wie die Zeilen- oder Spaltensummennorm. Auf sie gehen wir im folgenden Abschnitt ein.
Die durch die Euklidische Vektornorm induzierte Matrixnorm einer Matrix kann mit dem Spektralradius, d. h. dem größten Eigenwert von dargestellt werden.
positiv semidefinit. Somit besitzt Eigenwerte und gibt es zu ein System von orthonormalen Eigenvektoren, d. h., es ist
und
(2.15)
Für gibt es daher mit Koeffizienten eine Darstellung . Damit folgt
sowie
(2.16)
Somit hat man
(2.17)
Für einen Eigenvektor zu einem maximalen Eigenwert gilt
Folglich wird das Maximum in (2.17) für angenommen und kann das „“ dort durch „“ ersetzt werden.
q.e.d.
Die Matrixnorm bezeichnet man auch als Spektralnorm. Dieser Name begründet sich durch den letzten Satz bzw. durch die in folgendem Satz angegebene Identität für symmetrische Matrizen.
Aufgrund der vorausgesetzten Symmetrie von gilt und
da die quadrierten Eigenwerte von als Eigenwerte hat. Daher schließt man
Da symmetrisch ist, sind ferner alle Eigenwerte von reell. Ist ein Eigenvektor zum Eigenwert und somit , dann folgt für eine beliebige durch die Vektornorm induzierte Matrixnorm
Damit ist alles gezeigt.
q.e.d.
Für eine reelle symmetrische Matrix ist also gemäß (2.19) der Wert der Spektralnorm unter allen Werten für induzierte Matrixnormen der kleinste. Die Spektralnorm wäre deshalb stets die favorisierte Norm für Matrizen, wenn ihre Berechnung im Allgemeinen nicht unvergleichlich aufwändiger wäre als die der Zeilen- oder Spaltensummennorm.
In der Numerischen Mathematik spielen Konditionszahlen im Zusammenhang mit der Stabilität eines numerischen Verfahrens eine große Rolle. Die in der folgenden Definition eingeführte Konditionszahl für Matrizen ist insbesondere im Zusammenhang mit der numerischen Lösung von linearen Gleichungssystemen relevant. Dies wird mit Satz 2.17 deutlich werden. Es bezeichne hierbei generell wieder eine Vektornorm oder die durch sie induzierte Matrixnorm.
heißt Kondition oder Konditionszahl der Matrix (bezüglich der Norm ).
Man beachte, dass die Größe der Konditionszahl einer Matrix im Allgemeinen von der gewählten Matrixnorm abhängig ist. Für symmetrische Matrizen liefert offenbar die Spektralnorm gemäß (2.19) die kleinste Konditionszahl für alle induzierten Matrixnormen:
Die Konditionszahl gibt also die Bandbreite an, um die sich die Vektorlänge eines Vektors bei Multiplikation mit ändern kann. Aus (2.20) ergibt sich zudem
wobei wieder die Einheitsmatrix ist.
Wir betrachten nun den folgenden Satz im Hinblick auf die Lösung linearer Gleichungssysteme. In diesem Satz wird die Lösung eines Systems mit der Lösung eines gestörten Systems mit Matrix und rechter Seite verglichen, wobei die Größe der Störung, d. h. nicht zu groß sein darf. (Einen Beweis des Satzes findet man in [Pla00].)
Sei eine reguläre Matrix und eine Matrix mit . Gilt für Vektoren
so folgt für den relativen Fehler von bezüglich die Abschätzung
(2.21)
Die Konstanten und \|\Delta b\| / \|b\|</math> sind offenbar gerade die relativen Fehler bezüglich und , die durch die Störungen und verursacht werden. Deren Summe wird in (2.21) verstärkt durch den Faktor
Dieser Faktor ist offenbar um so größer je größer die Kondition von ist. Im Fall spricht man daher von einem schlecht konditionierten Gleichungssystem. (Dabei steht „“ für „viel größer als“.)
Für ein schlecht konditioniertes lineares Gleichungssystem können sich also kleine Eingabefehler in den „Daten“ und sehr stark auf die Lösung des Systems auswirken, und sie tun dies normalerweise auch. Solche Eingabefehler macht man z. B. natürlicherweise, wenn man irrationale Zahlen wie oder in einen Computer eingibt. Rundungsfehler, wie sie aufgrund der endlichen Zahlendarstellung beim Rechnen auf einem Computer nicht zu vermeiden sind, sind dabei noch gar nicht mit berücksichtigt. Bei Problemen, von denen man weiß, dass die Kondition der Matrix sehr groß ist, ist also Vorsicht im Hinblick auf die Interpretation der Genauigkeit der erzielten Lösung geboten. Wir geben im folgenden Abschnitt ein Beispiel für eine solche Matrix.
Wenn nichts anderes gesagt ist, meinen wir von nun an mit der Einfachheit halber immer die Euklidische Vektornorm bzw. die durch sie induzierte Matrixnorm, die Spektralnorm. Folglich bedeutet die durch die Spektralnorm definierte Konditionszahl einer Matrix.
In diesem Kurs spielen symmetrische, positiv definite Matrizen eine große Rolle. Solche Matrizen sind insbesondere nichtsingulär. Ist der kleinste und der größte Eigenwert der symmetrischen, positiv definiten Matrix , so ist offenbar der kleinste und der größte Eigenwert von . Demnach ist auch eine symmetrische, positiv definite Matrix. Damit ergibt sich weiter für die Kondition einer solchen Matrix hinsichtlich der Spektralnorm:
Da die Matrix symmetrisch ist, existiert zu ihren Eigenwerten eine Orthonormalbasis von Eigenvektoren. Somit kann jedes mit Koeffizienten in der Form dargestellt werden. Nun gilt
so dass man analog zu (2.16) erhält:
Letzteres impliziert wegen und
die Ungleichungen in (2.23). Die Ungleichungen in (2.24) ergeben sich durch Anwendung von (2.23) auf .
Wählt man in (2.23) als einen zu bzw. gehörenden Eigenvektor, so ergibt sich offenbar Gleichheit in der jeweiligen Ungleichung. Entsprechend schließt man für (2.24). Die Ungleichungen in (2.23) und (2.24) sind somit „scharf“.
Ferner werden wir uns auf die folgende Aussage beziehen.
Ist eine symmetrische, positiv semidefinite Matrix und , dann ist die Matrix symmetrisch und positiv semidefinit. Ist überdies positiv definit und , dann ist auch positiv definit.
Besonders einfach geformte Mengen im sind konvexe Mengen. Dies sind Mengen, bei denen für zwei beliebige Punkte aus der Menge auch die gesamte Strecke, die sie verbindet, wieder in der Menge liegt. Mathematisch lässt sich dies folgendermaßen ausdrücken:
Man macht sich leicht klar, dass der Durchschnitt einer beliebigen Anzahl konvexer Mengen ebenfalls konvex ist, dass aber die Vereinigung konvexer Mengen nicht notwendig wieder eine konvexe Menge ergibt.
Jede Konvexkombination von endlich vielen Elementen einer konvexen Menge ist wieder Element von .
In Abschnitt 1.1 hatten wir bereits lineare und quadratische Funktionen eingeführt. Jede Funktion , die auf nicht identisch mit einer affin-linearen Funktion ist, bezeichnet man als nichtlinear. Unter den nichtlinearen Funktionen interessieren im Hinblick auf Minimierungsprobleme besonders die konvexen Funktionen.
Anschaulich ist eine reellwertige Funktion in Veränderlichen konvex, wenn der Graph von zwischen zwei beliebigen Punkten und unterhalb der Sekante liegt, welche die beiden Punkte und auf dem Graphen verbindet oder wenn er mit dieser Sekante zusammenfällt. Befindet sich der Graph von , abgesehen von den beiden Punkten und , strikt unterhalb dieser Sekante, so bezeichnet man als strikt konvex.
Konvexe und strikt konvexe Funktionen können, aber müssen nicht so gekrümmt sein, dass sie Minimalpunkte besitzen. So hat die strikt konvexe Funktion auf genau einen Minimalpunkt, während die strikt konvexe Funktion für ihr Minimum nicht annimmt. Im Hinblick auf die Existenz von Minima spielen daher gleichmäßig konvexe Funktionen in der Optimierung eine große Rolle (vgl. Satz 2.42). Wir wollen die diskutierten Begriffe nun mathematisch fassen:
(iii) heißt gleichmäßig konvex auf , falls eine Konstante , genannt (gleichmäßige) Konvexitätskonstante, existiert, so dass gilt:
(2.27)
(iv) heißt konkav (strikt konkav, gleichmäßig konkav) auf , wenn konvex (strikt konvex, gleichmäßig konvex) auf ist.
Falls ist, kann in (i) - (iv) der Zusatz „auf “ fortgelassen werden.
Ist eine affin-lineare Funktion der Gestalt
so gilt für alle und
Wie auch schon anschaulich klar ist, sind also affin-lineare Funktionen sowohl konvexe als auch konkave Funktionen.
Es gibt nun eine ganze Reihe nützlicher Bedingungen, mit welchen man die Konvexität gewisser Funktionenklassen erschließen kann. Das folgende, leicht zu beweisende Lemma gibt ein Beispiel dafür an.
Für seien und seien konvexe Funktionen auf einer konvexen Menge . Dann ist auch die Funktion
(2.28)
auf </math>K</math> konvex.
Wie man unmittelbar aus den Definitionen erschließt, ist jede gleichmäßig konvexe Funktion strikt konvex und jede strikt konvexe Funktion auch konvex. Die Umkehrungen dieser Implikationen müssen aber nicht gelten. So ist eine affin-lineare Funktion konvex, aber nicht strikt konvex und ist die Funktion für strikt konvex, aber nicht gleichmäßig konvex. Denn wäre sie gleichmäßig konvex, so erhielte man gemäß (2.26) für und ein
Dies kann jedoch für hinreichend große nicht richtig sein, da der rechte Ausdruck für gegen 0 strebt.
Es ist zumeist sehr mühsam, eine Konvexitätseigenschaft für eine gegebene Funktion mittels der obigen Definitionen nachzuweisen. Deshalb sind, wie oft in der Mathematik, Bedingungen von Interesse, mit denen sich ein solcher Nachweis möglicherweise leichter führen lässt. Derartige Bedingungen werden wir im folgenden Abschnitt herleiten, so dass wir erst danach weitere Beispiele konvexer Funktionen betrachten wollen. Zuvor sei im Hinblick auf restringierte Optimierungsprobleme aber noch das folgende Ergebnis festgehalten.
Um die Abgeschlossenheit von zu beweisen, zeigen wir, dass der Grenzwert jeder konvergenten Folge aus wieder in liegt. Sei also eine Folge mit und . Dann folgt für alle und
Es kann weder noch gelten, da dann auch bzw. für alle hinreichend großen folgen würde. Also ist .
Für den Nachweis der Konvexität von seien und
Da die konvex und die affin-linear sind, folgt dann
Also hat man , womit die Konvexität von bewiesen ist.
q.e.d.
Man beachte, dass in Aussage (ii) von Lemma 2.27 für die Konvexität, aber für die affine Linearität gefordert ist. Denn während eine Ungleichungsnebenbedingung mit einer konvexen Funktion einen konvexen Bereich definiert, tut dies eine Gleichungsrestriktion mit einer nichtlinear-konvexen Funktion nicht.
Einmal bzw. zweimal stetig differenzierbare, konvexe Funktionen lassen sich durch Bedingungen erster und zweiter Ordnung charakterisieren. So ist eine einmal stetig differenzierbare Funktion in einer Veränderlichen offenbar genau dann konvex gekrümmt, wenn jede Tangente an ihren Graphen unterhalb des Graphen liegt bzw. mit diesem zusammenfällt. Dies ist im eindimensionalen Fall die Interpretation von Teil (i) des folgenden Satzes. Ähnlich kann man für eine strikt oder gleichmäßig konvexe Funktion argumentieren.
Sei konvex und . (Mit bezeichnen wir die Menge aller auf einer offenen Obermenge von -mal stetig differenzierbaren Funktionen , wobei von abhängen darf.) Dann gilt:
(i) ist auf genau dann konvex, wenn gilt:
(2.30)
(ii) ist auf genau dann strikt konvex, wenn gilt:
(iii) ist auf genau dann gleichmäßig konvex mit Konstante , wenn gilt:
wobei offenbar in liegt. Mit Satz 2.28 folgt damit unter Anwendung der im Satz geforderten Eigenschaften der Hesse-Matrix von auf die Behauptung.
(iv): sei offen und sei auf konvex bzw. gleichmäßig konvex . Weiter sei und beliebig. Dann ist für alle hinreichend kleinen . Für diese gilt nach Satz 2.28 (iii):
Addition der beiden Ungleichungen liefert
so dass für alle hinreichend kleinen folgt:
Grenzübergang für liefert schließlich die Ungleichung in (2.35).
q.e.d.
Die Umkehrung der Aussage (ii) von Satz 2.29 muss für eine offene konvexe Menge nicht gelten. Dies zeigt das folgende erste Beispiel 2.30.
so dass nach dem Mittelwertsatz für ein zwischen und folgt:
Gemäß Satz 2.28 ist also auf strikt konvex. Aber es ist .
(ii) Für ist . Also ist nach Satz 2.29 strikt konvex auf . Wegen
existiert aber kein , so dass für alle und damit (2.35) gilt. Demzufolge ist auf nicht gleichmäßig konvex.
Als weiteres Beispiel wollen wir im nächsten Abschnitt die für die nichtlineare Optimierung wichtige Klasse der quadratischen Funktionen auf mögliche Konvexitätseigenschaften hin untersuchen. Dies ist mit Hilfe der nun zur Verfügung stehenden Ergebnisse einfacher als mit der ursprünglichen Definition 2.25.
Die Forderung der Symmetrie von für eine quadratische Funktion stellt keine Einschränkung dar. Denn jede Funktion wie in (2.36), die nicht mit einer symmetrischen Matrix gegeben ist, kann auch mit einer symmetrischen Matrix dargestellt werden. Die Vorgehensweise dabei soll nicht allgemein beschrieben, sondern nur an dem folgenden kleinen Beispiel verdeutlicht werden:
Mit Satz 2.29 lässt sich nun leicht charakterisieren, wann eine quadratische Funktion auf dem konvex bzw. gleichmäßig konvex ist.
Es ist . Die Aussagen (i) und (ii) folgen damit aus Satz 2.29, wobei man für (ii) die linke Ungleichung in (2.23) berücksichtige. Ist nun gleichmäßig konvex mit Konvexitätskonstante , so ist nach Satz 2.29 positiv definit und die Ungleichung in (2.35) mit erfüllt. Damit gilt also die linke Ungleichung in (2.23) mit . Gemäß Bemerkung 2.20 ist die größtmögliche Konstante für die letztere Ungleichung. Aus Teil (iii) von Satz 2.29 ergibt sich damit, dass auch mit der Konvexitätskonstante gleichmäßig konvex ist.
q.e.d.
Beispielsweise ist also die quadratische Funktion
auf gleichmäßig konvex. Denn die sie definierende Matrix hat die positiven Eigenwerte und .
Ein praktisch relevantes Beispiel für eine quadratische Funktion ist die Funktion, welche bei der linearen Ausgleichsrechnung zu minimieren ist.
Hat ein lineares Gleichungssystem mit und mehr Gleichungen als Unbekannte, so ist es typischerweise nicht lösbar. Für macht es also Sinn, ein als „Lösung“ zu akzeptieren, für welches der Defekt hinsichtlich der Norm bzw., was äquivalent damit ist, hinsichtlich der quadrierten Norm auf dem minimal wird. Gesucht ist dann also eine Lösung des linearen Ausgleichsproblems
Die Zielfunktion dieses Problems lässt sich als quadratische Funktion der Gestalt (2.36) schreiben:
Die Matrix darin ist wegen symmetrisch und wegen
positiv semidefinit. Im Fall ist diese Matrix sogar positiv definit, da dann die Spalten von linear unabhängig sind und folglich gilt:
Gemäß Lemma 2.33 ist die Zielfunktion des linearen Ausgleichsproblems also eine konvexe und im Fall eine gleichmäßig konvexe, quadratische Funktion.
Wir betrachten nun das allgemeine Optimierungsproblem
(2.39) Minimiere über alle
mit zulässigem Bereich und Zielfunktion. In diesem und dem nächsten Abschnitt wollen wir einige grundlegende Begriffe und Aussagen über die Existenz und Eindeutigkeit von Lösungen für solche Optimierungsprobleme bereit stellen. Vorrangig denken wir dabei an den unrestringierten Fall und den restringierten Fall, bei dem in der Form
(2.40)
mit Funktionen gegeben ist.
Ist eine konvexe Menge und konvex auf , dann bezeichnet man das Problem (2.39) als ein konvexes Optimierungsproblem. Insbesondere ist ein Problem der Gestalt
Speziell im Fall liegt ein lineares Optimierungsproblem vor:
Der zulässige Bereich eines linearen und eines quadratischen Optimierungsproblems ist konvex (Lemma 2.27). Ein quadratisches Optimierungsproblem ist weiterhin genau dann konvex, wenn eine positiv semidefinite Matrix ist (Lemma 2.33). Ergebnisse für quadratische Optimierungsprobleme mit positiv semidefiniter Matrix sind offenbar auch auf lineare Optimierungsprobleme anwendbar. Die Voraussetzung der positiven Definitheit für schließt aber den linearen Fall aus.
Wie ebenfalls schon Abschnitt 1.1 gesagt wurde, liegt ein nichtlineares Optimierungsproblem vor, wenn (im unrestringierten Fall) bzw. mindestens eine der Funktionen und (im restringierten Fall) nichtlinear ist. Konvexe Optimierungsprobleme sind also spezielle nichtlineare Optimierungsprobleme. Denkt man bei einem nichtlinearen Problem ausdrücklich nicht an ein konvexes Problem, so sagt man auch, dass das Problem nichtkonvex oder nichtkonvex-nichtlinear ist.
Den Wert
(2.41)
nennt man den Minimalwert von Problem (2.39). Für ist er endlich oder . Beispiele sind
Für den Fall definiert man
Jedes , für das auf den Minimalwert annimmt, für das also gilt, nennt man globale Lösung des Optimierungsproblems. Weitere Lösungsbegriffe werden mit der folgenden Definition eingeführt. Dabei bezeichne
(i) heißt globale Lösung von Problem (2.39), falls
f
gilt und strikt globale Lösung im Fall
(ii) heißt lokale Lösung von Problem (2.39), falls ein existiert, so dass
(2.42)
gilt und strikt lokale Lösung im Fall
Statt von einer Lösung von Problem (2.39) spricht man auch von einem Minimalpunkt oder einem Minimierer.
Im Fall, dass eine lokale oder globale Lösung von Problem (2.39) ist, sagt man auch, dass bzw. sein lokales bzw. globales Minimum in annimmt. Wir unterscheiden hier also zwischen einem Minimierer von , einem Punkt, und einem Minimum von , d. h. dem zugehörigen Funktionswert.
Jede globale Lösung von Problem (2.39) ist gemäß Definition 2.36 auch eine lokale Lösung des Problems. Konvexe Probleme besitzen die wichtige Eigenschaft, dass für sie umgekehrt auch jede lokale Lösung eine globale Lösung ist:
Wir diskutieren nun als nächstes die Existenz und Eindeutigkeit von Lösungen des Optimierungsproblems
(2.43) Minimiere über alle ,
wobei wieder und seien. Ist eine nichtleere, abgeschlossene und beschränkte Menge, so besitzt das Problem (2.43) nach dem folgenden, aus der Analysis bekannten Satz von Weierstraß eine globale Lösung. (Es sei daran erinnert, dass eine Menge im genau dann kompakt ist, wenn sie abgeschlossen und beschränkt ist.)
Jede auf einer nichtleeren kompakten Menge stetige reellwertige Funktion in Veränderlichen nimmt dort ihr (globales) Minimum und Maximum an.
In der Praxis ist der zulässige Bereich eines Minimierungsproblems jedoch häufig unbeschränkt und insbesondere ist er dies natürlich im Fall des unrestringierten Optimierungsproblems. Wie als nächstes gezeigt werden soll, genügt es jedoch für den Nachweis der Existenz einer Lösung von Problem (2.43), dass nichtleer und dass für ein die Niveaumenge
beschränkt ist. Bevor wir dies zeigen wollen, seien einige Eigenschaften dieser Menge aufgeführt.
(ii) Seien und . Dann folgt zunächst und wegen der Konvexität von auch . Da nach Voraussetzung eine konvexe Menge ist, schließt man aus der ebenfalls vorausgesetzten Konvexität von auf , dass gilt:
Also hat man zusammen und ist damit konvex.
(iii) Sei nun eine Folge in , welche gegen ein konvergiert. Dann ist per Definition und wegen der vorausgesetzten Abgeschlossenheit von auch . Außerdem hat man , so dass mit der Stetigkeit von auch folgt. Zusammen hat man also , was die Abgeschlossenheit von beweist.
q.e.d.
Im Hinblick auf die letzte Aussage stellen wir fest, dass natürlich im Fall abgeschlossen ist und dass dies auch im restringierten Fall ist, wenn gilt (vgl. Lemma 2.27). Es gilt nun, wie bereits oben gesagt wurde:
Nach Satz 2.38 nimmt unter den gegebenen Voraussetzungen sein Minimum auf der gemäß Lemma 2.39 (i) nichtleeren Menge an, d. h., es existiert ein , so dass gilt:
Da man für die Beziehung hat, folgt damit die Behauptung.
q.e.d.
Die Voraussetzung der Kompaktheit der Niveaumenge für ein ist eine klassische Annahme in der Optimierung. Aufgrund der Beobachtung, die dem Satz 2.40 vorangeht, bleibt für deren Nachweis im Fall unrestringierter und restringierter Optimierungsprobleme mit stetigen Funktionen nur zu garantieren, dass beschränkt ist. Sind die Probleme insbesondere konvex, so kann man in diesem Zusammenhang beweisen, dass für jedes genau dann beschränkt ist, wenn die Menge der Lösungen des Problems beschränkt ist (z. B. [ReeRü98, S. 203]). Letzteres ist sicher für jedes vernünftige praktische Problem der Fall.
Der nächste Satz zeigt nun die Bedeutung der Eigenschaft der gleichmäßigen Konvexität für die Optimierung. Denn mit dem bis hierhin Erreichten können wir für konvexe Optimierungsprobleme mit einer differenzierbaren, gleichmäßig konvexen Zielfunktion die Existenz und Eindeutigkeit einer Lösung unter schwachen Voraussetzungen an garantieren.
Zum Beweis von (i) machen wir für folgende Abschätzung, wobei wir hintereinander die Definition der gleichmäßigen Konvexität von mit Konvexitätskonstante , die Ungleichung und Satz 2.28 (i) verwenden:
Daraus schließen wir nach Division durch und Anwendung der Ungleichung aus (2.1)
Also ist (i) richtig. Aussage (ii) folgt aus (i) mit den Sätzen 2.37 und 2.40.
Es seien und eine symmetrische Matrix. Das quadratische Optimierungsproblem
ist ein konvexes Optimierungsproblem, wenn positiv semidefinit ist (Lemma 2.33). Man beachte, dass eine Konstante in der Zielfunktion fortgelassen werden kann, da sich durch sie nur der Minimalwert, aber nicht die Lösungsmenge des Problems ändert. Ist sogar positiv definit und der zulässige Bereich von nichtleer, so besitzt genau eine Lösung (Lemma 2.33 und Satz 2.41).