Benutzer:Stepri2005/Kurs:Optimierung II/Ein Modellalgorithmus
2.1 Schrittweitenbestimmung und Trust-Region
BearbeitenWir wollen uns nun Verfahren zur Lösung der unrestringierten Optimierungsaufgabe
zuwenden. Im Allgemeinen fordern wir dabei, dass mindestens einmal stetig differenzierbar ist, und nehmen wir an bzw. werden wir durch geeignete Voraussetzungen garantieren, dass einen globalen Minimalpunkt besitzt.
Ein ideales Verfahren zur Lösung des Problems , d. h. ein Verfahren mit Abbruchschranke , soll zwei Kriterien genügen. Es soll erstens in jeder Iteration einen Abstieg oder zumindest keinen Aufstieg hinsichtlich des Funktionswertes erzeugen, d. h., es soll oder zumindest für die Iterierten gelten. Man spricht daher auch von einem Abstiegsverfahren. Und zweitens soll jeder Häufungspunkt der vom Verfahren erzeugten unendliche Iteriertenfolge ein stationärer Punkt von sein, sofern das Verfahren nicht bereits nach endlich vielen Iterationen mit einem stationären Punkt von abbricht. (Den Grenzwert einer konvergenten Teilfolge einer Folge bezeichnet man als einen Häufungspunkt.)
Wenn der Startpunkt für ein solches Verfahren nicht gerade ein lokaler Maximalpunkt von ist, so dass das Verfahren mit diesem stationären Punkt terminiert (man sollte es dann mit einem anderen nochmals beginnen), dann ist der gefundene stationäre Punkt entweder ein lokaler Minimalpunkt oder ein Sattelpunkt von . Dass ein Sattelpunkt ist, ist z. B. ausgeschlossen, wenn eine konvexe Funktion ist oder es kann möglicherweise durch die Überprüfung von Optimalitätsbedingungen zweiter Ordnung ausgeschlossen werden. Zumindest für größere Probleme ist aber eine Überprüfung solcher Bedingungen zweiter Ordnung oft numerisch zu teuer, so dass man sich zumeist damit zufrieden gibt zu wissen, dass entweder ein lokaler Minimalpunkt oder ein Sattelpunkt von ist.
Leider ist es bis heute nur für relativ „einfache“ nichtlineare Funktionen möglich, globale Minimalpunkte, an denen man ja eigentlich interessiert ist, zu bestimmen. Es lässt sich daher nicht ausschließen, dass man bei der beschriebenen Vorgehensweise in einem lokalen Minimalpunkt hängenbleibt, der einen im Vergleich mit dem Minimalwert des Problems relativ großen Funktionswert besitzt. Aus diesem Grund ist es häufig sinnvoll, ein Verfahren für ein gegebenes Problem von verschiedenen, eventuell mit einem Zufallsgenerator erzeugten Startpunkten aus zu starten, um auf diesem Wege möglicherweise unterschiedliche stationäre Punkte der Zielfunktion zu erhalten.
Wir gehen nun davon aus, dass kein kritischer Punkt von ist, also gilt. Erstes Ziel, wie beschrieben, ist es dann, einen neuen Punkt zu bestimmen, für den der Funktionswert von kleiner oder zumindest nicht größer als der Funktionswert bei ist. In diesem Zusammenhang definieren wir:
Definition 2.1
Bearbeiten- Ein Vektor heißt Abstiegsrichtung für in , falls ein existiert, so dass gilt:
- (2.1)
Schreiben wir , so geht es also darum, für einen nichtkritischen Punkt eine Abstiegsrichtung und eine geeignete Schrittweite zu bestimmen bzw., wenn wir setzen, eine Abstiegsrichtung mit geeigneter Länge zu finden. (Mit ist offenbar auch Abstiegsrichtung.) Die Schrittweite bzw. die Länge von darf dabei nicht zu groß sein, da anderenfalls auch für eine Abstiegsrichtung die Funktionswerte normalerweise wieder ansteigen.
In diesem Zusammenhang gibt es nun zwei grundsätzlich verschiedene Vorgehensweisen. Bei den meisten bekannten Verfahren wird zunächst eine Abstiegsrichtung und anschließend eine geeignete Schrittweite bestimmt. Bei den Trust-Region-Verfahren dagegen kombiniert man die Richtungssuche und die Schrittweitenbestimmung, indem man z. B. durch eine quadratische Näherung ersetzt und für eine passend gewählte Konstante das folgende Teilproblem mit einer Nebenbedingung bezüglich löst:
- (2.2)
Die Konstante in diesem Problem definiert ein „trust region“, einen Vertrauensbereich, in dem die gesuchte Richtung liegen darf. Ob eine Lösung dieses Problems akzeptabel ist, muss anschließend entschieden werden. (Nach dem Satz von Weierstraß besitzt das Problem (2.2) für stetiges eine Lösung.) Falls eine Lösung nicht brauchbar ist, muss verkleinert und muss das Problem (2.2) erneut gelöst werden. Die Funktion selbst kann man in einem solchen Teilproblem übrigens nicht als Zielfunktion verwenden, da dieses Problem dann von demselben Schwierigkeitsgrad oder wegen der zusätzlichen Restriktion sogar von einem höheren Schwierigkeitsgrad wie das eigentlich zu lösende Problem wäre.
Die meisten Verfahren, die wir vorstellen werden, sind vom ersten Typ und erfordern eine Schrittweitenbestimmung. Jedoch werden wir in Kapitel 8 auch Trust-Region-Verfahren diskutieren. Die Kritiker von Trust-Region-Verfahren bemängeln vor allem, dass die Richtung, in welche eine Lösung des Teilproblems zeigt, zumeist stark von der Wahl von abhängt und dass man die Richtung für einen Abstiegsschritt nicht von einer für den Schritt vorgegebenen Länge abhängig machen sollte.
Letzteres ist so, als ob man sich im Gebirge, wenn man dort einen Weg ins Tal sucht, als erstes eine Länge für den nächsten Schritt vorgibt und man erst anschließend eine geeignete Richtung wählt. Auf der anderen Seite kennt man bei den Verfahren, welche eine Schrittweitenbestimmung erfordern, zwar die Richtung, in die man einen Abstieg erzielen möchte (die Verfahren unterscheiden sich vor allem durch die Wahl der Richtungen), die Schrittweitenbestimmung kann aber sehr viele Funktionsauswertungen erfordern und es besteht die Gefahr, dass Schrittweiten gewählt werden, die für den weiteren Verlauf des Verfahrens z. B. zu klein und damit ungünstig sind. In der Praxis haben sich aber beide Typen von Verfahren bewährt, zum Teil in unterschiedlichen Zusammenhängen.
2.2 Ein Modellalgorithmus
BearbeitenWir wollen nun zunächst nur Algorithmen mit einer Schrittweitenstrategie betrachten und in diesem Abschnitt ein Grundmodell für derartige Algorithmen diskutieren. Zunächst stellen wir eine einfache Bedingung bereit, mit deren Hilfe wir leicht Abstiegsrichtungen in einem vorgegebenen Punkt angeben können.
Lemma 2.2
Bearbeiten- Es sei . Gilt für
- so ist Abstiegsrichtung für in .
Beweis.
BearbeitenDie Definition der Richtungsableitung von bei in Richtung liefert
- (2.3)
Folglich gilt für ein
und ist somit (2.1) richtig.
q.e.d.
Beispiel 2.3
BearbeitenEs sei und es sei eine symmetrische, positiv definite Matrix. Für ein mit ist dann der Vektor mit
Abstiegsrichtung für in , da gilt:
Insbesondere erhält man für die Abstiegsrichtung
- (2.4)
Die auf 1 normierte Abstiegsrichtung in (2.4) ist, wie in Optimierung I gezeigt worden war, die eindeutige Lösung des Optimierungsproblems
- (2.5)
Sie wird als Richtung des steilsten Abstiegs bezeichnet. Man kann sie lokal als „beste“ Abstiegsrichtung ansehen. Global gesehen muss sie es dies jedoch nicht sein.
Bemerkung 2.4
BearbeitenDie Definition der Richtung des steilsten Abstiegs kann mittels einer symmetrischen positiv definiten Matrix verallgemeinert werden, wobei man mittels das Skalarprodukt
und darüber die Norm
eine sog. elliptische Norm, auf dem definiert. Ist nun und ein Punkt mit , so lässt sich zeigen, dass
die eindeutige Lösung der Optimierungsaufgabe
- (2.6)
ist. Der Vektor ist demnach die Richtung des steilsten Abstiegs in bezüglich und für den optimalen Zielfunktionswert von (2.6) gilt .
Wir wollen nun den folgenden Algorithmus betrachten, der ein Modell für Algorithmen mit Schrittweitenbestimmung zur Lösung von darstellt.
Modellalgorithmus 2.5
Bearbeiten- (0) (Initialisierung)
Wähle . Setze . - (1) (Abbruchkriterium)
Falls ist, stop! - (2) (Bestimmung einer Abstiegsrichtung)
Bestimme ein mit . - (3) (Bestimmung einer Schrittweite)
Bestimme ein mit . - (4) (Bestimmung der nächsten Iterierten)
Setze und gehe nach (1).
Im Hinblick auf Konvergenzuntersuchungen wird im Modellalgorithmus das ideale Abbruchkriterium „ “ verwendet. Für die Praxis ist dieses durch ein realistisches Abbruchkriterium zu ersetzen. In diesem Zusammenhang wird zumeist das Kriterium
für ein vorgegebenes genutzt. Man bedenke jedoch, dass es Funktionen wie die Funktion gibt, für welche auch für Punkte gilt, die noch weit von einer kritischen Lösung des Problems entfernt sind.
Deshalb kann es beispielsweise sinnvoll sein, für den Abbruch eines Verfahrens (zusätzlich) zu fordern, dass die Bedingung
über einige Iterationen hinweg für ein genügend kleines erfüllt ist, da dann keine signifikante Verminderung des Funktionswertes von mehr zu erwarten ist. Mit einer Iteration ist hier - und analog bei anderen Verfahren - ein Durchlauf der Schritte (1) bis (4) des Modellalgorithmus 2.5 gemeint. Letzteres Kriterium zielt darauf ab, dass die Größe des beim Abbruch eines Verfahrens erreichten Funktionswertes in der Praxis häufig viel interessanter ist als die Größe der Abweichung . Ist man an der Genauigkeit von selbst interessiert, so kann man (zusätzlich) auch das Kriterium
für ein heranziehen.
Die zentralen Schritte (2) und (3) des Algorithmus sind prinzipiell ausführbar (was nicht heißt, dass ein entsprechend spezifizierter Algorithmus auch konvergieren muss). Denn in Schritt (2) kann man offenbar z. B. die Richtung steilsten Abstiegs als Abstiegsrichtung wählen. (Es ist dort ja .) Bei dieser Richtungswahl spricht man von dem Gradientenverfahren, das wir in Abschnitt 4 genauer untersuchen wollen. Ferner existiert gemäß der Definition 2.1 einer Abstiegsrichtung und gemäß Lemma 2.2 immer eine Schrittweite , wie sie in Schritt (3) des Modellalgorithmus zu bestimmen ist.
Da der Wert in der -ten Iteration eines Verfahrens vom Typ des Modellalgorithmus möglichst klein werden sollte, liegt es zumindest aus theoretischer Sicht zunächst nahe, als Schrittweite ein zu wählen, für welches
- (2.7)
gilt, d. h., für welches die eindimensionale Funktion auf ein globales Minimum annimmt. Dass eine solche Minimumschrittweite existiert, werden wir unter relativ schwachen Voraussetzungen in Abschnitt 3.1 zeigen. Aus numerischer Sicht ist aber die Bestimmung des globalen Minimums einer nichtkonvexen Funktion eine Aufgabe, die im Allgemeinen nicht oder bestenfalls nur näherungsweise gelöst werden kann. Es wird deshalb erforderlich sein, auch noch andere Regeln zur Bestimmung von Schrittweiten zu diskutieren.
Der Modellalgorithmus bricht also entweder nach endlich vielen Schritten mit einer kritischen Lösung von ab oder er erzeugt eine unendliche Folge mit
- (2.8)
Für jedes spezielle Verfahren vom Typ des Modellalgorithmus ist demnach zu zeigen, dass eine solche durch das Verfahren erzeugte Iteriertenfolge für jeden geeigneten Startpunkt mindestens einen Häufungspunkt besitzt und dass zumindest ein Häufungspunkt oder besser noch, dass jeder Häufungspunkt dieser Folge eine kritische Lösung von ist. Bevor wir auf spezielle Verfahren, d. h. spezielle Richtungs- und Schrittweitenstrategien eingehen werden, wollen wir eine Reihe von allgemeinen Aussagen zur Konvergenz des Modellalgorithmus selbst herleiten. Diese Aussagen werden zum einen Richtungs- und Schrittweitenwahlen motivieren und zum anderen für den Nachweis der Konvergenz im Spezialfall nützlich sein.
2.3 Standardvoraussetzungen
BearbeitenZunächst einmal stellen wir Standardvoraussetzungen bereit, auf die wir uns durchgängig beziehen werden:
- (V1)
- (V2) Für ein ist die Niveaumenge
- (2.9)
- kompakt, wobei im Zusammenhang mit einem Verfahren der Startpunkt des Verfahrens ist.
- (V3) Der Gradient ist auf Lipschitz-stetig, d. h., es existiert eine Konstante derart, dass gilt:
- (2.10)
Gelegentlich, insbesondere für globale Konvergenzaussagen, werden wir zusätzlich noch folgende Bedingung voraussetzen (vgl. dazu Satz 1.3):
- (V4) Die Niveaumenge ist konvex und ist gleichmäßig konvex auf , d. h., es existiert eine Konstante mit
Diese Voraussetzungen haben einige Implikationen, welche in der nachstehenden Bemerkung erläutert sind.
Bemerkung 2.6
Bearbeiten(i) Die Voraussetzung (V2) sichert nach Satz 1.8, dass das Problem eine Lösung besitzt. Zum anderen garantiert sie nach dem aus der Analysis II bekannten Satz von Bolzano-Weierstraß, dass jede Folge mit bzw. mit einen Häufungspunkt in hat. Wegen (2.8) erzeugen Abstiegsverfahren solche Folgen.
(ii) Die Voraussetzung (V3) ist erfüllt, wenn (V2) erfüllt und für eine kompakte, konvexe Menge ist. (Letzteres ist wegen (V2) offenbar gegeben, wenn ist.) Denn dann existiert
- (2.11)
und ist für alle und . Für
folgt dann für alle mit einem nach dem Mittelwertsatz bzw.
Letzteres impliziert die Ungleichung (2.10) mit aus (2.11).
(iii) Die Voraussetzungen (V1) und (V4) zusammen implizieren, dass die gemäß (V4) konvexe Niveaumenge für jedes kompakt ist und damit (V2) gilt (Satz 1.9). Ferner garantieren sie, dass das Problem genau einen kritischen Punkt besitzt, welcher die eindeutige Lösung von ist (Korollar 1.18).
Als Beispiel betrachten wir quadratische Funktionen.
Beispiel 2.7
BearbeitenEs sei symmetrisch und positiv semidefinit und die somit konvexe quadratische Funktion
Unter Verwendung der oberen Schranke aus (1.10) und der Symmetrie von erhält man dann, wenn die Eigenwerte einer Matrix bezeichnet:
Neben (V1) genügt also auch der Voraussetzung (V3) mit
- (2.12)
wobei dieses offenbar die kleinst mögliche Konstante für ist, für welche (V3) gilt. Ist positiv definit, so ist zusätzlich (V4) erfüllt (Lemma 1.13) und damit auch (V2) (Bemerkung 2.6 (iii)). Es kann dann insbesondere
- (2.13)
gewählt werden. Für positiv definites gilt somit gemäß (1.9) hinsichtlich der Spektralnorm
- (2.14)
Dabei ist die gleichmäßige Konvexitätskonstante von und die Lipschitz-Konstante von .
2.4 Hilfsmittel
BearbeitenIn diesem Abschnitt stellen wir einige Hilfsmittel bereit, die wir zur Untersuchung des Modellalgorithmus benötigen werden.
In jeder Iteration des Modellalgorithmus 2.5 sind, ausgehend von einem Punkt mit , eine Abstiegsrichtung , eine Schrittweite und damit ein neuer Punkt zu bestimmen, so dass ein Abstieg bezüglich des Funktionswertes von erzielt wird. (Der Einfachheit halber lassen wir hier den Iterationsindex weg.) Das folgende Lemma gibt für solche Vektoren und ein Intervall von Schrittweiten an, in dem die Funktion
- (2.15)
positive Werte annimmt und demnach eine Reduktion des Zielfunktionswertes von Problem möglich ist.
Lemma 2.8
Bearbeiten- Es seien (V1) und (V2) erfüllt und
- gegeben. Dann besitzt die in (2.15) definierte Funktion eine kleinste positive Nullstelle und es gilt mit einem
Beweis.
BearbeitenEs ist und es folgt
- (2.16)
Somit existiert ein , so dass für alle gilt. Da beschränkt und ist, hat man ferner für alle genügend großen und hat man somit für diese
Also existiert ein , so dass sowie für alle gilt.
Damit ist die Menge
der Nullstellen von nichtleer. Sie ist ferner kompakt, so dass nach dem Satz von Weierstraß ein , d. h. eine kleinste positive Nullstelle existiert. Mit den anfangs genannten Eigenschaften von schließt man daher, dass für sowie für gilt und damit ist. Weil in liegt, impliziert Letzteres
und somit für alle .
q.e.d.
Unter den Voraussetzungen (V1) - (V4) können wir einige sehr nützliche Abschätzungen für gleichmäßig konvexe Funktionen beweisen. Es sei daran erinnert, dass das Problem unter diesen Voraussetzungen eine eindeutige Lösung besitzt (Bemerkung 2.6 (iii)). Wegen liegt diese in .
Lemma 2.9
Bearbeiten- Es seien (V1) - (V4) erfüllt und es sei die Lösung von . Dann gilt mit und aus (V4) bzw. (V3) für alle :
- (i)
- (ii)
- (iii)
- (iv)
- (v)
- (vi)
Beweis.
BearbeitenSeien und wie vorgegeben. Man beachte, dass gemäß (V4) eine konvexe Menge ist und somit für alle gilt.
(i) Die linke Ungleichung von (i) wird durch (V4) impliziert (vgl. Satz 1.3 (iii)). Sei nun durch definiert. Dann ist
und
- (2.17)
Unter Verwendung der Cauchy-Schwarz-Ungleichung und von (V3) gilt dabei
- (2.18)
Damit ergibt sich die rechte Ungleichung von (i) aus (2.17).
(ii) Die linke Ungleichung in (i) liefert
und mit vertauschten Rollen von und
Addition von beiden Ungleichungen ergibt die gewünschte Beziehung.
(iii), (iv) Für und folgt wegen aus der linken Ungleichung von (i) die Abschätzung in (iii) und aus der Ungleichung in (ii) die Abschätzung in (iv) mit
(v) Die Funktion
ist nach Lemma 1.13 gleichmäßig konvex und nimmt folglich ihr Minimum in genau einem Punkt an, für den gilt:
Wegen der Kompaktheit von und unter Verwendung von (i) folgt damit
(vi) Es sei . Wir zeigen zunächst, dass ist. Da dies für trivial ist, können wir dabei annehmen.
Nach Lemma 2.8 angewandt auf besitzt die Funktion
eine erste positive Nullstelle und ist für alle . Ferner folgt mit der rechten Ungleichung von (i)
und daraus . Demnach ist . Unter Ausnutzung der Optimalität von und der von Aussage (i) erhalten wir schließlich
q.e.d.
Bemerkung 2.10
BearbeitenFür können wir gemäß Beispiel 2.7
wählen. Wie man leicht nachprüft, gelten für dieses alle Ungleichungen in Lemma 2.9 mit Gleichheit. Sie können also nicht mehr verschärft werden.
Man beachte, dass die gleichmäßige Konvexität von unter den Voraussetzungen von Lemma 2.9 also insbesondere eine obere Abschätzung des Fehlers durch liefert, was für den Nachweis der Konvergenz von Verfahren genutzt werden wird. Eine obere Abschätzung umgekehrt von durch hat man ja für jede Lipschitz-stetige Funktion, also für jede Funktion .
2.5 Bedingungen an die Schrittweiten
BearbeitenAls die ersten Verfahren zur Lösung unrestringierter Optimierungsprobleme entwickelt wurden, wurde immer wieder Konvergenz von Verfahren bewiesen, die sich „nur“ durch die Schrittweitenregel unterschieden. Es war daher irgendwann sinnvoll zu fragen, welche Eigenschaften eine Schrittweitenregel besitzen sollte, damit Konvergenz für ein Verfahren nachgewiesen werden kann. Die Herleitung zweier Bedingungen in diesem Zusammenhang, welche zu den Definitionen einer effizienten und einer semieffizienten Schrittweitenregel führen werden, sind Thema dieses Abschnitts.
Lemma 2.8 gibt für ein und eine Abstiegsrichtung ein offenes Intervall an, in dem die Funktion
- (2.19)
positiv ist, also der Zielfunktionswert von Problem verkleinert werden kann. Es ist jedoch zu vermuten, dass die Iteriertenfolge eines Abstiegverfahrens bei einer, je nach Entfernung von dem angestrebten kritischen Punkt, zu geringen Verminderung des Zielfunktionswertes von pro Iteration nicht konvergieren könnte (s. [Alt02, S. 76] für ein Beispiel). Wegen sollte daher die Schrittweite nicht zu nahe bei 0 oder liegen bzw. sollte genügend groß sein. Das nächste Lemma dient dazu, eine geeignete Forderung an die Schrittweiten zu formulieren.
Lemma 2.11
Bearbeiten- Es seien (V1) - (V3) erfüllt und
- gegeben. Weiter sei die nach Lemma 2.8 existierende erste positive Nullstelle von in (2.19). Dann gilt:
- (i)
- (ii)
Beweis.
BearbeitenNach Lemma 2.8 hat man für alle . Weiter ist und somit
Für alle folgt daher unter Anwendung von (V3) mit einer ähnlichen Abschätzung für das Integral wie in (2.18)
- (2.20)
Damit ist (ii) bewiesen. Setzt man in (2.20) ein, so erhält man wegen die Abschätzung in (i).
q.e.d.
In Lemma 2.11 werden ein und die Parabel
definiert. Wie man nachrechnet, gilt insbesondere und nimmt die Funktion ihr Maximum bei
- (2.21)
an. Das Maximum von hat den Wert
- (2.22)
Nach Lemma 2.11 gilt ferner für alle . Wünschenswert ist es nun, dass , d. h. die Verminderung des Zielfunktionswertes von beim Übergang von zu die Größenordnung von besitzt und idealerweise größer oder gleich dem maximalen Wert von aus (2.22) ist. Letzteres ist insbesondere für eine Minimumschrittweite (2.7) der Fall, wie mit Satz 3.3 gezeigt werden wird. Aus diesem Grund definiert man:
Definition 2.12
Bearbeiten- Eine Schrittweitenregel heißt effizient (mit Konstante ), wenn sie jedem Paar
- ein wohldefiniertes (nicht notwendig eindeutig bestimmtes) zuordnet und wenn ein von und unabhängiges existiert, so dass gilt:
- (2.23)
- Gilt entsprechend nur
- (2.24)
- so heißt die Schrittweitenregel semieffizient. Bei Verwendung einer effizienten bzw. semieffizienten Schrittweitenregel bezeichnen wir auch kurz die Schrittweiten selbst als effizient bzw. semieffizient.
Spellucci [Spe93] führt für eine Schrittweitenregel das Prinzip des hinreichenden Abstiegs ein, welches die Bedingung (2.23) der Effizienz unmittelbar impliziert. (Eine Motivation dafür wird in [Alt02] gegeben.) Der Begriff einer effizienten Schrittweitenregel geht auf die in diesem Zusammenhang grundlegende Arbeit [WaWe77] von Warth und Werner zurück. Er wurde von Kosmol [Kos89] aufgegriffen, der zusätzlich den Begriff der semieffizienten Schrittweitenregel definierte. Da jede effiziente Schrittweitenregel offenbar auch semieffizient ist und man sich diese Implikation anhand der gewählten Benennungen gut merken kann, haben wir diese Bezeichnungen übernommen. (Alle unten in Kapitel 3 eingeführten Schrittweitenregeln sind somit zumindest semieffizient.)
Für manche Verfahren kann man Konvergenz beweisen, wenn sie mit einer effizienten Schrittweitenregel verbunden werden, während dies für eine semieffiziente Regel nicht gelingt oder bisher nicht gelungen ist. Die Bezeichnungen in Definition 2.12 sind aber insofern etwas irreführend, als sie nichts über die numerische Effizienz eines Verfahrens bei Verwendung einer entsprechenden Regel aussagen und eine „semieffiziente“ Schrittweitenregel im Hinblick auf die Konvergenzgeschwindigkeit oder den numerischen Aufwand eines Verfahrens nicht notwendig weniger effizient als eine „effiziente“ ist.
2.6 Konvergenzaussagen
BearbeitenWir kehren nun zu dem Modellalgorithmus 2.5 zurück. Wie wir dort festgestellt haben, ist dieser generell durchführbar. In diesem Abschnitt wollen wir Konvergenzaussagen für dieses allgemeine Modell eines Abstiegsverfahrens beweisen, wobei wir das Modell nur insoweit spezifizieren, als dass wir voraussetzen, dass in Schritt (3) eine effiziente Schrittweitenregel verwendet wird. Anschließend werden wir für eine wichtige Klasse von Abstiegsrichtungen auch Konvergenz des Verfahrens für semieffiziente Schrittweiten zeigen.
Wir beginnen damit, dass wir in dem folgenden Lemma unter den relativ schwachen Voraussetzungen (V1) und (V2) einige, zum Teil offenkundige Aussagen für den Modellalgorithmus zusammenfassen. Es sei daran erinnert, dass die Niveaumenge in (V2) durch den Startpunkt des Verfahrens definiert wird und dass die Voraussetzungen (V1) und (V2) die Existenz einer globalen Lösung des unrestringierten Optimierungsproblems garantieren (Bemerkung 2.6). Folglich dürfen wir „ “ schreiben.
Lemma 2.13
Bearbeiten- Es seien (V1) und (V2) erfüllt und der Modellalgorithmus 2.5 sei mit einer beliebigen Schrittweitenregel versehen. Dann gilt für alle : (Wir schreiben „für alle “, wenn nicht klar ist, ob die Iterierten nur für endlich viele definiert sind, da der Algorithmus nach endlich vielen Schritten mit einer kritischen Lösung abbricht. Erzeugt er eine unendliche Folge , so machen wir dies durch einen Zusatz wie „ “ deutlich.)
- (i)
- (ii)
- Bricht der Algorithmus nicht nach endlich vielen Schritten mit einer kritischen Lösung von Problem ab, so erzeugt er eine unendliche Folge mit folgenden Eigenschaften:
- (iii) besitzt einen Häufungspunkt.
- (iv)
- (v) Gilt zusätzlich , so folgt:
- Jeder Häufungspunkt von ist kritische Lösung von .
- Hat genau eine kritische Lösung , so ist .
Beweis.
BearbeitenAussage (i) ist nach Konstruktion des Algorithmus trivialerweise erfüllt und impliziert Aussage (ii). Ist eine unendliche Folge, so folgt aus (ii) wegen (V2) die Aussage (iii) (vgl. Bemerkung 2.6). Schließlich garantiert Aussage (i) wegen
dass die Folge der Funktionswerte monoton fallend und nach unten beschränkt ist. Dies hat die in (iv) angegebene Konvergenz zur Folge.
Es gelte nun . Ist ein Häufungspunkt von , so existiert eine Teilfolge von mit und folgt wegen der vorausgesetzten Stetigkeit von
Also ist die Aussage richtig.
Jetzt sei angenommen, dass genau eine kritische Lösung besitzt. Würde nicht gegen konvergieren, dann existierte ein , so dass für unendlich viele , d. h. für eine Teilfolge von gelten würde:
- (2.25)
Weil gemäß Aussage (ii) in liegt und gemäß (V2) kompakt ist, könnte dann jedoch aus eine konvergente Teilfolge ausgewählt werden, die nach Aussage notwendig gegen den einzigen kritischen Punkt von konvergieren würde. Letzteres steht aber im Widerspruch zu (2.25), wie man sieht, wenn man dort mit setzt. Damit ist alles bewiesen.
q.e.d.
Wenn man von Konvergenz eines Verfahrens zur Lösung des unrestringierten Optimierungsproblems spricht, meint man damit im Allgemeinen, dass jeder Häufungspunkt der durch das Verfahren erzeugten Iteriertenfolge eine kritische Lösung von ist (siehe Aussage von Lemma 2.13). Im Fall, dass eine eindeutige Lösung besitzt, folgt dann unter den Voraussetzungen des Lemmas auch die Konvergenz der ganzen Folge (Aussage von Lemma 2.13).
Wir sind nun in der Lage, den zentralen Konvergenzsatz für den Modellalgorithmus zu beweisen. Mit Hilfe dieses Satzes werden wir später auch die Konvergenz von speziellen Verfahren verifizieren.
Satz 2.14
Bearbeiten- Es seien (V1) und (V2) erfüllt. Der Modellalgorithmus 2.5 sei mit einer effizienten Schrittweitenregel versehen und breche nicht nach endlich vielen Iterationen mit einer kritischen Lösung von Problem ab. Weiter gelte für die somit erzeugten unendlichen Folgen und die Zoutendijk-Bedingung
- für
- Dann folgt:
- (i) Die Folge hat mindestens einen Häufungspunkt, der kritische Lösung von ist.
- (ii) Sind zusätzlich (V3) und (V4) erfüllt und ist die dann eindeutig existierende Lösung von , so gilt . Die Voraussetzung (V3) wird wegen Bezugs auf Lemma 2.9 im Beweis vorausgesetzt. Für den Nachweis der verwendeten Ungleichungen aus Lemma 2.9 wird sie aber eigentlich nicht benötigt.
Beweis.
BearbeitenWir nehmen an, dass der Algorithmus nicht nach endlich vielen Schritten abbricht. Da die Schrittweitenregel im Algorithmus effizient ist, gilt dann mit einem für alle
- (2.27)
(i) Durch Summation von (2.27) für erhalten wir
Folglich bekommen wir unter Verwendung von Lemma 2.13 (iv) durch Grenzübergang für
- (2.28)
Wäre nun kein Häufungspunkt von kritischer Punkt von , so existierte ein mit
- (2.29)
(Denn sonst gäbe es eine Teilfolge von mit , da Lemma 2.13 aber genauso für die Folge gültig ist, folgte daraus die Existenz eines Häufungspunktes von und damit eines Häufungspunktes von , der kritische Lösung von wäre.) Mit (2.29) würde aber aus (2.28) die Abschätzung
folgen, welche der vorausgesetzten Zoutendijk-Bedingung widerspricht.
(ii) Aus (2.27) können wir mit Aussage (v) aus Lemma 2.9 die folgende Abschätzung gewinnen:
Auflösen dieser Abschätzung nach , Mehrfachanwendung des erhaltenen Ergebnisses sowie Verwendung der Beziehung liefern
Da gemäß der vorausgesetzten Zoutendijk-Bedingung gilt, können wir damit
schließen. Die Konvergenz ist nun eine Konsequenz von Lemma 2.9 (iii).
q.e.d.
Bemerkung 2.15
BearbeitenIm Fall, dass (V1) - (V4) erfüllt sind, wird die Konvergenz des Modellalgorithmus 2.5 vollständig durch die Zoutendijk-Bedingung beschrieben. Denn dann gilt auch die Umkehrung der Aussage (ii) von Satz 2.14, dass die Konvergenz von die Zoutendijk-Bedingung impliziert (vgl. [WaWe77]).
Gemäß der Definition des Standardskalarproduktes auf dem gilt
Die Zoutendijk-Bedingung bedeutet demnach, dass die Konstante
für nicht zu schnell gegen 0 bzw. der Winkel zwischen und nicht zu schnell gegen 90° streben darf.
Die Zoutendijk-Bedingung ist offenbar für das Gradientenverfahren mit erfüllt und allgemeiner für jedes Verfahren erfüllt, für das mit einem gilt:
- (2.30)
Verfahren mit der Eigenschaft (2.30) bezeichnet man als gradientenähnliche Verfahren. Demnach ist Satz 2.14 insbesondere für gradientenähnliche Verfahren relevant. Zu diesen Verfahren gehören die wichtigen Verfahren, bei denen die Richtung
- (2.31)
mit einer symmetrischen, positiv definiten Matrix gewählt wird (vgl. Beispiel 2.3) und bei denen für alle die Bedingung
- (2.32)
mit Konstanten erfüllt ist (Übung!).
Bemerkung 2.16
BearbeitenSind die für alle symmetrische Matrizen, welche der Bedingung (2.32) genügen, so folgt
- (2.33)
wobei der kleinste und der größte Eigenwert von ist (vgl. Lemma 1.10 und Bemerkung 2.20 aus Optimierung I). Demnach impliziert die Bedingung (2.32), dass die kleinsten Eigenwerte der gleichmäßig von Null weg beschränkt sind. Man sagt in diesem Fall auch, dass die gleichmäßig positiv definit sind.
Für die zuletzt genannten Verfahren mit (2.31) und (2.32) können wir nun - sogar in Verbindung mit einer semieffizienten Schrittweitenregel - zu einer stärkeren Konvergenzaussage als der in Satz 2.14 gelangen. Denn letztere ist sehr schwach, da sie nicht ausschließt, dass Häufungspunkte besitzt, die nicht kritische Punkte von sind, und dass das Verfahren einen solchen nichtkritischen Häufungspunkt findet.
Satz 2.17
Bearbeiten- Es seien (V1) - (V3) erfüllt, und der Modellalgorithmus 2.5 sei mit einer semieffizienten Schrittweitenregel mit Konstante versehen. Weiter gelte für alle
- (2.34)
- wobei die symmetrische Matrizen seien, welche mit Konstanten für alle der folgenden Bedingung genügen:
- (2.35)
- Bricht dann der Algorithmus nicht nach endlich vielen Schritten ab, so hat man:
- (i) Jeder Häufungspunkt von ist kritische Lösung von .
- (ii) Besitzt genau eine kritische Lösung , so gilt
- (iii) Ist zusätzlich (V4) erfüllt, so folgt und gelten mit Konstanten und die Abschätzungen
- (2.36)
- und
- (2.37)
- wobei gegeben ist durch
Beweis.
BearbeitenUnter Verwendung von Bemerkung 2.16 haben wir
- (2.38)
Damit erreichen wir unter Verwendung von (2.24)
- Fehler beim Parsen (Syntaxfehler): {\displaystyle \ge \vartheta \min \left( \nabla f(x^k)^T H_k \nabla f(x^k), \left\{ \frac{\nabla f(x^k)^T H_k \nabla f(x^k)}{\|H_k \nabla f(x^k)\|} \right\}^2 \right) \ge \vartheta \min \left( m \left\| \nabla f(x^k) \right\|^2, \left\{ \frac{m \left\| \nabla f(x^k) \right\|^2}[M \left\| \nabla f(x^k) \right\|} \right\}^2 \right)}
- (2.39)
Da Aussage (iv) von Lemma 2.13 den Grenzwert
impliziert, schließen wir aus (2.39) die Konvergenz . Aussagen (i) und (ii) folgen nun mit Lemma 2.13 (v). Der Beweis der Aussage (iii) wird als Aufgabe gestellt.
q.e.d.
Die zweite Abschätzung in (2.36) ist möglicherweise pessimistisch. Die Abschätzungen in (2.36) und (2.37) zeigen aber, dass der Modellalgorithmus unter den Voraussetzungen und Spezifikationen von Satz 2.17 (iv) bezüglich der Folge der Funktionswerte mindestens Q-linear und bezüglich der Iteriertenfolge mindestens R-linear konvergiert.