Benutzer:Stepri2005/Kurs:Optimierung II/Ein Modellalgorithmus

2.1 Schrittweitenbestimmung und Trust-Region Bearbeiten

Wir wollen uns nun Verfahren zur Lösung der unrestringierten Optimierungsaufgabe

 

zuwenden. Im Allgemeinen fordern wir dabei, dass   mindestens einmal stetig differenzierbar ist, und nehmen wir an bzw. werden wir durch geeignete Voraussetzungen garantieren, dass   einen globalen Minimalpunkt besitzt.

Ein ideales Verfahren zur Lösung des Problems  , d. h. ein Verfahren mit Abbruchschranke  , soll zwei Kriterien genügen. Es soll erstens in jeder Iteration einen Abstieg oder zumindest keinen Aufstieg hinsichtlich des Funktionswertes erzeugen, d. h., es soll   oder zumindest   für die Iterierten   gelten. Man spricht daher auch von einem Abstiegsverfahren. Und zweitens soll jeder Häufungspunkt der vom Verfahren erzeugten unendliche Iteriertenfolge   ein stationärer Punkt von   sein, sofern das Verfahren nicht bereits nach endlich vielen Iterationen mit einem stationären Punkt von   abbricht. (Den Grenzwert einer konvergenten Teilfolge einer Folge bezeichnet man als einen Häufungspunkt.)

Wenn der Startpunkt   für ein solches Verfahren nicht gerade ein lokaler Maximalpunkt von   ist, so dass das Verfahren mit diesem stationären Punkt terminiert (man sollte es dann mit einem anderen   nochmals beginnen), dann ist der gefundene stationäre Punkt   entweder ein lokaler Minimalpunkt oder ein Sattelpunkt von  . Dass   ein Sattelpunkt ist, ist z. B. ausgeschlossen, wenn   eine konvexe Funktion ist oder es kann möglicherweise durch die Überprüfung von Optimalitätsbedingungen zweiter Ordnung ausgeschlossen werden. Zumindest für größere Probleme ist aber eine Überprüfung solcher Bedingungen zweiter Ordnung oft numerisch zu teuer, so dass man sich zumeist damit zufrieden gibt zu wissen, dass   entweder ein lokaler Minimalpunkt oder ein Sattelpunkt von   ist.

Leider ist es bis heute nur für relativ „einfache“ nichtlineare Funktionen möglich, globale Minimalpunkte, an denen man ja eigentlich interessiert ist, zu bestimmen. Es lässt sich daher nicht ausschließen, dass man bei der beschriebenen Vorgehensweise in einem lokalen Minimalpunkt hängenbleibt, der einen im Vergleich mit dem Minimalwert des Problems relativ großen Funktionswert besitzt. Aus diesem Grund ist es häufig sinnvoll, ein Verfahren für ein gegebenes Problem von verschiedenen, eventuell mit einem Zufallsgenerator erzeugten Startpunkten aus zu starten, um auf diesem Wege möglicherweise unterschiedliche stationäre Punkte der Zielfunktion zu erhalten.

Wir gehen nun davon aus, dass   kein kritischer Punkt von   ist, also   gilt. Erstes Ziel, wie beschrieben, ist es dann, einen neuen Punkt   zu bestimmen, für den der Funktionswert von   kleiner oder zumindest nicht größer als der Funktionswert bei   ist. In diesem Zusammenhang definieren wir:

Definition 2.1 Bearbeiten

Ein Vektor   heißt Abstiegsrichtung für   in  , falls ein   existiert, so dass gilt:
(2.1)  

Schreiben wir  , so geht es also darum, für einen nichtkritischen Punkt   eine Abstiegsrichtung   und eine geeignete Schrittweite   zu bestimmen bzw., wenn wir   setzen, eine Abstiegsrichtung   mit geeigneter Länge   zu finden. (Mit   ist offenbar auch   Abstiegsrichtung.) Die Schrittweite   bzw. die Länge   von   darf dabei nicht zu groß sein, da anderenfalls auch für eine Abstiegsrichtung die Funktionswerte normalerweise wieder ansteigen.

In diesem Zusammenhang gibt es nun zwei grundsätzlich verschiedene Vorgehensweisen. Bei den meisten bekannten Verfahren wird zunächst eine Abstiegsrichtung und anschließend eine geeignete Schrittweite bestimmt. Bei den Trust-Region-Verfahren dagegen kombiniert man die Richtungssuche und die Schrittweitenbestimmung, indem man   z. B. durch eine quadratische Näherung   ersetzt und für eine passend gewählte Konstante   das folgende Teilproblem mit einer Nebenbedingung bezüglich   löst:

(2.2)  

Die Konstante   in diesem Problem definiert ein „trust region“, einen Vertrauensbereich, in dem die gesuchte Richtung liegen darf. Ob eine Lösung   dieses Problems akzeptabel ist, muss anschließend entschieden werden. (Nach dem Satz von Weierstraß besitzt das Problem (2.2) für stetiges   eine Lösung.) Falls eine Lösung nicht brauchbar ist, muss   verkleinert und muss das Problem (2.2) erneut gelöst werden. Die Funktion   selbst kann man in einem solchen Teilproblem übrigens nicht als Zielfunktion verwenden, da dieses Problem dann von demselben Schwierigkeitsgrad oder wegen der zusätzlichen Restriktion sogar von einem höheren Schwierigkeitsgrad wie das eigentlich zu lösende Problem   wäre.

Die meisten Verfahren, die wir vorstellen werden, sind vom ersten Typ und erfordern eine Schrittweitenbestimmung. Jedoch werden wir in Kapitel 8 auch Trust-Region-Verfahren diskutieren. Die Kritiker von Trust-Region-Verfahren bemängeln vor allem, dass die Richtung, in welche eine Lösung   des Teilproblems zeigt, zumeist stark von der Wahl von   abhängt und dass man die Richtung für einen Abstiegsschritt nicht von einer für den Schritt vorgegebenen Länge abhängig machen sollte.

Letzteres ist so, als ob man sich im Gebirge, wenn man dort einen Weg ins Tal sucht, als erstes eine Länge für den nächsten Schritt vorgibt und man erst anschließend eine geeignete Richtung wählt. Auf der anderen Seite kennt man bei den Verfahren, welche eine Schrittweitenbestimmung erfordern, zwar die Richtung, in die man einen Abstieg erzielen möchte (die Verfahren unterscheiden sich vor allem durch die Wahl der Richtungen), die Schrittweitenbestimmung kann aber sehr viele Funktionsauswertungen erfordern und es besteht die Gefahr, dass Schrittweiten gewählt werden, die für den weiteren Verlauf des Verfahrens z. B. zu klein und damit ungünstig sind. In der Praxis haben sich aber beide Typen von Verfahren bewährt, zum Teil in unterschiedlichen Zusammenhängen.

2.2 Ein Modellalgorithmus Bearbeiten

Wir wollen nun zunächst nur Algorithmen mit einer Schrittweitenstrategie betrachten und in diesem Abschnitt ein Grundmodell für derartige Algorithmen diskutieren. Zunächst stellen wir eine einfache Bedingung bereit, mit deren Hilfe wir leicht Abstiegsrichtungen in einem vorgegebenen Punkt angeben können.

Lemma 2.2 Bearbeiten

Es sei  . Gilt für  
 
so ist   Abstiegsrichtung für   in  .

Beweis. Bearbeiten

Die Definition der Richtungsableitung von   bei   in Richtung   liefert

(2.3)  

Folglich gilt für ein  

 

und ist somit (2.1) richtig.

q.e.d.

Beispiel 2.3 Bearbeiten

Es sei   und es sei   eine symmetrische, positiv definite Matrix. Für ein   mit   ist dann der Vektor   mit

 

Abstiegsrichtung für   in  , da gilt:

 

Insbesondere erhält man für   die Abstiegsrichtung

(2.4)  

Die auf 1 normierte Abstiegsrichtung in (2.4) ist, wie in Optimierung I gezeigt worden war, die eindeutige Lösung des Optimierungsproblems

(2.5)  

Sie wird als Richtung des steilsten Abstiegs bezeichnet. Man kann sie lokal als „beste“ Abstiegsrichtung ansehen. Global gesehen muss sie es dies jedoch nicht sein.

Bemerkung 2.4 Bearbeiten

Die Definition der Richtung des steilsten Abstiegs kann mittels einer symmetrischen positiv definiten Matrix   verallgemeinert werden, wobei man mittels   das Skalarprodukt

 

und darüber die Norm

 

eine sog. elliptische Norm, auf dem   definiert. Ist nun   und   ein Punkt mit  , so lässt sich zeigen, dass

 

die eindeutige Lösung der Optimierungsaufgabe

(2.6)  

ist. Der Vektor   ist demnach die Richtung des steilsten Abstiegs in   bezüglich   und für den optimalen Zielfunktionswert von (2.6) gilt  .

Wir wollen nun den folgenden Algorithmus betrachten, der ein Modell für Algorithmen mit Schrittweitenbestimmung zur Lösung von   darstellt.

Modellalgorithmus 2.5 Bearbeiten

(0) (Initialisierung)
Wähle  . Setze  .
(1) (Abbruchkriterium)
Falls   ist, stop!
(2) (Bestimmung einer Abstiegsrichtung)
Bestimme ein   mit  .
(3) (Bestimmung einer Schrittweite)
Bestimme ein   mit  .
(4) (Bestimmung der nächsten Iterierten)
Setze   und gehe nach (1).

Im Hinblick auf Konvergenzuntersuchungen wird im Modellalgorithmus das ideale Abbruchkriterium „ “ verwendet. Für die Praxis ist dieses durch ein realistisches Abbruchkriterium zu ersetzen. In diesem Zusammenhang wird zumeist das Kriterium

 

für ein vorgegebenes   genutzt. Man bedenke jedoch, dass es Funktionen wie die Funktion   gibt, für welche   auch für Punkte   gilt, die noch weit von einer kritischen Lösung   des Problems entfernt sind.

Deshalb kann es beispielsweise sinnvoll sein, für den Abbruch eines Verfahrens (zusätzlich) zu fordern, dass die Bedingung

 

über einige Iterationen hinweg für ein genügend kleines   erfüllt ist, da dann keine signifikante Verminderung des Funktionswertes von   mehr zu erwarten ist. Mit einer Iteration ist hier - und analog bei anderen Verfahren - ein Durchlauf der Schritte (1) bis (4) des Modellalgorithmus 2.5 gemeint. Letzteres Kriterium zielt darauf ab, dass die Größe des beim Abbruch eines Verfahrens erreichten Funktionswertes   in der Praxis häufig viel interessanter ist als die Größe der Abweichung  . Ist man an der Genauigkeit von   selbst interessiert, so kann man (zusätzlich) auch das Kriterium

 

für ein   heranziehen.

Die zentralen Schritte (2) und (3) des Algorithmus sind prinzipiell ausführbar (was nicht heißt, dass ein entsprechend spezifizierter Algorithmus auch konvergieren muss). Denn in Schritt (2) kann man offenbar z. B. die Richtung steilsten Abstiegs   als Abstiegsrichtung wählen. (Es ist dort ja  .) Bei dieser Richtungswahl spricht man von dem Gradientenverfahren, das wir in Abschnitt 4 genauer untersuchen wollen. Ferner existiert gemäß der Definition 2.1 einer Abstiegsrichtung und gemäß Lemma 2.2 immer eine Schrittweite  , wie sie in Schritt (3) des Modellalgorithmus zu bestimmen ist.

Da der Wert   in der  -ten Iteration eines Verfahrens vom Typ des Modellalgorithmus möglichst klein werden sollte, liegt es zumindest aus theoretischer Sicht zunächst nahe, als Schrittweite ein   zu wählen, für welches

(2.7)  

gilt, d. h., für welches die eindimensionale Funktion   auf   ein globales Minimum annimmt. Dass eine solche Minimumschrittweite existiert, werden wir unter relativ schwachen Voraussetzungen in Abschnitt 3.1 zeigen. Aus numerischer Sicht ist aber die Bestimmung des globalen Minimums einer nichtkonvexen Funktion eine Aufgabe, die im Allgemeinen nicht oder bestenfalls nur näherungsweise gelöst werden kann. Es wird deshalb erforderlich sein, auch noch andere Regeln zur Bestimmung von Schrittweiten zu diskutieren.

Der Modellalgorithmus bricht also entweder nach endlich vielen Schritten mit einer kritischen Lösung von   ab oder er erzeugt eine unendliche Folge   mit

(2.8)  

Für jedes spezielle Verfahren vom Typ des Modellalgorithmus ist demnach zu zeigen, dass eine solche durch das Verfahren erzeugte Iteriertenfolge für jeden geeigneten Startpunkt   mindestens einen Häufungspunkt besitzt und dass zumindest ein Häufungspunkt oder besser noch, dass jeder Häufungspunkt dieser Folge eine kritische Lösung von   ist. Bevor wir auf spezielle Verfahren, d. h. spezielle Richtungs- und Schrittweitenstrategien eingehen werden, wollen wir eine Reihe von allgemeinen Aussagen zur Konvergenz des Modellalgorithmus selbst herleiten. Diese Aussagen werden zum einen Richtungs- und Schrittweitenwahlen motivieren und zum anderen für den Nachweis der Konvergenz im Spezialfall nützlich sein.

2.3 Standardvoraussetzungen Bearbeiten

Zunächst einmal stellen wir Standardvoraussetzungen bereit, auf die wir uns durchgängig beziehen werden:

(V1)  
(V2) Für ein   ist die Niveaumenge
(2.9)  
kompakt, wobei   im Zusammenhang mit einem Verfahren der Startpunkt des Verfahrens ist.
(V3) Der Gradient   ist auf   Lipschitz-stetig, d. h., es existiert eine Konstante   derart, dass gilt:
(2.10)  

Gelegentlich, insbesondere für globale Konvergenzaussagen, werden wir zusätzlich noch folgende Bedingung voraussetzen (vgl. dazu Satz 1.3):

(V4) Die Niveaumenge   ist konvex und   ist gleichmäßig konvex auf  , d. h., es existiert eine Konstante   mit
 

Diese Voraussetzungen haben einige Implikationen, welche in der nachstehenden Bemerkung erläutert sind.

Bemerkung 2.6 Bearbeiten

(i) Die Voraussetzung (V2) sichert nach Satz 1.8, dass das Problem   eine Lösung besitzt. Zum anderen garantiert sie nach dem aus der Analysis II bekannten Satz von Bolzano-Weierstraß, dass jede Folge   mit   bzw. mit   einen Häufungspunkt in   hat. Wegen (2.8) erzeugen Abstiegsverfahren solche Folgen.

(ii) Die Voraussetzung (V3) ist erfüllt, wenn (V2) erfüllt und   für eine kompakte, konvexe Menge   ist. (Letzteres ist wegen (V2) offenbar gegeben, wenn   ist.) Denn dann existiert

(2.11)  

und ist   für alle   und  . Für

 

folgt dann für alle   mit einem   nach dem Mittelwertsatz   bzw.

 

Letzteres impliziert die Ungleichung (2.10) mit   aus (2.11).

(iii) Die Voraussetzungen (V1) und (V4) zusammen implizieren, dass die gemäß (V4) konvexe Niveaumenge   für jedes   kompakt ist und damit (V2) gilt (Satz 1.9). Ferner garantieren sie, dass das Problem   genau einen kritischen Punkt   besitzt, welcher die eindeutige Lösung von   ist (Korollar 1.18).

Als Beispiel betrachten wir quadratische Funktionen.

Beispiel 2.7 Bearbeiten

Es sei   symmetrisch und positiv semidefinit und   die somit konvexe quadratische Funktion

 

Unter Verwendung der oberen Schranke aus (1.10) und der Symmetrie von   erhält man dann, wenn   die Eigenwerte einer Matrix   bezeichnet:

 
 

Neben (V1) genügt   also auch der Voraussetzung (V3) mit

(2.12)  

wobei dieses   offenbar die kleinst mögliche Konstante für   ist, für welche (V3) gilt. Ist   positiv definit, so ist zusätzlich (V4) erfüllt (Lemma 1.13) und damit auch (V2) (Bemerkung 2.6 (iii)). Es kann dann insbesondere

(2.13)  

gewählt werden. Für positiv definites   gilt somit gemäß (1.9) hinsichtlich der Spektralnorm

(2.14)  

Dabei ist   die gleichmäßige Konvexitätskonstante von   und   die Lipschitz-Konstante von  .


2.4 Hilfsmittel Bearbeiten

In diesem Abschnitt stellen wir einige Hilfsmittel bereit, die wir zur Untersuchung des Modellalgorithmus benötigen werden.

In jeder Iteration des Modellalgorithmus 2.5 sind, ausgehend von einem Punkt   mit  , eine Abstiegsrichtung  , eine Schrittweite   und damit ein neuer Punkt   zu bestimmen, so dass ein Abstieg bezüglich des Funktionswertes von   erzielt wird. (Der Einfachheit halber lassen wir hier den Iterationsindex weg.) Das folgende Lemma gibt für solche Vektoren   und   ein Intervall von Schrittweiten an, in dem die Funktion

(2.15)  

positive Werte annimmt und demnach eine Reduktion des Zielfunktionswertes von Problem   möglich ist.

Lemma 2.8 Bearbeiten

Es seien (V1) und (V2) erfüllt und
 
gegeben. Dann besitzt die in (2.15) definierte Funktion   eine kleinste positive Nullstelle   und es gilt mit einem  
 

Beweis. Bearbeiten

Es ist   und es folgt

(2.16)  

Somit existiert ein  , so dass   für alle   gilt. Da   beschränkt und   ist, hat man ferner   für alle genügend großen   und hat man somit für diese  

 

Also existiert ein  , so dass   sowie   für alle   gilt.

Damit ist die Menge

 

der Nullstellen von   nichtleer. Sie ist ferner kompakt, so dass nach dem Satz von Weierstraß ein  , d. h. eine kleinste positive Nullstelle existiert. Mit den anfangs genannten Eigenschaften von   schließt man daher, dass   für   sowie   für   gilt und damit   ist. Weil   in   liegt, impliziert Letzteres

 

und somit   für alle  .

q.e.d.

Unter den Voraussetzungen (V1) - (V4) können wir einige sehr nützliche Abschätzungen für gleichmäßig konvexe Funktionen beweisen. Es sei daran erinnert, dass das Problem   unter diesen Voraussetzungen eine eindeutige Lösung   besitzt (Bemerkung 2.6 (iii)). Wegen   liegt diese in  .

Lemma 2.9 Bearbeiten

Es seien (V1) - (V4) erfüllt und es sei   die Lösung von  . Dann gilt mit   und   aus (V4) bzw. (V3) für alle  :
(i)  
(ii)  
(iii)  
(iv)  
(v)  
(vi)  

Beweis. Bearbeiten

Seien   und   wie vorgegeben. Man beachte, dass   gemäß (V4) eine konvexe Menge ist und somit   für alle   gilt.

(i) Die linke Ungleichung von (i) wird durch (V4) impliziert (vgl. Satz 1.3 (iii)). Sei nun   durch   definiert. Dann ist

 

und

(2.17)  

Unter Verwendung der Cauchy-Schwarz-Ungleichung und von (V3) gilt dabei

 
(2.18)  

Damit ergibt sich die rechte Ungleichung von (i) aus (2.17).

(ii) Die linke Ungleichung in (i) liefert

 

und mit vertauschten Rollen von   und  

 

Addition von beiden Ungleichungen ergibt die gewünschte Beziehung.

(iii), (iv) Für   und   folgt wegen   aus der linken Ungleichung von (i) die Abschätzung in (iii) und aus der Ungleichung in (ii) die Abschätzung in (iv) mit

 

(v) Die Funktion

 

ist nach Lemma 1.13 gleichmäßig konvex und nimmt folglich ihr Minimum in genau einem Punkt   an, für den gilt:

 

Wegen der Kompaktheit von   und unter Verwendung von (i) folgt damit

 
 

(vi) Es sei  . Wir zeigen zunächst, dass   ist. Da dies für   trivial ist, können wir dabei   annehmen.

Nach Lemma 2.8 angewandt auf   besitzt die Funktion

 

eine erste positive Nullstelle   und ist   für alle  . Ferner folgt mit der rechten Ungleichung von (i)

 

und daraus  . Demnach ist  . Unter Ausnutzung der Optimalität von   und der von Aussage (i) erhalten wir schließlich

 

q.e.d.

Bemerkung 2.10 Bearbeiten

Für   können wir gemäß Beispiel 2.7

 

wählen. Wie man leicht nachprüft, gelten für dieses   alle Ungleichungen in Lemma 2.9 mit Gleichheit. Sie können also nicht mehr verschärft werden.

Man beachte, dass die gleichmäßige Konvexität von   unter den Voraussetzungen von Lemma 2.9 also insbesondere eine obere Abschätzung des Fehlers   durch   liefert, was für den Nachweis der Konvergenz von Verfahren genutzt werden wird. Eine obere Abschätzung umgekehrt von   durch   hat man ja für jede Lipschitz-stetige Funktion, also für jede Funktion  .

2.5 Bedingungen an die Schrittweiten Bearbeiten

Als die ersten Verfahren zur Lösung unrestringierter Optimierungsprobleme entwickelt wurden, wurde immer wieder Konvergenz von Verfahren bewiesen, die sich „nur“ durch die Schrittweitenregel unterschieden. Es war daher irgendwann sinnvoll zu fragen, welche Eigenschaften eine Schrittweitenregel besitzen sollte, damit Konvergenz für ein Verfahren nachgewiesen werden kann. Die Herleitung zweier Bedingungen in diesem Zusammenhang, welche zu den Definitionen einer effizienten und einer semieffizienten Schrittweitenregel führen werden, sind Thema dieses Abschnitts.

Lemma 2.8 gibt für ein   und eine Abstiegsrichtung   ein offenes Intervall   an, in dem die Funktion

(2.19)  

positiv ist, also der Zielfunktionswert von Problem   verkleinert werden kann. Es ist jedoch zu vermuten, dass die Iteriertenfolge eines Abstiegverfahrens bei einer, je nach Entfernung von dem angestrebten kritischen Punkt, zu geringen Verminderung des Zielfunktionswertes von   pro Iteration nicht konvergieren könnte (s. [Alt02, S. 76] für ein Beispiel). Wegen   sollte daher die Schrittweite nicht zu nahe bei 0 oder   liegen bzw. sollte   genügend groß sein. Das nächste Lemma dient dazu, eine geeignete Forderung an die Schrittweiten zu formulieren.

Lemma 2.11 Bearbeiten

Es seien (V1) - (V3) erfüllt und
 
gegeben. Weiter sei   die nach Lemma 2.8 existierende erste positive Nullstelle von   in (2.19). Dann gilt:
(i)  
(ii)  

Beweis. Bearbeiten

Nach Lemma 2.8 hat man   für alle  . Weiter ist   und somit

 

Für alle   folgt daher unter Anwendung von (V3) mit einer ähnlichen Abschätzung für das Integral wie in (2.18)

(2.20)  

Damit ist (ii) bewiesen. Setzt man   in (2.20) ein, so erhält man wegen   die Abschätzung in (i).

q.e.d.

In Lemma 2.11 werden ein   und die Parabel

 

definiert. Wie man nachrechnet, gilt insbesondere   und nimmt die Funktion   ihr Maximum bei

(2.21)  

an. Das Maximum von   hat den Wert

(2.22)  

Nach Lemma 2.11 gilt ferner   für alle  . Wünschenswert ist es nun, dass  , d. h. die Verminderung des Zielfunktionswertes von   beim Übergang von   zu   die Größenordnung von   besitzt und idealerweise größer oder gleich dem maximalen Wert von   aus (2.22) ist. Letzteres ist insbesondere für eine Minimumschrittweite (2.7) der Fall, wie mit Satz 3.3 gezeigt werden wird. Aus diesem Grund definiert man:

Definition 2.12 Bearbeiten

Eine Schrittweitenregel heißt effizient (mit Konstante  ), wenn sie jedem Paar
 
ein wohldefiniertes (nicht notwendig eindeutig bestimmtes)   zuordnet und wenn ein von   und   unabhängiges   existiert, so dass gilt:
(2.23)  
Gilt entsprechend nur
(2.24)  
so heißt die Schrittweitenregel semieffizient. Bei Verwendung einer effizienten bzw. semieffizienten Schrittweitenregel bezeichnen wir auch kurz die Schrittweiten selbst als effizient bzw. semieffizient.

Spellucci [Spe93] führt für eine Schrittweitenregel das Prinzip des hinreichenden Abstiegs ein, welches die Bedingung (2.23) der Effizienz unmittelbar impliziert. (Eine Motivation dafür wird in [Alt02] gegeben.) Der Begriff einer effizienten Schrittweitenregel geht auf die in diesem Zusammenhang grundlegende Arbeit [WaWe77] von Warth und Werner zurück. Er wurde von Kosmol [Kos89] aufgegriffen, der zusätzlich den Begriff der semieffizienten Schrittweitenregel definierte. Da jede effiziente Schrittweitenregel offenbar auch semieffizient ist und man sich diese Implikation anhand der gewählten Benennungen gut merken kann, haben wir diese Bezeichnungen übernommen. (Alle unten in Kapitel 3 eingeführten Schrittweitenregeln sind somit zumindest semieffizient.)

Für manche Verfahren kann man Konvergenz beweisen, wenn sie mit einer effizienten Schrittweitenregel verbunden werden, während dies für eine semieffiziente Regel nicht gelingt oder bisher nicht gelungen ist. Die Bezeichnungen in Definition 2.12 sind aber insofern etwas irreführend, als sie nichts über die numerische Effizienz eines Verfahrens bei Verwendung einer entsprechenden Regel aussagen und eine „semieffiziente“ Schrittweitenregel im Hinblick auf die Konvergenzgeschwindigkeit oder den numerischen Aufwand eines Verfahrens nicht notwendig weniger effizient als eine „effiziente“ ist.

2.6 Konvergenzaussagen Bearbeiten

Wir kehren nun zu dem Modellalgorithmus 2.5 zurück. Wie wir dort festgestellt haben, ist dieser generell durchführbar. In diesem Abschnitt wollen wir Konvergenzaussagen für dieses allgemeine Modell eines Abstiegsverfahrens beweisen, wobei wir das Modell nur insoweit spezifizieren, als dass wir voraussetzen, dass in Schritt (3) eine effiziente Schrittweitenregel verwendet wird. Anschließend werden wir für eine wichtige Klasse von Abstiegsrichtungen auch Konvergenz des Verfahrens für semieffiziente Schrittweiten zeigen.

Wir beginnen damit, dass wir in dem folgenden Lemma unter den relativ schwachen Voraussetzungen (V1) und (V2) einige, zum Teil offenkundige Aussagen für den Modellalgorithmus zusammenfassen. Es sei daran erinnert, dass die Niveaumenge   in (V2) durch den Startpunkt   des Verfahrens definiert wird und dass die Voraussetzungen (V1) und (V2) die Existenz einer globalen Lösung des unrestringierten Optimierungsproblems   garantieren (Bemerkung 2.6). Folglich dürfen wir „ “ schreiben.

Lemma 2.13 Bearbeiten

Es seien (V1) und (V2) erfüllt und der Modellalgorithmus 2.5 sei mit einer beliebigen Schrittweitenregel versehen. Dann gilt für alle  : (Wir schreiben „für alle  “, wenn nicht klar ist, ob die Iterierten   nur für endlich viele   definiert sind, da der Algorithmus nach endlich vielen Schritten mit einer kritischen Lösung abbricht. Erzeugt er eine unendliche Folge  , so machen wir dies durch einen Zusatz wie „ “ deutlich.)
(i)  
(ii)  
Bricht der Algorithmus nicht nach endlich vielen Schritten mit einer kritischen Lösung von Problem   ab, so erzeugt er eine unendliche Folge   mit folgenden Eigenschaften:
(iii)   besitzt einen Häufungspunkt.
(iv)  
(v) Gilt zusätzlich  , so folgt:
  Jeder Häufungspunkt von   ist kritische Lösung von  .
  Hat   genau eine kritische Lösung  , so ist  .

Beweis. Bearbeiten

Aussage (i) ist nach Konstruktion des Algorithmus trivialerweise erfüllt und impliziert Aussage (ii). Ist   eine unendliche Folge, so folgt aus (ii) wegen (V2) die Aussage (iii) (vgl. Bemerkung 2.6). Schließlich garantiert Aussage (i) wegen

 

dass die Folge der Funktionswerte   monoton fallend und nach unten beschränkt ist. Dies hat die in (iv) angegebene Konvergenz zur Folge.

Es gelte nun  . Ist   ein Häufungspunkt von  , so existiert eine Teilfolge   von   mit   und folgt wegen der vorausgesetzten Stetigkeit von  

 

Also ist die Aussage   richtig.

Jetzt sei angenommen, dass   genau eine kritische Lösung   besitzt. Würde   nicht gegen   konvergieren, dann existierte ein  , so dass für unendlich viele  , d. h. für eine Teilfolge   von   gelten würde:

(2.25)  

Weil   gemäß Aussage (ii) in   liegt und   gemäß (V2) kompakt ist, könnte dann jedoch aus   eine konvergente Teilfolge   ausgewählt werden, die nach Aussage   notwendig gegen den einzigen kritischen Punkt   von   konvergieren würde. Letzteres steht aber im Widerspruch zu (2.25), wie man sieht, wenn man dort   mit   setzt. Damit ist alles bewiesen.

q.e.d.

Wenn man von Konvergenz eines Verfahrens zur Lösung des unrestringierten Optimierungsproblems   spricht, meint man damit im Allgemeinen, dass jeder Häufungspunkt der durch das Verfahren erzeugten Iteriertenfolge eine kritische Lösung von   ist (siehe Aussage   von Lemma 2.13). Im Fall, dass   eine eindeutige Lösung besitzt, folgt dann unter den Voraussetzungen des Lemmas auch die Konvergenz der ganzen Folge (Aussage   von Lemma 2.13).

Wir sind nun in der Lage, den zentralen Konvergenzsatz für den Modellalgorithmus zu beweisen. Mit Hilfe dieses Satzes werden wir später auch die Konvergenz von speziellen Verfahren verifizieren.

Satz 2.14 Bearbeiten

Es seien (V1) und (V2) erfüllt. Der Modellalgorithmus 2.5 sei mit einer effizienten Schrittweitenregel versehen und breche nicht nach endlich vielen Iterationen mit einer kritischen Lösung von Problem   ab. Weiter gelte für die somit erzeugten unendlichen Folgen   und   die Zoutendijk-Bedingung
  für  
Dann folgt:
(i) Die Folge   hat mindestens einen Häufungspunkt, der kritische Lösung von   ist.
(ii) Sind zusätzlich (V3) und (V4) erfüllt und ist   die dann eindeutig existierende Lösung von  , so gilt  . Die Voraussetzung (V3) wird wegen Bezugs auf Lemma 2.9 im Beweis vorausgesetzt. Für den Nachweis der verwendeten Ungleichungen aus Lemma 2.9 wird sie aber eigentlich nicht benötigt.

Beweis. Bearbeiten

Wir nehmen an, dass der Algorithmus nicht nach endlich vielen Schritten abbricht. Da die Schrittweitenregel im Algorithmus effizient ist, gilt dann mit einem   für alle  

(2.27)  

(i) Durch Summation von (2.27) für   erhalten wir

 

Folglich bekommen wir unter Verwendung von Lemma 2.13 (iv) durch Grenzübergang für  

(2.28)  

Wäre nun kein Häufungspunkt von   kritischer Punkt von  , so existierte ein   mit

(2.29)  

(Denn sonst gäbe es eine Teilfolge   von   mit  , da Lemma 2.13 aber genauso für die Folge   gültig ist, folgte daraus die Existenz eines Häufungspunktes von   und damit eines Häufungspunktes von  , der kritische Lösung von  wäre.) Mit (2.29) würde aber aus (2.28) die Abschätzung

 

folgen, welche der vorausgesetzten Zoutendijk-Bedingung widerspricht.

(ii) Aus (2.27) können wir mit Aussage (v) aus Lemma 2.9 die folgende Abschätzung gewinnen:

 

Auflösen dieser Abschätzung nach  , Mehrfachanwendung des erhaltenen Ergebnisses sowie Verwendung der Beziehung   liefern

 
 

Da gemäß der vorausgesetzten Zoutendijk-Bedingung   gilt, können wir damit

 

schließen. Die Konvergenz     ist nun eine Konsequenz von Lemma 2.9 (iii).

q.e.d.

Bemerkung 2.15 Bearbeiten

Im Fall, dass (V1) - (V4) erfüllt sind, wird die Konvergenz des Modellalgorithmus 2.5 vollständig durch die Zoutendijk-Bedingung beschrieben. Denn dann gilt auch die Umkehrung der Aussage (ii) von Satz 2.14, dass die Konvergenz von   die Zoutendijk-Bedingung impliziert (vgl. [WaWe77]).

Gemäß der Definition des Standardskalarproduktes auf dem   gilt

 

Die Zoutendijk-Bedingung bedeutet demnach, dass die Konstante

 

für   nicht zu schnell gegen 0 bzw. der Winkel zwischen   und   nicht zu schnell gegen 90° streben darf.

Die Zoutendijk-Bedingung ist offenbar für das Gradientenverfahren mit   erfüllt und allgemeiner für jedes Verfahren erfüllt, für das mit einem   gilt:

(2.30)  

Verfahren mit der Eigenschaft (2.30) bezeichnet man als gradientenähnliche Verfahren. Demnach ist Satz 2.14 insbesondere für gradientenähnliche Verfahren relevant. Zu diesen Verfahren gehören die wichtigen Verfahren, bei denen die Richtung

(2.31)  

mit einer symmetrischen, positiv definiten Matrix   gewählt wird (vgl. Beispiel 2.3) und bei denen für alle   die Bedingung

(2.32)  

mit Konstanten   erfüllt ist (Übung!).

Bemerkung 2.16 Bearbeiten

Sind die   für alle   symmetrische Matrizen, welche der Bedingung (2.32) genügen, so folgt

(2.33)  

wobei   der kleinste und   der größte Eigenwert von   ist (vgl. Lemma 1.10 und Bemerkung 2.20 aus Optimierung I). Demnach impliziert die Bedingung (2.32), dass die kleinsten Eigenwerte der   gleichmäßig von Null weg beschränkt sind. Man sagt in diesem Fall auch, dass die   gleichmäßig positiv definit sind.

Für die zuletzt genannten Verfahren mit (2.31) und (2.32) können wir nun - sogar in Verbindung mit einer semieffizienten Schrittweitenregel - zu einer stärkeren Konvergenzaussage als der in Satz 2.14 gelangen. Denn letztere ist sehr schwach, da sie nicht ausschließt, dass   Häufungspunkte besitzt, die nicht kritische Punkte von   sind, und dass das Verfahren einen solchen nichtkritischen Häufungspunkt findet.

Satz 2.17 Bearbeiten

Es seien (V1) - (V3) erfüllt, und der Modellalgorithmus 2.5 sei mit einer semieffizienten Schrittweitenregel mit Konstante   versehen. Weiter gelte für alle  
(2.34)  
wobei die   symmetrische Matrizen seien, welche mit Konstanten   für alle   der folgenden Bedingung genügen:
(2.35)  
Bricht dann der Algorithmus nicht nach endlich vielen Schritten ab, so hat man:
(i) Jeder Häufungspunkt von   ist kritische Lösung von  .
(ii) Besitzt   genau eine kritische Lösung  , so gilt  
(iii) Ist zusätzlich (V4) erfüllt, so folgt   und gelten mit Konstanten   und   die Abschätzungen
(2.36)  
und
(2.37)  
wobei   gegeben ist durch
 

Beweis. Bearbeiten

Unter Verwendung von Bemerkung 2.16 haben wir

(2.38)  

Damit erreichen wir unter Verwendung von (2.24)

 
Fehler beim Parsen (Syntaxfehler): {\displaystyle \ge \vartheta \min \left( \nabla f(x^k)^T H_k \nabla f(x^k), \left\{ \frac{\nabla f(x^k)^T H_k \nabla f(x^k)}{\|H_k \nabla f(x^k)\|} \right\}^2 \right) \ge \vartheta \min \left( m \left\| \nabla f(x^k) \right\|^2, \left\{ \frac{m \left\| \nabla f(x^k) \right\|^2}[M \left\| \nabla f(x^k) \right\|} \right\}^2 \right)}
(2.39)  

Da Aussage (iv) von Lemma 2.13 den Grenzwert

 

impliziert, schließen wir aus (2.39) die Konvergenz    . Aussagen (i) und (ii) folgen nun mit Lemma 2.13 (v). Der Beweis der Aussage (iii) wird als Aufgabe gestellt.

q.e.d.

Die zweite Abschätzung in (2.36) ist möglicherweise pessimistisch. Die Abschätzungen in (2.36) und (2.37) zeigen aber, dass der Modellalgorithmus unter den Voraussetzungen und Spezifikationen von Satz 2.17 (iv) bezüglich der Folge der Funktionswerte   mindestens Q-linear und bezüglich der Iteriertenfolge mindestens R-linear konvergiert.