Wir beschäftigen wir uns weiterhin mit der Lösung des unrestringierten Optimierungsproblems
In Kapitel 6 hatten wir unter geeigneten Voraussetzungen die superlineare und quadratische Konvergenz für das lokale und das globalisierte Newton-Verfahren nachgewiesen. In Abschnitt 6.3 hatten wir aber auch Nachteile des Newton-Verfahrens zumindest für größere Probleme erwähnt, wie insbesondere die, dass in jeder Iteration des Verfahrens die Hesse-Matrix bestimmt und ein lineares Gleichungssystem gelöst werden müssen.
Diese Nachteile versucht man mit den Quasi-Newton-Verfahren zu vermeiden, ohne dabei die superlineare Konvergenzrate des Newton-Verfahrens zu verlieren. Das Newton-Verfahren konvergiert zwar unter gewissen Voraussetzungen sogar quadratisch, aber für die meisten praktischen Probleme ist eine superlineare, nicht notwendig quadratische Konvergenzrate ausreichend. Überdies ist der numerische Aufwand pro Iteration für Quasi-Newton-Verfahren erheblich geringer als der für das Newton-Verfahren.
Wir definieren hier wiederum
und setzen in unserer Diskussion der Einfachheit halber voraus, dass ist. (In den Lemmata und Sätzen geben wir jeweils, wie zuvor, die genauen Voraussetzungen an.) Die Quasi-Newton-Verfahren, mit denen wir uns beschäftigen werden, haben dann die folgende allgemeine Form.
(0) Wähle , eine symmetrische, positiv definite Matrix und eine semieffiziente Schrittweitenregel. Setze .
(1) Falls ist, stop! ( ist kritische Lösung von Problem .)
(2) Berechne
(7.1)
eine Schrittweite und setze
(3) Setze
und bestimme aus und mittels einer Aufdatierungsformel eine symmetrische, positiv definite Matrix .
(4) Setze und gehe nach (1).
Da im Modellalgorithmus 7.1 symmetrisch und positiv definit ist und in Schritt (2) gilt, folgt
(7.2)
Somit ist eine Abstiegsrichtung von in und gilt damit , da eine semieffiziente Schrittweite verwendet wird. Bei Algorithmen dieses Typs versucht man offenbar das Newton-Verfahren zu simulieren, indem man durch eine geeignete Matrix ersetzt (normalerweise schreibt man und nicht ). Daher bezeichnet man solche Verfahren als Quasi-Newton-Verfahren.
Gelegentlich werden Verfahren vom Typ des Modellalgorithmus 7.1 auch als Variable-Metrik-Verfahren bezeichnet. Dies ist dadurch begründet, dass man die Richtung gemäß Bemerkung 2.4 als Richtung des steilsten Abstiegs für in bezüglich der Norm interpretieren kann. In dem Modellalgorithmus 7.1 wählt man demnach in jeder Iteration die Richtungsteilsten Abstiegs bezüglich einer von abhängenden Metrik. Wird gewählt, so ist gerade die Richtung steilsten Abstiegs in bezüglich der Euklidischen Norm.
Die zentrale Frage ist nun, wie man aus den in der -ten Iteration vorliegenden Daten und eine geeignete Matrix berechnet. Man stellt diesbezüglich die folgenden drei Forderungen an auf:
(F1) Es gilt
für eine Konstante und eine Matrix mit
(F2) Es gilt die Quasi-Newton-Gleichung
(7.3)
(F3) Mit ist auch eine symmetrische, positiv definite Matrix.
Eine Formel wie in (F1), gemäß der man aus Größen, die in der -ten Iteration bekannt sind, eine Größe für die -te Iteration eines Verfahrens bestimmt, bezeichnet man als Update-Formel. (Das englische „Update“ hat sich allgemein gegenüber der deutschen „Aufdatierung“ durchgesetzt, so dass wir es hier auch verwenden wollen.) Je nachdem, ob in (F1) normalerweise den Rang 1 oder den Rang 2 hat, spricht man von einem Rang-1- oder Rang-2-Verfahren. Die Berechnung einer Rang-1-Matrix erfordert weniger Rechenoperationen als die einer Rang-2-Matrix. Auf der anderen Seite kann man aber erwarten, dass man mittels einer Rang-2-Matrix in einem Verfahren vom Typ des Modellalgorithmus 7.1 mit wachsendem schneller eine Annäherung an das Newton-Verfahren erreichen kann.
Die Forderung (F2) lässt sich dabei auf folgende Weisen motivieren, sofern eine reguläre Matrix ist. Für jede quadratische Funktion
mit symmetrischer, positiv definiter Matrix hat man
und somit
Demnach genügt der Quasi-Newton-Gleichung. Außerdem folgt für eine beliebige Funktion mit der quadratischen Näherung
im Fall, dass die Quasi-Newton-Gleichung erfüllt und eine reguläre Matrix ist:
Diese Beziehungen deuten darauf hin, dass unter den genannten Bedingungen eine gute quadratische Approximation für und folglich eine gute Näherung für ist.
In diesem Fall entspricht also gerade der Steigung der Sekante für durch die Punkte und und ist somit . Wählt man im Modellalgorithmus 7.1 für jedes die Schrittweite , so stimmt dieser also für mit dem aus der Numerischen Mathematik bekannten Sekanten-Verfahren zur Bestimmung einer Nullstelle der Gleichung überein. Quasi-Newton-Verfahren verallgemeinern demnach in gewisser Weise das Sekantenverfahren für Funktionen in einer Veränderlichen auf solche in n Veränderlichen, weswegen sie gelegentlich auch als Sekanten-Verfahren bezeichnet werden. Entsprechend spricht man bei (F2) auch manchmal von der Sekanten-Gleichung.
In Abschnitt 7.2 werden wir allgemein Rang-1-Update-Formeln für Quasi-Newton-Verfahren aus den Forderungen (F1) - (F3) ableiten. Im Fall von Rang-2-Update-Formeln werden wir nicht so axiomatisch vorgehen, sondern in Abschnitt 7.3 gleich die wichtige Klasse der Broyden-Update-Formeln angeben und genauer betrachten. Die Formel aus dieser Klasse, die sich im Laufe der Zeit als die vom numerischen Verhalten her in den meisten Situationen beste Formel herausgestellt hat, ist die sog. BFGS-Update-Formel. Die Konvergenz des dadurch definierten BFGS-Verfahrens sowie Aussagen über dessen Konvergenzgeschwindigkeit werden wir in Abschnitt 7.4 beweisen. Mit einigen Bemerkungen zur Numerik werden wir in Abschnitt 7.5 dieses Kapitel abschließen.
Als erstes wollen wir nun untersuchen, inwieweit die drei Forderungen (F1) - (F3) im Fall eine Update-Formel für festlegen. Dazu leiten wir zunächst Gestalt und Eigenschaften von Rang-1-Matrizen her.
Nach Voraussetzung hat der Bildraum von die Dimension 1. Demnach gibt es einen Vektor , so dass für jedes mit einem gilt: . Ist der -te Standardeinheitsvektor, so folgt insbesondere für mit gewissen
(7.4)
wobei die -te Spalte von ist. Also hat man mit
Offenbar ist , da anderenfalls nach (7.4) und nicht wäre.
Im Fall folgt somit und mit daher
Also ergibt sich für
q.e.d.
Man beachte, dass eine symmetrische Matrix maximal unterschiedliche Elemente enthält, so dass das Aufstellen einer Rang-1-Matrix
die Berechnung von höchstens reellen Produkten erfordert. Wir benötigen weiter folgende Aussagen für Rang-1-Matrizen, wobei die Spur einer Matrix die Summe ihrer Diagonalelemente ist:
Nach Voraussetzung hat man und . Sei nun ein Eigenwert von mit zugehörigem Eigenvektor , d. h., es sei
(7.5)
Dann kann also nur orthogonal zu und damit sein oder (nicht im ausschließenden Sinne) es sind und parallel zueinander, wobei dann oder möglich ist.
Ist orthogonal zu , so ist und die Menge
der zugehörige Eigenraum. Wegen hat dieser die Dimension . Da die geometrische Vielfachheit eines Eigenwertes kleiner oder gleich seiner algebraischen Vielfachheit ist, besitzt der Eigenwert von somit mindestens die Vielfachheit . Sind andererseits und parallel zueinander, d. h. gilt für ein , so folgt aus (7.5) die Beziehung
Wegen schließt man daraus, dass ist (wobei möglich ist).
Aussage (ii) folgt wegen
Schließlich hat die Matrix im Fall den -fachen Eigenwert 1 und im Fall den -fachen Eigenwert 1 und den 1-fachen Eigenwert . Da die Determinante einer reellen -Matrix gleich dem Produkt ihrer Eigenwerte ist, folgt damit das gewünschte Ergebnis in (iii).
q.e.d.
Ist die Bedingung (F1) für eine Matrix mit erfüllt und soll , wie es in (F3) gefordert wird, symmetrisch sein, so muss auch symmetrisch sein und muss gemäß Lemma 7.4 mit und einem Vektor gelten:
(7.6)
Die Quasi-Newton-Gleichung (F2) hat demnach in diesem Fall die Gestalt
Unter der Voraussetzung
(7.7)
impliziert die letztere Beziehung
(7.8)
womit man erhält:
(7.9)
Mit (7.8) und (7.9) bekommt man schließlich
Also ergibt sich aus (7.6) die Formel
(7.10)
Für erhält man aus (7.10) gerade die Broyden-Rang-1- bzw. SR1-Formel („symmetric-rank-1 formula“)
(7.10)
Diese Formel hat den Vorteil, eine recht einfache Update-Formel zu sein. Für Algorithmen mit Schrittweitenstrategien, wie wir sie hier untersuchen, hat sie jedoch den schwerwiegenden Nachteil, dass nicht auszuschließen ist, dass der Nenner darin verschwindet und dass die Forderung (F3) der positiven Definitheit von B_{k+1} nicht erfüllt ist. (Insbesondere ist offenbar der Nenner in (7.11) identisch Null und dann diese Update-Formel nicht definiert, wenn die Voraussetzung (7.7) für den hier gewählten Weg ihrer Herleitung nicht erfüllt ist.)
Trotz einiger attraktiver Eigenschaften, wie z. B. der endlichen Konvergenz bei quadratischer Zielfunktion auch bei inexakten Schrittweiten, wenn das Verfahren durchführbar ist, wollen wir daher das Quasi-Newton-Verfahren mit der SR1-Formel nicht weiter untersuchen. Wir verweisen aber darauf, dass sich herausgestellt hat, dass die (modifizierte) SR1-Formel in manchen Zusammenhängen, insbesondere im Zusammenhang mit Trust-Region-Verfahren, die wir in Kapitel 8 diskutieren werden, hervorragende und oft bessere Ergebnisse als die unten untersuchte BFGS-Formel liefert (siehe [NoWri06] und die Literaturverweise in [GeiKa99]).
Wir wollen nun als nächstes der Frage nachgehen, ob nicht für eine Rang-1-Update-Formel vom Typ (7.11) existiert, für die auch (F3) erfüllt ist. Dazu führen wir zunächst für eine symmetrische, positiv definite Matrix auf folgende Weise eine ebenfalls symmetrische, positiv definite Matrix ein: es sei das durch definierte Skalarprodukt
(7.12)
und
die durch dieses Skalarprodukt induzierte elliptische Norm (vgl. Bemerkung 2.4). Weiter seien mit und die zu existierende Diagonalmatrix und orthogonale Matrix, so dass gilt. Dann definieren wir
und
Die Matrix ist wegen ebenfalls symmetrisch und, da sie die Eigenwerte hat, ebenfalls positiv definit. Ferner folgt für sie
sowie
Für die durch den Modellalgorithmus 7.1 erzeugten Größen gilt nun
und mit
(7.13)
Wegen hat man folglich
Also impliziert (7.10) unter Verwendung der Beziehung
(7.14)
mit
(7.15)
Im Fall ist offenbar genau dann positiv definit, wenn dies ist.
Also stellt sich die Frage, wann positiv definit ist. Die Matrix hat gemäß Lemma 7.5 -mal den Eigenwert 1 sowie den Eigenwert
(7.16)
Also ist genau dann positiv definit, wenn gilt. Insbesondere ist dies unter den Voraussetzungen des folgenden Lemmas der Fall.
Unter Verwendung von (7.2) und (7.13) ergibt sicht somit für
Da positiv definit ist, gilt und folgt demnach in diesem Fall . Da ist und der Nenner in (7.16), wie die Herleitung von (7.15) zeigt, gerade dem Produkt
entspricht, ist demnach in diesem Fall auch (7.7) erfüllt.
q.e.d.
Die durch (7.14) gegebene Rang-1-Update-Formel
mit
und mit einem frei wählbaren wurde 1981 von Kleinmichel angegeben, wobei Kleinmichel aufgrund seiner numerischen Experimente die Wahl für alle vorschlägt. Das dadurch bestimmte Kleinmichel-Verfahren funktioniert im Allgemeinen gut (s. [GeiKa99]). Für eine Restart-Version konnte Kleinmichel die -Schritt quadratische Konvergenz beweisen.
Nach ca. 1970 wurden zahlreiche Rang-2-Update-Formeln für Quasi-Newton-Verfahren vorgeschlagen. Die wenigsten dieser Formeln haben sich in der Praxis durchgesetzt. Wir wollen hier nur die ein-parametrische Broyden-Klasse von Update-Formeln untersuchen. Sie ist die für die Praxis wichtigste Unterklasse der zwei-parametrischen Oren-Luenberger-Klasse von Update-Formeln und enthält die sog. BFGS-Formel, die sich unter den Rang-2-Formeln als die im Allgemeinen numerisch effizienteste herausgestellt hat.
Für die Rang-2-Update-Formeln wollen wir nicht so axiomatisch vorgehen wie im Fall der Rang-1-Formeln, obwohl das möglich wäre, sondern wir geben hier direkt die durch einen Parameter bestimmte Broyden-Klasse von Update-Formeln an, welche durch
(7.17)
definiert ist, wobei
und
(7.18)
seien. Eine spezielle Update-Formel der Broyden-Klasse erhält man also durch Festlegung von , wobei typischerweise für alle konstant gewählt wird. (Auch andere Schreibweisen der Formel in (7.17) sind gebräuchlich.)
Ein Quasi-Newton-Verfahren vom Typ des Modellalgorithmus 7.1 mit einer Update-Formel (7.17) für bezeichnen wir als Quasi-Newton-Verfahren der Broyden-Klasse. Damit ein solches Verfahren überhaupt durchführbar ist, ist sicherzustellen, dass für alle gilt. Da mit auch ist, folgt mit der positiven Definitheit von dann auch für alle .
Wir wollen nun zunächst diskutieren, unter welchen Voraussetzungen die Forderungen (F1) - (F3) für die Formel in (7.17) erfüllt sind. Dazu setzen wir insbesondere voraus:
(7.19) ist eine symmetrische, positiv definite Matrix,
wobei dies für bereits im Modellalgorithmus 7.1 vorausgesetzt wurde. Somit ist eine Abstiegsrichtung für in und damit insbesondere .
Sind die Vektoren und linear unabhängig und gilt , so handelt es sich bei (7.17) offenbar um eine Rang-2-Update-Formel mit und ist somit (F1) erfüllt; im anderen Fall reduziert sich die Formel auf eine Rang-1-Update-Formel. (Übung!) Ferner gilt für aus (7.17) die Quasi-Newton-Gleichung, wie das folgende Lemma besagt.
Da nach Voraussetzung und positiv definit ist, ist auch . Somit ist die Update-Formel in (7.17) wohldefiniert. Weiter ist identisch mit
Verwendung der Definitionen von und aus (7.18) liefert
q.e.d.
Bleibt noch neben zu garantieren, dass unter der Voraussetzung in (7.19) für in (7.17) auch die Bedingung (F3) gesichert ist. Weil Matrizen vom Typ und mit symmetrisch sind, ist mit offenbar auch symmetrisch. Im Fall, dass positiv definit ist, ist dies auch die Matrix . Da weiter nach Lemma 7.7 der Quasi-Newton-Gleichung (7.3) genügt und da und somit gilt, folgt dann
Das folgende Lemma sagt nun aus, dass die Bedingung auch hinreichend dafür ist, dass in (7.17) positiv definit ist, wobei wir den Beweis dafür hier nur skizzieren wollen. (Für das genauer diskutierte BFGS-Verfahren werden wir die positive Definitheit von weiter unten direkt nachweisen.)
Dass symmetrisch ist, hatten wir schon erwähnt. Für den Nachweis der positiven Definitheit setze man
Dann gilt für
Die Matrix ist demnach genau dann positiv definit, wenn dies ist. Letzteres ist der Fall, wenn alle Eigenwerte von positiv sind.
Sind und linear unabhängig, so besitzt , wie man zeigen kann, den -fachen Eigenwert 1 und zwei Eigenwerte mit Eigenvektoren aus dem von und erzeugten Teilraum des . Für diese Eigenvektoren mache man den Ansatz und rechne man die beiden unbekannten Eigenwerte aus. Die gemachten Voraussetzungen garantieren dann, dass diese Eigenwerte positiv sind. Abschließend diskutiere man den einfacheren Fall, dass und linear abhängig sind.
q.e.d.
Insofern sind Voraussetzungen von Interesse, unter denen die Bedingung erfüllt ist.
Wie wir oben festgestellt haben, ist unter der Voraussetzung in (7.19) eine Abstiegsrichtung für in , so dass gemäß Lemma 2.13 für die Menge aus (2.9) folgt. Wegen und kann man daher insbesondere mit Lemma 2.9 (ii) schließen:
q.e.d.
Für gleichmäßig konvexe Funktionen ist also für alle die Bedingung und damit die Durchführbarkeit eines Quasi-Newton-Verfahrens der Broyden-Klasse gesichert. Ist jedoch keine gleichmäßig konvexe Funktion, so kann die Bedingung für alle Verfahren der Broyden-Klasse gemeinsam nur im Fall der Verwendung bestimmter Schrittweitenregeln garantiert werden. Und zwar gilt (Übung!):
Es sei und es gelte (7.19). Ist eine exakte Schrittweite, eine Wolfe-Powell- oder eine strenge Wolfe-Powell-Schrittweite, so folgt .
Im Fall, dass die Matrix in (7.17) für das gewählte positiv definit ist, kann ihre Inverse mit
explizit angegeben werden in der Form
(7.20)
Man prüft leicht, aber mit einiger Schreibarbeit nach, dass tatsächlich gilt. Diese Formel ist offenbar eine Update-Formel für . Ist positiv definit, so ist auch positiv definit.
In unserer Formulierung von Quasi-Newton-Verfahren (siehe den Modellalgorithmus 7.1) wird als das Matrix-Vektor-Produkt „“ bestimmt. Die Berechnung dieses Produktes erfordert arithmetische Rechenoperationen. (Der Ausdruck steht für , wobei eine von unabhängige Konstante ist.) Im Hinblick auf das Newton-Verfahren kann man mit auch durch definieren und aus gemäß (7.20) berechnen. Ähnlich wie beim Newton-Verfahren wird bei einer solchen Vorgehensweise dann auch durch Lösung des linearen Gleichungssystems gewonnen.
Ein derartiges Vorgehen wäre nicht sinnvoll, wenn man dann in jeder Iteration eine vollständige Cholesky-Zerlegung der Matrix mit dem aus der Numerischen Mathematik bekannten Verfahren vornehmen würde, da eine solche Zerlegung arithmetische Rechenoperationen erfordert. Es ist jedoch möglich, aus einer gegebenen Cholesky-Zerlegung (die Startmatrix wird oft als Diagonalmatrix gewählt) durch ein Rang-1-Update von in Rechenoperationen zu einer Cholesky-Zerlegung für zu gelangen (z. B. [Wer92], [GeiKa99]).
Der Gewinn dabei ist, dass man dann anders als bei der zuerst beschriebenen Vorgehensweise quasi umsonst feststellen kann, ob tatsächlich positiv definit und damit eine Abstiegsrichtung für in ist (vgl. (7.2)). Denn in der Praxis kann man ja z. B. exakte Schrittweiten nicht genau berechnen oder kann man im Allgemeinen nicht verifizieren, ob man sich tatsächlich in einem Bereich von befindet, in dem gleichmäßig konvex ist (s. die Voraussetzungen von Lemma 7.9 und Satz 7.14).
In der nachfolgenden Bemerkung fassen wir außerdem ohne Beweis einige verblüffende Ergebnisse zu Quasi-Newton-Verfahren der Broyden-Klasse zusammen. Beweise dafür sind z.B. in [Fle91] und zum Teil auch in [Wer92] und [JaSt04] zu finden.
Der Modellalgorithmus 7.1 sei mit einer exakten Schrittweitenregel (!) und einer Update-Formel der Broyden-Klasse in (7.17) versehen. (Mit den Lemmata 7.10 und 7.8 schließt man induktiv, dass dann für alle symmetrisch und positiv definit ist.)
(i) Ist eine quadratische Funktion, d. h. ist
und ist positiv definit, so bricht jedes solche (durch die Wahl der bestimmte) Quasi-Newton-Verfahren nach Schritten ab und sind die von ihm erzeugten Richtungen -konjugiert. Wird insbesondere gewählt, so erzeugt jedes derartige Verfahren unabhängig von der Wahl der bei gleichem Startwert dieselben Iterierten wie das Fletcher-Reeves-Verfahren bzw. wie das im quadratischen Fall ja damit identische Polak-Ribière-Verfahren.
(ii) Für jede, also auch jede nichtquadratische Funktion erzeugen Quasi-Newton-Verfahren des oben spezifizierten Typs bei gleichen Startwerten für alle dieselben Iterierten .
Aus der allgemeinen Update-Formel der Broyden-Klasse in (7.17) erhält man insbesondere auch die Broyden-Rang-1- bzw. SR1-Formel (7.11), wenn man
setzt, wobei nicht gesichert ist. Weiter leitet man für aus (7.17) die sog. DFP-Formel
(7.21)
ab, welche nach Davidon (1959) und Fletcher und Powell (1963) benannt wird, die diese Formel unabhängig voneinander angegeben hatten.
Schließlich gewinnt man aus (7.17) für die wichtigste Update-Formel für Quasi-Newton-Verfahren, die BFGS-Formel
(7.22)
Diese Formel bezieht ihren Namen aus den Anfangsbuchstaben der Namen von Broyden, Fletcher, Goldfarb und Shanno, die sie im Jahre 1970 unabhängig voneinander und nahezu zeitgleich mit unterschiedlichen Begründungen vorgeschlagen hatten. Die Quasi-Newton-Verfahren vom Typ des Modellalgorithmus 7.1 mit der DFP- und der BFGS-Formel heißen DFP- bzw. BFGS-Verfahren. Man kann leicht nachprüfen, dass die gesamte Broyden-Klasse von Update-Formeln in (7.17) in der Form
beschrieben werden kann, wobei und die Matrizen in (7.21) und (7.22) bezeichnen mögen.
In der Praxis hat sich das BFGS-Verfahren als das verlässlichste und effizienteste unter den Rang-2-Quasi-Newton-Verfahren durchgesetzt. Im nächsten Abschnitt wollen wir daher die Konvergenz des BFGS-Verfahrens für gleichmäßig konvexe Funktionen beweisen, was sogar für beliebige semieffiziente Schrittweitenregeln gelingt. Man beachte, dass damit nach Bemerkung 7.12 bei Verwendung einer exakten Schrittweitenregel für gleichmäßig konvexe Funktionen auch die Konvergenz jedes anderen Verfahrens der Broyden-Klasse, also insbesondere die des DFP-Verfahrens bewiesen ist.
Es hat sich jedoch herausgestellt und numerische Beispiele in der angegebenen Literatur veranschaulichen dies, dass das DFP-Verfahren sehr viel empfindlicher auf die Wahl der Schrittweiten als das BFGS-Verfahren reagiert (z.B. [Fle91], [GeiKa99]). So konnte für das DFP-Verfahren im Hinblick auf die Schrittweitenregel auch kein so allgemeines Ergebnis wie das aus dem nächsten Abschnitt für das BFGS-Verfahren bewiesen werden. Hinweise darauf, warum das BFGS-Verfahren insgesamt bessere numerische Ergebnisse als z. B. das DFP-Verfahren liefert, findet man in der neueren Literatur (z. B. [NoWri06], [JaSt04, S. 180]).
(0) Wähle , eine symmetrische, positiv definite Matrix und eine semieffiziente Schrittweitenregel. Setze .
(1) Falls ist, stop! ( ist kritische Lösung von Problem .)
(2) Berechne
eine Schrittweite und setze
(3) Berechne
und
(7.23)
(4) Setze und gehe nach (1).
Wir wollen zunächst beweisen, dass die Matrix im Fall der BFGS-Formel für eine gleichmäßig konvexe Zielfunktion für jedes positiv definit ist. (Den Beweis der positiven Definitheit von für die ganze Broyden-Klasse hatten wir ja nicht vollständig ausgeführt.) Unter den entsprechenden Voraussetzungen fällt Algorithmus 7.13 also in das Schema des Modellalgorithmus 2.5.
Es seien (V1) - (V4) erfüllt, und es sei symmetrisch und positiv definit. In der -ten Iteration von Algorithmus 7.13 hat man dann und und ist auch in (7.23) positiv definit. Mit folgt ferner
Lemma 7.9 impliziert unter den gegebenen Voraussetzungen . Damit hat man und demnach .
Die Matrix und Vektoren die Gestalt
Somit folgt die Symmetrie von wegen
Bleibt zu zeigen, dass für alle gilt.
Mit
erhalten wir wegen und
(7.25)
Ist , so folgt weiter für bzw. , so dass in diesem Fall alles gezeigt ist. Gilt andererseits und damit insbesondere , so kann man folgendermaßen abschätzen:
Also ist positiv definit. Dass die in (7.24) angegebene Matrix die Inverse von ist, zeigt man durch Verifizierung der Gleichung , was etwas aufwändig, aber nicht schwierig ist.
q.e.d.
Der erste Nachweis der Konvergenz des BFGS-Verfahrens wurde von Powell erbracht und stellt eine der großen Leistungen in der Optimierung dar. Da das BFGS-Verfahren eines der wichtigsten Optimierungsverfahren ist, wollen wir hier auch einen Konvergenzbeweis, der auf Werner zurückgeht, für gleichmäßig konvexe Funktionen und eine beliebige semieffiziente Schrittweitenregel führen. Dieser Beweis ist aber recht lang und technisch, so dass der eher numerisch orientierte Leser ihn überspringen mag. Wir benötigen dazu:
Es seien (V1) - (V4) erfüllt. Algorithmus 7.13 bricht entweder nach endlich vielen Schritten mit der Lösung von ab oder er liefert eine Folge , die gegen konvergiert. Genauer gilt sogar
Wir nehmen an, dass Algorithmus 7.13 nicht nach endlich vielen Schritten abbricht. Aus Satz 7.14 schließt man dann induktiv für alle , dass und gilt und dass positiv definit ist. Für alle ist damit ferner eine Abstiegsrichtung (vgl. (7.2)) und gemäß Definition 2.12 einer semieffizienten Schrittweitenregel mit auch für die Menge aus (2.9). Sei nun beliebig.
Es wird eine semieffiziente Schrittweitenregel verwendet, so dass gemäß Definition 2.12 eine Konstante existiert mit
(7.26)
für
Nach Aussage (v) von Lemma 2.9 hat man
Folglich gilt mit (7.26)
Unter Verwendung der Beziehung für gewinnt man daraus
Wenn wir nun zeigen können, dass ein existiert mit
(7.27)
so folgte aus Letzterem
Da nach Lemma 2.9 (iii)
gilt, hätte man dann weiter
Summation über alle k lieferte schließlich
(7.28)
wobei die Konvergenz der rechten Reihe wegen und leicht mit dem Quotientenkriterium erschlossen werden kann. Da die Konvergenz einer Reihe nach sich zieht, dass ihre Glieder gegen 0 streben, folgte aus (7.28) auch die gewünschte Konvergenz .
Wir wollen also (7.27) für ein nachweisen. Dazu zeigen wir, dass für Konstanten die Ungleichungen
(7.29)
und
(7.30)
gelten. Denn hat man dies, so kann man folgenden, auf Powell zurückgehenden „Trick“ anwenden ( bezeichnet dabei die Anzahl der Elemente von ).
Es gilt: Sind und Zahlen mit , dann hat man für
die Abschätzung .
Setzt man , so folgt dies für sofort und für aus
Ferner gilt: Sind und Zahlen mit , dann hat man für
die Abschätzung .
Letztere Aussage folgt offenbar aus der ersteren durch Logarithmisierung mit und .
Gibt es nun von einer -elementigen Menge eine Teilmenge mit und einer „Eigenschaft 1“ sowie eine Teilmenge mit und einer „Eigenschaft 2“, so existiert offenbar eine Teilmenge der Menge mit , welche beide Eigenschaften besitzt. Aus (7.29) und (7.30) folgert man daher bei festem die Existenz einer Teilmenge mit , d. h. insbesondere und
Damit bekommt man weiter
so dass man für die Ungleichung (7.27) erschließt. Folglich müssen wir noch (7.29) und (7.30) beweisen.
Zunächst wollen wir die Gültigkeit von (7.29) nachweisen. Mit ist
und daher unter Verwendung der Lemmata (7.5) und (7.15)
(7.31)
Nach Aussage (ii) von Lemma 2.9 hat man
(7.32)
so dass mit (V3) folgt:
(7.33)
Ferner gilt
(7.34)
(7.35)
Somit kann man mit
aus (7.31) schließen:
(7.36)
Also gilt (7.29) und haben wir nur noch (7.30) zu zeigen. In diesem Zusammenhang halten wir aber noch die folgende Abschätzung fest, die sich aus (7.31) mit (7.33), (7.36) und der Definition von ergibt:
(7.37)
Offenbar ist mit
Für gilt nun, wie man leicht überprüft (siehe auch Aufgabenblatt 5):
so dass speziell für folgt: und somit
Demnach kann man schreiben
Berücksichtigt man nun Lemma 7.5, so bekommt man
Damit erreicht man:
(7.38)
Sind , so schließt man außerdem mit der Ungleichung vom geometrisch-arithmetischen Mittel, mit Lemma 7.15 sowie mit der Abschätzung in (7.37)
(7.39)
Die Ungleichung vom geometrisch-arithmetischen Mittel besagt, dass für Zahlen und gilt:
Zusammen implizieren (7.38) und (7.39)
(7.40)
Aus einer weiteren Anwendung der Ungleichung vom geometrisch-arithmetischen Mittel erhält man ferner mit (7.36)
(7.41)
Unter Ausnutzung von (7.34), (7.35), (7.32), (7.41) und (7.40) gelangt man schließlich zu
wobei eine gewisse Konstante ist. Damit ist auch die Gültigkeit von (7.30) bewiesen.
q.e.d.
Damit haben wir die globale Konvergenz des BFGS-Verfahrens für gleichmäßig konvexe Funktionen bewiesen. Obwohl das BFGS-Verfahren in der Praxis auch für andere nichtlineare Funktionen sehr robust ist, ist bisher nicht bekannt, ob es für beliebige Funktionen und zumindest für einige Schrittweitenregeln in dem Sinne global konvergent ist, dass jeder Häufungspunkt einer durch das Verfahren erzeugten Folge ein stationärer Punkt von ist. Letzteres kann man z. B. für das globalisierte Newton-Verfahren mit der Armijo-Schrittweitenregel zeigen (s. [GeiKa99]). Es sei aber bemerkt, dass jede Funktion in der Umgebung eines lokalen Minimalpunktes, in dem die hinreichenden Optimalitätsbedingungen zweiter Ordnung aus Satz 1.14 erfüllt sind, gleichmäßig konvex ist. Denn es gilt (Beweis: Übung!):
genau dann für ein und ein erfüllt ist, wenn positiv definit ist.
Der Nachweis der superlinearen Konvergenz des BFGS-Verfahrens ist noch aufwändiger als der seiner Konvergenz. Es werden dazu auch stärkere Glattheitsvoraussetzungen benötigt.
Der zweite Summand in (7.49) konvergiert gemäß der Voraussetzung (7.44) gegen 0 für und der erste tut dies aufgrund der Voraussetzung (7.45) und aufgrund der Beschränktheit der Folge , welche sich wegen
aus (7.44) ergibt. Den Grenzwert in (7.46) gewinnt man nun mit den Abschätzungen (7.47), (7.48) und (7.49) und wegen der aus Satz 7.16 hervorgehenden Konvergenz .
q.e.d.
Der folgende Satz zeigt, dass es für den Nachweis der superlinearen Konvergenz des BFGS-Verfahrens genügt, die Bedingung (7.44) nachzuweisen, wenn das Verfahren mit einer der Schrittweitenregeln aus Kapitel 3 verknüpft wird. Wir verwenden in diesem Zusammenhang wieder die Voraussetzung (V5), die gemäß Bemerkung 6.8 das Erfülltsein der Bedingungen (V1) - (V4) nach sich zieht (siehe auch Lemma 7.17):
(V5) Es ist , die Menge aus (2.9) ist konvex und es existieren Konstanten mit
Sei für jedes zunächst oder . Bekanntlich gilt dann die Beziehung
Für alle liegen nun offenbar und und damit auch alle Punkte auf der Verbindungsstrecke zwischen diesen Vektoren in der gemäß (V5) konvexen Menge . Für ein zwischen und gewinnt man daher mittels einer Taylor-Entwicklung
Also bekommt man
und damit unter Verwendung von (V5)
Aus (7.51) und aus der mit Satz 7.16 gesicherten Konvergenz erschließt man somit den Grenzwert in Aussage (i).
Sei nun für alle . Im Hinblick auf Aussage (ii) beachte man zunächst, dass wegen , Voraussetzung (V5) und (7.51) für alle mit einem gilt:
(7.52)
Demzufolge hat man
(7.53)
bzw.
Da die Konvergenz (vgl. Satz 7.16) impliziert, dass
gilt, folgt daraus .
Mittels einer Taylor-Entwicklung schließen wir weiter für ein und für alle
(7.54)
mit
Dieses können wir mit (7.53) nach oben abschätzen durch
Da gegen und gegen 0 konvergieren, strebt der erste Ausdruck auf der rechten Seite der letzten Ungleichung gegen 0, so dass in Verbindung mit (7.51) folgt. Aus (7.54) ergibt sich somit für jedes und alle hinreichend großen die Abschätzung
Gemäß der Definition 3.10 der Armijo-Schrittweitenregel ist für diese daher .
Die erste Ungleichung der Wolfe-Powell- bzw. strengen Wolfe-Powell-Schrittweitenregel ist gemäß Aussage (ii) für alle hinreichend großen für erfüllt. Weiter sind auch hier die Abschätzungen (7.52) und (7.53) gültig, so dass man ebenfalls hat. Unter Verwendung von (7.53) und der Identität schließt man nun mit einem
Grenzwertbildung für liefert wegen der Konvergenz und wegen (7.51) das gewünschte Ergebnis (siehe den letzten Teil des Beweises von Satz 6.10).
q.e.d.
Der Beweis dafür, dass die Bedingung (7.51) für das BFGS-Verfahren erfüllt ist, ist der schwierigste und aufwändigste Teil des Nachweises der superlinearen Konvergenz des BFGS-Verfahrens (siehe [Wer92] für einen solchen Beweis). Die Bedingung (7.51) geht auf Dennis und Moré zurück und ist zentral für die superlineare Konvergenz von Quasi-Newton-Verfahren. Zusammen mit der Forderung an die Schrittweiten, dass für alle hinreichend großen gewählt wird, ist sie nicht nur hinreichend, sondern auch notwendig für die superlineare Konvergenz von Quasi-Newton-Verfahren (z. B. [GeiKa99, S. 55ff.], [SuYu06, S. 241ff.]).
Da
gilt, bedeutet die Bedingung (7.51) nicht, dass die Matrizen für gegen konvergieren müssen, sondern nur, dass sie die Matrix entlang der Richtungen immer genauer anzunähern haben. Allerdings kann man für einige Funktionenklassen tatsächlich auch zeigen, dass für gilt (siehe die Hinweise in [GeiKa99]).
Als Startmatrix für das BFGS-Verfahren wählt man häufig ein skalares Vielfaches der Einheitsmatrix, wobei der Skalar dazu dient, die Variablen geeignet zu skalieren, oder man wählt eine Näherung der Hesse-Matrix von in , indem man z. B. die partiellen Ableitungen mittels sog. finiter Differenzen approximiert. Als Schrittweitenregel für das BFGS-Verfahren wird in der Praxis häufig die Wolfe-Powell- oder die strenge Wolfe-Powell-Regel verwendet. Denn z. B. bei Verwendung der Armijo-Schrittweitenregel kann für Funktionen, die nicht gleichmäßig konvex sind, nicht garantiert werden, dass ist (vgl. Lemma 7.8). Für Details und weitere Hinweise zur Implementation des Verfahrens verweisen wir z. B. auf [NoWri06, S. 142ff.].
Das BFGS-Verfahren zeigt in der Praxis meist sehr viel schnellere Konvergenz als das Gradientenverfahren. Für nichtquadratische Funktionen ist es auch schneller als die CG-Verfahren, wobei es aber im Vergleich mit diesen erheblich mehr Speicherplatz benötigt. Letzteres ist ein Nachteil bei sehr großen Problemen.
Überdies ist das BFGS-Verfahren häufig auch numerisch effizienter als das Newton-Verfahren, obwohl dieses unter geeigneten Voraussetzungen eine höhere Konvergenzrate aufweist. Dies liegt daran, dass für die Berechnung der Matrix und der Richtung nur jeweils (und damit auch zusammen nur) arithmetische Rechenoperationen erforderlich sind, während beim Newton-Verfahren in jeder Iteration ein lineares Gleichungssystem gelöst werden muss, wofür Rechenoperationen benötigt werden. Überdies muss beim Newton-Verfahren in jeder Iteration die Hesse-Matrix von in der aktuellen Näherung exakt oder auf numerischem Wege ermittelt werden. Für Hinweise zum numerischen Verhalten anderer Quasi-Newton-Verfahren wie dem des Kleinmichel- und des DFP-Verfahrens verweisen wir auf die angegebene Literatur (z.B. [GeiKa99], [NoWri06]).
Ein Nachteil von Quasi-Newton-Verfahren insbesondere im Hinblick auf die Lösung großer Optimierungsprobleme ist es, dass die Update-Matrizen häufig nicht die Struktur der Hesse-Matrizen widerspiegeln, also (fast) vollbesetzt sein können, auch wenn die Hesse-Matrizen selbst nur dünn besetzt sind. Daher sollte man Quasi-Newton-Verfahren nur für Optimierungsprobleme kleiner und mittlerer Größe mit maximal wenigen Hundert Variablen verwenden.
Im Hinblick auf die Lösung großer und sehr großer unrestringierter Optimierungsprobleme sind Quasi-Newton-Methoden auf verschiedene Weisen modifiziert worden (z. B. [SuYu06], [NoWri06]). Eine bekannte Klasse von Verfahren ist die der Limited-Memory-Quasi-Newton-Verfahren. Wir verweisen für solche Modifikationen von Quasi-Newton-Verfahren wieder auf die Literatur (z. B. [GeiKa99], [NoWri06]).