Einführung in die Optimierung
Skript zur Vorlesung
von
PD Dr. habil. Ralf Borndörfer
Prof. Dr. Mirjam Dür
Prof. Dr. Alexander Martin
Prof. Dr. Stefan Ulbrih
Wintersemester 2010/2011
TU Darmstadt
Überarbeitete Version vom 18.Oktober2010
Das vorliegendeSkript fasstden Stoder VorlesungOptimierung I(d.h. der
Einführung in dieOptimierung) des Wintersemesters2010/2011 zusammen.
Teiledes Skripts (Kapitel3 bis 5)gehen auf die Vorlesungen Diskrete Opti-
mierung I und II von Prof. Dr. Alexander Martin zurük, die er an der TU
Darmstadtinden Jahren2000 bis2003 hielt,sowie aufdieLineare Optimie-
rungvonProf.MartinGrötshel,dieerimWintersemester1984/1985ander
Universität Augsburghielt.
Kapitel 6 ist dem Buh von Grötshel, Lovasz, und Shrijver [GLS88℄ ent-
nommen bzw. beruht teilweise auf einemSkript von Prof. M. Grötshel zur
VorlesungLineare Optimierung vom Wintersemester 2003/2004.
Die Kapitel 7 und 8 orientieren sih an den Bühern von R. Horst [Ho79℄,
C.GeigerundC.Kanzow[GK99,GK00℄,J.NoedalundS.J.Wright[NW99℄
und anVorlesungen zur Optimierung,die S.Ulbrih inden Jahren 2000 bis
2004 an der TU Münhen gehalten hat.
Besonderer Dank beider Verfassungdes Skripts gilt Thorsten Materne, der
groÿe Teiledavongeshrieben hat, sowieMarkus Möller, derdas Skript Kor-
rekturgelesenhat.DennohistdasSkriptnohnihtvollständigüberarbeitet
und esist siherlihniht frei von Fehlern.Für Hinweise auf solhe sind wir
immer dankbar.
Darmstadt, imWintersemester 2010
PD Dr.habil. Ralf Borndörfer
Prof. Dr. MirjamDür
Prof. Dr. Alexander Martin
Prof. Dr. Stefan Ulbrih
1 Einleitung 7
2 Konvexe Mengen und Funktionen 15
2.1 Konvexe Mengen . . . 15
2.2 Extrempunkte und Extremrihtungen . . . 19
2.3 Trennungssätze . . . 22
2.4 Stützeigenshaften . . . 27
2.5 Konvexe Funktionen . . . 28
2.6 Dierenzierbare konvexe Funktionen . . . 31
2.7 Optimalitätsresultatefür konvexe Optimierungsprobleme . . . 33
3 Polytope und Polyeder 37 3.1 Seitenähen vonPolyedern . . . 40
3.2 Eken, Faetten, Redundanz . . . 44
3.3 Dimensionsformel und Darstellung von Seitenähen . . . 48
4 Grundlagen der Linearen Optimierung 53 4.1 Duales Problemund shwaher Dualitätssatz . . . 54
4.2 Das Farkas-Lemma . . . 62
4.3 Optimalitätsbedingungenund der starke Dualitätssatzder Linearen Optimierung 65 5 Der Simplex-Algorithmus 77 5.1 Basen, Basislösungen und Degeneriertheit . . . 77
5.2 Die Grundversiondes Simplex-Verfahrens. . . 81
5.3 Phase I des Simplex-Algorithmus . . . 92
5.4 Implementierung des Simplex-Verfahrens . . . 96
5.5 Varianten des Simplex-Algorithmus . . . 101
5.5.1 Der duale Simplex-Algorithmus . . . 101
5.5.2 Obere und untere Shranken . . . 108
5.6 Sensitivitätsanalyse . . . 117
6 Die Ellipsoidmethode und Polynomialität für rationale LPs123 6.1 PolynomialeAlgorithmen. . . 123
6.2 Reduktion vonLPs auf Zulässigkeitsprobleme . . . 127
6.3 Die Ellipsoidmethode . . . 134
6.4 Laufzeit der Ellipsoidmethode . . . 143
6.5 Separieren und Optimieren . . . 146
7 Optimalitätsbedingungen für nihtlineare Probleme 151 7.1 Optimalitätsbedingungen. . . 152
7.1.1 Tangentialkegel und Linearisierungskegel . . . 152
7.1.2 Karush-Kuhn-Tuker-Bedingungen . . . 155
8 Quadratishe Probleme 159 8.1 Probleme mitGleihheitsrestriktionen. . . 159
8.2 Strategie der aktiven Menge für Ungleihungen. . . 162
Literaturverzeihnis i
Index ii
Einleitung
Optimierung beshäftigt sih damit,Minima oder Maximaeiner Funktion
f
über einer Menge
X
zu nden. Aus der Analysis ist der Satz bekannt, dasseine stetige Funktion über einer kompakten Menge ihr Minimum und ihr
MaximuminPunkten
x min
undx max
annimmt.DieserSatzistabereinreinerExistenzsatz. Er sagt nihts darüber aus, wie man diese Punkte
x min
undx max
praktish berehnen kann. Optimierung im weitesten Sinn beshäftigt sih mitdiesem Problem.Die Funktion, deren Minimum oder Maximum gefunden werden soll, wird
Zielfunktiongenannt,dieMenge
X
heiÿtzulässigeMenge.DieElementex ∈ X
heiÿen zulässige Punkte oder zulässige Lösungen. Die zulässige Menge kann
der ganze Raum
R n
sein (dann spriht man vonunrestringierter Optimierung bzw.OptimierungohneNebenbedingungen);siekannaberauheineTeilmengedes Raumessein, die durh sogenannte Nebenbedingungen beshrieben wird.
In diesem Skript werden zwei vershiedene Shreibweisen für ein Minimie-
rungsproblem verwendet:
min { f (x) : x ∈ X } ,
bzw.min f (x)
s.t.
x ∈ X .
Beidesbedeutet dasselbe:Wirsuhen dasMinimumder Funktion
f
überderMenge
X
.DieAbkürzungs.t. stehtfürdasenglishesubjetto,wassovielbedeutet wie unter den Nebenbedingungen.
Oft ist diezulässige Menge durh Gleihungen und Ungleihungen beshrie-
ben, also
X = { x ∈ R n : h(x) = 0, g(x) ≤ 0 }
mit Funktionen
h : R n → R k
,g : R n → R m
.0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 0
2 4 6 8 10 12 14 16 18
x 1 x 2
f
Abbildung1.1: Funktion
f (x) = x 3 − 7.5x 2 + 18x − 10.5
imIntervall[1, 5]
.Die Menge der Punkte aus
X
, in denen das Minimum angenommen wird,bezeihnen wir mit
Argmin(f, X )
. Formal:α = min { f (x) : x ∈ X } ⇐⇒ Argmin(f, X ) = { x ∈ X : f (x) = α } .
Beispiel 1.1 (Optimierungsproblem) Wir suhen das Minimum der
Funktion
f (x) = x 3 − 7.5x 2 + 18x − 10.5
über der Menge aller Punkte, diefolgende zwei Nebenbedingungen erfüllen:
x − 1 ≥ 0
undx 2 − 5x ≤ 0
.DieZielfunktionin diesemBeispiel ist alsodieFunktion
f (x) = x 3 − 7.5x 2 + 18x − 10.5
, die zulässige Menge ist die MengeX = { x ∈ R : x − 1 ≥ 0, x 2 − 5x ≤ 0 } = [1, 5]
. Formal wird das Optimierungsproblem geshrieben alsmin { x 3 − 7.5x 2 + 18x − 10.5 : x − 1 ≥ 0, x 2 − 5x ≤ 0 } ,
oder auh
min x 3 − 7.5x 2 + 18x − 10.5
s.t.
x − 1 ≥ 0 x 2 − 5x ≤ 0.
Siehe Abbildung 1.1 für eine Skizze. Das Minimum wird im Punkt
x = 1
angenommen, d.h.
Argmin(f, X ) = { 1 }
, der zugehörige Funktionswert istf(1) = 1
.In der Graphik isteinPhänomen gut zu sehen, das sehr oft beobahtet wer-
den kann: Es gibt einsogenanntes lokales Minimum im Punkt
x = 3
. DieseBeobahtung führt uns zur folgenden Denition:
Denition 1.2 (Minimalpunkt) Ein Punkt
x ¯ ∈ X
heiÿt lokaler Minimal-punkt der Funktion
f
über der MengeX
, wenn eine oene UmgebungU (¯ x)
von
x ¯
existiert, so dassf(¯ x) ≤ f (x) ∀ x ∈ U (¯ x) ∩ X .
Der Punkt
x ¯ ∈ X
heiÿt globaler Minimalpunkt der Funktionf
über der Men-ge
X
, wennf (¯ x) ≤ f (x) ∀ x ∈ X .
Lokale und globale Maximalpunkte sindanalog deniert.
Eine einfaheBeobahtungistdie,dass jedesMaximierungsproblemauhals
Minimierungsproblem geshrieben werden kann. Dabei verwendet man die
Relation
max { f(x) : x ∈ X } = − min {− f (x) : x ∈ X } .
Statt also ein Maximierungsproblem
max { f(x) : x ∈ X }
zu lösen, kannman das Minimierungsproblem
min {− f(x) : x ∈ X }
lösen. Um dann denkorrekten Wert des Maximums zu erhalten, muss die Lösung des Minimie-
rungsproblems nohmit
( − 1)
multipliziertwerden.Beispiel 1.3 (Fortsetzung von Beispiel 1.1) Suhen wir nun das Ma-
ximum der Funktion
f(x) = x 3 − 7.5x 2 + 18x − 10.5
über der MengeX = { x ∈ R : x − 1 ≥ 0, x 2 − 5x ≤ 0 } = [1, 5]
. Wie man aus Abbildung 1.1sieht, wird das Maximumim Punkt
x = 5
angenommen,der zugehörigeZiel- funktionswert istf (5) = 17
. Bestimmen wir dieses Maximum nun über denUmweg des Minimierungsproblems:
max { x 3 − 7.5x 2 + 18x − 10.5x : x − 1 ≥ 0, x 2 − 5x ≤ 0 } =
− min {− (x 3 − 7.5x 2 + 18x − 10.5) : x − 1 ≥ 0, x 2 − 5x ≤ 0 } ,
Graphish ist dies in Abbildung 1.3 dargestellt. Das Minimum von
− f
über[1, 5]
wird im Punktx = 5
angenommen, der zugehörige Funktionswert istf (5) = − 17
. Um wieder auf das Maximum der ursprünglihen Funktion zu kommen, multiplizieren wir jetzt( − 17)
mit( − 1)
.Je nahdem, welhe Form die Zielfunktion und die zulässige Menge haben,
isteinOptimierungsproblemvershiedenshwerzu lösen.DerfolgendeÜber-
blik soll eine grobeEinteilung von Optimierungsproblemenbieten.
0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5
−18
−16
−14
−12
−10
−8
−6
−4
−2 0
x 1 x 2
− f
Abbildung 1.2: Funktion
− f (x) = − (x 3 − 7.5x 2 + 18x − 10.5)
im Intervall[1, 5]
.Lineare Optimierungsprobleme
VoneinemlinearenOptimierungsproblem,auhlinearesProgrammoderlineares
Problem (LP) genannt, spriht man, wenn sowohl die Zielfunktion als auh
die Nebenbedingungen lineare Funktionen vom
R n
nahR
sind. Wie mansihdenken kann, istdiesdieeinfahsteKlasse vonOptimierungsproblemen.
Es gibt eine Reihe von Algorithmen zur Lösung von LPs, am bekanntesten
istwohl der Simplex-Algorithmus.
Einlineares Optimierungsproblemin Standardform ist von der Gestalt:
min c T x
s.t.Ax = b, x ≥ 0
mit
c ∈ R n
,b ∈ R m
,A ∈ R m,n
,x ∈ R n
.Beispiel 1.4 (Transportproblem) EinChemieunternehmenhat
m
Fabri-ken
F 1 , . . . , m
undr
VerkaufsstellenV 1 , . . . , V r
.JedeFabrikF i
kannproWohea i
TonneneinesgewissenhemishenProdukts herstellen.a i
heiÿt Kapazitätder Fabrik
F i
. Jede VerkaufsstelleV j
hat einen bekannten wöhentlihen Be- darf vonb j
Tonnen des Produkts. Die Kosten, um eine Tonne des Produktsvon Fabrik
F i
an VerkaufsstelleV j
zu transportieren, sindc ij
.Problemstellung: Welhe Menge des Produkts muss man von jeder Fabrik
zu jeder Verkaufsstelle transportieren, so dass die Kapazitäten der Fabriken
eingehalten, der Bedarf aller Verkaufsstellen gedekt und die Kosten hierbei
minimal sind?
Modellierung als Optimierungsproblem: Sei
x ij ≥ 0
,1 ≤ i ≤ m
,1 ≤ j ≤ r
, die Zahl der Tonnen, die vonF i
nahV j
transportiert werden. Dann kann man das Problem wie folgt formulieren:min X m
i=1
X r
j=1
c ij x ij
(Transportkosten minimieren)s.t.
X r
j=1
x ij ≤ a i , i = 1, . . . , m,
(Kapazitäten einhalten)X m
i=1
x ij ≥ b j , j = 1, . . . , r,
(Bedarf erfüllen)x ij ≥ 0, i = 1, . . . , m, j = 1, . . . , r.
OensihtlihhandeltessihumeinLinearesOptimierungsproblem.Inprak-
tishen Anwendungen kommen oft noh Produktions- und Lagerhaltungsko-
sten dazu.
Diskrete Optimierungsprobleme
Ein diskretes Optimierungsproblem ist sehr oft ein lineares Programm, bei
dem diezulässigeMenge zusätzlih durh so genannteGanzzahligkeitsbedin-
gungen eingeshränkt ist,d.h.Bedingungen der Art
x i ∈ Z
,oderx i ∈ { 0, 1 }
;solhe Optimierungsprobleme heissengeminsht-ganzzahligeProgramme oder
gemisht-gannzahlige Probleme (english Integer Program oder kurz IP) Das
klingt im ersten Moment leihter, shlieÿlih hat ein solhes Problem ja nur
endlih viele zulässige Punkte. Man könnte alsoeinfah alle durhprobieren
und würde so das Optimum ganz einfah nden. Der Grund, weshalb das
niht möglih ist, liegt am meistens exponentiellen Wahstum der Anzahl
der zulässigen Punkte, sobald die Dimension des Problems groÿ wird. Man
brauht daher spezielleLösungstehniken für diskrete Probleme.
Kontinuierlihe Optimierungsprobleme
sind Optimierungsprobleme, bei denen keine Ganzzahligkeitsbedingungen
auftreten.
Konvexe Optimierungsprobleme
Hiertauht zum ersten Malder Begrider Konvexität auf,der inKapitel 2
ausführlihbehandelt wird. Die wihtige Eigenshaft konvexer Optimierungs-
probleme ist, dass jedes lokale Optimum bereits das globale Optimum ist.
Es ist also möglih, Algorithmen zu entwikeln, die auf lokaler Information
basieren, wie zum Beispiel den Gradienten von Zielfunktion und Nebenbe-
dingungen.
Globale Optimierungsprobleme
BeiglobalenOptimierungsproblementretenlokaleMinimaauf,dienihtgleih
dem globalen Minimum sind. Hier genügt es niht mehr, lokale Informatio-
nen, wie Gradienten, zu betrahten. Es müssen spezielle globale Optimie-
rungstehniken entwikelt werden.
Quadratishes Optimierungsprobleme
EinquadratishesOptimierungsproblemisteinlinearsProgrammmitquadrati-
sherZielfunktion.Einquadratishes OptimierungsprobleminStandardform
istvonder Gestalt:
min x T Qx
s.t.Ax = b, x ≥ 0
mit
Q ∈ R n,n
,b ∈ R m
,A ∈ R m,n
,x ∈ R n
. Es ist leiht zu sehen, dassdieZielfunktion genau dann konvex ist, wenn alle Eigenwerte der Matrix
Q
niht-negativ sind.Eine solhe Matrix heisst positiv semidenit.
Beispiel 1.5 (Portfoliooptimierung) Ein Investor möhte einen Betrag
B > 0
soineinPortfolioausn
Aktieninvestieren,dassdieerwarteteRendite mindestensρ
und das Risiko minimal ist. Bezeihner i
dieRendite deri
-tenAktie nah einem Jahr (dies ist eine Zufallsvariable) und
x ∈ R n
mitX n
i=1
x i = 1, x ≥ 0,
die Anteile der Aktien am Portfolio (der Anleger investiert
x i B
in Aktiei
),dann ist die Rendite des Portfolios
R(x) = r T x, r = (r 1 , . . . , r n ) T .
Wir nehmenan,dass derZufallsvektor
r = (r 1 , . . . , r n ) T
denErwartungswertµ ∈ R n
und die KovarianzmatrixΣ ∈ R n,n
habe. Dann ist die erwarteteRendite des Portfolios
E(R(x)) = µ T x
und seine Varianz
V (R(x)) = x T Σx.
Suhen wir nun das Portfolio mit erwarteter Rendite
≥ ρ
, das minimaleVarianz hat, so führt dies auf das Optimierungsproblem
min x T Σx
s.t.X n
i=1
x i = 1, x ≥ 0, µ T x ≥ ρ.
Dies ist ein konvexes quadratishes Optimierungsproblem. Suhen wir alter-
nativ das Portfolio mit Varianz
≤ ν
, das die maximale erwartete Renditehat, so erhalten wir das Optimierungsproblem
max µ T x
s.t.X n
i=1
x i = 1, x ≥ 0, x T Σx ≤ ν.
Dies ist ein konvexes Optimierungsproblem mit linearen und quadratishen
Nebenbedingungen.
***
Diese Vorlesung soll Grundlagen vermitteln, die sowohl für die diskrete als
auhfürdiekontinuierlihe Optimierunggebrauhtwerden.Auf dieserBasis
ist später eine Spezialisierungin dieeine oder andereRihtung möglih.
Konvexe Mengen und Funktionen
Ein grundlegender Begri für die gesamte Optimierung ist der Begri der
Konvexität. Wie bereits angedeutet, ist das Vorhandensein oder Nihtvor-
handensein von Konvexität mitentsheidend dafür, wie shwierig ein Opti-
mierungsproblem ist.Der Begri konvex wird sowohl auf Mengenals auh
auf Funktionen angewendet. Wirbeginnen mitkonvexen Mengen.
2.1 Konvexe Mengen
Denition 2.1 Eine Menge
C ⊂ R n
heiÿtkonvex, wennmitjezweiPunktenaus
C
auh diegesamte Verbindungsstreke zwishen denPunkten inC
liegt,d.h. wenn aus
x 1 , x 2 ∈ C
undλ ∈ [0, 1]
folgtλx 1 + (1 − λ)x 2 ∈ C .
Beispiel 2.2 FolgendeMengen sind konvex (Übung):
a) die leere Menge; die Menge, die nur aus einem einzigen Element
x ∈ R n
besteht; der ganze Raum
R n
;b) jede Hyperebene
H
, das ist eineMenge der FormH = { x ∈ R n : a T x = α } ,
wobei
a ∈ R n , a 6 = 0
undα ∈ R
.a
heiÿt dabei Normalvektor zuH
.) jeder von einer Hyperebene
H
erzeugte abgeshlossene HalbraumH a = { x ∈ R n : a T x ≥ α } ,
und jeder dazu gehörende oene Halbraum
H o = { x ∈ R n : a T x > α } ;
d) die Lösungsmenge eines linearen Gleihungssystems
Ax = b
, mitA ∈ R m × n
undb ∈ R m
;e) jede abgeshlossene (und auh jede oene) Kugel um einen gegebenen
Punkt
x 0 ∈ R n
vom Radiusα > 0
B α (x 0 ) = { x ∈ R n : k x − x 0 k ≤ α } .
Den Punkt
z = λx 1 + (1 − λ)x 2
mitλ ∈ [0, 1]
nennt man Konvexkombina- tion vonx 1
undx 2
. Bei dieser Denition muss man sih jedoh niht aufPunktepaarebeshränken, man kann allgemeinKonvexkombinationen von
p
Punkten betrahten:
Denition 2.3 Gegeben seien Punkte
x 1 , . . . , x p ∈ R n
und Zahlenλ 1 , . . . , λ p ∈ R +
mitder EigenshaftP p
i=1 λ i = 1
. Dann heiÿt der Punktz = λ 1 x 1 + . . . + λ p x p
eineKonvexkombination der Punkte
x 1 , . . . , x p
. Gilt zusätzlih0 < λ i < 1
füralle
λ i
, so heiÿtz
ehte Konvexkombination vonx 1 , . . . , x p
.Satz 2.4 EineMenge
C ⊂ R n
ist konvexgenau dann,wennfür jedebeliebigeZahl
p ∈ N
alle Konvexkombination vonp
Punktenx 1 , . . . , x p
ausC
wiederin
C
enthalten ist.Beweis. (
= ⇒
): Angenommen,C
istkonvex.BeweismittelsInduktionnahp
:Für
p = 1
ist die Aussage oensihtlih wahr. Nehmen wir nun an, dass siefür
p > 1
wahr ist und betrahtenx 1 , . . . , x p+1 ∈ C
,λ 1 , . . . , λ p+1 ∈ R +
mitP p+1
i=1 λ i = 1
undx = λ 1 x 1 + . . . + λ p x p + λ p+1 x p+1 .
OhneBeshränkungderAllgemeinheitkönnenwir
λ p+1 6 = 1
annehmen(sonstwäre bereits
x = x p+1 ∈ C
).Mitz = λ 1
1 − λ p+1
x 1 + . . . + λ p 1 − λ p+1
x p
können wir
x
ausdrüken alsx = (1 − λ p+1 )z + λ p+1 x p+1 .
Es gilt
λ 1
1 − λ p+1 ≥ 0, . . . , λ p
1 − λ p+1 ≥ 0
undX p
i=1
λ i
1 − λ p+1
= 1,
daher ist, laut Induktionsannahme,
z ∈ C
. DaC
konvex ist,istauhx ∈ C
.(
⇐ =
): Ist umgekehrt jedeKonvexkombinationvonp
Punkten ausC
wiederin
C
enthalten,danngiltdasinsbesonderefürp = 2
.DaheristC
einekonvexeMenge nah Denition 2.1.
2
Eine einfahe und leiht zu beweisende geometrishe Eigenshaft konvexer
Mengen beshreibt der folgende Satz.
Satz 2.5 Der Durhshnitt einer beliebigen Familie konvexer Mengen ist
wieder eine konvexe Menge.
Beweis. Übung.
2
Esistleihtzu sehen,dassdieVereinigungkonvexerMengenimAllgemeinen
nihtkonvex ist.
DieSummekonvexer MengenundderenskalareVielfahesindkonvexeMen-
gen:
Satz 2.6 Seien
C
undD
konvexeMengenimR n
undα ∈ R
.Dannsindauhdie Mengen
C + D := { x + y : x ∈ C , y ∈ D}
sowie
α C := { αx : x ∈ C}
konvex.
Beweis. Übung.
2
Betrahtet maneinenihtkonvexeMenge
M ⊂ R n
,solässtsihdiesekonve-xizieren, indemman konvexe Obermengen von
M
betrahtet. Der Durh-shnitt alldieser Mengen istdiekleinste konvexe Menge, die
M
enthält:Denition 2.7 Der Durhshnitt aller konvexen Mengen, die
M
enthalten,heiÿt diekonvexe Hülle von
M
und wird mit onvM
bezeihnet.Der folgendeSatz zeigt, dass diekonvexe Hülleeiner Menge
M
dasselbe istwie dieMenge aller Konvexkombinationen von Punkten aus
M
.Satz 2.8 Die konvexe Hülle einer Menge
M
ist die Menge aller Konvex-kombinationen von Punkten aus
M
.Beweis. Übung.
2
Jeder Punkt inonv
M
istalsodie Konvexkombination von Punkten inM
.Der folgende Satz sagt, dass man für diese Darstellung höhstens
(n + 1)
Punkte benötigt,wobei
n
die Dimensiondes Raumes ist.Satz 2.9 (Satz von Carathéodory) Die konvexe Hülle einer Menge
M ⊂ R n
ist die Menge aller Konvexkombinationenvon(n + 1)
-elementigen TeilmengenvonM
.Beweis. Sei
x ¯ ∈
onvM
. Wegen Satz 2.8 bedeutet das: Es existierenx 1 , . . . , x p ∈ M
so, dass¯ x =
X p
i=1
λ i x i ,
mitX p
i=1
λ i = 1, λ i ≥ 0 ∀ i.
Wenn bereits
p ≤ n + 1
gilt, dannist nihts mehr zu zeigen. Giltp > n + 1
,dannzeigen wir, dass man für dieDarstellungvon
x
auf einenderp
Punkteverzihten kann:
Betrahten wir dazudie
(p − 1)
Vektoreny i = x i − x p (i = 1, . . . , p − 1)
.Fürp > n + 1
sind diey i
linear abhängig, d.h. esexistieren Zahlenα 1 , . . . , α p − 1
,dieniht allevershwinden, so dass
p − 1
X
i=1
α i y i = 0.
Anders gesagt,
p − 1
X
i=1
α i (x i − x p ) = 0
oder
p − 1
X
i=1
α i x i + −
p − 1
X
i=1
α i
!
x p = 0.
Mit der Denition
α p = − P p − 1 i=1 α i
haben wir also
X p
i=1
α i x i = 0,
X p
i=1
α i = 0.
Wegen
(α 1 , . . . , α p ) 6 = (0, . . . , 0)
gibt esdaher mindestens einα i > 0
.Sei nun
i 0
deniert durhλ i 0
α i 0
= min λ i
α i
: α i > 0
.
Dann gilt
λ i − λ i 0
α i 0
α i ≥ 0 ∀ i,
undX p
i=1
λ i − λ i 0
α i 0
α i
= 1.
Somit ist
¯ x =
X p
i=1
λ i x i = X p
i=1
λ i − λ i 0
α i 0
α i
x i =
X p
i = 1 i 6= i 0
λ i − λ i 0
α i 0
α i
x i
eine Darstellung von
x ¯
als Konvexkombination von eht weniger alsp
Punkten aus
M
.2
2.2 Extrempunkte und Extremrihtungen
Denition 2.10 Sei
C 6 = ∅
eine konvexe Menge imR n
. Ein Punktx
heiÿtExtrempunkt von
C
, wenn er niht als ehte Konvexkombination von ver- shiedenen Punkten ausC
dargestellt werden kann, d.h. wenn ausx = λx 1 + (1 − λ)x 2
mitx 1 , x 2 ∈ C
undλ ∈ (0, 1)
folgt:x = x 1 = x 2
. HatC
nur endlih viele Extrempunkte, so nenntman diese auh Eken.
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 0
1 2 3 4 5 6
x 1 x 2
C
Abbildung2.1: Konvexe Menge zu Beispiel2.12
Beispiel 2.11 BetrahtediekonvexeMenge
C = { (x, y ) ∈ R 2 : x 2 +y 2 ≤ 1 }
.Die Menge ihrer Extrempunkteist
{ (x, y) ∈ R 2 : x 2 + y 2 = 1 }
.Beispiel 2.12 Betrahte die konvexe Menge aus Abbildung 2.1. Ihre fünf
Extrempunkte sind dieEken
(0, 2)
,(1, 0)
,(5, 1)
,(4, 4)
und(0.5, 6)
.Konvexe Mengen, die nur endlih viele Extrempunkte besitzen, nennt man
Polyeder bzw. Polytope. Sie spielen eine wihtige Rolle in der linearen Opti-
mierungundwerdendaherineinemeigenenKapitel(Kapitel3)ausführliher
behandelt.
IndenobigenbeidenBeispielenkannmanzeigen,dassjederPunktderMenge
als Konvexkombination der Extrempunkte darstellbar ist. Tatsählih gilt
folgenderSatz, den wir ohne Beweisanführen:
Satz 2.13 Sei
C 6 = ∅
eine kompakte konvexe Menge imR n
. Dann istC
diekonvexe Hülle ihrer Extrempunkte.
Beweis. Siehe, z.B. Rokafellar[Ro70℄.
2
DieserSatz giltjedohnurfürkompaktekonvexeMengen.Bei unbeshränk-
ten konvexen MengengenügendieExtrempunktenihtmehrzurDarstellung
der gesamten Menge, wie man amfolgendenBeispiel sieht:
Beispiel 2.14 Betrahte die abgeshlossene konvexe Menge
C = { (x, y) ∈ R 2 : y ≥ | x |}
. Der Ursprung ist der einzige Extrempunkt dieser Menge, die Menge besteht aber niht nur ausKonvexkombinationen dieses Extrempunk-tes.
Um auh unbeshränkte konvexe Mengen beshreiben zu können, benötigt
man den Begrider Extremrihtung.
Denition 2.15 Sei
C 6 = ∅
eine abgeshlossene konvexe Menge imR n
. EinVektor
d ∈ R n
,d 6 = 0
heiÿt Rihtung vonC
, wenn für jedesx ∈ C
gilt:x + αd ∈ C
für jedesα > 0
.Zwei Rihtungen
d 1 , d 2
vonC
heiÿen vershieden, wennd 1 6 = βd 2
für alleβ > 0
.Eine Rihtung
d
vonC
heiÿt Extremrihtung, wennd
niht darstellbar istals positiveLinearkombination vonzwei vershiedenenRihtungen;d.h. falls
d = β 1 d 1 + β 2 d 2
mitβ 1 , β 2 > 0
, dann istd 1 = γd 2
für einγ > 0
.Beispiel 2.16 (Fortsetzung von Beispiel 2.14.)
Betrahten wir nohmals die Menge
C = { (x, y) ∈ R 2 : y ≥ | x |}
. Rihtungen−4 −3 −2 −1 0 1 2 3 4
0 0.5 1 1.5 2 2.5 3 3.5 4
x 1 x 2
C
Abbildung2.2: Konvexe Menge zu Beispiel 2.16
von
C
sind jene Vektoren, die mit dem Vektor(0, 1) T
einen Winkel≤ 45 ◦
einshlie´ÿen. Die Extremrihtungen sind genau die Vektoren
d 1 = ( − 1, 1) T
und
d 2 = (1, 1) T
. Jede andere Rihtung vonC
ist als Linearkombination vond 1
undd 2
darstellbar.Mehr überExtrempunkte und Extremrihtungen gibt es imKapitel3.
2.3 Trennungssätze
Trennungssätze beshreiben den anshaulih einleuhtenden Sahverhalt,
dass es möglihist, zwishen zwei disjunkte konvexe Mengen
C 1
undC 2
eineHyperebene zu legen,die diebeiden Mengen trennt, d.h. die den Raum so
inzweiHalbräumeteilt,dass
C 1
ineinemHalbraumliegt undC 2
imanderen.Manuntersheidetdabei zwishen Trennung und strikter Trennung:
Denition 2.17 Seien
M 1
undM 2
beliebige Mengen imR n
. Eine Hyper-ebene
H
trenntM 1
undM 2
, wennM 1
undM 2
in gegenüberliegenden ab- geshlossenen Halbräumen liegen, die vonH
erzeugt werden.Die Trennung heiÿt strikt, wenn das Entsprehende für die von
H
erzeugtenoenenHalbräume gilt.
Wir beweisen zunähst eine Proposition, die zum Beweis des strikten Tren-
nungssatzes (Satz 2.19) benötigt wird.
Proposition 2.18 Sei
C
einenihtleere,abgeshlossene, konvexe Menge imR n
, welhe den Ursprung niht enthält. Dann existiert eine Hyperebene, dieC
und den Ursprung strikt trennt.Beweis. Sei
B α
eine abgeshlossene Kugel um den Ursprung,B α = { x ∈ R n : k x k ≤ α } ,
so, dass
C ∩ B α 6 = ∅
. Dieser Durhshnitt ist eine kompakte Menge, dahernimmt die stetige Funktion
k x k
ihr Minimum überC ∩ B α
in einem Punkt¯
x ∈ C ∩ B α
an. Wegen0 ∈ C /
giltk x k > 0
für jedesx ∈ C
und somit auhk x ¯ k > 0
.Nunsei
x
einbeliebigerPunktausC
.DaC
konvex ist,giltfürjedesλ ∈ [0, 1]
(λx + (1 − λ)¯ x) ∈ C
undk λx + (1 − λ)¯ x k 2 ≥ k x ¯ k 2 ,
da
x ¯
minimalenAbstand von0
hat. Anders gesagt,(λx + (1 − λ)¯ x) T (λx + (1 − λ)¯ x) ≥ x ¯ T x ¯ ∀ λ ∈ [0, 1],
oder
λ 2 (x − x) ¯ T (x − x) + 2λ¯ ¯ x T (x − x) ¯ ≥ 0 ∀ λ ∈ [0, 1].
(2.1)Wir zeigen jetzt, dass
x ¯ T (x − x) ¯ ≥ 0
: Angenommen, es wärex ¯ T (x − x) = ¯
− ε < 0
. Dannkönnen wirλ ∈ (0, 1)
sokleinwählen, dass2ε > λ(x − x) ¯ T (x − x) ¯ > 0.
Dann würde folgen, dass
2λ¯ x T (x − x) ¯ < − λ 2 (x − x) ¯ T (x − x), ¯
ein Widerspruh zu (2.1).Daher muss für jedes
x ∈ C
¯
x T (x − x) ¯ ≥ 0
sein, das heiÿt
¯
x T x ≥ x ¯ T x > ¯ 0 ∀ x ∈ C .
Sei
β = 1 2 x ¯ T x ¯
. Damittrennt dieHyperebeneH = { x ∈ R n : ¯ x T x = β }
strikt dieMenge
C
und den Ursprung.2
Mit Hilfe dieser Proposition können wir den eigentlihen Trennungssatz für
abgeshlossene Mengen beweisen.
Satz 2.19 (Strikter Trennungssatz) Seien
C 1
undC 2
zwei disjunkte,nihtleere,abgeshlossene,konvexeMengenim
R n
, undseiC 2
kompakt.Dannexistiert eine Hyperebene, die
C 1
undC 2
strikt trennt.Beweis. Da
C 2
kompakt ist,istdieMengeC 1 − C 2
abgeshlossen und (nah Satz2.6)konvex.DaC 1
undC 2
disjunktsind,istderUrsprungnihtinC 1 −C 2
enthalten. Nah Proposition 2.18 existiert alsoeine Hyperebene
H C 1 −C 2 = { x ∈ R n : ¯ x T x = α }
die den Ursprung strikt von
C 1 − C 2
trennt. Hierbei minimiertx ¯ ∈ C 1 − C 2
dieDistanz von
C 1 − C 2
zum Ursprung, undα = 1 2 x ¯ T x ¯
.Für jedes
x ∈ C 1 − C 2
gilt¯
x T x > α > 0.
Für alle
u ∈ C 1 , v ∈ C 2
istx = u − v ∈ C 1 − C 2
und damit¯
x T (u − v ) > α > 0.
Daher
¯
x T u > x ¯ T v + α > x ¯ T v ∀ u ∈ C 1 , v ∈ C 2 .
Esfolgt, dass
u inf ∈C 1 x ¯ T u ≥ sup
v ∈C 2
¯
x T v + α > sup
v ∈C 2
¯ x T v.
Esexistiert daher eine Zahl
β
so,dassu inf ∈C 1 x ¯ T u > β > sup
v ∈C 2
¯ x T v.
Damittrennt die Hyperebene
{ x ∈ R n : ¯ x T x = β }
strikt dieMengenC 1
undC 2
.2
Fürstrikte Trennbarkeit istdieVoraussetzung, dass eineder beidenMengen
kompakt ist, unverzihtbar, wie man an folgendemBeispielsieht:
Beispiel 2.20 Sei
C 1 := { (x, y) ∈ R 2 : y ≤ 0 }
undC 2 := { (x, y) ∈ R 2 : y ≥ e x }
. Die Mengen sind disjunkt, beide sind konvex und abgeshlossen, trotzdem ist keine strikte Trennung möglih.C 1
undC 2
sindabertrennbardurhdieHyperebeneH = { (x, y) ∈ R 2 : y = 0 }
.Indiesen beiden Sätzenwares wihtig,dass dievorkommenden Mengenab-
geshlossenwaren,deshalbwardiestrikteTrennungmöglih.Verzihtetman
auf dieAbgeshlossenheit der Mengen, so muss man auh auf die Striktheit
derTrennung verzihten. Diesbeshreiben diefolgendePropositionbzw.der
nähste Satz.
Proposition 2.21 Sei
C
eine nihtleere,konvexe Menge imR n
, welhe denUrsprung niht enthält. Dann existiert eine Hyperebene, die
C
und den Ur-sprung trennt.
Beweis. Für jedes
x ∈ C
seiY (x) = { y ∈ R n : y T y = 1, y T x ≥ 0 } .
Y (x)
ist nihtleer und abgeshlossen. Seienx 1 , . . . , x k
endlih viele Punkteaus
C
.DaC
konvex ist, ist nah Satz 2.4die Menge allerx
, diedarstellbar sind alsx = X k
i=1
α i x i
mitX k
i=1
α i = 1, α i ≥ 0
eine konvexe Teilmengevon
C
.Sie istauÿerdem abgeshlossen.Nah Propo- sition 2.18 existiert daher einy ¯ 6 = 0
so,dass¯
y T x i > 0 ∀ i = 1, . . . , k.
O.B.d.A. nehmen wir
y ¯ T y ¯ = 1
an. Damit isty ¯
in jeder der MengenY (x i )
enthalten, und daher
\ k
i=1
Y (x i ) 6 = ∅ .
Die Mengen
Y (x)
sind kompakt, dasie abgeshlossene Teilmengen der kom- pakten MengeY = { y ∈ R n : y T y = 1 }
sind. Aus der endlihen Durh-shnittseigenshaft 1
folgt daher:
\
x ∈C
Y (x) 6 = ∅ .
Wähle nun ein beliebiges
y ˆ ∈ T
x ∈C Y (x)
. Dann gilty ˆ T x ≥ 0
für allex ∈ C
.Daher trennt dieHyperebene
{ x ∈ R n : ˆ y T x = 0 }
die Menge
C
und den Ursprung.Einanderer,elementarerBeweis:MitderMenge
C
istauhihrAbshlussC = C ∪ ∂ C
konvex.1
DieendliheDurhshnittseigenshaftisteintopologisherBegriundbesagtFolgen-
des:BetrahteeinekompakteMenge
Y
undeinSystemS
vonabgeshlossenenTeilmengen vonY
mit derEigenshaft, dassder Durhshnitt von jeweilsendlih vielenMengen ausS
nihtleerist.Dann istauhderDurhshnittallerMengenausS
nihtleer.Nahzulesenistdiesz.B.inH.Heuser:LehrbuhderAnalysis,Teil2([He03℄).
1.Fall:
0 ∈ C /
DannliefertProposition2.18eineHyperebene,die
C
und0
strikttrennt,alsoerst reht
C
und0
strikttrennt.2.Fall:
0 ∈ C
,also0 ∈ ∂ C
wegen0 ∈ C /
.Wegen
0 ∈ ∂ C
existiert eine Folge(x k ) k ∈ N
mitx k ∈ C /
für allek
undlim k →∞ x k = 0
.Nah Satz 2.19 existieren Hyperebenen
H k = { x : a T k x = α k }
, die jeweilsC
undx k
strikt trennen. Hierbei können wir ohne Einshränkungk a k k = 1
wählen. Esgiltalso
a T k x > α k > a T k x k ∀ x ∈ C .
Wegen
0 ∈ C
gilt insbesondere0 = a T k 0 > α k > a T k x k → 0
fürk → ∞ ,
wobeiwir
| a T k x k | ≤ k a k kk x k k = k x k k → 0
benutzt haben. Es giltalsok lim →∞ α k = 0.
Nun liegt
(a k )
im Kompaktum{ y ∈ R n : k y k = 1 }
und enthält daher einekonvergente Teilfolge
(a k ) k ∈ K ⊂ (a k )
, alsok ∈ lim K →∞ a k = a, k a k = 1.
Grenzübergang
k ∈ K → ∞
ina T k x > α k ∀ x ∈ C
liefertnun
a T x = lim
k ∈ K →∞ a T k x ≥ lim
k →∞ α k = 0 ∀ x ∈ C .
Damittrennt
H = { x : a T x = 0 }
die MengeC
von0
und somit auhC
von0
.2
WiederkönnenwirmitdieserPropositioneinenTrennungssatzfürzweiMen-
gen zeigen.
Satz 2.22 Seien
C 1
undC 2
zwei disjunkte, nihtleere, konvexe Mengen imR n
. Dann existiert eine Hyperebene, dieC 1
undC 2
trennt.Beweis. Die Menge
C 1 − C 2
erfüllt die Voraussetzungen von Proposition 2.21. Daher existiert einVektory ˆ
so,dass für allex ∈ C 1 − C 2
gilt:y ˆ T x ≥ 0
.Dies ist äquivalentdazu, dass aus
u ∈ C 1 , v ∈ C 2
folgt:y ˆ T (u − v) ≥ 0
. Daherexistiert eine Zahl
β
so, dassu inf ∈C 1 y ˆ T u ≥ β ≥ sup
v ∈C 2
ˆ y T v.
Die Hyperebene
{ x ∈ R n : ˆ y T x = β }
trennt daher dieMengenC 1
undC 2
.2
2.4 Stützeigenshaften
Bisher haben wir eine konvexe Menge durh eine innere Eigenshaft be-
shrieben,nämlihdurhKonvexkombinationenvonihrenElementen.Esgibt
eine zweite, äquivalente Beshreibung durh äuÿere Eigenshaften:
Denition 2.23 Sei
C 6 = ∅
eineabgeshlossene,konvexeMengeimR n
.EineHyperebene
H = { x ∈ R n : a T x = α }
heiÿt Stützhyperebene vonC
, wennC ∩ H 6 = ∅
undC ⊆ H +
oderC ⊆ H − ,
wobei
H + = { x ∈ R n : a T x ≥ α }
undH − = { x ∈ R n : a T x ≤ α }
die beiden von
H
erzeugten abgeshlossenen Halbräume sind.H +
bzw.H −
heiÿen dann Stützhalbraum von
C
. FürC ⊆ H +
heiÿt− a
äuÿere NormalevonH
, fürC ⊆ H −
heiÿta
äuÿere Normale.Satz 2.24 Sei
C 6 = ∅
einekompakte, konvexeMengeunda ∈ R n \{ 0 }
. Dannexistiert eine Stützhyperebene von
C
mit äuÿerer Normalea
.Beweis. Da
C 6 = ∅
kompakt und die Funktionf : R n → R
,f(y) = a T y
stetig ist, existiert
α = max y ∈C a T y
.Damit istH = { x ∈ R n : a T x = α }
die gesuhte Stützhyperebene.
2
Satz 2.25 Jede nihtleere, abgeshlossene, konvexe Menge
C
imR n
istDurhshnitt ihrer Stützhalbräume.
Beweis. Bezeihnen wir mit
H +
einen Stützhalbraum, und mitT H +
denDurhshnitt aller Stützhalbräume. Da
C ⊆ H +
für jeden Stützhalbraum, giltC ⊆ \ H + .
Angenommen,
C ( T
H +
,d.h. es existiert einx ¯ ∈ T
H + \ C
.Wegen Satz 2.19 existiert eine Hyperebene
G = { x : a T x = α }
, dieC
und{ x ¯ }
trennt,d.h.C ⊆ G + = { x : a T x ≥ α }
,aberx ¯ 6∈ G +
.Mitα ˜ = min x ∈C a T x
gilt
α ˜ ≥ α
undH = { x : a T x = ˜ α }
ist Stützhyperbene vonC
mitC ⊆ H +
(Parallelvershiebung der Hyperbene
G
bis sieH
berührt). Wegenx ¯ 6∈ G +
gilt jedoh
a T x < α ¯ ≤ α ˜
, also auhx ¯ 6∈ H +
. Somit giltx ¯ 6∈ T
H +
, was imWiderspruh zu
x ¯ ∈ T
H +
steht.Daher muss
T H + \ C = ∅
sein, und somitT
H + = C
.2
2.5 Konvexe Funktionen
Denition 2.26 Sei
C ⊂ R n
konvex.Eine Funktionf : C → R
heiÿtkonvex,wennfür alle
x 1 , x 2 ∈ C
undλ ∈ [0, 1]
gilt:f
λx 1 + (1 − λ)x 2
≤ λf (x 1 ) + (1 − λ)f (x 2 ).
Sie heiÿt strikt konvex, wenn für
x 1 6 = x 2
undλ ∈ (0, 1)
die Ungleihungstrikt ist. Die Funktion
f
heiÿt (strikt) konkav, wenn− f
(strikt) konvex ist.Bemerkung 2.27 Äquivalent dazu ist folgende Denition:
f : C → R
heiÿtkonvex, wenn für Punkte
x 1 , . . . , x p ∈ C
undλ 1 , . . . , λ p ≥ 0
mitP p
i=1 λ i = 1
gilt:
f X p
i=1
λ i x i
!
≤ X p
i=1
λ i f(x i ).
Übung: Zeigen Sie, dass diese beiden Denitionenäquivalent sind.
Anshaulih bedeutet Konvexität einer Funktion, dass für je zwei Punkte
auf dem Funktionsgraphen die Verbindungsstreke nirgends unterhalb der
Funktion liegt (nirgends oberhalb bei einer konkaven Funktion).
Lineare Funktionen
c T x + γ
sind oensihtlihkonvex und konkav.−1.5 −1 −0.5 0 0.5 1 1.5 2
−0.5 0 0.5 1 1.5 2 2.5 3 3.5 4
x 1 x 2
−1 −0.5 0 0.5 1 1.5 2 2.5 3 3.5 4
−0.5 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
x 1 x 2
Abbildung2.3: Links:strikt konvexe Funktion; Rehts:konvexe Funktion.
−1 0 1 2 3 4 5
−0.5 0 0.5 1 1.5 2 2.5 3 3.5 4
x 1 x 2
−5 0 5 10
−4
−2 0 2 4 6 8
x 1 x 2
Abbildung2.4: Links:konkaveFunktion;Rehts:weder konvex nohkonkav.
Es ist leiht,sih folgende Eigenshaften zu überlegen:
Satz 2.28 Sei
C ⊂ R n
konvex,seienf 1 , f 2 : C → R
konvexe Funktionen undsei
α > 0
. Dann sind auhαf 1
,f 1 + f 2
undmax[f 1 , f 2 ]
konvex aufC
.Beweis. Übung.
2
Dierenz, Produkt undMinimum konvexer FunktionensindimAllgemeinen
niht konvex.
Zujeder Funktion lassen sih zwei sieharakterisierende Mengen denieren.
Ist dieFunktion konvex, sind diese Mengen ihrerseits konvex:
Denition 2.29 Sei
C ⊂ R n
undf : C → R
eine Funktion. Dann heiÿt dieMenge
E (f ) = { (x, α) ∈ C × R : f (x) ≤ α }
der Epigraph von
f
. Fürβ ∈ R
heiÿt die MengeL (f, β ) = { x ∈ C : f (x) ≤ β }
(untere) Niveaumenge von
f
zum Niveauβ
.Satz 2.30 Sei
f : R n → R
. Dann gilt:(a)
f
ist konvex⇐⇒ E (f )
ist konvex.(b)
f
ist konvex= ⇒ L (f, β )
ist konvex für jedesβ ∈ R
.Die Umkehrung gilt niht.
Beweis. Übung.
2
Funktionen,derenNiveaumengen
L (f, β)
fürjedesβ
konvexsind,heiÿenqua-sikonvex. Jede konvexe Funktion istalsoquasikonvex, aberniht umgekehrt.
Konvexe Funktionensind (bis auf Randpunkte) stetig. Siesind jedohniht
notwendigerweisedierenzierbar,wiemanleihtamBeispiel
f(x) = | x |
sieht.Satz 2.31 Sei
C 6 = ∅
einekonvexe Menge imR n
, und seif : C → R
konvex.Dann ist
f
im Inneren vonC
stetig.Beweis. siehe Rokafellar[Ro70℄.
2
2.6 Dierenzierbare konvexe Funktionen
Hier beshäftigen wir uns mitzwei harakteristishen Eigenshaften für dif-
ferenzierbare konvexe Funktionen.
Satz 2.32 Sei
f : R n → R
,f ∈ C 1
.(a)
f
ist genau dann konvexüber der konvexenMengeC ⊆ R n
,wennfür allex 1 , x 2 ∈ C
gilt:f (x 2 ) ≥ f (x 1 ) + (x 2 − x 1 ) T ∇ f (x 1 ).
(2.2)(b)
f
ist striktkonvex⇐⇒
(2.2) gilt strikt für allex 1 6 = x 2 ∈ C
.Beweis. (a,
⇐ =
): Es gelte (2.2) für allex 1 , x 2 ∈ C
. Wählen wir zweibeliebige Punkte
x, y ∈ C
undλ ∈ (0, 1)
. Wegen der Konvexität vonC
istdann auh
z = λx + (1 − λ)y
(2.3)in
C
. Wegen (2.2) giltfürx, z ∈ C
f(x) ≥ f(z) + (x − z) T ∇ f(z),
(2.4)und aus demselben Grund gilt
f(y) ≥ f(z) + (y − z) T ∇ f (z).
(2.5)Multiplizieren wir nun (2.4) mit
λ
und (2.5) mit(1 − λ)
, und addieren diebeiden Ungleihungen, soerhalten wir
λf (x) + (1 − λ)f (y) ≥ f(z) + [λ(x − z) + (1 − λ)(y − z)] T ∇ f(z).
Wegen (2.3)vershwindetdieekige Klammer,und dieKonvexität von
f
istgezeigt.
(a,
= ⇒
): Seif
konvex.Wirwählenx, y ∈ C
unddenierendieHilfsfunktionh : R → R
alsh(λ) = (1 − λ)f (x) + λf (y) − f
(1 − λ)x + λy .
Wegen der Konvexität von
f
gilt fürx 6 = y
und0 < λ < 1
, dassh(λ) ≥ 0
.Ausserdem ist
h(0) = 0
. Daher gilt für die Ableitung vonh
and der Stelleλ = 0
:dh dλ
λ=0
= − f(x) + f(y) − (y − x) T ∇ f(x) ≥ 0,
und damit giltauh (2.2).
(b): analog,nurjeweils
≥
durh>
ersetzen.2
Ist eine Funktion zwei mal stetig dierenzierbar, so lässt sih mit Hilfe der
HesseMatrix feststellen,obsie konvex ist oder niht:
Satz 2.33 Sei
f : R n → R
,f ∈ C 2
.f
ist genau dann konvex, wenn dieHesseMatrix
∇ 2 f(x)
für allex ∈ R n
positiv semidenit ist.Beweis. (
⇐ =
): Die HesseMatrix∇ 2 f(x)
sei überall positiv semidenit.Nah demSatz von Taylor giltfür alle
x, y ∈ R n f(y) = f (x) + (y − x) T ∇ f (x) + 1 2 (y − x) T ∇ 2 f
x + t(y − x)
(y − x)
(2.6)wobei
t
eine reelle Zahlist,0 ≤ t ≤ 1
. Da∇ 2 f(x)
überall positiv semidenitist,ist der letzteSummand in (2.6) nihtnegativ, daher
f (y) ≥ f (x) + (y − x) T ∇ f (x).
(2.7)AusSatz 2.32 folgt nun, dass
f
konvex ist.(
= ⇒
):f
seikonvex über demR n
.Angenommen, esexistiert einx ∈ R n
, indemdieHesseMatrixniht positivsemidenitist.Dannmuss esein
y ∈ R n
geben, sodass
(y − x) T ∇ 2 f (x)(y − x) < 0.
Wegender Stetigkeitvon
∇ 2 f
kanny
sogewähltwerden,dass fürallereellent
mit0 ≤ t ≤ 1
(y − x) T ∇ 2 f
x + t(y − x)
(y − x) < 0
ist.Mit(2.6) folgt,dassfür diese
x, y
(2.7) nihtgilt.NahSatz 2.32 kannf
alsoniht konvex über
R n
sein.2
Zusatz: Man kann durh eine leihte Modikation des ersten Teils des Be-
weises zeigen,dass zudemgilt
∇ 2 f(x)
pos.denit∀ x ∈ R n = ⇒ f : R n → R
strikt konvex.
Ahtung:DieUmkehrunggiltimAllgemeinenniht,wiedasBeispiel
f(x) =
x 4
zeigt.Beispiel 2.34 Betrahten wir eine quadratishe Funktion
f (x) = α + c T x +
1
2 x T Qx
mitQ ∈ R n × n symmetrisch, c ∈ R n
undα ∈ R
. Ihre Hesse-Matrix ist∇ 2 f (x) = Q.
Daher:
f
ist konvex⇐⇒ Q
ist positiv semidenit.f
ist konkav⇐⇒ Q
ist negativ semidenit.Zudem gelten bei quadratishen Funktionen auh dieÄquivalenzen
f
ist strikt konvex⇐⇒ Q
ist positiv denit.f
ist strikt konkav⇐⇒ Q
ist negativ denit.Es gibt aber auh quadratishe Funktionen von
R n
nahR
(wennn ≥ 2
),die weder konvex noh konkav sind, zum Beispiel die Funktion
f (x 1 , x 2 ) = x 2 1 + x 2 2 − 4x 1 x 2
. Deren Hesse-Matrix ist∇ 2 f (x) =
2 − 4
− 4 2
,
die die Eigenwerte
− 2
und6
hat und daher indenit ist.2.7 Optimalitätsresultate für konvexe Optimie-
rungsprobleme
Satz 2.35 Sei
C ⊆ R n
eine konvexe Menge undf : C → R
eine konvexeFunktion. Dann ist jedes lokale Minimum von
f
überC
bereits ein globalesMinimum.
Beweis. Sei
x ¯ ∈ C
einlokaler Minimalpunkt.Angenommen, esexistiert ein Punktx ∗ ∈ C
mitf (x ∗ ) < f (¯ x)
.Aus der Konvexität vonf
folgt,dassf(¯ x + λ(x ∗ − x)) ¯ ≤ λf (x ∗ ) + (1 − λ)f (¯ x) < f (¯ x)
für alle
λ ∈ (0, 1)
. Dies widerspriht jedoh der lokalen Optimalität vonx ¯
,daein
¯ λ > 0
existierenmuss,sodassf(¯ x+λ(x ∗ − x)) ¯ ≥ f(¯ x)
für0 < λ < λ ¯
.2
Satz 2.36 Sei
f : R n → R
eine konvexe Funktion,C ⊆ R n
eine konvexeMenge. Dann ist
Argmin(f, C )
, d.h. die Menge der Punkte, wof
ihr Mini-mum über
C
annimmt, konvex.Beweis. Übung.
2
Korollar 2.37 Sei
f : R n → R
eine strikt konvexe Funktion,C ⊆ R n
einekonvexe Menge. Wenn das Minimum von
f
überC
angenommen wird, dannin einem eindeutigen Punkt.
Beweis. Angenommen, das Minimum wird anzwei vershiedenen Punkten
x 1 , x 2 ∈ C
angenommen,undseiα ¯ = f (x 1 ) = f(x 2 )
.AusSatz2.36folgt,dassf(λx 1 + (1 − λ)x 2 ) = ¯ α
für alleλ ∈ (0, 1)
. Das ist jedoh ein Widerspruhzur strikten Konvexität von
f
.2
Der nähste Satz gibt Auskunft darüber, wie das Minimum einer dieren-
zierbarenkonvexen Funktionüberdem
R n
(wenn alsokeineeinshränkenden Nebenbedingungen erfülltwerden müssen) gefunden werden kann:Satz 2.38 Sei
f : R n → R
eine dierenzierbare konvexe Funktion. Dann istx ¯ ∈ R n
ein globaler Minimalpunkt vonf
überR n
genau dann, wenn∇ f(¯ x) = 0
.Beweis. Ist
x ¯ ∈ R n
einglobaler Minimalpunktvonf
dann ist bekanntlih∇ f(¯ x) = 0
(auhwennf
niht konvex ist!).(Zur Erinnerung: Ineinem lokalen Minimum
x ¯
giltfür allev ∈ R n 0 ≤ lim
t ց 0
f (¯ x + tv) − f (¯ x)
t = ∇ f(¯ x) T v,
also
∇ f(¯ x) T v ≥ 0
fürallev
und somit∇ f(¯ x) = 0
.)Sei nun umgekehrt
∇ f (¯ x) = 0
und zudemf
konvex. Aus Satz 2.32 folgt,dass
f (x) − f (¯ x) ≥ (x − x) ¯ T ∇ f(¯ x) = 0 ∀ x ∈ R n ,
und somit
f (x) − f (¯ x) ≥ 0 ∀ x ∈ R n .
Daher ist
x ¯
einglobaler Minimalpunktvonf
überR n
.2
EntsprehendeResultategeltennihtfürdasMaximumeinerkonvexenFunk-
tion, wie man anAbbildung2.5 sieht.
−2 −1.5 −1 −0.5 0 0.5 1 1.5 2 2.5 3
0 1 2 3 4 5 6 7 8 9
x 1 x 2
lok.Max.
glob.Max.
Abbildung2.5: Lokales und globalesMaximum einer konvexen Funktion.
IndiesemBeispielwirddasMaximumineinemRandpunkt,genauer:ineinem
Extrempunkt angenommen. Dies giltimmer, wie der nähste Satz zeigt.
Satz 2.39 Sei
f : R n → R
eine konvexe Funktion,C ⊆ R n
eine kompaktekonvexe Menge. Dann nimmt
f
ihr Maximum überC
in einemExtrempunkt an.Beweis. Sei
x
einbeliebigerPunktausC
undE
dieMengederExtrempunkte vonC
. Nah Satz 2.13 kannx
als Konvexkombination von Punkten ausE
dargestellt werden, nahSatz 2.9sind dazu höhstens
(n + 1)
solhe Punktenotwendig. Es existieren also