Theorie: Konvexität

Definition

Eine Men­ge \(D\) heisst kon­vex, wenn alle ihre Ele­men­te durch gera­de Lini­en ver­bun­den wer­den kön­nen, die ganz in \(D\) lie­gen. Kon­kret bedeu­tet es, dass für alle \(x_1,x_2 \in D\) und \( y = \theta x_1 + (1-\theta)x_2 ~~~\theta \in [0,1]\) \(y\) ein Ele­ment von \(D\) ist.

Dabei sind sowohl \(x_1, x_2\) als auch \(y\) Vek­to­ren belie­bi­ger Dimen­si­on. Kon­ve­xe Men­gen sind in dem Sin­ne ein­fa­che Objek­te, als dass jeder Punkt von jedem ande­ren Punkt auf ein­fach Wei­se zu errei­chen ist. Eine Funk­ti­on \(f:D\rightarrow \mathbb{R}\) heisst kon­vex, wenn \(D\) kon­vex ist und jede linea­re Appro­xi­ma­ti­on an \(f\) kom­plett über \(f\) liegt. For­mell gese­hen bedeu­tet der letz­te Punk­te, dass für alle \(x_1, x_2 \in D\) und alle \(\theta \in [0,1]\) gilt:

$$ \theta f(x_1) + (1-\theta)f(x_2) \ge f(\theta x_1 + (1-\theta) x_2) $$

Dass der Wert eines kon­ve­xen \(f\) an einer Stel­le \(x\) immer unter dem Mit­tel­wert sei­ner Nah­barn liegt, impli­ziert die Abwe­sen­heit hügel­ar­ti­ger For­men in der Funk­ti­ons­land­schaft von \(f\) und eine stets nach oben gerich­te­te (=posi­ti­ve) Krüm­mung. Eine umfas­sen­de Quel­le betref­fen Kon­ve­xi­tät von Men­gen und Funk­tio­nen ist [1, pp. 23–90].

Abbil­dung 1: Bei­spie­le für kon­ve­xe Men­ge und kon­ve­xe Funk­tio­nen. Man beach­te, dass eine Funk­ti­on mit zwei sepa­ra­ten loka­len Mini­ma nicht kon­vex ist.

Relevanz

Kon­ve­xe Men­ge und kon­ve­xe Funk­tio­nen sind Garan­ten für ein­deu­ti­ge und prak­tisch durch­führ­ba­re Mini­mier­bar­keit. Dies ist etwas beson­de­res, denn Opti­mie­rungs­pro­ble­me sind typi­scher­wei­se unlös­bar [2, p.4]. Wie in der obi­gen Abbil­dung zu erken­nen, impli­ziert die Exis­tenz meh­re­rer Mini­ma, dass eine Funk­ti­on nicht kon­vex ist. Als kon­ver­se Aus­sa­ge folgt, dass bei kon­ve­xem \(f\) nur ein loka­les Mini­mum existiert.

Zusätz­lich kön­nen dank der Kon­ve­xi­tät von \(f\) von loka­len Eigen­schaf­ten auf glo­ba­le Ein­gen­schaf­ten geschlos­sen wer­den. Unter der Annah­me von Dif­fe­ren­zier­bar­keit von \(f\) gel­ten die bei­den Aussagen:

  1. \(f(x_2) \ge f(x_1) + \nabla f(x_1)^T[x_1-x_1]\)
  2. \(\Delta f(x)\succeq 0\)

für alle \(x_1\) und \(x_2\) wobei \(\nabla f\) der Gra­di­ent (=Vek­tor ers­ter Ablei­tun­gen) und \( \Delta f\) die Hes­se-Matrix (=Matrix zwei­ter Ablei­tun­gen) von \(f\) sind. Eine kon­ve­xe dif­fe­ren­zier­ba­re Funk­ti­on ist gemäss den obi­gen Aus­sa­gen immer nicht­ne­ga­tiv gekrümmt und wird nach unten hin durch linea­re Appro­xi­ma­ti­on beschränkt. Kon­se­quen­ter­wei­se befin­det sich das glo­ba­le Mini­mum an der­je­ni­gen Stel­le \(x^*\), für die \(\nabla f(x)=0\) gilt. Dies folgt aus $$f(x_1)\ge f(x^*) + \underbrace{\nabla f(x^*)[x^*-x_2]}_{=0} \ge f(x^*)$$.

Abbil­dung 2: Illus­tra­ti­on der Aus­sa­gen betref­fend glo­ba­ler unte­rer Schran­ken durch linea­re Appro­xi­ma­ti­on (a) und posi­ti­ver Krüm­mung füh­rend zu im Wert stei­gen­den Ablei­tun­gen (b). Abbil­dung © zeigt einen poten­ti­el­lem Lösungs­an­satz über die algo­rith­mi­sche Suche nach Null­stel­len von \(\nabla f\).

Lösungsansatz

Die Suche nach Null­stel­len von \(\nabla f\) führt direkt auf das in der obi­gen Abbil­dung rechts illus­trier­te Ver­fah­ren: Man star­te an einem belie­bi­gen Punkt \(x_0\), ver­wen­de den Wert \(\nabla f(x_0)\) des Gra­di­en­ten und des­sen Ände­rungs­ra­te \(\Delta f (x_0)\), um die Null­stel­le zu schät­zen. Mit dem Schät­zer \(x_1\) für die Null­stel­le wie­der­ho­le die Pro­ze­dur, bis die tat­säch­li­che Null­stel­le \(x^*\) aus­fin­dig gemacht wurde.

Aus \(\nabla f(x_0) + \Delta f[x_1 ‑x_0]\stackrel{!}{=}0\) ergibt sich als Lösung für die aus \(x_0\) abge­lei­te­ten Null­stel­len­schät­zer die Fol­ge  $$ x_{k+1} = x_K +\Delta f^{-1}(x_k) \nabla f(x_k) ~~~~k=0,1, …$$

Die­ses Ver­fah­ren ist auch bekannt als das New­ton Ver­fah­ren. Auf­grund der posi­ti­ven Krüm­mung weist jeder Punkt \(x_{k+1}\) gerin­ge­ren Funk­ti­ons­wert \(f(x_{k+1})\) auf als sein Vor­gän­ger \(x_k\) und das Ver­fah­ren ter­mi­niert beim Opti­mum \(x^*\) [1, p. 484]. Es kann mit Modi­fi­ka­tio­nen auch für Opti­mie­rungs­pro­ble­me mit Neben­be­din­gun­gen ange­wen­det wer­den. Mehr dazu hier.

Beispiele

Vie­le wich­ti­ge Funk­tio­nen sind kon­vex und kön­nen damit effi­zi­ent opti­miert wer­den. Die Bei­spie­le der fol­gen­den nicht exklu­si­ven Lis­te sind [1, pp. 71–73] entnommen.

NameFunk­ti­onDefi­ni­ti­ons­men­geAnwen­dung Modellierung
Expo­nen­ti­al­funk­ti­on\(e^{ax}\)\(x\in \mathbb{R}, a \in \mathbb{R}\)Wachs­tums- und Zufallsprozesse
Neg. Log­arith­mus\(-\log x\)\(x > 0\)Wahr­schein­lich­keits­ver­tei­lun­gen
Linea­res Funktional\(c^T x\)\(x\in \mathbb{R}^n, c \in \mathbb{R}^n\)Kom­bi­na­ti­on von Effekten
Norm\(\|x\|_p\)\(x \in \mathbb{R}^n, p \ge 1\)Dis­kre­pan­zen und Entfernungen
Neg. Entro­pie\(-\sum_{k=1}^n p(x_k)\log p(x_k) \)\(p(x_k)> 0\)Ver­gleich Wahrscheinlichkeitsverteilungen
Neg. Geom. Mittel\( — \left(\Pi_{k=1}^n x_k\right)^{1/n}\)\( x\in \mathbb{R}^n, x_k >0\)Wachs­tums­pro­zes­se und Indikatorgrössen
Maxi­mum\(\max (x_1, …, x_n)\)\( x\in \mathbb{R}^n\)Über­pro­por­tio­na­le Einfüsse
Soft­max\(\log \left( \sum_{k=1}^n e^{x_k}\right)\)\( x\in \mathbb{R}^n\)Machi­ne Learning
Neg. Log­det\(- \log \det X\)\(X\) posi­tiv definitKova­ri­anz­ma­tri­zen und Energien
Eigen­wertsum­me\( \sum_{k=1}^n \lambda_k(X)\)\(X\) posi­tiv semidefinitUnsi­cher­hei­ten und Verteilungseigenschaften
Matrix­bruch\(x^YP^{-1}x\)\( x\in \mathbb{R}^n, P\) posi­tiv semidefinitNor­mal­ver­tei­lun­gen und aniso­tro­pe Entfernungen

Konstruktionsregeln

Die obi­gen Bei­spie­le kön­nen kom­bi­niert wer­den, um neue, aus­drucks­fä­hi­ge­re kon­ve­xe Funk­tio­nen zu gene­rie­ren. Posi­tiv gewich­te­te Line­ar­kom­bi­na­tio­nen \(w_1f_1(x)+w_2f_2(x)\) kon­ve­xer Funk­tio­nen \(f_1(x), f_2(x)\) sind kon­vex; sel­bi­ges gilt für das Maxi­mum \(\max( f_1(x),f_2(x))\) oder die Kom­po­si­ti­on mit einer linea­ren Trans­for­ma­ti­on zu \(f_1(Ax+b)\). Moder­ne Model­lie­rungs­frame­works wie CVXPY [3] machen sich die­se Zusam­men­hän­ge zu nut­ze. Aus­ge­hend von nach­weis­bar kon­ve­xen Bei­spiel­funk­tio­nen und kon­ve­xi­täts­er­hal­ten­den Kom­po­si­ti­ons­re­geln kön­nen of selbst kom­pli­ziert erschei­nen­de Funk­tio­nen auf Ver­knüp­fun­gen ele­men­ta­rer kon­ve­xer Funk­tio­nen zurück­ge­führt und anschlies­sen gelöst wer­den [4].

Quellen

[1] Boyd, S., & Van­den­berg­he, L. (2004). Con­vex Optimi­zation. Cam­bridge: Cam­bridge Uni­ver­si­ty Press.

[2] Nes­terov, Y. (2013). Intro­duc­to­ry Lec­tures on Con­vex Optimi­zation: A Basic Cour­se. Ber­lin Hei­del­berg: Sprin­ger Sci­ence & Busi­ness Media.

[3] Dia­mond S., & Boyd S., (2016). CVXPY: A Python-embedded mode­ling lan­guage for con­vex optimi­zation. Jour­nal of Machi­ne Lear­ning Rese­arch, 17(83), 1–5.