Optimal estimation : Abschätzung von Fehlerwahrscheinlichkeiten

Problembeschreibung

Sind Produktions‑, Entstehungs‑, oder Mess­pro­zes­se von Unsi­cher­hei­ten mit bekann­ter Wahr­schein­lich­keits­ver­tei­lung geprägt, so kön­nen die Wahr­schein­lich­kei­ten \(P(X\in C)\)direkt berech­net werden.

Dabei beschreibt \(P(X\in X)\) die Wahr­schein­lich­keit, dass Pro­dukt, Grös­se, oder Mes­sung \(X\) im Bereich \(C\subset \mathbb{R}\) annimmt. Die Ana­ly­se sol­cher Wahr­schein­lich­kei­ten ist ein wich­ti­ges dia­gnos­ti­sches Werk­zeug zur sys­te­ma­ti­schen Beur­tei­lung von Ent­schei­dun­gen in unsi­che­ren Situationen.

Problemillustration

Wer­den bei­spiels­wei­se Bau­tei­le gefer­tigt, deren Län­ge zwecks siche­rer Ver­wen­dung im Inter­vall \([a,b]\) lie­gen müs­sen, dann stel­len die durch Zufäl­lig­kei­ten im Pro­duk­ti­ons­pro­zess her­vor­ge­ru­fe­nen Varia­tio­nen der Bau­teil­län­ge ein Pro­blem dar. Es sind die Wahr­schein­lich­kei­ten zu unter­su­chen, dass

  1. Ein Bau­teil mit feh­ler­haf­ter Län­ge \(X\in C, C=\mathbb{R}\setminus [a,b]\) gefer­tigt wird
  2. durch Mess­un­si­cher­heit ein kor­rekt gefer­tig­tes Bau­teil als feh­ler­haft dekla­riert wird (\(\alpha\)-Fehler)
  3. durch Mess­un­si­cher­hei­ten ein feh­ler­haft gefer­tig­tes Bau­teil als kor­rekt dekla­riert wird (\(\beta\)-Fehler).
Abbil­dung 1 : Der Flä­chen­in­halt der schraf­fier­ten Flä­chen quan­ti­fi­ziert die Wahr­schein­lich­keit, des Ein­trit­tes uner­wünsch­ter Ereig­nis­se. Das sind die Pro­duk­ti­on feh­ler­haf­ter Bau­tei­le (a), der \(\alpha\)-Fehler, und der \(\beta\)-Fehler (b).

Ist etwa \(X\) nor­mal­ver­teilt mit Erwar­tungs­wert \(\mu\) und Stan­dard­ab­wei­chung \(\sigma\), dann kann die Wahr­schein­lich­keit \(P(x\in C)\) berech­net wer­den zu

$$P(X \le a) + P(X\ge b)= \int_{-\infty}^a p(x)dx + \int_{b}^{\infty} p(x)dx = 1-\int_a^b p(x)dx=1-(\Phi(b)-\Phi(a)).$$

Dabei ist \(\Phi(x)\) die kumu­la­ti­ve Wahr­schein­lich­keits­ver­tei­lung von \(X\) und kann in mathe­ma­ti­schen Tabel­len­wer­ken nach­ge­schla­gen wer­den. Dank der 1‑dimensionalität die­ses bei­spiel­haf­ten Feh­ler­ab­schät­zungs­pro­b­le­mes und der genau­en Kennt­nis der Wahr­schein­lich­keits­ver­tei­lung ist das Pro­blem dem­nach mit ein­fa­chen Metho­den lösbar.

Chebychev Ungleichung : Idee

In rea­len Anwen­dun­gen sind Wahr­schein­lich­keits­ver­tei­lun­gen jedoch typi­scher­wei­se sowohl hoch­di­men­sio­nal als auch unbe­kannt und nur durch deskrip­ti­ve sta­tis­ti­sche Kenn­grös­sen wie empi­ri­sche Mit­tel­wer­te und Vari­an­zen beschrieben.

Den­noch kön­nen auch in die­sem Fall worst-case Wahr­schein­lich­kei­ten \(P(X\in C)\) berech­net wer­den, indem über mit den Beob­ach­tun­gen \(E[X]=\mu \in \mathbb{R}^n\) und \(E[XX^T]=\Sigma \in \mathbb{R}^{n\times n}\) kon­sis­ten­te Wahr­schein­lich­keits­ver­tei­lun­gen mini­miert wird. So kann quan­ti­fi­ziert wer­den, mit wel­cher Wahr­schein­lich­keit Bau­tei­le qua­li­ta­ti­ven Anfor­de­run­gen nicht ent­spre­chen, natür­lich ent­stan­de­ne Objek­te aty­pi­sche Eigen­schaf­ten auf­wei­sen, oder Mes­sun­gen grob fal­sche Beob­ach­tun­gen hervorbringen.

Chebychev Ungleichung : Optimierungsformulierung

Das Pro­blem lässt sich for­mu­lie­ren als [1, p. 377]

$$ \begin{align} \min_{P,q,r} ~~~&  \operatorname{tr} (\Sigma P) + 2 \mu^Tq+r \\ \text{s.t.} ~~~&x^TPx+q^Tx+r \ge 0 ~~\forall x \in \mathbb{R}^n \\ ~~~& x^TPx+q^Tx+r‑1 \ge 0 ~~ \forall x \in C \end{align}$$

wobei \(\Sigma\) und \(\mu\) die Pro­blem­da­ten sind und die bei­den Unglei­chun­gen garan­tie­ren, dass der Wert des Opti­mie­rungs­pro­b­le­mes eine obe­re Schran­ke ist für \(P(X\in X)\). Han­delt es sich bei \(C\)  um das äus­se­re eine Poly­he­drons \(M\)  defi­niert durch die \(n_c\) Unglei­chun­gen \(a_k^Tz \ge b_k, k=1, …, n_c\), so las­sen sich die unend­lich vie­len Unglei­chun­gen im obi­gen Opti­mie­rungs­pro­blem in eine For­de­rung nach der Semi­de­fi­nit­heit von Matri­zen umwan­deln. Das äqui­va­len­te semi­de­fi­ni­te Pro­gramm ist dann [1, p. 377]

$$ \begin{align} \min_{P,q,r, \lambda} ~~~&  \operatorname{tr} (\Sigma P) + 2
\mu^Tq+r \\ \text{s.t.} ~~~&\begin{bmatrix}P & q\\ q^T & r\end{bmatrix} \succeq 0 \\ ~~~& \begin{bmatrix}  P & q \\ q^T & r‑1\end{bmatrix} \succeq \lambda_k \begin{bmatrix} 0 & a_k/2 \\ a_k^T/2 & ‑b_k \end{bmatrix} ~~~~ k=1, …, n_c \\ ~~~& \lambda_k \ge 0 ~~~~k=1, .…, n_c \end{align}$$

Chebychev Ungleichung : Anwendung

Das nach­fol­gen­de Bild illus­triert eine bei­spiel­haf­te Lösung des fol­gen­den Pro­b­le­mes. Eine Maschi­nen­kom­po­nen­te mit zufäl­li­gen Län­gen­cha­rak­te­ris­ti­ken \(X_1, …, X_{10}\) wer­de gefer­tigt. Die Erwar­tungs­wer­te und Kova­ri­an­zen der Län­gen­cha­ra­ket­e­ris­ti­ken sind bekannt; z.B. durch Mes­sung einer Test­men­ge von Kom­po­nen­ten. Eine Kom­po­nen­te ist nur dann ver­wend­bar zum Ein­bau in die über­ge­ord­ne­te Maschi­ne, wenn sie die 20 Bedingungen

$ a_k^T x \le b_k ~~~~ k=1, …, 20$

an die Län­gen erfüllt. Die­ses Pro­blem ist leicht lös­bar mit CVXPY [2].

Abbil­dung 2 : Bei­spiel für eini­ge der Bedin­gun­gen an das Eigen­schafts­paar \(x_1,x_2\) der Maschi­nen­kom­po­nen­te (a) sowie ein exem­pla­ri­sches Bau­teil mit 10 Län­gen­cha­rak­te­ris­ti­ka (b).

Die nach­fol­gen­den Abbil­dun­gen zei­gen die opti­ma­len Matri­zen \(P\), Vek­to­ren \(q\) und Ska­la­re \(r\), sodass \(\operatorname{tr}(\Sigma P) + 2 \mu^Tq+r \) gera­de die kleins­te obe­re Schran­ke ist für \(P(X\in C)\). Mit den dort abge­bil­de­ten \(P,q,r, \lambda\) gilt \(P(X\in C)\le 0.4\). Mehr Infor­ma­tio­nen zu die­sem soge­nann­ten Momen­ten­pro­blem sind zu fin­den in [3, pp. 469–509].

Abbil­dung 3 : Die Lösung für das semi­de­fi­ni­te Opti­mie­rungs­pro­blem (a) und die Inter­pre­ta­ti­on der Lösung (b).

Integration von Zusatzinformationen

Ist mehr bekannt über die zugrun­de­lie­gen­de Wahr­schein­lich­keits­ver­tei­lung als nur die Erwar­tungs­wer­te \(E[X]\) und \(E[XX^T]\), dann kön­nen die­se Infor­ma­tio­nen zur Ver­bes­se­rung der Feh­ler­ab­schät­zung ver­wen­det wer­den und erlau­ben die Lösung wei­te­rer Pro­ble­me. Die Opti­mie­rung über Wahr­schein­lich­keits­ver­tei­lun­gen kann ver­bes­sert wer­den durch Kennt­nis der

  • Schran­ken der Momen­te \(M_k=E[X^k], ~~ k=1, …, n\). Da die Han­kel-Matrix $$\begin{bmatrix} M_0 & M_1 & M_2 & \cdots \\ M_1 & M_2 & \cdots & \\ M_2 & \vdots & \ddots & \\ \vdots & & & \end{bmatrix} \succeq 0$$ der Momen­te \(M_k\)  einer Wahr­schein­lich­keits­ver­tei­lung posi­tiv semi­de­fi­nit sein muss, kann eine Opti­mie­rung über Momen­te als SDP geschrie­ben wer­den [1, p. 171].

 

  • mar­gi­na­le Wahr­schein­lich­keits­ver­tei­lun­gen \(\bar{p}=\{\bar{p}_1, …, \bar{p}_n\}\) und \( \bar{q}=\{\bar{q}_1, …, \bar{q}_m\}\) der Zufalls­va­ria­blen \(X_1\) und \(X_2\). Da die mul­ti­va­ria­te Ver­tei­lung defi­niert wird durch die Matrix $$P=\begin{bmatrix} p_{11} & \cdots & p_{1n}\\ \vdots & \ddots & \vdots\\ p_{m1} & \cdots & p_{mn}\end{bmatrix}$$ von Wahr­schein­lich­kei­ten \(p_{ij}=P(X_1=x_i,X_2=x_j)\ge 0\), las­sen sich die Opti­mie­run­gen über mul­ti­va­ria­te Wahr­schein­lich­keits­ver­tei­lun­gen als LP mit Neben­be­din­gun­gen \(\sum_{j=1}^np_{ij}=\bar{q}_i\) und \(\sum_{i=1}^m p_{ij}=\bar{p}_j\) schreiben.

 

  • kumu­lan­ten­ge­nerie­ren­den Funk­ti­on \(\log E\left[ \exp(\lambda^Tx)\right]\) der Wahr­schein­lich­keits­ver­tei­lung von \(X\). Je nach genau­er Form die­ser Funk­ti­on ergibt sich durch die Cher­n­off-Unglei­chung [1, p. 380]$$ \begin{align}P(X\in C) \le e^q ~~~~&~~~~ C=\{x: Ax \le b\} \\q= \min_{\lambda u} ~~~& b^Tu+\log E[\exp(\lambda^T X)]  \\ \text{s.t.} ~~~&u \ge 0 ~~~ A^Tu+\lambda=0 \end{align}$$ ein LP, QP, SDP, oder ein nicht mit kon­ven­tio­nel­len Metho­den lös­ba­res kon­ve­xes Opti­mie­rungs­pro­blem zur Beschrän­kung der Auf­tritts­wahr­schein­lich­kei­ten eines Ereignisses.

 

Anwendungen und Praktisches

Feh­ler­ab­schät­zun­gen der oben beschrie­be­nen Art sind beson­ders  bei der Risi­ko­be­schrän­kung hilf­reich. Müs­sen Aus­sa­gen über nur hin­sicht­lich ihrer Wahr­schein­lich­keits­ver­tei­lung bekann­te Grös­sen getrof­fen wer­den oder unsi­che­re Mes­sun­gen in defi­ni­ti­ve Ent­schei­dun­gen umge­wan­delt, dann kön­nen die­se Metho­den einen ech­ten Mehr­wert darstellen. 

Die Risi­ko­schran­ken hän­gen ab nicht von der genau­en Wahr­schein­lich­keits­ver­tei­lung son­dern von der Gesamt­kon­fi­gu­ra­ti­on des Pro­b­le­mes. Die­ser Zusam­men­hang kann genutzt wer­den, um eine Pro­blem­kon­fi­gu­ra­ti­on zu fin­den, wel­che die Risi­ko­schran­ken auf ein akzep­ta­bles Mass absenkt. 

Abbil­dung 5 : Die Wahl der Schran­ken \(c_1, c_2\) zur Beur­tei­lung von z.B. Bau­tei­len auf Basis unsi­che­rer Mes­sun­gen legt die Wahr­schein­lich­kei­ten für \(\alpha\)- und \(\beta\)-Fehler fest. Sie sind so zu wäh­len, dass bei­de Feh­ler im akzep­ta­blen Rah­men lie­gen (a), (b). Die 6 \(\sigma\) Metho­de ver­langt bestimm­te Zusam­men­hän­ge zwi­schen Fer­ti­gungs­ge­nau­ig­keit und Messungenauigkeiten ©.

Das eta­blier­te 6 \(\sigma\) Kri­te­ri­um zur Defi­ni­ti­on sta­ti­si­scher Qua­li­täts­zie­le im Pro­duk­ti­ons­ma­nage­ment ist den obi­gen Metho­den ähn­lich, wenn auch mathe­ma­tisch weni­ger invol­viert. Der durch höhe­re Kom­ple­xi­tät und höhe­ren sto­chas­ti­schen Model­lie­rungs­auf­wand erkauf­te Gewinn besteht in schär­fe­ren, weni­ger kon­ser­va­ti­ven Wahrscheinlichkeitsabschätzungen.

Code & Quellen

Bei­spiel­code: OE_bounding_probabilities.py in unse­rem Tuto­ri­al­fol­der

[1] Boyd, S., & Van­den­berg­he, L. (2004). Con­vex Optimi­zation. Cam­bridge: Cam­bridge Uni­ver­si­ty Press.

[2] Dia­mond S., & Boyd S., (2016). CVXPY: A Python-embedded mode­ling lan­guage for con­vex optimi­zation. Jour­nal of Machi­ne Lear­ning Rese­arch, 17(83), 1–5.

[3] Wol­ko­wicz, H., Sai­gal, R., & Van­den­berg­he, L. (2012). Hand­book of Semi­de­fi­ni­te Pro­gramming: Theo­ry, Algo­rith­ms, and Appli­ca­ti­ons. Ber­lin Hei­del­berg: Sprin­ger Sci­ence & Busi­ness Media.