Anwendung: Statistik & optimal estimation

Definition

Die mathe­ma­ti­sche Sta­tis­tik beschäf­tigt sich mit Metho­den zur Samm­lung, Ana­ly­se, und Aus­wer­tung von Daten. Ziel ist die Ablei­tung ver­wert­ba­rer Infor­ma­tio­nen in Form sta­tis­ti­scher Kenn­grös­sen und die opti­ma­le Schät­zung (opti­mal esti­ma­ti­on) von mit Unsi­cher­heit behaf­te­ten Zusammenhängen

Dabei wird die Opti­ma­li­tät der Schät­zung von Para­me­tern, unbe­kann­ten funk­tio­na­len Zusam­men­hän­gen, Unsi­cher­hei­ten, … auf Basis ver­füg­ba­rer Daten erreicht durch die Maxi­mie­rung von Wahr­schein­lich­kei­ten. Opti­mal esti­ma­ti­on ist nötig wo auch immer Echt­welt­kom­ple­xi­tä­ten die ein­deu­ti­ge Lös­bar­keit eines Pro­b­le­mes behindert.

Beispiel

Die ist bei­spiels­wei­se der Fall, sobald aus Mess­da­ten Infor­ma­tio­nen extra­hiert wer­den sol­len. Mess­da­ten unter­lie­gen zufäl­li­gen und sys­te­ma­ti­schen Schwan­kun­gen, die her­rüh­ren von Imper­fek­tio­nen des Mes­sys­te­mes und dyna­mi­schen Ein­flüs­sen der auf das Sys­tem ein­wir­ken­den Umwelt. Daten sind typi­scher­wei­se wider­sprüch­lich und müs­sen ver­ar­bei­tet wer­den, bevor sie nütz­lich sind. Basie­rend auf einer Mess­rei­he von Wer­ten an den Posi­tio­nen \(z_k, k=1, …, n\) kön­nen dive­rese Fra­ge­stel­lun­gen rele­vant sein:

  1. Regres­si­on. Fin­de Para­me­ter eines Model­les, die die Beob­ach­tun­gen best­mög­lich erklären.
  2. Inter­po­la­ti­on. Schät­ze Mess­wer­te an Posi­tio­nen, an denen gar kei­ne Mes­sun­gen statt­ge­fun­den haben
  3. Signal­tren­nung. Zer­le­ge die Mess­wer­te in sys­te­ma­ti­sche und zufäl­li­ge Anteile.
  4. Unsi­cher­heits­ab­schät­zung. Quan­ti­fi­zie­re die Unsi­cher­hei­ten in den aus Daten abge­lei­te­ten Informationen.
Abbil­dung 1: Die Resul­ta­te von Regres­si­on, Inter­po­la­ti­on, Signal­tren­nung, und Unsi­cher­heits­ab­schät­zung im Fal­le fik­ti­ver 1D und 2D Daten.

Erklärung Regression

Im Bei­spiel illus­trie­rend die Regres­si­on sind an den Posi­tio­nen \(z_k, k=1, … ‚n\) die Wer­te \(l_k, k=1, …, n\) beob­ach­tet wor­den. Nun sind die Para­me­ter \(x\) so zu wäh­len, dass  Vor­her­sa­gen \(g(x,z_k)\) und Beob­ach­tun­gen \(l_k\) mög­lichst gut über­ein­stim­men. Das prä­dik­ti­ve Modell im obig abge­bil­de­ten 1D Fall ist die Geradengleichung

$$ g(x,z)=x_1+x_2z$$

wel­che für jede Stel­le \(z\) die Beob­ach­tung \(g(x,z)\) prä­di­ziert. Belie­big kom­ple­xe­re Model­le siend eben­falls mög­lich. Sie kön­nen die Form \(g(x,z)=\sum_{k=1}^{m_1}x_kg_k(z_1, …, z_{m_2})\) haben mit \(m_1\) Para­me­tern \(x=[x_1, … ‚x_{m_1}\) und \(m_1\) ver­schie­de­nen Funk­tio­nen \(g_k(z_1, …, z_{m_2})\) abhän­gend von  einer \(m_2\)-dimensionalen Posi­ti­ons­va­ria­ble \(z=[z_1, … ‚z_{m_2}]\).

Die For­de­rung nach einer Wahr­schein­lich­kei­ten maxi­mie­ren­den Wahl des Para­me­ter­vek­tors \(x\) lässt sich for­ma­li­sie­ren als das Optimierungsproblem

$$ \begin{align} \max_x ~~~&  p(l_1, …, l_n, z_1, …, z_n | x_1, x_2) \end{align}$$

wobei die Ziel­funk­ti­on \(p(l,z|x)\) die Wahr­schein­lich­keit einer Beob­ach­tung \(l\) an der Stel­le \(z\) angibt, wenn die Para­me­ter zu \(x\) fest­ge­legt sind.

Least squares

Unter der Annah­me, dass \(l=x_1+x_2z+\epsilon\) mit \(\epsilon\) stan­dard­nor­mal­ver­teil­tem Rau­schen, refor­mu­liert sich die Wahr­schein­lich­keit zu

$$ p(l_1, …, l_n, z_1, …, z_n|x_1,x_2) = \prod_{k=1}^n p(l_k,z_k|x_1,x_2)= c \exp\left(-\sum_{k=1}^n \frac{1}{2}[l_k-x_1-x_2z_k]^2\right).$$

Die Kon­stan­te \(c\) ist irrele­vant für die Maxi­mie­rung der Wahr­schein­lich­kei­ten \(p(l,z|x)\) bzw. die Mini­mie­rung von \(-\log p(l,z|x)\) und das fol­gen­de Opti­mie­rungs­pro­blem resultiert.

$$ \begin{align} \min_{x_1, x_2} ~~~& \sum_{k=1}^n \left[l_k-x_1-x_2z_k\right]^n \\ =\min_{x_1, x_2} ~~~& \|l‑Ax\|_2^2 \\ ~~~& \|l‑Ax\|_2^2=(l‑Ax)^T(l‑Ax) \\ ~~~& A=\begin{bmatrix} 1 & z_1 \\ \vdots & \vdots \\ 1 & z_n \end{bmatrix}^T ~~~ l = \begin{bmatrix}l_1 \\ \vdots \\ l_n\end{bmatrix} \end{align}$$

Es han­delt sich um ein ein­fa­ches qua­dra­ti­sches Pro­gramm ohne Neben­be­din­gun­gen, dass sich tat­säch­lich sogar per Hand lösen lässt zum opti­ma­len \(x^*=(A^TA)^{-1}A^Tl\). Die­se For­mu­lie­rung wist bekannt als least squa­res pro­blem, da die Qua­dra­te der Dis­kre­pan­zen zwi­schen gemes­se­nen und prä­di­zier­ten Wer­ten mini­miert werden.

Abbil­dung 2: Illus­tra­ti­on der Ziel­funk­ti­on beim least squa­res. Die opti­ma­le Lösung mini­miert die Gesamt­flä­che der Feh­ler­qua­dra­te. Grös­se­re Feh­ler­qua­dra­te kor­re­spon­die­ren mit gerin­ge­rer Kon­sis­tenz von Para­me­tern und Beobachtungen.

Andere Aufgabenstellungen

Auch Inter­po­la­ti­on, Signal­tren­nung, und Unsi­cher­heits­ab­schät­zun­gen kön­nen als Opti­mie­rungs­pro­ble­me for­mu­liert werden.

$$\begin{align} \text{Interpolation } \min_x ~~~& \|x\|_{\mathcal{H}_2}^2 \\ \text{s.t.} ~~~&Ax=l, x\in \mathcal{H}_2\end{align}$$

$$\begin{align} \text{Signaltrennung } \min_x ~~~&
\|Ax‑l\|_{\mathcal{H}_1}^2+\|x\|_{\mathcal{H}_2}^2 \\ \text{s.t.} ~~~& x\in
\mathcal{H}_2\end{align}$$

$$\begin{align} \text{Unsicherheitsabschätzung } \min_{P,q,r,\tau_1, … ‚\tau_k} ~~~&  \langle \Sigma, P\rangle_F+ 2q^T\mu+r\\ \text{s.t.} ~~~& \begin{bmatrix} P & q \\ q^T & r\end{bmatrix} \succeq \tau_i\begin{bmatrix} 0 & a_i/2 \\ a_i^T/2 & ‑b_i  \end{bmatrix} \\ & \begin{bmatrix} P & q \\ q^T & r \end{bmatrix} \succeq 0\end{align}$$

Details zur genaue­ren Bedeu­tung der qua­dra­ti­schen und semi­de­fi­ni­ten Pro­gram­me sind auf den nach­fol­gen­den Unter­sei­ten zu finden.

Lösungsverfahren

Ist die Anzahl an ins Modell zu inte­grie­ren­den Daten nicht über­bor­dend gross, so kön­nen die Opti­mie­rungs­pro­ble­me mit öffent­lich ver­füg­ba­ren open-source sol­vern gelöst wer­den. Dies ist der Regel­fall. Sind jedoch meh­re­re Hun­dert­tau­send oder Mil­lio­nen Daten­punk­te gege­ben, dann kann es zu nume­ri­schen Kom­pli­ka­tio­nen kom­men, die durch intel­li­gen­tes Aus­nut­zen zugrun­de­lie­gen­der Pro­blem­struk­tu­ren verin­gert werden. 

Um die Ver­ar­bei­tung rie­si­ger Kor­re­la­ti­ons­ma­tri­zen mit \(n^2\) Ein­trä­gen ( \(n = \) Anzahl Daten­punk­te) zu ver­mei­den, bedient man sich der Ten­sor­zer­le­gung und nume­ri­scher Inver­si­on. Das aus dem Machi­ne lear­ning bekann­te sto­cha­stic gra­di­ent des­cent umgeht die bei der gesamt­heit­li­chen Daten­aus­wer­tung auf­tre­ten­den rie­si­gen Matri­zen eben­falls, indem es die Daten sequen­ti­ell ver­ar­bei­tet. Die­se Stra­te­gien sind sel­ten nötig, wenn es um Zeit­rei­hen, Audio­da­ten oder punk­tu­ell erho­be­ne Mes­sun­gen geht, aber uner­läss­lich, wenn auto­ma­ti­siert gene­rier­te mul­ti­di­men­sio­na­le Daten z.B. von Kame­ras oder Rada­in­stru­men­ten ver­ar­bei­tet wer­den müssen.

Anwendungen

Jedes pra­xis­re­le­van­te Pro­blem invol­viert unbe­kann­te Grös­sen und Zusa­men­hän­ge, wes­halb Metho­den der Sta­tis­tik und des opti­mal esti­ma­ti­on mitt­ler­wei­le über­all anzu­tref­fen sind. Anwen­dun­gen umfas­sen die opti­ma­le Schät­zung von Rei­se­dau­ern, Haus­prei­sen, Erz­ge­hal­ten, Mate­ri­al­ei­gen­schaf­ten, Gebäu­de­de­for­ma­tio­nen, Flug­bah­nen und che­mi­schen Zusam­me­s­et­zun­gen­en fer­ner Pla­ne­ten. Wei­ter­hin die Ana­ly­se von Gewinn­wahr­schein­lich­kei­ten im Sport oder der Aus­fall­wahr­schein­lich­keit von Bau­tei­len, die Auf­spal­tung von Mess­da­ten in Signal und Rau­schen, die Iden­ti­fi­ka­ti­on von Objek­ten in Bil­dern und die Modell­bil­dung für die Aus­brei­tung von Krank­hei­ten oder poli­ti­schen Mei­nun­gen. Mehr Anwen­dun­gen sind in die­ser Lis­te zu finden.

Opti­mal esti­ma­ti­on ist die Ant­wort auf die all­ge­gen­wär­ti­ge Anwe­sen­heit von Daten und Modellunsicherheiten.

Abbil­dung 3: Sym­bo­li­sche Illus­tra­ti­on de Rol­le von opti­mal esti­ma­ti­on als Auf­lö­ser von Wider­sprü­chen zwi­schen Daten und Modell.

Praktisches

Die Haupt­schwie­rig­keit beim Auf­stel­len von opti­mal esti­ma­ti­on Pro­ble­men mit Echt­welt­hin­ter­grund besteht in der Fra­ge, wie die zufäl­li­gen Antei­le in den Daten und Model­len dar­ge­stellt wer­den kön­nen. Min­des­tens muss dazu auf Wahr­schein­lich­keits­rech­nung zurück­ge­grif­fen wer­den und die sto­chas­ti­sche Model­lie­rung von Zufalls­ef­fek­ten erfor­dert Erfah­run­gen mit auf ver­schie­de­ne Situa­tio­nen zuge­schnit­te­nen Wahr­schein­lich­keits­ver­tei­lun­gen, mehr dazu hier.

In vie­len Fäl­len kann die opti­ma­le Schät­zung von para­me­tern oder Funk­ti­ons­wer­ten auf ein least-squa­res Pro­blem zurück­ge­führt und sogar hän­disch gelöst wer­den. Sind jedoch nicht­nor­mal­ver­tei­le Grös­sen invol­viert, so kön­nen die zu maxi­mie­ren­den wahr­schein­lich­kei­ten schnell kom­pli­zier­te Gestalt anneh­men und dedi­zier­te Opti­mie­rungs­al­go­rith­men sind gefordert.