Optimal estimation: Schätzung von Korrelationsstrukturen

Definition

Kor­re­la­ti­ons­struk­tu­ren beschrei­ben die Zusam­men­hän­ge zwi­schen Funk­ti­ons­wer­ten \(f(z_1), … , f(z_n)\) ohne eine expli­zi­te Funk­tio­na­le Form von \(f\) vor­zu­schrei­ben. Am geläu­figs­ten sind die sogen­n­an­ten Kova­ri­anz­ma­tri­zen \(C\). Sie codie­ren voll­stän­dig die Kor­re­la­tio­nen aller Funk­ti­ons­wer­te untereinander.

Jeder Ein­trag von \(C\) gibt die Kova­ri­anz zwei­er Zufalls­va­ria­blen \(f_i, f_j\) an.

$$ C= \begin{bmatrix} c_{11} & \cdots & c_{1n} \\ \vdots & \ddots & \vdots \\ c_{n1} & \cdots & c_{nn}\end{bmatrix} ~~~~~~ c_{ij}=E[f_if_j]-E[f_i]E[f_j]$$

Dabei ist \(E[f_i]\) der Erwar­tungs­wert der Zufalls­va­ria­ble \(f_i\). Aus der Glei­chung folgt unmit­tel­bar, dass \(C\) eine sym­me­tri­sche Matrix ist mit einer Dimen­si­on von \(n \times n\), wobei \(n\) die Anzahl aller Zufalls­va­ria­blen ist.

Abbil­dung 1 : Bei­spie­le von Kova­ri­anz­ma­tri­zen für 3‑dimensionale Zufalls­vek­to­ren und für zufäl­li­ge 1D Funk­tio­nen, zufäl­li­ge 2D Funk­tio­nen und zufäl­li­ge Vektorfelder.

Problem

Sind die Kova­ri­anz­ma­tri­zen kom­plett bekannt, dann sind sie ein wich­ti­ger Bestand­teil der Glei­chun­gen für opti­mal esti­ma­ti­on. Oft jedoch ist dies nicht der Fall und es müs­sen Funk­tio­nen $K(z_1,z_2) = E[f_{z_1}f_{z_2}]- E[f_{z_1}]E[f_{z_2}]$  aus punk­tu­ell ver­füg­ba­re Daten \(f_1, … ‚f_n\) geschätzt wer­den. Die­se Kova­ri­anz­funk­tio­nen \(K(z_1,z_2):Z\times Z\rightarrow \mathbb{R}\) wer­den dann ver­wen­det, um die Kova­ri­anz­ma­tri­zen aller für das opti­mal esti­ma­ti­on benö­tig­ten Grös­sen zu generieren.

Die Ablei­tung der Kova­ri­anz­funk­ti­on \(K\) aus Daten \(f_1, …, f_n\) stellt jedoch eine Her­aus­for­de­rung dar. Da Kova­ri­anz­ma­tri­zen zwin­gend posi­tiv semi­de­fi­nit sein müs­sen, muss für \(K\) gelten

$$ C\succeq 0 ~~~~~~ C_{ij}=K(z_i,z_j) $$

unab­hän­gig von der kon­kre­ten Fol­ge von Aus­wer­te­punk­ten \(\{z_i\}_{i=1}^n \subset Z\) [1, p. 11]. Sol­che \(K(\cdot,\cdot)\) heis­sen posi­ti­ve defi­ni­te Ker­ne. \(K(\cdot,\cdot)\) aus Daten abzu­lei­ten, erfor­dert das Lösen eines sta­tis­ti­schen Infe­renz­pro­b­le­mes unter Neben­be­din­gun­gen betref­fen das Spek­trum von aus \(aus K(\cdot,\cdot)\) kon­stru­ier­ba­ren Matri­zen. Das ist kein ein­fa­ches Problem.

Relevanz

Das es trotz­dem ein wich­ti­ges Pro­blem ist und eine essen­ti­el­le Vor­aus­set­zung für wirk­lich zuver­läs­si­ges opti­mal esti­ma­ti­on zeigt sich z.B. in den Glei­chun­gen für die Lösung des Inter­po­la­ti­ons­pro­b­le­mes. Der opti­ma­le Schät­zer \(f(\cdot)\) auf Basis der Beob­ach­tun­gen \(l=[f(z_1), …, f(z_n)]^T\) ist

$$ \begin{align} f(z) ~~~&= \operatorname{argmin} \|f\|_{\mathcal{H}_K}^2 \\ & ~~~~~\text{s.t.} f(z_j)=l_j ~~~~ j=1, …, n \\ &= \begin{bmatrix} K(z,z_1) & \cdots & K(z,z_n)\end{bmatrix} \begin{bmatrix} K(z_1,z_1) & \cdots & K(z_1,z_n) \\ \vdots & \ddots & \vdots \\ K(z_n,z_1) & \cdots & K(z_n,z_n)\end{bmatrix}^{-1} \begin{bmatrix} l_1 \\ \vdots \\ l_n\end{bmatrix}\\ &= \sum_{j=1}^n \alpha_jK(z,z_j)\end{align}$$

und hängt somit nur ab von den Daten und der Kova­ri­anz­funk­ti­on. Für sto­chas­ti­sche Pro­zes­se ist das Wis­sen um die Kova­ri­anz­funk­ti­on oft gleich­be­deu­tend mit dem Wis­sen um die gesam­te Wahr­schein­lich­keits­ver­tei­lung und somit der zen­tra­le Bestand­teil der Schätz­glei­chun­gen. Folg­lich ist der Ein­fluss der Kova­ri­anz­funk­ti­on auf den opti­ma­len Schät­zer gross.

Abbil­dung 2 : Die Wahl der Kova­ri­anz­funk­ti­on ent­schei­det über die Gestalt der Lösung für das Interpolationsproblem.

Funktionales Modell Kovarianzfunktionen

Ähn­lich der Repre­sen­ta­ti­on posi­tiv semi­de­fi­ni­ter Matri­zen \(C\) als Pro­dukt \(B^TB\) von Matri­zen \(B\) kann eine Kova­ri­anz­funk­ti­on immer geschrie­ben wer­den als \( \int_Z B(z_1,z)B(z,z_2)dz\). Unter eini­gen Annah­men [2, pp. 158–163] impli­ziert dies eine Zer­leg­bar­keit von \(K(z_1,z_2)\) in

$$ K(z_1,z_2)=\sum_{i=1}^{\infty}\sum_{j=1}^{\infty} \gamma_{ij}\varphi_i(z_1)\varphi_j(z_2) $$

wobei \(\varphi_i(z), i=1, … \) eine ortho­nor­ma­le basis von Funk­tio­nen auf \(Z\) bil­den und \(\gamma \succeq 0\) eine posi­tiv semi­de­fi­ni­te Matrix ist, die unge­fähr einer Wis­hart Ver­tei­lung folgt. Die­ses Modell ist sehr fle­xi­bel und kann eine Viel­zahl von Kor­re­la­ti­ons­struk­tu­ren erzeugen.

Abbil­dung 3 : Zwei zufäl­lig gene­rier­te Kova­ri­anz­ma­tri­zen und Simu­la­tio­nen von Pro­zes­sen, die sol­che Kor­re­la­ti­ons­struk­tu­ren aufweisen.

Inferenzgleichungen

Nimmt man an, \(K(z_1,z_2)\) sei ein Qua­drat \(B^TB = \int_Z B(z_1,z)B(z,z_2)dz\) nor­mal­ver­tei­lert zufäl­li­ger Funk­tio­nen \(B\), dann ist \(\gamma\) unge­fähr Wis­hart ver­teilt. Mit \(p(l|\gamma)\) der beding­ten Wahr­schein­lich­keit von Beob­ach­tun­gen \(l\) gege­ben die Kova­ri­anz­funk­ti­on in Abhän­gig­keit von \(\gamma\) sowie \(p(\gamma)\) der Wahr­schein­lich­keit von \(\gamma\) gilt nach Bayes-theorem

$$p(\gamma|l) = c p(l|\gamma)p(\gamma) ~~~~~~ c \text{ eine Konstante}.$$

Dabei ist \(p(\gamma|l)\) die beding­te Wahr­schein­lich­keit von \(\gamma\), wenn \(l\) beob­ach­tet wur­de. Maxi­mie­rung der Wahr­schein­lich­keit ist gleich­be­deu­tend mit Mini­mie­rung von \(-\log p(\gamma|l)=-\log p(l|\gamma)-\log p(\gamma)\).

Das Opti­mie­rungs­pro­blem lautet

$$ \begin{align} \min_{\gamma} ~~~& \log \det C_{\gamma} + \operatorname{tr} (SC_{\gamma}^+)+ r\left[ — \log \det \gamma + \operatorname{tr}(\Lambda^+\gamma)\right] \\ \text{s.t.}
~~~& A \gamma =b \\ ~~~& \gamma \succeq 0 \end{align}$$

wobei \(S\) die empi­ri­sche Kova­ri­anz­ma­trix der Daten \(l\), \(C_{\gamma}\) die mit Hil­fe von \(\gamma\) rekon­stru­ier­te Kova­ri­anz­ma­trix, \(C_{\gamma}^+\) deren Pseu­dein­ver­se und \(\Lambda\) eine Matrix ist, die a‑priori Annah­men über \(\gamma\) codiert. Die Regu­la­ri­sie­rungs­kon­stan­te \(r\) gewich­tet Vor­wis­sen und Daten gegen­ein­an­der und \(A \gamma = b\) sind linea­re Bedin­gun­gen für \(\gamma\). Sie reprä­sen­tie­ren defi­ni­ti­ves Wis­sen über der Kor­re­la­ti­ons­struk­tur zugrun­de­lie­gen­de Zusam­men­hän­ge. Mit den Infor­ma­tio­nen über ers­te und zwei­te Ablei­tun­gen der Ziel­funk­ti­on ergibt sich das nume­ri­sche Sche­ma [2, p. 194]

$$ \begin{align} \gamma &= \gamma +\Delta \gamma ‑A^T(A\gamma A^T)^+A\Delta \gamma \\ \Delta \gamma & = \frac{1}{1+r} \left[ (r‑1)\gamma +S_{\psi} — r\gamma \Lambda^+\gamma\right] \end{align}$$

wobei \(S_{\psi}\) eine trans­for­mier­te Vari­an­te der empi­ri­schen Kova­ri­anz­ma­trix ist. Wer­den die ite­ra­tio­nen über \(\gamma\) nume­risch sta­bi­li­siert und bis zur Kon­ver­genz aus­ge­führt, dann ist das Resul­tat eine mit Hil­fe von \(\gamma\) kon­stru­ier­te Kova­ri­anz­funk­ti­on \( K(z_1,z_2)\). Sie sagt für alle mög­li­chen Posi­tio­nen \(z_1, z_2\) Kor­re­la­tio­nen vor­her, die maxi­mal kon­sis­tent sind mit den punk­tu­el­len Beob­ach­tun­gen \(l\) und den Vorannahmen.

Resultate

Die opti­ma­le Schät­zung von Kor­re­la­ti­ons­struk­tu­ren mit der obi­gen metho­de ist fle­xi­bler als klas­si­sche Vor­ge­hens­wei­se basie­rend auf der sub­jek­ti­ven Wahl para­me­tri­scher Fami­li­en von Kova­ri­anz­funk­tio­nen. Eine Viel­zahl von Echt­welt­pro­zes­sen kann hin­sicht­lich ihrer Kor­re­la­ti­ons­struk­tur nicht durch ein­fa­che Funk­tio­nen dar­ge­stellt werden. 

Die sto­chas­ti­sche Model­lie­rung sol­cher Pro­zes­se pro­fi­tiert von der Fle­xi­bi­li­tät der obi­gen Metho­de. Dies wird beson­ders klar, wenn die aus ver­schie­de­nen metho­den gewon­ne­nen Kova­ri­anz­funk­tio­nen im rah­men der opti­ma­len Schät­zung von Funk­tio­nen ver­wen­det werden.

Abbil­dung 4 : Die zugrun­de­lie­gen­de wah­re Kova­ri­anz­funk­ti­on ist typi­scher­wei­se unbe­kannt. Nur ein­zel­ne Mes­sun­gen sind zugäng­lich sowie eine Ver­mu­tung über z.B. Glatt­heits­ei­gen­schaf­ten der Kova­ri­anz­funk­ti­on. Wer­den Daten und Vor­wis­sen kom­bi­niert, ent­steht eine Kova­ri­anz­funk­ti­on, die der wah­ren sehr ähnelt. Man bemer­ke, dass die­se Kova­ri­anz­funk­ti­on zu deut­lich bes­se­ren Inter­po­la­tio­nen führt als eine gene­ri­sche Kovarianzfunktion.

Erweiterungen

Das Schätz­ver­fah­ren kann aus­ge­dehnt wer­den auf Situa­tio­nen, in denen sowohl Mit­tel­wer­te als auch Kova­ri­an­zen unbe­kannt sind und Beob­ach­tun­gen \(l\) in \(m\) ver­schie­de­nen Grup­pen \((l^1_1, …, l^1_{n_1}, … l^m_1, …, l^m_{n_m}\) mit ver­schie­de­nen Auf­nah­me­me­tho­di­ken anfal­len. Das zuge­hö­ri­ge Optimierungsproblem

$$ \begin{align} \min_{\beta, \gamma} ~~~& \sum_{i=1}^m \log \det \eta_i +
\operatorname{tr} (S_{\phi}^i\eta_i^+)+ r\left[ — \log \det \gamma +
\operatorname{tr}(\Lambda^+\gamma)\right] \\ \text{s.t.}
~~~& A \gamma =b \\ &F_i\gamma -\eta_i= 0 ~~~~ i=1, …, m \\ ~~~& \gamma \succeq 0 \\ & \eta_i \succeq 0 ~~~~ i=1, …, m \end{align}$$

wobei \(\eta_i i=1, …, m\) Kova­ri­anz­ma­tri­zen sind, die via \(F_i\gamma-\eta_i=0\) an \(\gamma\) gekop­pelt wer­den und \(S_{\phi}^i\) trans­for­mier­te empi­ri­sche Kova­ri­anz­ma­tri­zen. Die Opti­mie­rung kann mit­tels pro­ji­zier­tem New­ton­ver­fah­ren durch­ge­führt wer­den, sie­he z.B. hier (Git­hub Link). Die Erwei­te­rung auf mul­ti­ple Dimen­sio­nen ist trivial.

Abbil­dung 5 : Bei­spiel­haf­te Anwen­dung des Ver­fah­rens zur opti­ma­len Schät­zung von 1D, 2D Pro­zes­sen und Trajektorien.

Praktisches

Die Schät­zung von Kor­re­la­ti­ons­struk­tu­ren ist sehr wich­tig für die Gene­rie­rung aus­sa­ge­kräf­ti­ger sto­chas­ti­scher Model­le. Sie ist daher ein häu­fig ange­trof­fe­nes Dis­kus­si­ons­the­ma in der räum­li­chen Sta­tis­tik, der Ana­ly­se phy­si­kal­si­cher Pro­zes­se, der Ver­wen­dung von Regres­si­ons­mo­del­len und im maschi­nel­len Lernen.

Sind genug Daten vor­han­den, so kann ein von hand auf Basis von Ver­mu­tun­gen erstell­tes sto­chas­ti­sches Modell ver­fei­nert wer­den. das hat posi­ti­ve Aus­wir­kun­gen auf die Qua­li­tät der mit Hil­fe des Modells abge­lei­te­ten Aussagen.

Code & Quellen

eispiel­code: OE_KI.py , OE_KI_support_funs.py , OE_KI_covariance_impact_1.py, OE_KI_covariance_impact_2.py , OE_KI_interpolate_brownian_bridge.py , OE_KI_interpolate_field.py , OE_KI_interpolate_function.py , OE_KI_interpolate_trajectgory.py  in unse­rem Tuto­ri­al­fol­der.

[1] Ber­li­net, A., & Tho­mas-Agnan, C. (2011). Repro­du­cing Ker­nel Hil­bert Spaces in Pro­ba­bi­li­ty and Sta­tis­tics: . Ber­lin Hei­del­berg: Sprin­ger Sci­ence & Busi­ness Media.

[2] Butt, J. A. (2019). An RKHS approach to model­ling and infe­rence for spa­tio­tem­po­ral geo­de­tic data with appli­ca­ti­ons to ter­restri­al radar inter­fe­ro­me­try. Dis­ser­ta­ti­on ETH Zürich, Zürich.