Optimal estimation: Parameterschätzung

Definition

Unter Para­me­ter­schät­zung (auch Regres­si­on genannt) wer­den all die­je­ni­gen Aufaben zusam­men­ge­fasst, die sich auf daten­ge­trie­be­ne Modell­an­pas­sung zurück­füh­ren las­sen. Dabei besteht das Ziel in der Wahl von Para­me­tern, die das Modell­ver­hal­ten in mög­lichst genaue Über­ein­stim­mung mit tat­säch­lich beob­ach­te­tem Echt­welt­ver­hal­ten bringen. 

Es spielt kei­ne Rol­le, wel­cher Natur die Daten sind und wel­che Kom­ple­xi­tät das anzu­pas­sen­de Modell auf­weist. Auch z.B. Bild­klas­si­fi­ka­ti­on kann als Para­me­ter­schät­zung­pro­blem auf­ge­fasst wer­den. Die Daten bestehen in dem Fall aus mit Bild­klas­sen anno­tier­ten Bil­dern und das Modell ist ein neu­ro­na­les Netz mit vie­len Para­me­tern, wel­ches zu Bil­dern Bild­klas­sen zuwei­sen soll. Die Über­gän­ge zum maschi­nel­len Ler­nen sind dem­nach fliessend.

Beispiel

Ange­nom­men eine Wet­ter­sta­ti­on lie­fert in regel­mäs­si­gen Abstän­den Tem­pe­ra­tur­mess­wer­te \(l_k, k=1, … ‚n\). Dies führt zu der Mess­rei­he \( (l_1, z_1), … , (l_n, z_n)\) wobei mit \(z_k, k=1, … ‚n\) die Mess­zeit­punk­te bezeich­net sind. In Erwar­tung lang­fris­ti­ger Trends und peri­odi­scher Schwan­kun­gen auf­grund tages­zeit­lich beding­ter Ein­flüs­se  wird das fol­gen­de Modell \(g(x,z) \) zur Erklä­rung der tat­säch­lich beob­ach­te­ten Tem­pe­ra­tur­mess­da­ten \(l\) vorgeschlagen:

$$ \begin{align} l \approx g(x,z) = & x_1g_1(z) + x_2 g_2(z) + x_3 g_3(z) \\ & \underbrace{x_1}_{\text{Konstante}} + \underbrace{x_2z}_{\text{linearer Trend}} + \underbrace{x_3\sin\left(\frac{2 \pi}{24}z \right)}_{\text{periodischer Ein­fluss}} \end{align}$$

In dem Modell sind die Para­me­ter \(x_1, x_2, x_3\) unbe­stimmt und sol­len so gewählt wer­den, dass \(g(x,z_k)\) und \(l_k\) unge­fähr gleich sind.

Abbil­dung 1: Die Daten und die Ein­zel­tei­le des Model­les \(g(x,z)=x_1 g_1(z)+ x_2 g_2(z) + x_3 g_3(z)\) wer­den mit­ein­an­der in maxi­mal mög­li­che Über­ein­stim­mung gebracht durch Opti­mie­rung über \(x\). Das opti­ma­le Modell \(g(x^*,z)\) ist eben­falls illustriert.

Die Lösung des Optimierungsproblemes

$$ \begin{align} \min_x ~~~& \sum_{k=1}^n (l_k‑g(x,z_k))^2 \end{align}$$

ist der opti­ma­le Para­me­ter­vek­tor \(x^*=[x_1^*, x_2^*, x_3^*]^T\).  Er lässt  Inter­pre­ta­tio­nen zu über die  rela­ti­ve Stär­ke kon­stan­ter, linea­rer, und peri­odi­scher Effek­te. Die Dis­kre­panz \(\sum_{k=1}^n(l_k‑g(x^*,z_k))^2\) ist ein Indi­ka­tor für die Gesamt­eig­nung des Modellansatzes.

Generalisierung

Der obi­ge Ansatz lässt sich pro­blem­los auf Daten \(l_k\) belie­bi­ger Dimen­si­on \(d_1\), Funk­ti­ons­in­puts \(z\) belie­bi­ger Dimen­si­on \(d_2\), und belie­big vie­le Basis­funk­tio­nen \(g_1(x,z), … , g_m(x,z)\) aus­deh­nen. Das Opti­mie­rungs­pro­blem zur Bestim­mung der opti­ma­len Para­me­ter \(x^*\) lau­tet dann

$$ \begin{align} \min_x ~~~& \sum_{k=1}^n \|l_k-\sum_{j=1}^m x_jg_j(z_k)\|_2^2 \end{align}$$

wobei \(g(x,z)=\sum_{j=1}^m x_jg_j(z)\) eine Fubnk­ti­on von \(\mathbb{R}^{d_2}\) nach \(\mathbb{R}^{d_1}\) ist und \(\|v\|_2^2 = \sum_{k=1}^{d_1}v_k^2\) die Län­ge des Vek­tors \(v\in \mathbb{R}^{d_1}\) misst. In der obi­gen Form ohne wei­te­re Neben­be­din­gun­gen oder Kom­pli­ka­tio­nen han­delt es sich um ein qua­dra­ti­sches Pro­gramm, des­sen Lösung in expli­zi­ter Form auf­ge­schrie­ben wer­den kann als

$$ \begin{align} x &=(G^TG)^{-1}G^T l \\ l&\in \mathbb{R}^{n d_1} ~~~~ l=[l_{11}, … , l_{1 d_1}, …, l_{n1}, …, l_{nd_1}]^T \\ G & \in \mathbb{R}^{n d_1} \times \mathbb{R}^{m} ~~~~ G=\begin{bmatrix} G_1 \\ \vdots \\ G_n \end{bmatrix} \\ G_k &\in \mathbb{R}^{d_1} \times \mathbb{R}^{m} ~~~~ G_k=\begin{bmatrix} g_{11}(z_k) & \cdots & g_{n1}(z_k) \\ \vdots & \ddots & \vdots \\ g_{1d_1}(z_k) & \cdots & g_{md_1}\end{bmatrix} \end{align}$$

Hier­bei ist \(g_{ij}(z_k)\) der \(j-\)te Ein­trag des Vek­tors \(g_i(z_k\). Damit las­sen sich Para­me­ter­schätz­pro­ble­me für z.B. zwei­di­men­sio­na­le Tra­jek­to­ri­en und Vek­tor­fel­der lösen; sie­he Abbildung.

Abbil­dung 2: Illus­tra­ti­on von mul­ti­di­men­sio­na­len Schätz­pro­ble­men, bei denen die Out­put­di­men­si­on \(d_1=2\) (a) oder Out­put­di­men­si­on \(d_1=2\) und Input­di­men­si­on \(d_2=2\) (b) sind. Daten, Basis­funk­tio­nen, und die opti­mal ange­pass­te Kom­bi­na­ti­on von Basis­funk­tio­nen sind eben­falls zu sehen.

Interpretation

Die bis­he­ri­gen For­mu­lie­run­gen beinhal­ten qua­dra­ti­sche Ziel­funk­tio­nen der Form \(sum_{k=1}^n \|l_k‑g(x,z_k)\|_2^2\) und sind dem­nach least-squa­res Pro­ble­me. Eine Mini­mie­rung die­ser Ziel­funk­tio­nen ist sinn­voll, wenn die Modell­klas­se \(g(x,z)=\sum_{k=1}^m x_mg_m(z) \) für irgend­ei­ne bestimm­te Wahl von \(x\) die Daten  voll­stän­dig erklä­ren kann is auf (standard)normalverteile Resi­du­en \(\epsilon\). Dann gilt

$$ l_k=g(x,z_k)+\epsilon_k \Leftrightarrow \epsilon_k= l_k‑g(x,z_k). $$

Die Wahr­schein­lich­kei­ten der Resi­du­en \(\epsilon_1, …, \epsilon_n\) sind dann \(p(\epsilon_k)= (2 \sqrt{\pi})^{-1} \exp\left( — \frac{1}{2} \epsilon_k^2\right)\). Die Wahr­schein­lich­keit des Ein­tre­tens aller Resi­du­en \(\epsilon_1, …, \epsilon_n\) gemein­sam ist

$$ p(\epsilon_1, …, \epsilon_n)=\prod_{k=1}^np(\epsilon_k) = (2^n \pi^{n/2})^{-1} \exp\left( -\frac{1}{2} \sum_{k=1}^n \epsilon_k^2 \right)$$ für sta­tis­tisch unab­hän­gi­ge Resi­du­en \(\epsilon_k \coprod \epsilon_j, k \neq j\). Eine wahl von \(x\) so, dass all die Resi­du­en \(\epsilon_1= l_1‑g(x,z_1), …, \epsilon_n=l_n‑g(x,z_n)\) mög­lichst wahr­schein­lich sind, führt auf 

$$ \max_x p(\epsilon_1, …, \epsilon_n) \Leftrightarrow \min_x \sum_{k=1}^n \left(l_k‑g(x,z_k)\right)^2. $$

Die bis­he­ri­gen Mini­mie­rungs­pro­ble­me las­sen sich dem­nach schrei­ben als Wahr­schei­nich­keits­ma­xi­mie­ren­de Schät­zer für den Erwar­tungs­wert von Daten \(l_k=g(x,z_k)+\epsilon_k\) unter der Annah­me von unkor­rel­lier­tem, nor­mal­ver­teil­tem Rau­schen \(\epsilon_k\).

Alternativen zu least-squares

Nicht immer ist die­se Annah­me rea­lis­tisch. Die Ziel­funk­ti­on  und Neben­be­din­gun­gen müs­sen gege­be­nen­falls ange­passt wer­den, um die Eigen­schaf­ten der zugrun­de­lie­gen­den, daten­ge­ne­rie­ren­den Zusam­men­hän­ge ange­mes­sen zu reflek­tie­ren. So sind die beob­ach­te­ten Daten even­tu­ell statt ste­ti­ger Funk­ti­ons­wer­te binä­re Indi­ka­tor­va­ria­blen \(l\in \{0,1\}\), die den Aus­fall eines Bau­tei­les anzei­gen. Ist die Aus­fall­wahr­schein­lich­keit als Funk­ti­on in Abhän­gig­keit von z.B. der Bau­teil­ein­satz­dau­er abzu­schät­zen, dann führt dies auf die soge­nann­te logis­ti­sche Regres­si­on [1, p. 119] zur direk­ten Schät­zung der kumu­la­ti­ven Wahrscheinlichkeitsverteilung

$$p(\text{Bauteilausfall vor Zeit } t) = g(x,z)=[1+\exp(-x^Tz)]^{-1} $$

durch Maxi­mie­rung der Gesamt­wahr­schein­lich­keit \(\prod_{k=1}^ng(x,z_k)^{l_k}(1‑g(x,z_k))^{(1‑l_k)}\) der Aus­fall­be­ob­ach­tun­gen \((l_1,z_1), … , (l_n,z_n)\). Auch mehr­di­men­sio­na­le erklä­ren­de Varia­blen wie etwa \(z=[\text{Einsatzdauer , Bau­teil­preis}]\) sind erlaubt und ändern nichts an den Gleichungen.

Abbil­dung 3: Visua­li­sie­rung der logis­ti­schen Regres­si­on. Auf Basis von Beob­ach­tun­gen wird eine kumu­la­ti­ve Wahrhschein­lich­keits­ver­tei­lung geschätzt, die das Risi­ko eines Bau­teil­aus­falls quan­ti­fi­ziert und z.B. Ana­ly­sen über durch­schnitt­li­che Lebens­dau­ern und Kos­ten eines Sys­tems ermöglicht.

Anwendungen und Praktisches

Die klas­si­sche least-squa­res Para­me­ter­schät­zung ist das Arbeits­pferd der Daten­ana­ly­se und Model­lie­rungs­ver­fah­ren. Sie wird ein­ge­setzt, wo auch immer Infor­ma­tio­nen aus daten zu extra­hie­ren oder Model­le an rea­le Beob­ach­tun­gen anzu­pas­sen sind. Sie ist leicht zu ver­ste­hen, gut erforscht, und erlaubt geschlos­se­ne und ein­fach zu imple­men­tie­ren­de Lösungs­for­meln. Sie ist daher enorm weit ver­brei­tet und jeg­li­che Auf­zäh­lung spe­zi­fi­scher Anwen­dungs­mög­lich­kei­ten wäre grob unre­prä­sen­ta­tiv. Ande­re Para­me­ter­schät­zungs­an­sät­ze sind weni­ger weit ver­brei­tet aber im Fall nciht nor­mal­ver­teil­ter Daten von essen­ti­el­ler Bedeutung.

Aus prak­ti­scher Sicht besteht die Schwie­rig­keit beim For­mu­lie­ren von Para­me­ter­schät­zungs­pro­ble­men häu­fig in der sto­chas­ti­schen Model­lie­rung des Echt­welt­pro­zes­ses, der hin­sicht­lich sei­ner Wahr­schein­lich­keits­ver­tei­lung ana­ly­siert wer­den soll. Sind zudem die Wahr­schein­lich­keits­ver­tei­lun­gen nicht aus einer bestimm­ten para­me­tri­schen Fami­lie, so sind die Wahr­schein­lich­keits­ma­xi­mie­ren­den Para­me­ter unter Umstän­den nur schwie­rig zu fin­den, da das zuge­hö­ri­ge Opti­mie­rungs­pro­blem kei­ner der wohl­be­kann­ten Klas­sen LP, QP, SOCP, SDP angehört.

Code & Quellen

Bei­spiel­code: OE_logistic_regression.py , OE_parameter_estimation_1.pyOE_parameter_estimation_2.py OE_simulation_support_funs.py  in unse­rem Tuto­ri­al­fol­der

[1] Has­tie, T., Tibs­hira­ni, R., & Fried­man, J. (2013).  The Ele­ments of Sta­tis­ti­cal Lear­ning: Data Mining, Infe­rence, and Pre­dic­tion. Ber­lin Hei­del­berg: Sprin­ger Sci­ence & Busi­ness Media.