Tensorregression

Diese Baustelle befindet sich fälschlicherweise im Artikelnamensraum. Bitte verschiebe die Seite oder entferne den Baustein {{Baustelle}}.

Als Tensorregression bezeichnet man in der Statistik ein Regressionsmodell basierend auf Tensoren, bei dem entweder der Regressor, der Regressand oder beides Tensoren sind. Tensorregressionen werden vor allem für hochdimensionale Daten verwendet, da Tensoren eine natürliche Darstellung solcher Daten sind. Ein Anwendungsbeispiel für die Tensorregression liegt im Neuroimaging, wo man die Hirnaktivität von Hunderten von Neuronen über einen Zeitraum misst und die Daten sehr schnell wachsen.

Bei hochdimensionalen Daten besitzt der Koeffiziententensor meistens einen viel höheren Rang als der Regressor und der Regressand, weshalb man - ähnlich wie bei der Regression mit reduziertem Rang - häufig die Annahme trifft, dass der Koeffiziententensor einen tiefen Rang basierend auf einer Tensorzerlegung besitzt. Bekannte solche Zerlegungen sind die Candecomp/Parafac-Zerlegung (CP), die Tucker-Zerlegung, die Tensor-Singulärwertzerlegung (t-SVD) und die Tensor-Train-Zerlegung (TT). Im Artikel wird eine Tensor-Verallgemeinerung der verallgemeinerten linearen Modelle (GLM) behandelt, welche 2013 von Hua Zhou et al.^[1] mit der Candecomp/Parafec-Zerlegung eingeführt wurde und machmal als CP-GLTR (englisch generalized linear tensor regression) abgekürzt wird.

Tensorregression

Im Artikel wird die Tensorregression auf den reellen Zahlen mit dem Tensorprodukt $\otimes :=\otimes _{\mathbb {R} }$ definiert, das Konzept lässt sich aber auch auf allgemeine Vektorräumen respektive Moduln definieren.

In der allgemeinen Form sind Tensordaten $\{{\mathcal {X}}_{n},{\mathcal {Y}}_{n}\}_{1\leq n\leq N}$ gegeben, dann ist das Tensorregressionsmodell von der Form

{\mathcal {Y}}_{n}=f({\mathcal {X}}_{n},{\mathcal {B}})+{\mathcal {E}}_{n},

wobei

{\mathcal {Y}}_{n}\in \bigotimes _{i=1}^{M}\mathbb {R} ^{q_{i}},\quad {\mathcal {X}}_{n}\in \bigotimes _{i=1}^{L}\mathbb {R} ^{p_{i}},\quad {\mathcal {B}},\quad {\mathcal {E}}_{n}\in \bigotimes _{i=1}^{M}\mathbb {R} ^{q_{i}}

Tensoren und $q_{1},\dots ,q_{M},p_{1},\dots ,p_{L}$ natürliche Zahlen sind.

Durch Konkatenation ${\mathcal {Y}}\in \mathbb {R} ^{N}\otimes \mathbb {R} ^{q_{1}}\otimes \cdots \otimes \mathbb {R} ^{q_{M}}$ , lässt sich das auch kompakter als

{\mathcal {Y}}=f({\mathcal {X}},{\mathcal {B}})+{\mathcal {E}}

hinschreiben.

Tensorzerlegungen

Für einen beliebigen Tensor $T$ sucht man eine Zerlegung eines Tensors ${\widehat {T}}$ , welche $T$ am besten approximiert

{\mathcal {L}}(T)=\min \limits _{\widehat {T}}\|T-{\widehat {T}}\|_{F},

wobei wir hier die Frobenius-Norm gewählt haben. Zwei populäre Wahlen sind die Candecomp/Parafec-Zerlegung (kurz CP-Zerlegung) und die Tucker-Zerlegung. Die Tucker-Zerlegung ist eine Form einer höher-dimensionalen Hauptkomponentenanalyse und wird auch HOSVD für englisch higher-order singular value decomposition genannt.

CP-Zerlegung

Sei $T\in \mathbb {R} ^{q_{1}}\otimes \cdots \otimes \mathbb {R} ^{q_{D}}$ ein Tensor. Eine CP-Zerlegung für ein $p\in \mathbb {N}$ ist eine Rang- $p$ -Zerlegung von $T$ in Elementartensoren

T=\sum \limits _{k=1}^{p}\lambda _{k}v_{k}^{(1)}\otimes \cdots \otimes v_{k}^{(D)},

wobei $v_{k}^{(i)}=(v_{k,1}^{(i)},\dots ,v_{k,q_{i}}^{(i)})^{T}\in \mathbb {R} ^{q_{i}}$ Vektoren und $\lambda _{k}\in \mathbb {R}$ Gewichte sind. Die minimale Zahl

\operatorname {rank} (T)=\min \left\{p\in \mathbb {N} \colon T=\sum \limits _{k=1}^{p}v_{k}^{(1)}\otimes \cdots \otimes v_{k}^{(D)}\right\}

nennt man den Rang von $T$ und er ist invariant unter Basiswechsel. Die Berechnung des Rangs ist jedoch NP-schwer.^[2]

Tucker-Zerlegung

Die Tucker-Zerlegung (oder auch HOSVD) zerlegt einen Tensor $T\in \mathbb {R} ^{q_{1}}\otimes \cdots \otimes \mathbb {R} ^{q_{D}}$ in einen Kern-Tensor $G\in \mathbb {R} ^{R_{1}}\otimes \cdots \otimes \mathbb {R} ^{R_{D}}$ und $D$ Faktor-Matrizen $A_{1},\dots ,A_{D}$ mit $A_{i}\in \mathbb {R} ^{q_{i}\times R_{i}}$

T=G\times A_{1}\times \cdots \times A_{D}

oder

T=\sum \limits _{j_{1}=1}^{R_{1}}\sum \limits _{j_{2}=1}^{R_{2}}\cdots \sum \limits _{j_{D}=1}^{R_{D}}g_{i_{1},i_{2},\dots ,i_{D}}a_{j_{1}}^{(1)}\otimes a_{j_{2}}^{(2)}\otimes \cdots \otimes a_{j_{D}}^{(D)}

wobei $a_{j_{k}}^{(k)}\in \mathbb {R} ^{Q_{k}}$ für $k=1,\dots ,d$ und $j_{k}=1,\dots ,R_{k}$ Vektoren sind und $g_{i_{1},i_{2},\dots ,i_{D}}\in \mathbb {R}$ . Die Parameter $(R_{1},\dots ,R_{D})$ nennt man Tucker-Ränge.

Regressionsmodelle

Sei nun ${\mathcal {X}}$ wie oben, das heißt ${\mathcal {X}}\in \mathbb {R} ^{N}\otimes \mathbb {R} ^{p_{1}}\otimes \cdots \otimes \mathbb {R} ^{p_{M}}$ .

Verallgemeinerte lineare Tensorregression regression mit CP-Zerlegung

Die von Zhou et al. ^[1] betrachtete Verallgemeinerung der verallgemeinerten linearen Modelle ist die Kopplungsfunktion

g(\mu )=\alpha +\gamma ^{T}Z+\langle {\mathcal {B}},{\mathcal {X}}\rangle ,

wobei der Regressor $X\in \mathbb {R} ^{N}\otimes \mathbb {R} ^{P_{1}}\otimes \cdots \otimes \mathbb {R} ^{P_{L}}$ und ${\mathcal {B}}$ ein Tensor sind, $Z$ ein Vektor-Regressor und $\alpha$ der y-Achsenabschnitt ist. Sie nahmen nun an, dass für ${\mathcal {B}}$ eine CP-Zerlegung mit Rang $R$ existiert

g(\mu )=\alpha +\gamma ^{T}Z+\left\langle \sum \limits _{k=1}^{R}b_{k}^{(1)}\otimes \cdots \otimes b_{k}^{(D)},{\mathcal {X}}\right\rangle

Dies kann nun mit Hilfe des Khatri-Rao-Produkt $\star$ umgeschriebenen werden zu

g(\mu )=\alpha +\gamma ^{T}Z+\left\langle (B_{D}\star \cdots \star B_{1})1_{R},\operatorname {vec} (X)\right\rangle

wobei $B_{D}\star \cdots \star B_{1}\in \mathbb {R} ^{\prod _{d}P_{d}\times R}$ und $1_{R}$ ein Vektor aus $R$ Einsen ist.^[1]

Einzelnachweise

↑ ^a ^b ^c Zhou H, Li L, Zhu H.: Tensor Regression with Applications in Neuroimaging Data Analysis. In: J Am Stat Assoc. Band 108, Nr. 502, 2013, S. 540–552, doi:10.1080/01621459.2013.776499.
↑ Tamara G. Kolda und Brett W. Bader: Tensor Decompositions and Applications. In: SIAM Review. Band 51, Nr. 3, 2009, S. 455–500, doi:10.1137/07070111X.

[Zhou-1] Zhou H, Li L, Zhu H.: Tensor Regression with Applications in Neuroimaging Data Analysis. In: J Am Stat Assoc. Band 108, Nr. 502, 2013, S. 540–552, doi:10.1080/01621459.2013.776499.

[2] Tamara G. Kolda und Brett W. Bader: Tensor Decompositions and Applications. In: SIAM Review. Band 51, Nr. 3, 2009, S. 455–500, doi:10.1137/07070111X.

[1]

[2]