Hyperdimensional Computing

Hyperdimensional Computing (englisch für Hyperdimensionales Rechnen, kurz HDC) unterscheidet sich vom klassischen Rechnen dadurch, dass es nicht mit einzelnen Bits arbeitet, sondern mit hyperdimensionalen Vektoren, auch Hypervektoren genannt, als Datenrepräsentationen. Hypervektoren sind Vektoren, welche eine Dimensionalität von mehreren Tausend haben.^[1]^[2]

Dieser Ansatz geht ursprünglich auf das kognitive Modell von Kanerva^[3] zurück. Es basiert auf der Annahme, dass alle möglichen Zustände des Gehirns mit seinen 100 Milliarden Neuronen durch einen Hypervektor repräsentiert werden können.^[2] Das Gehirn arbeitet energieeffizient, ist robust gegenüber Datenkorruption und kann gut mit ungenauen Daten umgehen.^[1]

Durch diese, vom Gehirn inspirierten Hypervektoren kann HDC im Vergleich zum klassischen Rechnen zwar weniger akkurat, dafür aber deutlich schneller und energieeffizienter sein. Es zeigt vor allem im Umgang mit Schrift, Symbolen oder Bildern Potenzial und könnte im Internet der Dinge klassische Algorithmen als effizienterer Klassifizierer ersetzen.^[2]

Technische Grundlagen

Hypervektoren können prinzipiell in zwei Kategorien eingeteilt werden: binär und nicht-binär. Nicht-binäre Repräsentationen wie bipolare und ganzzahlige Hypervektoren sind oft akkurater, dafür aber nicht so effizient wie binäre Hypervektoren.^[2]

Orthogonalität

Damit Hypervektoren bestimmte Konzepte repräsentieren können, muss definiert werden, wie unterschiedlich oder ähnlich sich zwei Hypervektoren zueinander verhalten.

Bei nicht-binären Hypervektoren wird dies mit der Kosinus-Ähnlichkeit gemessen. Ein Wert von 1 bedeutet, dass die beiden Hypervektoren identisch sind, während ein Wert von 0 bedeutet, dass sie orthogonal zueinander sind. Für binäre Hypervektoren wird die normalisierte Hamming-Distanz verwendet. Bei einer Hamming-Distanz von 0 sind zwei Hypervektoren identisch, bei 0,5 orthogonal und bei 1 gegensätzlich.^[2]^[4]

Ein wichtiges Konzept des HDC ist die Orthogonalität und wie diese mit der hohen Anzahl an Dimensionen zusammenspielt. Bei höherer Dimensionalität weisen zwei zufällig generierte Vektoren mit nahezu absoluter Wahrscheinlichkeit eine Hamming-Distanz von ungefähr 0,5 auf und sind damit orthogonal zueinander. Mit abnehmender Dimensionalität wird die Wahrscheinlichkeit für eine Hamming-Distanz nahe 0,5 geringer, und die Vektoren können ähnlicher oder konträrer zueinander werden. Somit können verschiedene Vektoren addiert oder multipliziert werden, ohne dass die Gefahr besteht, dass die jeweiligen Ergebnisse bereits einer bestehenden Bedeutung bzw. einem vorhandenen Konzept zugeordnet sind.^[2]

Transformation

Zu jeder Rechendisziplin gehört die Transformation von Daten, um daraus neue Erkenntnisse zu ziehen. Während beim klassischen Rechnen die vier arithmetischen Operationen, Addition, Multiplikation, Subtraktion und Division, mithilfe von ALUs verwendet werden, arbeitet HDC mit drei Operationen: Addition, Multiplikation und Permutation. Hierbei werden mehrere Hypervektoren zu einem neuen Hypervektor transformiert.^[1]^[2]

Diese Konzepte werden im Folgenden anhand von binären Hypervektoren demonstriert, wobei die Konzepte grundsätzlich auf nicht-binäre Hypervektoren übertragbar sind, diese jedoch hardware- bzw. softwaretechnisch komplizierter in der Umsetzung sind.^[1]^[2]

Addition

Addition, auch Bundling (englisch für Bündeln) genannt, berechnet einen Hypervektor $Z$ anhand mehrerer Hypervektoren $\{A_{1},A_{2},\ldots ,A_{n}\}$ . $Z$ ist dann maximal ähnlich zu allen addierten Vektoren $A_{i}$ mit $i\in \{1,\ldots ,n\}$ und hat somit eine minimale Hamming-Distanz zu ihnen. Mit dieser Operation lassen sich beliebig viele Konzepte zu einem neuen Konzept zusammenfassen.^[1]^[2]^[4]

Um dies zu erreichen, wird jedes Bit von $Z$ bitweise nach der Mehrheitsregel auf 0 oder 1 gesetzt:

Z={\text{majority}}(A_{1},A_{2},\ldots ,A_{n})

Das bedeutet, für jede Bitposition wird ausgezählt, wie oft eine 1 bzw. eine 0 vorkommt. Das häufigere Bit wird für $Z$ an dieser Position übernommen. Am einfachsten lässt sich dies anhand einer bitweisen Addition von drei 8-Bit-Vektoren demonstrieren:

{\begin{array}{rcl}A&=&[1,0,1,1,0,0,1,0]\\B&=&[1,1,0,1,0,1,1,0]\\C&=&[0,1,1,1,0,0,0,1]\\\hline Z=A\oplus B\oplus C&=&[1,1,1,1,0,0,1,0]\end{array}}

Hierbei ist zu beachten, dass die Addition einer geraden Anzahl an Hypervektoren einen Bias aufweist. Gleichstände bei der Mehrheitsbildung müssen entweder durch einen Bias zu 0 oder 1 oder durch die zusätzliche Addition eines zufällig generierten Hypervektors aufgelöst werden. Je mehr Elemente addiert werden, desto geringer fällt der Einfluss dieses Bias aus und kann letztendlich bei großen Additionen vernachlässigt werden.^[2]

Multiplikation

Die Multiplikation, auch Binding (englisch für Verknüpfen) genannt, verknüpft zwei existierende Hypervektoren und formt daraus ein neues Konzept, das sich von den ursprünglichen Hypervektoren unterscheidet. Ein Hypervektor $Z$ wird berechnet, indem zwei Vektoren $A$ und $B$ mit einer XOR-Operation kombiniert werden. Der resultierende Vektor $Z$ ist dann annähernd orthogonal zu den beiden Vektoren $A$ und $B$ . Die Multiplikation lässt sich anhand des folgenden Beispiels zweier 8-Bit-Vektoren demonstrieren:^[1]^[2]^[4]

{\begin{array}{rcl}A&=&[1,0,1,1,0,0,1,0]\\B&=&[1,1,0,1,0,1,1,0]\\\hline Z=A\otimes B&=&[0,1,1,0,0,1,0,0]\end{array}}

Permutation

Die Permutation $\rho$ ist hilfreich, um Sequenzen darzustellen. Sie erlaubt es, einen Hypervektor so zu verändern, dass er annähernd orthogonal zu sich selbst wird. Dies ermöglicht die Darstellung von Reihenfolgen, welche bei reiner Multiplikation nicht gegeben sind. Hierzu nimmt man einen Hypervektor und rotiert die Bits um eine Stelle nach vorne, wobei das kleinste Bit an die Stelle des größten Bits rückt. Am besten lässt sich dies anhand des folgenden Beispiels demonstrieren:^[1]^[2]^[4]

{\begin{array}{rcl}A&=[0,0,1,1,0,0,1,1]\\\hline \rho (A)&=[1,0,0,1,1,0,0,1]\end{array}}

Einzelnachweise

↑ ^a ^b ^c ^d ^e ^f ^g Anthony Thomas, Sanjoy Dasgupta, Tajana Rosing: A Theoretical Perspective on Hyperdimensional Computing. In: Journal of Artificial Intelligence Research. 72. Jahrgang, 2021, S. 215–249, doi:10.48550/arXiv.2010.07426 (englisch).
↑ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j ^k ^l Lulu Ge, Keshab K Parhi: Classification using hyperdimensional computing: A review. In: IEEE Circuits and Systems Magazine. 20. Jahrgang, Nr. 2. IEEE, 2020, S. 30–47, doi:10.48550/arXiv.2004.11204 (englisch).
↑ Pentti Kanerva: Sparse Distributed Memory. MIT Press, 1988, ISBN 978-0-262-51469-9 (englisch).
↑ ^a ^b ^c ^d Michiel Stock, Dimitri Boeckaerts, Pieter Dewulf, Steff Taelman, Maxime Van Haeverbeke, Wim Van Criekinge, Bernard De Baets: Hyperdimensional computing: a fast, robust and interpretable paradigm for biological data. In: -. 2024, doi:10.48550/arXiv.2402.17572 (englisch).

[Thomas2021-1] ↑ ^a ^b ^c ^d ^e ^f ^g Anthony Thomas, Sanjoy Dasgupta, Tajana Rosing: A Theoretical Perspective on Hyperdimensional Computing. In: Journal of Artificial Intelligence Research. 72. Jahrgang, 2021, S. 215–249, doi:10.48550/arXiv.2010.07426 (englisch).

[Ge2020-2] ↑ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j ^k ^l Lulu Ge, Keshab K Parhi: Classification using hyperdimensional computing: A review. In: IEEE Circuits and Systems Magazine. 20. Jahrgang, Nr. 2. IEEE, 2020, S. 30–47, doi:10.48550/arXiv.2004.11204 (englisch).

[Kanerva1988-3] Pentti Kanerva: Sparse Distributed Memory. MIT Press, 1988, ISBN 978-0-262-51469-9 (englisch).

[Stock2024-4] Michiel Stock, Dimitri Boeckaerts, Pieter Dewulf, Steff Taelman, Maxime Van Haeverbeke, Wim Van Criekinge, Bernard De Baets: Hyperdimensional computing: a fast, robust and interpretable paradigm for biological data. In: -. 2024, doi:10.48550/arXiv.2402.17572 (englisch).

[1]

[2]

[3]

[4]