Selbstorganisierende Karte

Als Self-Organizing Maps, Self-Organizing Feature Maps, selbstorganisierenden Karten oder Kohonennetze (nach Teuvo Kohonen) bezeichnet man eine Art von künstlichen neuronalen Netzen. Die SOMs (vgl. Bachelier (1998: 11ff), Kohonen (1995), Ritter et al. (1991: 67ff)) sind als unüberwachtes Lernverfahren ein leistungsfähiges Werkzeug des Data Mining, ihr Funktionsprinzip beruht auf der biologischen Erkenntnis, dass viele Strukturen im Gehirn eine lineare oder planare Topologie aufweisen. Die Signale des Eingangsraums, z.B. visuelle Reize, sind jedoch multidimensional.

Es stellt sich also die Frage, wie diese multidimensionalen Eindrücke durch planare Strukturen verarbeitet werden. Biologische Untersuchungen zeigten, dass die Eingangssignale so abgebildet werden, dass ähnliche Reize nahe beieinander liegen. Der Phasenraum der angelegten Reize wird also kartiert.

Wird nun ein Signal an diese Karte herangeführt, so werden nur diejenigen Gebiete der Karte erregt, die dem Signal ähnlich sind. Die Neuronenschicht wirkt als topologische Merkmalskarte, wenn die Lage der am stärksten erregten Neuronen in gesetzmäßiger und stetiger Weise mit wichtigen Signalmerkmalen korrelliert ist.

Laterale Hemmung

Ein allgemeines Arbeitsprinzip des Nervensystems ist, dass aktive lokale Gruppen von Nervenzellen andere Gruppen ihrer Umgebung hemmen, und somit deren Aktivität unterdrücken. Die Aktivität eines Neurons wird daher aus der Überlagerung des erregenden Eingangssignals und den hemmenden Beiträgen aller Schichtneuronen bestimmt. Da diese laterale Hemmung überall gilt, kommt es zu einem ständigen Wettbewerb um die Vorherrschaft. Der Verlauf der lateralen Hemmung ist für kurze Distanzen erregend/verstärkend und für lange Distanzen hemmend/schwächend. Es lässt sich zeigen, dass dieser Effekt ausreichend ist, eine Lokalisierung der Erregungsantwort in der Nähe der maximalen äußeren Erregung zu bewirken.

Struktur und Lernen

Die Struktur einer Self-Organizing Map: Ein Inputlayer mit n Neuronen ist vollständig mit allen Neuronen innerhalb der Kohonenkarte, im folgenden mit Competitive Layer bezeichnet, verbunden. Jeder zu kartierende Eingangsreiz v wird über die Verbindungen an jedes Neuron dieses Competitive Layers weitergegeben.

Die Verbindungsgewichte w zwischen den Neuronen des Inputlayers und den Neuronen im Competitive Layer definieren einen Punkt im Eingangsraum der angelegten Reize v. Alle Neuronen innerhalb des Competitive Layers sind untereinander inhibitorisch (hemmend) vernetzt.

Die Abbildung zeigt einen Adaptionschritt im Modell von Kohonen. Ein Reiz v wird an das Netz angelegt.
Das Netz sucht das Erregungszentrum s im Competitive Layer, dessen Gewichtsvektor w am nächsten zu v liegt (kleinster Abstand).
Der Unterschied $\Delta w$ wird in einem Adaptionsschritt veringert.
Die Neuronen nahe am Erregungszentrum s werden auch adaptiert, aber um so weniger, je weiter sie vom Erregungszentrum entfernt sind.

Es ist gebräuchlich, aber nicht zwingend, sowohl für die Lernvektoren als auch für das Competitive Layer den euklidischen Abstand als Abstandsmaß zu verwenden.

Steht ein Satz verschiedener Trainingsdaten zur Verfügung, so ist eine Epoche im Training vollständig, wenn alle Reize genau einmal in zufälliger Reihenfolge an das Inputlayer angelegt worden sind. Das Training endet, wenn das Netz seinen stabilen Endzustand erreicht hat.

Das Lernen in einer Self-Organizing Map kann formal als iterativer Prozess beschrieben werden. Im Anfangszustand sind die Gewichtsvektoren der Neuronen zufällig im Netz verteilt. In jedem Lernschritt wird an das Netz ein Reiz angelegt. Die neuronale Self-Organizing Map verändert die Gewichtsvektoren der Neuronen entsprechend der Lernregel, so dass sich im Laufe der Zeit eine topografische Abbildung ergibt.

Training eines SOM im Beispiel

Die folgende Tabelle zeigt ein Netz, dessen Neuronen in einem Gitter angeordnet sind und zu Beginn zufällig im Raum verteilt sind. Es wird mit Eingabereizen aus dem Quadrat trainiert, die gleichverteilt sind.

Zufällig initialisiertes Netz	10 Trainingschritte	100 Trainingsschritte
1000 Trainingsschritte	10000 Trainingsschritte	100000 Trainingsschritte

Formale Beschreibung des Trainings

Gegeben ist eine endliche Menge M von Trainingsstimuli m_i, die durch einen n-dimensionalen Vektor x_i spezifiziert sind:

M = {m_i = (x_i) | x_i ∈ X ⊆ Rⁿ, i = 1, ..., μ_M}.

Weiterhin sei eine Menge von μ_N Neuronen gegeben, denen jeweils ein Gewichtsvektor w_i in X und eine Position k_i auf einer Kohonen-Karte zugeordnet wird, die im weiteren als zwei-dimensional angenommen wird. Die Kartendimension kann beliebig-dimensional gewählt werden, wobei Kartendimensionen kleiner-gleich drei zur Visualisierung von hochdimensionalen Zusammenhängen verwendet werden. Die Positionen auf der Karte sollen diskreten, quadratischen Gitterpunkten entsprechen (alternative Nachbarschaftstopologien wie z.B. hexagonale Topologien sind ebenfalls möglich), und jeder Gitterpunkt soll durch genau ein Neuron besetzt sein:

N = {n_i = (w_i, k_i) | w_i ∈ X ⊆ Rⁿ, k_i ∈ K², i = 1, ..., μ_N}.

In der Lernphase wird aus der Menge der Stimuli zum Präsentationszeitpunkt t ein Element m_j^t gleichverteilt zufällig ausgewählt. Dieser Stimulus legt auf der Karte ein Gewinnerneuron n_s^t fest, das als Erregungszentrum bezeichnet wird. Es handelt sich dabei um genau das Neuron, dessen Gewichtsvektor w_s^t den geringsten Abstand im Raum X zu dem Stimulusvektor x_j^t besitzt, wobei eine Metrik d_X(.,.) des Inputraumes gegeben sei:

d_X(x_j^t, w_s^t) = min{d_X(x_j^t, w_i^t) | i = 1, ..., μ_N}.

Nachdem n_s^t ermittelt wurde, werden alle Neuronen n_i^t bestimmt, die neben dem Erregungszentrum ihre Gewichtsvektoren anpassen dürfen. Es handelt sich dabei um die Neurone, deren Entfernung d_A(k_s, k_i) auf der Karte nicht größer ist als ein zeitabhängiger Schwellenwert, der als Entfernungsreichweite δ^t bezeichnet wird, wobei eine Metrik d_A(.,.) der Karte gegeben sei. Diese Neurone werden in einer Teilmenge N^+t ⊂ N^t zusammengefasst:

N^+t = {n_i = (w_i, k_i) | d_A(k_s, k_i) ≤ δ^t}.

Im folgenden Adaptionsschritt wird auf alle Neurone aus N^+t ein Lernschritt angewendet, der die Gewichtsvektoren verändert. Der Lernschritt ist interpretierbar als eine Verschiebung der Gewichtsvektoren in Richtung des Stimulusvektors x_j^t, wobei in der nachstehenden Abbildung die Verschiebung des Gewichtsvektors des Gewinnerneurons dargestellt ist.

Es wird entsprechend dem Modell von Ritter et al. (1991) dabei die folgende Adaptionsregel verwendet:

w_i^t+1 = w_i^t + ε^t · h_si^t · (x_j^t - w_i^t),

mit den zeitabhängigen Parametergleichungen ε^t und h_si^t, die festgelegt werden als: 1) Die zeitabhängige Lernrate ε^t:

ε^t = ε_start · (ε_end/ε_start)^t/t(max),

mit der Startlernrate ε_start und ε_end als der Lernrate zum Ende des Verfahrens, d.h. nach t_max Stimuluspräsentationen.

2) Die zeitabhängige Entfernungsgewichtungsfunktion h_si^t:

h_si^t = exp((-d_A(k_s, k_i)²)/(2 · (δ^t)²),

mit δ^t als dem Nachbarschafts- oder Adaptionsradius um das Gewinner-Neuron auf der Karte:

δ^t = δ_start · (δ_end/δ_start)^t/t(max),

mit dem Adaptionsradius δ_start zum Anfang des Verfahrens, und δ_end als dem Adaptionsradius zum Ende des Verfahrens.

Damit eine topologie-erhaltende Abbildung entsteht, d.h. dass benachtbarte Punkte im Inputraum X auf benachtbarte Punkte auf der Karte abgebildet werden, müssen zwei Faktoren berücksichtigt werden:

Die topologische Nachbarschaft h_si^t um das Erregungszentrum muss anfangs groß gewählt werden und im Laufe des Verfahrens verkleinert werden.
Die Adaptionsstärke ε^t muss ausgehend von einem großen Wert im Laufe des Verfahrens auf einen kleinen Restwert sinken.

In dem dargestellten Lernprozess werden t_max Präsentationen durchgeführt, wonach die SOM in die Anwendungsphase überführt werden kann, in der Stimuli präsentiert werden, die in der Lernmenge nicht vorkamen. Ein solcher Stimulus wird dem Gewinnerneuron zugeordnet, dessen Gewichtsvektor die geringste Distanz von dem Stimulusvektor besitzt, sodass dem Stimulus über den Umweg des Gewichtsvektors ein Neuron und eine Position auf der Neuronenkarte zugeordnet werden kann. Auf diese Weise wird der neue Stimulus automatisch Klassifiziert und Visualisiert.

Varianten der SOM

Es wurden eine Vielzahl von Varianten und Erweiterungen zu dem ursprünglichen Modell von Kohonen entwickelt, u.a.:

Kontext-SOM (K-SOM)
Temporäre-SOM (T-SOM)
Motorische-SOM (M-SOM)
Neuronen-Gas (NG-SOM)
Wachsende Zellstrukturen (GCS-SOM)
Wachsende Gitterstruktur (GG-SOM)
Wachsendes Neuronen-Gas (GNG-SOM)
Parametrische-SOM (P-SOM)
Interpolierende SOM (I-SOM)
Local-Weighted-Regression-SOM (LWR-SOM)
Selektive-Aufmerksamkeits SOM (SA-SOM)
Gelernte Erwartungen in GNG-SOMs (LE-GNG-SOM)
Fuzzy-SOM (F-SOM)
Adaptive-Subraum-SOM (AS-SOM)
Generative Topographische Karte (GTM)

Weblinks

SOM-Research an der Helsinki University of Technology (Teuvo Kohonen)
- Anwendungen dort u.a. websom
Prof. Fritzke, Dresden: Growing SOM
DemoGNG Anwendung zur Demonstration verschiedener Lernalgorithmen
Über SOM in der comp.ai.neural-nets FAQ
SOM-Kapitel (mit weiteren Links und Applets) einer KI-Vorlesung von David Grimshaw, Toronto

Literatur

Bachelier, Günter: Einführung in Selbstorganisierende Karten. Marburg, ISBN 3-8288-5017, 1998.
Kohonen, Teuvo: Self-Organizing Maps. Berlin, 1995, ISBN 3540586008.
Ritter, Helge; Martinetz, Thomas; Schulten, Klaus: Neuronale Netze - Einführung in die Neuroinformatik selbstorganisierender Netzwerke. Bonn, 1991, ISBN 3893191313.