Softmax-Funktion

In der Mathematik ist die sogenannte Softmax-Funktion oder normalisierte Exponentialfunktion^[1] eine Verallgemeinerung der logistischen Funktion, die einen $K$ -dimensionalen Vektor $\mathbf {z}$ mit reellen Komponenten in einen $K$ -dimensionalen Vektor $\sigma (\mathbf {z} )$ ebenfalls als Vektor reeller Komponenten in den Wertebereich $(0,1)$ transformiert, wobei sich die Komponenten zu $1$ aufsummieren. Der Wert $1$ kommt nur im Sonderfall $K=1$ vor.

Die Softmax-Funktion ist gegeben durch:

{\displaystyle \sigma

\sigma (\mathbf {z} )_{j}={\frac {e^{z_{j}}}{\sum _{k=1}^{K}e^{z_{k}}}}

für j = 1, …, K.

Zusammenhang zur Logit-Funktion

Bei der binären logistischen Regression benötigt man zur vollständigen Beschreibung lediglich die Wahrscheinlichkeit einer Klasse: $P(Y=1)=1-P(Y=0)$ . Für zwei Klassen ist die Softmax-Funktion:

\sigma (\mathbf {z} )_{j}={\frac {e^{z_{j}}}{e^{z_{1}}+e^{z_{2}}}}

für j = 1, 2 und

\sigma (\mathbf {z} )_{2}=1-\sigma (\mathbf {z} )_{1}

.

Da die $z_{j}$ um eine beliebige Konstante verschoben werden können ohne das Ergebnis zu ändern, gilt:

\sigma (\mathbf {z} )_{1}={\frac {e^{z_{1}}}{e^{z_{1}}+e^{z_{2}}}}={\frac {e^{z_{1}}}{e^{z_{1}}+e^{z_{2}}}}\underbrace {\frac {e^{-z_{2}}}{e^{-z_{2}}}} _{1}={\frac {e^{z_{1}}e^{-z_{2}}}{e^{z_{1}}e^{-z_{2}}+1}}={\frac {e^{\tilde {z}}}{e^{\tilde {z}}+1}}=\operatorname {logit} ^{-1}({\tilde {z}}),

mit ${\tilde {z}}=z_{1}-z_{2}$ und der Inversen der Logit-Funktion.

Alternativen

Softmax erzeugt Wahrscheinlichkeitsvorhersagen, welche über ihrem Träger dicht besetzt sind. Andere Funktionen wie sparsemax oder $\alpha$ -entmax können benutzt werden, wenn dünn besetzte Wahrscheinlichkeitsvorhersagen erzeugt werden sollen.^[2]

Verwendung

Wahrscheinlichkeitstheorie

In der Wahrscheinlichkeitstheorie kann die Ausgabe der Softmax-Funktion genutzt werden, um eine kategoriale Verteilung – also eine Wahrscheinlichkeitsverteilung über $K$ unterschiedliche mögliche Ereignisse – darzustellen. Tatsächlich entspricht dies der gradient-log-Normalisierung der kategorialen Wahrscheinlichkeitsverteilung. Somit ist die Softmax-Funktion der Gradient der LogSumExp-Funktion.

Multiklassen-Klassifikation

Die Softmax-Funktion wird in verschiedenen Methoden der Multiklassen-Klassifikation verwendet, wie bspw. bei der multinomialen logistischen Regression (auch bekannt als Softmax-Regression),^[1]^[3] der multiklassen-bezogenen linearen Diskriminantenanalyse, bei naiven Bayes-Klassifikatoren und künstlichen neuronalen Netzen.^[4] Insbesondere in der multinomialen logistischen Regression sowie der linearen Diskriminantenanalyse entspricht die Eingabe der Funktion dem Ergebnis von $K$ distinkten linearen Funktionen, und die ermittelte Wahrscheinlichkeit für die $j$ -te Klasse gegeben ein Stichprobenvektor $x$ und einem Gewichtsvektor $w$ entspricht:

P(y=j\mid \mathbf {x} )={\frac {e^{\mathbf {x} ^{\mathsf {T}}\mathbf {w} _{j}}}{\sum _{k=1}^{K}e^{\mathbf {x} ^{\mathsf {T}}\mathbf {w} _{k}}}}

Dies kann angesehen werden als Komposition von $K$ linearen Funktionen $\mathbf {x} \mapsto \mathbf {x} ^{\mathsf {T}}\mathbf {w} _{1},\ldots ,\mathbf {x} \mapsto \mathbf {x} ^{\mathsf {T}}\mathbf {w} _{K}$ und der Softmax-Funktion (wobei $\mathbf {x} ^{\mathsf {T}}\mathbf {w}$ das innere Produkt von $\mathbf {x}$ und $\mathbf {w}$ bezeichnet). Die Ausführung ist äquivalent zur Anwendung eines linearen Operators definiert durch $\mathbf {w}$ bei Vektoren $\mathbf {x}$ , so dass dadurch die originale, möglicherweise hochdimensionale Eingabe in Vektoren im $K$ -dimensionalen Raum $\mathbb {R} ^{K}$ transformiert wird.

Transformer

Softmax ist ein Baustein der „Aufmerksamkeit“-Algorithmen^[5] (Teil der sogenannten Transformer^[6]) moderner Large Language Models (LLMs). Softmax wandelt einen Vektor von Rohwerten (Logits) in Wahrscheinlichkeiten um, deren Summe eins ergibt.

Siehe auch

Die kanonische Zustandssumme $Z$ , auch Normalisierungskonstante genannt, ist eine Funktion aus der statistischen Physik bzw. statistischen Mechanik. Sie normalisiert die Wahrscheinlichkeitsverteilung der Zustände in einem Teilchensystem, da die Gesamtwahrscheinlichkeit, das System in einem bestimmten Mikrozustand zu finden, gleich 1 sein muss.

Einzelnachweise

1 2 Christopher M. Bishop: Pattern Recognition and Machine Learning (= Information science and statistics). Springer, New York 2006, ISBN 978-0-387-31073-2 (englisch, archive.org [abgerufen am 4. April 2026]).
↑ Maxat Tezekbayev et al.: Speeding Up Entmax. In: Arxiv. 19. Mai 2022, abgerufen am 4. April 2026 (englisch).
↑ Computer Science Department: Unsupervised Feature Learning and Deep Learning Tutorial. Stanford University, abgerufen am 30. Januar 2019 (englisch).
↑ Sophia Tamm: Einführung in neuronale Netze. In: Seminar Maschinelles Lernen - Dr. Zoran Nikolić. Universität Köln, 30. Mai 2019, abgerufen am 24. Mai 2022.
↑ Zhaoyang Niu et al.: A review on the attention mechanism of deep learning. In: Neurocomputing. Band 452, 10. September 2021, ISSN 0925-2312, S. 48–62, doi:10.1016/j.neucom.2021.03.091 (englisch, sciencedirect.com [abgerufen am 4. April 2026]).
↑ Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin: Attention Is All You Need. In: ArXiv. 2. August 2023, abgerufen am 1. April 2026 (englisch, 1. Veröffentlichung im Jahr 2017 ; aktualisiert bis 2023).

[:0-1] 1 2 Christopher M. Bishop: Pattern Recognition and Machine Learning (= Information science and statistics). Springer, New York 2006, ISBN 978-0-387-31073-2 (englisch, archive.org [abgerufen am 4. April 2026]).

[2] Maxat Tezekbayev et al.: Speeding Up Entmax. In: Arxiv. 19. Mai 2022, abgerufen am 4. April 2026 (englisch).

[3] Computer Science Department: Unsupervised Feature Learning and Deep Learning Tutorial. Stanford University, abgerufen am 30. Januar 2019 (englisch).

[4] Sophia Tamm: Einführung in neuronale Netze. In: Seminar Maschinelles Lernen - Dr. Zoran Nikolić. Universität Köln, 30. Mai 2019, abgerufen am 24. Mai 2022.

[5] Zhaoyang Niu et al.: A review on the attention mechanism of deep learning. In: Neurocomputing. Band 452, 10. September 2021, ISSN 0925-2312, S. 48–62, doi:10.1016/j.neucom.2021.03.091 (englisch, sciencedirect.com [abgerufen am 4. April 2026]).

[:4-6] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin: Attention Is All You Need. In: ArXiv. 2. August 2023, abgerufen am 1. April 2026 (englisch, 1. Veröffentlichung im Jahr 2017 ; aktualisiert bis 2023).

[1]

[2]

[3]

[4]

[5]

[6]