Encoder-Decoder-Architektur

Eine Encoder-Decoder-Architektur ist eine neuronale Netzwerkarchitektur für die Verarbeitung von Sequenzen, bei der ein Encoder eine Eingabesequenz in eine interne Repräsentation überführt und ein Decoder eine bedingte Wahrscheinlichkeitsverteilung über die Ausgabesequenz modelliert, aus der anschließend autoregressiv eine konkrete Sequenz erzeugt wird. Eine Eingabesequenz kann dabei aus Wörtern bestehen, und die Ausgabesequenz beispielsweise eine Übersetzung des Satzes in eine andere Sprache sein. Die Encoder-Decoder-Architektur wurde 2014 eingeführt.^[1]^[2]

In der ursprünglichen Form bestanden Encoder-Decoder-Modelle aus zwei rekurrenten neuronalen Netzen (RNNs), wobei eines als Encoder und das andere als Decoder fungierte. In modernen Ansätzen wird die Architektur aber auch in Transformer umgesetzt. Der erste Transformer aus der 2017 erschienenen Arbeit Attention Is All You Need baute auf dem Encoder-Decoder-Modell auf.

Encoder-Decoder-Architektur

Die Eingabesequenz $x=(x_{1},\dots ,x_{N})$ und die Ausgabesequenz $y=(y_{1},\dots ,y_{T})$ bestehen aus Symbolen (z. B. Wörtern oder Zeichen). Das Ergebnis der Encoder-Decoder-Architektur ist die bedingte Wahrscheinlichkeit der Ausgabesequenz gegeben der Eingabesequenz:

P(y\mid x)=P(y_{1},\dots ,y_{T}\mid x_{1},\dots ,x_{N})

Die bedingte Wahrscheinlichkeit lässt sich wiederum zerlegen in

P(y\mid x)=\prod \limits _{t=1}^{T}P(y_{t}|y_{1},\dots ,y_{t-1},x).

Sei nun abgekürzt $y_{<t}:=(y_{1},\dots ,y_{t-1})$ wobei $y_{<1}:=\emptyset$ .

Der Encoder-Decoder modelliert die bedingte Wahrscheinlichkeit

\operatorname {Decoder} (y_{<t},\operatorname {Encoder} (x))=P(y_{t}\mid y_{<t},x),

^[3]

daraus folgt

P(y\mid x)=\prod \limits _{t=1}^{T}\operatorname {Decoder} (y_{<t},\operatorname {Encoder} (x)).

Aus der bedingten Wahrscheinlichkeit $P(y\mid x)$ lässt sich dann die optimale Ausgabe $y^{*}$ bestimmen:

y^{*}={\underset {y}{\operatorname {arg\,max} }}\;P(y\mid x)

Beispiel

Gegeben sei die Eingabesequenz

x=({\text{Ich}},{\text{mag}},{\text{Schiller}},{\text{mehr}},{\text{als}},{\text{Goethe}}),

welche von einem Encoder-Decoder ins Englische übersetzt wird. Die Ausgabe wird autoregressiv erzeugt, beginnend mit:

P({\text{I}}\mid \operatorname {Encoder} (x)),\quad P({\text{prefer}}\mid {\text{I}},\,\operatorname {Encoder} (x)),\quad P({\text{Schiller}}\mid {\text{I prefer}},\,\operatorname {Encoder} (x)),\ \ldots

Dabei entsteht die Sequenz

y=({\text{I}},{\text{prefer}},{\text{Schiller}},{\text{over}},{\text{Goethe}}).

Einzelnachweise

↑ Kyunghyun Cho, Bart van Merriënboer, Çaglar Gülçehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, Yoshua Bengio: Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation. In: EMNLP 2014. 2014, doi:10.3115/v1/D14-1179, arxiv:1406.1078 [abs].
↑ Ilya Sutskever; Oriol Vinyals; Quoc V. Le: Sequence to Sequence Learning with Neural Networks. In: Advances in Neural Information Processing Systems 27. 2014, arxiv:1409.3215 [abs].
↑ Kyunghyun Cho, Bart van Merriënboer, Çaglar Gülçehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, Yoshua Bengio: Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation. In: EMNLP 2014. 2014, S. 1724–1726, doi:10.3115/v1/D14-1179, arxiv:1406.1078 [abs].

[1] Kyunghyun Cho, Bart van Merriënboer, Çaglar Gülçehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, Yoshua Bengio: Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation. In: EMNLP 2014. 2014, doi:10.3115/v1/D14-1179, arxiv:1406.1078 [abs].

[2] Ilya Sutskever; Oriol Vinyals; Quoc V. Le: Sequence to Sequence Learning with Neural Networks. In: Advances in Neural Information Processing Systems 27. 2014, arxiv:1409.3215 [abs].

[3] Kyunghyun Cho, Bart van Merriënboer, Çaglar Gülçehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, Yoshua Bengio: Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation. In: EMNLP 2014. 2014, S. 1724–1726, doi:10.3115/v1/D14-1179, arxiv:1406.1078 [abs].

[1]

[2]

[3]