Bestärkendes Lernen

Reihe von Methoden des maschinellen Lernens, bei denen ein Agent selbständig eine Strategie erlernt, um erhaltene Belohnungen zu maximieren
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 6. November 2006 um 18:09 Uhr durch 141.70.114.241 (Diskussion) (Markow-Entscheidungsprozess). Sie kann sich erheblich von der aktuellen Version unterscheiden.

Bestärkendes Lernen bzw. Verstärkendes Lernen (engl. Reinforcement Learning) ist eine Variante des Maschinellen Lernens, bei dem ein Agent (ein Computerprogramm) lediglich durch ein System von Belohnung und Bestrafung lernt, seinen Nutzen zu optimieren.

Einführung

Betrachtet ein wird dynamisches System - bestehend aus einem Agenten und seiner Umgebung (der Welt) - in diskreten Zeitschritten  . Zu jedem Zeitpunkt   befindet sich die Welt im einem Zustand   und der Agent wählt eine Aktion   aus. Daraufhin geht die Welt in den Zustand   und der Agent erhält eine Belohnung  .

Erwarteter Gewinn

Ziel ist es den erwarteten Gewinn (engl. expected return)

  mit  

zu maximieren. Der erwartete Gewinn ist also so etwas wie die erwartete Gesamtbelohnung. Dabei nennt man   den Diskontierungsfaktor (engl. discount factor). Bei episodischen Problemen, d.h. die Welt geht nach einer endlichen Anzahl von Schritten in einen Endzustand über (wie z.B. eine Schachpartie), eignet sich der Diskontierungsfaktor  . In diesem Fall wird jede Belohnung   gleich gewertet. Bei kontinuierlichen Problemen ( ) muss man ein   wählen, damit die unendliche Reihe   konvergiert. Für   zählt nur die aktuelle Belohnung  ; alle zukünftigen Belohnungen werden ignoriert. Geht   gegen 1 wird der Agent weitsichtiger.

Strategien

Beim Bestärkenden Lernen verfolgt der Agent eine Strategie (engl. policy). Üblicherweise wird die Strategie als eine Funktion   betrachtet, die jedem Zustand eine Aktion zuweist. Jedoch sind auch nichtdeterministische Strategien (oder gemischte Strategien) möglich, so dass eine Aktion mit einer bestimmten Wahrscheinlichkeit ausgewählt wird. Im allgemeinen wird eine Strategie demnach als bedingte Wahrscheinlichkeitsverteilung definiert:  .

Zustands-Bewertungsfunktion

...

Markow-Entscheidungsprozess

Bestärkendes Lernen wird häufig als Markow-Entscheidungsprozess (engl. Markov Decision Process) aufgefasst. Charakteristisch ist die Annahme, dass die Markow-Eigenschaft erfüllt ist:

Fehler beim Parsen (Syntaxfehler): {\displaystyle p(z_{t+1},r_{t+1}|z_{0:t},a_{0:t},b_{0:t})=p(z_{t+1},r_{t+1}|z_{t},a_{t})\left} .

Zentrale Begriffe eines Markow-Entscheidungsprozess sind das Aktionsmodell (oder Transitionswahrscheinlichkeit) und die Erwartete Belohnung im nächsten Zeitschritt (engl.expected reward). Das Aktionsmodel   ist die bedingte Wahrscheinlichkeitverteilung, dass die Welt von Zustand   in Zustand   übergeht, falls der Agent die Aktion   ausgewählt hat. Im deterministischen Fall ist das Aktionsmodel einfach eine Funktion, die einem Zustands-Aktions-Paar einen neuen Zustand zuordnet. Die Erwartete Belohnung ist folgendermaßen definiert

 .

Bellmangleichung

optimale Bellmangleichung

Lernverfahren

Dynamisches Programmieren

Temporal Difference Learning

...

Approximation

... Bei unendlichen Zustandsräumen muss diese Nutzenfunktion approximiert werden, z. B. mit Neuronalen Netzen.

Literatur