Bei dem Markow-Entscheidungsproblem (MEP, auch Markow-Entscheidungsprozess oder MDP für englisch Markov decision process) handelt es sich um ein Modell für Entscheidungsprobleme mit unsicheren Ergebnissen. Erstmalig beschrieben wurde das Modell 1957 von Richard Bellman. Seitdem findet es auf vielen Gebieten Beachtung, darunter Ökologie, Ökonomie, Gesundheitsversorgung, Telekommunikation und bestärkendes Lernen.

Der Name geht zurück auf die Markow-Kette, die der russische Mathematiker Andrei Andrejewitsch Markow im frühen 20. Jahrhundert untersucht hat. Eine Markow-Kette beschreibt einen stochastischen Prozess ohne Gedächtnis. Dieser Prozess hat eine vorgegebene Anzahl von Zuständen. Der Prozess wechselt zufällig von dem aktuellen Zustand in einen Folgezustand. Dabei gilt die Markow-Annahme: Die Wahrscheinlichkeit für einen Zustandsübergang hängt nur von dem aktuellen Zustand und dem Folgezustand ab und nicht von früheren Zustandsübergängen.

Der Markow-Entscheidungsprozess erweitert die Markow-Ketten um einen Agenten, der sich zwischen mehreren möglichen Aktionen entscheiden kann und positive oder negative Belohnungen als Rückmeldung erhält.

Übersicht

Bearbeiten

Das Modell eines Markow-Entscheidungsprozesses hat mehrere Zustände und mehrere Aktionen. Der Prozess befindet sich zum Zeitpunkt   in einem bestimmten Zustand  . Dann führt eine Aktion   dazu, dass der Prozess mit der Wahrscheinlichkeit   zum Zeitpunkt   einen bestimmten Folgezustand   erreicht. Dabei gilt die Markow-Annahme: Die Zustände haben kein Gedächtnis, d. h., die Wahrscheinlichkeit   ist nur von den Zuständen   und   abhängig und nicht von Vorgängern von  . Der Zustandsübergang kann zu einer positiven oder negativen Belohnung   führen.

Wenn alle Zustände, alle Aktionen und alle Übergangswahrscheinlichkeiten bekannt sind, kann die optimale Strategie für den Agenten mit dem Optimalitätsprinzip von Bellman berechnet werden. Eine Methode dazu ist die dynamische Programmierung, die auf Rückwärtsinduktion beruht.

Auf diesen Grundlagen bauen Methoden auf, die beim bestärkenden Lernen verwendet werden, um eine Strategie zu erlernen, mit der ein Software-Agent seine Aktionen so wählt, dass er von seiner Umwelt möglichst viele Belohnungen erhält.[1]:743–747

Formale Definition

Bearbeiten
 
Beispiel für ein einfaches MEP mit drei Zuständen (grüne Kreise), zwei Aktionen (orange Kreise) und zwei Belohnungen (orange Pfeile)

Ein MEP ist ein Tupel  , wobei

  •   eine Menge von Zuständen,
  •   eine Menge von Aktionen,
  •   das Aktionsmodell (auch Transitionswahrscheinlichkeit)   ist, so dass   die Wahrscheinlichkeit ist, von Zustand   durch Ausführen von Aktion   in den Zustand   zu gelangen.
  •   die Belohnungsfunktion ist, die allen Zustandsübergängen eine Belohnung zuordnet und
  •   die Startverteilung ist, die zu jedem Zustand angibt, wie wahrscheinlich es ist, in diesem Zustand zu starten.

Ein Agent wählt seine Aktionen mit Hilfe einer Strategie   aus. Die Strategie ordnet jedem Zustand genau eine Aktion zu.

  •  

Optimale Strategie

Bearbeiten

Das Ziel ist, dass der Agent bei seinen Entscheidungen einer guten Strategie folgt: einer Funktion  , die für jeden Zustand   bestimmt, welche Aktion   der Agent wählt. Wenn der Agent einer Strategie folgt, ist seine Aktion für jeden Zustand fest vorgegeben. Der Prozess verhält sich dann wie eine Markow-Kette.

Gesucht wird eine optimale Strategie  , die den Gewinn maximiert, den der Agent durch seine Aktionen erreicht. Das Optimalitätsprinzip von Bellman besagt, dass eine optimale Strategie in jedem Zustand   die Aktion   wählt, bei der zukünftig der größte Gewinn zu erwarten ist.

Der zukünftig zu erwartende Gewinn wird auch kumulierter Reward genannt. Er wird in der Regel als Summe aller Belohnungen   über unendlich viele Zustandsübergänge berechnet:

  mit  

Dabei ist   die Belohnung, die der Agent wahrscheinlich im Zeitschritt   erhält. Der Diskontierungsfaktor   gewichtet Belohnungen, die kurzfristig erfolgen, höher als solche, die später erfolgen. Er sorgt auch dafür, dass die Summe für kontinuierliche Probleme (unendlich viele Zustandsübergänge) gegen einen Grenzwert konvergiert. Für   zählt nur die direkte Belohnung einer Aktion, alle zukünftigen Belohnungen werden ignoriert. Für   erhalten zukünftige Belohnungen immer mehr Gewicht.[2]:487–491[3] Typische Werte für   liegen zwischen 0,95 und 0,99.[1]:738

Beispiel

Bearbeiten

Bei einem deterministischen Markow-Entscheidungsproblem führt jede Aktion zu genau einem Folgezustand. Ein solches Problem liegt vor, wenn ein Roboter durch ein Labyrinth zu einem Ziel navigieren soll. Dabei entspricht die Menge der Zustände der Menge der möglichen Positionen des Roboters und die Aktionen sind Schritte des Roboters in verschiedene Richtungen. Der Roboter erhält für den letzten Schritt, mit dem er das Ziel erreicht, eine positive Belohnung. Durch den Diskontierungsfaktor   erreicht der Roboter den maximalen kumulierten Reward, wenn er mit möglichst wenigen Schritten das Ziel erreicht.

Algorithmen

Bearbeiten

Die folgenden Algorithmen sind Beispiele dafür, wie mit der dynamischen Programmierung ein komplexes Problem iterativ gelöst werden kann. Sie können auf MEPs angewendet werden, bei denen die Anzahl von Zuständen und Aktionen endlich ist und alle Transaktionswahrscheinlichkeiten und Belohnungen bekannt sind. Für solche MEPs können sie eine optimale Strategie finden oder überprüfen. Sie bilden deshalb die mathematische Grundlage für eine Reihe von Algorithmen, die beim bestärkenden Lernen zum Lösen von ähnlichen Problemen eingesetzt werden.

Value-Iteration-Algorithmus

Bearbeiten

Das Optimalitätsprinzip von Bellman beschreibt den optimalen Wert des aktuellen Zustands als maximal zu erwartenden kumulierten Reward. Dieser Zustandswert entspricht der Summe aus der durchschnittlichen Belohnung, die im aktuellen Zustand mit der bestmöglichen Aktion erreicht wird und allen zukünftigen Belohnungen, die zu erwarten sind, wenn der Agent auch in allen Folgezuständen die jeweils bestmögliche Aktion ausführt.

Daraus hat Bellman eine rekursive Formel für den Value-Iteration-Algorithmus abgeleitet, mit dem man den optimalen Zustandswert für jeden möglichen Zustand abschätzen kann:

  für alle  

Darin sind   die Nummer des aktuellen Durchlaufs und   der geschätzte Zustandswert für   im Durchlauf  . Der erste Durchlauf beginnt im Zustand  , mit   und allen Schätzwerten auf  . In jedem Durchlauf werden die Schätzungen   für alle Zustände   basierend auf den Schätzungen des vorigen Durchlaufs neu berechnet. Mit genügend Wiederholungen konvergieren die Schätzungen zu den Zustandswerten, die mit einer optimalen Strategie erreicht werden können.[1]:745,746

Q-Wert-Iterationsalgorithmus

Bearbeiten

Bellman fand auch eine Formel für einen ähnlichen Algorithmus, mit dem man die optimalen Zustands-Aktions-Werte, auch Q-Werte (Qualitätswerte) genannt, abschätzen kann:

  für alle  

Das Vorgehen entspricht dem für den Value-Iteration-Algorithmus. Wenn der Q-Wert-Iterationsalgorithmus die optimalen Q.Werte gefunden hat, steht die optimale Strategie   des Agenten fest. Dabei wählt er in jedem Zustand die Aktion, die für diesen Zustand den höchsten Q-Wert hat.[1]:746,747

Bearbeiten

Einzelnachweise

Bearbeiten
  1. a b c d Aurélien Géron: Praxiseinstieg Machine Learning. 3. Auflage. dpunkt Verlag, Heidelberg 2023, ISBN 978-3-96009-212-4.
  2. Jörg Frochte: Maschinelles Lernen: Grundlagen und Algorithmen in Python (= Hanser eLibrary). 3., überarbeitete und erweiterte Auflage. Hanser, München 2021, ISBN 978-3-446-46144-4.
  3. Uwe Lorenz: Reinforcement Learning: Aktuelle Ansätze verstehen – mit Beispielen in Java und Greenfoot. 2. Aufl. 2024. Springer Berlin Heidelberg, Berlin, Heidelberg 2024, ISBN 978-3-662-68310-1, S. 17.