Benutzer:MikWikHD/arbeit

Quantal Response Gleichgewicht
Bezug	Nash-Gleichgewicht , Logit, Probit
Wissenschaftler	Richard McKelvey and Thomas Palfrey
Anwendungsgebiet	nicht-kooperative Spiele
Beispiel	Alle Spiele in Normalform mit Dichtefunktionen

Das Quantal Response Gleichgewicht (engl. Quantal Response Equilibrium, QRE) ist ein zentraler Begriff der mathematischen Spieltheorie. Es beschreibt in nicht-kooperativen Spielen eine Kombination von Strategien, wobei jeder Spieler genau eine Strategie wählt, von der aus es für keinen Spieler sinnvoll ist, von seiner gewählten Strategie abzuweichen, obwohl diese nicht wissen, ob es sich um die beste der Strategien handelt. Die Strategien der Spieler sind demnach im besten Fall gegenseitig beste Antworten und konvergieren somit zum Nash-Gleichgewicht. Das QRE ist ein elementares Lösungskonzept der Spieltheorie. Definition und Existenzbeweis des QREs gehen auf das 1995 veröffentlichte Paper „Quantal Response Equilibria for Normal Form Games“ der Ökonomen Richard McKelvey und und Thomas Palfrey zurück. Das QRE findet unter anderem eine zentrale Bedeutung in wirtschaftswissenschaftlichen Bereichen wie der Ökonometrie und der statistischen Betrachtung inkonsistenter Spieler bei zum Beispiel Wahlen oder dem Travellers Dilemma.

Grundidee

Die Grundidee des QRE besteht darin, die strikte Annahme der perfekten Rationalität der Spieler, modelliert durch die deterministische Natur einer strategischen Spielumgebung, durch die Hinzunahme eines probabilistischen Ausdrucks zu erweitern und als Folge mögliche Inkonsistenz der Spieler zu berücksichtigen ^[1]. In dieser Spielumgebung lassen sich Lösungen des Gleichgewichts, wie in deterministischen Spielumgebungen, nur noch in Wahrscheinlichkeiten ausdrücken, da das Gleichgewicht vom probabilistischen Teil und einer Wahrscheinlichkeit der deterministischen Wahl abhängt und somit immer dann ökonomisch relevant ist, wenn der Nutzen eines Spielers von der Realisation der Zufallsvariable abhängt. Spieler machen „infinitesimal“ ^[2] Fehler. Diese Änderung erlaubt es Abweichungen von perfekt rational erwarteten Spielverhalten zu beobachten und mithilfe von Logistische Regression formal zu beschreiben, welche Tatsache signifikant unterschiedliche Ergebnisse zu Nash-Gleichgewichtsvorhersagen haben kann, jedoch mit steigender Wahrscheinlichkeit beziehungsweise Wissen über die Realisation der Zufallsvariable gegen das Nash-GGW konvergiert ^[3]. Das QRE nimmt im Vergleich zum Nash GGW einen Unsicherheitsfaktor hinzu und macht es somit resistenter und allgemeingültiger als das deterministische Modell, da das Verhalten von noisy players modelliert werden kann, welche Tatsache als realistischer bezeichnet werden kann. Tatsächlich aber handelt es sich beim QRE um eine Verallgemeinerung des Nash-Gleichgewichts (NGGW) , die zu diesem konvergiert, es jedoch mit einem rational erwartendem Gleichgewicht vorerst ersetzt.

Aufbau QRE in Normalform

Verbal

In einer Modellierung haben Spieler eine freie Auswahl nach einem Gut (hier: Strategie) und entscheiden unter probabilistischem Einfluss. Sie kennen die Auswahlwahrscheinlichkeit p und schätzen diesen Unsicherheitsfaktor mit steigender Erfahrung “besser”. Der deterministische Teil einer Strategienwahl des Spielers ist durch beobachtbare Attribute geprägt und der probabilistische Teil unterliegt unbeobachtbaren Einflüssen, die der Spieler eben nicht beobachten kann. Die Präferenz der Spieler besteht darin eine Strategie (Spieltheorie) zu wählen, die eine höhere erwartete Auszahlung generiert als andere, obwohl nicht gegeben ist, dass es sich um die beste aller Strategie (Spieltheorie) handelt, da Auszahlungen nur noch in Erwartungswerten existieren ^[4]. Eine Annahme im Modell besteht darin, dass die Spieler ihre erwarteten Auszahlungen korrekt schätzen. Das bedeutet, dass Spieler i seine Schätzung der Auszahlung aus Strategie a im Erwartungswert auch erhält unter Berücksichtigung der probabilistischen Gleichgewichtswahl der anderen Spieler. Die hinzugenommene probabilistische Variable im Einfluss auf die diskrete Wahl ist endogen im Modell ^[5]. Dies liefert einen nützlichen theoretischen Rahmen für die Beobachtung komparativ statischer Effekte von Parameterveränderungen. Es führt nicht zwingend zu Abweichungen von den Nash (John Forbes Nash Jr.) Vorhersagen. Im Unterschied zum NGGW' jedoch liefert das QRE die Möglichkeit statt deterministischen Aussagen, statistische Prognosen zu treffen. Die Güte dieser statistischen Aussagen hängt signifikant von der Präzision der Beliefs der Spieler über die erwarteten Auszahlungen der unterschiedlichen Strategien ab. Erfahrungen der Spieler und Lernfähigkeit spielen eine besondere Rolle, da diese Faktoren Einfluss auf die Fähigkeit präziser Einschätzungen erwarteter Auszahlungen aus bestimmen Strategien haben. Dieses Phänomen kann auch durch den Effekt steigender Beobachtungen in der Ökonometrie erklärt werden ^[6].

Formal

Annahmen

Die Normalform (Spieltheorie) eines Spiels mit den folgenden Elementen lautet:

Spieler

Es existieren $i\in \mathbb {N}$ Spieler, wobei $N={1,...,n}$

Im Strategieraum

$s_{i}\in S$

existiert für jeden Spieler eine Strategie

$S_{ij}={\begin{pmatrix}s_{11}&...&s_{1i}\\...&&...\\s_{i1}&...&s_{ij}\end{pmatrix}}$

bestehend aus $J_{i}$ reinen Strategien.

Auszahlungsfunktion

Für jeden Spieler $i\in \mathbb {N}$ gibt es eine Auszahlungsfunktion $u_{i}:S\to {\mathfrak {R}}$ , wo

$\prod _{i\in \mathbb {N} }S_{i}$

Wahrscheinlichkeit

$p_{i}={\mathfrak {P}}(X=x_{i})$ und $p_{i}:S_{i}\to {\mathfrak {R}}$ , wo

$\sum _{s_{ij}\in S_{i}}p_{i}(s_{ij})=1$ und $p_{i}(s_{ij}\geq 0$ für alle $s_{ij}\in S_{i}$

Zur Vollständigkeit sei erwähnt, dass sich alle p in einem Raum von Wahrscheinlichkeiten befinden in dem gilt :

alle Anderen ${\bar {p}}_{i}$ , wobei $p_{i}={\mathfrak {P}}(X=x_{i})$ und ${\bar {p}}_{i}=1-{\mathfrak {P}}(X=x_{i})$ , sodass $p_{i}+{\bar {p}}_{i}=1$

Wahrscheinlichkeit Spieler i wählt Strategie $s_{ij}$

$p_{ij}=p_{i}(s_{ij})$

Daher repräsentiert die Notation $(s_{ij},p_{-i})$ die Strategie, wo i die Strategie $s_{ij}$ wählt und alle anderen Spieler deren Ausprägung von p adaptieren.

Nutzenfunktion

$u_{is}=V_{is}+\epsilon _{is}$

Wobei $V_{is}$ den deterministischen Teil und $\epsilon _{is}$ den probabilistischen Teil des Modells darstellt

Weiterhin kann $\epsilon _{is}$ als Weißes Rauschen beschrieben werden und mit folgenden Annahmen versehen werden:

${\mathfrak {E}}[\epsilon _{is}]=0$ $\forall {is}$

Hier existiert keine Verteilung der Funktion und somit auch keine Dichte oder ein Erwartungswert.

Im Logit Modell jedoch ist der probabilistische Teil der Nutzenfunktion extremwertverteilt, welche Annahme zu nützlichen Effekten führt. Dieser kann als Spieler i s Fehler Vektor definiert werden.

Die Nutzenfunktion der Spieler

Nutzenfunktion: $u_{is}=V_{is}+\epsilon _{is}$

Abweichungen von optimalen Entscheidungen sind negativ korreliert mit verbundenen Kosten. In anderen Worten machen Spieler sehr ungern Fehler mit hohen Kosten. Formal bildet sie einen Vektor mit einem deterministischen Teil $V_{is}$ und einem probabilistischen Teil $\epsilon _{is}$ mit oben genannten Annahmen. Erwartete Auszahlungen

$u_{i}(p)=p(s_{1})\cdot u_{i}(s_{1})+p(s_{2})\cdot u_{i}(s_{2})+...={\mathfrak {E_{p}}}[u_{i}]$

oder genauer $u_{i}(p)=\sum p(s)u_{i}(s)$

wiederum sind determiniert von Beliefs über die Aktionen anderer Spieler. Die Auszahlungen der Spieler werden mit der Wahrscheinlichkeit, dass die Strategie gespielt wird, gewichtet.

Ein Beispiel:

s_{i,j}	$s_{2,1}$	$s_{2,2}$
$s_{1,1}$	(-2,-2)	(-6,-1)
$s_{1,2}$	(-1,-6)	(-4,-4)

Das Nash Gleichgewicht $(s_{2},s_{2})=(4,5)$ in reinen Strategien existiert unter oben genannten Annahmen nur noch in Erwartungswerten. Die Auszahlungen können durch den Vektor

{\bar {u}}(p)={\begin{pmatrix}u_{1}(p)\\u_{2}(p)\\...&\\u_{j}(p)\end{pmatrix}}

verständlicher gemacht werden.

Es entsteht eine mit Wahrscheinlichkeit gewichtete Auszahlung aller Strategien. Es existiert eine zufällige beste Antwort Funktion für alle Spiele in Normalform und somit auch ein QRE. Die Gleichgewichts-Wahlmöglichkeiten bilden das QRE. Im Gleichgewicht sind die Beliefs der Spieler richtig. Eine Modellierung ist durch das logit equilibrium möglich, da unbeobachtete Störterme Abweichungen des Nutzens der Spieler zur Folge haben und als Ziel der Modellierung so klein wie möglich gehalten werden sollen.

!!!SKIZZE!!!

Logit

Kerngedanke der Logit Modellierung der Wahl der Strategie von Spielern bildet ein Discret Choice Modell^[7]. Somit ist es möglich Aussagen bezüglich der Auswahl von alternativen Strategie der Spieler zu treffen. Spieler $i\in \mathbb {N}$ wählt aus dem Strategienraum $s_{i}\in S$ ohne Berücksichtigung der Zeit $t\in T$ , da es sich um ein einmaliges Spiel handelt. Der Spieler präferiert Strategie $s$ vor ${\bar {s}}$ , wenn gilt:

$u_{is}\geq u_{i{\bar {s}}}\forall s,{\bar {s}}\in S,s\neq {\bar {s}}$

Unter Logit Modellen versteht man eine Form der Discrete Choice Modellen in der probabilistische Teil der Nutzenfunktion $\epsilon _{is}$ aus unabhängig identisch extremverteilten (iid) $e\sim {\mathfrak {E}}(\lambda ,\gamma )$ sind . Diese Zufallszahlen bestehen aus nicht beobachtbaren Störgrößen. Nach dem Fisher-Tippett Theorem (später Fisher-Tippett Gnedenko Theorem) nähern sich diese einer Extremwertverteilung an ^[8]. Daher sind probabilistische Störgrößen als Maximum der Zufallszahlen zu verstehen. Die Form des Logit Modells erlaubt Schätzungen mithilfe der Maximum Likelihood Methode über die Wahl der Spieler zu schätzen. Durch extremverteilte probabilistische Störterme ergibt sich die Auswahlwahrscheinlichkeit ^[9]:

${\mathfrak {P}}_{i}^{MNL}(s|S)={\mathfrak {P}}(u_{is}\geq u_{i{\bar {s}}}\forall s\neq {\bar {s}})={\frac {e^{\mu V_{is}(\beta )}}{\sum _{{\bar {s}}\in S}e^{\mu V_{is}(\beta )}}}$

Problematisch allerdings ist die iid Annahme der Störterme. Die resultierende Korrelation von 0 zwischen den Störtermen hat ein Verhältnis der Auswahlwahrscheinlichkeiten zur Folge.

Für die Alternativen $s\neq s^{\dagger }$ gilt das Verhältnis:

${\frac {{\mathfrak {P}}_{i}^{MNL}(s|S)}{{\mathfrak {P}}_{i}^{MNL}(s^{\dagger }|S)}}={\frac {\frac {e^{\mu V_{is}(\beta )}}{\sum _{s\in S}e^{\mu V_{is}(\beta )}}}{\frac {e^{\mu V_{is^{\dagger }}(\beta )}}{\sum _{s^{\dagger }\in S}e^{\mu V_{is^{\dagger }}(\beta )}}}}={\frac {e^{\mu V_{is}(\beta )}}{e^{\mu V_{is^{\dagger }}(\beta )}}}$

Anwendungen

Das QRE findet in Spielen mit diskreten Strategien Anwendung.

Aufbau QRE in Extensivform

Verbal

In extensiver Form des Spiels wird der Faktor Zeit in das Modell mit aufgenommen und es entsteht eine Art Stufenspiel. Im deterministischen Modell können auch im unendlich oft wiederholten Stufenspiel Aussagen über ein zeitresistentes Gleichgewicht getroffen werden, da ein NGGW immer ein Gleichgewicht bleiben muss. Der probabilistische Einfluss des Störterms jedoch verhindert diese Fähigkeit durch die Abhängigkeit des Gleichgewichts von den Realisationen verschiedener Zufallsvariablen. Es können lediglich Erwartungswerte angegeben werden, die letztendlich keine sicheren Vorhersagen treffen können. Das Gesetz der großen Zahlen bewirkt, dass mit steigenden Beobachtungen konsistentere Aussagen über Gleichgewichte getroffen werden können.

Formal

Zeit $t\in T$

Siehe auch

Einzelnachweise

↑ McKelvey, Palfrey : Quantal Response Equilibria for Normal Form Games, Games and Economic Behavior Vol. 10, Seite 7, 1995
↑ McKelvey, Palfrey : Quantal Response Equilibria for Normal Form Games, Games and Economic Behavior Vol. 10, Seite 7, Zeile 2, 1995
↑ McKelvey, Palfrey : Quantal Response Equilibria for Normal Form Games, Games and Economic Behavior Vol. 10, Seite 6-8, 1995
↑ McKelvey, Palfrey : Quantal Response Equilibria for Normal Form Games, Games and Economic Behavior Vol. 10, Seite 10, „better actions are more likely to be chosen than worse actions“, 1995
↑ McKelvey, Palfrey : Quantal Response Equilibria for Normal Form Games, Games and Economic Behavior Vol. 10, Seite 7, 1995
↑ McKelvey, Palfrey : Quantal Response Equilibria for Normal Form Games, Games and Economic Behavior Vol. 10, Seite 8 ff., 1995
↑ Train, K. E : Discrete Choice Methods with Simulation, Cambridge University Press, 2009
↑ Fisher, R. A., Tippett, L. H. C., 1928. Limiting forms of the frequency distribution of the largest or smallest member of a sample. In: Mathematical Proceedings of the Cambridge Philosophical Society. Vol. 24. Cambridge Univ Press, pp. 180–190
↑ McFadden, D., 1973. Conditional logit analysis of qualitative choice behavior.

Literatur

Fisher, R. A., Tippett, L. H. C., 1928. Limiting forms of the frequency distribution of the largest or smallest member of a sample. In: Mathematical Proceedings of the Cambridge Philosophical Society. Vol. 24. Cambridge Univ Press,

Weblinks

McKelvey, Palfrey 1995: URL http://www.dklevine.com/archive/refs4510.pdf

[1] McKelvey, Palfrey : Quantal Response Equilibria for Normal Form Games, Games and Economic Behavior Vol. 10, Seite 7, 1995

[2] McKelvey, Palfrey : Quantal Response Equilibria for Normal Form Games, Games and Economic Behavior Vol. 10, Seite 7, Zeile 2, 1995

[3] McKelvey, Palfrey : Quantal Response Equilibria for Normal Form Games, Games and Economic Behavior Vol. 10, Seite 6-8, 1995

[4] McKelvey, Palfrey : Quantal Response Equilibria for Normal Form Games, Games and Economic Behavior Vol. 10, Seite 10, „better actions are more likely to be chosen than worse actions“, 1995

[5] McKelvey, Palfrey : Quantal Response Equilibria for Normal Form Games, Games and Economic Behavior Vol. 10, Seite 7, 1995

[6] McKelvey, Palfrey : Quantal Response Equilibria for Normal Form Games, Games and Economic Behavior Vol. 10, Seite 8 ff., 1995

[7] Train, K. E : Discrete Choice Methods with Simulation, Cambridge University Press, 2009

[8] Fisher, R. A., Tippett, L. H. C., 1928. Limiting forms of the frequency distribution of the largest or smallest member of a sample. In: Mathematical Proceedings of the Cambridge Philosophical Society. Vol. 24. Cambridge Univ Press, pp. 180–190

[9] McFadden, D., 1973. Conditional logit analysis of qualitative choice behavior.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]