Gefangenendilemma

zentraler Bestandteil der Spieltheorie
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 15. Oktober 2005 um 15:13 Uhr durch 83.76.1.174 (Diskussion) (Evolutionsdynamische Turniere). Sie kann sich erheblich von der aktuellen Version unterscheiden.

Das Gefangenendilemma ist ein spieltheoretisches Paradoxon, das von zwei Mitarbeitern der RAND Corporation in den 1950er Jahren formuliert wurde. Die Wissenschaftler Merrill Flood und Melvin Drescher beschrieben ein soziales Dilemma als Zwei-Personen-Spiel, das zeigt, wie individuell rationale Entscheidungen zu kollektiv suboptimalen Ergebnissen führen können. Bei dem "prisoner's dilemma" - der Name stammt von Albert Tucker von der Universität Princeton - handelt es sich um ein klassisches "Zwei-Personen-Nicht-Nullsummen-Spiel". Es ist bis heute ein zentraler Bestandteil der Spieltheorie.

Beschreibung der Situation

Zwei Gefangene werden verdächtigt, gemeinsam eine Straftat begangen zu haben. Die Höchststrafe für das Verbrechen beträgt fünf Jahre. Beiden Gefangenen wird nun ein Handel angeboten, der beiden bekannt ist. Wenn einer gesteht, und somit seinen Partner belastet, kommt er ohne Strafe davon - der andere muss die vollen fünf Jahre absitzen. Entscheiden sich beide zu schweigen, bleiben nur Indizienbeweise, die aber ausreichen, um beide für zwei Jahre einzusperren. Gestehen aber beide die Tat, erwartet jeden eine Gefängnisstrafe von vier Jahren. Nun werden die Gefangenen unabhängig voneinander befragt. Es besteht weder vor noch während der Befragung die Möglichkeit für die beiden, sich untereinander abzusprechen.

Paradox kann dieses Dilemma genannt werden, da die individuell vernünftigste Entscheidung der Gefangenen (gestehen) und die kollektiv vernünftigste Entscheidung (schweigen) auseinander fallen. Eine eindeutige verbindliche Handlungsanweisung kann nicht ohne Weiteres angegeben werden.

In einer Auszahlungsmatrix eingetragen, ergibt sich folgendes Bild:

B schweigt B gesteht
A schweigt A:-2 / B:-2 A:-5 / B:0
A gesteht A:0 / B:-5 A:-4 / B:-4

Fachbegriffe (hier):

0..."temptation" -2..."reward" -4..."punishment" -5..."sucker's payoff"


Die existierenden vier Kombinationsmöglichkeiten hängen nicht nur von der eigenen, sondern auch von der Entscheidung des Komplizen ab (Interdependenz des Verhaltens).

Individuell scheint es für beide vorteilhafter zu sein, auszusagen. Der Gefangene denkt sich: Falls der andere gesteht, reduziere ich mit meiner Aussage meine Strafe von fünf auf vier Jahre; falls er aber schweigt, dann kann ich mit meiner Aussage meine Strafe von zwei Jahren auf Null reduzieren! Also sollte ich auf jeden Fall gestehen! Diese Entscheidung zur Aussage hängt nicht vom Verhalten des anderen ab, und es ist anscheinend immer vorteilhafter zu gestehen. Eine solche Strategie, die ungeachtet der gegnerischen gewählt wird, wird in der Spieltheorie als dominante Strategie bezeichnet.

Wie die Matrix zeigt, wären beide Gefangene jedoch besser gestellt, wenn sie sich beide entschieden zu schweigen. Dann erhielten beide nur 2 Jahre Gefängnis. Die Spielanlage verhindert aber gerade die Verständigung zwischen den Gefangenen und provoziert so einen einseitigen Verrat, durch den der Verräter das für ihn individuell bessere Resultat 'Freispruch' (falls der Mitgefangene schweigt) oder vier statt fünf Jahre (falls der Mitgefangene gesteht) zu erreichen hofft. Versuchen dies aber beide Gefangenen, so verschlimmern sie - auch individuell - ihre Lage, da sie nun je vier Jahre statt der zwei Jahre Gefängnis erhalten.

In diesem Auseinanderfallen der möglichen Strategien besteht das Dilemma der Gefangenen. Die vermeintlich rationale, schrittweise Analyse der Situation verleitet beide Gefangenen dazu zu gestehen, was zu einem schlechten Resultat führt (suboptimale Allokation). Das bessere Resultat wäre durch gemeinsame Kooperation erreichbar, die aber anfällig für einen Vertrauensbruch ist. Die rationalen Spieler treffen sich in einem Punkt, der in diesem Fall als pareto-ineffizientes Nash-Gleichgewicht bezeichnet wird.

Spielweisen und Strategien

Einmaliges Spiel

Gemäß der klassischen Analyse des Spiels ist im nur einmal gespielten Gefangenendilemma die einzig rationale Strategie für einen am eigenen Wohl interessierten Spieler, nicht mit seinem Mitgefangenen zu kooperieren, sondern zu gestehen, da er durch seine Entscheidung das Verhalten des Mitspielers nicht beeinflussen kann und er sich unabhängig von der Entscheidung des Mitspielers immer besser stellt, wenn er selbst nicht kooperiert. Diese Analyse setzt voraus, dass die Spieler nur einmal aufeinander treffen, und ihre Entscheidungen keinen Einfluss auf spätere Interaktionen haben können. Da es sich um ein echtes Dilemma handelt, folgt aus dieser Analyse aber keine eindeutige Handlungsanweisung (präskriptive Aussage) für reale Interaktionen, die einem Gefangenendilemma entsprechen. Im einmaligen, um nicht zu sagen alles entscheidenden Spiel, muss jedoch darauf hingewiesen werden, dass es egal ist, ob sich beide Parteien zuvor absprechen. Die Situation nach einem evtl. geführten Gespräch bleibt gleich!

Mehrmaliges (endliches) Spiel

Die Situation ändert sich, wenn das Spiel mehrere Runden gespielt wird (sog. iterierte Turniere). Dann kann ein Vertrauensbruch im nächsten oder einem späteren Spiel geahndet werden (Vergeltung), Kooperation wird belohnt.

Die Anzahl der Runden darf allerdings nicht vorgegeben werden, sondern muss unbestimmt sein. Andernfalls könnte es sich für eigentlich kooperierende Strategien lohnen, in der letzten Runde zu betrügen, weil dafür eine Vergeltung nicht mehr möglich ist. Somit wird aber die vorletzte Runde zur letzten, worauf sich wieder dieselbe Situation ergibt. Daraus ergibt sich wiederum eine suboptimale Lösung. Das Problem der letzten Runde entschärft sich, wenn das Spiel als – angeblich oder tatsächlich – unendliches Turnier gespielt wird. Wie gut eine bestimmte Strategie in einem solchen Turnier abschneidet, hängt immer von den konkurrierenden Strategien ab, auf die sie trifft, und kann nicht absolut angegeben werden.

Unendliches Spiel

Das Spiel wiederholt sich, ohne dass den Spielern bekannt ist, wann die letzte Runde stattfindet. Befinden sich die Spieler in diesem Dilemma, dann kann eine Nicht-Kooperation im darauf folgenden Spiel geahndet werden. Nicht zu kooperieren zahlt sich also nicht (zwangsläufig) aus, da man bei Defektion (direkt) im zweiten Spiel bestraft würde, während Kooperation (dauerhaft) belohnt wird. Tit-for-tat ("wie du mir, so ich dir") bedeutet Bestrafung für Defektion in der nächsten Periode. Man spricht in dem Fall von kalkulativem Vertrauen.

Der amerikanische Politologe Robert Axelrod veranstaltete zum mehrmaligen Gefangenendilemma zu Beginn der 1980er Jahre ein Computerturnier, in dem er Computerprogramme mit verschiedenen Strategien gegeneinander antreten ließ. Die insgesamt erfolgreichste Strategie und gleichzeitig eine der einfachsten war besagte Tit-for-tat-Strategie, entwickelt von Anatol Rapoport. Sie kooperiert („verzichtet auf den Verrat“), solange der andere ebenfalls kooperiert. Versucht der andere, sich einen Vorteil zu verschaffen („Verrat“), tut sie dies beim nächsten Mal ebenfalls.

Evolutionsdynamische Turniere

Eine Weiterentwicklung des Spiels über mehrere Runden ist das Spielen über mehrere Generationen. Sind alle Strategien in mehreren Runden gegeneinander und gegen sich selbst angetreten, werden die erzielten Resultate für jede Strategie zusammengezählt. Für einen nächsten Durchgang ersetzen die erfolgreichen Strategien die weniger erfolgreichen. Die erfolgreichste Strategie ist in der nächsten Generation am häufigsten vertreten. Auch diese Turnier-Variante wurde von Axelrod durchgeführt.

Strategien, die zum Betrügen tendierten, erzielten hier zu Beginn relativ gute Resultate - solange sie auf andere Strategien stießen, die tendenziell eher kooperierten, also sich ausnutzen liessen. Sind betrügerische Strategien aber erfolgreich, so werden kooperative von Generation zu Generation seltener - die betrügerischen Strategien entziehen sich in ihrem Gelingen selbst die Erfolgsgrundlage. Treffen aber zwei betrügerische Strategien zusammen, so erzielen sie schlechtere Resultate als zwei kooperierende Strategien. Betrügerische Strategien können nur durch Ausbeutung von Mitspielern wachsen. Kooperierende Strategien wachsen dagegen am besten, wenn sie aufeinander stoßen. Eine Minderheit von miteinander kooperierenden Strategien wie z. B. Tit-for-tat kann sich so sogar in einer Mehrheit von betrügerischen Strategien behaupten und sogar zur Mehrheit anwachsen. Solche Strategien, die sich über Generationen hin etablieren können und auch gegen Invasionen durch andere Strategien resistent sind, nennt man evolutionär stabile Strategien.

Tit-for-tat konnte erst 2004 von einer neuartigen Strategie der Universität Southampton geschlagen werden, welche sich bei gegenseitigem Aufeinandertreffen nach einem Initial-Austausch in eine Ausbeuter- bzw. eine Opferrolle begibt, um dem Ausbeuter so eine Spitzenposition zu ermöglichen (master-and-servant). Nötig dazu ist aber eine gewisse kritische Mindestgröße, d. h. master-and-servant kann sich nicht aus einer kleinen Anfangspopulation etablieren. Da die Spielpartner über ihr anfängliches Spielverhalten codiert kommunizieren, besteht der Einwand, dass die Master-and-servant-Strategie die Spielregeln verletzt, wonach die Spielpartner isoliert voneinander befragt werden. Die Strategie erinnert an Insektenvölker, in denen Arbeiterinnen auf Fortpflanzung gänzlich verzichten und ihre Arbeitskraft für das Wohlergehen der fruchtbaren Königin aufwenden.

Notwendige Bedingungen für das Ausbreiten von kooperativen Strategien sind: a) dass mehrere Runden gespielt werden, b) sich die Spieler von Runde zu Runde einander wiedererkennen können, um nötigenfalls Vergeltung zu üben, und c) dass nicht bekannt ist, wann sich die Spieler zum letzten Mal begegnen.

Einige ausgewählte Strategien

Für das über mehrere Runden gespielte Gefangenendilemma gibt es viele verschiedene Strategien. Für einige Strategien haben sich Namen eingebürgert (Übersetzung in Klammern):

  • tit-for-tat (wie du mir, so ich dir): Kooperiert in der ersten Runde und kopiert in den nächsten Runden den vorherigen Spielzug des Spielpartners. Diese Strategie ist prinzipiell kooperationswillig, übt aber bei Betrug Vergeltung. Bei erneuter Kooperation des Mitspielers ist sie nicht nachtragend, sondern reagiert ihrerseits mit Kooperation.
  • mistrust (Misstrauen): Betrügt in der ersten Runde und kopiert in den nächsten Runden (wie tit-for-tat) den vorherigen Spielzug des Spielpartners. Ist nicht von sich aus kooperationswillig.
  • spite (Groll): Kooperiert solange, bis der Mitspieler zum ersten mal betrogen hat. Betrügt danach immer. Kooperiert bis zum ersten Vertrauensmissbrauch. Sehr nachtragend.
  • pavlov: Kooperiert in der ersten Runde und betrügt, falls der vorherige Zug des Mitspielers anders als der eigene war. Kooperiert, wenn in der Vorrunde beide Spieler kooperierten oder beide betrogen. Dies führt zu einem Wechsel des Verhaltens, wenn der Gewinn der Vorrunde klein war, aber zum Beibehalten des Verhaltens, wenn der Gewinn groß war.
  • gradual (allmählich): Kooperiert solange, bis der Mitspieler zum ersten mal betrogen hat. Betrügt darauf einmal und kooperiert zweimal. Betrügt der Mitspieler nach dieser Sequenz nochmals, betrügt die graduale Strategie zweimal und kooperiert zweimal. Betrügt der Mitspieler danach nochmals, betrügt sie dreimal und kooperiert zweimal. Diese Strategie kooperiert grundsätzlich, bestraft aber jeden Ausbeutungsversuch zunehmend unversöhnlicher.
  • prober (Sondierer): spielt die ersten drei Züge kooperieren, betrügen, betrügen und betrügt fortan, wenn der Gegner im zweiten und dritten Zug kooperiert hat, spielt sonst tit-for-tat. Testet, ob sich der Mitspieler ohne Vergeltung ausnehmen lässt. Nimmt nicht-vergeltende Mitspieler aus. Passt sich bei Vergeltung aber an.
  • master-and-servant ("Herr und Knecht" oder auch "Southampton-Strategie"): Spielt während der ersten fünf bis zehn Runden ein der Erkennung dienendes, codiertes Verhalten. Die Strategie stellt so fest, ob der Mitspieler ebenfalls nach dem "Master-and-Servant"-Muster agiert. Ist dies der Fall wird der eine Mitspieler zum Ausbeuter, der immer betrügt, der andere Mitspieler zum Ausgenommenen, der bedingungslos kooperiert. Ist der Mitspieler nicht "Master-and-Servant"-Konform, wird betrogen, um die Mitstreiter im Wettbewerb zu schädigen. Diese Strategie führt dazu, dass ein Teil der "Master-and-Servant-Spieler" sehr gut abschneidet, da diese unüblich oft die maximal mögliche Punktzahl für einseitigen Verrat erhalten. Der ausgebeutete Teil der "Master-and-Servant"-Spieler „stirbt aus“, was aber durch die Nachkommen des erfolgreichen Teils überkompensiert wird.
  • always defect (Betrüge immer): Betrügt immer, egal was der Spielpartner tut.
  • always cooperate (Kooperiere immer): Kooperiert immer, egal was der Spielpartner tut.
  • random (Zufall): Betrügt oder kooperiert aufgrund eines 50:50-Zufallsentscheides.
  • per kind (Periodisch und freundlich): Spielt periodisch die Folge kooperieren/kooperieren/betrügen. Diese Strategie versucht, den Mitspieler durch zweimaliges Kooperieren in Sicherheit zu wiegen um ihn dann einmal auszunehmen.
  • per nasty (Periodisch und unfreundlich): Spielt periodisch die Folge betrügen/betrügen/kooperieren.
  • go by majority (Entscheide gemäß Mehrheit): Kooperiert in der ersten Runde und spielt dann den meistbenutzten Zug des Mitspielers. Bei Unentschieden wird kooperiert.

Optimale Strategie

Die einfache, aber sehr wirkungsvolle und langfristig erfolgreiche Strategie Tit-for-tat weist jedoch den Schönheitsfehler auf, dass sich beide Spieler in einer dauerhaften Konfrontation blockieren, wenn nach gewisser Zeit beide Spieler diese Strategie wählen.

Abhilfe kann dadurch geschaffen werden, dass nach zufälliger, d.h. für den Gegner nicht abschätzbarer Anzahl von Wiederholungen spontan einseitig Kooperation gespielt wird, um den Kreislauf der Konfrontation zu durchbrechen. Dadurch wird langfristig das beste Ergebnis für beide Seiten erreicht.

Beispiele

Aus Politik und Wirtschaft

Das Gefangenendilemma lässt sich auf viele Sachverhalte in der Praxis übertragen. Vereinbaren beispielsweise zwei Länder eine Rüstungskontrolle, so wird es immer individuell besser sein, heimlich doch aufzurüsten. Keines der Länder hält sich an sein Versprechen und beide sind durch die Aufrüstung schlechter gestellt.

Ein anderes Beispiel bezieht sich auf Absprachen in Kartellen oder Oligopolen: Zwei Unternehmen vereinbaren eine Outputquote (z.B. bei der Ölförderung), aber individuell lohnt es sich, die eigene Quote gegenüber der vereinbarten zu erhöhen. Beide Unternehmen werden mehr produzieren. Das Kartell platzt. Die Unternehmen im Oligopol sind aufgrund der erhöhten Produktion gezwungen, die Preise zu senken, wodurch sich ihr Monopolgewinn schmälert.

Auch in der Wirtschaft finden sich Beispiele für das Gefangenendilemma. Konkurrieren mehrere Firmen auf einem Markt, erhöhen sich die Werbeausgaben immer weiter, da jeder die anderen ein wenig übertreffen möchte. Diese Theorie konnte 1971 in den USA bestätigt werden, als ein Gesetz zum Werbeverbot für Zigaretten im Fernsehen verabschiedet wurde. Es gab kaum Proteste aus den Reihen der Zigarettenhersteller. Das Gefangenendilemma, in das die Zigarettenindustrie geraten war, wurde durch dieses Gesetz gelöst.

Ein weiteres Beispiel ist ein Handlungsreisender, der seine Kunden bei Vorkasse (ggf. ungedeckte Schecks) mit guter Ware (kleinerer Profit, aber langfristig sicher) oder gar keiner Ware (hoher kurzzeitiger Profit) beliefern kann. Händler mit schlechtem Ruf verschwinden in solchen Szenarien vom Markt, da keiner mit ihnen Geschäfte macht, und sie ihre Fixkosten nicht decken können. Hier führt "Tit-for-Tat" zu einem Markt mit wenig "Betrug".

Beachtenswert ist das Anbieterdilemma, das zu einer Beeinflussung der Preise für angebotene Güter führt. Zwar profitieren Anbieter bei Vorliegen des Dilemmas nicht, jedoch kann sich die Wohlfahrt einer Volkswirtschaft insgesamt erhöhen, da der Nachfrager durch niedrige Preise profitiert. Durch staatlichen Eingriff in Form von Wettbewerbspolitik wird ein Anbieterdilemma häufig künstlich generiert, indem beispielsweise Absprachen zwischen Anbietern untersagt werden. Somit sorgen Institutionen für mehr Wettbewerb, um den Verbraucher zu schützen.

Auch die Versteigerung der UMTS-Lizenzen in Deutschland dient als Beispiel. Es wurden 12 Frequenzblöcke für UMTS versteigert, die entweder als 2er- oder 3er-Paket erworben werden konnten. Die sieben Bieter, E-Plus-Hutchinson, Mannesmann, T-Mobile, Group 3G, debitel, mobilcom und VIAG, nahmen an der Versteigerung im August 2000 teil. Beachtenswert ist auch, dass wie im theoretischen Orignal, Absprachen unter den Spielern, also der Mobilfunkanbieter, unterbunden wurden. Nach dem Ausscheiden von debitel nach 126.Runde am 11.8.2000 waren 12 Lizenzen für 6 Mobilfunkanbieter vorhanden, also 2 für jeden. Die Summe aller Lizenzen hat zu diesem Zeitpunkt 57,6 Mrd. DM betragen. Durch das Spekulieren der Mobilfunkanbieter, auf ein Ausscheiden eines weiteren Anbieters, und der Möglichkeit 3 Lizenzen zu erwerben, ging die Bieterschlacht jedoch weiter. In der 173. Runde, am 17.8.2000, gingen je 2 Lizenzen an die sechs verbliebenen Mobilfunkanbieter - ein Ergebnis also, was auch schon in der 127. Runde hätte erreicht werden können. Die Summe, die die Mobilfunkanbieter für alle Lizenzen zahlten, lag nun bei 98,8 Mrd. DM. Gesamtvolkswirtschaftlich ist dieses Ergebnis nur auf Basis der kurzfristigen Gewinnmaximierung gut zu heißen. Langfristig fehlten Mittel für den Aufbau eines UMTS-Netzes bei den Mobilfunkanbietern. Die Group 3G, welche unter dem Namen Quam nur kurze Zeit Mobilfunkprodukte anbot, und mobilcom konnten nie UMTS anbieten. Die Sonderabschreibungen der Mobilfunkunternehmen auf die Lizenzen führten zudem zu hohen Steuerausfällen in den folgenden Jahren. Im gesamteuropäischen Vergleich führte dies zu einer verzögerten Einführung von UMTS in Deutschland.

Aus der Kriminalistik

Das sog. „Omertà“ (Schweig oder stirb!) der Mafia versucht das Schweigen (Kooperieren) dadurch sicherzustellen, dass ein Verstoß mit besonders drastischen Sanktionen bedroht wird. Damit wird die Kooperation gefestigt, während gleichzeitig ein einseitiges Geständnis durch extremen Verlust demotiviert wird. Dies wäre eine Internalisierung eines negativen externen Effektes („negativ“ in rein spieltheoretischem Sinn). Omertà versucht die Spieler zu gegenseitigem Vertrauen anzuhalten, kann aber das grundsätzliche Dilemma nicht auflösen. Als Gegenmittel kann die Justiz z.B. eine neue Identität und Straffreiheit für Verräter ins Spiel bringen, um das Vertrauen der Komplizen zu untergraben (Kronzeugenregelung). Eine einfache Verhörstrategie der Polizei kann darin bestehen, den Verdächtigten zu verunsichern, indem behauptet wird, der Komplize hätte bereits gestanden.

Einfluss auf die Wohlfahrt

Inwiefern das Gefangenendilemma die soziale Wohlfahrt verbessert oder verschlechtert, hängt vom betrachteten Sachverhalt ab. Im Fall eines Kartells oder Oligopols führt das Gefangenendilemma zu einer Verbesserung der Situation. Das "Marktversagen" durch ein verringertes Angebot kann behoben werden. Betrachtet man allerdings die Waffenaufrüstung von Staaten oder die Werbeausgaben von Firmen, dann führt das Gefangenendilemma zu einer schlechteren Wohlfahrt, da lediglich Kosten geschaffen werden, die zu keinem neuen Nutzen führen.

Karl Homann geht in seiner Konzeption einer Wirtschaftsethik davon aus, dass es Aufgabe der Staaten bzw. des Gesetzgebers sei, in der Gestaltung der Rahmenordnung darauf hinzuwirken, dass erwünschte Dilemmasituationen aufrecht erhalten werden und dass unerwünschte Dilemmasituationen durch die Schaffung bzw. Veränderung von Institutionen überwunden werden. So können beispielsweise gesetzliche Mindeststandards bei der Sicherung von Konsumentenrechten (z.B. AGB-Gesetz) ein Misstrauen dem Verkäufer gegenüber (unerwünschte Dilemmasituation) ausräumen und so zu mehr Handel führen; gleichzeitig ist die Konkurrenz zwischen den jeweiligen Verkäufern und den jeweiligen Käufern als erwünschte Dilemmasituation aufrecht zu erhalten.

Siehe auch

Literatur

  • Anatol Rapoport, Albert M. Chammah: Prisoner's dilemma: a study in conflict and cooperation. University of Michigan Press, 1965
  • Robert Axelrod: Die Evolution der Kooperation. Oldenbourg Verlag, 2000, ISBN 3-48-653995-7
  • Eggebrecht, Winfried; Manhart, Klaus: Fatale Logik: Egoismus oder Kooperation in der Computersimulation, c't 6/1991