Zum Inhalt springen

Gefangenendilemma

Diese Seite befindet sich derzeit im Review-Prozess
aus Wikipedia, der freien Enzyklopädie
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 10. März 2005 um 01:24 Uhr durch 194.230.148.133 (Diskussion) (Strategien). Sie kann sich erheblich von der aktuellen Version unterscheiden.

Das Gefangenendilemma ist ein klassisches Paradoxon, das bereits in der Antike bekannt war. Es handelt sich um ein spezielles soziales Dilemma innerhalb der Spieltheorie.

Beschreibung der Situation

Zwei Gefangene werden verdächtigt, gemeinsam eine Straftat begangen zu haben. Die Höchststrafe für das Verbrechen beträgt 5 Jahre.

Die vertrackte Situation ergibt sich aus folgenden Tatsachen, die beiden bekannt sind. Wenn einer gesteht, und somit seinen Partner belastet, kommt er ohne Strafe davon und der andere muss die vollen 5 Jahre absitzen. Wenn beide schweigen, bleiben nur Indizienbeweise, um beide für 2 Jahre einzusperren. Gestehen aber beide die Tat, erwartet jeden eine Gefängnisstrafe von 4 Jahren. Nun werden die Gefangenen unabhängig voneinander befragt. Es besteht weder vor noch während der Befragung die Möglichkeit für die beiden sich abzusprechen.

Paradox kann dieses Dilemma genannt werden, da die individuell vernünftigste Entscheidung der Gefangenen (gestehen) und die kollektiv vernünftigste Entscheidung (schweigen) auseinanderfallen. Eine eindeutige verbindliche Handlungsanweisung kann nicht ohne Weiteres angegeben werden.

In einer Auszahlungsmatrix eingetragen ergibt sich folgendes Bild:

Datei:Gefangenendilemma.png

Die Zahlen zeigen die Bewertung der Situation für den Gefangenen A in blau und für den Gefangenen B in rot an. Demnach existieren vier Kombinationsmöglichkeiten. Diese hängen nicht nur von der eigenen, sondern auch von der Entscheidung des Komplizen ab (Interdependenz des Verhaltens). Aus kollektiver Sicht ist die Kombination mit der geringsten Summe optimal. Dies wäre die Option schweigen/schweigen mit kumuliert 4 Jahren Haft. Individuell scheint es aber jedem der beiden günstiger sein, auszusagen. Der Gefangene denkt sich: Wenn der andere gesteht, reduziere ich mit meiner Aussage meine Strafe von 5 auf 4 Jahre; wenn er aber schweigt, dann kann ich mit meiner Aussage meine Strafe von 2 auf 0 Jahre reduzieren! Also sollte ich auf jeden Fall gestehen! Die Entscheidung zur Aussage hängt daher nicht vom anderen Gefangenen ab, es ist immer vorteilhafter zu gestehen. Diese Strategie, welche ungeachtet der gegnerischen Strategie gewählt wird, wird als dominante Strategie bezeichnet.

In diesem Auseinanderfallen der kollektiven und individuellen Strategien besteht nun das Dilemma der Gefangenen. Gehen beide den individuell besten Weg, indem sie gestehen, kommt es zu einer suboptimalen Allokation. Beide erhalten eine Gefängnisstrafe von 4 Jahren, zusammen 8 Jahre. Es wird wahrscheinlich diese für beide suboptimale Kombination des doppelten Geständnisses (gestehen/gestehen) zustande kommen. Die rationalen Spieler treffen sich in einem Punkt, der in diesem Fall als pareto-ineffizientes Nash-Gleichgewicht bezeichnet wird.

Beispiele aus Politik und Wirtschaft

Das Gefangenendilemma lässt sich auf viele Sachverhalte in der Praxis übertragen. Vereinbaren z.B. zwei Länder eine Rüstungskontrolle, so wird es immer individuell besser sein, heimlich doch aufzurüsten. Keines der Länder hält sich an sein Versprechen und beide sind durch die Aufrüstung schlechter gestellt.

Ein anderes Beispiel bezieht sich auf Absprachen in Kartellen oder Oligopolen: Zwei Unternehmen vereinbaren eine Outputquote (z.B. bei der Ölförderung), aber individuell lohnt es sich, die eigene Quote gegenüber der vereinbarten zu erhöhen. Beide Unternehmen werden mehr produzieren. Das Kartell platzt. Die Unternehmen im Oligopol sind aufgrund der erhöhten Produktion gezwungen, die Preise zu senken, wodurch sich ihr Monopolgewinn schmälert.

Auch in der Werbung finden sich Beispiele für das Gefangenedilemma. Konkurrieren mehrere Firmen auf einem Markt, erhöhen sich die Werbeausgaben immer weiter, da jeder die anderen ein wenig übertreffen möchte. Diese Theorie konnte 1971 in den USA bestätigt werden, als ein Gesetz zum Werbeverbot für Zigaretten im Fernsehen verabschiedet wurde. Es gab kaum Proteste aus den Reihen der Zigarettenhersteller. Das Gefangenendilemma, in dem die Zigarettenindustrie geraten war, wurde durch dieses Gesetz gelöst.

Wohlfahrt

Inwiefern das Gefangenendilemma die soziale Wohlfahrt verbessert oder verschlechtert, hängt vom betrachteten Sachverhalt ab. Im Fall eines Kartells oder Oligopols führt das Gefangenendilemma zu einer besseren Situation. Das Marktversagen durch ein veringertes Angebot, konnte behoben werden. Betrachtet man allerdings die Waffenaufrüstung von Staaten oder die Werbeausgaben von Firmen, dann führt das Gefangenendilemma zu einer schlechteren Wohlfahrt, da lediglich Kosten geschaffen werden, die zu keinem neuen Nutzen führen.

Strategien

Einmaliges Spiel

Die Wahl der optimalen Strategie hängt sehr stark von der Spielsituation ab. Den größten Einfluss hat die Anzahl der Spiele. Wird das Spiel nur einmal durchgeführt, so ist die Strategie der Nicht-Kooperation (Defektion) geeignet. Der gegnerische Spieler hat keine weitere Chance das Fehlverhalten zu bestrafen.

Mehrmaliges (endliches) Spiel

Wenn beide Spieler beliebig weit in die Zukunft und streng rational denken, werden sie bei der Annahme "endlicher Spiele" niemals anfangen zu kooperieren, sondern immer defektieren. Die Strategie ist die Folge von der Rückwärtsinduktion. Die Rückwärtsinduktion spielt sich folgenderweise ab: Wegen der begrenzten Anzahl der Spiel (n Spiele) weiß Spieler A, dass Spieler B in der letzten Runde ihn defektieren wird. Aus dem Grund lohnt es sich für ihn, in der Runde n-1 zu defektieren. Spieler B weiß das auch und wird versuchen, in der Runde n-2 zu defektieren, und so weiter bis der ersten Runde.

Unendliches Spiel

Das Spiel wiederholt sich, ohne dass den Spielern bekannt ist, wann die letzte Runde stattfindet. Befinden sich die Spieler in diesem Dilemma, dann kann eine Nicht-Kooperation im darauffolgenden Spiel geahndet werden. Nicht zu kooperieren zahlt sich also nicht (zwangsläufig) aus, da man bei Defektion (direkt) im zweiten Spiel bestraft würde, während Kooperation (dauerhaft) belohnt wird. Tit-fot-tat bedeutet Bestrafung für Defektion in der nächsten Periode. Man spricht in dem Fall von kalkulativem Vertrauen.

Der amerikanische Politologe Robert Axelrod veranstaltete zum mehrmaligen Gefangenendilemma ein Computerturnier. Bei diesem Turnier konnten Teilnehmer Computerprogramme mit verschiedenen Strategien schreiben, die gegeneinander antraten. Die insgesamt erfolgreichste Strategie und gleichzeitig eine der einfachsten war Tit for Tat („wie du mir, so ich dir“), entwickelt von Anatol Rapoport. Sie kooperiert („verzichtet auf den Verrat“), solange der andere ebenfalls kooperiert. Versucht der andere, sich einen Vorteil zu verschaffen („Verrat“), tut sie dies beim nächsten Mal ebenfalls.

Ein weiteres Beispiel ist ein Handlungsreisender, der seine Kunden bei Vorkasse (ggf. ungedeckte Schecks) mit guter (kleinerer Profit, aber langfristig) oder keiner Ware (hoher kurzzeitiger Profit) beliefern kann. Händler mit schlechtem Ruf verschwinden in solchen Szenarien vom Markt, da keiner mit ihnen Geschäfte macht, und sie ihre Fixkosten nicht decken können. Hier führt tit-for-tat zu einem Markt mit wenig "Betrug".

Omertà - eine Lösung des Gefangenendilemmas?

Eine Lösung des Gefangenendilemmas wäre durch vorherige Absprache bei gleichzeitigem Vertrauen möglich. „Omertà“ (Schweig oder stirb!) der Mafia sichert das Schweigen, da ein Verstoß gegen das Schweigen stark bestraft wird. Damit wird die Belohnung der Kooperation gesichert, während gleichzeitig die Belohnung des einseitigen Geständnisses durch extremen Verlust aufgehoben wird. Dies wäre eine Internalisierung eines negativen externen Effektes („negativ“ in rein spieltheoretischem Sinn). Einen Gegenpol hierzu bietet die Schaffung einer neuen Identität bei gleichzeitig hoher Belohnung für ein Geständnis (Kronzeugenregelung).

Strategien

Für das Gefangenendilemma (insbesondere für die Spielweise über mehrere Runden) gibt es verschiedene Strategien. Für einige Strategien haben sich Namen eingebürgert (Übersetzung in Klammern).

Einige davon sind:

  • tit-for-tat: Koope riert in der ersten Runde und kopiert in den nächsten Runden den vorherigen Spielzug des Spielpartners. Ist kooperationswillig, aber übt bei Betrug Vergeltung. Bei erneuter Kooperation des Mitspielers ist sie nicht nachtragend, sondern reagiert ihrerseits mit Kooperation. (wie du mir, so ich dir)
  • mistrust: Betrügt in der ersten Runde und kopiert in den nächsten Runden (wie tit-for-tat) den vorherigen Spielzug des Spielpartners. Ist nicht von sich aus kooperationswillig. (Misstrauen)
  • spite: Kooperiert solange bis der Mitspieler zum ersten mal betrogen hat. Betrügt danach immer. Kooperiert bis zum ersten Vertrauensmissbrauch. Sehr nachtragend. (Groll)
  • pavlov: Kooperiert in der ersten Runde und betrügt, falls der vorherige Zug der Mit spielers anders als der eigene war. Kooperiert, wenn in der Vorrunde beide Spieler kooperierten oder beide betrogen. Dies führt zu einem Wechsel des Verhaltens, wenn der Gewinn der Vorrunde klein war, aber zum Beibehalten des Verhaltens, wenn der Gewinn g ross war.
  • gradual: Kooperiert solange bis der Mitspieler zum ersten mal betrogen hat. Betrügt darauf einmal und kooperiert zweimal. Betrügt der Mitspieler nach dieser Sequenz nochmals, betrügt gradual zweimal und kooperiert zweimal. Betrügt der Mi tspieler danach nochmals, betrügt gradual dreimal und kooperiert zweimal. Gradual kooperiert grundsätzlich, bestraft aber Ausbeutungsversuche mit zunehmend unversöhnlich. (allmählich)
  • prober: spielt die ersten drei Züge 'kooperieren, betrügen, bet rügen' und betrügt fortan, wenn der Gegner im zweiten und dritten Zug kooperiert hat, spielt sonst tit-for-tat. Testet, ob sich der Mitspieler ohne Vergeltung ausnehmen lässt. Nimmt nicht-vergeltende Mitspieler aus. Passt sich bei Vergeltung aber an. (Son dierer)
  • master-and-servant (Southhampton Stategie): Spielt während der ersten fünf bis zehn Runden ein der Erkennung dienendes, codiertes Verhalten. Die Strategie stellt so fest, ob der Mitspieler ebenfalls master-and-servant ist. Ist dies der Fal l wird der eine Mitspieler zum Ausbeuter, der immer betrügt, der andere Mitspieler zum Ausgenommenen, der bedingungslos kooperiert. Ist der Mitspieler nicht master-and-servant wird betrogen, um die Mitstreiter im Wettbewerb zu schädigen. Diese Strategie f ührt dazu, dass ein Teil der master-and-servant-Spieler sehr gut abschneiden, da sie unüblich oft die maximal mögliche Punktzahl für einseitigen Verrat erhalten. Der ausgebeutete Teil der master-and-servant-Spieler 'stirbt aus', was aber durch die Nachkom men des erfolgreichen Teils mehr als kompensiert wird. (Meister und Diener)
  • always_defect: Betrügt immer, egal was der Spielpartner tut. (Betrüge)
  • always_cooperate: Kooperiert immer, egal was der Spielpartner tut. (Kooperiere)
  • random: Betrügt oder kooperiert aufgrund eines 50:50-Zufallsentscheides. (Zufall)
  • per_kind: Spielt periodisch die Folge 'kooperieren/kooperieren/betrügen'. Diese Strategie versucht, den Mitspieler durch zweimaliges Kooperieren "in Sicherheit" zu wiegen um ihn dann einmal auszunehmen (Periodisch + freundlich).
  • per_nasty: Spielt periodisch die Folge 'betrügen/betrügen/kooperieren' (Periodisch + unfreundlich).
  • go_by_majority: Kooperiert in der ersten Runde und spielt dann den meistbenutzten Zug des Mitspielers. Bei Unentschieden wird kooperiert (Entscheide gemäss Mehrheit).

Siehe auch

Literatur

  • Anatol Rapoport, Albert M. Chammah: Prisoner's dilemma: a study in conflict and cooperation. University of Michigan Press, 1965
  • Robert Axelrod: Die Evolution der Kooperation. Oldenbourg Verlag, 2000, ISBN 3-48-653995-7