Instrumentelle und operante Konditionierung

Konditionierung bezeichnet allgemein die Einstellung oder Ausbildung bestimmter Eigenschaften. Zum Beispiel die Einstellung eines bestimmten Wassergehaltes in Pulvern oder die Einstellung eines bestimmten pH-Wertes einer Farblösung. In den Naturwissenschaften wird er eher selten gebraucht. Im Bereich der Kerntechnik wird er zusammenfassend für Prozesse verwendet, die radioaktiven Abfall in einen endlagerfähigen Zustand überführen (z.B. Verpressen, Zementieren, Bituminieren, Verbrennen, etc.).

Unter Konditionierung versteht man in der Psychologie das Erlernen von Reiz-Reaktions-Mustern (Stimulus-Response). Auf einen bestimmten Reiz folgt beim Organismus kontingent eine bestimmte Reaktion. Man unterscheidet zwei Grundtypen der Konditionierung:

Klassische Konditionierung

Diese Lernform wurde von Iwan Pawlow beschrieben. Er war Mediziner (Nobelpreis in Medizin 1904) und beobachtete eher beiläufig, dass seine Versuchshunde bereits bei einem Glockenton, der die Fütterungszeit ankündigte, Speichel absonderten, egal ob sie Futter sehen konnten oder nicht. Sie hatten offenbar gelernt, dass der Glockenton etwas mit Futter zu tun hat.

Als Pawlow dieses überraschende Phänomen genauer untersuchte, fand er heraus, dass durch die zeitlich unmittelbar aufeinander folgende Darbietung des Glockentons (neutraler Reiz) und des Futters (unkonditionierter Reiz, der eine reflexartige Reaktion auslöst) eine Verbindung zwischen diesen hergestellt wurde.
Nach häufiger gemeinsamer Darbietung wurde der vorher neutrale Reiz (= Glockenton) zu einem konditionierten Reiz, der alleine fast dieselbe Reaktion (= Speichelfluss) auslösen kann, wie der unkonditionierte Reiz (= Futter), mit dem er gekoppelt wurde. Aus der unkonditionierten Reaktion (= Speichelfluss) auf das Futter wurde eine konditionierte Reaktion auf den Glockenton.

Pawlows Ansatz war der erste und grundlegende Ansatz innerhalb der Lerntheorie. Aufgrund dieser beiden Sachverhalte wird die von ihm entwickelte Lerntheorie als Klassisches Konditionieren bezeichnet.

Schematisch:

1. Neutraler Reiz (Glockenton) => Neutrale Reaktion = Orientierungsreaktion OR(keine bestimmte Reaktion)

2. Unkonditionierter Reiz = US(Futter) => Unkonditionierte Reaktion = UR (Speichelfluss) [biologisch signifikant]

3. Neutraler Reiz = konditionierter Reize CS + UR => CR = konditionierte Reaktion (hier: Speichelfluss)

kurzgefasst:

vor Training: CS => OR US => UR

Training: CS - US

Test: CS => CR

Der Unterschied zwischen CS und US besteht in der Reaktion, die sie vor der Konditionierung auslösen: Der CS darf anfangs von sich aus keine deutliche Reaktion hervorrufen, er muss jedoch eine Orientierungsreaktion (OR) auslösen - dass bedeutet, der Organismus muss dem Reiz Aufmerksamkeit schenken. Der US hingegen löst eine deutliche Reaktion im Organismus aus. Achtung: UR und CR müssen nicht die gleiche Phänomenologie aufweisen (wie bei Pawlows Experiment). Ein Beispiel dafür ist Schockkonditionierung beim Menschen: Die UR ist eine Schreckreaktion, verbunden mit einer Erhöhung von Herzfrequenz und Blutdruck. Testet man nach dem Training die CR, dann besteht diese jedoch in einer Senkung der Herzfrequenz.

mehrmalige Koppelung + Kontiguität: Das Gesetz der Kontiguität (lat. contiguitas = die Angrenzung) besagt, dass eine Konditionierung nur erfolgt, wenn der unbedingte Reiz mehrfach mit dem neutralen Reiz gekoppelt auftritt und wiederholt wird, sowie die Reize zeitlich und räumlich beeinander auftreten.

4. Konditionierter Reiz (= ursprünglich neutraler Reiz) => Konditionierte Reaktion (= Speichelfluss): ähnlich der unkonditionierten Reaktion, aber meist von geringerer Intensität.

Siehe auch: Pawlowscher Hund, Klassisches Konditionieren

Operante Konditionierung (auch: Instrumentelle Konditionierung)

Ein wichtiges Defizit der Theorie der klassischen Konditionierung ist ihr Unvermögen, das Auftreten neuer Verhaltensweisen befriedigend zu erklären. Eine elegante Methode, auf gleichermaßen anschauliche wie reproduzierbare Weise einem Testtier neue Verhaltensweisen beizubringen, stellt das Lernen mit Hilfe einer so genannten Skinner-Box dar.

Während beim klassischen Konditionieren ein neuer Reiz kennen und verstehen gelernt wird, so lernt das Versuchstier beim operanten Konditionieren eine bestimmte Handlung auszuführen, die nicht dem natürlichen Repertoire entspricht und welche anschließend positiv verstärkt wird. Besonders verdient gemacht in dieser Disziplin hat sich Burrhus Frederic Skinner, der viel auf diesem Gebiet forschte.

Das Prinzip ist einfach: wenn das Versuchstier zufällig die erwünschte Handlung ausführt, bekommt es einen positiven Verstärker. Es lernt schnell den Zusammenhang zwischen Handlung und Belohnung. Das heißt, Verstärker sorgen beim operanten Konditionieren dafür, dass das Auftreten einer bestimmten Reaktion begünstigt oder erschwert wird. Aber was ist denn nun ein Verstärker? Das können in den einzelnen Fällen recht unterschiedliche Dinge sein: Für ein kleines Kind reicht da vielleicht schon etwas Schokolade, während bei einem Erwachsenen auch Kopfnicken oder Schulterklopfen Verstärkung genug sein kann. Was letztendlich als Verstärker funktioniert, bestimmt jedoch die Versuchsperson (also die Person, bei der eine bestimmte Verhaltensweise verstärkt werden soll). Wichtig ist, dass die Verstärker kontingent (also unmittelbar, erkennbar, regelhaft) und motivationsadäquat sind und eine Bedürfnisspannung (z.B. Hungergefühl, Freiheitsdrang usw.) befriedigen. Bei einem Verstärker, der erst Stunden nach der gewünschten Reaktion eintritt, ist nicht mehr erkennbar, wofür er gegolten hat und er hat demnach auch keine Wirkung. Auch eine satte Ratte wird für eine Futterpille nichts mehr veranstalten - die Bedürfnisspannung fehlt. Um einer Verfettung von Laborratten vorzubeugen (kein Scherz) beruft man sich in der Forschung wiederum auf die Klassische Konditionierung: Der Reiz "Verstärker" (hier: Futter) wird mit einem anfangs neutralen Reiz (z.B. einem Pfiff) gekoppelt, wodurch der Pfiff durch klassische Konditionierung zum bedingten Reiz wird, der dann - wie Futter - ebenfalls die Wirkung einer Belohnung hat. Um einer Extinktion vorzubeugen, muss die Kopplung gelegentlich wiederholt werden.

Positive und negative Verstärkung, Bestrafung

Verstärkung ist jener Prozess, der dazu führt, dass ein spontan gezeigtes Verhalten vermehrt auftritt. Als Verstärker werden jene Verhaltenskonsequenzen bezeichnet, die die Wahrscheinlichkeit erhöhen, dass das Verhalten wiederholt gezeigt wird. Man unterscheidet die Verstärker nach ihrer Wirkung. Gerade negative Verstärker und Bestrafung werden häufig miteinander verwechselt. Daher folgt zunächst eine Definition:

Positive Verstärkung bedeutet die Erhöhung der Auftretenswahrscheinlichkeit eines Verhaltens, wenn als Reiz ein positiver Verstärker hinzutritt. Beispiele für positive Verstärker sind Anerkennung, Achtung, Nahrung, Geld.

Negative Verstärkung bedeutet die Erhöhung der Auftretenswahrscheinlichkeit eines Verhaltens, wenn als Reiz ein negativer Verstärker entfernt wird. Negative Verstärker sind z. B. Lärm, grelles Licht, Hitze oder Kälte, Stromschlag. Negative Verstärkung wäre z.B. das Entfernen von Kopfschmerzen durch Aspirin.

Bestrafung bedeutet die Reduzierung der Auftretenswahrscheinlichkeit eines Verhaltens. Wichtig ist dabei, dass es nicht zwingend einen "Bestrafer" geben muss, sondern Bestrafung bezeichnet alle Verhaltenskontingenzen, welche die Auftretenswahrscheinlichkeit eines Verhaltens reduzieren. Positive Bestrafung bedeutet, dass ein spezifisches Verhalten einen Reiz auslöst, der die Auftretenswahrscheinlichkeit dieses Verhaltens senkt. Beispiele hierfür sind Lärm, grelles Licht, Hitze oder Kälte, Stromschlag. Negative Bestrafung - auch omission training genannt - bedeutet, dass ein spezifisches Verhalten einen Reiz unterbindet, der die Auftretenswahrscheinlichkeit dieses Verhaltens senkt. Also wenn beispielsweise ein Kind einen Trotzanfall bekommt, nehmen ihm die Eltern das liebste Spielzeug weg.

Diese Arten der Beeinflussung von Reaktionen können in folgender Tabelle festgehalten werden.

	... der Reizsituation
	hinzufügen:	entfernen:
positive Konsequenz ...	positive Verstärkung	negative Bestrafung
negative Konsequenz ...	positive Bestrafung	negative Verstärkung

Wichtig ist hierbei, dass die Bezeichung positive, bzw. negative Konsequenz sehr schwammig ist. Die Definition von Verstärkern ist nur anhand von Beispielen möglich. Im Behaviorismus sind Begrifflichkeiten wie "angenehm" eher unpassend, da sie subjektiv sind. Dieser Fehler wird leider auch von vielen Lehrbüchern und Lexika begangen.

Arten von Verstärkern und deren Beeinflussung

Primäre und sekundäre Verstärker: Man unterscheidet verschiedene Arten von Verstärkern. Zwei klassische Arten sind: primäre Verstärker und sekundäre Verstärker. Primäre Verstärker sind jene Verstärker, die Grundbedürfnisse wie etwa Hunger, Anschluss oder sexuelle Bedürfnisse befriedigen. Sekundäre Verstärker können, treten sie zusammen mit primären Verstärkern auf, schon alleine als Verstärker dienen - sie sind quasi Stellvertreter der Verstärker und das Verfahren wird daher auch häufig stellvertretende Verstärkung genannt. Ein klassisches Beispiel dafür wäre Geld, welches alleine zwar keine Befriedigung liefert, jedoch in Güter und Dienstleistungen getauscht werden kann, die eben dies tun.

Premack-Prinzip: Ferner hat sich gezeigt, dass bereits antizipiertes Verhalten als Verstärker dienen kann. Verhalten, das wir gerne und häufig tun, hat eine verstärkende Wirkung. Wird uns nach den Hausaufgaben etwa ein Kinobesuch versprochen, so wird die Auftretenswahrscheinlichkeit der Handlung, dass die Hausaufgaben gemacht werden, erhöht. Das Premack-Prinzip besagt, dass ein Verhalten, das unter natürlichen Bedingungen mit einer höheren Häufigkeit gezeigt wird, als Verstärker für ein Verhalten dienen kann, das unter natürlichen Bedingungen mit einer geringeren Häufigkeit gezeigt wird. Nehmen wir als Beispiel ein Kind: Wenn wir es vollkommen frei vor die Wahl zwischen den beiden Verhalten "Fernsehen schauen" und "Zimmer aufräumen" stellen, wird es sich mutmaßlich für ersteres entscheiden. Nun können wir das Verhalten mit der höheren Auftretenswahrscheinlichkeit als Verstärker benutzen: Dem Kind wird erst erlaubt, Fernsehen zu schauen, wenn es sein Zimmer aufgeräumt hat.

Es gibt jedoch Einschränkungen in der Gültigkeit des Premack-Prinzips. So hat man in Tierversuchen mit Ratten nachgewiesen, dass auch ein Verhalten, dass eine niedrigere Auftretenswahrscheinlichkeit besitzt, als Verstärker dienen kann: Nehmen wir an, eine Ratte, die eine Stunde in einem Käfig sitzt, verbringt ohne äußere Zwänge 50 Minuten damit, an einem Wasserspender zu lecken und zehn Minuten damit, in einem Laufrad zu rennen. Man kann nun nach dem Premack-Prinzip ohne Probleme das längere Rennen im Laufrad durch das Lecken verstärken. Es geht jedoch auch anders herum. Wenn die Ratte zwei Minuten lecken muss, um danach eine Minute im Laufrad zu rennen, wird dies nicht als Verstärker wirken, da die Ratte nach diesem Verstärkerplan 'locker' auf ihre Basisverhaltenhäufigkeit von 10 Minuten Rennen in der Stunde kommt. Wenn die Ratte aber fünfzehn Minuten lecken muss, um eine Minute rennen zu dürfen, wirkt dieses Verhalten als Verstärkung für das Lecken. Somit kann, entgegen dem Premack-Prinzip, auch ein Verhalten mit einer niedrigeren Auftretenshäufigkeit als Vertärker dienen.

Token-Konditionierung: Ähnlich zu sekundären Verstärkern, gibt es das Prinzip, für eine Verstärkung so genannte Token zu vergeben. Diese können dann später - nach ausreichender Akkumulation von Token - gegen andere Dinge, Handlungen, Dienstleistungen usw. eingetauscht werden. Häufig findet das Prinzip bei der Verhaltensformung Anwendung, wenn in therapeutischen Einrichtungen das Verhalten der Patienten in einer bestimmten Art und Weise geformt werden soll.

Nicht immer führt eine sofortige Verstärkung nach der gewünschten Reaktion zum gewünschten Ziel. So haben sich Verstärkerpläne herauskristallisiert, die zu unterschiedlichen Konsequenzen führen, was das Lernen und insbesondere auch Vergessen (Extinktion) betrifft. Die verschiedenen Varianten sollen kurz vorgestellt werden.

Kontinuierliche Verstärkung: Hier wird bei jeder gewünschten Reaktion verstärkt. Dies führt zu einem starken Anstieg der Lernkurve. Die Versuchsperson lernt also schnell, vergisst aber auch ebenso schnell wieder.

Intermittierende Verstärkung: Hierbei wird nicht jede gewünschte Reaktion verstärkt, sondern etwa jede zweite, dritte usw. Zwar steigt hier die Lernkurve erwartungsgemäß nicht so stark an, jedoch fällt danach die "Vergessenskurve" auch weniger stark ab: Der Extinktionsgrad ist geringer, man vergisst also nicht so schnell.

Intervallverstärkung: Bei dieser Methode wird erst nach einer bestimmten Zeit verstärkt und nicht sofort.

Quotenverstärkung: Bei dieser Variante verstärkt man erst, wenn eine bestimmte Anzahl von gewünschten Reaktionen erfolgt ist.

Eine weitere Variante, auf die Verstärkung Einfluss zu nehmen, ist das Shaping (es wird auch Approximation genannt). Hier wird nicht erst die komplette Handlung verstärkt, sondern bereits jede Annäherung an eine gewünschte Handlung. Soll eine Taube etwa auf einen roten Punkt auf einer ovalen Scheibe picken, so wird bereits verstärkt, wenn die Taube den Kopf zur Scheibe bewegt; dann, wenn sie zur Scheibe schaut; dann, wenn sie sich der Scheibe nähert; dann, wenn sie auf die Scheibe pickt und schließlich, wenn sie den roten Punkt auf der Scheibe trifft. Insbesondere dient diese Technik der Erlernung komplexerer Handlungsweisen. Auf diese Weise können auch recht unnatürliche Handlungsweisen bei Tieren konditioniert werden, wie es etwa in Zirkussen der Fall ist.

Kritik

Sowohl das klassische Konditionieren als auch das operante Konditionieren gehen von einem recht mechanischen Menschenbild aus. Ihre Begründer waren Behavioristen, die den Menschen als Black-Box sahen und ihre Forschungsergebnisse auf Regeln mit mathematischer Präzension zurückführen wollten. Dieses Menschenbild geht jedoch in einem ungenügenden Maße auf die selbstständigen Prozesse innerhalb des Menschen ein, sodass sich viele Verhaltensweisen nicht mit diesen Regeln erklären ließen. Dazu zählt die selbstständige Verstärkung des Menschen sowie das Lernen ohne die Bildung einer Reaktion. Erst mit der Betrachtung alternativer Modelle - etwa Albert Banduras sozialkognitiver Lerntheorie - wurden auch diese Verhaltensmuster erklärbar.

Auch auf Seiten der Ethik gibt es kritische Stimmen: die erzieherischen Konsequenzen des Behaviorismus werden als problematisch angesehen, wenn sie in einem Maße, der an Dressur und Gehirnwäsche erinnert, eingesetzt werden. Die operante und klassische Konditionierung sollte nur in einem ethisch vertretbaren Rahmen eingesetzt werden, wozu die willentliche Partizipation des Lernenden am Konditionierungsprozess neben einer transparenten Offenlegung eine wichtige Grundvoraussetzung für eine erfolgreiche Konditionierung ist.

Über diese beiden Konditionierungstypen (klassisches und operantes Konditionieren) hinaus existieren bei höher entwickelten Tieren noch weitere Formen des Lernvermögens, z.B. das Beobachtungslernen oder Modelllernen.

Weblinks

kontroverse Diskussion zum Buch "Jedes Kind kann schlafen lernen" bezüglich Kritik
Signallernen, Reiz-Reaktionslernen, S-R-Lernen
Seminarinformationen der Uni Bielefeld

Siehe auch