Instrumentelle und operante Konditionierung

Unter Konditionierung versteht man in der Lernpsychologie das Erlernen von Reiz-Reaktions-Mustern (Stimulus-Response). Auf einen bestimmten Reiz folgt beim Organismus kontingent eine bestimmte Reaktion. Man unterscheidet zwei Grundtypen der Konditionierung: Die Klassische Konditionierung und die Operante Konditionierung.

Klassische Konditionierung

Hauptartikel: Klassische Konditionierung

Lernen durch Klassische Konditionierung wurde von Iwan Petrowitsch Pawlow beschrieben (Nobelpreis für Physiologie oder Medizin 1904). Der Mediziner beobachtete eher beiläufig, dass einige der Hunde, mit denen er experimentierte, um Näheres über die Speichelsekretion herauszufinden, schon vor Beginn des Experimentes Speichel absonderten. Eine genauere Betrachtung ergab weiterhin, dass dies nur bei jenen Hunden auftrat, die schon länger im Labor waren und den Ablauf der Experimente kannten. Dieser Speichelfluss konnte daher nicht auf den Geruch oder den Anblick des Futters zurückgeführt werden, sondern musste eine andere Ursache haben. Um dies zu analysieren, ließ Pawlow in einem Versuch zeitgleich mit dem Vorsetzen von Futter einen Glockenton ertönen. Nach einigen Wiederholungen floss der Speichel bei diesen „Pawlowschen Hunden“ schon beim Glockenton, obwohl kein Futter gegeben wurde.

Nach häufiger gemeinsamer Darbietung (Kontiguität) wurde der vorher neutrale Reiz (= Glockenton) zu einem konditionierten Reiz, der alleine fast dieselbe Reaktion (= Speichelfluss) auslösen kann, wie der unkonditionierte Reiz (= Futter), mit dem er gekoppelt wurde. Aus der unbedingten Reaktion (= Speichelfluss) auf das Futter wurde eine konditionierte Reaktion auf den Glockenton.

Pawlows Experiment begründete die Lerntheorie und wird als Klassisches Konditionieren bezeichnet.

Begriffe

deutsch	englisch	Kürzel	Erklärung
Unbedingter Reiz	unconditioned stimulus	UCS	Reiz, der ohne vorangegangenes Lernen eine Reaktion auslöst
Unbedingte Reaktion	unconditioned response	UCR	angeborene Reaktion, die durch den UCS ausgelöst wird
Neutraler Reiz	neutral stimulus	NS	Reiz, der zu keiner bestimmten Reaktion führt
Bedingter Reiz	conditioned stimulus	CS	ursprünglich neutraler Reiz, der aufgrund einer mehrmaligen Kopplung mit einem UCS eine gelernte oder bedingte Reaktion bewirkt
Bedingte Reaktion	conditioned response	CR	erlernte Reaktion, die durch den CS ausgelöst wird

Der Pawlow'sche Hund

Schema des klassischen Konditionierens am Beispiel des Hundes:

Neutraler Reiz → keine spezifische Reaktion
NS (neutraler Stimulus), z. B. Glockenton → NR (neutrale Reaktion), z. B. Ohren spitzen
Unbedingter Reiz → Unbedingte Reaktion
UCS, z. B. Futter → UCR, Speichelfluss als biologische Reaktion
Lernen durch Reiz-Kopplung:
neutraler Reiz + unbedingter Reiz → unbedingte Reaktion
UCS, z. B. Futter + NS, z.B. Glockenton → UCR, z. B. Speichelfluss
Diese Kopplung muss mehrere Male wiederholt werden. Nur durch die Wiederholung setzt der Lernvorgang ein.
Bedingter Reiz → Bedingte Reaktion
CS, Glockenton → CR, Speichelfluss

Klassische Konditionierung kurzgefasst:

vor Training	NS → keine spezifische Reaktion; UCS → UCR
Training	NS + UCS → UCR
Ergebnis	CS → CR

Der Unterschied zwischen konditioniertem Reiz und unkonditioniertem Reiz besteht in der Reaktion, die sie vor der Konditionierung auslösen: Der konditionierte Reiz darf anfangs von sich aus keine deutliche Reaktion hervorrufen, er muss jedoch eine Orientierungsreaktion (OR) auslösen. Das bedeutet, der Organismus muss dem Reiz Aufmerksamkeit schenken. So ist dieser anfangs ein neutraler Reiz, der noch nichts mit dem Thema zu tun hat. Der unkonditionierte Reiz hingegen löst eine deutliche Reaktion im Organismus aus.

Dabei müssen unkonditionierte Reaktion und konditionierte Reaktion nicht die gleiche Phänomenologie aufweisen (wie bei Pawlows Experiment). Ein Beispiel dafür ist Schockkonditionierung beim Menschen: Die unkonditionierte Reaktion ist eine Schreckreaktion, verbunden mit einer Erhöhung von Herzfrequenz und Blutdruck. Testet man nach dem Training die konditionierte Reaktion, dann besteht diese jedoch in einer Senkung der Herzfrequenz.

mehrmalige Koppelung + Kontiguität

Das Gesetz der Kontiguität (lat. contiguitas = die Angrenzung) besagt, dass eine Konditionierung nur erfolgt, wenn der unbedingte Reiz mehrfach mit dem neutralen Reiz gekoppelt auftritt und wiederholt wird, sowie die Reize zeitlich und räumlich beieinander auftreten.

Reizgeneralisierung

Wenn eine konditionierte Reaktion auf einen bestimmten Reiz gelernt worden ist, kann es vorkommen, dass ähnliche Reize die gleiche Reaktion auslösen, dabei gilt: je ähnlicher der Neureiz dem konditionierten Reiz, desto stärker werden die Reaktionen ausfallen.

Operante Konditionierung (auch: Instrumentelle Konditionierung)

Bei der operanten oder auch instrumentellen Konditionierung kann ein ursprünglich unbedeutendes Spontanverhalten durch Belohnung oder Bestrafung bevorzugt/vermieden werden. Die Häufigkeit des Auftretens eines Verhaltens kann also nachhaltig beeinflusst werden.

Ein wichtiges Defizit der Theorie der klassischen Konditionierung ist ihr Unvermögen, das Auftreten neuer Verhaltensweisen befriedigend zu erklären. Eine elegante Methode, auf gleichermaßen anschauliche wie reproduzierbare Weise einem Testtier neue Verhaltensweisen beizubringen, stellt das Lernen mit Hilfe einer so genannten Skinner-Box dar.

Während beim klassischen Konditionieren ein neuer Reiz kennen und verstehen gelernt wird, lernt das Versuchstier beim operanten Konditionieren eine bestimmte Verhaltensweise auszuführen, die auf dem natürlichen Repertoire basieren kann, diesem aber nicht 1:1 entsprechen muss. Durch positive oder negative Verstärkung und Methoden wie shaping und chaining wird die Auftretenswahrscheinlichkeit dieses Verhaltens erhöht.

Besonders verdient gemacht in dieser Disziplin hat sich Burrhus Frederic Skinner, der intensiv auf diesem Gebiet forschte.

Das Prinzip ist einfach: wenn das Versuchstier zufällig die erwünschte Handlung ausführt, bekommt es eine Belohnung. Es lernt schnell den Zusammenhang zwischen Handlung und Belohnung. Das heißt, Verstärker sorgen beim operanten Konditionieren dafür, dass das Auftreten einer bestimmten Reaktion begünstigt oder erschwert wird. Aber was ist denn nun ein Verstärker? Das können in den einzelnen Fällen recht unterschiedliche Dinge sein: Für ein kleines Kind reicht da vielleicht schon etwas Schokolade, während bei einem Erwachsenen auch Kopfnicken oder Schulterklopfen Verstärkung genug sein kann (sozialer Verstärker). Was letztendlich als Verstärker funktioniert, bestimmt jedoch die Versuchsperson (also die Person, bei der eine bestimmte Verhaltensweise verstärkt werden soll). Wichtig ist, dass die Verstärker kontingent (also unmittelbar, erkennbar, regelhaft) und motivationsadäquat sind und Bedürfnisse (z. B. Hunger, Aktivitätsbedürfnis) befriedigen. Bei einem Verstärker, der erst Stunden nach der gewünschten Reaktion eintritt, ist nicht mehr erkennbar, wofür er vergeben wurde, und er hat deshalb keine Wirkung. Auch wird eine satte Ratte für eine Futterpille nichts mehr veranstalten – die Bedürfnisspannung fehlt. Um einer Verfettung von Laborratten vorzubeugen, benutzt man in der Forschung Erkenntnisse der Klassischen Konditionierung: Der Reiz „Verstärker“ (hier: Futter) wird mit einem anfangs neutralen Reiz (z. B. einem Pfiff) gekoppelt, wodurch der Pfiff durch klassische Konditionierung zum bedingten Reiz wird, der dann – wie Futter – ebenfalls die Wirkung einer Belohnung hat (diskriminativer Hinweisreiz). Um einer Extinktion vorzubeugen, muss die Kopplung gelegentlich wiederholt werden.

Das Kontingenzschema: positive und negative Verstärkung, Bestrafung I und II

Verstärkung ist jener Prozess, der dazu führt, dass ein spontan gezeigtes Verhalten vermehrt auftritt. Als Verstärker werden jene Verhaltenskonsequenzen bezeichnet, die die Wahrscheinlichkeit erhöhen, dass das Verhalten wiederholt gezeigt wird.

Gerade negative Verstärker und Bestrafung werden häufig miteinander verwechselt. Das Wort positiv steht hier nur das hinzufügen eines Reizes, das Wort negativ für das entfernen.

Daher folgt zunächst eine Definition:

Positive Verstärkung bedeutet die Erhöhung der Auftretenswahrscheinlichkeit eines Verhaltens, wenn ein positiver Reiz hinzu kommt (z.B. Anerkennung, Achtung, Nahrung, Geld.)

Negative Verstärkung bedeutet die Erhöhung der Auftretenswahrscheinlichkeit eines Verhaltens, wenn ein negativer Reiz entfernt wird (z.B. jeweils das Entfernen von Lärm, grellem Licht, Hitze oder Kälte.

Bestrafung bedeutet die Reduzierung der Auftretenswahrscheinlichkeit eines Verhaltens. Wichtig ist dabei, dass es nicht zwingend einen „Bestrafer“ geben muss, sondern Bestrafung bezeichnet alle Verhaltenskontingenzen, welche die Auftretenswahrscheinlichkeit eines Verhaltens reduzieren.

Bestrafung I bedeutet die Senkung der Auftretenswahrscheinlichkeit eines Verhaltens, indem ein negativer Reiz hinzu kommt (z.B. Lärm, grelles Licht, Hitze oder Kälte, Stromschlag)

Bestrafung II bedeutet die Senkung Auftretenswahrscheinlichkeit eines Verhaltens, indem ein positiver Reiz entfernt wird (Ein Beispiel hierfür ist, wenn ein Kind einen Trotzanfall bekommt und ihm die Eltern daraufhin das liebste Spielzeug wegnehmen)

In Analogie zu positiver und negativer Verstärkung wird zuweilen Bestrafung I auch als „positive Bestrafung“ bezeichnet und Bestrafung II als „negative Bestrafung“.

Diese Arten der Beeinflussung von Reaktionen können in folgender Tabelle festgehalten werden.

	… der Situation
	hinzufügen:	wegnehmen:
positive Konsequenz …	positiver Reiz (=positive Verstärkung)	negativer Reiz (=negative Verstärkung)
negative Konsequenz …	negativer Reiz (=Bestrafung I)	positiver Reiz (=Bestrafung II)

Wichtig ist hierbei, dass die Bezeichnung positive, bzw. negative Konsequenz sehr schwammig ist. Die Definition von Verstärkern ist nur anhand von Beispielen möglich. Im Behaviorismus sind Begrifflichkeiten wie „angenehm“ eher unpassend, da sie subjektiv sind. Dieser Fehler wird leider auch von vielen Lehrbüchern und Lexika begangen.

Arten von Verstärkern

Primäre und sekundäre Verstärker: Man unterscheidet verschiedene Arten von Verstärkern. Zwei klassische Arten sind: primäre Verstärker und sekundäre Verstärker. Primäre Verstärker sind jene Verstärker, die bereits von Geburt an wirken. Laut Miller und Dollard wirkt jede Reduktion eines allzu intensiven Reizes als primäre Verstärkung. Primäre Verstärker sind beispielsweise Essen und Trinken, da sie Hunger und Durst reduzieren, aber auch Körperkontakt ist primärer Verstärker. Sekundäre Verstärker dagegen sind gelernte Verstärker. Sie sind also zunächst neutrale Reize, die durch die wiederholte Koppelung mit primären Verstärkern sekundäre Verstärkerqualität erhalten. Beispiele für sekundäre Verstärker sind beispielsweise Geld, denn die Funktion wird erst gelernt. Zunächst ist Geld ein komplett neutraler Reiz, bis gelernt wird, dass es zur Bedürfnisbefriedigung herangezogen werden kann.

Premack-Prinzip: Ferner hat sich gezeigt, dass bereits antizipiertes Verhalten als Verstärker dienen kann. Verhalten, das wir gerne und häufig tun, hat eine verstärkende Wirkung. Wird uns nach den Hausaufgaben etwa ein Kinobesuch versprochen, so wird die Auftretenswahrscheinlichkeit der Handlung, dass die Hausaufgaben gemacht werden, erhöht. Das Premack-Prinzip besagt, dass ein Verhalten, das unter natürlichen Bedingungen mit einer höheren Häufigkeit gezeigt wird, als Verstärker für ein Verhalten dienen kann, das unter natürlichen Bedingungen mit einer geringeren Häufigkeit gezeigt wird. Nehmen wir als Beispiel ein Kind: Wenn wir es vollkommen frei vor die Wahl zwischen den beiden Verhalten „Fernsehen“ und „Zimmer aufräumen“ stellen, wird es sich mutmaßlich für ersteres entscheiden. Nun können wir das Verhalten mit der höheren Auftretenswahrscheinlichkeit als Verstärker benutzen: Dem Kind wird erst erlaubt, fernzusehen, wenn es sein Zimmer aufgeräumt hat.; Es gibt jedoch Einschränkungen in der Gültigkeit des Premack-Prinzips. So hat man in Tierversuchen mit Ratten nachgewiesen, dass auch ein Verhalten, das eine niedrigere Auftretenswahrscheinlichkeit besitzt, als Verstärker dienen kann: Nehmen wir an, eine Ratte, die eine Stunde in einem Käfig sitzt, verbringt ohne äußere Zwänge 50 Minuten damit, an einem Wasserspender zu lecken und zehn Minuten damit, in einem Laufrad zu rennen. Man kann nun nach dem Premack-Prinzip ohne Probleme das längere Rennen im Laufrad durch das Lecken verstärken. Es geht jedoch auch anders herum. Wenn die Ratte zwei Minuten lecken muss, um danach eine Minute im Laufrad zu rennen, wird dies nicht als Verstärker wirken, da die Ratte nach diesem Verstärkerplan ‚locker‘ auf ihre Basisverhaltenhäufigkeit von 10 Minuten Rennen in der Stunde kommt. Wenn die Ratte aber fünfzehn Minuten lecken muss, um eine Minute rennen zu dürfen, wirkt dieses Verhalten als Verstärkung für das Lecken. Somit kann, entgegen dem Premack-Prinzip, auch ein Verhalten mit einer niedrigeren Auftretenshäufigkeit als Verstärker dienen.

Verstärkungspläne

Nicht immer führt eine sofortige Verstärkung nach der gewünschten Reaktion zum gewünschten Ziel. So haben sich Verstärkerpläne herauskristallisiert, die zu unterschiedlichen Konsequenzen führen, was das Lernen und insbesondere auch Vergessen (Extinktion) betrifft. Die verschiedenen Varianten sollen kurz vorgestellt werden.

Kontinuierliche Verstärkung (CRF): Hier wird bei jeder gewünschten Reaktion verstärkt. Dies führt zu einem starken Anstieg der Lernkurve. Die Versuchsperson lernt also schnell, vergisst aber auch ebenso schnell wieder, wenn nicht mehr verstärkt wird.

Intermittierende Verstärkung (VR, VI, FR, FI): Hierbei wird nicht jede gewünschte Reaktion verstärkt, sondern etwa jede zweite, dritte usw. Zwar steigt hier die Lernkurve erwartungsgemäß nicht so stark an, jedoch fällt danach die „Vergessenskurve“ auch weniger stark ab: Der Extinktionsgrad ist geringer, man vergisst also nicht so schnell, oder gar nicht mehr.

Intervallverstärkung (FI, VI): Bei dieser Methode wird in einem konstanten oder variablen Zeitintervall verstärkt, sofern das erwünschte Verhalten auftritt.

Quotenverstärkung (FR, VR): Bei dieser Variante verstärkt man erst, wenn eine bestimmte Anzahl von gewünschten Reaktionen erfolgt ist.

Fixierte und variable Pläne: Intervall- und Quotenpläne gibt es fixiert und variabel. Bei einem fixierten Quotenplan wird beispielsweise exakt jede fünfte Reaktion verstärkt, bei einem variablen Quotenplan durchschnittlich jede fünfte Reaktion. Letzteres hat den Vorteil größerer Löschungsresistenz.

Token-Konditionierung: Ähnlich zu sekundären Verstärkern, gibt es das Prinzip, für eine Verstärkung so genannte Token zu vergeben. Diese können dann später – nach ausreichender Akkumulation von Token – gegen andere Dinge, Handlungen, Dienstleistungen usw. eingetauscht werden. Häufig findet das Prinzip bei der Verhaltensformung Anwendung, wenn in therapeutischen Einrichtungen das Verhalten der Patienten in einer bestimmten Art und Weise geformt werden soll.

Shaping: Eine weitere Variante, auf die Verstärkung Einfluss zu nehmen, ist das Shaping (es wird auch shaping oder Approximation genannt). Hier wird nicht erst die komplette Handlung verstärkt, sondern bereits jede Annäherung an eine gewünschte Handlung. Soll eine Taube etwa auf einen roten Punkt auf einer ovalen Scheibe picken, so wird bereits verstärkt, wenn die Taube den Kopf zur Scheibe bewegt; dann, wenn sie zur Scheibe schaut; dann, wenn sie sich der Scheibe nähert; dann, wenn sie auf die Scheibe pickt und schließlich, wenn sie den roten Punkt auf der Scheibe trifft. Insbesondere dient diese Technik der Erlernung komplexerer Handlungsweisen. Auf diese Weise können auch recht unnatürliche Handlungsweisen bei Tieren konditioniert werden, wie sie etwa im Zirkus zu sehen sind.

Kritik

Sowohl das klassische Konditionieren als auch das operante Konditionieren gehen von einem recht mechanischen Menschenbild aus. Ihre Begründer waren Behavioristen, die den Menschen als Black-Box betrachteten und ihre Forschungsergebnisse auf Regeln mit mathematischer Präzision zurückführen wollten. Dieses Menschenbild geht jedoch in einem ungenügenden Maße auf die selbständigen Prozesse innerhalb des Menschen und dessen Selbststeuerung und Eigenverantwortung ein, so dass sich viele Verhaltensweisen nicht mit diesen Regeln erklären ließen. Dazu zählt die selbständige Verstärkung des Menschen sowie das Lernen ohne die Bildung einer Reaktion. Erst mit der Betrachtung alternativer Modelle – etwa Albert Banduras sozialkognitiver Lerntheorie, welche sich insbesondere auf das Lernen am Modell bezieht – wurden auch diese Verhaltensmuster erklärbar.

Auch aus ethischer Sicht gibt es Kritik: Die erzieherischen Konsequenzen des Behaviorismus werden als problematisch angesehen, sofern sie in einer Weise eingesetzt werden, die an Dressur und Gehirnwäsche erinnert. Die operante und klassische Konditionierung sollte in einer ethisch vertretbaren Weise eingesetzt werden. Dazu ist erforderlich, dass dem Lernenden der Konditionierungsprozess ausführlich erklärt wird, und er sich bewusst dafür oder dagegen entscheiden kann. Dazu gehört auch, dass der Lernende die Lernziele selbst bestimmt.

Siehe auch

Weblinks