Instrumentelle und operante Konditionierung

Der Begriff Konditionierung bezeichnet allgemein die Einstellung oder Ausbildung bestimmter Eigenschaften. Zum Beispiel die Einstellung eines bestimmten Wassergehaltes in Pulvern oder die Einstellung eines bestimmten pH-Wertes einer Farblösung. In den Naturwissenschaften wird er eher selten gebraucht.

Unter Konditionierung versteht man in der Psychologie das Erlernen von Reiz-Reaktions-Mustern (Stimulus-Response). Auf einen bestimmten Reiz folgt beim Organismus kontingent eine bestimmte Reaktion. Man unterscheidet zwei Grundtypen der Konditionierung:

Klassische Konditionierung

Diese Lernform wurde von Iwan Pawlow beschrieben. Er war Mediziner (Nobelpreis in Medizin 1904) und beobachtete eher beiläufig, dass seine Versuchshunde bereits bei einem Glockenton, der die Fütterungszeit ankündigte, Speichel absonderten, egal ob sie Futter sehen konnten oder nicht. Sie hatten offenbar gelernt, dass der Glockenton etwas mit Futter zu tun hat.

Als Pawlow dieses überraschende Phänomen genauer untersuchte, fand er heraus, dass durch die zeitlich unmittelbar aufeinanderfolgende Darbietung des Glockentons (neutraler Reiz) und des Futters (unkonditionierter Reiz, der eine reflexartige Reaktion auslöst) eine Verbindung zwischen diesen hergestellt wurde.
Nach häufiger gemeinsamer Darbietung wurde der vorher neutrale Reiz (Glockenton) zu einem konditionierten Reiz, der alleine fast dieselbe Reaktion (Speichelfluss) auslösen kann, wie der unkonditionierte Reiz (Futter), mit dem er gepaart wurde. Aus der unkonditionierten Reaktion (Speichelfluss) auf das Futter wurde eine konditionierte Reaktion auf den Glockenton.

Schematisch:

Unkonditionierter Reiz $\rightarrow$ unkonditionierte Reaktion
Unkonditionierter Reiz + neutraler Reiz $\rightarrow$ unkonditionierte Reaktion
Neutraler Reiz = konditionierter Reiz $\rightarrow$ konditionierte Reaktion (ähnlich der unkonditionierten Reaktion, aber meist von geringerer Intensität)

Siehe auch: Pawlowscher Hund, Klassisches Konditionieren

Operante Konditionierung

Ein wichtiges Defizit der Theorie der klassischen Konditionierung ist ihr Unvermögen, das Auftreten neuer Verhaltensweisen befriedigend zu erklären. ... Skinner Box

Während beim klassischen Konditionieren eher etwas auf der Seite der Reize passiert, so passiert beim operanten Konditionieren eher etwas auf der Seite der Reaktionen. Besonders verdient gemacht in dieser Disziplin hat sich Burrhus Frederic Skinner, der viel auf diesem Gebiet forschte.

So genannte Verstärker sorgen beim operanten Konditionieren nun dafür, dass das Auftreten einer bestimmten Reaktion begünstigt oder erschwert wird. Aber was ist denn nun ein Verstärker? Skinner zog sich einfach aus der Affäre, indem er genau eben jene Dinge als Verstärker bezeichnete, die die Auftretenswahrscheinlichkeit einer gewünschten Reaktion erhöhen. Das können in den einzelnen Fällen recht unterschiedliche Dinge sein: Für ein kleines Kind reicht da vielleicht schon etwas Schokolade, während bei einem Erwachsenen auch Kopfnicken oder Schulterklopfen Verstärkung genug sein kann. Was letztendlich als Verstärker funktioniert, bestimmt jedoch die Versuchsperson (also die Person, bei der eine bestimmte Verhaltensweise verstärkt werden soll). Wichtig ist, dass die Verstärker kontingent (also unmittelbar, erkennbar, regelhaft )und motivationsadäquat 'sind und eine Bedürfnisspannung befriedigen. Für einen Verstärker, der erst Stunden nach der gewünschten Reaktion eintritt, ist nicht mehr erkennbar, wofür er gegolten hat und hat demnach auch keine Wirkung. Auch eine satte Ratte wird für eine Futterpille nichts mehr veranstalten.

positive, negative Verstärkung, Bestrafung

Man unterscheidet die Verstärker nach ihrer Wirkung. Gerade negative Verstärker und Bestrafung werden häufig miteinander verwechselt. Daher folgt zunächst eine Definition:

positive Verstärker: sind jene Dinge, die die Auftretenswahrscheinlichkeit einer Reaktion erhöhen, wenn sie der Situation zugeführt werden.

negative Verstärker: sind jene Dinge, die die Auftretenswahrscheinlichkeit einer Reaktion erhöhen, wenn sie aus der Situation entfernt werden.

Bestrafung: werden jene Dinge bezeichnet, die die Auftretenswahrscheinlichkeit einer Reaktion senken, wenn sie der Situation zugeführt werden.

Diese Arten der Beeinflussung von Reaktionen können in folgender Tabelle festgehalten werden.

	Der Reizsituation
	hinzufügen	entnehmen
positive Konsequenz	positive Verstärkung	Bestrafung
negative Konsequenz	Bestrafung	negative Verstärkung

Arten von Verstärkern und deren Beeinflussung

Primäre und Sekundäre Verstärker: Man unterscheidet verschiedene Arten von Verstärkern. Zwei klassische Arten sind: Primäre Verstärker und Sekundäre Verstärker. Primäre Verstärker sind jene Verstärker, die Grundbedürfnisse wie etwa Hunger, Anschluss oder sexuelle Bedürfnisse befriedigen. Sekundäre Verstärker können, treten sie zusammen mit primären Verstärkern auf, schon alleine als Verstärker dienen - sie sind quasi Stellvertreter der Verstärker und das Verfahren wird daher auch häufig stellvertretende Verstärkung genannt. Ein klassisches Beispiel dafür wäre Geld, welches alleine zwar keine Befriedigung liefert, jedoch in Güter und Dienstleistungen getauscht werden kann, die eben dies tun.

Premack Prinzip: Ferner hat sich gezeigt, dass bereits anitizipiertes Verhalten als Verstärker dienen können. Verhalten, dass wir gerne und häufig tun, hat eine verstärkende Wirkung. Wird uns nach den Hausaufgaben etwa ein Kinobesuch versprochen, so wird die Auftretenswahrscheinlichkeit der Handlung, dass die Hausaufgaben gemacht werden, erhöht.

Token-Konditionierung: Ähnlich zu sekundären Verstärkern, gibt es das Prinzip, für eine Verstärkung so genannte Token zu vergeben. Diese können dann später - nach ausreichender Akkumulation von Token - gegen anderen Dinge, Handlungen, Dienstleistungen etc. eingetauscht werden. Häufig findet das Prinzip bei der Verhaltensformung Anwendung, wenn in therapeutischen Einrichtungen das Verhalten der Patienten in einer bestimmten Art und Weise geformt werden soll.

Nicht immer führt eine sofortige Verstärkung nach der gewünschten Reaktion zum gewünschten Ziel. So haben sich Verstärkerpläne herauskristallisiert, die zu unterschiedlichen Konsequenzen führen, was das Lernen und insbesondere auch Vergessen (Extinktion) betrifft. Die verschiedenen Varianten sollen kurz vorgestellt werden.

Kontinuierliche Verstärkung: Hier wird bei jeder gewünschten Reaktion verstärkt. Dies führt zu einem starken Anstieg der Lernkurve. Die Vpn lernt also schnell., vergisst aber auch ebenso schnell wieder.

Intermittierende Verstärkung: Hierbei wird nicht jede gewünschte Reaktion verstärkt, sondern etwa jede zweite, dritte etc. Zwar steigt hier die Lernkurve erwartungsgemäß nicht so stark an, jedoch fällt die Vergessenskurve auch weniger stark ab - der Extinktionsgrad ist geringer. Man vergisst also nicht so schnell.

Intervallverstärkung: Bei dieser Methode wird erst nach einer bestimmten Zeit verstärkt und nicht sofort.

Quotenverstärkung: Bei dieser Variante verstärkt man erst, wenn eine bestimmte Anzahl von gewünschten Reaktionen erfolgt ist.

Eine weitere Variante, auf die Verstärkung Einfluss zu nehmen, ist das Shaping (oder auch Approximation genannt). Hier wird nicht erst die komplette Handlung verstärkt, sondern bereits jede Annäherung an eine gewünschte Handlung. Soll eine Taube etwa auf einen roten Punkt auf einer ovalen Scheibe picken, so wird bereits verstärkt, wenn die Taube den Kopf zur Scheibe bewegt; dann, wenn sie zur Scheibe schaut; dann, wenn sie sich der Scheibe nähert; dann, wenn sie auf die Scheibe pickt und schließlich, wenn sie den roten Punkt auf der Scheibe trifft. Insbesondere dient diese Technik der Erlernung komplexerer Handlungsweisen. Auf diese Weise können auch recht unnatürliche Handlungsweisen bei Tieren konditioniert werden, wie es etwa in Zirkussen der Fall ist.

Kritik

Sowohl das klassische Konditionieren als auch das operante Konditionieren gehen von einem recht mechanistischen Menschenbild aus. Ihre Begründer waren Behavioristen, die den Menschen als Black-Box sahen und alle ihre Forschungsergebnisse auf das cm/g/sek-System zurückführen wollten. So ließen sich denn auch viele Verhaltensweisen nicht mit diesem System erklären - etwa die Tatsache, dass der Mensch sich selbst auch verstärken kann bzw. lernen kann, ohne eine Reaktion zu zeigen. Dies alles waren Themen, die von Behavioristen nicht erklärbar waren und demnach nicht von ihnen untersucht wurden. Erst mit der Betrachtung alternativer Modelle - etwa Albert Banduras sozialkognitiver Lerntheorie - wurden dann auch diese Dinge erklärbar.

Über diese beiden Konditionierungstypen (klassisches und operantes Konditionieren) hinaus existieren bei höherentwickelten Tieren noch weitere Formen des Lernvermögens, z.B. das Beobachtungslernen oder Modelllernen..

Siehe auch

Lernverhalten von Pferden