Zum Inhalt springen

„Instrumentelle und operante Konditionierung“ – Versionsunterschied

aus Wikipedia, der freien Enzyklopädie
[ungesichtete Version][gesichtete Version]
Inhalt gelöscht Inhalt hinzugefügt
Sady (Diskussion | Beiträge)
KKeine Bearbeitungszusammenfassung
Eastalis (Diskussion | Beiträge)
Korrigierte Grammatik, doppeltes gekürzt.
Markierungen: Visuelle Bearbeitung Mobile Bearbeitung Mobile Web-Bearbeitung Erweiterte mobile Bearbeitung
 
(492 dazwischenliegende Versionen von mehr als 100 Benutzern, die nicht angezeigt werden)
Zeile 1: Zeile 1:
{| class="float-right toccolours" style="margin-top:0; text-align:center;"
Der Begriff '''Konditionierung''' bezeichnet allgemein die Einstellung oder Ausbildung bestimmter Eigenschaften. Zum Beispiel die Einstellung eines bestimmten Wassergehaltes in Pulvern oder die Einstellung eines bestimmten [[pH-Wert]]es einer Farblösung. In den [[Naturwissenschaft]]en wird er eher selten gebraucht.
! style="background:#99BBFF;"| Konsequenzen
|-
| positive und negative [[Verstärkung (Psychologie)|Verstärkung]]<br />positive und negative [[Bestrafung (Psychologie)|Bestrafung]]
|-
| [[SR-Modell]]<br />[[SOR-Modell]]<br />[[SORKC-Modell]]
|-
! style="background:#99BBFF;"| Methoden
|-
| [[klassische Konditionierung]]<br />[[Gegenkonditionierung]]<br />operante Konditionierung<br />[[Extinktion (Psychologie)|Extinktion]]<br />Shaping<br />[[Chaining]]<br />[[Fading (Psychologie)|Fading]]<br />[[Time-out-Technik]]<br />[[Response-Cost]]<br />[[Token-System]]<br />[[Premack-Prinzip]]<br />[[Diskriminationslernen]]<br />[[Stimuluskontrolle]]<br />[[Kontingenzmanagement]]
|-
! style="background:#99BBFF;"|Theorien
|-
| [[Verstärker-Verlust-Theorie]]<br />[[Zwei-Faktoren-Theorie (Lerntheorie)|Zwei-Faktoren-Theorie]]<br />[[Zwangsprozess]]
|}
'''Instrumentelle''' und '''operante Konditionierung''', auch ''Lernen am Erfolg'' genannt,<ref>{{Literatur |Autor=Wilhelm F. Angermeier |Titel=Kontrolle des Verhaltens. Das Lernen am Erfolg |Auflage=2., neubearb. Aufl. |Verlag=Springer |Ort=Berlin, Heidelberg, New York |Datum=1976 |ISBN=3-540-07575-5}}</ref> sind [[Paradigma|Paradigmen]] der [[Behaviorismus|behavioristischen]] [[Lernpsychologie]] und betreffen das [[Lernen|Erlernen]] von [[Reiz-Reaktions-Modell|Reiz-Reaktions]]-Mustern (Stimulus-Response) aus ursprünglich spontanem Verhalten. Die Häufigkeit eines Verhaltens wird durch seine angenehmen (appetitiven) oder unangenehmen (aversiven) Konsequenzen dauerhaft verändert. Das bedeutet, dass erwünschtes Verhalten durch Belohnung verstärkt und unerwünschtes Verhalten durch Bestrafung unterdrückt wird.


Man unterscheidet diese Art des Lernens von der ''[[Klassische Konditionierung|klassischen Konditionierung]],'' die ''ausgelöstes'' Verhalten betrifft (der lernende Organismus hat keine Kontrolle über den Reiz oder seine Reaktion).
Unter '''Konditionierung''' versteht man in der [[Psychologie]] das [[Lernen|Erlernen]] von [[Reiz]]-Reaktions-Mustern (Stimulus-Response). Auf einen bestimmten Reiz folgt beim Organismus [[Kontingenz|kontingent]] eine bestimmte Reaktion. Man unterscheidet zwei Grundtypen der Konditionierung:


== Geschichte ==
== Klassische Konditionierung ==
=== Thorndikes Modell ===
Diese Lernform wurde von [[Iwan Pawlow]] beschrieben. Er war Mediziner ([[Nobelpreis]] in Medizin [[1904]]) und beobachtete eher beiläufig, dass seine Versuchshunde bereits bei einem Glockenton, der die Fütterungszeit ankündigte, [[Speichel]] absonderten, egal ob sie Futter sehen konnten oder nicht. Sie hatten offenbar gelernt, dass der Glockenton etwas mit Futter zu tun hat.
Die Erforschung der instrumentellen Konditionierung begann mit den Tierversuchen, die [[Edward Lee Thorndike]] im Rahmen seiner 1898 publizierten Dissertation an der [[Columbia University]] durchführte. Er setzte Hühner, Katzen und Hunde in von ihm gebaute Rätselkäfige ''(puzzle boxes)'' verschiedener Schwierigkeitsgrade und maß die Zeit, die die Versuchstiere zu ihrer Befreiung benötigten. Als Anreiz legte er Futter neben den Käfig, das für die Tiere sichtbar war. Nachdem das Tier erfolgreich gewesen und mit Futter belohnt worden war, setzte er es wieder in den Käfig und maß erneut die Zeit bis zu dessen Öffnung (sog. ''discrete trial procedure''). Eine Katze benötigte bei einer einfachen ''puzzle box'' im Durchschnitt anfangs 160 Sekunden, wurde immer schneller und schaffte es nach 24 Versuchen, den Käfig innerhalb von nur noch 7 Sekunden zu öffnen. Die Ergebnisse seiner Versuche fasste Thorndike in seinem „Gesetz der Wirkung“ ''(law of effect)'' zusammen:


{{Zitat
Als Pawlow dieses überraschende Phänomen genauer untersuchte, fand er heraus, dass durch die zeitlich unmittelbar aufeinanderfolgende Darbietung des Glockentons (neutraler [[Reiz]]) und des Futters (unkonditionierter Reiz, der eine reflexartige Reaktion auslöst) eine Verbindung zwischen diesen hergestellt wurde.
|Text=Of several responses made to the same situation, those which are accompanied or closely followed by satisfaction to the animal will, other things being equal, be more firmly connected with the situation, so that, when it recurs, they will be more likely to recur; those which are accompanied or closely followed by discomfort to the animal will, other things being equal, have their connections with that situation weakened, so that, when it recurs, they will be less likely to occur.
<br>
|Sprache=en
Nach häufiger gemeinsamer Darbietung wurde der vorher neutrale Reiz (Glockenton) zu einem konditionierten Reiz, der alleine fast dieselbe Reaktion (Speichelfluss) auslösen kann, wie der unkonditionierte Reiz (Futter), mit dem er gepaart wurde. Aus der unkonditionierten Reaktion (Speichelfluss) auf das Futter wurde eine konditionierte Reaktion auf den Glockenton.
|Autor=Edward Lee Thorndike
|Quelle=„Gesetz der Wirkung“ ''(Law of Effect),'' Diss., 1898
|Übersetzung=Von mehreren Reaktionen auf dieselbe Situation werden unter im übrigen gleichen Umständen jene Reaktionen, die von einer Befriedigung des Tieres begleitet sind oder denen eine solche rasch folgt, stärker mit der Situation verbunden, sodass sie, wenn die Situation erneut eintritt, mit größerer Wahrscheinlichkeit wiederkehren; diejenigen Reaktionen, die von einem Unbehagen des Tieres begleitet sind oder denen ein solches rasch folgt, erfahren unter im übrigen gleichen Umständen eine Abschwächung ihrer Verbindung mit dieser Situation, sodass sie, wenn die Situation erneut auftritt, mit geringerer Wahrscheinlichkeit wiederkehren.}}


Thorndikes [[Reiz-Reaktions-Modell]] bildete zusammen mit [[Iwan Petrowitsch Pawlow|Pawlows]] Experimenten zur [[Klassische Konditionierung|Klassischen Konditionierung]] die Grundlage für den von [[John B. Watson]] begründeten [[Behaviorismus]], welcher jahrzehntelang die psychologische Forschung beherrschen sollte.
Schematisch:
#Unkonditionierter Reiz <math>\rightarrow</math> unkonditionierte Reaktion
#Unkonditionierter Reiz + neutraler Reiz <math>\rightarrow</math> unkonditionierte Reaktion
#Neutraler Reiz = konditionierter Reiz <math>\rightarrow</math> konditionierte Reaktion (ähnlich der unkonditionierten Reaktion, aber meist von geringerer Intensität)


Geprägt wurde die behavioristische Forschung von niemandem so sehr wie von [[Burrhus Frederic Skinner]], der Thorndikes und Watsons Arbeit fortsetzte und weiterentwickelte. Seine Käfige, die [[Skinner-Box]]en, bieten die Möglichkeit, das Zielverhalten (z.&nbsp;B. das Drücken eines Hebels) jederzeit auszuführen (sog. ''free operant procedure''). Nach einem festgelegten [[#Primäre und sekundäre Verstärker|Verstärkerplan]] hat dieses Verhalten für das Tier bestimmte Konsequenzen.
''Siehe auch:'' [[Pawlowscher Hund]], [[Klassisches Konditionieren]]


== Operante Konditionierung ==
=== Unterschied zwischen instrumenteller und operanter Konditionierung ===
Die Bezeichnung ''instrumentelle Konditionierung'' wird meistens mit ''operanter Konditionierung'' gleichgesetzt, was jedoch nicht korrekt ist:<ref>{{Literatur |Autor=Philip G. Zimbardo |Titel=Psychologie |Verlag=Springer |Datum=2013 |ISBN=978-3-662-22364-2 |Seiten=275 |Online={{Google Buch |BuchID=rtfvBgAAQBAJ |Seite=275}}}}</ref><ref>{{Literatur |Autor=Martin Wiegand |Titel=Prozesse Organisationalen Lernens |Verlag=Springer |Datum=2013 |ISBN=978-3-322-89128-0 |Seiten=343 |Online={{Google Buch |BuchID=b9eGBwAAQBAJ |Seite=343}}}}</ref>
Ein wichtiges Defizit der Theorie der klassischen Konditionierung ist ihr Unvermögen, das Auftreten neuer [[Verhalten]]sweisen befriedigend zu erklären.
...
[[Skinner Box]]


* Bei der ''instrumentellen'' Konditionierung wird die Verstärkung oder Abschwächung von instrumentellem Verhalten betrachtet. Das Verhalten wird also als [[Werkzeug|Instrument]] (=&nbsp;Mittel, Werkzeug) eingesetzt, um etwas herbeizuführen. Damit bezweckt dann ein Lebewesen, ein bestimmtes Ziel zu erreichen, und hat entweder Erfolg oder nicht. Je nach dem Resultat ''(outcome)'' wird es beim nächsten Mal wieder dasselbe oder eher ein anderes Verhalten zeigen.
* Bei der ''operanten'' Konditionierung wird beliebiges spontanes Verhalten betrachtet, das von einem Lebewesen auch unbeabsichtigt oder rein zufällig gezeigt werden kann und ohne weitere Bedingungen (wie z.&nbsp;B. das Vorhandensein eines Problems) wiederholt werden kann.


== Grundbegriffe ==
Während beim ''klassischen Konditionieren'' eher etwas auf der Seite der Reize passiert, so passiert beim ''operanten Konditionieren'' eher etwas auf der Seite der Reaktionen. Besonders verdient gemacht in dieser Disziplin hat sich [[Burrhus Frederic Skinner]], der viel auf diesem Gebiet forschte.
Da Behavioristen sich auf Beobachtbares beschränken (vgl. [[Empirismus]]), fassen sie alle inneren Zustände – zum Beispiel [[Wahrnehmung]]en, [[Emotion]]en und [[Gedanke]]n – in einer sogenannten [[Black Box (Psychologie)|Black Box]] zusammen. Auf diese Black Box wirken der behavioristischen Theorie zufolge Umweltreize („Stimuli“) dergestalt ein, dass sie ein Verhalten ''(Response)'' hervorrufen. Das Verhalten wird demnach als eine Antwort auf Reize aufgefasst, und diese Antwort hat eine Konsequenz. Wenn in einem bestimmten Kontext (Stimulus) ein beliebiges Verhalten gezeigt wird, dann ist es möglich, dass dieses Verhalten künftig (unter gleichen Umständen) häufiger ausgeführt wird (was darauf schließen lässt, dass die Konsequenz „angenehm“ war), oder es wird seltener (was darauf schließen lässt, dass die Konsequenz „unangenehm“ war). Im ersten Fall spricht man von „[[Verstärkung (Psychologie)|Verstärkung]]“, im zweiten Fall von „Bestrafung“.


Die Zuordnungen „angenehm/unangenehm“ bzw. „appetitiv/aversiv“ sind nicht als subjektiv erlebte Zustände zu verstehen – als solche hätten sie in einer behavioristischen Theorie keinen Platz –, sondern als Ausdruck dafür, ob diese Zustände gesucht oder gemieden werden. Thorndike definierte wie folgt: „Mit einem angenehmen Zustand ist ein solcher gemeint, den das Tier nicht meidet, oft sogar aufsucht und aufrechterhält. Mit einem unangenehmen Zustand ist ein solcher gemeint, den das Tier für gewöhnlich meidet oder verlässt.“<ref>Im Original: „By a satisfying state of affairs is meant one which the animal does nothing to avoid, often doing such things as attain and preserve it. By a discomforting or annoying state of affairs is meant one which the animal commonly avoids and abandons.“</ref>
So genannte ''Verstärker'' sorgen beim operanten Konditionieren nun dafür, dass das Auftreten einer bestimmten Reaktion begünstigt oder erschwert wird. Aber was ist denn nun ein Verstärker? ''Skinner'' zog sich einfach aus der [[Affäre]], indem er genau eben jene ''Dinge'' als Verstärker bezeichnete, die die Auftretenswahrscheinlichkeit einer gewünschten Reaktion erhöhen. Das können in den einzelnen Fällen recht unterschiedliche Dinge sein:
Für ein kleines Kind reicht da vielleicht schon etwas Schokolade, während bei einem Erwachsenen auch Kopfnicken oder Schulterklopfen Verstärkung genug sein kann. Was letztendlich als Verstärker funktioniert, bestimmt jedoch die Versuchsperson (also die Person, bei der eine bestimmte Verhaltensweise verstärkt werden soll). Wichtig ist, dass die Verstärker ''kontingent'' (also unmittelbar, erkennbar, regelhaft )und ''motivationsadäquat'' 'sind und eine ''Bedürfnisspannung'' befriedigen. Für einen Verstärker, der erst Stunden nach der gewünschten Reaktion eintritt, ist nicht mehr erkennbar, ''wofür'' er gegolten hat und hat demnach auch keine Wirkung. Auch eine satte Ratte wird für eine Futterpille nichts mehr veranstalten.


''Verstärkung'' besteht darin, dass die Konsequenz des Verhaltens das Auftreten eines angenehmen Reizes („positive Verstärkung“) oder das Verschwinden eines unangenehmen Reizes ist („negative Verstärkung“). Umgekehrt besteht ''Bestrafung'' darin, dass die Konsequenz das Auftreten eines unangenehmen Reizes („positive Bestrafung“) oder das Verschwinden eines angenehmen Reizes ist („negative Bestrafung“, ''omission training'' oder „DRO“ = ''differential reinforcement of other behavior'').
=== positive, negative Verstärkung, Bestrafung ===


Diskriminative Hinweisreize (Signalreize) sind Reize, die bestimmte Verhaltenskonsequenzen signalisieren. Beispiel: Eine Ratte erhält nur dann eine Belohnung (Futter), wenn zuvor eine Lampe aufgeleuchtet hat.
Man unterscheidet die Verstärker nach ihrer Wirkung. Gerade ''negative Verstärker'' und ''Bestrafung'' werden häufig miteinander verwechselt.
Daher folgt zunächst eine [[Definition]]:


=== Kontingenzschema ===
; positive Verstärker : sind jene ''Dinge'', die die Auftretenswahrscheinlichkeit einer Reaktion erhöhen, wenn sie der Situation zugeführt werden.
[[Datei:Operanteskonditionieren.png|mini|Vier Fälle des operanten Konditionierens: positive Verstärkung, negative Verstärkung, Bestrafung Typ I und Bestrafung Typ II]]
In der [[Lerntheorie]], anders als etwa in der [[Kontingenz (Philosophie)|Philosophie]] und der [[Kontingenz (Soziologie)|Soziologie]], bezeichnet [[Kontingenzmanagement|Kontingenz]] (spätlat. ''contingentia'' „Möglichkeit“) die unmittelbare und regelmäßige Konsequenz (lat. ''consequi'' „folgen, erreichen“), d.&nbsp;h. Folge von Verhalten. Hinsichtlich der operanten Konditionierung unterscheidet man die vier klassischen Grundformen der Kontingenz:


# '''Positive [[Verstärkung (Psychologie)|Verstärkung]]''' ist die Erhöhung der Auftretenswahrscheinlichkeit eines Verhaltens, wenn das Verhalten eine '''angenehme''' (''appetitive'') unmittelbare Konsequenz '''bewirkt''' (z.&nbsp;B. Anerkennung, Achtung, Nahrung, Geld).
; negative Verstärker : sind jene ''Dinge'', die die Auftretenswahrscheinlichkeit einer Reaktion erhöhen, wenn sie aus der Situation ''entfernt'' werden.
# '''Negative Verstärkung''' ist die Erhöhung der Auftretenswahrscheinlichkeit eines Verhaltens, wenn das Verhalten eine '''unangenehme''' (''aversive'') unmittelbare Konsequenz '''verhindert''' oder beendet (z.&nbsp;B. jeweils das Entfernen von Lärm, grellem Licht, Hitze oder Kälte).
# '''Positive [[Bestrafung (Psychologie)|Bestrafung]]''' ist die Senkung der Auftretenswahrscheinlichkeit eines Verhaltens, wenn das Verhalten eine '''unangenehme''' (''aversive'') unmittelbare Konsequenz '''bewirkt''' (z.&nbsp;B. Lärm, grelles Licht, Hitze oder Kälte, Stromschlag).
# '''Negative Bestrafung''' ist die Senkung der Auftretenswahrscheinlichkeit eines Verhaltens, wenn das Verhalten eine '''angenehme''' (''appetitive'') unmittelbare Konsequenz '''verhindert''' oder beendet (z.&nbsp;B. die Entziehung von Futter, Wärme, Zuneigung, Weihnachtsgeld). Negative Verstärkung und Bestrafung werden häufig miteinander verwechselt. Das Wort ''negativ'' bezeichnet nur die Entfernung einer Konsequenz, nicht deren Beschaffenheit.


{| cellspacing="0" cellpadding="10" border="0" align="center"
; Bestrafung : werden jene ''Dinge'' bezeichnet, die die Auftretenswahrscheinlichkeit einer Reaktion ''senken'', wenn sie der Situation zugeführt werden.
|-

! align="center" colspan="3" style="background:#FFDFCD"| Kontingenzschema der instrumentellen & operanten Konditionierung
Diese Arten der Beeinflussung von Reaktionen können in folgender Tabelle
|-
festgehalten werden.
| bgcolor="#FFEBCD" |
{| cellspacing=0 cellpadding=10 border=0 align="center"
! style="background:#FFEBCD"| Konsequenz dargeboten || bgcolor="#FFEBCD" | Konsequenz fällt weg
|-----
|
|-
! style="background:#FFEBCD" align="left"| Angenehme Konsequenz
| align="center" colspan=2 bgcolor="#FFEBCD" | Der Reizsituation
| bgcolor="#FFDEAD" align="left" | positive Verstärkung
|-----
| bgcolor="#FFDEAD" align="left" | negative Bestrafung
|
(Entzugsbestrafung)
| bgcolor="#FFEBCD" | hinzufügen || bgcolor="#FFEBCD" | entnehmen
|-----
|-
| bgcolor="#FFEBCD" align="center" | positive Konsequenz
! style="background:#FFEBCD" align="left"| Unangenehme Konsequenz
| bgcolor="#FFDEAD" align="center" | positive<br>Verstärkung
| bgcolor="#FFDEAD" align="left" | positive Bestrafung
(Präsentationsbestrafung)
| bgcolor="#FFDEAD" align="center" | Bestrafung
| bgcolor="#FFDEAD" align="left" | negative Verstärkung
|-----
| bgcolor="#FFEBCD" align="center" | negative Konsequenz
| bgcolor="#FFDEAD" align="center" | Bestrafung
| bgcolor="#FFDEAD" align="center" | negative<br>Verstärkung
|}
|}


Negative Verstärkung hat klinisch die größte Bedeutung, da sie zur Aufrechterhaltung von Vermeidungsverhalten z.&nbsp;B. bei [[Phobische Störung|phobischen Störungen]] und [[Zwangsstörung]]en in höchstem Maße beiträgt: Die Patienten unternehmen alles, um einen als aversiv empfundenen Zustand (enge Räume, ungewaschene Hände o. Ä.) zu meiden und können deshalb nicht die Erfahrung machen, ob sie den Zustand inzwischen auszuhalten bzw. die Situation zu meistern vermögen.
=== Arten von Verstärkern und deren Beeinflussung ===


Wenn weder positiv noch negativ verstärkt wird, kommt es zu einer [[Extinktion (Psychologie)|Löschung]] des Verhaltens. Die Löschung ist nicht mit dem Entzug eines positiven Verstärkers (negativer Bestrafung) zu verwechseln.<ref>{{Literatur |Autor=Carsten Vollmer |Titel=Mediengestütztes Lernen: Status und Potentiale in der betrieblichen Bildungsarbeit |Verlag=diplom.de |Datum=2014 |ISBN=978-3-8324-4687-1 |Seiten=10 |Online={{Google Buch |BuchID=Ooo9AwAAQBAJ |Seite=10}}}}</ref><ref>{{Literatur |Autor=Franz Petermann, Andreas Maercker, Wolfgang Lutz, Ulrich Stangier |Titel=Klinische Psychologie – Grundlagen |Verlag=Hogrefe Verlag |Datum=2017 |ISBN=978-3-8409-2160-5 |Seiten=45 |Online={{Google Buch |BuchID=ICo4kKxFukcC |Seite=45}}}}</ref>
; Primäre und Sekundäre Verstärker : Man unterscheidet verschiedene Arten von Verstärkern. Zwei klassische Arten sind: Primäre Verstärker und Sekundäre Verstärker. Primäre Verstärker sind jene Verstärker, die Grundbedürfnisse wie etwa Hunger, Anschluss oder sexuelle Bedürfnisse befriedigen. Sekundäre Verstärker können, treten sie zusammen mit primären Verstärkern auf, schon alleine als Verstärker dienen - sie sind quasi ''Stellvertreter'' der Verstärker und das Verfahren wird daher auch häufig ''stellvertretende Verstärkung'' genannt. Ein klassisches Beispiel dafür wäre [[Geld]], welches alleine zwar keine Befriedigung liefert, jedoch in [[Güter]] und [[Dienstleistung]]en getauscht werden kann, die eben dies tun.


== Primäre und sekundäre Verstärker ==
; Premack Prinzip : Ferner hat sich gezeigt, dass bereits anitizipiertes Verhalten als Verstärker dienen können. Verhalten, dass wir gerne und häufig tun, hat eine verstärkende Wirkung. Wird uns nach den Hausaufgaben etwa ein Kinobesuch versprochen, so wird die Auftretenswahrscheinlichkeit der Handlung, dass die Hausaufgaben gemacht werden, erhöht.
{{Hauptartikel|Verstärker (Psychologie)}}


Verstärker bewirken beim operanten Konditionieren, dass das Auftreten einer bestimmten Reaktion (sog. ''instrumentelle'' oder ''operante Reaktion'') begünstigt oder erschwert wird. Sie können recht Unterschiedliches sein, z.&nbsp;B. ein wenig Schokolade oder Geld, ein Lächeln, ein Schulterklopfen oder ein Kopfnicken (soziale Verstärker). Was letztlich als Verstärker fungieren kann, hängt von dem Organismus ab, bei dem eine bestimmte Verhaltensweise bzw. verstärkt werden soll. Relevant ist, ob die Verstärkung als Kontingente unmittelbar, erkennbar, regelhaft und motivierend ist um Bedürfnisse zu befriedigen (bspw. nach Nahrung, Aktivitäten usw.).
; [[Token-System|Token-Konditionierung]] : Ähnlich zu sekundären Verstärkern, gibt es das Prinzip, für eine Verstärkung so genannte ''Token'' zu vergeben. Diese können dann später - nach ausreichender Akkumulation von Token - gegen anderen Dinge, Handlungen, Dienstleistungen etc. eingetauscht werden. Häufig findet das Prinzip bei der Verhaltensformung Anwendung, wenn in therapeutischen Einrichtungen das Verhalten der Patienten in einer bestimmten Art und Weise geformt werden soll.


Bei einem Verstärker der Stunden oder Monate nach der gewünschten Reaktion eintritt, ist unter Umständen nicht mehr erkennbar, ''wofür'' dieser vergeben wurde. Angewandte Verstärkung bleibt wirkungslos.


Im Fallbeispiel einer Ratte, wird sie nach dem diese gesättigt ist nichts mehr unternehmen, um eine Futterpille zu bekommen, weil die sogenannte Bedürfnisspannung fehlt. Um einer Verfettung von Laborratten vorzubeugen, benutzt man in der Forschung Erkenntnisse der Klassischen Konditionierung: Der Reiz „Verstärker“ (hier: Futter) wird mit einem anfangs neutralen Reiz (z.&nbsp;B. einem Pfiff) gekoppelt, wodurch der Pfiff durch klassische Konditionierung zum bedingten Reiz wird, der dann – wie Futter – ebenfalls die Wirkung einer Belohnung hat (diskriminativer Hinweisreiz).
Man unterscheidet verschiedene Arten von Verstärkern. Zwei klassische Arten sind: primäre Verstärker und sekundäre Verstärker.


''Primäre Verstärker'' sind jene Verstärker, die bereits von Geburt an wirken. Laut Miller und Dollard wirkt jede Reduktion eines allzu intensiven Reizes als primäre Verstärkung. Primäre Verstärker sind beispielsweise Essen und Trinken, da sie Hunger und Durst reduzieren, aber auch Körperkontakt ist ein primärer Verstärker.
Nicht immer führt eine sofortige Verstärkung nach der gewünschten Reaktion zum gewünschten Ziel. So haben sich ''Verstärkerpläne'' herauskristallisiert, die zu unterschiedlichen Konsequenzen führen, was das Lernen und insbesondere auch Vergessen (Extinktion) betrifft. Die verschiedenen Varianten sollen kurz vorgestellt werden.


''Sekundäre Verstärker'' (siehe auch: [[Token-System]]) dagegen sind gelernte Verstärker. Sie sind also zunächst neutrale Reize, die durch die wiederholte Kopplung mit primären Verstärkern die Qualität von sekundären Verstärkern erhalten. Ein Beispiel für einen sekundären Verstärker ist Geld, denn damit dieses verstärkend wirken kann, muss seine Funktion erst durch Erfahrung gelernt werden. Zunächst ist Geld ein völlig neutraler Reiz, bis gelernt wird, dass es der Befriedigung von Bedürfnissen dienen kann.


== Token-Konditionierung ==
; Kontinuierliche Verstärkung : Hier wird bei jeder gewünschten Reaktion verstärkt. Dies führt zu einem starken Anstieg der Lernkurve. Die Vpn lernt also schnell., vergisst aber auch ebenso schnell wieder.
Ähnlich wie bei sekundären Verstärkern gibt es das Prinzip, für eine Verstärkung sogenannte ''[[Token-System|Token]]'' zu vergeben. Diese können dann später – nach ausreichender Akkumulation von Token – gegen andere Dinge, Handlungen, Dienstleistungen usw. eingetauscht werden. Häufig findet das Prinzip bei der Verhaltensformung Anwendung, wenn in therapeutischen Einrichtungen das Verhalten der Patienten in einer bestimmten Art und Weise geformt werden soll.


== Premack-Prinzip ==
; Intermittierende Verstärkung : Hierbei wird nicht jede gewünschte Reaktion verstärkt, sondern etwa jede zweite, dritte etc. Zwar steigt hier die Lernkurve erwartungsgemäß nicht so stark an, jedoch fällt die Vergessenskurve auch weniger stark ab - der Extinktionsgrad ist geringer. Man vergisst also nicht so schnell.
{{Hauptartikel|Premack-Prinzip}}


„Die Gelegenheit zu wahrscheinlicherem Verhalten kann weniger wahrscheinliches Verhalten verstärken.“ ([[David Premack]], 1962<ref>Im Original: „An opportunity to engage in more probable responses will reinforce a less probable response.“</ref>) Verhalten, das gerne und häufig gezeigt wird, hat eine verstärkende Wirkung auf Verhalten, das weniger gern und häufig gezeigt wird. Man denke sich zum Beispiel ein Kind mit einem Nachmittag zur freien Verfügung. Wenn man es vor die freie Wahl zwischen „Fernsehen“, „Hausaufgaben machen“ und „Zimmer aufräumen“ stellt, wird es mutmaßlich die meiste Zeit mit Fernsehen verbringen, etwas Hausaufgaben machen und das Zimmer unaufgeräumt lassen. Nun kann das Verhalten mit der jeweils höheren Auftretenswahrscheinlichkeit als Verstärker benutzt werden: Das Kind wird mehr Zeit mit Hausaufgaben verbringen, wenn es erst danach fernsehen darf, und es wird mehr Zeit mit Aufräumen verbringen, wenn es erst danach Hausaufgaben machen darf.
; Intervallverstärkung : Bei dieser Methode wird erst nach einer bestimmten Zeit verstärkt und nicht sofort.


In Ergänzung zum Premack-Prinzip konnte in Tierversuchen mit Ratten nachgewiesen werden, dass auch ein Verhalten, das eine niedrigere Auftretenswahrscheinlichkeit hat, als Verstärker dienen kann: Angenommen, eine Ratte, die eine Stunde lang in einem Käfig sitzt, verbringt ohne äußere Zwänge 50 Minuten damit, an einem Wasserspender zu lecken, und zehn Minuten damit, in einem Laufrad zu rennen. Man kann nun nach dem Premack-Prinzip ohne Schwierigkeiten das längere Rennen im Laufrad durch das Lecken verstärken. Es geht jedoch auch umgekehrt. Wenn die Ratte zwei Minuten lecken muss, um danach eine Minute im Laufrad rennen zu dürfen, wird dies nicht als Verstärker wirken, da die Ratte nach diesem Verstärkerplan leicht auf ihre anfängliche Verhaltenshäufigkeit von 10 Minuten Rennen in der Stunde kommt. Wenn die Ratte aber fünfzehn Minuten lecken muss, um eine Minute rennen zu dürfen, wirkt dieses Verhalten als Verstärkung für das Lecken. Somit kann auch ein Verhalten mit einer ''niedrigeren'' Auftretenshäufigkeit als Verstärker wirken.
; Quotenverstärkung : Bei dieser Variante verstärkt man erst, wenn eine bestimmte ''Anzahl'' von gewünschten Reaktionen erfolgt ist.


== Kontinuierliche Verstärkung ==
Eine weitere Variante, auf die Verstärkung Einfluss zu nehmen, ist das ''Shaping'' (oder auch ''Approximation'' genannt). Hier wird nicht erst die komplette Handlung verstärkt, sondern bereits jede Annäherung an eine gewünschte Handlung. Soll eine Taube etwa auf einen roten Punkt auf einer ovalen Scheibe picken, so wird bereits verstärkt, wenn die Taube den Kopf zur Scheibe bewegt; dann, wenn sie zur Scheibe schaut; dann, wenn sie sich der Scheibe nähert; dann, wenn sie auf die Scheibe pickt und schließlich, wenn sie den roten Punkt auf der Scheibe trifft. Insbesondere dient diese Technik der Erlernung komplexerer Handlungsweisen. Auf diese Weise können auch recht unnatürliche Handlungsweisen bei Tieren konditioniert werden, wie es etwa in Zirkussen der Fall ist.
Hier erfolgt bei jeder gewünschten Reaktion eine Verstärkung. Dies führt zu einem starken Anstieg der Lernkurve. Die Versuchsperson lernt also schnell, vergisst aber auch ebenso schnell wieder, wenn nicht mehr verstärkt wird. Dieser Verstärkerplan ist optimal in der Akquisitionsphase, also beim ersten Erlernen des Zielverhaltens.


Um eine [[Extinktion (Psychologie)|Extinktion]] zu verhindern, muss die Kopplung gelegentlich wiederholt werden. Dabei haben sich die folgenden, unterschiedlich erfolgreichen ''Verstärkerpläne'' herauskristallisiert.
== Kritik ==


== Quotenverstärkung ==
Sowohl das ''klassische Konditionieren'' als auch das ''operante Konditionieren'' gehen von einem recht mechanistischen Menschenbild aus. Ihre Begründer waren [[Behaviorismus|Behavioristen]], die den Menschen als [[Black Box|Black-Box]] sahen und alle ihre Forschungsergebnisse auf das cm/g/sek-System zurückführen wollten. So ließen sich denn auch viele Verhaltensweisen nicht mit diesem System erklären - etwa die Tatsache, dass der Mensch sich selbst auch verstärken kann bzw. lernen kann, ohne eine Reaktion zu zeigen. Dies alles waren Themen, die von Behavioristen nicht erklärbar waren und demnach nicht von ihnen untersucht wurden. Erst mit der Betrachtung alternativer Modelle - etwa [[Albert Bandura]]s [[Modell-Lernen|sozialkognitiver Lerntheorie]] - wurden dann auch diese Dinge erklärbar.
Die Quotenpläne sind in fixierte (fixed-ratio) und variable (variable-ratio) Quotenpläne unterteilt. Bei den fixierten Quotenplänen wird der Verstärker nach einer bestimmten Anzahl der gewünschten Reaktionen gegeben, bei den variablen Quotenplänen nach einer durchschnittlichen Anzahl der gewünschten Reaktionen. Beispiel: Bei jedem fünften (FR-5-Plan) oder durchschnittlich jedem fünften (VR-5-Plan) Auftreten des Zielverhaltens erfolgt eine Verstärkung.<ref>{{Literatur |Autor=Richard J. Gerrig |Hrsg=Tobias Dörfler, Jeanette Roos |Titel=Psychologie |Auflage=21 |Verlag=Pearson |Ort=Hallbergmoos |Datum=2018 |ISBN=978-3-86894-323-8}}</ref>


Die meisten Reaktionen erfolgen auf variable Quotenpläne (variable ratio), da die Verstärkergabe nicht vorauszusehen ist. Gleichzeitig sind die hierbei erlernten Reaktionen auch am resistentesten gegenüber einer Löschung.
----


Siehe auch [[intermittierende Verstärkung]].
Über diese beiden Konditionierungstypen (klassisches und operantes Konditionieren) hinaus existieren bei höherentwickelten Tieren noch weitere Formen des Lernvermögens, z.B. das [[Modell-Lernen|Beobachtungslernen oder Modelllernen]]..


== Siehe auch ==
== Intervallverstärkung ==
Bei dieser Methode wird nach dem letzten verstärkten Verhalten frühestens wieder nach einem konstanten oder variablen Zeitintervall verstärkt, sobald das erwünschte Verhalten auftritt. Beispiel: Für die Dauer von 20 Sekunden ''(fixed interval)'' oder durchschnittlich 20 Sekunden ''(variable interval)'' wird kein Verhalten verstärkt.


== Ratenverstärkung ==
*[[Lernverhalten von Pferden]]
Verstärkt wird, wenn das Zielverhalten mit hoher Frequenz oder niedriger Frequenz gezeigt wird. Die Verstärkung hoher Frequenzen führt zum selben Ergebnis wie Verhältnispläne, die Verstärkung niedriger Frequenzen führt zum selben Ergebnis wie Intervallpläne.

== Neues Verhalten: Shaping, Chaining und die Skinner-Box ==
Durch positive oder negative Verstärkung und Methoden wie ''Shaping'' und ''[[Chaining]]'' können auch komplexe Abfolgen von Verhaltensweisen gefördert werden. Eine elegante Methode, auf gleichermaßen anschauliche wie reproduzierbare Weise einem Versuchstier neue Verhaltensweisen beizubringen, stellt das Lernen mit Hilfe einer sogenannten [[Skinner-Box]] dar.

Beim ''Shaping'' (auch ''Approximation'' genannt) wird nicht erst die vollständige Abfolge der erwünschten Verhaltensweisen verstärkt, sondern bereits jede Annäherung an die gewünschten Verhaltensweisen. Soll eine Taube etwa auf einen roten Punkt auf einer Scheibe picken, so wird bereits verstärkt, wenn die Taube den Kopf zur Scheibe bewegt; dann, wenn sie zur Scheibe schaut; dann, wenn sie sich der Scheibe nähert; dann, wenn sie auf die Scheibe pickt und schließlich, wenn sie den roten Punkt auf der Scheibe trifft. Insbesondere dient diese Technik dem Erlernen komplexerer Verhaltensweisen. Sie ermöglicht selbst die Konditionierung von recht unnatürlichen Bewegungsabfolgen bei Tieren, wie sie etwa im Zirkus zu sehen sind.

== Kritik ==
Die Erforschung des Lernens durch Konditionierung beschränkt sich rigoros auf beobachtbares Verhalten und spekuliert nicht über [[Konstrukt]]e, die dem Verhalten möglicherweise zugrunde liegen. Daher erklärt sie nicht, wie Lernen durch [[intrinsische Motivation]] (z.&nbsp;B. [[Neugier]]) funktioniert. Erst theoretische Modelle – z.&nbsp;B. [[Albert Bandura]]s [[sozialkognitive Lerntheorie]], welche insbesondere das [[Lernen am Modell]] zum Gegenstand hat – lieferten [[Hypothese]]n bzw. [[Spekulation|spekulative]] Aussagen zu diesen Verhaltensmustern. Diese können jedoch beispielsweise den Mechanismus, auf dem die Wirkung der [[Klingelmatte]] gegen [[Enuresis]] beruht, nicht hinreichend erklären.

Auch aus ethischen Gründen ist die Konditionierung nicht gegen Kritik gefeit: Dass der Einsatz der instrumentellen und der operanten Konditionierung beim Menschen allzu leicht zu Dressur und Gehirnwäsche tendiert, macht die pädagogischen Implikationen des Behaviorismus problematisch. Als eine Voraussetzung der ethischen Vertretbarkeit der Konditionierung gilt gemeinhin, dass deren Prozess hinreichend ausführlich erklärt wird, damit diejenigen, die ihn durchlaufen sollen, sich bewusst dafür oder dagegen entscheiden können. Das schließt ein, dass sie die [[Lernziel]]e selbst bestimmen. Kinder, geistig Behinderte und Alte sind hierzu mitunter nicht imstande. Eine absichtliche Umgehung dieser Selbstbestimmtheit liegt vor, wenn die Konditionierung bestimmter Empfindungen als Reaktion auf die Darbietung bestimmter Produkte eingesetzt wird – sie bildet das Kerngeschäft der Werbung.

== Siehe auch ==
* [[Nucleus accumbens]]
* [[Assoziation (Psychologie)]]
* [[selektive Assoziation]]


== Weblinks ==
{{Commonscat|Operant conditioning|Instrumentelle und operante Konditionierung}}
{{Wikibooks|Elementarwissen medizinische Psychologie und medizinische Soziologie: Theoretisch-psychologische Grundlagen#Assoziatives Lernen: Klassische Konditionierung, operante Konditionierung, Lernen am Modell|Elementarwissen medizinische Psychologie und medizinische Soziologie}}
* [https://www.rsb-borken.de/fileadmin/Ressourcen/Veroeffentlichungen/Verstaerkerplaene/VerstaerkerplaeneFinal.pdf Regionale Schulberatungsstelle des Kreises Borken: ''Verstärkerpläne in der Schule wirkungsvoll einsetzen.'']


== Belege ==
[[Kategorie:Psychologie]]
<references group="Richard J. Gerrig. (2018). Psychologie. In: Dörfler & Roos (Hrsg.). Pearson Deutschland GmbH, Hallbergmoos, ISBN 978-3-86894-323-8" />


[[Kategorie:Allgemeine Psychologie]]
[[en:Conditioning]]
[[Kategorie:Lernpsychologie]]
[[fr:Conditionnement]]
[[Kategorie:Behaviorismus]]
[[Kategorie:Kognitive Verhaltenstherapie]]

Aktuelle Version vom 16. Mai 2025, 18:13 Uhr

Konsequenzen
positive und negative Verstärkung
positive und negative Bestrafung
SR-Modell
SOR-Modell
SORKC-Modell
Methoden
klassische Konditionierung
Gegenkonditionierung
operante Konditionierung
Extinktion
Shaping
Chaining
Fading
Time-out-Technik
Response-Cost
Token-System
Premack-Prinzip
Diskriminationslernen
Stimuluskontrolle
Kontingenzmanagement
Theorien
Verstärker-Verlust-Theorie
Zwei-Faktoren-Theorie
Zwangsprozess

Instrumentelle und operante Konditionierung, auch Lernen am Erfolg genannt,[1] sind Paradigmen der behavioristischen Lernpsychologie und betreffen das Erlernen von Reiz-Reaktions-Mustern (Stimulus-Response) aus ursprünglich spontanem Verhalten. Die Häufigkeit eines Verhaltens wird durch seine angenehmen (appetitiven) oder unangenehmen (aversiven) Konsequenzen dauerhaft verändert. Das bedeutet, dass erwünschtes Verhalten durch Belohnung verstärkt und unerwünschtes Verhalten durch Bestrafung unterdrückt wird.

Man unterscheidet diese Art des Lernens von der klassischen Konditionierung, die ausgelöstes Verhalten betrifft (der lernende Organismus hat keine Kontrolle über den Reiz oder seine Reaktion).

Thorndikes Modell

[Bearbeiten | Quelltext bearbeiten]

Die Erforschung der instrumentellen Konditionierung begann mit den Tierversuchen, die Edward Lee Thorndike im Rahmen seiner 1898 publizierten Dissertation an der Columbia University durchführte. Er setzte Hühner, Katzen und Hunde in von ihm gebaute Rätselkäfige (puzzle boxes) verschiedener Schwierigkeitsgrade und maß die Zeit, die die Versuchstiere zu ihrer Befreiung benötigten. Als Anreiz legte er Futter neben den Käfig, das für die Tiere sichtbar war. Nachdem das Tier erfolgreich gewesen und mit Futter belohnt worden war, setzte er es wieder in den Käfig und maß erneut die Zeit bis zu dessen Öffnung (sog. discrete trial procedure). Eine Katze benötigte bei einer einfachen puzzle box im Durchschnitt anfangs 160 Sekunden, wurde immer schneller und schaffte es nach 24 Versuchen, den Käfig innerhalb von nur noch 7 Sekunden zu öffnen. Die Ergebnisse seiner Versuche fasste Thorndike in seinem „Gesetz der Wirkung“ (law of effect) zusammen:

“Of several responses made to the same situation, those which are accompanied or closely followed by satisfaction to the animal will, other things being equal, be more firmly connected with the situation, so that, when it recurs, they will be more likely to recur; those which are accompanied or closely followed by discomfort to the animal will, other things being equal, have their connections with that situation weakened, so that, when it recurs, they will be less likely to occur.”

„Von mehreren Reaktionen auf dieselbe Situation werden unter im übrigen gleichen Umständen jene Reaktionen, die von einer Befriedigung des Tieres begleitet sind oder denen eine solche rasch folgt, stärker mit der Situation verbunden, sodass sie, wenn die Situation erneut eintritt, mit größerer Wahrscheinlichkeit wiederkehren; diejenigen Reaktionen, die von einem Unbehagen des Tieres begleitet sind oder denen ein solches rasch folgt, erfahren unter im übrigen gleichen Umständen eine Abschwächung ihrer Verbindung mit dieser Situation, sodass sie, wenn die Situation erneut auftritt, mit geringerer Wahrscheinlichkeit wiederkehren.“

Edward Lee Thorndike: „Gesetz der Wirkung“ (Law of Effect), Diss., 1898

Thorndikes Reiz-Reaktions-Modell bildete zusammen mit Pawlows Experimenten zur Klassischen Konditionierung die Grundlage für den von John B. Watson begründeten Behaviorismus, welcher jahrzehntelang die psychologische Forschung beherrschen sollte.

Geprägt wurde die behavioristische Forschung von niemandem so sehr wie von Burrhus Frederic Skinner, der Thorndikes und Watsons Arbeit fortsetzte und weiterentwickelte. Seine Käfige, die Skinner-Boxen, bieten die Möglichkeit, das Zielverhalten (z. B. das Drücken eines Hebels) jederzeit auszuführen (sog. free operant procedure). Nach einem festgelegten Verstärkerplan hat dieses Verhalten für das Tier bestimmte Konsequenzen.

Unterschied zwischen instrumenteller und operanter Konditionierung

[Bearbeiten | Quelltext bearbeiten]

Die Bezeichnung instrumentelle Konditionierung wird meistens mit operanter Konditionierung gleichgesetzt, was jedoch nicht korrekt ist:[2][3]

  • Bei der instrumentellen Konditionierung wird die Verstärkung oder Abschwächung von instrumentellem Verhalten betrachtet. Das Verhalten wird also als Instrument (= Mittel, Werkzeug) eingesetzt, um etwas herbeizuführen. Damit bezweckt dann ein Lebewesen, ein bestimmtes Ziel zu erreichen, und hat entweder Erfolg oder nicht. Je nach dem Resultat (outcome) wird es beim nächsten Mal wieder dasselbe oder eher ein anderes Verhalten zeigen.
  • Bei der operanten Konditionierung wird beliebiges spontanes Verhalten betrachtet, das von einem Lebewesen auch unbeabsichtigt oder rein zufällig gezeigt werden kann und ohne weitere Bedingungen (wie z. B. das Vorhandensein eines Problems) wiederholt werden kann.

Da Behavioristen sich auf Beobachtbares beschränken (vgl. Empirismus), fassen sie alle inneren Zustände – zum Beispiel Wahrnehmungen, Emotionen und Gedanken – in einer sogenannten Black Box zusammen. Auf diese Black Box wirken der behavioristischen Theorie zufolge Umweltreize („Stimuli“) dergestalt ein, dass sie ein Verhalten (Response) hervorrufen. Das Verhalten wird demnach als eine Antwort auf Reize aufgefasst, und diese Antwort hat eine Konsequenz. Wenn in einem bestimmten Kontext (Stimulus) ein beliebiges Verhalten gezeigt wird, dann ist es möglich, dass dieses Verhalten künftig (unter gleichen Umständen) häufiger ausgeführt wird (was darauf schließen lässt, dass die Konsequenz „angenehm“ war), oder es wird seltener (was darauf schließen lässt, dass die Konsequenz „unangenehm“ war). Im ersten Fall spricht man von „Verstärkung“, im zweiten Fall von „Bestrafung“.

Die Zuordnungen „angenehm/unangenehm“ bzw. „appetitiv/aversiv“ sind nicht als subjektiv erlebte Zustände zu verstehen – als solche hätten sie in einer behavioristischen Theorie keinen Platz –, sondern als Ausdruck dafür, ob diese Zustände gesucht oder gemieden werden. Thorndike definierte wie folgt: „Mit einem angenehmen Zustand ist ein solcher gemeint, den das Tier nicht meidet, oft sogar aufsucht und aufrechterhält. Mit einem unangenehmen Zustand ist ein solcher gemeint, den das Tier für gewöhnlich meidet oder verlässt.“[4]

Verstärkung besteht darin, dass die Konsequenz des Verhaltens das Auftreten eines angenehmen Reizes („positive Verstärkung“) oder das Verschwinden eines unangenehmen Reizes ist („negative Verstärkung“). Umgekehrt besteht Bestrafung darin, dass die Konsequenz das Auftreten eines unangenehmen Reizes („positive Bestrafung“) oder das Verschwinden eines angenehmen Reizes ist („negative Bestrafung“, omission training oder „DRO“ = differential reinforcement of other behavior).

Diskriminative Hinweisreize (Signalreize) sind Reize, die bestimmte Verhaltenskonsequenzen signalisieren. Beispiel: Eine Ratte erhält nur dann eine Belohnung (Futter), wenn zuvor eine Lampe aufgeleuchtet hat.

Kontingenzschema

[Bearbeiten | Quelltext bearbeiten]
Vier Fälle des operanten Konditionierens: positive Verstärkung, negative Verstärkung, Bestrafung Typ I und Bestrafung Typ II

In der Lerntheorie, anders als etwa in der Philosophie und der Soziologie, bezeichnet Kontingenz (spätlat. contingentia „Möglichkeit“) die unmittelbare und regelmäßige Konsequenz (lat. consequi „folgen, erreichen“), d. h. Folge von Verhalten. Hinsichtlich der operanten Konditionierung unterscheidet man die vier klassischen Grundformen der Kontingenz:

  1. Positive Verstärkung ist die Erhöhung der Auftretenswahrscheinlichkeit eines Verhaltens, wenn das Verhalten eine angenehme (appetitive) unmittelbare Konsequenz bewirkt (z. B. Anerkennung, Achtung, Nahrung, Geld).
  2. Negative Verstärkung ist die Erhöhung der Auftretenswahrscheinlichkeit eines Verhaltens, wenn das Verhalten eine unangenehme (aversive) unmittelbare Konsequenz verhindert oder beendet (z. B. jeweils das Entfernen von Lärm, grellem Licht, Hitze oder Kälte).
  3. Positive Bestrafung ist die Senkung der Auftretenswahrscheinlichkeit eines Verhaltens, wenn das Verhalten eine unangenehme (aversive) unmittelbare Konsequenz bewirkt (z. B. Lärm, grelles Licht, Hitze oder Kälte, Stromschlag).
  4. Negative Bestrafung ist die Senkung der Auftretenswahrscheinlichkeit eines Verhaltens, wenn das Verhalten eine angenehme (appetitive) unmittelbare Konsequenz verhindert oder beendet (z. B. die Entziehung von Futter, Wärme, Zuneigung, Weihnachtsgeld). Negative Verstärkung und Bestrafung werden häufig miteinander verwechselt. Das Wort negativ bezeichnet nur die Entfernung einer Konsequenz, nicht deren Beschaffenheit.
Kontingenzschema der instrumentellen & operanten Konditionierung
Konsequenz dargeboten Konsequenz fällt weg
Angenehme Konsequenz positive Verstärkung negative Bestrafung

(Entzugsbestrafung)

Unangenehme Konsequenz positive Bestrafung

(Präsentationsbestrafung)

negative Verstärkung

Negative Verstärkung hat klinisch die größte Bedeutung, da sie zur Aufrechterhaltung von Vermeidungsverhalten z. B. bei phobischen Störungen und Zwangsstörungen in höchstem Maße beiträgt: Die Patienten unternehmen alles, um einen als aversiv empfundenen Zustand (enge Räume, ungewaschene Hände o. Ä.) zu meiden und können deshalb nicht die Erfahrung machen, ob sie den Zustand inzwischen auszuhalten bzw. die Situation zu meistern vermögen.

Wenn weder positiv noch negativ verstärkt wird, kommt es zu einer Löschung des Verhaltens. Die Löschung ist nicht mit dem Entzug eines positiven Verstärkers (negativer Bestrafung) zu verwechseln.[5][6]

Primäre und sekundäre Verstärker

[Bearbeiten | Quelltext bearbeiten]

Verstärker bewirken beim operanten Konditionieren, dass das Auftreten einer bestimmten Reaktion (sog. instrumentelle oder operante Reaktion) begünstigt oder erschwert wird. Sie können recht Unterschiedliches sein, z. B. ein wenig Schokolade oder Geld, ein Lächeln, ein Schulterklopfen oder ein Kopfnicken (soziale Verstärker). Was letztlich als Verstärker fungieren kann, hängt von dem Organismus ab, bei dem eine bestimmte Verhaltensweise bzw. verstärkt werden soll. Relevant ist, ob die Verstärkung als Kontingente unmittelbar, erkennbar, regelhaft und motivierend ist um Bedürfnisse zu befriedigen (bspw. nach Nahrung, Aktivitäten usw.).

Bei einem Verstärker der Stunden oder Monate nach der gewünschten Reaktion eintritt, ist unter Umständen nicht mehr erkennbar, wofür dieser vergeben wurde. Angewandte Verstärkung bleibt wirkungslos.

Im Fallbeispiel einer Ratte, wird sie nach dem diese gesättigt ist nichts mehr unternehmen, um eine Futterpille zu bekommen, weil die sogenannte Bedürfnisspannung fehlt. Um einer Verfettung von Laborratten vorzubeugen, benutzt man in der Forschung Erkenntnisse der Klassischen Konditionierung: Der Reiz „Verstärker“ (hier: Futter) wird mit einem anfangs neutralen Reiz (z. B. einem Pfiff) gekoppelt, wodurch der Pfiff durch klassische Konditionierung zum bedingten Reiz wird, der dann – wie Futter – ebenfalls die Wirkung einer Belohnung hat (diskriminativer Hinweisreiz). Man unterscheidet verschiedene Arten von Verstärkern. Zwei klassische Arten sind: primäre Verstärker und sekundäre Verstärker.

Primäre Verstärker sind jene Verstärker, die bereits von Geburt an wirken. Laut Miller und Dollard wirkt jede Reduktion eines allzu intensiven Reizes als primäre Verstärkung. Primäre Verstärker sind beispielsweise Essen und Trinken, da sie Hunger und Durst reduzieren, aber auch Körperkontakt ist ein primärer Verstärker.

Sekundäre Verstärker (siehe auch: Token-System) dagegen sind gelernte Verstärker. Sie sind also zunächst neutrale Reize, die durch die wiederholte Kopplung mit primären Verstärkern die Qualität von sekundären Verstärkern erhalten. Ein Beispiel für einen sekundären Verstärker ist Geld, denn damit dieses verstärkend wirken kann, muss seine Funktion erst durch Erfahrung gelernt werden. Zunächst ist Geld ein völlig neutraler Reiz, bis gelernt wird, dass es der Befriedigung von Bedürfnissen dienen kann.

Token-Konditionierung

[Bearbeiten | Quelltext bearbeiten]

Ähnlich wie bei sekundären Verstärkern gibt es das Prinzip, für eine Verstärkung sogenannte Token zu vergeben. Diese können dann später – nach ausreichender Akkumulation von Token – gegen andere Dinge, Handlungen, Dienstleistungen usw. eingetauscht werden. Häufig findet das Prinzip bei der Verhaltensformung Anwendung, wenn in therapeutischen Einrichtungen das Verhalten der Patienten in einer bestimmten Art und Weise geformt werden soll.

Premack-Prinzip

[Bearbeiten | Quelltext bearbeiten]

„Die Gelegenheit zu wahrscheinlicherem Verhalten kann weniger wahrscheinliches Verhalten verstärken.“ (David Premack, 1962[7]) Verhalten, das gerne und häufig gezeigt wird, hat eine verstärkende Wirkung auf Verhalten, das weniger gern und häufig gezeigt wird. Man denke sich zum Beispiel ein Kind mit einem Nachmittag zur freien Verfügung. Wenn man es vor die freie Wahl zwischen „Fernsehen“, „Hausaufgaben machen“ und „Zimmer aufräumen“ stellt, wird es mutmaßlich die meiste Zeit mit Fernsehen verbringen, etwas Hausaufgaben machen und das Zimmer unaufgeräumt lassen. Nun kann das Verhalten mit der jeweils höheren Auftretenswahrscheinlichkeit als Verstärker benutzt werden: Das Kind wird mehr Zeit mit Hausaufgaben verbringen, wenn es erst danach fernsehen darf, und es wird mehr Zeit mit Aufräumen verbringen, wenn es erst danach Hausaufgaben machen darf.

In Ergänzung zum Premack-Prinzip konnte in Tierversuchen mit Ratten nachgewiesen werden, dass auch ein Verhalten, das eine niedrigere Auftretenswahrscheinlichkeit hat, als Verstärker dienen kann: Angenommen, eine Ratte, die eine Stunde lang in einem Käfig sitzt, verbringt ohne äußere Zwänge 50 Minuten damit, an einem Wasserspender zu lecken, und zehn Minuten damit, in einem Laufrad zu rennen. Man kann nun nach dem Premack-Prinzip ohne Schwierigkeiten das längere Rennen im Laufrad durch das Lecken verstärken. Es geht jedoch auch umgekehrt. Wenn die Ratte zwei Minuten lecken muss, um danach eine Minute im Laufrad rennen zu dürfen, wird dies nicht als Verstärker wirken, da die Ratte nach diesem Verstärkerplan leicht auf ihre anfängliche Verhaltenshäufigkeit von 10 Minuten Rennen in der Stunde kommt. Wenn die Ratte aber fünfzehn Minuten lecken muss, um eine Minute rennen zu dürfen, wirkt dieses Verhalten als Verstärkung für das Lecken. Somit kann auch ein Verhalten mit einer niedrigeren Auftretenshäufigkeit als Verstärker wirken.

Kontinuierliche Verstärkung

[Bearbeiten | Quelltext bearbeiten]

Hier erfolgt bei jeder gewünschten Reaktion eine Verstärkung. Dies führt zu einem starken Anstieg der Lernkurve. Die Versuchsperson lernt also schnell, vergisst aber auch ebenso schnell wieder, wenn nicht mehr verstärkt wird. Dieser Verstärkerplan ist optimal in der Akquisitionsphase, also beim ersten Erlernen des Zielverhaltens.

Um eine Extinktion zu verhindern, muss die Kopplung gelegentlich wiederholt werden. Dabei haben sich die folgenden, unterschiedlich erfolgreichen Verstärkerpläne herauskristallisiert.

Quotenverstärkung

[Bearbeiten | Quelltext bearbeiten]

Die Quotenpläne sind in fixierte (fixed-ratio) und variable (variable-ratio) Quotenpläne unterteilt. Bei den fixierten Quotenplänen wird der Verstärker nach einer bestimmten Anzahl der gewünschten Reaktionen gegeben, bei den variablen Quotenplänen nach einer durchschnittlichen Anzahl der gewünschten Reaktionen. Beispiel: Bei jedem fünften (FR-5-Plan) oder durchschnittlich jedem fünften (VR-5-Plan) Auftreten des Zielverhaltens erfolgt eine Verstärkung.[8]

Die meisten Reaktionen erfolgen auf variable Quotenpläne (variable ratio), da die Verstärkergabe nicht vorauszusehen ist. Gleichzeitig sind die hierbei erlernten Reaktionen auch am resistentesten gegenüber einer Löschung.

Siehe auch intermittierende Verstärkung.

Intervallverstärkung

[Bearbeiten | Quelltext bearbeiten]

Bei dieser Methode wird nach dem letzten verstärkten Verhalten frühestens wieder nach einem konstanten oder variablen Zeitintervall verstärkt, sobald das erwünschte Verhalten auftritt. Beispiel: Für die Dauer von 20 Sekunden (fixed interval) oder durchschnittlich 20 Sekunden (variable interval) wird kein Verhalten verstärkt.

Ratenverstärkung

[Bearbeiten | Quelltext bearbeiten]

Verstärkt wird, wenn das Zielverhalten mit hoher Frequenz oder niedriger Frequenz gezeigt wird. Die Verstärkung hoher Frequenzen führt zum selben Ergebnis wie Verhältnispläne, die Verstärkung niedriger Frequenzen führt zum selben Ergebnis wie Intervallpläne.

Neues Verhalten: Shaping, Chaining und die Skinner-Box

[Bearbeiten | Quelltext bearbeiten]

Durch positive oder negative Verstärkung und Methoden wie Shaping und Chaining können auch komplexe Abfolgen von Verhaltensweisen gefördert werden. Eine elegante Methode, auf gleichermaßen anschauliche wie reproduzierbare Weise einem Versuchstier neue Verhaltensweisen beizubringen, stellt das Lernen mit Hilfe einer sogenannten Skinner-Box dar.

Beim Shaping (auch Approximation genannt) wird nicht erst die vollständige Abfolge der erwünschten Verhaltensweisen verstärkt, sondern bereits jede Annäherung an die gewünschten Verhaltensweisen. Soll eine Taube etwa auf einen roten Punkt auf einer Scheibe picken, so wird bereits verstärkt, wenn die Taube den Kopf zur Scheibe bewegt; dann, wenn sie zur Scheibe schaut; dann, wenn sie sich der Scheibe nähert; dann, wenn sie auf die Scheibe pickt und schließlich, wenn sie den roten Punkt auf der Scheibe trifft. Insbesondere dient diese Technik dem Erlernen komplexerer Verhaltensweisen. Sie ermöglicht selbst die Konditionierung von recht unnatürlichen Bewegungsabfolgen bei Tieren, wie sie etwa im Zirkus zu sehen sind.

Die Erforschung des Lernens durch Konditionierung beschränkt sich rigoros auf beobachtbares Verhalten und spekuliert nicht über Konstrukte, die dem Verhalten möglicherweise zugrunde liegen. Daher erklärt sie nicht, wie Lernen durch intrinsische Motivation (z. B. Neugier) funktioniert. Erst theoretische Modelle – z. B. Albert Banduras sozialkognitive Lerntheorie, welche insbesondere das Lernen am Modell zum Gegenstand hat – lieferten Hypothesen bzw. spekulative Aussagen zu diesen Verhaltensmustern. Diese können jedoch beispielsweise den Mechanismus, auf dem die Wirkung der Klingelmatte gegen Enuresis beruht, nicht hinreichend erklären.

Auch aus ethischen Gründen ist die Konditionierung nicht gegen Kritik gefeit: Dass der Einsatz der instrumentellen und der operanten Konditionierung beim Menschen allzu leicht zu Dressur und Gehirnwäsche tendiert, macht die pädagogischen Implikationen des Behaviorismus problematisch. Als eine Voraussetzung der ethischen Vertretbarkeit der Konditionierung gilt gemeinhin, dass deren Prozess hinreichend ausführlich erklärt wird, damit diejenigen, die ihn durchlaufen sollen, sich bewusst dafür oder dagegen entscheiden können. Das schließt ein, dass sie die Lernziele selbst bestimmen. Kinder, geistig Behinderte und Alte sind hierzu mitunter nicht imstande. Eine absichtliche Umgehung dieser Selbstbestimmtheit liegt vor, wenn die Konditionierung bestimmter Empfindungen als Reaktion auf die Darbietung bestimmter Produkte eingesetzt wird – sie bildet das Kerngeschäft der Werbung.

Commons: Instrumentelle und operante Konditionierung – Sammlung von Bildern, Videos und Audiodateien
  1. Wilhelm F. Angermeier: Kontrolle des Verhaltens. Das Lernen am Erfolg. 2., neubearb. Auflage. Springer, Berlin, Heidelberg, New York 1976, ISBN 3-540-07575-5.
  2. Philip G. Zimbardo: Psychologie. Springer, 2013, ISBN 978-3-662-22364-2, S. 275 (eingeschränkte Vorschau in der Google-Buchsuche).
  3. Martin Wiegand: Prozesse Organisationalen Lernens. Springer, 2013, ISBN 978-3-322-89128-0, S. 343 (eingeschränkte Vorschau in der Google-Buchsuche).
  4. Im Original: „By a satisfying state of affairs is meant one which the animal does nothing to avoid, often doing such things as attain and preserve it. By a discomforting or annoying state of affairs is meant one which the animal commonly avoids and abandons.“
  5. Carsten Vollmer: Mediengestütztes Lernen: Status und Potentiale in der betrieblichen Bildungsarbeit. diplom.de, 2014, ISBN 978-3-8324-4687-1, S. 10 (eingeschränkte Vorschau in der Google-Buchsuche).
  6. Franz Petermann, Andreas Maercker, Wolfgang Lutz, Ulrich Stangier: Klinische Psychologie – Grundlagen. Hogrefe Verlag, 2017, ISBN 978-3-8409-2160-5, S. 45 (eingeschränkte Vorschau in der Google-Buchsuche).
  7. Im Original: „An opportunity to engage in more probable responses will reinforce a less probable response.“
  8. Richard J. Gerrig: Psychologie. Hrsg.: Tobias Dörfler, Jeanette Roos. 21. Auflage. Pearson, Hallbergmoos 2018, ISBN 978-3-86894-323-8.