PISA-Studien

Die Programme for International Student Assessment (PISA) der OECD haben zum Ziel, alltagsrelevante Kenntnisse und Fähigkeiten 15-jähriger Schüler zu messen. Die PISA-Studien werden seit dem Jahr 2000 in dreijährigem Turnus in den meisten Mitgliedsstaaten der OECD und einer zunehmenden Anzahl von Partnerstaaten durchgeführt.

Zusätzlich zu den internationalen Studien führen einige teilnehmende Staaten noch nationale Erweiterungsstudien durch. In Deutschland wird diese Erweiterung als PISA-E bezeichnet; der internationale Test wird zur Unterscheidung als PISA-I bzw. PISA-II bezeichnet. Darüber hinaus wird in Deutschland PISA-I-plus durchgeführt, eine Studie, in der einige Schulklassen nach einem Jahr ein zweites Mal getestet werden, um Lernfortschritte im Laufe des 9./10. Schuljahrs zu messen.

PISA 2000 hat in einigen Teilnehmerstaaten ein heftiges Medienecho ausgelöst; in Deutschland ist das Wort "PISA" zum Inbegriff aller Probleme des Bildungswesens geworden. Der hohe Bekanntheitsgrad der PISA-Studie hat zu irreführenden Meldungen Anlass gegeben:

Ungefähr gleichzeitig mit PISA erschienen 2001 und 2004 Ergebnisse von OECD/Starting Strong. Diese Studien zur Früherziehung wurden von der Presse zuweilen als "Kita-PISA" bezeichnet; sie sind jedoch weder organisatorisch noch inhaltlich Teil von PISA.
Der angebliche Plan einer Ausweitung von PISA auf Erwachsene (PISA-für-alle-Studie) erwies sich als Zeitungsente.

Konzept

Die folgenden Merkmale unterscheiden PISA zum Teil deutlich von früheren Schulleistungsuntersuchungen:

PISA wird im Auftrag der Regierungen durchgeführt (in Deutschland: der Kultusministerkonferenz).
PISA soll in regelmäßigem Turnus fortgeführt werden.
PISA untersucht Schüler einer Altersstufe, nicht einer schulischen Klassenstufe.
PISA konzentriert sich nicht auf ein einzelnes Schulfach, sondern untersucht die drei Bereiche Lesekompetenz, Mathematik und Naturwissenschaften.
Aufgaben werden in "persönlich oder kulturell relevante Kontexte" eingebettet.
PISA orientiert sich nicht an der Schnittmenge nationaler Curricula, sondern postuliert einen eigenen Bildungsbegriff, der auf Englisch als literacy bezeichnet wird: "das Wissen, die Fähigkeiten, die Kompetenzen, ... die relevant sind für persönliches, soziales und ökonomisches Wohlergehen" [Measuring Student Knowledge and Skills: A New Framework for Assessment (OECD 1999) [1]]. "Hinter diesem Konzept verbirgt sich der Anspruch, über die Messung von Schulwissen hinauszugehen und die Fähigkeit zu erfassen, bereichsspezifisches Wissen und bereichsspezifische Fertigkeiten zur Bewältigung von authentischen Problemen einzusetzen." [Internationale Grundkonzeption laut Deutschem Projektpartner [2]]

Vertragsmäßige Aufgabe der OECD ist Politikberatung. PISA soll nicht nur eine Beschreibung des Ist-Zustands liefern, sondern Verbesserungen auslösen. Insoweit PISA ein eigenes Bildungskonzept zugrundeliegt, wird zumindest implizit der Anspruch erhoben, auf die nationalen Lehrpläne zurückzuwirken.

Jede PISA-Studie umfasst die drei Bereiche Lesekompetenz, Mathematik, Naturwissenschaften. Bei jedem Durchgang wird ein Bereich vertieft untersucht: 2000 die Lesekompetenz, 2003 Mathematik, 2006 Naturwissenschaften. Dieser Zyklus soll alle neun Jahre wiederholt werden.

Zusätzlich wird in jeder Studie ein Querschnittsthema untersucht: 2000 Lernstrategien und Selbstreguliertes Lernen, 2003 Problemlösen, 2006 Informationstechnische Grundbildung. Diese Zusatzuntersuchung wird nicht in allen Staaten durchgeführt.

Realisierung

Vorbereitung, Durchführung und Auswertung von PISA 2000 sind in einem über 300-seitigen technischen Bericht beschrieben.

Projektleitung

PISA beruht auf internationaler Zusammenarbeit. Die PISA-Studie wird im Auftrag der OECD durchgeführt (OECD-Projektseite). Sie wird koordiniert von einem Internationalen Konsortium unter Leitung des Australian Council for Educational Research (ACER). Jeder Teilnehmerstaat wird durch eine nationale Projektleitung vertreten.

In Deutschland wurde PISA 2000 vom Max-Planck-Institut für Bildungsforschung in Berlin koordiniert; für PISA 2003 und 2006 ist die Projektleitung an das IPN in Kiel übergegangen.
In der Schweiz wird PISA vom Eidgenössischen Statistikamt in Neuenburg koordiniert. Dort kann man auch nachlesen, dass die nationale Durchführung einer Dreijahresstudie 3 Mio. SFr Projektkosten verursacht (Personalkosten, Honorare, Reisekosten, Beiträge zur internationalen Koordination - nicht eingerechnet aber die Gehaltsanteile der Festangestellten, die einen Teil ihrer Arbeitszeit auf PISA verwenden).

Vorbereitung

Der Prozess der Evaluation der Testaufgaben wurde von jedem teilnehmenden Land begleitet und beeinflusst und reichte von der Entwicklung durch das internationale PISA Entwicklungsteam, Übersetzung in die Sprachen der Teilnehmerländer, über die Bewertung jedes Einzelitems durch Lehrplanexperten und Vortestungen in jedem Teilnehmerstaat bis hin zur Rasch-Skalierung. Der komplette Prozess der Evaluation ist im technischen Bericht nachzulesen. Die Schul- und Schülerstichproben wurden so gewählt, dass sie nach heutigem Forschungsstand bestmöglich repräsentativ für die jeweilige Landesbevölkerung stehen (siehe ebenfalls Technischer Bericht).

Testdurchführung

An PISA 2000 nahmen 43 Staaten teil [3]; in den offiziellen Veröffentlichungen werden jedoch nur Daten für 32 Staaten berichtet. In diesen Staaten wurden rund 180.000 Schüler getestet: zwischen 4.500 und 10.000 pro Staat. In Liechtenstein, Luxemburg und Island umfasste die Stichprobe die gesamte fünfzehnjährige Bevölkerung.

Für PISA-E wird in Deutschland ein erheblicher Zusatzaufwand betrieben, insbesondere, um Ergebnisse nach Bundesländern aufschlüsseln zu können: im 2000er Durchgang wurden über 50.000 Schüler an über 1.400 Schulen untersucht; nur ein gutes Zehntel davon, 5073 Schüler aus 219 Schulen, wurde in PISA-I einbezogen (Mehr zu PISA-E siehe unten. Soweit nicht anders angegeben, beschreibt dieser Artikel PISA-I).

Die Schüler bearbeiten nicht alle die gleichen Aufgaben. Zur Verbesserung der Datenqualität (und um den Preis einer zusätzlichen Skalierung) umfasst eine Studie neun Aufgabenhefte (test booklets), von denen jeder Schüler nur vier bearbeitet (rotated test design). Im Anschluss an die vier dreißigminütigen Aufgabenbearbeitungen füllt jeder Schüler einen umfangreichen Fragebogen (questionnaire) vor allem zu seinem sozioökonomischen Hintergrund aus. Die Zusatzuntersuchung zum selbstregulierten Lernen erfolgte 2000 über Fragebögen [?]; die Untersuchung zum Problemlösen bezog 2003 auch Testaufgaben ein (die Aufgaben aus den drei Kompetenzbereichen oder spezielle Aufgaben ??].

Datenerfassung und -aufbereitung

Sämtliche Antworten eines Schülers werden von speziell geschulten Kräften in Codebuchstaben oder -ziffern übersetzt und in einen Computer eingegeben. Sämtliche Datensätze werden einem Subkontrahenten (dem australischen Statistik-Institut ACER) zur Skalierung übergeben. Aus den Schülerantworten (und zwar nur denen aus den OECD-Mitgliedsstaaten) wird zunächst der Schwierigkeitsgrad der einzelnen Teilaufgaben ("Items") bestimmt. Anschließend werden die skalierten Daten an die nationalen Projektgruppen zurückgegeben, die die Daten ausführlich auswerten. OECD und nationale Projektgruppen publizieren erste Ergebnisse jeweils im Folgejahr der Testdurchführung.

Nach Veröffentlichung der ersten Ergebnisse werden die Datensätze (mit Ausnahme einiger Schlüssel, in Deutschland zum Beispiel Bundesland und Schulform) auch externen Forschern zugänglich gemacht: originale Schülerantworten und skalierte Schülerdaten können bei ACER heruntergeladen werden [4], sind aber, wie aus dem zugehörigen Handbuch [5] ersichtlich, nur für Spezialisten nutzbar. Eine unabhängige didaktische Interpretation ist nicht möglich, da die Schülerantworten im veröffentlichten Datensatz nur als <richtig | falsch | nicht bearbeitet> codiert und die Aufgaben nicht erhältlich sind.

Die veröffentlichten Aufgabenlösungen suggerieren, dass bei der Erfassung von Schülerantworten auf Multiple Choice-Frage (im Gegensatz zu Aufgaben mit anderem Antwortformat) zwischen "falsch" und "nicht bearbeitet" nicht unterschieden wird. Das Codierungshandbuch deutet jedoch darauf hin, dass diese Information falsch ist und im internationale Rohdatensatz sehr wohl codiert ist, ob eine Antwort gegeben wurde und wenn ja, welche. Mangels klarer Aussagen muss man jedoch vermuten, dass in der offiziellen Datenaufbereitung (siehe nächsten Abschnitt) zwischen falschen (also möglicherweise geratenen) und nicht gegebenen Antworten nicht unterschieden wurde - im Gegensatz zu anderen standardisierten Tests (z.B. en:SAT), wo falsche MC-Antworten mit Punktabzug sanktioniert werden.

Aufgaben

Mit Hilfe des Copyrights schafft es das PISA-Konsortium, die weltweit gestellten Aufgaben geheim zu halten. Die Geheimhaltung ist nötig, um einzelne Aufgaben in Folgestudien wiederverwenden zu können, was wiederum nötig ist, um die Schwierigkeitsskalen aufeinander zu beziehen.

Veröffentlicht wurden nur einige Beispielaufgaben, und zwar in allen Sprachen die gleichen. Zum Teil stammen die freigegebenen Aufgaben aus Voruntersuchungen, die wegen bestimmter Mängel nicht im Hauptdurchgang verwendet wurden; eine Aufgabe ("Antarktis") hat sich 2000 erst im Hauptdurchgang als mangelhaft erwiesen.

Zu möglicher Kritik an den PISA-Aufgaben siehe:

http://www.skh.de/phorum/read.php?f=8&i=70&t=70#reply_70

Auswertung

Die Auswertung der PISA-Studie beruht auf mathematischen Modellen, die es erlauben, Aufgabenschwierigkeiten und Schülerkompetenzen auf ein und derselben Leistungsskala zu beschreiben (Rasch-Modell; siehe auch Rost, J. (2004). Testtheorie. Bern: Huber.). Diese Skala wurde willkürlich so gewählt, dass die Schülerkompetenzen der gesamten OECD-Stichprobe (ohne Partnerländer) den Mittelwert 500 und die Standardabweichung 100 haben. Das heißt: Schüler mit der Leistungsfähigkeit 400, 500, 600 sind leistungsfähiger als 15,9 %, 50 % oder 84,1 % aller OECD-Schüler. - Durch die erstmalige Einbeziehung der Türkei mit ihren niedrigen Werten in die Berechnung des OECD-Mittelwertes im Jahre 2003 hat sich der Wert aller anderen Länder gegenüber 2000 um 3 Punkte verbessert, ohne dass in diesen Ländern irgendetwas Inhaltliches zu dieser Verbesserung beigetragen worden ist. Würde man die Länder entsprechend ihren Schülerzahlen im getesteten Jahrgang bei der Mittelwertsbildung gewichten, ließen sich weitere derartige "Verbesserungen" erreichen.

Eine ähnliche Skalenkonstruktion ist von IQ-Tests bekannt, deren Mittelwert 100 und deren Standardabweichung zumeist 15 ist, der Umrechnungsfaktor demnach 100 zu 15 = 6,67 für die Abweichungen vom PISA-Mittelwert 500. Nach Meinung der Bildungsforscher haben die Aufgaben aus den PISA-Tests allerdings nichts mit IQ-Tests zu tun, und sie sträuben sich deshalb gegen eine Umrechnung in IQ-Werte (Kritik).

Die Leistungsskala der PISA-Studien ist so konstruiert, dass die Schülerfähigkeiten normalverteilt sind mit Mittelwert 500 und Standardabweichung 100. Eine solche Normierung (mit Mittelwert 100 und Standardabweichung von zumeist 15) ist seit langem in IQ-Tests üblich.

Tatsächlich verwendet PISA nicht eine sondern drei Leistungsskalen, für die drei Kompetenzfelder Lesen, Mathematik, Naturwissenschaften. Für dasjenige Kompetenzfeld, das in einem Durchgang vertieft untersucht wird, werden überdies Subskalen gebildet. In PISA 2000 wurde die Lesekompetenz aufgegliedert in "Informationen ermitteln", "textbezogen Interpretieren" und "Reflektieren und Bewerten"; in PISA 2003 gibt es für den Schwerpunkt Mathematik vier Subskalen: "Raum und Form", "Veränderung und Beziehung", "Quantität" und "Unsicherheit".

Alle Kompetenzen und Subkompetenzen sind jedoch hoch miteinander korreliert, und es lässt sich aus ihnen leicht ein Mittelwert bilden. Eine zusammenfassende Bewertung auf einer Skala findet sich zwar in keiner der offiziellen Publikationen; sie wurde jedoch von einigen Presseorganen hergestellt, um PISA noch plakativer als einen quasi olympischen Ländervergleich darstellen zu können.

Es wird postuliert, dass Aufgabenschwierigkeit und Schülerkompetenz die Lösungswahrscheinlichkeit festlegen. Eine Aufgabe i hat zum Beispiel die Schwierigkeit ξ_i=550, wenn ein Schüler ν mit der Leistungsfähigkeit σ_ν=550 diese Aufgabe mit "hinreichender Sicherheit" lösen kann. In willkürlicher Weise wird definiert, dass "hinreichende Sicherheit" eine Lösungswahrscheinlichkeit von 62% bedeutet.

Dabei wird angenommen, dass eine Teilaufgabe immer nur eine Kompetenz testet, also entweder Mathematik oder Interpretieren usw.. Der technische Bericht hingegen beschreibt ein fünfdimensionales Modell, in dem jede Schülerantwort von einer Linearkombination aller fünf Kompetenzen gesteuert wird. Wie das zusammenpasst, ist unklar.

Im Rahmen der Auswertung müssen aus den Schülerdatensätzen sowohl die Aufgabenschwierigkeiten als auch die Schülerkompetenzen ermittelt werden. Diese Auswertung ist von Modellannahmen (Item Response Theory) abhängig, überaus kompliziert und schlecht dokumentiert. Die offizielle Beschreibung im technischen Bericht (S. 99ff.) ist sehr allgemein gehalten. Es werden keine konkreten Zahlenwerte für die Modellparameter angegeben; es nicht einmal möglich, die Dimension wichtiger Vektoren zu erschließen. Folgendes lässt sich einigermaßen zuverlässig herauslesen:

Es werden je 500 Schüler aus 27 OECD-Ländern ausgelost. Es wird angenommen, dass die latenten Fähigkeit (für PISA 2000 also die Leistungsmaße für Mathematik, Naturwissenschaft und dreimal Lesen) unter den 13.500 Schülern der Stichprobe multivariat normalverteilt sind. Unter dieser Annahme kann man die Koeffizienten eines Item Response Modells berechnen, das beschreibt, wie schwer einem Probanden mit bestimmtem Fähigkeitsprofil eine bestimmte Teilaufgabe fällt.

Das Fähigkeitsprofil des Schülers ν ist ein Vektor σ_ν, dessen fünf Komponenten gerade die Teilkompetenzen in Mathematik, Naturwissenschaft und dreimal Lesen sind. Die Aufgabenschwierigkeit ξ_i wird in diesem Teil des technischen Berichts als ein Vektor (mit unbekannter Dimension p), überall sonst aber als ein Skalar beschrieben.

Man weiß nun, mit welcher Wahrscheinlichkeit ein bestimmter Fähigkeitsvektor ein bestimmtes Antwortverhalten zur Folge hat. Die Aufgabe lautet aber umgekehrt, aus dem tatsächlichen Antwortmuster auf die Fähigkeiten zurückschließen. Das geht nicht in eindeutiger Weise. In den skalierten Schülerdatensätzen werden zwei Wege beschritten, um in approximativer Weise Schülerfähigkeiten mitzuteilen: (1) Es werden die wahrscheinlichsten Fähigkeitswerte (Maximum Likelihood Estimates) angegeben. Diese Werte sind jedoch nicht geeignet, um größere Populationen zu charakterisieren. (2) Es werden sogenannte plausible values angegeben: für jeden der 180.000 Probanden werden mit Hilfe von Zufallszahlen fünf beispielhafte Fähigkeitsvektor ausgelost, wobei die Auslosung so gesteuert wird, dass bei Mittelung über eine hinreichend große Population die gemessenen Antwortmuster reproduziert werden. Alle weiterführenden Analysen, die auf diesem Datensatz aufbauen, zieht man sinnvollerweise fünfmal mit je einer Instanz des Fähigkeitsvektors pro Schüler durch; durch Vergleich der fünf numerischen Endergebnisse kann man am Ende beurteilen, welche Unsicherheit durch die Verwendung von Zufallszahlen verursacht wird.

Zur Charakterisierung bestimmter Teilpopulationen, zum Beispiel nach Land, nach Geschlecht oder nach sozioökonomischen Kriterien, bildet man einfach Mittelwerte über die "plausible value"-Fähigkeitswerte der einzelnen Schüler.

Offizielle Interpretation: Kompetenzstufen

Die offiziellen Veröffentlichungen legen großen Wert darauf, die quantitativen Ergebnisse mit Hilfe sogenannter Kompetenzstufen qualitativ zu interpretieren. Das ist notwendig, weil die Punktwerte uns noch nichts Inhaltliches erzählen. Wir wissen ja zum Beispiel nicht, wie viele (und welche) Aufgaben mehr ein finnischer Schüler im Vergleich zum deutschen Schüler gelöst hat. Diese Kompetenzstufen beruhen auf a-priori-Charakterisierungen der Aufgaben und auf Verarbeitung gemessenen Lösungshäufigkeiten. In der Mathematikdidaktik ist mittlerweile ein heftiger Streit darüber entbrannt, ob so eine Konstruktion überhaupt möglich ist. Die Argumentationslinie ist dabei die, dass die unterschiedlichen Lösungswege der Aufgaben es unmöglich machen, einer Aufgabe eine inhaltliche Schwierigkeit eindeutig zuzuweisen. Die Kompetenzstufen seien damit inhaltlich nicht konstruierbar (vergleiche z.B. Journal für Mathematik-Didaktik, Heft 3/4 - 2004, 1 - 2005, 3/4-2005).

Quantitative Ergebnisse

Allen Warnungen der Testentwickler zum Trotz werden die Ergebnisse der PISA-Studien in der Öffentlichkeit zumeist auf eine Kennzahl pro Land reduziert; Signifikanzgrenzen werden ignoriert; und das ganze wird interpretiert wie ein olympischer Medaillenspiegel: nur mit Blick auf das Ranking.

2003

Die sechs Länder, die am erfolgreichsten abgeschnitten haben, sowie Länder mit deutschsprachigem Bevölkerungsanteil:

Mathematik

Lesefähigkeit

Naturwissenschaften

1.	Hongkong	550
2.	Finnland	544
3.	Südkorea	542
4.	Niederlande	538
5.	Liechtenstein	536
6.	Japan	534
8.	Belgien	529
10.	Schweiz	524
18.	Österreich	506
19.	Deutschland	503
23.	Luxemburg	493
31.	Italien	466

1.	Finnland	543
2.	Südkorea	534
3.	Kanada	528
4.	Australien	525
5.	Liechtenstein	525
6.	Neuseeland	522
11.	Belgien	507
13.	Schweiz	499
21.	Deutschland	491
22.	Österreich	491
27.	Luxemburg	479
29.	Italien	476

1.	Finnland	548
2.	Japan	548
3.	Hongkong	539
4.	Südkorea	538
5.	Liechtenstein	525
6.	Australien	525
12.	Schweiz	513
14.	Belgien	509
18.	Deutschland	502
23.	Österreich	491
27.	Italien	486
29.	Luxemburg	483

In der Gesamtrangfolge bildeten Finnland (das damals das Schulsystem der DDR übernommen hat), Südkorea und die Niederlande die Spitzengruppe. Sieger im Schwerpunktfach Mathematik ist Hongkong. Als Erklärung für das hervorragende Abschneiden der Finnen wird angeführt, dass die Schulen in Finnland sehr autonom handeln können und zugleich einer wirkungsvollen Qualitätskontrolle unterliegen. Statt detaillierte Lehrpläne vorzuschreiben, beschränkt sich die finnische Bildungsbürokratie darauf, Lernziele vorzugeben und landesweite Tests zu erarbeiten, mit denen überprüft wird, wie gut die Ziele erreicht wurden. Außerdem werden die Schulen anders finanziert. Mit der höchsten Kapitalgewinn-Steuerbelastung hat Finnland als einziges Land in Europa auch keine Milliardäre, dafür sehr hohe Unternehmensumsätze und damit Steuereinnahmen für staatliche Ausgaben. Abgeschlagen auf den letzten Plätzen liegen Länder wie Mexiko und Brasilien. (siehe auch: Bildungssystem Finnland)

Deutschsprachige Länder

Das beste deutschsprachige Land in der Wertung nach Staaten ist 2003 Liechtenstein, welches in Mathematik, Lesefähigkeiten und Naturwissenschaft Platz 5 erreicht hat. 2000 lag Liechtenstein in Lesefähigkeit und Naturwissenschaften hingegen mit Punktzahlen um 480 noch hinter Deutschland, was Zweifel an der Validität der Ergebnisse nahelegt; tatsächlich wohnen in ganz Liechtenstein kaum mehr als 300 Fünfzehnjährige, während in anderen Ländern mehrere Tausend Schüler getestet werden.

Die Schweiz hat beim PISA-Test als zweitbestes Land im deutschsprachigen Raum abgeschnitten. Beim diesjährigen Untersuchungsschwerpunkt Mathematik belegten die Schweizer Schülerinnen und Schüler - wie schon im letzten Jahr - Platz 7. Im Fach Naturwissenschaften stieg die Schweiz vom 18. auf den 9. Platz auf. Im Lesen und beim Textverständnis reichte es für die Schweizer Schüler für den 11. Rang, nach Platz 17 im letzten Jahr.

Österreich sackte im Vergleich zu PISA 2000, als das Abschneiden noch im oberen Mittelfeld lag, im Rahmen der PISA 2003 Studie um 10 Plätze ab und befindet sich nunmehr in der Mitte der getesteten Länder.

Südtirol scheint Grund zur Zufriedenheit zu haben (Einschätzung). Die Schulen des Landes haben exzellent abgeschnitten, und zwar im Schnitt besser als der Sieger in der Länderwertung (Finnland). Dabei haben die Institute mit deutscher Unterrichtssprache leicht besser abgeschnitten, als die italienischen. Zu beachten ist die vergleichsweise geringe Anzahl ausländischer bzw. fremdsprachiger Schüler und ein enormer Aufwand des autonomen Schulsystems, Benachteiligte zu integrieren und zu fördern.

Deutschland landete bei der Auswertung im hinteren Mittelfeld (hinter den USA). Neben dem schlechten Gesamtergebnis fällt auf, dass in Deutschland die soziale Herkunft stärker als in jedem anderen Land über Bildungschancen entscheidet. Das wurde bei folgenden Studien bestätigt.

Die PISA-Ergebnisse sind konsistent mit denen der TIMSS-Studie, die in den 1990er Jahren deutschen Schülern schlechte Leistungen in Mathematik bescheinigt hatte.

Rezeption

Deutschland

In Deutschland fanden die Ergebnisse von PISA-2000 ein so überwältigendes Medien-Echo, dass von einem PISA-Schock gesprochen wurde. Besonderes Interesse fand der Leistungsvergleich der Bundesländer; bis dato hatten Kultusministerien einen solchen Vergleich stets zu verhindern gewusst.

Österreich

In Österreich löste die Veröffentlichung der Ergebnisse der PISA 2003 Studie heftige politische Debatten aus. Ähnlich wie in Deutschland sind soziale Unterschiede auffällig. Schüler aus allgemeinbildenden höheren Schulen, die schon bei PISA 2000 die besseren Ergebnisse lieferten, konnten das Niveau in etwa halten, während Schüler aus berufsbildenden Schulen stark absackten. Die Regierungsparteien (ÖVP und FPÖ) verwiesen bevorzugt auf schlechte Deutschkenntnisse von Ausländerkindern. Ministerin Gehrer konstatierte weiterhin ein Fehlverhalten von Eltern, die sich zu wenig um ihre Kinder kümmern würden. Die Opposition (SPÖ und Grüne) äußerte den Vorschlag, statt des stark diversifizierten Schulensystems eine Gesamtschule einzuführen. Diese Idee ist stark beeinflusst vom finnischen Vorbild. Im dortigen Schulsystem gibt es zwar extreme Leistungsunterschiede innerhalb, aber kaum zwischen den Schulen. In Österreich hingegen stellte man genau das Gegenteil fest.

Brasilien

Esperava um disastre pior, "ich habe ein noch schlimmeres Desaster erwartet", sagte der brasilianische Erziehungsminister nach Bekanntgabe der Ergebnisse von PISA 2000. Immerhin habe man den Mut gehabt, teilzunehmen. Kommentatoren nannten am häufigsten eine ineffiziente Praxis des Sitzenbleibens als Grund für nicht altersgemäße Leistungen.

PISA-E (Deutschland)

PISA-E (PISA Erweiterung) stellt eine nationale Erweiterung der internationalen Studie dar. Ziel dieser Erweiterung ist eine Analyse des möglichen Einflusses von äußeren Faktoren wie das Schulsystem des jeweiligen Bundeslandes, der Lehrplangestaltung, die Zusammensetzung (männlich/weiblich, Migrationshintergrund, sozial gutgestellt/sozial schwachgestellt) der Klassenstruktur und des familiären Hintergrundes der Schüler.

In der Öffentlichkeit wird diese differenzierte Betrachtung jedoch nicht wahrgenommen, da die Veröffentlichung der Ergebnisse von PISA-E bisher immer in zwei Schritten erfolgte. Eine Vorabinformation, die eine kurze Darstellung der Rankings der einzelnen Bundesländer auf Basis der Detailinformationen von PISA sowie der Schulrückmeldungen enthält, und später einen detaillierten Bericht, der die rein testmäßig erfassten Daten mit den bereits erwähnten Faktoren in Bezug bringt.

PISA-E eignet sich entgegen der vorherrschenden Medienmeinung weder für ein Ranking der einzelnen Bundesländer untereinander, noch für eine Trendprognose der möglichen Entwicklung. Es handelt sich dabei lediglich um eine erweiterte Betrachtung der Ergebnisse innerhalb der föderalen Struktur sowie den Versuch einer Ursachenforschung für die schwankenden Ergebnisse innerhalb der Tests.

Die PISA-E-Studie 2003 berichtete von einer extremen sozialen Benachteiligung von Facharbeiterkindern im Bundesdurchschnitt. So sei die Wahrscheinlichkeit von Akamdemikerkinder gegenüber Facharbeiterkindern bei gleicher Lese- und Mathematikkompetenz mehr als viermal so hoch ein Gymnasium zu besuchen (in Bayern knapp 7 mal so hoch). Betrachtet man nicht die Kinder aus Facharbeiterfamilien, sondern von Eltern, die sozioökonomisch und kulturell noch schlechter bestellt sind, so wird die soziale Benachteiligung noch höher. Akademikerkinder haben bei gleichen Leistungen im Bundesdurchschnitt dann eine knapp 6 mal höhere Wahrscheinlichkeit, das Gymnasisum zu besuchen (in Sachsen-Anhalt eine 9 mal höhere).

Die PISA-E-Studie ermittelte zur Berechnung dieser Daten den ökonomischen, sozialen und kulturellen Status (ESCS). Dieser berechnet sich aus der sozioökonomischen Stellung der Familie, dem erreichten Ausbildungsniveau der Eltern und dem häuslichen Besitz.

Privilegien für "Akademikerkinder" im Ländervergleich

Der am 3. November 2005 vorgelegte Ländervergleich der OECD von 2003 (PISA-E-2003) fasst die relativen Wahrscheinlichkeiten für einen Gymnasialbesuch nach der sozialen Herkunft tabellarisch zusammen. Für die letzten beiden Spalten wurden eigene Berechnungen herangezogen, die auf der Pisa-Auswertung beruhen.

Land	insgesamt	bei gleicher Lesekompetenz und Mathematikkompetenz	insgesamt	bei gleicher Lesekompetenz und Mathematikkompetenz
	Die relative Wahrscheinlichkeit von Akademikerkindern gegenüber den Facharbeiterkindern für einen Gymnasialbesuch (Die Wahrscheinlichkeit von Akademikerkindern ist x-mal so hoch gegenüber Facharbeiterkindern)		Die relative Wahrscheinlichkeit von Akademikerkindern gegenüber Kindern aus dem "traditionslosen Arbeitermilieu" für einen Gymnasialbesuch (Die Wahrscheinlichkeit von Akademikerkindern ist x-mal so hoch gegenüber Kindern aus dem "traditionslosen Arbeitermilieu")
Baden-Württemberg	8.41	4.40	24.03	6.77
Bayern	7.77	6.65	15.24	7.15
Berlin	4.45	2.67	13.09	3.38
Brandenburg	3.71	2.38	8.43	2.83
Bremen	9.06	2.83	16.47	2.7
Hamburg	7.53	3.55	25.1	6.23
Hessen	5.70	2.71	11.4	3.35
Mecklenburg-Vorpommern	7.96	3.47	25.68	6.94
Niedersachsen	6.45	2.63	16.13	3.6
Nordrhein-Westfalen	8.07	4.35	28.82	7.13
Saarland	6.71	3.48	19.17	6.11
Sachsen	4.49	2.79	12.47	4.04
Sachsen-Anhalt	10.44	6.16	26.77	9.06
Schleswig-Holstein	6.24	2.88	27.13	6.4
Rheinland-Pfalz	8.28	4.60	22.38	7.54
Thüringen	5.13	3.23	14.25	5.77
Deutschland gesamt	6.87	4.01	18.57	5.90

(PISA-Konsortium Deutschland) PISA 2003: Ergebnisse des zweiten Ländervergleichs Zusammenfassung, S. 32 (siehe weblinks))

Lesehilfe: Im Vergleich zu einem Facharbeiterkind beträgt die relative Wahrscheinlichkeit des Gymnasialbesuchs für ein Akademikerkind in Deutschland 6.9 zu 1, bei gleicher individueller Lese- und Mathematikkompetenz noch 4 zu 1.

Diese Ergebnisse haben zu einem größeren Medienecho geführt, da im Grundgesetz geregelt ist, dass niemand aufgrund seiner sozialen Herkunft benachteiligt werden darf. Die obige Tabelle zeigt, dass bei gleicher Lesekompetenz und Mathematikkompetenz Facharbeiterkinder und vor allem Kinder aus dem "traditionslosen Arbeitermilieu" massiv benachteiligt werden. Zu ähnlichen Ergebnissen kamen die Hamburger LAU-Studie, die IGLU-Studie, sowie die AWO-Studie. (Irrtümlicherweise wurde in der Presse jedoch die Aussage "bei gleicher Lesekompetenz und Mathematikkompetenz" durch die deutlich plakativere Aussage "bei gleicher Intelligenz und gleichem Wissensstand" ersetzt. Die Intelligenz wurde jedoch bei PISA nie erhoben.)

Allerdings ging die Pisa-Studie mit Zahlen in die Öffentlichkeit, die keinen Extremgruppenvergleich ("oberstes Viertel" gegen "unterstes Viertel") heranzog, sondern das "oberste Viertel" mit dem Viertel aus der "unteren Mitte" verglich. Bei der in den Medien verbreiteten Gegenüberstellung von Akademikerkindern und Facharbeiterkindern konnte der Eindruck entstehen, dass es sich bereits um einen Extremgruppenvergleich handele. Dass bei einem derartigen Vergleich noch extremere Werte herauskommen zeigen die Zahlen für die letzten beiden Spalten. In Ermangelung eines Namens für Kinder aus dem "untersten Viertel" wurde es hier (nicht bei der Pisa-Auswertung!) "traditionsloses Arbeitermilieu" genannt.

PISA-Sonderstudien

Wo haben Schüler mit Migrationshintergrund die größten Erfolgschancen?

Mit der Sonderstudie Where Immigrant Students Succeed – a comparative Review of Performance and Engagement from PISA 2003 (deutscher Titel: Wo haben Schüler mit Migrationshintergrund die größten Erfolgschancen? – Eine vergleichende Analyse von Leistung und Engagement in PISA 2003) wurde ermittelt, ob Migrantenkinder im Schulsystem ebenso erfolgreich sind wie autochthone Schüler und Schülerinnen.

Ein erstes Ergebnis war, dass kein ausschlaggebender Zusammenhang zwischen dem Umfang der zugewanderten Schüler und Schülerinnen in den Beispielländern und dem Umfang der zwischen Migrantenkindern und einheimischen Schülerinnen und Schülern beobachteten Leistungsunterschiede bestehe. Dies widerlege die Annahme, wonach sich ein hohes Zuwanderungsniveau negativ auf die Integration auswirke.

Im Ländervergleich dieser Studie sei Deutschland das Schlusslicht bei der Integration von Migrantenkindern der zweiten Generation. Obschon den Migrantenkindern von der Studie Lernbereitschaft und eine positive Einstellung attestiert wurde, sind ihre Erfolgschancen im deutschen Bildungssystem geringer als in jedem anderen der 17 untersuchten Staaten:

Im Durchschnitt liegen Migrantenkinder gegenüber einheimischen Kindern um 48 Punkte zurück; in Deutschland jedoch 70 Punkte.
Während in fast allen anderen teilnehmenden Staaten in der zweiten Generation die Migrantenkinder höhere Leistungspunktzahlen erreichen, sinken diese in Deutschland noch einmal extrem: Migrantenkinder der zweiten Generation liegen hinter ihren Mitschülern und Mitschülerinnen rund zwei Jahre zurück. Über 40% erreichen von ihnen nicht die Grundkenntnisse der Leistungsstufe 2 in Mathematik und schneiden auch in der Lesekompetenz ähnlich schlecht ab.

Auch unter der Berücksichtigung der sozialen Herkunft bleiben diese Ergebnisse in Deutschland ähnlich dramatisch.

Leistungspunkte in Mathematik der 15jährigen Schüler und Schülerinnen
	Schüler ohne Migrationshintergrund	Schüler der ersten Generation*	Schüler der zweiten Generation**
OECD-Durchschnitt	523	475	483
Deutschland	525	454	432
im Ausland geboren, ausländische Eltern - *im Erhebungsland geboren, ausländische Eltern

Insbesondere weist die Studie darauf hin, dass für die zweite Generation der Migrantenkinder in Deutschland gelte, dass sich die Unterschiede bei den relativen Leistungsniveaus der Schülerinnen und Schüler mit Migrationshintergrund nicht in vollem Umfang durch die zu Hause gesprochene Sprache erklären [...] lasse. Belgien, Deutschland, Luxemburg, den Niederlanden, Österreich, Schweden und Macau (China) gehörten zu den Ländern, wo Schüler und Schülerinnen mit Migrationshintergrund Schulen besuchen, die schlechtere Bedingungen für Schuldisziplin und -klima aufweisen.

Die Bildungsforscherin Mechthild Gomolla spricht in diesem Zusammenhang von einer Institutionalisierten Diskriminierung gegenüber Migrantenkindern im Bildungssystem.

Kritik

Was messen PISA-Aufgaben?

Heiner Rindermann, Volkmar Weiss [6] und Siegfried Lehrl argumentieren (siehe Literatur unten), PISA sei ein Unternehmen zur Messung der Allgemeinen Intelligenz, und zwar das aufwendigste und beste international je unternommene. Die Länder-Ergebnisse von PISA stimmen auf plus oder minus drei IQ-Punkte mit den IQ-Daten (und -Schätzungen) im Buch „IQ and the Wealth of Nations“ (Lynn und Vanhanen, 2002) überein. Die gefundenen Korrelationen, die auf Grund der meist vorzüglichen Repräsentativität der Stichproben höher sind als zwischen den bisher üblichen IQ-Tests, beweisen für die Befürworter von IQ-Tests die grundlegende Übereinstimmung von PISA-Ergebnissen mit den Ergebnissen von einem Jahrhundert klassischer Intelligenzforschung und die Brauchbarkeit bewährter, standardisierter IQ-Tests, ebenso wie die sehr hohen Korrelationen zwischen PISA-Werten und IQ mit den Ergebnissen der TIMSS-Studie und der IGLU-Studie.

PISA-Aufgaben sind bewusst nicht als curriculare Prüfung angelegt. Das begrenzt ihre Aussagekraft hinsichtlich curricularen Lernens.

Der Mathematikdidaktiker W. Meyerhöfer argumentiert, dass PISA dem Anspruch, mathematische Leistungsfähigkeit bzw. speziell "Mathematische Literalität" zu testen, nicht gerecht werde: Mittels Interpretation (Methode: Didaktische Analyse und Objektive Hermeneutik) zeigt er verschiedene Problemkreise auf:

Oftmals gibt es so viele Möglichkeiten, zur gewünschten Lösung (die nicht in jedem Fall die richtige Lösung ist) zu gelangen, dass man nicht benennen kann, welche Fähigkeit die Aufgabe eigentlich misst. Das Konstrukt „mathematische Leistungsfähigkeit“ wird damit zu einem zufälligen.
Es werden Komponenten von Testfähigkeit mitgemessen. Als Kernkompetenz von Testfähigkeit stellt sich heraus, weder das gestellte mathematische Problem noch die angeblichen realen Probleme ernst zu nehmen, sondern sich statt dessen auf das zu konzentrieren, was die Tester angekreuzt oder hingeschrieben sehen wollen. Prinzipiell erweist es sich als günstig, mittelmäßig zu arbeiten, auf intellektuelle Tiefe in der Auseinandersetzung mit den Aufgaben also zu verzichten.
Man kann bei Multiple-Choice-Tests raten. Die PISA-Gruppe behauptet zwar, dieses Problem technisch überwinden zu können, dies erweist sich aber als Fehleinschätzung.
Die vorgeblich verwendeten didaktischen und psychologischen Theorien sind lediglich theoretische Mäntel für eine theoriearme Testerstellung.
Die Tests werden nicht durch Operationalisierungen von Messkonstrukten erstellt, sondern durch systematisches Zusammenstückeln von Aufgaben.
Bei PISA sollte „Mathematical Literacy“ getestet werden. Verkürzt sollte das die Fähigkeit sein, „die Rolle, die Mathematik in der Welt spielt, zu erkennen und zu verstehen, begründete mathematische Urteile abzugeben und sich auf eine Weise mit der Mathematik zu befassen, die den Anforderungen des gegenwärtigen und künftigen Lebens einer Person als eines konstruktiven, engagierten und reflektierten Bürgers entspricht“ (PISA-Eigendarstellung). Von all dem kann angesichts der Aufgaben keine Rede sein.
Es zeigt sich ein mathematikdidaktischer Habitus, der unter dem Stichwort der „Abkehr von der Sache“ zusammengefasst wird. Er umfasst folgende Elemente: Manifeste Orientierung auf Fachsprachlichkeit bei latenter Zerstörung des Mathematischen, Illusion der Schülernähe als Verblendung, Kalkülorientierung statt mathematischer Bildung, Misslingen der „Vermittlung“ von Realem und Mathematischem bei realitätsnahen Aufgaben. Letzteres gründet in der Nichtbeachtung der Authentizität sowohl des Realen als auch des Mathematischen.

Methodisch-statistische Mängel

sowohl in Durchführung als auch in der Auswertung http://archiv.tagesspiegel.de/archiv/01.09.2005/2024184.asp Die Vergleichbarkeit zwischen den Ländern ist nur eingeschränkt gegeben, eine perfekte Stichprobenziehung ist technisch einfach nicht möglich. In Wahrheit werden in den Punktelisten aber nur kleine Differenzen zwischen Ländern abgebildet, die genausogut durch eben diese methodischen Mängel oder Undurchführbarkeiten erklärbar sind. Gefährlich ist an dem PISA-Projekt aber die unreflektierte Definition globaler Bildungsziele, die sich ausschließlich an Wirtschaftsinteressen orientiert und langfristig zu gesellschaftlichen Veränderungen führen kann.

Was messen PISA-Aufgaben? Eine Studie an der Freien Universität Berlin (FU-Berlin) zeigte erhebliche Mängel in der statistischen Auswertung durch das MPIB für die PISA2000-I und -E Studien auf. http://www.pisa2000.de [7] http://www.diss.fu-berlin.de/2005/218/. Die Mangelhaftigkeit der Auswertungen durch die Erziehungswissenschaftler des MPIB würde sogar den Wert der PISA-Studie an sich in Frage stellen. Einige Argumente:

(1) Ursache für das schlechte Abschneiden der Schülerinnen und Schüler sei die Stichprobendefinition nach Lebensalter, nicht nach Schulalter. Würden Schülerinnen und Schüler nach Schulalter (Klassenstufe) getestet, dann erreichten diese Testwerte im oberen Testleistungsbereich.

(2) Die hohen sozialen Disparitäten im Lesen seien einem mangelhaften Testkonstrukt zuzuschreiben, das einerseits mit der Stichprobendefinition zusammenhinge und andererseits das Ergebnis von so genannten Boden- und Deckeneffekten sei. Diese entstünden bei ungeeignetem, dem Kenntnisstand der Schüler nicht adäquatem Testkonstrukt.

(3) Die so genannten "Nichtleser" seien lediglich eine Fehlinterpretation eines Items (read for enjoyment). Gefragt wurde in der PISA-Studie lediglich danach, wer in seiner Freizeit "aus Vergnügen" lese. Das MPIB hatte daraus die Folgerung abgeleitet, dass es in Deutschland besonders viele schwache Leser (also sog. "Nichtleser") gäbe. Japan jedoch weise erheblich mehr "Nichtleser" auf (bei hohem Testwert im Lesen), Brasilien hingegen die wenigsten (bei niedrigem Testwert).

(4) Das gute Abschneiden der Bundesländer Bayern und Baden-Württemberg gehe zurück auf inadäquate Ziehung der Berufsschüler. Damit erhärte sich die Kritik des Essener Bildungsexperten Klemm.

(5) Der geringere mittlere Testwert von Bundesländern ohne nennenswerten Anteil von 15-Jährigen in Berufsschulen (z.B. Bremen) sei ein statistischer Artefakt, wie er in vergleichenden Untersuchungen häufiger auftritt (Stage Migration). Durch die in diesen Bundesländern stärker ausgeprägte Bildungsexpansion der höheren Schulformen (Gymnasium) entstünde dieser auch als "Will-Rogers-Phänomen" bekannte Effekt.

Ist Pisa eine Schulleistungsuntersuchung?

In der Öffentlichkeit wird PISA ganz überwiegend als eine Untersuchung der Leistungsfähigkeit des Schulwesens wahrgenommen. Das ist konsistent mit der Wahrnehmung von PISA als Länderwettkampf, da die Grundstruktur des Schulwesens von Land zu Land unterschiedlich ist. Dieser Deutung von PISA als Schulleistungsuntersuchung liegen Annahmen zugrunde, die selten klar benannt werden:

(1) PISA testet eine Alters-, nicht eine Klassenstufe. Das lässt sich rechtfertigen, wenn man Leistung als Ergebnis pro Zeit auffasst. PISA pönalisiert Schulsysteme, in denen ein nennenswerter Teil der Schüler durch späte Einschulung, Sitzenbleiben oder freiwillige Wiederholungen Zeit verliert. Deshalb ist der PISA-Ansatz ungeeignet, die Leistungsfähigkeit von Absolventen zu vergleichen.

(2) PISA misst nicht den Zuwachs kognitiver Fähigkeiten im Verlauf der Schulzeit, sondern allein den Ist-Zustand in einer bestimmten Altersgruppe. Aus den Leistungsdaten von PISA ist nicht zu erschließen, inwieweit die Leistungsfähigkeit der schulischen Ausbildung zu verdanken ist und inwieweit sie auf unterschiedliche Anlagen und Umwelteinflüsse zurückgeht. Jedoch erlaubt PISA, Leistungsdaten mit sozialen Kenndaten zu korrelieren. Die Ergebnisse zeigen, dass sich soziale Bedingungen in verschiedenen Ländern verschieden stark auf die kognitive Leistungsfähigkeit auswirken. Das in Deutschland meistzitierte Beispiel sind Migrantenkinder, die aufgrund vernachlässigten Spracherwerbs in Deutschland stärker zurückblieben als in anderen Ländern. In Ostdeutschland ist eine höhere Quote von Migrantenkindern auf Gymnasien zu finden als in Westdeutschland. So besuchen etwa in Thüringen Kinder vietnamesischer Abstammung zu 63% ein Gymnasium. Dies wird erklärt mit dem wesentlich besseren Krippen- und KiTa-System in Ostdeutschland und einer sehr hohen Wertschätzung der Bildung in der vietnamesischen Kultur. Auch ist das Schulsystem in Ostdeutschland weniger sozial selektiv.

(3) Die Ergebnisse von PISA werden ca. 2 Jahre nach der Erhebung veröffentlicht. Deshalb sind Rückschlüsse auf die schulpolitische Situation zum Veröffentlichungszeitpunkt nicht statthaft (was aber in der Berichterstattung getan wird).

inhaltliche Erweiterung

Ergänzungstests in Lesekompetenz, Mathematik, Naturwissenschaften
Erweiterung der begleitenden Fragebögen an Schüler, Lehrer, Schulleiter (z.B. differenziertere Aussagen zur Mediennutzung)

quantitative Erweiterung

1.466 (statt 200) Schulen
50.000 (statt 5.000) Schüler

Literatur

Lehrl, Siegfried: PISA - ein weltweiter Intelligenz-Test. Geistig Fit, Nr. 1 (2005) 3-6.
Rindermann, Heiner: Was messen internationale Schulleistungsstudien? Schulleistungen, Schülerfähigkeiten, kognitive Fähigkeiten, Wissen oder allgemeine Intelligenz? Psychologische Rundschau 47 (2006) 69-86.
Huisken, Freerk : Der "PISA-Schock" und seine Bewältigung-Wieviel Dummheit braucht / verträgt die Republik? VSA-Verlag Hamburg 2005

Siehe auch

Weblinks