Zum Inhalt springen

PISA-Studien

aus Wikipedia, der freien Enzyklopädie
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 20. April 2007 um 09:16 Uhr durch Hakan77 (Diskussion | Beiträge) (http://www.math.uni-potsdam.de/prof/o_didaktik/pisa_debatte/Joachim%20Wuttke%20Fehler,%20Verzerrungen%20PISA.pdf). Sie kann sich erheblich von der aktuellen Version unterscheiden.
Datei:PISA-LOGO.JPG
PISA-Testdokumente

Das Programm zur weltweiten Schülerbeurteilung (englisch „Programme for International Student Assessment“, kurz: PISA) der OECD hat zum Ziel, alltagsrelevante Kenntnisse und Fähigkeiten 15-jähriger Schüler zu messen. Die PISA-Studien werden seit dem Jahr 2000 in dreijährigem Turnus in den meisten Mitgliedsstaaten der OECD und einer zunehmenden Anzahl von Partnerstaaten durchgeführt.

Abgrenzung

Dieser Artikel behandelt die internationale Studie der OECD. Das Konzept der OECD sieht allerdings ausdrücklich die Möglichkeit vor, dass Teilnehmerstaaten den internationalen Test um nationale Komponenten erweitern. Diese Möglichkeit wurde in Deutschland extensiv genutzt: für die Erweiterungsstudie wurde ein wesentlich größerer Aufwand getrieben als für den internationalen Test. Siehe dazu den Artikel PISA-E.

Zur Unterscheidung wird der internationale Test gelegentlich als PISA-I bezeichnet; nach Umdeutung des redundanten I von International in eine römische Ziffer wird PISA-2003 gelegentlich auch PISA-II genannt. Weiterhin wird in Deutschland PISA-International-Plus durchgeführt, eine Studie, in der einige Schulklassen nach einem Jahr ein zweites Mal getestet werden, um Lernfortschritte im Laufe des 9./10. Schuljahrs zu messen. Der Plan einer Ausweitung von PISA auf Erwachsene wurde in Form einer Studie über mathematische Kompetenzen der Eltern (PISA-Elternstudie) realisiert.

Konzept

Die folgenden Merkmale unterscheiden PISA zum Teil deutlich von früheren Schulleistungsuntersuchungen:

  • PISA wird im Auftrag der Regierungen durchgeführt (in Deutschland: der Kultusministerkonferenz).
  • PISA soll in regelmäßigem Turnus fortgeführt werden.
  • PISA untersucht Schüler einer Altersstufe, nicht einer schulischen Klassenstufe.
  • PISA konzentriert sich nicht auf ein einzelnes Schulfach, sondern untersucht die drei Bereiche Lesekompetenz, Mathematik und Naturwissenschaften.
  • Aufgaben werden in „persönlich oder kulturell relevante Kontexte“ eingebettet.
  • PISA orientiert sich nicht an der Schnittmenge nationaler Curricula, sondern postuliert einen eigenen Bildungsbegriff, der auf Englisch als literacy bezeichnet wird: „das Wissen, die Fähigkeiten, die Kompetenzen, ... die relevant sind für persönliches, soziales und ökonomisches Wohlergehen“ Measuring Student Knowledge and Skills: A New Framework for Assessment (OECD 1999) [1]. „Hinter diesem Konzept verbirgt sich der Anspruch, über die Messung von Schulwissen hinauszugehen und die Fähigkeit zu erfassen, bereichsspezifisches Wissen und bereichsspezifische Fertigkeiten zur Bewältigung von authentischen Problemen einzusetzen.“ [2]

Vertragsmäßige Aufgabe der OECD ist Politikberatung. PISA soll nicht nur eine Beschreibung des Ist-Zustands liefern, sondern Verbesserungen auslösen. Insoweit PISA ein eigenes Bildungskonzept zugrundeliegt, wird zumindest implizit der Anspruch erhoben, auf die nationalen Lehrpläne zurückzuwirken.

Jede PISA-Studie umfasst die drei Bereiche Lesekompetenz, Mathematik und Naturwissenschaften. Bei jedem Durchgang wird ein Bereich vertieft untersucht: 2000 die Lesekompetenz, 2003 Mathematik, 2006 Naturwissenschaften. Dieser Zyklus soll alle neun Jahre wiederholt werden.

Zusätzlich wird in jeder Studie ein Querschnittsthema untersucht: 2000 Lernstrategien und Selbstreguliertes Lernen, 2003 Problemlösung, 2006 Informationstechnische Grundbildung. Diese Zusatzuntersuchung wird nicht in allen Staaten durchgeführt.

Realisierung

Vorbereitung, Durchführung und Auswertung von PISA 2000 sind in einem über 300-seitigen technischen Bericht[3] beschrieben.

Projektleitung

PISA beruht auf internationaler Zusammenarbeit. Die PISA-Studie wird im Auftrag der OECD durchgeführt [4]. Sie wird koordiniert von einem Internationalen Konsortium unter Leitung des Australian Council for Educational Research (ACER). Auf Seiten der OECD leitet Andreas Schleicher das Projekt. Jeder Teilnehmerstaat wird durch eine nationale Projektleitung vertreten.

  • In Deutschland wurde PISA 2000[5] vom Max-Planck-Institut für Bildungsforschung in Berlin koordiniert; für PISA 2003 und 2006 [6] ist die Projektleitung an das IPN in Kiel übergegangen.
  • In der Schweiz wird PISA vom Eidgenössischen Statistikamt in Neuenburg koordiniert. Dort kann man auch nachlesen, dass die nationale Durchführung einer Dreijahresstudie 3 Mio. SFr Projektkosten verursacht (Personalkosten, Honorare, Reisekosten, Beiträge zur internationalen Koordination – nicht eingerechnet aber die Gehaltsanteile der Festangestellten, die einen Teil ihrer Arbeitszeit auf PISA verwenden).
  • In Österreich wird PISA vom Projektzentrum für Vergleichende Bildungsforschung (ZVB) in Salzburg unter Leitung von DDr. Günter Haider koordiniert.

Vorbereitung

Der Prozess der Evaluation der Testaufgaben wurde von jedem teilnehmenden Land begleitet und beeinflusst und reichte von der Entwicklung durch das internationale PISA Entwicklungsteam, Übersetzung in die Sprachen der Teilnehmerländer, über die Bewertung jedes Einzelitems durch Lehrplanexperten und Vortestungen in jedem Teilnehmerstaat bis hin zur Rasch-Skalierung. Der komplette Prozess der Evaluation ist im technischen Bericht nachzulesen. Die Schul- und Schülerstichproben wurden so gewählt, dass sie nach heutigem Forschungsstand bestmöglich repräsentativ für die jeweilige Landesbevölkerung stehen [7].

Testdurchführung

An PISA 2000 nahmen 43 Staaten teil [8]; in den offiziellen Veröffentlichungen werden jedoch nur Daten für 32 Staaten berichtet. In diesen Staaten wurden rund 180.000 Schüler getestet: zwischen 4.500 und 10.000 pro Staat. In Liechtenstein, Luxemburg und Island umfasste die Stichprobe die gesamte fünfzehnjährige Bevölkerung.

Die Schüler bearbeiten nicht alle die gleichen Aufgaben. Zur Verbesserung der Datenqualität (und um den Preis einer zusätzlichen Skalierung) umfasst eine Studie neun Aufgabenhefte (test booklets), von denen jeder Schüler nur vier bearbeitet (rotated test design). Im Anschluss an die vier dreißigminütigen Aufgabenbearbeitungen füllt jeder Schüler einen umfangreichen Fragebogen (questionnaire) vor allem zu seinem sozioökonomischen Hintergrund aus. Die Zusatzuntersuchung zum selbstregulierten Lernen erfolgte 2000 über Fragebögen [?]; die Untersuchung zur Problemlösung bezog 2003 auch Testaufgaben ein (die Aufgaben aus den drei Kompetenzbereichen oder spezielle Aufgaben ??].

Datenerfassung und -aufbereitung

Sämtliche Antworten eines Schülers werden von speziell geschulten Kräften in Codebuchstaben oder -ziffern übersetzt und in einen Computer eingegeben. Sämtliche Datensätze werden einem Subkontraktor (dem australischen Statistik-Institut ACER) zur Skalierung übergeben. Aus den Schülerantworten (und zwar nur denen aus den OECD-Mitgliedsstaaten) wird zunächst der Schwierigkeitsgrad der einzelnen Teilaufgaben („Items“) bestimmt. Anschließend werden die skalierten Daten an die nationalen Projektgruppen zurückgegeben, die die Daten ausführlich auswerten. OECD und nationale Projektgruppen publizieren erste Ergebnisse jeweils im Folgejahr der Testdurchführung.

Nach Veröffentlichung der ersten Ergebnisse werden die Datensätze (mit Ausnahme einiger Schlüssel, in Deutschland zum Beispiel Bundesland und Schulform) auch externen Forschern zugänglich gemacht: originale Schülerantworten und skalierte Schülerdaten können bei ACER heruntergeladen werden [9], sind aber, wie aus dem zugehörigen Handbuch [10] ersichtlich, nur für Spezialisten nutzbar. Eine unabhängige didaktische Interpretation ist nicht möglich, da die Schülerantworten im veröffentlichten Datensatz nur als <richtig | falsch | nicht bearbeitet> codiert und die Aufgaben nicht erhältlich sind.

Die veröffentlichten Aufgabenlösungen suggerieren, dass bei der Erfassung von Schülerantworten auf Multiple Choice-Frage (im Gegensatz zu Aufgaben mit anderem Antwortformat) zwischen „falsch“ und „nicht bearbeitet“ nicht unterschieden wird. Das Codierungshandbuch deutet jedoch darauf hin, dass diese Information falsch ist und im internationalen Rohdatensatz sehr wohl codiert ist, ob eine Antwort gegeben wurde und wenn ja, welche. Mangels klarer Aussagen muss man jedoch vermuten, dass in der offiziellen Datenaufbereitung (siehe nächsten Abschnitt) zwischen falschen (also möglicherweise geratenen) und nicht gegebenen Antworten nicht unterschieden wurde - im Gegensatz zu anderen standardisierten Tests (z. B. SAT), wo falsche MC-Antworten mit Punktabzug sanktioniert werden.

Aufgaben

Mit Hilfe des Copyrights schafft es das PISA-Konsortium, die weltweit gestellten Aufgaben geheim zu halten. Die Geheimhaltung ist nötig, um einzelne Aufgaben in Folgestudien wiederverwenden zu können, was wiederum nötig ist, um die Schwierigkeitsskalen aufeinander zu beziehen.

Veröffentlicht wurden nur einige Beispielaufgaben, und zwar in allen Sprachen die gleichen. Zum Teil stammen die freigegebenen Aufgaben aus Voruntersuchungen, die wegen bestimmter Mängel nicht im Hauptdurchgang verwendet wurden; eine Aufgabe („Antarktis“) hat sich 2000 erst im Hauptdurchgang als mangelhaft erwiesen.

Auswertung

Die Auswertung der PISA-Studie beruht auf mathematischen Modellen, die es erlauben, Aufgabenschwierigkeiten und Schülerkompetenzen auf ein und derselben Leistungsskala zu beschreiben (Rasch-Modell; siehe auch Rost, J. (2004). Testtheorie. Bern: Huber.). Diese Skala wurde willkürlich so gewählt, dass die Schülerkompetenzen der gesamten OECD-Stichprobe (ohne Partnerländer) den Mittelwert 500 und die Standardabweichung 100 haben. Das heißt: Schüler mit der Leistungsfähigkeit 400, 500, 600 sind leistungsfähiger als 15,9 %, 50 % oder 84,1 % aller OECD-Schüler. Durch die erstmalige Einbeziehung der Türkei mit ihren niedrigen Werten in die Berechnung des OECD-Mittelwertes im Jahre 2003 hat sich der Wert aller anderen Länder gegenüber 2000 um 3 Punkte verbessert, ohne dass in diesen Ländern irgendetwas Inhaltliches zu dieser Verbesserung beigetragen worden ist. Würde man die Länder entsprechend ihren Schülerzahlen im getesteten Jahrgang bei der Mittelwertsbildung gewichten, ließen sich weitere derartige „Verbesserungen“ erreichen.

Eine ähnliche Skalenkonstruktion ist von IQ-Tests bekannt, deren Mittelwert 100 und deren Standardabweichung zumeist 15 ist, der Umrechnungsfaktor demnach 100 zu 15 = 6,67 für die Abweichungen vom PISA-Mittelwert 500. Nach Meinung der Bildungsforscher haben die Aufgaben aus den PISA-Tests allerdings nichts mit IQ-Tests zu tun, und sie sträuben sich deshalb gegen eine Umrechnung in IQ-Werte (Kritik).

Die Leistungsskala der PISA-Studien ist so konstruiert, dass die Schülerfähigkeiten normalverteilt sind mit Mittelwert 500 und Standardabweichung 100. Eine solche Normierung (mit Mittelwert 100 und Standardabweichung von zumeist 15) ist seit langem in IQ-Tests üblich.

Tatsächlich verwendet PISA nicht eine sondern drei Leistungsskalen, für die drei Kompetenzfelder Lesen, Mathematik, Naturwissenschaften. Für dasjenige Kompetenzfeld, das in einem Durchgang vertieft untersucht wird, werden überdies Subskalen gebildet. In PISA 2000 wurde die Lesekompetenz aufgegliedert in „Informationen ermitteln“, „textbezogen Interpretieren“ und „Reflektieren und Bewerten“; in PISA 2003 gibt es für den Schwerpunkt Mathematik vier Subskalen: „Raum und Form“, „Veränderung und Beziehung“, „Quantität“ und „Unsicherheit“.

Alle Kompetenzen und Subkompetenzen sind jedoch hoch miteinander korreliert, und es lässt sich aus ihnen leicht ein Mittelwert bilden. Eine zusammenfassende Bewertung auf einer Skala findet sich zwar in keiner der offiziellen Publikationen; sie wurde jedoch von einigen Presseorganen hergestellt, um PISA noch plakativer als einen quasi olympischen Ländervergleich darstellen zu können.

Es wird postuliert, dass Aufgabenschwierigkeit und Schülerkompetenz die Lösungswahrscheinlichkeit festlegen. Eine Aufgabe i hat zum Beispiel die Schwierigkeit ξi=550, wenn ein Schüler ν mit der Leistungsfähigkeit σν=550 diese Aufgabe mit „hinreichender Sicherheit“ lösen kann. In willkürlicher Weise wird definiert, dass „hinreichende Sicherheit“ eine Lösungswahrscheinlichkeit von 62% bedeutet.

Dabei wird angenommen, dass eine Teilaufgabe immer nur eine Kompetenz testet, also entweder Mathematik oder Interpretieren usw.. Der technische Bericht hingegen beschreibt ein fünfdimensionales Modell, in dem jede Schülerantwort von einer Linearkombination aller fünf Kompetenzen gesteuert wird. Wie das zusammenpasst, ist unklar.

Im Rahmen der Auswertung müssen aus den Schülerdatensätzen sowohl die Aufgabenschwierigkeiten als auch die Schülerkompetenzen ermittelt werden. Diese Auswertung ist von Modellannahmen (Item Response Theory) abhängig, überaus kompliziert und schlecht dokumentiert. Die offizielle Beschreibung im technischen Bericht (S. 99ff.) ist sehr allgemein gehalten. Es werden keine konkreten Zahlenwerte für die Modellparameter angegeben; es nicht einmal möglich, die Dimension wichtiger Vektoren zu erschließen. Folgendes lässt sich einigermaßen zuverlässig herauslesen:

Es werden je 500 Schüler aus 27 OECD-Ländern ausgelost. Es wird angenommen, dass die latenten Fähigkeit (für PISA 2000 also die Leistungsmaße für Mathematik, Naturwissenschaft und dreimal Lesen) unter den 13.500 Schülern der Stichprobe multivariat normalverteilt sind. Unter dieser Annahme kann man die Koeffizienten eines Item Response Modells berechnen, das beschreibt, wie schwer einem Probanden mit bestimmtem Fähigkeitsprofil eine bestimmte Teilaufgabe fällt.
Das Fähigkeitsprofil des Schülers ν ist ein Vektor σν, dessen fünf Komponenten gerade die Teilkompetenzen in Mathematik, Naturwissenschaft und dreimal Lesen sind. Die Aufgabenschwierigkeit ξi wird in diesem Teil des technischen Berichts als ein Vektor (mit unbekannter Dimension p), überall sonst aber als ein Skalar beschrieben.
Man weiß nun, mit welcher Wahrscheinlichkeit ein bestimmter Fähigkeitsvektor ein bestimmtes Antwortverhalten zur Folge hat. Die Aufgabe lautet aber umgekehrt, aus dem tatsächlichen Antwortmuster auf die Fähigkeiten zurückschließen. Das geht nicht in eindeutiger Weise. In den skalierten Schülerdatensätzen werden zwei Wege beschritten, um in approximativer Weise Schülerfähigkeiten mitzuteilen: (1) Es werden die wahrscheinlichsten Fähigkeitswerte (Maximum Likelihood Estimates) angegeben. Diese Werte sind jedoch nicht geeignet, um größere Populationen zu charakterisieren. (2) Es werden sogenannte plausible values angegeben: für jeden der 180.000 Probanden werden mit Hilfe von Zufallszahlen fünf beispielhafte Fähigkeitsvektoren ausgelost, wobei die Auslosung so gesteuert wird, dass bei Mittelung über eine hinreichend große Population die gemessenen Antwortmuster reproduziert werden. Alle weiterführenden Analysen, die auf diesem Datensatz aufbauen, zieht man sinnvollerweise fünfmal mit je einer Instanz des Fähigkeitsvektors pro Schüler durch; durch Vergleich der fünf numerischen Endergebnisse kann man am Ende beurteilen, welche Unsicherheit durch die Verwendung von Zufallszahlen verursacht wird.

Zur Charakterisierung bestimmter Teilpopulationen, zum Beispiel nach Land, nach Geschlecht oder nach sozioökonomischen Kriterien, bildet man einfach Mittelwerte über die „plausible value“-Fähigkeitswerte der einzelnen Schüler.

Offizielle Interpretation: Kompetenzstufen

Die offiziellen Veröffentlichungen legen großen Wert darauf, die quantitativen Ergebnisse mit Hilfe sogenannter Kompetenzstufen qualitativ zu interpretieren. Das ist notwendig, weil die Punktwerte uns noch nichts Inhaltliches erzählen. Wir wissen ja zum Beispiel nicht, wie viele (und welche) Aufgaben mehr ein finnischer Schüler im Vergleich zum deutschen Schüler gelöst hat. Diese Kompetenzstufen beruhen auf a-priori-Charakterisierungen der Aufgaben und auf Verarbeitung gemessenen Lösungshäufigkeiten. In der Mathematikdidaktik ist mittlerweile ein heftiger Streit darüber entbrannt, ob so eine Konstruktion überhaupt möglich ist. Die Argumentationslinie ist dabei die, dass die unterschiedlichen Lösungswege der Aufgaben es unmöglich machen, einer Aufgabe eine inhaltliche Schwierigkeit eindeutig zuzuweisen. Die Kompetenzstufen seien damit inhaltlich nicht konstruierbar (vergleiche z. B. Journal für Mathematik-Didaktik, Heft 3/4 - 2004, 1 - 2005, 3/4-2005). Sofern diese Kritik stimmt, würde sie allerdings auch für jede Klassenarbeit Geltung beanspruchen können. Aus der Perspektive der Statistik handelt es sich bei den sog. "Kompetenzstufen" jedoch um eine Quantilbildung. Das gesamte Testleistungsspektrum wurde in gleiche Anteile (Quantile) zerlegt. Eine inhaltliche Interpretation wäre dann natürlich nicht mehr zielführend und lediglich a posteriori gegeben.

Quantitative Ergebnisse

Allen Warnungen der Testentwickler zum Trotz werden die Ergebnisse der PISA-Studien in der Öffentlichkeit zumeist auf eine Kennzahl pro Land reduziert; Signifikanzgrenzen werden ignoriert; und das Ganze wird interpretiert wie ein olympischer Medaillenspiegel: nur mit Blick auf das Ranking. Dennoch kann man Ländergruppen klar nach Leistung unterscheiden.

2003

Die sechs Länder, die am erfolgreichsten abgeschnitten haben, sowie Länder mit deutschsprachigem Bevölkerungsanteil:

Mathematik Lesefähigkeit Naturwissenschaften
1. Hongkong 550
2. Finnland 544
3. Südkorea 542
4. Niederlande 538
5. Liechtenstein 536
6. Japan 534
8. Belgien 529
10. Schweiz 524
18. Österreich 506
19. Deutschland 503
23. Luxemburg 493
31. Italien 466
1. Finnland 543
2. Südkorea 534
3. Kanada 528
4. Australien 525
5. Liechtenstein 525
6. Neuseeland 522
11. Belgien 507
13. Schweiz 499
21. Deutschland 491
21. Österreich 491
27. Luxemburg 479
29. Italien 476
1. Finnland 548
2. Japan 548
3. Hongkong 539
4. Südkorea 538
5. Liechtenstein 525
6. Australien 525
12. Schweiz 513
14. Belgien 509
18. Deutschland 502
23. Österreich 491
27. Italien 486
29. Luxemburg 483

In der Gesamtrangfolge bildeten Finnland, Südkorea und die Niederlande die Spitzengruppe. Sieger im Schwerpunktfach Mathematik ist Hongkong. Als erste Erklärung für das hervorragende Abschneiden der Finnen wurde angeführt, dass die Schulen in Finnland Gesamtschulen sind. Dies musste jedoch, selbst von interessierten Kreisen, kurz darauf zurückgenommen werden, da sämtliche PISA-Verlierer auch Gesamtschulsysteme hatten. Finnische Schulen können weiterhin sehr autonom handeln und unterliegen zugleich einer wirkungsvollen Qualitätskontrolle . Statt detaillierte Lehrpläne vorzuschreiben, beschränkt sich die finnische Bildungsbürokratie darauf, Lernziele vorzugeben und landesweite Tests zu erarbeiten, mit denen überprüft wird, wie gut die Ziele erreicht wurden. Außerdem werden die Schulen anders finanziert. Dies ermöglicht Klassenstärken von in der Regel weniger als 20 Schülern. (siehe auch: Bildungssystem Finnland)

Deutschsprachige Länder

Das beste deutschsprachige Land in der Wertung nach Staaten ist 2003 Liechtenstein, welches in Mathematik, Lesefähigkeiten und Naturwissenschaft Platz 5 erreicht hat. 2000 lag Liechtenstein in Lesefähigkeit und Naturwissenschaften hingegen mit Punktzahlen um 480 noch hinter Deutschland, was Zweifel an der Validität der Ergebnisse nahelegt; tatsächlich wohnen in ganz Liechtenstein kaum mehr als 300 Fünfzehnjährige, während in anderen Ländern mehrere Tausend Schüler getestet werden.

Die Schweiz hat beim PISA-Test als zweitbestes Land im deutschsprachigen Raum abgeschnitten. Beim diesjährigen Untersuchungsschwerpunkt Mathematik belegten die Schweizer Schülerinnen und Schüler - wie schon im letzten Jahr - Platz 7. Im Fach Naturwissenschaften stieg die Schweiz vom 18. auf den 9. Platz auf. Im Lesen und beim Textverständnis reichte es für die Schweizer Schüler für den 11. Rang, nach Platz 17 im letzten Jahr.

Österreich sackte im Vergleich zu PISA 2000, als das Abschneiden noch im oberen Mittelfeld lag, im Rahmen der PISA 2003 Studie um 10 Plätze ab und befindet sich nunmehr in der Mitte der getesteten Länder.

Südtirol scheint Grund zur Zufriedenheit zu haben (Einschätzung). Die Schulen des Landes haben exzellent abgeschnitten, und zwar im Schnitt besser als der Sieger in der Länderwertung (Finnland). Dabei haben die Institute mit deutscher Unterrichtssprache leicht besser abgeschnitten als die italienischen. Zu beachten ist die vergleichsweise geringe Anzahl ausländischer bzw. fremdsprachiger Schüler und ein enormer Aufwand des autonomen Schulsystems, Benachteiligte zu integrieren und zu fördern.

Deutschland landete bei der Auswertung im Mittelfeld. Neben dem schlechten Gesamtergebnis fällt auf, dass in Deutschland die soziale Herkunft stärker als in jedem anderen Land über Bildungschancen entscheidet. Das wurde bei folgenden Studien bestätigt. Es existieren auch geschlechtsspezifische Leistungsdifferenzen: Der Differenzwert zwischen Jungen und Mädchen in der naturwissenschaftlichen Kompetenz beträgt in Deutschland 6 Punkte zugunsten der Jungen (international ebenfalls 6 Punkte) und gilt als statistisch nicht signifikant. In Mathematik liegt der Vorsprung bei 9 Punkten (international 11). Die Lesekompetenz der Mädchen übertrifft die der Jungen mit 42 Punkten dagegen erheblich (international 34 Punkte).

Die PISA-Ergebnisse sind konsistent mit denen der TIMSS-Studie, die in den 1990er Jahren deutschen Schülern schlechte Leistungen in Mathematik bescheinigt hatte.

Rezeption

PISA 2000 hat in einigen Teilnehmerstaaten ein heftiges Medienecho ausgelöst; in Deutschland ist das Wort „PISA“ zum Inbegriff aller Probleme des Bildungswesens geworden.

Deutschland

In Deutschland fanden die Ergebnisse von PISA-2000 ein so überwältigendes Medien-Echo, dass von einem PISA-Schock gesprochen wurde. Besonderes Interesse fand der Leistungsvergleich der Bundesländer (PISA-E); bis dato hatten Kultusministerien einen solchen Vergleich stets zu verhindern gewusst. An der Lehrerstudie der OECD beteiligte sich Deutschland nicht. Auch wird man Unterschiede zwischen den internationalen und deutschen PISA-Berichten feststellen.

Österreich

In Österreich löste die Veröffentlichung der Ergebnisse der PISA 2003 Studie heftige politische Debatten aus. Ähnlich wie in Deutschland sind soziale Unterschiede auffällig. Schüler aus allgemeinbildenden höheren Schulen, die schon bei PISA 2000 die besseren Ergebnisse lieferten, konnten das Niveau in etwa halten, während Schüler aus berufsbildenden Schulen stark absackten. Die Regierungsparteien (ÖVP und FPÖ) verwiesen bevorzugt auf schlechte Deutschkenntnisse von Ausländerkindern. Ministerin Gehrer konstatierte weiterhin ein Fehlverhalten von Eltern, die sich zu wenig um ihre Kinder kümmern würden. Die Opposition (SPÖ und Grüne) äußerte den Vorschlag, statt des stark diversifizierten Schulensystems eine Gesamtschule einzuführen. Diese Idee ist stark beeinflusst vom finnischen Vorbild. Im dortigen Schulsystem gibt es zwar extreme Leistungsunterschiede innerhalb, aber kaum zwischen den Schulen. In Österreich jedoch war das Gegenteil zu spüren.

PISA-Sonderstudien

Wo haben Schüler mit Migrationshintergrund die größten Erfolgschancen?

Mit der Sonderstudie Where Immigrant Students Succeed – a comparative Review of Performance and Engagement from PISA 2003 (deutscher Titel: Wo haben Schüler mit Migrationshintergrund die größten Erfolgschancen? – Eine vergleichende Analyse von Leistung und Engagement in PISA 2003) wurde ermittelt, ob Migrantenkinder im Schulsystem ebenso erfolgreich sind wie autochthone Schüler und Schülerinnen.

Ein erstes Ergebnis war, dass kein ausschlaggebender Zusammenhang zwischen dem Umfang der zugewanderten Schüler und Schülerinnen in den Beispielländern und dem Umfang der zwischen Migrantenkindern und einheimischen Schülerinnen und Schülern beobachteten Leistungsunterschiede bestehe. Dies widerlege die Annahme, wonach sich ein hohes Zuwanderungsniveau negativ auf die Integration auswirke.

Im Ländervergleich dieser Studie sei Deutschland das Schlusslicht bei der Integration von Migrantenkindern der zweiten Generation. Obschon den Migrantenkindern von der Studie Lernbereitschaft und eine positive Einstellung attestiert wurde, sind ihre Erfolgschancen im deutschen Bildungssystem geringer als in jedem anderen der 17 untersuchten Staaten:

  • Im Durchschnitt liegen Migrantenkinder gegenüber einheimischen Kindern um 48 Punkte zurück; in Deutschland jedoch 70 Punkte. Dies lässt sich besonders in Westdeutschland und Berlin beobachten. In Ostdeutschland dagegen ist das Bild nicht so eindeutig. In vielen ostdeutschen Bundesländern hingegen gibt es keine Unterschiede, in Thüringen schneiden Migranten gar besser ab als die Einheimischen.
  • Während in fast allen anderen teilnehmenden Staaten in der zweiten Generation die Migrantenkinder höhere Leistungspunktzahlen erreichen, sinken diese in Deutschland noch einmal extrem: Migrantenkinder der zweiten Generation liegen hinter ihren Mitschülern und Mitschülerinnen rund zwei Jahre zurück. Über 40% erreichen von ihnen nicht die Grundkenntnisse der Leistungsstufe 2 in Mathematik und schneiden auch in der Lesekompetenz ähnlich schlecht ab.

Auch unter der Berücksichtigung der sozialen Herkunft bleiben diese Ergebnisse in Deutschland ähnlich dramatisch.

Leistungspunkte in Mathematik der 15jährigen Schüler und Schülerinnen
Schüler ohne Migrationshintergrund Schüler der ersten Generation* Schüler der zweiten Generation**
OECD-Durchschnitt 523 475 483
Deutschland 525 454 432
*im Ausland geboren, ausländische Eltern - **im Erhebungsland geboren, ausländische Eltern


Insbesondere weist die Studie darauf hin, dass für die zweite Generation der Migrantenkinder in Deutschland gelte, dass sich die Unterschiede bei den relativen Leistungsniveaus der Schülerinnen und Schüler mit Migrationshintergrund nicht in vollem Umfang durch die zu Hause gesprochene Sprache erklären [...] lasse. Belgien, Deutschland, Luxemburg, die Niederlande, Österreich, Schweden und Macau (China) gehörten zu den Ländern, wo Schüler und Schülerinnen mit Migrationshintergrund Schulen besuchen, die schlechtere Bedingungen für Schuldisziplin und -klima aufweisen.

Die Bildungsforscherin Mechthild Gomolla spricht in diesem Zusammenhang von einer Institutionalisierten Diskriminierung gegenüber Migrantenkindern im Bildungssystem.

Was ist zum Besuch des Gymnasiums oder der Realschule von Jugendlichen mit Migrationshintergrund zu sagen?

Jugendliche mit Migrationshintergrund besuchen seltener ein Gymnasium oder eine Realschule als Jugendliche ohne Migrationshintergrund. Bei Jugendlichen mit Migrationshintergrund findet sich eine Bildungsbeteiligung, wie sie bei Jugendlichen ohne Migrationshintergrund etwa 1970 zu finden war. Daran scheint primär die Sprache Schuld zu sein. Baumert und Schümer kommen in einer Analyse im Auftrag des PISA-Konsortiums zu folgendem Schluß: "Für die Disparitäten der Bildungsbeteiligung sind primär weder die soziale Lage der zugewanderten Familien noch die Distanz zur Majoritätskultur als solche verantwortlich. Von entscheidender Bedeutung ist vielmehr die Beherrschung der deutschen Sprache auf einem dem Bildungsgang angemessenen Niveau. Für Kinder aus Zuwandererfamilien ist die Sprachkompetenz die entschiedende Hürde in ihrer Bildungskarriere. Bei gleicher Lesekompetenz machen Kinder aus Zuwandererfamilien vom Übergang in einen mittleren oder höheren Bildungsgyng tendenziell häufiger Gebrauch als die Altersgleichen, die aus deutschsprachigen Familien stammen (vgl. Baumert/Schümer: Familiäre Lebensverhältnisse, Bildungsbeteiligung und Kompetenzerwerb im nationalen Vergleich, S. 199; In: Deutsches PISA-Konsortium (Hrsg.): PISA 2000 - Die Länder der Bundesrepublik Deutschland im Vergleich).

Welchen Einfluss hat die Familienstruktur auf die PISA-Ergebnisse? (Bereich-Mathematik-Kompetenz)

Damit Kinder gesund heranwachsen können, ist es wichtig, dass sie in ein soziales Netz eingebunden sind und Bezugspersonen haben. Dies können, nach Meinung vieler Wissenschaftler, Familien eher leisten als Alleinerziehende. Alleinerziehende haben oft geringere zeitliche Ressourcen. Dies schlägt sich darin nieder, dass sie ihre Kinder weniger unterstützen können. In vielen Fällen hat das Auswirkungen auf die Leistungsentwicklung (Baumert&Schümer, 2001, 2002; OECD, 2004; Schneewind und Pekrun, 1994).

In Deutschland leben 16,7% der Jugendlichen bei einem alleinerziehenden Elternteil (Ehmke et al., 2004, S. 228).

In allen Ländern der OECD, erreichen Jugendliche, die in Kernfamilien leben, höhere Kompetenzmittelwerte in Mathematik, als Jugendliche, die bei alleinerziehenden Müttern oder Vätern leben. Am größten ist der Unterschied in den USA. Hier haben Jugendliche aus Kernfamilien einen Vorsprung von 51 Kompentenzpunkten. In Österreich fällt ihr Vorsprung mit nur 5 Punkten am geringsten aus. Auch in Deutschland ist der Vorsprung mit nur 11 Punkten gering. Kinder aus Kernfamilien erreichen 515 Kompetenzpunkte, Kinder von Alleinerziehenden 504 Kompetenzpunkte.

Welchen Einfluss hat die Arbeitslosigkeit eines Elternteiles die PISA-Ergebnisse? (Bereich-Mathematik-Kompetenz)

Arbeitslosigkeit ist eine ökonomische und psychische Belastung, die sich negativ auf die Familie auswirken kann. Das ist insbesondere dann so, wenn der Vater arbeitslos ist (Betram, 2004)

In Deutschland waren 81,8% der PISA-Väter vollzeiterwerbstätig, 7,6% waren teilzeiterwerbstätig und 5,5% arbeitssuchend (Ehmke et al., 2004, S. 230).

In allen OECD-Staaten hatten die Kinder mit einem vollzeiterwerbstätigen Vater die höchsten Kompentenzwerte in Mathematik. Die Jugendlichen mit einem arbeitsssuchenden Vater hatten die niedrigsten. Im OECD Durchschnitt haben die ersteren einen Vorsprung von 46 Punkten. Auch in Deutschland beträgt der Kompetenzunterschied 46 Punkte. Schüler mit einem vollzeiterwerbstätigen Vater erreichen 552 Kompetenzpunkte, Schüler mit einem teilzeiterwerbstätigen Vater 478 Kompetenzpunkte und Schüler mit einem arbeitsssuchenden Vater 476 Kompentenzpunkte (ebd., S. 230).

Welchen Einfluss hat der elterliche Bildungsabschluss?

Man geht davon aus, dass Eltern die Vorbilder ihrer Kinder sind, und diesen Wertorientierungen, Qualifikationen und arbeitsbezogene Einstellungen vermitteln. "Durch das Orientieren an elterlichen Vorbildern und Modellen werden bei Kindern Kenntnisse und Interessen entwickelt, die sich förderlich auf die schulische und ausserschulische Kompetenzentwicklung auswirken (ebd., S. 231).

Bei PISA wird zwischen drei Stufen des elterlichen Bildungabschlusses unterschieden:

Stufe 1 :

  • Personen ohne Schulabschluss,
  • Personen mit Hauptschulabschluss,
  • Personen mit Realschulabschluss,

für die gilt

  • dass sie keine Lehre abgeschlossen haben

Im OECD-Durchschnitt sind 17,2% aller Eltern auf dieser Stufe, in Deutschland sind es 15,9% der PISA-Eltern.

Stufe 2 :

  • Personen mit Lehre,
  • Personen mit Abitur oder Fachhochschulreife,
  • Personen, die eine Handelsschule besucht haben

Im OECD-Durchschnitt sind 39,8% aller PISA-Eltern auf dieser Stufe, in Deutschland sind es 43,1% der PISA-Eltern.

Stufe 3

  • Meister
  • Personen mit dem Abschluss einer Fachschule oder Technikerschule,
  • Personen mit dem Abschluss einer Berufs- oder Fachakademie,
  • Personen mit dem Abschluss einer Fachhochschule oder Universität

Im OECD-Durchschnitt sind 39,8% aller PISA-Eltern auf dieser Stufe, in Deutschland sind es 43,1% der PISA-Eltern (ebd., S. 233).

Es gibt in allen Ländern der OECD einen Zusammenhang zwischen elterlichem Bildungabschluss und Mathematikkompetenz. IM OECD-Durchschnitt ist der Kompetenzunterschied 88 Punkte. Dies entspricht etwa zwei Schuljahren. Sehr gering fällt der Unterschied in Finnland (42 Punkte) und Portugal (44 Punkte) aus. Sehr groß ist er in der Slowakischen Republik (144 Punkte Unterschied). Auch in Deutschland ist er mit 106 Punkten relativ hoch (ebd., S. 233).

Welchen Einfluss hat der Besitz von Kulturgütern?

Zu den Kulturgütern zählen zum Beispiel Literatur, Kunstwerke, und so weiter. Kulturgüter in der Familie sind wichtig für den Erwerb von mathematischen Kompetenzen (Baumert, Watermann&Schlümer, 2003).

Bei PISA konnte ein Zusammenhang zwischen dem Besitz von Kulturgütern und der Mathematikkompetenz festgestellt werden. IM OECD-Durchschnitt liegt der Unterschied in der Mathematikkompetenz zwischen Schülern aus dem Viertel der Familien mit den meisten Kulturgütern und Schülern aus dem Viertel der Familien mit den wenigsten Kulturgütern bei 66 Punkten (ein Lernzuwachs von einem Schuljahr). Auch in Deutschland liegt der Unterschied bei 66 Punkten. Die geringsten Unterschiede gibt es in Island (34 Punkte), der Schweiz (35 Punkte), Kanada (42 Punkte) und Finnland (44 Punkte). Die größten in Ungarn (86 Punkte), Belgien (81 Punkte), Dänemark (81 Punkte) und Schweden (81 Punkte).

Welchen Einfluss hat der sozioökonomische Status?

In zahlreichen Studien konnte bewiesen werden, dass ein hoher sozioökonomischer Status der Eltern dazu führt, dass Kinder mathematische Kompetenzen entwickeln (vgl. Baumert&Schümer 2001, 2002; Datcher 1982; SchnabelSchwippert, 2000; Schwippert, Bos&Lankes, 2003).

Der sozioökonomische Status der Familie wurde im Rahmen der PISA-Studie anhand des Berufes der erwachsenen Bezugsperson des Kindes erfasst. Dieser Beruf wurden anhand des International Socio-Economic Index eigeordnet (vgl. auch Ganzeboom und Treimann, 1996). Zu beachten ist, dass es hier nicht um Reichtum geht, sondern um Berufsprestige. Allerdings geht Berufsprestige oft mit Reichtum Hand in Hand.

In allen OECD-Ländern ist der Zusammenhang zwischen sozio-ökonomischem Status und Mathematik-Kompentenz stark ausgeprägt. IM OECD-Durchschnitt haben Jugendliche mit Eltern im obersten Viertel der beruflichen Stellungen 92 Kompetenzpunkte mehr, als Jugendlichen mit Eltern im untersten Viertel der beruflichen Stellungen. Dies entspricht ungefähr zwei Schuljahren.

Den größten Unterschied gibt es in Belgien mit 108 Kompetenzpunkten Unterschied. Den zweitgrößten in Deutschland mit 102 Punkten Unterschied. Die oft gehörte Meinung, dass der Unterschied in Finnland am geringsten sei, trifft nicht zu. Am geringsten ist der Unterschied in Island (41 Punkte) und Korea (56 Punkte). Am Beispiel Korea sieht man auch, dass geringe Unterschiede mit einem hohem Leistungsniveau einhergehen können. So erreichen in Korea die Jugendlichen aus dem höchsten Viertel 568 Kompetenzpunkte und sind somit überdurchscnittlich gut. Die koreanischen Jugenlichen mit Eltern mit dem niedrigsten sozioökonimischen Status hingegen sind so kompetent, dass sie Jugendlichen mit Eltern mit dem höchsten sozioökonomischen Status aus anderen Ländern übertreffen.

So haben koreanische Jugendliche aus dem niedrigsten Quartil 87 Kompetenzpunkte mehr, als mexikanische Jugendliche aus dem höchsten Quartil und 32 Kompetenzpunkte mehr als türkische Jugendliche aus dem höchsten Quartil. Doch damit nicht genug. Koreanische Jugendliche aus dem untersten Quartil sind sogar besser in Mathe als Jugendliche aus dem höchsten Quartil in zwei Industrieländern. So erreichen sie 18 Kompentenzpunkte mehr, als Jugendliche aus dem höchsten Quartil in Griechenland und 9 Kompetenzpunkte mehr, als Jugendliche aus dem höchsten Quartil in Italien (vgl. Ehmke et al., 2004, S. 236).

Kritik

Was messen PISA-Aufgaben?

Heiner Rindermann, Volkmar Weiss [11] und Siegfried Lehrl argumentieren (siehe Literatur unten), PISA sei ein Unternehmen zur Messung der Allgemeinen Intelligenz, und zwar das aufwendigste und beste international je unternommene. Die Länder-Ergebnisse von PISA stimmten, so die Autoren, auf plus oder minus drei IQ-Punkte mit den IQ-Daten (und -Schätzungen) im Buch „IQ and the Wealth of Nations“ (Lynn und Vanhanen, 2002) überein. Die gefundenen Korrelationen, die auf Grund der meist "vorzüglichen Repräsentativität" der Stichproben höher seien als zwischen den bisher üblichen IQ-Tests, bewiesen für die Befürworter von IQ-Tests die grundlegende Übereinstimmung von PISA-Ergebnissen mit den Ergebnissen von einem Jahrhundert klassischer Intelligenzforschung und die Brauchbarkeit bewährter, standardisierter IQ-Tests, ebenso wie die sehr hohen Korrelationen zwischen PISA-Werten und IQ mit den Ergebnissen der TIMSS-Studie und der IGLU-Studie. Allerdings korrelieren die Ergebnisse der PISA-Studien mit denen der IGLU-Studie nicht, da beide Studien unterschiedliche Stichprobendefinitionen aufweisen. Während die PISA-Studie sich am Lebensalter der Probanden orientiert (15 Jahre), testet die IGLU-Grundschulstudie Schülerinnen und Schüler einer bestimmten Klassenstufe (zumeist 4. Klasse). Deshalb können die Ergebnisse beider Studien auch nicht korrelieren und insofern auch nicht die "Ergebnisse von einem Jahrhundert klassischer Intelligenzforschung" bestätigen.

Über die curriculare Validität, also die Übereinstimmung der Testaufgaben mit dem Lehrplan der getesteten Schulen, bestehen unterschiedliche Anschauungen. Während der Leiter der PISA 2000 Studie, der Sport- und Altgriechischlehrer (heutiger Vizepräsident der Max-Planck-Gesellschaft) Prof. Jürgen Baumert diese noch kategorisch ablehnte, wird die curriculare Validität von seinem Nachfolger, dem Psychologen und Direktor des IPN Kiel hingegen kategorisch postuliert. Wie allerdings curriculare Validität angesichts der überwiegend geheim gehaltenen Aufgaben festgestellt wurde, außer durch sog. Expertenurteil, ist bislang ungeklärt.

Der Mathematikdidaktiker W. Meyerhöfer argumentiert, dass PISA dem Anspruch, mathematische Leistungsfähigkeit bzw. speziell „Mathematische Literalität“ zu testen, nicht gerecht werde: Mittels Interpretation (Methode: Didaktische Analyse und Objektive Hermeneutik) zeigt er verschiedene Problemkreise auf:

  • Oftmals gibt es so viele Möglichkeiten, zur gewünschten Lösung (die nicht in jedem Fall die richtige Lösung ist) zu gelangen, dass man nicht benennen kann, welche Fähigkeit die Aufgabe eigentlich misst. Das Konstrukt „mathematische Leistungsfähigkeit“ wird damit zu einem zufälligen.
  • Es werden Komponenten von Testfähigkeit mitgemessen. Als Kernkompetenz von Testfähigkeit stellt sich heraus, weder das gestellte mathematische Problem noch die angeblichen realen Probleme ernst zu nehmen, sondern sich stattdessen auf das zu konzentrieren, was die Tester angekreuzt oder hingeschrieben sehen wollen. Prinzipiell erweist es sich als günstig, mittelmäßig zu arbeiten, auf intellektuelle Tiefe in der Auseinandersetzung mit den Aufgaben also zu verzichten.
  • Man kann bei Multiple-Choice-Tests raten. Die PISA-Gruppe behauptet zwar, dieses Problem technisch überwinden zu können, dies erweist sich aber als Fehleinschätzung.
  • Die vorgeblich verwendeten didaktischen und psychologischen Theorien sind lediglich theoretische Mäntel für eine theoriearme Testerstellung.
  • Die Tests werden nicht durch Operationalisierungen von Messkonstrukten erstellt, sondern durch systematisches Zusammenstückeln von Aufgaben.
  • Bei PISA sollte „Mathematical Literacy“ getestet werden. Verkürzt sollte das die Fähigkeit sein, „die Rolle, die Mathematik in der Welt spielt, zu erkennen und zu verstehen, begründete mathematische Urteile abzugeben und sich auf eine Weise mit der Mathematik zu befassen, die den Anforderungen des gegenwärtigen und künftigen Lebens einer Person als eines konstruktiven, engagierten und reflektierten Bürgers entspricht“ (PISA-Eigendarstellung). Von all dem kann angesichts der Aufgaben keine Rede sein.
  • Es zeigt sich ein mathematikdidaktischer Habitus, der unter dem Stichwort der „Abkehr von der Sache“ zusammengefasst wird. Er umfasst folgende Elemente: Manifeste Orientierung auf Fachsprachlichkeit bei latenter Zerstörung des Mathematischen, Illusion der Schülernähe als Verblendung, Kalkülorientierung statt mathematischer Bildung, Misslingen der „Vermittlung“ von Realem und Mathematischem bei realitätsnahen Aufgaben. Letzteres gründet in der Nichtbeachtung der Authentizität sowohl des Realen als auch des Mathematischen.

(vergleiche: Wolfram Meyerhöfer: Tests im Test - Das Beispiel PISA. Verlag B. Budrich, Opladen 2005)

Methodisch-statistische Mängel

sowohl in Durchführung als auch in der Auswertung. Die Vergleichbarkeit zwischen den Ländern ist u.a. aufgrund der unterschiedlichen Einschulungsmodalitäten nicht gegeben, eine repräsentative Stichprobenziehung gar nicht möglich und auch nicht durch nachträgliches Adjustieren, etwa mittels Gewichtungsvariablen, durchführbar. Die Differenzen in den (relationalen) Rating-Skalen seien inhaltlich nicht interpretierbar. In Wahrheit würden in den Punktelisten nur kleine Differenzen zwischen Ländern abgebildet, die genauso gut durch eben diese methodischen Mängel und fachlichen Mängel erklärbar seien.

Was messen PISA-Aufgaben? Eine Studie an der Freien Universität Berlin (FU-Berlin) zeigte erhebliche Mängel in der statistischen Auswertung durch das MPIB für die PISA2000-I und -E Studien auf. http://www.pisa2000.de [6] http://www.diss.fu-berlin.de/2005/218/. Die Mangelhaftigkeit der Auswertungen durch die Erziehungswissenschaftler des MPIB würde sogar den Wert der PISA-Studie an sich in Frage stellen. Einige Argumente:

(1) Ursache für das schlechte Abschneiden der Schülerinnen und Schüler in Deutschland sei die Stichprobendefinition nach Lebensalter (und nicht nach Schulalter wie bei der IGLU-Studie). In Deutschland wird vergleichsweise spät eingeschult, mithin befinden sich die meisten Probanden in der Klassenstufe 9. Würden Schülerinnen und Schüler nach Schulalter (Klassenstufe) getestet, dann erreichten diese Testwerte im oberen Testleistungsbereich.

(2) Die hohen sozialen Disparitäten im Lesen seien einem mangelhaften Testkonstrukt zuzuschreiben, das einerseits mit der Stichprobendefinition zusammenhinge und andererseits das Ergebnis von so genannten Boden- und Deckeneffekten sei. Diese entstünden bei ungeeignetem, dem Kenntnisstand der Schüler nicht adäquatem Testkonstrukt.

(3) Die so genannten „Nichtleser“ seien lediglich eine Fehlinterpretation eines Items (read for enjoyment). Gefragt wurde in der PISA-Studie eben nicht danach, wer nicht liest, sondern lediglich danach, wer in seiner Freizeit „aus Vergnügen“ lese. Das MPIB hatte daraus die Folgerung abgeleitet, dass es in Deutschland besonders viele schwache Leser (also sog. „Nichtleser“) gäbe. Japan jedoch weise erheblich mehr „Nichtleser“ auf (bei hohem Testwert im Lesen), Brasilien hingegen die wenigsten (bei niedrigem Testwert).

Die Studie weist auf mehreren Hundert Seiten praktisch sämtliche von den Berliner Psychologen berechneten Statistiken als wissenschaftlich nicht haltbar aus. Der Psychologe und Direktor des federführenden Instituts IPN-Kiel, Prof. Prenzel, reagierte auf die Studie des Berliner FU-Statistikers im Rahmen eines ganzseitigen Artikels im Berliner Tagesspiegel, ohne jedoch auf die Inhalte der Studie einzugehen.


Verzerrte Stichprobe

Kritiker - darunter die Ökonomen von Collani und Prais, der Physiker Wuttke, der Mathematiker Putz sowie eine Gruppe Österreichischer Statistiker um Neuwirth - haben auf mögliche Verzerrungen bei der Stichprobenziehung hingewiesen:

  • Pisa testete 15-Jährige. In diesem Alter sind in vielen Ländern besonders schwache Schüler schon nicht mehr in der Schule. In der Türkei zum Beispiel besuchen in diesem Altersjahr nur noch 54 Prozent die Schule, in Mexiko 58 Prozent, in Deutschland aber 96,3 Prozent. Das bedeutet: Besonders schwache Schüler drückten hier das Niveau, während sie in anderen Ländern als Schulabgänger schon gar nicht mehr vertreten waren - sehr wohl aber für die allgemeine Leistungsfähigkeit eines Schulsystems stehen könnten.
  • In Südtirol wurden nur 83% aller Fünfzehnjährigen als Schüler erfasst, obwohl dort in diesem Alter noch Schulpflicht herrscht. Wahrscheinlich sind Berufsschulen weitestgehend von der Testung ausgeschlossen worden, was das Spitzenergebnis dieses Landes als ein statistisches Artefakt erklären würde.
  • In Österreich mussten sämtliche Ergebnisse aus PISA 2000 wegen ungenügender Berücksichtigung von Berufsschülern Jahre später deutlich nach unten korrigiert.
  • Viele Länder schlossen Sonderschüler aus der Stichprobe aus. Nur in sieben Ländern, darunter auch Deutschland, wurden Sonderschüler in Kurztests getestet. Würde man diese Tests aus PISA herausrechnen, wäre Deutschland bei Pisa 2003 mit der Leseleistung seiner Schüler vom 18. auf den 12. Rang unter 29 Staaten vorgerutscht. Andere Staaten haben keine Sonderschulen für Lernbehinderte, konnten aber bis zu 4,5% der Grundgesamtheit auf Schulebene ausschließen.
  • In Dänemark, Finnland, Griechenland, Irland und Polen wurden Legastheniker von der Teilnahme ausgeschlossen.
  • In Dänemark wurden auch Schüler mit Rechenschwäche ausgeschlossen.
  • Einzelheiten der Stichprobenziehung und Testdurchführung sind völlig unkontrollierbar und bei entsprechendem politischem Interesse beliebig manipulierbar.

Weitere strittige Punkte

  • Umgang mit unvollständigen Testheften: In den PISA-Datensatz wurden auch Leute aufgenommen, die den Test während der Test abgebrochen hatten. Bei der Berechnung der Leistungskennzahlen wurden fehlende Werte durch Mittelwerte ersetzt. Es wird dabei nicht beachtet, dass Personen, die den Test abbrechen möglicherweise besonders schlecht mit den Aufgaben zurecht kamen und ihre Leistungskennzahlen eigentlich unter dem Mittel lägen. Ein Statistiker Team um Neuwirth hat dieses kritisiert
  • Schönung des nationalen Leistungsmittels: Das PISA Student Questionaire umfasst über 100 Teilfragen. Aus verschiedenen Gründen lassen manche Schüler einiger dieser Fragen unbeantwortet. Allein wegen der Anzahl der getesteten Schüler ist es unwahrscheinlich, dass es Fragen gibt, die von allen Schülern beantwortet wurden. Doch genau dies ist in Polen der Fall. 7 Fragen wurden von keinem einzigen polnischen Schüler nicht beantwortet. Kein einziger polnischer Schüler gab weniger als 25 gültige Antworten. "Solange keine andere Erklärung für diese Anomalie deutlich gemacht wird, muss, wenn die Verlässlichkeit der PISA-Ergebnisse beurteilt werden soll, als maximale Verzerrung unterstellt werden, dass Polen Schüler, die die Fragebögen nicht oder sehr unvollständig bearbeitet haben, nicht zum, internationalen Datensatz beitragen und dadurch das nationale Leistungsmittel geschönt hat [12],

Ist Pisa eine Schulleistungsuntersuchung?

In der Öffentlichkeit wird PISA ganz überwiegend als eine Untersuchung der Leistungsfähigkeit des Schulwesens wahrgenommen. Das ist konsistent mit der Wahrnehmung von PISA als Länderwettkampf, da die Grundstruktur des Schulwesens von Land zu Land unterschiedlich ist. Dieser Deutung von PISA als Schulleistungsuntersuchung liegen Annahmen zugrunde, die selten klar benannt werden:

(1) PISA testet eine Alters-, nicht eine Klassenstufe. Das lasse sich rechtfertigen, wenn man Leistung als Ergebnis bis zu einem bestimmten Lebensalter auffasst. PISA benachteiligt Schulsysteme, in denen ein nennenswerter Teil der Schüler durch späte Einschulung, Sitzenbleiben oder freiwillige Wiederholungen niedrigere Klassenstufen aufweist. Deshalb sei der PISA-Ansatz ungeeignet, die Leistungsfähigkeit von Schülern nahe am Ende der Pflichtschulzeit (near the end of compulsory education) zu vergleichen. Man kann allerdings auch fragen, ob Rückstellungen etc. pädagogisch sinnvolle Maßnahmen darstellen. Allerdings hat eine wissenschaftliche Studie die Aufgabe, ihre eigenen Maßstäbe klar und transparent zu definieren und sich einer Wertung, die sich bereits in der Wahl der Stichprobendefinition implizit findet, zu enthalten.

(2) PISA messe nicht den Zuwachs kognitiver Fähigkeiten im Verlauf der Schulzeit, sondern allein den Ist-Zustand in einer bestimmten Altersgruppe. Aus den Leistungsdaten von PISA ist nicht zu erschließen, inwieweit die Leistungsfähigkeit der schulischen Ausbildung zu verdanken ist und inwieweit sie auf unterschiedliche Anlagen und Umwelteinflüsse zurückgeht.

Dieses Argument unterschlägt, dass es zahlreiche weitere Untersuchungen gibt, auch als Längssschnitt wie z.B. die LAU-Untersuchungen in Hamburg. Die Frage nach Anlage oder Umwelt stellt sich für die Schule nicht. Entscheidend ist, ob etwas verändert werden kann und ob man dazu genügend Zeit hat, was durch die frühe Selektion nach der Klasse 4 fraglich ist.

Jedoch - so die Kritik weiter - erlaube PISA, Leistungsdaten mit sozialen Kenndaten zu korrelieren. Die Ergebnisse zeigen, dass sich soziale Bedingungen in verschiedenen Ländern verschieden stark auf die kognitive Leistungsfähigkeit auswirken. Das in Deutschland meistzitierte Beispiel sind Migrantenkinder, die aufgrund vernachlässigten Spracherwerbs in Deutschland stärker zurückblieben als in anderen Ländern. In Ostdeutschland ist eine höhere Quote von Migrantenkindern auf Gymnasien zu finden als in Westdeutschland. So besuchen etwa in Thüringen Kinder vietnamesischer Abstammung zu 63% ein Gymnasium. Dies wird erklärt mit dem wesentlich besseren Krippen- und KiTa-System in Ostdeutschland und einer sehr hohen Wertschätzung der Bildung in der vietnamesischen Kultur. Auch ist das Schulsystem in Ostdeutschland weniger sozial selektiv.

(3) Die Ergebnisse von PISA würden ca. 2 Jahre nach der Erhebung veröffentlicht. Deshalb seien Rückschlüsse auf die schulpolitische Situation zum Veröffentlichungszeitpunkt nicht statthaft (was aber in der Berichterstattung getan wird). Dieses Argument geht aber von schnellen Änderungen im System aus, etwas, was bisher kaum belegt ist.

Literatur

  • Brügelmann, Hans/ Heymann, Hans Werner (2002): PISA – Befunde, Deutungen, Folgerungen. In: Pädagogik, 54. Jg., H. 3, 40-43.
  • Ehmke et al., (2004) In: PISA-Konsortium Deutschland (Hrsg.): PISA 2003 - Der Bildungsstand der Jugendlichen in Deutschland - Ergebnisse des 2. internationalen Vergleiches, Münster/NewYork: Waxmann
  • Huisken, Freerk : Der „PISA-Schock“ und seine Bewältigung-Wieviel Dummheit braucht / verträgt die Republik? VSA-Verlag Hamburg 2005 ISBN 3-89965-160-X
  • Kraus, Josef: Der PISA Schwindel. Unsere Kinder sind besser als ihr Ruf. Wie Eltern und Schule Potentiale fördern können, Signum Verlag, Wien 2005, ISBN 3-85436-376-1
  • Lehrl, Siegfried: PISA - ein weltweiter Intelligenz-Test. Geistig Fit, Nr. 1 (2005) 3-6.
  • Jahnke, Thomas und Meyerhöfer, Wolfram (Hrsg.): PISA & Co --- Kritik eines Programms. Franzbecker, Hildesheim (2006). ISBN 978-388120-428-6.
  • Rindermann, Heiner: Was messen internationale Schulleistungsstudien? Schulleistungen, Schülerfähigkeiten, kognitive Fähigkeiten, Wissen oder allgemeine Intelligenz? Psychologische Rundschau 57 (2006) 69-86.
  • Rost, Detlef H.: Interpretation und Bewertung pädagogisch-psychologischer Studien. Beltz 2005.
  • Baumert, Jürgen (Hrsg.): PISA 2000. Ein differenzierter Blick auf die Länder der Bundesrepublik Deutschland. Opladen: Verlag Leske + Budrich (2003)
  • Liessmann, Konrad Paul: Theorie der Unbildung, Die Irrtümer der Wissengesellschaft, Paul Zsolnay Verlag 2006, ISBN 3-552-05382-3
  • PISA-Konsortium Deutschland (Hrsg.): "PISA 2003: Der zweite Vergleich der Länder in Deutschland - Was wissen und können Jugendliche?", WAXMANN, ISBN 3-8309-1560-8
  • PISA-Konsortium Deutschland (Hrsg.): "PISA 2000 - Die Länder der Bundesrepublik Deutschland im Vergleich", Leske + Budrich, ISBN 3-8100-3663-3

Siehe auch

Quellen

  1. Measuring Student Knowledge and Skills: A New Framework for Assessment
  2. Internationale Grundkonzeption laut deutschem Projektpartner
  3. Technischer Bericht
  4. OECD-Projektseite
  5. PISA 2000
  6. PISA 2003 und 2006
  7. (ebenfalls Technischer Bericht)
  8. [1]
  9. [2]
  10. [3]
  11. [4]
  12. [5]