TIMSS und COMPED: Die Studien

TIMSS und COMPED. Studien zur mathematisch-naturwissenschaftlichen und computerbezogenen Bildung.
Konsequenzen in geschlechtsspezifischer Hinsicht.
Broschüre des BMUK (1998).

zum Inhaltsverzeichnis

Einleitung

Österreich hat sich an zwei internationalen Studien zur mathematisch-naturwissenschaftlichen (TIMSS) bzw. computerbezogenen Bildung (COMPED) beteiligt. Die Ergebnisse zeigen u. a. in manchen Bereichen deutliche geschlechtsspezifische Leistungs- und Einstellungsunterschiede zu ungunsten der Mädchen, die mit Blick auf die Chancengleichheit der Geschlechter einmal mehr zum Handeln aufrufen. Die vorliegende Broschüre versteht sich als Beitrag zu den Maßnahmen, die hier zu setzen und vor dem Hintergrund des Aktionsplans 2000 auch von besonderer Wichtigkeit sind.

Die Broschüre wendet sich an Lehrerinnen und Lehrer sowie die in der Lehrer/innenbildung Tätigen. Ihr Anliegen ist es, auf der Basis der genannten Studien ein Nachdenken über die Mädchengerechtigkeit des Unterrichts in den zugehörigen Fächern anzuregen und Veränderungen in diese Richtung zu unterstützen.

Der erste Teil ist daher den Studien gewidmet, wobei das Interesse den Auswertungen nach Geschlecht gilt; die Ergebnisse insgesamt werden nur gestreift. Basis der Ausführungen sind die internationalen Berichte und - soweit sie vorliegen - die nationalen Spezialanalysen. Dem Überblick über das Abschneiden der Mädchen und Buben vorausgeschickt ist eine Darstellung der Intentionen, des allgemeinen Aufbaus und der Leistung dieser internationalen Studien, die die Aussagekraft der Ergebnisse besser einschätzen lässt. Ansätze zur Erklärung der aufgewiesenen geschlechtsspezifischen Unterschiede und zur Begründung ihrer Problematik leiten über zum zweiten Teil, der sich mit dem Unterricht befasst. Ausgehend von der Zielsetzung der "Geschlechtssensibilität" werden Leitideen für einen mathematisch-naturwissenschaftlich-technischen bzw. computerbezogenen Unterricht formuliert, der verstärkt den Bedürfnissen und Interessen der Mädchen Rechnung trägt und gleichzeitig auch den Buben neue Möglichkeiten des Lernens eröffnet. Dabei wird auch auf bereits an anderer Stelle entwickelte und zum Teil in der Unterrichtspraxis erprobte Vorschläge Bezug genommen. Ausgearbeitete Unterrichtsbeispiele mit Arbeitsblättern für die Schülerinnen und Schüler o . ä. finden sich hier allerdings nicht; sie sind den Materialsammlungen und Handreichungen zu entnehmen, die am Ende der Broschüre angeführt sind.

Die Studien: Hintergrund und Aufbau

Was sind TIMSS und COMPED?

TIMSS (= Third International Mathematics and Science Study) und COMPED (= Computers-in-Education Study) sind internationale Studien über mathematische und naturwissenschaftliche bzw. computerbezogene Bildung. Es handelt sich um Projekte der IEA (= International Association for the Evaluation of Educational Achievement), die in ihren heute rund sechzig Mitgliedsländern seit den 60iger Jahren regelmäßig Untersuchungen zu Aspekten des Bildungssystems durchführt. Österreich ist seit 1990 Mitglied und hat sich bis dato zweimal beteiligt - eben an der Computerstudie Anfang der 90iger Jahre und an der dritten Mathematik- und Naturwissenschaftsstudie Ende der 90iger. Die dazu nötigen Arbeiten der Datensammlung, -aufbereitung und nationaler Spezialauswertungen wurden am Institut für Erziehungswissenschaften, Abteilung Bildungsforschung, der Universität Salzburg durchgeführt (Prof. Dr. Krumm, Ass.Prof. DDr. Haider).

Ausgangspunkt für das Design dieser Untersuchungen ist die Vorstellung eines Zusammenwirkens von gesellschaftlichen Rahmenbedingungen (wozu etwa der Aufbau des Schulwesens im jeweiligen Land zählt, der Lehrplan oder auch der familiäre Hintergrund der Schüler/innen), dem Unterricht mit seinen Gegebenheiten vor Ort (zum Beispiel die Arbeitsformen oder die Ausstattung mit Computern an den Schulen) und den Lernergebnissen auf Seiten der Schülerinnen und Schüler. Insbesondere lassen sich also mit Blick auf das schulische Geschehen drei Ebenen unterscheiden: die der Vorgaben - das "geplante" Curriculum -, die der Umsetzung im Unterricht - das "durchgeführte" Curriculum - und die Ebene der Resultate wie Wissen oder Einstellungen bei den Schülerinnen und Schülern - das "erreichte" Curriculum. Die Untersuchungen bezogen sich auf alle drei Ebenen. Es wurden Lehrplananalysen durchgeführt, Daten über den Unterricht durch Beobachtungen und Befragungen erhoben, das Verhältnis von Schülerinnen und Schülern, Lehrkräften und SchulleiterInnen zu Mathematik und Naturwissenschaften bzw. dem Computer untersucht und die Leistungen der Schüler/innen in diesen Bereichen überprüft. Letzteres war ein besonderer Schwerpunkt.

Die folgenden Ausführungen zum Charakter dieser Studien allgemein sowie die Ergebnisdarstellungen beruhen auf den internationalen TIMSS-Berichten über die Mathematik- und Naturwissenschaftsleistungen (IEA 1996, 1997, 1998), den vorliegenden nationalen Spezialauswertungen dazu (Haider 1996), dem internationalen COMPED-Report (Pelgrum/Janssen Reinen/Plomp 1993) und seinen nationalen Vertiefungen und Ergänzungen (Haider 1994). Da sie durchgängig die Basis bilden, werden diese Arbeiten nicht in jedem Abschnitt erneut als Quelle genannt.

Was ist der Sinn und Zweck dieser Studien?

Die Absicht all der Studien der IEA ist es, Bildungspolitiker/nnen bzw. sonstigen Verantwortlichen für diesen Bereich Informationen über die Qualität des Bildungssystems zur Verfügung zu stellen und somit Grundlagen für Entscheidungen über seine zukünftige Gestaltung zu liefern. Auch wenn dieses Ansinnen nicht weiter diskussionswürdig erscheint, beruht es doch auf bestimmten Vorstellungen hinsichtlich der Messbarkeit des Bildungsgeschehens und der Möglichkeiten der Veränderung des Status quo, die geteilt oder nicht geteilt werden können. So wird angenommen, dass mittels der Methoden, derer sich solch große, international vergleichende Studien bedienen - und das sind in der Regel auf Quantifizierung zielende, statistische Methoden - genügend relevante Information über den Zustand des Bildungssystems gewonnen werden kann. Beispielsweise müssen, wenn der "Output" des Bildungssystems betrachtet werden soll, in Bildungszielen genannte Fähigkeiten, die die Schüler/innen erwerben sollen, und die oftmals sehr komplexe Kompetenzen beschreiben, in messbare Komponenten zerlegt werden. Je mehr es sich dabei um Fähigkeiten handelt, deren Vorhandensein sich erst im Vollzug in der Praxis zeigt, desto mehr stellt sich aber die Frage nach der Aussagekraft des Messergebnisses, das ja dann auf vielen Vereinfachungen beruht. In der Logik der Studien ist aber gerade die gewählte Vorgangsweise Voraussetzung für die Zustandsanalyse und das Setzen von Maßnahmen, da sie den als nötig erachteten Überblick über das Ganze ermöglicht. Mit dieser Präferenz für Breite in den Erhebungen wird gleichzeitig ein gewisses Naheverhältnis zu flächendeckenden Eingriffen zur Weiterentwicklung des Bildungssystems angezeigt, auch wenn diese keineswegs die einzig sinnvolle Reaktionsmöglichkeit darstellen. Aber die Hintergrundidee ist doch die, dass nicht einzelne Schulen oder Schulklassen ihre spezifischen Probleme angehen sollen, sondern das System als Ganzes durch Maßnahmen entsprechend der Zustandsanalyse zu reformieren ist. Solch große Studien haben also eher eine Beziehung zur "top-down"-Strategie zur Herbeiführung von Veränderungen als zum Gedanken der Entwicklung von unten.

Warum gilt die Aufmerksamkeit Mathematik, Naturwissenschaften und Computer

Die Betrachtung gerade der mathematischen, naturwissenschaftlichen bzw. computerbezogenen Bildung ist Ausdruck der gesellschaftlichen Bedeutung, die ihr beigemessen wird. Die IEA untersucht zwar ebenso andere Bildungsbereiche - wie etwa den Bereich Lesen oder Fremdsprachen - und dokumentiert so auch deren hohen Stellenwert, die Entwicklung mathematischer, naturwissenschaftlicher und computerbezogener Fähigkeiten gilt aber als besonders wichtig, da Mathematik, Naturwissenschaft und Computertechnologie als die Grundlagen des gesellschaftlichen Fortschritts angesehen werden. Eine Auseinandersetzung mit dieser These erfolgt, unbeschadet der technikkritischen Diskussion, die hierzu differenzierte Betrachtungen anstellt und zu unterschiedlichen Einschätzungen kommt, nicht. Was die computerbezogene Bildung betrifft, ist für die Untersuchung zusätzlich noch das Fehlen einer Tradition maßgeblich. Es gibt in diesem Bereich keine lang bewährten Konzepte, sodass eine vergleichende Analyse der international sehr unterschiedlichen Formen des computerbezogenen Unterrichts besonders nahe lag.

Was ist der Hintergrund der Analyse nach Geschlecht?

Statistiken zur Schultypen-, Studienfach- und Berufswahlen zeigen, dass Mädchen sich auch heute noch seltener dem mathematisch-naturwissenschaftlich-technischen Bereich zuwenden als Buben dies tun. So sind etwa - um nur einige, wenige Beispiele anzuführen - in Österreich rund 15% der Studierenden in den technischen Studienrichtungen Frauen, nur knapp über 8% der SchülerInnen an den höheren technischen Lehranstalten sind Mädchen oder nicht einmal 2% der Radio- und Fernsehmechanikerlehrlinge sind weiblich.

Eine Klärung der Ursachen für die geschlechtsspezifischen Unterschiede im Verhältnis zu Mathematik, Naturwissenschaften, Technik und Computer, die in Daten wie den obigen zum Ausdruck kommen, ist also ein wichtiges Anliegen. Psychologische, pädagogische, soziologische und mathematik- bzw. naturwissenschaftsdidaktische Forschungen befassen sich denn auch in zunehmendem Maß mit dieser Frage. Ein Gesichtspunkt - den zu beachten auf den ersten Blick auch besonders nahe liegt - sind eben die Leistungen, ein weiterer die Einstellungen.

Auch wenn es also sehr sinnvoll ist, in Studien wie TIMSS oder COMPED die Daten getrennt nach Geschlecht auszuwerten und die Ergebnisse der Geschlechter zu vergleichen, sei doch darauf hingewiesen, dass durch solch ein Tun die Spezifität der Geschlechter gewissermaßen auch erst hergestellt wird. Denn die Suche gilt möglichen Unterschieden und die Darstellung rückt (daher) diese in den Vordergrund. So werden etwa in Tabellen Mittelwerte angegeben, die unterschiedlich sind bei Mädchen und Buben, es wird in diesen Tabellen aber nicht gleichzeitig angeführt, wie sehr die Werte der Mädchen und Buben um ihre Mittelwerte streuen und in welchem Ausmaß sich die von den Mädchen erreichten Werte mit denen der Buben überlappen. (Zum Teil lässt sich dies aus anderen Tabellen, die sich an ganz anderer Stelle befinden, bei entsprechendem Wissen eruieren.) Mit der Konzentration auf Unterschiede zwischen den Geschlechtern geht also oft ein Ausblenden der Unterschiede innerhalb der Geschlechter bzw. ihrer Gemeinsamkeiten einher. Auch wenn bestimmte Kenngrößen klar unterschiedlich sind, bedeutet dies nicht, dass die Mädchenwerte insgesamt ganz anders als die Bubenwerte wären.

Was leisten die Studien und was leisten sie nicht?

Die TIMSS- wie die COMPED-Studie verstehen sich als deskriptive Arbeiten. Ihr Anliegen ist es, einen Überblick über den Ist-Zustand der mathematisch-naturwissenschaftlichen bzw. computerbezogenen Bildung zu geben in allen sich beteiligenden Ländern. Zu beachten ist dabei, dass der Untersuchungsgegenstand und das Untersuchungsergebnis durch eine zu Beginn erfolgende Festlegung von Beobachtungs- und Auswertungskategorien vorgeformt werden. Ist-Zustand meint also nicht "die Wirklichkeit", sondern die von den Forscher/innen konstruierte. Was beispielsweise die Fähigkeit "Begründen" in Mathematik ist, ist definiert in Form von ganz bestimmten Aufgaben, und die Antworten darauf werden als richtig, falsch bzw. in manchen Fällen auch als teilweise richtig klassifiziert. Forschung auf diese vorstrukturierende Art und Weise zu betreiben, ist nicht die einzig sinnvolle Möglichkeit und keineswegs die einzige, die in den fachdidaktischen Disziplinen stattfindet. Untersuchungen zum Thema "Begründen in Mathematik" können etwa auch so aussehen, dass die Argumentationen von Kindern im Mathematikunterricht vergleichend analysiert werden und sich erst im Zuge dessen die Typen von Begründungen herauskristallisieren, die dann das Ergebnis der Untersuchung darstellen, wobei das Kriterium der Typenbildung auch nicht die mathematische Richtigkeit ist, sondern die interne Logik der Argumentationen. In diesem genannten Beispiel fachdidaktischer Arbeit geht es also um eine detaillierte Erforschung kindlicher Denkprozesse gleichsam mit offenem Ausgang, während TIMSS und COMPED an einer Überprüfung wohldefinierter Fähigkeiten interessiert sind.

Weiters erfolgt in den internationalen Ergebnisberichten, die der Darstellung hier zugrunde liegen, auch keine normative Diskussion der untersuchten Gegebenheiten, und es werden auch nur ansatzweise bzw. nur in manchen Bereichen Erklärungen für die Befunde angeboten. So wird beispielsweise zwar überprüft, ob die Schüler/innen bestimmte Aufgaben aus der Gleichungslehre lösen können, es wird aber nicht diskutiert, welchen Sinn und Zweck die gestellten Aufgaben haben können oder welchen Stellenwert das Gleichungslösen überhaupt im Mathematikunterricht haben soll, es werden - siehe oben - auch nicht kognitive Prozesse, wie etwa Lösungsstrategien, erforscht, und es werden auch keine theoretischen Modelle zur Erklärung falscher Lösungen oder deren Häufung in bestimmten Gruppen der Schülerinnen und Schüler entwickelt.

Welche Schüler/innen wurden befragt und worüber?

TIMSS

Die Erhebungen der Leistungen in Mathematik und Naturwissenschaften in der TIMS-Studie wurden auf drei Altersstufen durchgeführt:

- bei den 9-jährigen Schülerinnen und Schülern; das heißt, in jenen beiden aufeinander folgenden Schulstufen, die von den meisten 9-jährigen besucht werden - in Österreich also dritte und vierte Klasse Volksschule

- bei den 13-jährigen Schülerinnen und Schülern; oder genauer: in jenen beiden Schulstufen, die von den meisten 13-jährigen besucht werden - in Österreich dritte und vierte Klasse Hauptschule (HS) bzw. allgemeinbildende höhere Schule (AHS)

- bei den Schülerinnen und Schülern aus den letzten Klassen der Sekundarstufe II - in Österreich bei den Schülerinnen und Schülern in den letzten Klassen der allgemeinbildenden höheren Schulen (AHS) und berufsbildenden höheren Schulen (BHS) sowie der Berufsschulen (BS) und berufsbildenden mittleren Schulen (BMS).

Die Leistungen wurden mittels international entwickelter Testaufgaben ermittelt. Auf Volkschulniveau und der Mittelstufe wurden jeweils zwei Klassenstufen mit einem Test untersucht. In der Gruppe der Schüler/innen in den Abschlussklassen der Sekundarstufe II gab es zwei Erhebungen. Erstens wurde das mathematische bzw. naturwissenschaftliche Allgemeinwissen untersucht. Der Test dazu umfasste lebens- und berufspraktische Aufgaben, die - aus österreichischer Sicht gesehen - alle vom Hauptschulstoff abgedeckt werden. Zweitens wurde das mathematische bzw. physikalische Fachwissen getestet, und zwar bei Schülerinnen und Schülern mit umfassender mathematischer bzw. physikalischer Bildung (die genauen nationalen Definitionen dieser SchülerInnengruppe variierten allerdings einigermaßen). Die Aufgaben basierten - in österreichischer Sprechweise - auf dem Oberstufenstoff. In Österreich wurde dieser Test daher auch nur von den AHS- und BHS-Maturantinnen und Maturanten absolviert.

COMPED

Die COMPED-Studie umfasste ebenfalls drei Altergruppen von Schülerinnen und Schülern:

- die Schulstufe der meisten 10-jährigen - sie blieb in Österreich ausgeklammert, da auf dieser Stufe kein Computerunterricht stattfindet

- die Schulstufe der meisten 13-jährigen - in Österreich wurde die vierte Klasse HS bzw. AHS herangezogen, sowie

- die SchülerInnen der vorletzten Schulstufe der zur Universität führenden Schulen der Sekundarstufe II - in Österreich also SchülerInnen der vorletzten Klassen der AHS und BHS

Instrumentarien waren ein Test zur informationstechnischen Grundbildung, und bei den 13-jährigen zusätzlich ein Praxistest zur Textverarbeitung (in dem Daten über das Lösen bestimmter Aufgaben am Computer gesammelt wurden), ein Programmiertest und eine praktische Programmieraufgabe, deren Lösung bewertet wurde.

Ergänzt wurden die Leistungsfeststellungen sowohl in TIMSS wie in COMPED durch Erhebungen von Einstellungen der Schüler/innen zu den jeweiligen Fachgebieten, ihre außerschulische Beschäftigung damit bzw. ihre Freizeitaktivitäten überhaupt, der Einschätzung ihrer Leistungen sowie von Aspekten des familiären Hintergrundes.

Wie viel Länder bzw. Schüler/innen nahmen teil?

Die Anzahl der an den verschiedenen TIMSS-Untersuchungen teilnehmenden Länder variierte, da nicht alle Länder alle durchführten. So fand die videogestützte Unterrichtsanalyse beispielsweise nur in Deutschland, Japan und den USA statt, während an den Leistungserhebungen in der Mittelstufe 45 Länder teilnahmen. An den COMPED-Untersuchungen beteiligten sich 22 Länder. Insgesamt haben an den TIMSS-Tests mehr als eine halbe Million Schülerinnen und Schüler weltweit teilgenommen, an der COMPED-Studie an die 100 000. In Österreich waren es bei jedem TIMSS-Test und in der COMPED-Studie beim Test zur informationstechnischen Grundbildung mehrere Tausend (beim Praxistest Textverarbeitung bzw. beim Programmiertest wurde die Stichprobe auf mehrere hundert Schüler/innen eingeschränkt). Die Rekrutierung der Schüler/innen erfolgte so, dass zunächst Schulen der in Frage kommenden Schultypen und dort Klassen zufällig ausgewählt wurden, deren Schülerinnen und Schüler dann den Test bestritten.

Wie lässt sich angesichts der Unterschiede zwischen den Schulsystemen der Länder ein internationaler Vergleich durchführen?

Die große Bandbreite der nationalen Gegebenheiten ist in der Tat ein Problem bei solch international vergleichenden Studien zum Bildungswesen.

Einer der Diskussionspunkte ist die tatsächliche Vergleichbarkeit von formal dem jeweiligen Kriterium genügenden Gruppen von Schülerinnen und Schülern. Je höher die untersuchte Schulstufe ist, desto mehr tritt dieses Problem auf, da sich die Schulsysteme international gesehen immer mehr ausdifferenzieren.

Eine andere Schwierigkeit ist, einen fairen Leistungstest zu konstruieren. Es wäre möglich, dass die SchülerInnen eines Landes mit den gestellten Aufgaben gänzlich vertraut sind, während die eines anderen beim Test zum ersten Mal damit konfrontiert werden, weil eben der Lehrplan in dem einen Land den Stoff, dem sie entstammen, vorsieht und der andere nicht, oder weil er im einen Land in dieser Schulstufe durchgenommen wird, im anderen aber erst in jener usw. Um solch eine Unfairness des Tests zu vermeiden, gehen den Erhebungen umfangreiche Untersuchungen von Lehrplänen, Lehrbüchern und fachbezogenen Zielsetzungen voraus im Bestreben, gleichsam einen internationalen Lehrplan zu erstellen, der möglichst weitgehend den verschiedenen nationalen entspricht. Dieser ist dann die Basis für die Entwicklung der Testaufgaben. Da sich der Test aber nicht nur auf die Stoffkapitel bzw. die Typen von Aufgaben beschränken soll, die zum Erhebungszeitpunkt allen Schülerinnen und Schülern in allen Ländern präsent sind - dies würde den Test zu sehr beschränken -, ist es unvermeidlich, dass er Aufgaben enthält, mit denen zumindest manche SchülerInnen aus manchen Ländern noch nicht vertraut sind (abgesehen von Länderdifferenzen können dies auch Schwerpunktsetzungen von einzelnen Schulen oder Lehrkräften innerhalb eines Landes bewirken). Die Übereinstimmung zwischen den nationalen und dem konstruierten internationalen Curriculum ist jedoch ziemlich hoch. So konnten etwa im Mathematiktest der Volksschule in zwei Drittel aller Länder drei Viertel oder mehr der erreichbaren Testpunkte mit als angemessen eingestuften Aufgaben erzielt werden.

Welche Leistungsbereiche decken die Testinstrumentarien ab und in welcher Form geschieht dies?

TIMSS

Mit den TIMSS-Tests werden zum einen geistige Leistungen verschiedener Niveaus erhoben - beginnend bei einfachen Kenntnissen bis hin zum Problemlösen bzw. Begründen und Beweisen in den Mathematik-, oder bis zum Verständnis naturwissenschaftlichen Vorgehens in den Naturwissenschaftstests.

Zum anderen umfassten die TIMSS-Tests die verschiedenen inhaltlichen Gebiete, die in den Voranalysen als Bestandteile des internationalen Lehrplans festgelegt wurden. Sie stimmen nicht unbedingt mit den in Österreich üblichen Stoffkapiteln überein, zum einen, weil eben gewisse Diskrepanzen zwischen den nationalen Lehrplänen und dem internationalen unvermeidbar sind und zum anderen, weil die Zusammenfassung von Inhalten zu Bereichen anders erfolgte.

So lauten etwa die Gebiete, die der Mathematiktest für die VolksschülerInnen abdeckt: Ganze Zahlen; Brüche und Proportionen; Messen, Schätzen und Zahlenverständnis; Datendarstellung, Datenanalyse und Wahrscheinlichkeit; Geometrie; Relationen und Funktionen. Im Mathematiktest der 13-jährigen kam als neues Gebiet die Algebra hinzu. Beim Test des mathematischen Allgemeinwissens der Schüler/innen der Abschlussklassen der Sekundarstufe II entstammten die Aufgaben - wie erwähnt - dem Hauptschulstoff; der Test des Fachwissens umfasst die üblichen großen Oberstufengebiete.

Die Naturwissenschaftstests beinhalteten Aufgaben aus Biologie, Physik, Geographie/Erdwissenschaft sowie zu Umweltfragen und zur Reflexion des naturwissenschaftlichen Vorgehens; in der Mittelstufe kam als Fachgebiet noch Chemie hinzu. Der Test des physikalischen Fachwissens deckte - aus österreichischer Sicht gesprochen - die Oberstufenphysik ab.

Der überwiegende Teil der Aufgaben - zwei Drittel bis drei Viertel - waren Multiple-Choice-Aufgaben, bei denen aus mehreren vorgegebenen Lösungen eine angekreuzt werden musste. Beim restlichen Teil der Aufgaben war eine mehr oder weniger ausführliche Darstellung der Lösung verlangt. Für jede richtig gelöste Aufgabe wurden Punkte vergeben.

Multiple-Choice-Aufgaben wurden nicht nur, wie vielleicht vermutet werden könnte, zum Abtesten elementarer Kenntnisse eingesetzt. Sie wurden ebenso verwendet, um Fähigkeiten zum Lösen komplexerer Aufgaben zu überprüfen; das heißt, auch mit diesem Testformat wird also auf ein Durcharbeiten der Aufgaben gezielt, auch wenn dann nur das Endergebnis berücksichtigt wird. Beispielsweise hatte die folgende Aufgabe aus dem mathematischen Allgemeinwissentest der Sekundarstufe II Multiple-Choice-Format (mit den vorgegebenen Lösungen 12, 20, 30, 45):

Eine Schulklasse plant einen Busausflug in einen Tierpark. Ein Bus mit 45 Sitzplätzen kostet 600 Centros (Geldeinheit), und die Eintrittskarten kosten 30 Centros pro Person. Wenn jede Person 50 Centros für den gesamten Ausflug (Bus und Eintritt) bezahlt, wie viele Personen müssen dann mindestens teilnehmen, damit die Kosten gedeckt sind?

Die Schülerinnen und Schüler mussten nicht alle Testaufgaben lösen, sondern jeweils eine Auswahl, die alle Bereiche überdeckte und in einem Testheft zusammengefasst war. Aufgrund der verwendeten Auswertungsverfahren können trotzdem Aussagen über die untersuchten Gruppen insgesamt gemacht werden.

COMPED

In der COMPED-Studie wurde die Leistungserhebung auf der Basis des "Kompetenzansatzes" erstellt. Das heißt, es wurde erstens versucht, jene Fertigkeiten und Fähigkeiten zu definieren, die kompetente ComputernutzerInnen in den kommenden fünf Jahren auszeichnen. Zweitens wurden die Lehrpläne analysiert. Daraus resultierten vier zu untersuchende Bereiche: Kenntnisse, allgemeine praktische Fertigkeiten und praktische Fertigkeiten im Umgang mit Standardsoftware sowie Einstellungen zum Computer und zur Computerisierung. Der Test zur informationstechnischen Grundbildung erhob die Kenntnis grundlegender Begriffe und der Funktionsweise des Computers sowie indirekt auch Fertigkeiten. So wurde etwa gefragt, wie die Hardware heißt, auf der ein Programm dauerhaft gespeichert werden kann, oder wie bei der Arbeit mit einem Textverarbeitungsprogramm zwei Sätze in einem Text vertauscht werden können.

Der Programmiertest bezog sich auf den Bereich der allgemeinen praktischen Fertigkeiten. Er umfasste Aufgaben zum Algorithmisieren, der Syntax von Programmiersprachen und zum Interpretieren von in verschiedenen Formen vorgegebenen Algorithmen. Die Praxisaufgabe bestand in der Berechnung von Umfang und Flächeninhalt eines Rechtecks inklusive Erstellung der Eingabeprozedur für die beiden nötigen Größen und der Ausgabe der Eingangsgrößen und Resultate am Bildschirm.

Mit dem Praxistest Textverarbeitung wurde der dritte Kompetenzbereich untersucht. Ein vorgegebener Text musste geladen, editiert und formatiert und anschließend gespeichert und ausgedruckt werden.

Der Test zur informationstechnischen Grundbildung war zur Gänze im Multiple-Choice-Format gehalten, ebenso der Programmiertest. Der Praxistest zur Textverarbeitung wurde am Computer absolviert. Dabei wurden von einem mitlaufenden Programm die Tastaturaktivitäten der SchülerInnen aufgezeichnet, und außerdem wurde ihr Tun von einem Beobachter in ein vorgegebenes Raster eingetragen.

Die Tests in TIMSS und COMPED zur Erhebung der Einstellung gegenüber den Fachgebieten bzw. der Wahrnehmung der eigenen Leistungen dort waren in der Form aufgebaut, dass bestimmten Aussagen vorgegeben waren und der Grad ihres Zutreffens auf einer Skala, reichend von starker Zustimmung bis starker Ablehnung, angekreuzt werden musste.

Abschließend sei darauf hingewiesen, dass nicht gesichert ist und auch nicht sein kann aufgrund der Vorgangsweise, inwieweit die Leistungstests tatsächlich diejenigen Kenntnisse bzw. Fähigkeiten überprüfen, die von den Schülerinnen und Schülern tagtäglich im Unterricht gefordert werden. Die Analyse von Lehrplänen und Lehrbüchern, die Befragung von ExpertInnen usw. garantiert dies noch nicht. Auch die Befragung von Lehrkräften über ihren Unterricht gibt nur bedingt Aufschluss über das Geschehen dort. Nicht, dass LehrerInnen nicht angeben könnten, welchen Raum sie diesen oder jenen Aktivitäten beimessen, aber es kann sein, dass die Realisierung anders erfolgt als sie dies eingebunden in den Fluss der Ereignisse wahrnehmen. So ist es etwa denkbar, dass das Begründen von Aussagen im Mathematikunterricht zwar oft praktiziert wird, aber in Form eines Klassengesprächs, das von den Schülerinnen und Schülern kein Ausformulieren der Begründungen verlangt. Es ist also nicht auszuschließen, dass ein zwar international abgestimmter, aber doch nur angepeilter Lehrplan die Basis der Erhebungen ist, weil die Unterrichtsrealität diesen nicht erfüllt. Defizite wären dann Defizite relativ zu den dort festgelegten Normen, aber nicht unbedingt welche bezogen auf das, was im Klassenzimmer verlangt wird.

Was ist mit der Möglichkeit unterschiedlichen Antwortverhaltens bei den verwendeten Testformaten

Möglicherweise ist schon die Bedeutung, die die Teilnahme an einem internationalen Vergleichstest hat, unterschiedlich bei den Schülerinnen und Schülern in den einzelnen Ländern. Faktoren wie das Verhältnis zur Schule, das Nationalbewusstsein oder die generelle gesellschaftliche Einstellung zu Überprüfungen "von außen" könnten sich auf die Motivation zur Testbearbeitung auswirken und eventuell dann in den Ergebnissen niederschlagen. Dies sind jedoch nur Vermutungen. Tatsache ist allerdings, dass in Österreich die Teilnahmebereitschaft der Schulen nicht eben sehr hoch war und es ist möglich, dass dies Ausdruck einer gewissen generellen Testfeindlichkeit ist, von der auch die Schüler/innen nicht unberührt bleiben könnten.

Nicht zu ignorierende Hinweise gibt es aber jedenfalls darauf, dass Unterschiede im Umgang mit Multiple-Choice-Tests vorhanden sind. In einer Kultur, in der sie allgegenwärtig sind - wie etwa in der US-amerikanischen -, ist Raten das gemeinhin praktizierte Verhalten, wenn die Lösung nicht gewusst wird oder nicht eruiert werden kann. Sind Tests dieses Formats eher ungewöhnlich, wie etwa in Österreich, gibt es die Tendenz, in solchen Fällen gar keine Lösung anzukreuzen. Damit gibt es jedenfalls keine Punkte, während durch das Raten die richtige Lösung getroffen werden kann und somit trotz Nichtwissens Punkte erzielt werden können. Somit sind Schülerinnen und Schüler aus "Multiple-Choice-Kulturen" im Vorteil. In den dieser Darstellung zugrunde liegenden Berichten werden jedoch dieses Ungleichgewicht bzw. eventuelle Lösungsversuche nicht thematisiert.

Kann das Antwortverhalten der Geschlechter unterschiedlich sein?

Geschlechtsspezifische Unterschiede im Umgang mit Multiple-Choice-Tests, und zwar zu ungunsten der Mädchen, dürften vorhanden sein. Buben raten eher als Mädchen dies tun. Eventuelle Minderleistungen von Mädchen könnten also durch das Testformat mitbedingt sein. Ebenso kann der Anwendungsbezug von Aufgaben eine Rolle spielen. Wenn eher Buben- als Mädchenerfahrungsbereiche aufgegriffen werden - ob dies der Fall war, wäre zu prüfen -, kann sich dies negativ in den Ergebnissen der Mädchen niederschlagen. Eine Verzerrung der Ergebnisse ebenfalls zum Nachteil der Mädchen könnte möglicherweise auch die Zeitbeschränkung bei der Leistungsmessung bewirken; es gibt einzelne Befunde, die darauf hindeuten, dass sie für Mädchen eher leistungshemmend ist (siehe den Überblick in Forbes 1996).

Auch bei Einstellungstests, die mit den üblichen Einschätzungsskalen arbeiten, könnten geschlechtsspezifische Unterschiede im Antwortverhalten gegeben sein. Einzelne Studien lassen erkennen, dass Buben eher die Extreme ankreuzen und Mädchen eher die mittleren Kategorien. Dies würde beispielsweise bedeuten, dass bei gleichermaßen vorhandenem Interesse Buben viel begeisterter erscheinen als Mädchen (Joffe/Foxman 1988).

In den dieser Zusammenfassung zugrunde liegenden Berichten wird die Möglichkeit der Herstellung einer Geschlechterdifferenz durch das Testinstrumentarium aber nicht diskutiert.

Ist in internationalen Vergleichsstudien nur das Ranking der Länder von Interesse

Nationale Ergebnisse vergleichender Leistungstests wie TIMSS können grundsätzlich aus zwei Perspektiven betrachtet und beurteilt werden.

Zum einen kann das nationale Abschneiden relativ zu dem der anderen Länder interessieren. Das Kriterium der Bewertung ist in dem Fall die nationale Position in der Rangfolge der Ergebnisse aller teilnehmenden Länder. Gesamtleistungsmittelwerte aller Schülerinnen und Schüler oder von bestimmten Untergruppen, wie zum Beispiel der Geschlechter, oder Ergebnisse in den einzelnen Teilgebieten können daraufhin betrachtet werden, ob bzw. wie viele andere Länder besser oder schlechter abschneiden. Dass die internationalen Reports, die ja die Ergebnisse aller Länder darstellen (müssen), oft diese vergleichende Perspektive einnehmen, liegt nahe. Auch von nationaler Warte aus ist ein Interesse an der eigenen Position im Gesamt aller legitim, und darüber Bescheid zu wissen, kann der Diskussion über Stärken und Schwächen des nationalen Bildungswesens neue Impulse geben. Problematisch wird die ländervergleichende Betrachtungsweise, wenn sie einer Wettkampforientierung entspringt, bei der nur noch das Bessersein als solches zählt.

Die andere Perspektive, die auf nationale Ergebnisse internationaler Vergleichsstudien eingenommen werden kann, hat als Bezugspunkt den nationalen Lehrplan bzw. den Katalog der dort genannten Ziele, die die Entwicklung der fachlichen Fähigkeiten betreffen. Kriterium bei dieser Betrachtung ist also das Erreichen nationaler Vorgaben unabhängig davon, wie die Testergebnisse im internationalen Vergleich einzustufen sind. Auch ein guter Rangplatz kann aus dieser Sicht zu wenig sein, ebenso wie ein schlechter nicht Anlass zur Sorge sein muss, wenn er in einem national nur als mäßig wichtig erachteten Leistungsbereich erzielt wird.

Die zweite Betrachtungsweise erfordert mehr Hintergrundwissen und vor allem detailliertere Informationen über die Ergebnisse als die erste, die schon beim Vorhandensein tabellarischer Auflistungen von Mittelwerten o. ä. eingenommen werden kann. Den Bezug zu den nationalen Vorgaben herzustellen, bedeutet im Endeffekt, eine fachdidaktische Diskussion zu führen. Zum einen, weil in den internationalen Berichten die nationalen Gegebenheiten nicht in der nötigen Ausführlichkeit dargestellt sind und österreichspezifische Auswertungen nur zum Teil vorliegen, und zum anderen, weil eine allgemeine fachdidaktische Auseinandersetzung den Rahmen dieser Broschüre sprengen würde, wird die zweite Betrachtungsweise beim folgenden allgemeinen Überblick über die Ergebnisse höchstens ansatzweise eingenommen.

Welche Kenngrößen werden zur Darstellung der Leistungen verwendet?

Die Auswertung der Tests greift auf eine Vielzahl von mathematisch-statistischen Begriffen und Verfahren zurück.

So wird etwa berechnet, wie viel Prozent der maximal möglichen Punkte die Schüler/innen einer bestimmten Gruppe - eines Landes, eines Geschlechts usw. - bei den Aufgaben insgesamt oder in einzelnen Stoffgebieten erreichen.

Eine andere, oft angeführte Kenngröße in den TIMS-Studien ist auch der "Leistungsmittelwert". Er gibt nicht die durchschnittlich bei den Aufgaben erreichte Punktezahl an, sondern ist ein aus den Daten ermittelter Schätzwert für die Leistungsfähigkeit der Schülerinnen und Schüler. Der Berechnung liegt die Annahme zu Grunde, dass das beobachtete Testverhalten, das heißt, wie viele Aufgaben richtig oder falsch gelöst wurden, bedingt ist durch erstens die Leistungsfähigkeit der Personen sowie zweitens durch die Schwierigkeit der Aufgaben. Aus dem - wiederum auf eine bestimmte Weise gedachten und dementsprechend mathematisch formulierten - Zusammenhang dieser drei Größen wird auf die Leistungsfähigkeit geschlossen (der Fachausdruck lautet "Analyse nach Rasch"). Die zahlenmäßige Höhe 500 für den internationalen Gesamtmittelwert aller Gruppen aller Länder in jedem TIMSS-Test ist willkürlich festgelegt; die Höhe der Mittelwerte von Untergruppen, wie der Schüler/innen der einzelnen Länder, beruht dann darauf.

Die so gewonnenen Fähigkeitswerte werden dann auch verwendet, um die Schüler/innen in "Leistungsklassen" einzuteilen, wie zum Beispiel die 10% Besten, die 25% Besten, die obere Hälfte usw. Dieses Vorgehen dient insbesondere dem Vergleich der Leistungsstärke ausgewählter Gruppen. Wenn etwa der Wert berechnet wurde, den international über alle Länder hinweg nur ein Viertel der Schüler/innen erreicht bzw. übertrifft, so kann dann festgestellt werden, wie viel Prozent der Schülerinnen und Schüler in den einzelnen Ländern diesen erzielen. Auf nationaler Ebene kann auf diese Weise beispielsweise auch die Leistungsstärke in den verschiedenen Schultypen eruiert werden.

Unterschiede zwischen den Werten verschiedener Gruppen werden dann auf ihre "Echtheit" geprüft. Untersucht werden ja immer nur Stichproben - nicht etwa alle Mädchen oder alle Buben in der interessierenden Schulstufe. Es könnte also sein, dass sich zwar die ermittelten Kennwerte der tatsächlich getesteten Mädchen und Buben unterscheiden, aber eben nur zufällig, und nicht die der Mädchen und Buben insgesamt. Mittels so genannter "statistischer Hypothesentests" geprüfte, echte Unterschiede, für die die Wahrscheinlichkeit eines Fehlurteils (das sich nicht gänzlich ausschließen lässt) maximal fünf Prozent beträgt, heißen dann "signifikant".