Konkretisierung und Operationalisierung von Bildungsstandards

interdisziplinärer Kooperation

2 Die Bildungsstandards der Kultusministerkonferenz

2.3 Konkretisierung und Operationalisierung von Bildungsstandards

Bei Kompetenzen handelt es sich um theoretische Konstrukte, die nur mit Hilfe von geeigneten Messinstrumenten der Beobachtung zugänglich gemacht werden können (Köller 2008). Um das Erreichen der länderübergreifenden Bildungs-standards im Fach Deutsch in der Sekundarstufe I überprüfen zu können, war es somit zunächst erforderlich, die Bildungsstandards zu konkretisieren und in Testaufgaben zu operationalisieren (vgl. Böhme et al. 2010).

Der Prozess der bildungsstandardbasierten Testentwicklung erfolgt in meh-reren Schritten, die nachfolgend mit Fokus auf den Bereich Lesen kurz skizziert werden sollen. Ziel dieses Prozesses ist die Entwicklung reliabler und valider Messinstrumente für die Überprüfung des Erreichens der Bildungsstandards in den Ländervergleichsstudien. Für das Fach Deutsch in der Sekundarstufe I wur-de dieser Prozess in wur-den Jahren 2007 bis 2010 durchlaufen. Seitwur-dem finwur-det eine kontinuierliche Aufgabenentwicklung für die Vergleichsarbeiten in der 8. Jahr-gangsstufe statt, die einem ähnlichen Konzept folgt.

Für die initiale Testentwicklung wurde zunächst in Vorarbeiten des IQB in enger Kooperation mit Expertinnen und Experten aus der Deutschdidaktik prä-zisiert, welche der in den Bildungsstandards beschriebenen Kompetenzaspekte im Rahmen eines Large-Scale-Assessments operationalisiert werden können und wie diese zu speziﬁzieren sind (vgl. Abschnitt 2.2). Auf der Basis internationa-ler Standards erarbeiteten Mitarbeiterinnen und Mitarbeiter des IQB Hinwei-se zur Entwicklung und Gestaltung von Testaufgaben (Items). Mit Hilfe dieHinwei-ser Handreichungen wurde ein Aufgabenentwicklerteam im Rahmen von intensiven Schulungen darüber informiert, wie gute Testaufgaben konstruiert sind und wie typische Fehler bei der Itementwicklung vermieden werden können. Diese Pha-se der Instruktion im Vorfeld der eigentlichen Aufgabenentwicklung war somit stark bildungswissenschaftlich geprägt. Das Aufgabenentwicklerteam setzte sich aus 14 erfahrenen Lehrkräften der Sekundarstufe I aus ganz Deutschland zu-sammen und arbeitete unter fachdidaktischer Anleitung von März bis Oktober

Iris Winkler and Frederike Schmidt - 978-3-631-69285-1

2007 an der Auswahl geeigneter Textstimuli sowie der Generierung und Opti-mierung entsprechender Testaufgaben. Die Aufgaben wurden bereits in dieser frühen Entwicklungsphase durch die Lehrkräfte in ausgewählten Klassen im Rah-men sogenannter Präpilotierungen erprobt, um authentische Schülerlösungen als Grundlage für die Entwicklung von Auswertungsanleitungen und Hinweise für die Optimierung der Items zu erhalten. In einem zweiten Schritt beurteilten und kommentierten Expertinnen und Experten aus der Deutschdidaktik sowie der empirischen Bildungsforschung die vorerprobten Items in Hinblick auf ihre fachdidaktische und testdiagnostische Qualität. Anhand dieser Rückmeldungen wurden die Aufgaben weiter überarbeitet und optimiert.

Auch in dieser Phase der Aufgabenentwicklung waren Aushandlungsprozesse von entscheidender Bedeutung. Diese waren sowohl zwischen der eher praxiso-rientierten Sichtweite der Lehrkräfte und der eher wissenschaftlich opraxiso-rientierten Perspektive der beratenden Expertinnen und Experten wie auch zwischen den verschiedenen beteiligten Wissenschaftsdisziplinen erforderlich. Art und Inhalt der Aushandlungsprozesse in der Phase der Aufgabenentwicklung möchten wir am Beispiel der eingesetzten Itemformate verdeutlichen.

Zur Erhebung der Lesekompetenz werden in den Tests des IQB Aufgaben eingesetzt, die aus einem Textstimulus und einer Reihe von einzelnen Aufga-benstellungen (Items) bestehen. Als Stimuli werden Sachtexte, Zeitungsartikel, literarische Texte und Diagramme bzw. Schaubilder verwendet. Zu diesen Tex-ten werden Items unterschiedlicher Formate entwickelt. Dies sind zum einen geschlossene Itemformate. Hierzu zählen bspw. Multiple-Choice-Items, bei denen in der IQB-Version zu einer Aussage oder einer Frage vier Antwortoptionen vorgegeben werden, von denen immer nur eine richtig ist. Diese soll ausge-wählt und angekreuzt werden. Zu den geschlossenen Itemformaten zählen auch Richtig-Falsch-Items. Bei diesem Itemtyp werden mehrere Aussagen vorgegeben, für die jeweils entschieden werden muss, ob sie richtig oder falsch sind. Diese Entscheidungen werden zeilenweise durch Ankreuzen (richtig oder falsch) ge-troffen. Eine dritte Variante geschlossener Items stellen Zuordnungsitems dar. Hier müssen verschiedene Elemente aus zwei Gruppen – Problem und Lösung bzw.

Frage und Antwort – einander zugeordnet werden. Die Items sind in der Regel so aufgebaut, dass eine vollständige Zuordnung der Elemente nicht möglich ist, da die beiden Gruppen ungleiche Anzahlen an Elementen enthalten. So wird verhindert, dass die letzte Zuordnung bereits durch die Lösung aller vorherge-henden Zuordnungen gegeben ist. Aufgrund der Abhängigkeiten, die zwischen den einzelnen Entscheidungen bestehen, wird nur die richtige Zuordnung aller Elemente als korrekte Antwort bewertet. Ein solches Bewertungsverfahren ist

Iris Winkler and Frederike Schmidt - 978-3-631-69285-1

vielen Lehrkräften nur schwer zu vermitteln, weil auf diese Weise richtige Teil-antworten keine Punkte erhalten.

Zum anderen gibt es neben geschlossenen Itemformaten auch halboffene und offene Formate. Halboffene Items sind Kurzantworten, bei denen die Schülerin-nen und Schüler einzelne InformatioSchülerin-nen, wie etwa Zahlen, Daten, Eigennamen oder einzelne Wörter, selbstständig niederschreiben. Bei offenen Items müssen die Schülerinnen und Schüler eigenständig eine (meist längere) Antwort frei formulieren. Offene Items sind im Allgemeinen schwieriger als geschlossene Items, da hier keinerlei Hinweise auf die richtige Antwort vorliegen und die Beantwortung des Items meist eine eigenständige Inferenz oder aber die sinngemäße Wiedergabe von im Text enthaltenen Informationen erfordert. Des Weiteren sind offene Items meist schwieriger zu bewerten, weil hier interpretiert werden muss, inwieweit die Antworten mit den Erwartungen übereinstimmen.

Der Einsatz geschlossener Itemformate, insbesondere von MC-Items, hat ver-schiedene psychometrische Vorteile. Dies sind unter anderem die verhältnismäßig kurze, zur Bearbeitung benötigte Testzeit und die hohe Auswertungs- und Inter-pretationsobjektivität, da die Items automatisch kodiert werden können. Den be-teiligten Lehrkräften und auch den fachdidaktischen Expertinnen und Experten waren geschlossene Itemtypen zu Beginn des Aufgabenentwicklungsprozesses allerdings weitgehend unbekannt, was mit einer gewissen Skepsis gegen diese Form der Leistungsmessung einherging. Während sich MC-Items im Verlauf der Testung und insbesondere während der Auswertung der Schülerantworten durch geringen Aufwand auszeichnen, sind diese Items in der Phase der Entwicklung besonders arbeits- und zeitaufwändig. Der Itemstamm soll nach Möglichkeit mit geringem zusätzlichem Leseaufwand auf konstruktrelevante Leseanforderungen abzielen, die sich nicht ausschließlich auf den reinen Abgleich mit im Text gege-benen Einzelinformationen beschränken. Der Attraktor, also die richtige Antwor-toption, muss für kompetente Schülerinnen und Schüler eindeutig identifizierbar sein, ohne allein aufgrund der formalen Gestaltung (bspw. durch die Länge der Option oder ihre grammatikalische Gestaltung) hervorzustechen und die Dis-traktoren, also die drei falschen Antwortoptionen, sollten einerseits plausibel, andererseits nicht verwirrend sein, sondern im Idealfall typische Fehlvorstellun-gen abbilden. Daher musste zunächst in Gesprächen und auf Basis empirischer Erprobungen von Itementwürfen gemeinsam erarbeitet werden, wie genau gute geschlossene Items gestaltet werden können. Auch dass psychometrische Vorteile die oft zähe und langwierige Entwicklung geschlossener Formate rechtfertigen, musste zunächst ausgehandelt werden. Eine wichtige Erkenntnis hierbei war unter anderem, dass offene Formate zwar in der Entwicklung deutlich weniger Aufwand

Iris Winkler and Frederike Schmidt - 978-3-631-69285-1

erfordern, dafür aber die Abklärung, welche freie Antwort als (noch) korrekt gelten und von den Jugendlichen erwartet werden kann, deutlich schwieriger und zeitaufwändiger ist. Diese Abklärung umfasste zu jedem offenen Item unter anderem Entscheidungen, welchen Umfang die Schülerantwort mindestens haben muss, ob ein konkretes Beispiel genügt oder ob eine abstraktere Aussage erwartet wird, welchen Stellenwert orthografische und grammatikalische Korrektheit der Schülerantwort haben und wie die jeweils eigenen Erwartungen der einzelnen Aufgabenentwickler mit den Erwartungen der Kolleginnen und Kollegen in Ein-klang gebracht und dann für Dritte eindeutig schriftlich fixiert werden können.

Damit traten die psychometrisch relevanten Aspekte der Objektivität und Relia-bilität der Messung auch für die beteiligten Lehrkräfte und die fachdidaktischen Expertinnen und Experten stärker in den Vordergrund. Gleichzeitig wurde für die Vertreterinnen und Vertreter der empirischen Bildungsforschung deutlich, dass es nur bedingt möglich ist, die kognitiven Anforderungen des Reflektierens und Bewertens mit geschlossenen Items und eindeutigen vorformulierten Ant-worten zu erheben.

Nach der Erstellung eines umfassenden Itempools wurden im Jahr 2007 drei Pilotierungsstudien durchgeführt, die der Überprüfung der Eignung der Aufgaben für Kompetenzmessungen dienten. Anhand der Analyse der Items auf Basis der Item Response Theory (IRT) wurden psychometrisch problematische Items iden-tifiziert und erneut revidiert oder aus dem Itempool entfernt. Weiterhin wurden für offene Items reale Schülerlösungen aus der Pilotierungsstudie für die Optimie-rung von Auswertungsanleitungen genutzt. Dieser dritte Schritt der Testentwick-lung resultierte in einem erprobten Aufgabenpool, der sowohl die Grundlage der nachfolgenden Normierung als auch der späteren Ländervergleiche bildete. Im Frühjahr 2008 wurden die Aufgaben auf der Basis einer national repräsentativen Stichprobe von ca. 7.900 Schülerinnen und Schülern der achten, neunten und zehnten Jahrgangsstufe normiert. Ziel dieser Studien war es, auf der Grundlage empirisch gewonnener Daten eine nationale Skala zu definieren, auf der sowohl die Fähigkeiten der Schülerinnen und Schüler als auch die Schwierigkeiten der eingesetzten Items verortet werden können. Diese Kompetenzskala bezeichnen wir nachfolgend als Bildungsstandardmetrik (BiSta-Metrik).

Auf Grundlage der empirischen Befunde aus den Pilotierungs- und Normie-rungsstudien sowie unter Bezugnahme auf fachdidaktische Kompetenzstruk-turmodelle (vgl. Abschnitt 3.1) wurden in einem abschließenden Schritt des Testentwicklungsprozesses Kompetenzstufenmodelle erarbeitet. Diese bezogen sich zunächst nur auf die Bildungsstandards für den Mittleren Schulabschluss im Fach Deutsch (KMK 2004). Den für die Entwicklung dieser Kompetenzstufenmodelle

Iris Winkler and Frederike Schmidt - 978-3-631-69285-1

erforderlichen Arbeitsprozess sowie die Erweiterung dieser Modelle zu integrier-ten Kompeintegrier-tenzstufenmodellen stellen wir in den Abschnitintegrier-ten 3.2 und 4 dieses Beitrags dar.

3 Die Entwicklung von Kompetenzstufenmodellen

Im Dokument Interdisziplinäre Forschung in der Deutschdidaktik (Seite 109-113)