• Keine Ergebnisse gefunden

Validität, Reliabilität und Praktikabilität

8. Grundlagen des ABT-Konzeptes zur Leistungseinschätzung des Sprechens Sprechens

8.2 Validität, Reliabilität und Praktikabilität

Die Qualitätskriterien Validität, Reliabilität und Praktikabilität stammen aus der Testtheorie bzw. -konstruktion. Auch wenn sie vor allen Dingen im Zusammenhang mit stark formalisierten Tests genannt werden, sind sie auch für weniger formale Formen der Leistungseinschätzung wichtig. Für das Konzept, das der empirischen Untersuchung zugrunde lag, wurden sie von Anfang an mit bedacht.

Während die ersten beiden Gütekriterien, also Validität und Reliabilität, immer genannt werden, wird das dritte Kriterium in der Fachliteratur unterschiedlich behandelt: Quetz und Weskamp nennen gar kein drittes Gütekriterium (vgl. Quetz 1999: 58ff, Weskamp 2001: 176ff), Albers & Bolton sprechen von Objektivität (vgl.

Albers & Bolton 1995: 22ff), Cameron von Fairness (vgl. Cameron 2001: 226) und Genesee & Upshur von Praktikabilität (vgl. Genesee & Upshur 1996: 56f). Diese Arbeit orientiert sich an Genesee und Upshur, die den Aspekt der Praktikabilität als weiteres Gütekriterium nennen, denn schließlich entscheidet dieser, ob eine Leistungseinschätzung überhaupt durchführbar ist. Auch wenn ein Verfahren zur Leistungsbeurteilung valide und reliabel ist, nützt es nichts, solange es nicht in der Praxis angewendet werden kann. Die Aspekte Objektivität und Fairness hingegen werden nicht als Gütekriterien, sondern als deren Ziele betrachtet: Durch die Gewährleistung der Realibilität, Validität und Praktikabilität wird sichergestellt, dass die Leistungseinschätzung möglichst objektiv, gerecht und zuverlässig ist. Wichtig ist hierbei die Hervorhebung des Wortes „möglichst“, was sich z.B. im Zusammenhang mit Objektivität zeigen lässt: Während man in der Mathematik oft ein objektives Urteil fällen kann, z.B. bei der Frage, ob 3 + 4 = 7 ist, ist die Einschätzung mündlicher Leistung niemals objektiv, sondern hängt von der subjektiven Beurteilung des Einzelnen, und damit auch von dessen Kompetenz ab:

„(...) the rating given to a candidate is a reflection, not only of the quality of the performance, but of the qualities as a rater of the person who has judged it.“

(McNamara 2000: 37). Die Subjektivität muss also als Tatsache anerkannt werden.

Gleichzeitig kann und sollte die Objektivität jedoch durch verschiedene Maßnahmen, wie z.B. klar definierte Kriterien und Erwartungen sowie Ausbildung der diagnostischen Kompetenz der Lehrkräfte erhöht werden. Die Gütekriterien und die damit verbundenen Überlegungen sind zur Steigerung der Objektivität, Fairness und Zuverlässigkeit auch hilfreich.

Validität

Bei der Validität geht es um die Frage, ob tatsächlich die Leistung eingeschätzt wird, die man einschätzen möchte. In anderen Worten: “validity is the extend to which the information you get is the information you want” (Genesee & Upshur 1996:63). Was trivial klingt, ist in der Praxis oft ein Hauptproblem bei der Leistungseinschätzung.

Offensichtlich werden die Schwierigkeiten in der Unterrichtspraxis vor allem bei der inhaltlichen Validität, bei der es um den Vergleich zwischen den Zielen und den Inhalten der Leistungsbeurteilung geht. Möchte man z.B. die Sprechleistung der Schüler valide erfassen, so ist zunächst wichtig, dass das Sprechen bzw. Sprechen und Hören im Mittelpunkt steht und nicht andere Fertigkeiten. Außerdem muss die Bandbreite der Kompetenz abgebildet werden. Dementsprechend reicht nicht die Beurteilung einer oder mehrerer Aufgaben zum zusammenhängenden Sprechen.

Auch Aufgaben der mündlichen Interaktion, wie z.B. der Austausch von persönlichen Informationen (Name, Alter, Befinden ...), sind wichtiger Bestandteil der Kompetenz Sprechen und dementsprechend der Leistungseinschätzung des Sprechens. Bei solchen Aufgaben zur Interaktion wiederum geht es aufgrund der Reziprozität des Sprechens nie alleine um das Sprechen, sondern auch immer um das Hörverstehen (vgl. Kap. 3.2).

Bleibt man bei diesem Beispiel, gibt es weitere Aspekte zur inhaltlichen Validität zu beachten: Wird z.B. für ein Gespräch bzw. Interview eine Tabelle als Grundlage genommen, bei der die Kinder die Antworten eintragen können, so müssen sie den

Umgang mit einer Tabelle bereits beherrschen. Ansonsten können manche Lerner bei dieser Aufgabe scheitern, und zwar nicht, weil sie nicht über die linguistischen und artikulatorischen Möglichkeiten verfügen, sondern weil sie nicht mit einer Tabelle umgehen können. Ebenso kann es Schwierigkeiten bei dem Eintragen der Antworten geben: Wird von den Schülern verlangt, dass sie die Antworten schreiben (statt zu malen), und wird dies beurteilt, so handelt es sich nicht mehr um eine valide Leistungseinschätzung der Fertigkeit des Sprechens und des Hörverstehens.

Inhaltliche Invalidität kann auch entstehen, wenn Hintergrundwissen oder kulturelles Wissen zur Bewältigung einer Aufgabe erforderlich ist, über das nicht alle Kinder in einer Klasse verfügen. So berichtet Cameron folgendes:

Consider a simple test that showed children various pictures of objects to name in the foreign language as a test of vocabulary. Suppose the pupils being tested had learnt the word “milk” and linked it to the cartons of milk that they regularly buy from their supermarket. If the test picture for milk showed a glass bottle on a doorstep (as milk is experienced by a child in the UK, although increasingly infrequent!), then the testee may well not be able to answer. Rather than testing knowledge of the vocabulary item, the test was testing knowledge of another culture. It would thus not be valid as a test for the word milk.

(Cameron 2001: 224)

Dieses Beispiel zeigt, dass bei Bildmaterial, das häufig in der Grundschule verwendet wird, mit Bedacht gewählt werden muss. Es muss deutlich werden, was auf dem Bild dargestellt wird und die Qualität der Illustration muss gut sein. Ebenso verhält es sich mit anderen Materialien, wie z.B. Tonbandaufnahmen.

Neben dem Material sind die Arbeitsanweisungen wichtig für eine valide Leistungseinschätzung. Sind sie klar und präzise, wissen die Kinder, was von ihnen verlangt wird.

Ein ganz entscheidender Aspekt für die Gewährleistung der Validität ist die Vorbereitung der Schüler auf die Leistungseinschätzung. Sind die Lerner durch den Unterricht vertraut mit den Aufgaben und der Durchführung der Leistungseinschätzung, können sie sich auf die Bewältigung der Aufgabe konzentrieren.

Neben all diesen Gesichtspunkten, die sich auf die inhaltliche Validität beziehen, gibt es noch die Konstruktvalidität (construct validity) und die augenscheinliche Validität (face validity). Die Konstruktvalidität wird hauptsächlich bei standardisierten Tests angewandt: Entspricht der Test der Theorie, die dahinter steht? Werden z.B. klar definierte Aspekte der Sprachkompetenz Sprechen erfasst? Dabei steht es in engem Bezug zur inhaltlichen Validität.

Die augenscheinliche Validität bezieht sich auf den Eindruck, den die Leistungseinschätzung macht: Wird bei der Leistungsbeurteilung das erfasst, was sie vorgibt, zu erfassen? „In other words, there is a kind of psychological factor involved in testing. The test must appear to have something to do with the skill you are trying to test.“ (Baxter 1997: 20).

Reliabilität

Das zweite Gütekriterium, die Reliabilität bezieht sich auf die Zuverlässigkeit der Leistungseinschätzung (engl. reliable = zuverlässig). Reliabilität „refers to consistency and stability, to freedom from non-systematic fluctuation“ (Genesee &

Upshur 1996: 56). In anderen Worten: „Test reliability means If it was possible to

give the same person the same test at the same time, would the result be the same?“

(Baxter 1997: 22).

Natürlich kann man keine identischen Ergebnisse erwarten, wenn zwei Gruppen von derselben Lehrkraft eingeschätzt werden oder wenn eine Gruppe von zwei unterschiedlichen Lehrkräften beurteilt wird, da auch vergleichbare Gruppen und Lehrkräfte sich hinsichtlich vieler Variablen unterscheiden. Trotzdem kann und muss die Leistungseinschätzung weitgehend reliabel sein.

Bei der Reliabilität unterscheidet man zwischen drei Arten:

- objektbezogene (oder personenbezogene) Reliabilität (object-related (or person-related) reliability)

- instrumenten- bzw. Materialbezogene Reliabilität (instrument-related reliability) und

- prüferbezogene Reliabilität (rater-related reliabity)

Die objekt- bzw. personenbezogene Reliabilität bezieht sich auf die Tatsache, dass das gleiche Kind zu einem anderen Zeitpunkt die gleiche Leistung zeigen können sollte. Das bedeutet z.B., wenn einzelne Lerner krank sind oder wenn die Klasse gerade eine anstrengende Sportstunde hinter sich hat, können sie nicht bestmöglich ihre Kompetenzen zeigen. Allerdings gibt es in einer Klasse immer einzelne Schüler, die an dem betreffenden Tag nicht in der besten körperlichen und psychischen Verfassung sind. Um trotzdem eine reliable Leistungseinschätzung zu gewährleisten, sollten die Kinder zahlreiche und unterschiedliche Möglichkeiten erhalten, ihr Können und Wissen zu demonstrieren: „Using information about a student`s performance or achievement collected on different occasions and using different procedures is highly recommended when making decisions about second language learners.“ (Genesee & Upshur 1996: 59).

Die instrumentenbezogene Reliabilität hat mit der Durchführung, der Qualität der genutzten Materialien, sowie mit externen Faktoren, wie Zeit und Raum, zu tun.

Werden Materialien, wie z.B. Arbeitsblätter verwendet, müssen diese, auch wenn sie mehrfach kopiert wurden, bei der Leistungseinschätzung von guter Qualität sein, damit die Kinder die Bilder klar erkennen oder die Texte gut lesen können. Wenn ein Tonband eingesetzt wird, sollte die Aufnahme gut sein. Außerdem dürfen die Kinder während der Leistungsbeurteilung nicht durch laute Geräusche oder stickige Räume in ihrer Konzentration beeinträchtigt werden. Zudem sollte bei einer reliablen Leistungseinschätzung der Zeitfaktor berücksichtigt werden. Auch wenn Lerner sehr unterschiedliche Arbeitsgeschwindigkeiten haben, sollte doch ein Großteil der Klasse die Aufgabe in der vorgegebenen Zeit bewältigen können. Hinzu kommt, dass unterschiedliche Sozialformen und Arten der Präsentation verwendet werden sollten:

Während ein Kind gerne etwas vor der ganzen Klasse präsentiert (z.B. einen Dialog vorspielt oder ein Lied singt), bevorzugen andere, mit der Lehrkraft alleine am Rande der Klasse zu sitzen. Manche Kinder arbeiten lieber in Kleingruppen oder in Partnerarbeit, andere lieber in Einzelarbeit. Eine gute Mischung zu finden, ist wichtig für die reliable Leistungsbeurteilung.

Die dritte Form der Reliabilität, die in der Literatur meist besondere Beachtung findet, ist die prüferbezogene. Diese umfasst zwei Aspekte:

firstly an assessor should come to the same results if she or he assesses under fairly the same conditions on different days or at different times of the day (intra-rater reliability); secondly, two teachers should produce the same results if they scored the same performance of a student (inter-rater reliability).

(Drese & Hochtstetter 2005a)

Es gibt viele Gründe für unreliables Prüferverhalten: die Lehrkraft kann müde, gestresst oder in schlechter Laune sein. Auch die Aufgabe selbst, kann die Ursache für unreliable Beurteilungen sein, wenn z.B. die Antworten unterschiedlich eingeschätzt werden können. Sagt z.B. ein Kind

247 S14 (…) I can see a window. In the window is water vom Himmel so kann eine Lehrkraft das Kind für dessen kreativen Umgang mit der Sprache loben (wenn das Wetter nicht gerade Thema der letzten Einheit war), während eine andere Lehrkraft es negativ beurteilt, das es nicht das Wort „rain“ kannte. Diese Beispiel zeigt, dass die Einschätzung der Leistung erheblich von der Kenntnis der Lernprozesses der Kinder abhängt (vgl. Kap. 3) und auch von dem vorhergegangenen Unterricht.

Damit sichergestellt wird, dass die Leistungseinschätzung möglichst zuverlässig, nachvollziehbar, transparent und konsistent ist, kann z.B. vorher ein verbindlicher Erwartungshorizont und ein einheitliches Vorgehen mit anderen Lehrkräften abgesprochen und formuliert werden. Die Anleitung für das Vorgehen legt z.B. die Arbeitsanweisung fest, wie oft diese wiederholt werden und welche Hilfen gegeben werden. Der Erwartungshorizont kann bei halb-offenen Aufgaben recht genau festgelegt werden, bei offenen Aufgaben muss er recht offen gestaltet werden (vgl.

Kap. 4.4.2). Außerdem ist gerade bei Sprechaufgaben wichtig, dass die Kriterien zur Leistungseinschätzung klar sind: Geht es darum, dass die Schüler viele verschiedene Strukturen variabel und kreativ einsetzen oder sollen sie wenige Strukturen fehlerfrei benutzen? Diese Erwartungen für die Kinder transparent zu machen, ist auch ein wichtiger Aspekt der Reliabilität.

Prüferreliabilität kann zudem erhöht werden, wenn Lehrkräfte ein Schulung erhalten, bei dem sie ihre diagnostische Kompetenz verbessern können (für eine Übersicht über die Faktoren, die Reliabilität erhöhen vgl. Genesee & Upshur 1996: 60).

Validität und Reliabilität haben teils widersprüchliche Anforderungen: Sehr reliable Leistungseinschätzungen können Gefahr laufen, nicht mehr valide zu sein:

The most reliable assessment will be pencil and paper tests in which each item measures only a single aspect of a skill and which give each testee a numerical mark. But the most valid assessments will be those that collect a lot of information about performance on several aspects of a skill. When validity is increased, reliability decreases.

(Cameron 2001: 225)

Die Validität sollte im Vordergrund stehen, was sich bezogen auf die Kompetenz Sprechen folgendermaßen verdeutlichen lässt: Es gibt recht reliable Verfahren zur Leistungsfeststellung des Sprechens, z.B. das Nachsprechen einzelner Wörter oder Sätze und die Bewältigung halb-offener Aufgaben. Jedoch kann - sofern nur solche Aufgaben zur Beurteilung der Sprechkompetenz genutzt werden - diese Leistungseinschätzung nicht als valide bezeichnet werden. Geht es nämlich darum, die Kompetenz einzuschätzen, die eingeschätzt werden soll, so muss auch die Bandbreite der Fertigkeit abgebildet werden. Dass bedeutet, dass die Kinder bei der Bewältigung von Aufgaben sowohl des zusammenhängenden wie auch des interaktiven Sprechens beurteilt werden und dass dabei auch offene Aufgaben genutzt werden. Müssen also bei einem der beiden Gütekriterien Abstriche gemacht werden, so kann das eher bei der Reliabilität als bei der Validität geschehen (vgl.

auch Weir 1988: 32ff; Cameron 2001: 225f).

Praktikabilität

Das dritte Gütekriterium ist die Praktikabilität. Dazu gehört die Frage, wie viele Kinder auf einmal erfasst werden können. Während z.B. bei schriftlichen Tests die ganze Klasse beteiligt sein kann, sind es bei der mündlichen Leistungseinschätzung immer nur einige Schüler. Dies wiederum hat Konsequenzen für die zeitliche Planung: Wie viel Zeit benötigt die Lehrkraft, um die Sprechleistung aller Schüler einer Klasse einzuschätzen? Wie viel Zeit muss für eine Aufgabe eingeplant werden, ohne dass die Schüler unter Zeitdruck geraten? Wie viel Zeit steht der Lehrkraft zur Verfügung? (vgl. Genesee & Upshur 1996: 57) Fachlehrer haben oft nur einzelne Stunden, während Klassenlehrer in der Regel zeitlich flexibel sind und auch eine Doppelstunde nutzen können. Zusätzlich zu der Zeit für die Durchführung, muss auch die Zeit eingeplant werden, die die Lehrkraft für die Vor- und Nachbereitung benötigt. So wird z.B. bei der Leistungseinschätzung für die Kompetenz Sprechen oft betont, dass es sinnvoll ist, wenn sich die Lehrkräfte die Äußerungen mehrmals anhören können und dass sie deswegen auf Audio- oder Videobänder aufgezeichnet werden sollten. Abgesehen von der Frage, ob die Klasse entsprechend ausgestattet ist und wie viel die Aufnahmen kosten, ist der Zeitaufwand, mit der die Lehrkraft die Aufnahmen auswertet, erheblich. Hinzu kommt, dass es aufgrund des Lärmpegels in der Klasse schwierig ist, die Kinderäußerungen in guter Qualität auf Band aufzunehmen. Grundsätzlich könnten Kinder natürlich auf andere Räume ausweichen. Doch in vielen Schulen stehen diese nicht zur Verfügung bzw. die Lehrkraft kann ihrer Aufsichtspflicht nicht in beiden Räumen nachkommen.

Auch bei der Dokumentation der Schülerleistung ist es wichtig zu sehen, was praktikabel ist: Wann können die Lehrkräfte die Aufzeichnungen machen? Wenn sie unterrichten ist während der Stunde oft kaum Zeit und auch nach dem Unterricht können sie nur selten in Ruhe Notizen machen, weil Kinder, Kollegen oder Eltern zu ihnen kommen oder sie den Raum wechseln müssen.

Die Praktikabilität ist das Gütekriterium, das insbesondere bei der Leistungseinschätzung des Sprechens eine entscheidende Rolle für die Lehrkräfte spielt. Viele sehen die Notwendigkeit, auch mündliche Leistung einzuschätzen, doch wissen nicht, wie sie das konkret umsetzen sollen. So stellt z.B. Diehr fest:

„Gleichzeitig sind praktikable Formen der mündlichen Leistungseinschätzung zu entwicklen. (…) Da noch keine grundschulespezifische Testtypologie für Englisch vorliegt, besteht eine vordringliche Entwicklungsaufgabe darin, (…) Verfahren und Materialien zur Leistungsfeststellung weiterzuentwickeln und zu erproben.“ (Diehr 2005b: 32). Welche Varianten der formativen Leistungseinschätzung des Sprechens gibt es also?

8.3 Varianten der formativen Leistungseinschätzung des