• Keine Ergebnisse gefunden

Kapitel 3 Stand des Wissens

3.2 Tests

3.2.2 Testtheorien

viele neue Fragen hinsichtlich der Auswertung von Tests. Die Entwicklung der klassischen Testtheorie nahm ihren Lauf und im Jahre 1950 wurde diese erstmals von dem Amerikaner Gulliksen definiert [GULL 1965].

In den 1960er Jahren kamen dann die kriteriumsorientierten Tests vermehrt auf. Insbesondere lernzielorientierte Tests (z.B. Lernkontrollen) wurden in den Schulen durchgeführt.

In diese Zeit fällt auch die Entwicklung der probabilistischen Testtheorie. Diese wurde vor al-lem durch Rasch seit Mitte der 1960er Jahre diskutiert (Entwicklung der Rasch-Modelle) [BRAN 2001].

In Deutschland kam es infolge des PISA-Bildungsschocks (2001) zu einer Bildungsoffensive, die in einer neuen Lust des „sich-testen-„ und des “sich-vergleichen-wollen“ mündete. Zahl-reiche neue Quizshows entstanden und erfreuen sich nach wie vor großer Beliebtheit.

3.2.2 Testtheorien

bezeichnet wird, die neuere ist die probabilistische Testtheorie (IRT, Item-Response-Theorie), die zwar selten Anwendung findet, aber einige Vorteile gegenüber der KTT besitzt, da sie sich auch darum kümmert, wie und warum bestimmte Antworten auf Fragen zustande kom-men. Trotzdem basieren 95 Prozent aller Tests auf der KTT, denn sie hat sich bewährt und ist wesentlich einfacher in der Handhabung [BÜHN 2004].

Bei beiden Testtheorien werden im Zuge der Testanalyse Items, die entweder zu 0 oder zu 100 Prozent gelöst wurden, aus der Auswertung ausgeschlossen; bei der IRT zusätzlich alle Personen mit einem Ergebnis von 0 oder 100 Prozent. All diese Werte liefern keine Informa-tion über die zu bestimmende Fähigkeitsausprägung.

Klassische und probabilistische Testtheorie bestehen heutzutage nebeneinander und ergänzen sich [LIEN 1996].

3.2.2.2 Klassische Testtheorie (KTT)

Die klassische Testtheorie trägt dem Umstand Rechnung, dass Testergebnisse einzelner Per-sonen zwischen verschiedenen Messzeitpunkten variieren. Dabei liegt stets der gleiche Test zu Grunde.

Gründe dafür sind z.B.:

• positive Einflüsse:

o Übungseffekt o Trainingseffekte

• negative Einflüsse

o unsystematische äußere Einflüsse

o unsystematische innere Einflüsse (z.B. Müdigkeit, Motivation)

Der Fehlerbegriff der KTT berücksichtigt nur die (negativen) unsystematischen Fehler. Dar-über hinaus werden keine Annahmen gemacht, wie Items beantwortet werden oder wie eine Testleistung zustande kommt. Damit ist die klassische Testtheorie eine reine Messfehlertheo-rie.

Die Grundgleichung der KTT lautet:

X T E= + mit:

X: beobachteter (gemessener) Wert T: wahrer (richtiger) Wert

E: Messfehler

Daraus lassen sich zwei wesentliche Folgerungen ableiten:

1. Der Mittelwert des Messfehlers über unendlich viele Messungen einer Person und ei-ner Messung eiei-ner beliebigen Population oder Teilpopulation ist Null.

2. Es besteht kein Zusammenhang zwischen dem Messfehler und dem wahren Wert einer Person, Population oder Teilpopulation. (Der Messfehler ist bei schlechten und guten Lernern gleich.)

Weiterhin gilt folgende Annahme:

Der Messfehler eines Tests A (z.B. Gedächtnistest) weist keinen Zusammenhang mit dem Messfehler eines anderen Tests B (z.B. Leistungstest) auf, allerdings nur, wenn beide Messvorgänge experimentell unabhängig sind.

Die KTT ist nur sinnvoll anwendbar, wenn bei den Messwerten sinnvoll Differenzen gebildet werden können, d.h. bildlich gesprochen, dass man mit der KTT nicht „Äpfel mit Bir-nen“ vergleichen kann. Für die KTT ist Intervallskalenniveau der Messwerte erforderlich, mit Einschränkung auch Ordinalskalenniveau; Nominale Skalen sind nicht einsetzbar, wie in Ab-schnitt 3.2.2.4 näher erläutert wird.

Die Testwerte und damit die Auswertungsergebnisse sind bei der KTT stichprobenabhängig.

Für einen Intelligenztest würde das bedeuten, dass die Testkennwerte (z.B. die Schwierigkeit des Tests) je nach Probandengruppe (z.B. Hauptschüler und Abiturienten) unterschiedlich ausfallen, was ein großes Problem der KTT darstellt.

Eine wichtige statistische Methode der KTT ist die Faktorenanalyse. Sie hat in diesem Zu-sammenhang vier Einsatzgebiete:

• Neustrukturierung eines noch wenig bekannten Gebietes

• Schätzung von direkt nicht messbaren Größen

• Spezialprobleme

• Reduktion von (nutzlosen) Daten, insbesondere Items

Die KTT fordert die lokale statistische Unabhängigkeit der Items. In der Regel weisen die Antworten zu den einzelnen Fragen (Items) eines Tests eine mehr oder weniger hohe Korrela-tion auf. Wenn man nun die latente Variable (Konstrukt) als konstant annimmt, z.B. nur Per-sonen mit gleich großem IQ betrachtet, dann dürfen die einzelnen Items eines Tests nicht mehr korrelieren. Diese als lokale stochastische Unabhängigkeit bezeichnete Beziehung ist Voraussetzung dafür, dass ein Test bzw. ein Item auch geeignet ist, die entsprechende latente Variable zu bestimmen. Dies ist nebenbei auch eine Voraussetzung der probabilistischen Testtheorie.

3.2.2.3 Probabilistische Testtheorie (IRT)

Die probabilistischen Testtheorie beschäftigt sich mit der Frage, wie Antworten auf Fragen zustande kommen. Zentrale Annahme dieser Theorie ist, dass die Antworten auf die Fragen

ein Indikator für die latente Variable (z.B. Fähigkeit) sind. Der große Vorteil dieser Theorie ist die Stichprobenunabhängigkeit, die stets mit Hilfe grafischer Verfahren oder mit einem Signifikanztest nachzuweisen ist. Sie ist insbesondere für psychologische Tests geeignet.

Ein großer Nachteil in der Handhabung der IRT ist, dass die beiden wesentlichen Einfluss-größen (Personen- und Itemparameter) geschätzt werden müssen. Durch die Schätzung wird der Umstand berücksichtigt, dass die empirisch gewonnen Itemantworten lediglich für eine Stichprobe von Personen repräsentativ sind. Die Schätzung ist notwendig, weil man einerseits für die Ermittlung der Personenfähigkeit nur eine Verhaltensstichprobe durch die Reaktion auf die Items im Test hat und weil man andererseits zur Bestimmung der Itemeigenschaften nur eine Stichprobe von Personen zur Verfügung hat, die den Test bearbeitet haben. Für die Schätzung der beiden Parameter bietet sich das Maximum-Likelihood-Verfahren an. Da die-ses Verfahren aber stets eine hohe Grundgesamtheit benötigt (N>1000) und dies bei den von mir untersuchten Lernkontrollen (noch) nicht gegeben war, konnte die probabilistische Test-theorie nicht für die Auswertung der Tests verwendet werden.

Wenn nach vollzogener Schätzung sowohl Item- (σ) als auch Personenparameter (θ) bekannt sind, kann man die Lösungswahrscheinlichkeit (p+) des zugehörigen Tests mit folgender For-mel bestimmen:

( )

( )

1 p e

e

σ σ + Θ−

= Θ−

+

Die Lösungswahrscheinlichkeiten lassen sich dann für jedes Item mit einer Item-Characteristics-Curve (ICC) darstellen.

Mit Hilfe des Kurvenverlaufs lassen sich auf einfache Art und Weise Aussagen über das je-weilige Item treffen:

• Je steiler der Kurvenverlauf, desto höher ist die Trennschärfe des Items.

• So genannte Rasch-homogene Items weisen den gleichen Kurvenverlauf (gleiche Stei-gung) auf und unterscheiden sich nur in der Schwierigkeit. In Abbildung 3-8 sind die vier Items, dargestellt durch die vier Graphen, Rasch-homogen. Das am weitesten rechts befindliche Item weißt die höchste Schwierigkeit auf, da es den höchsten Per-sonenparameter fordert.

Abbildung 3-8 ICC nach Rasch-Modell – Darstellung vier Rasch-homogener Items

3.2.2.4 Skalenniveaus

Für beide Theorien sind die Testwerte bezügliches ihres Skalenniveaus zu charakterisieren.

o Nominalskalenniveau

Messungen auf dem Niveau der Nominalskala erbringen nur Informationen über Identität bzw. Nicht-Identität der vergleichenden Objekte. Identität wird dabei durch die gemeinsame Zugehörigkeit zur selben Klasse definiert. Zum Beispiel gehören Äpfel und Birnen zur Klasse Obst. Eine Unterteilung kann al-so nur qualitativ erfolgen. Bei Nominalskalenniveau dient der Modus zur sta-tistischen Beschreibung.

o Ordinalskalenniveau

Die Ordinal- oder Rangskala nimmt auf dem untersten Niveau eine quantitati-ve Unterscheidung vor. Eine Ordnung erfolgt hinsichtlich Größer-Kleiner-Beziehungen. Dabei lässt sich nur eine Aussage über den Rang, nicht aber über Differenzen zwischen den Messwerten treffen. Damit können auch keine arithmetischen Operationen durchgeführt werden. Ein Beispiel für eine solche Skala sind Schulnoten von Rang 1 bis Rang 6. Bei Ordinalskalenniveau kann eine Verteilung mit Hilfe von Median und Interquartilabstand beschrieben werden.

o Intervallskalenniveau

Durch die Definition von Abständen zwischen den Skalenpunkten erhält man Intervallskalenniveau. Gleich große Differenzen zwischen einzelnen Messwer-ten bedeuMesswer-ten auch gleiche Abstände. Das Intervallskalenniveau erlaubt damit Differenzbildung und Relationen. Ein Beispiel für diese Skala ist die Skala In-telligenzquotient. Ein Probeband mit einem IQ von 110 gegenüber einem mit IQ von 100 ist um das gleiche Maß intelligenter als ein Proband mit einem IQ von 125 gegenüber einem mit IQ von 115. Die Skalen von Lernkontrollen ha-ben nicht zwangsläufig Intervallskalenniveau, sind aber stets durch einfache

statistische Verfahren dahingehend transformierbar. Bei Intervallskalenniveau ermittelt man Mittelwert und Standardabweichung, um die Verteilung der Da-ten beschreiben zu können. Eine Normalverteilung der DaDa-ten wird dabei vor-ausgesetzt und muss ggf. überprüft werden. Ein dafür gängiges Verfahren ist der Kolmogorov-Smirnov-Test.

o Verhältnisskalenniveau

Die Verhältnisskala hat das höchste Niveau der Skalenhierachie. Alle physika-lische Skalen (z.B. Gewichtsskala [kg]) weisen dieses Niveau auf. Bei den hier behandelten Testverfahren spielt das Niveau keine Rolle.

3.2.3 Gütekriterien