4.3 Signalentdeckungstheorie zur Auswertung von Prüfungen
4.3.2 Praktische Probleme bei der Prüfungsauswertung mittels der Sig-
Ähnliche Probleme mit dem klassischen Bewertungsverfahren
Nachdem nun auf einige kritische Punkte und mögliche Lösungen bei der Verwendung der Signalentdeckungstheorie zur Prüfungsauswertung eingegangen wurde, soll hier nicht unerwähnt bleiben, dass auch die klassische Methode, einen Summenscore zu berechnen, zum Teil die gleichen Probleme aufweist. Auch hier werden zum Teil starke Annahmen gemacht, die jedoch oft ungeprüft und undiskutiert bleiben.
So ist es oft üblich, alle korrekt beantworteten Alternativen einer Prüfung mit der gleichen Punktzahl zu bewerten, so dass diese, ähnlich wie jedes einzelne Signal, in gleicher Weise zum Summenscore beiträgt. Bei diesem Vorgehen ist also keine Unter-scheidung in leichte bzw. schwere Alternativen möglich. Dem kann entgegengewirkt werden, indem unterschiedlich viele Punkte für verschiedene Alternativen vergeben werden, jedoch ist deren Größe meist willkürlich und steht ggf. in keinem Zusammen-hang zur tatsächlichen Schwierigkeit.
Weiterhin stellt ein Summenscore, genau wie die Schätzung der Signalentdeckungs-parameter, die Aggregation von Daten zu einem einzigen Wert dar, dessen Lage sich auf nur einer einzigen Dimension bewegt. Dies ist letztlich dem gesetzlich geregel-ten Prüfungssystem zuzuschreiben, das die Bewertung einer Prüfungsleistung mit-tels einer überschaubaren Anzahl Noten erforderlich macht, welche wiederum aus dem Summenscore abgeleitet werden.
4.3.2 Praktische Probleme bei der Prüfungsauswertung mittels der
Er-stellung dieser Arbeit im wesentlichen zwei praktische Probleme ergeben: Einerseits, wie mit fehlenden Daten umgegangen werden kann bzw. muss und andererseits, wie aus einer erfolgten Parameterschätzung eine Note abgeleitet werden kann.
Fehlende Daten
Zunächst soll hier das Problem der fehlenden Daten diskutiert werden. Diese ergeben sich immer dann, wenn Prüflinge eine Alternative nicht bearbeiten, wobei es hierfür eine Vielzahl von Gründen geben kann. So ist es möglich, dass ein Prüfling eine Alter-native bzw. deren Antwortboxen zwischen der Vielzahl der Antwortboxen der anderen Alternativen übersehen hat. Weiter ist es möglich, dass die für die Prüfung zur Ver-fügung stehende Zeit nicht ausgereicht hat und so die letzten Alternativen gar nicht bearbeitet werden konnten. Oder es ist möglich, dass ein Prüfling die richtige Antwort für eine Alternative nicht kennt und keine Antwort gibt, statt zu raten. Es ist damit klar, dass fehlende Daten beiMR -Aufgaben überhaupt nur bei den Antwortschlüsseln MTF undRx identifizierbar sind, da dort tatsächlich eine ganze Zeile von Antwortboxen frei bleibt. Bei derMC -Variante ist jedoch bei einer freien Box nicht unterscheidbar, ob dies eine tatsächliche „falsch“-Antwort darstellt oder eine nicht bearbeitete Alternative.
Bei der Bewertung mittels eines klassischen Summenwerts würden fehlende Daten als inkorrekt gewertet und mit Null Punkten bewertet werden. Damit reduziert sich der maximal erreichbare Anteil von Punkten an der Maximalpunktzahl und eine schlech-tere Note ist die Folge. Während dieses Vorgehen bei Prüflingen, die die gestellten Auf-gaben in der zur Verfügung stehenden Zeit nicht bearbeiten konnten, gerechtfertigt ist, werden Prüflinge, die eine Alternative ggf. einfach übersehen haben, benachteiligt.
Bei einer Auswertung mit der Signalentdeckungstheorie stellen fehlende Daten ein weitaus größeres Problem dar, da sie an keiner Stelle während der
Parameterschät-zung berücksichtigt werden können. Daher wurden bei allen in dieser Arbeit berichte-ten Parameterschätzungen jeweils alle fehlenden Daberichte-ten vor der Auswertung gestri-chen und es gingen nur die Bewertungen von Alternativen in die Auswertung ein8. Dieses Vorgehen hat den Vorteil, dass nun unsystematisch fehlende Daten, wie über-sehene Alternativen, die geschätzten Parameter nicht negativ beeinflussen und so ein genaueres Leistungsbild entsteht. Problematisch ist jedoch, dass Alternativen, die von Prüflingen bewusst ausgelassen wurden, z.B. weil sie die richtigen Antwor-ten nicht kannAntwor-ten und ggf. später noch einmal zu diesen Alternativen zurückkehren wollten, in gleicher Weise unberücksichtigt bleiben, obwohl hier eindeutig Nicht-Wis-sen vorliegt und die tatsächliche Leistung überschätzt wird. Eine Trennung zwischen bewusst und aus Versehen ausgelassenen Alternativen ist seitens des Prüfers jedoch unmöglich. Es stellt sich daher die Frage nach einem geeigneten Korrekturmechanis-mus für fehlende Daten, wenn die Signalentdeckungstheorie als sinnvoll verwendba-res Werkzeug zur Auswertung von Prüfungen etabliert werden soll. Hierzu ist weitere Forschung angeraten.
Bestimmung einer Note
Sofern sich eine Lösung für die Schätzung der Signalentdeckungsparameter in An-betracht der gerade geschilderten Probleme finden lässt, erfordert der Prüfungspro-zess an seinem Ende die Vergabe einer Note für die erreichte Leistung. Hier stellt sich nun die Frage, welches der ermittelten Leistungsmaße dazu geeignet ist, in eine Note überführt zu werden und auf welche Weise dies geschehen soll. Es wurde bereits in Kapitel2darauf hingewiesen, dass die Fläche unter derROC -Kurve, die AUC, hierfür
8Hierbei ist zu beachten, dass bereits vor der Auswertung alle Prüflinge von der weiteren Analyse ausgeschlossen wurden, die mehr als fünf Alternativen nicht bearbeitet hatten. Somit gingen in jede Parameterschätzung die Antworten auf mindestens 45 von maximal 50 Alternativen ein.
am geeignetsten erscheint, da sich diese als die Wahrscheinlichkeit für eine richtige Antwort in einem2AFC -Paradigma interpretieren lässt (Macmillan & Creelman,2010;
McNicol,2005; Wickens,2002), also im Prüfungskontext, wenn eine richtige und ei-ne falsche Alternative gleichzeitig vorgegeben werden und ein Prüfling angeben soll, welche der beiden richtig ist.
Der Wertebereich der AUC liegt somit im abgeschlossenen Einheitsintervall (0 ≤ AU C≤1), wobei ein Wert vonAU C = 1 eine perfekte Leistung darstellt, ein Wert von AU C =.50 dem Rateniveau entspricht und ein Wert von AU C = 0 systematischen entgegengesetzten Antworten entspricht, also z.B. in einemMTF -Format alle richti-gen Alternativen mit „falsch“ und alle falschen Alternativen mit „richtig“ beantwortet werden.
Es ist daher naheliegend, zur Notenfindung einen ähnlichen Ansatz wie im Wahr-scheinlichkeitsmodell von Lukas (2015a,2015b, s. Abschnitt3.1.4) zu wählen: In ei-nem2AFC -Paradigma beträgt die Ratewahrscheinlichkeit pR =1/2=.50. Somit ergibt sich für das 50%-Kriterium (pW=.50) nach der Modellgleichung3.1eine Wahrschein-lichkeit für eine korrekte Antwort vonpk=.75. Die Bestehensgrenze sollte daher auf den WertAU C =.75 festgelegt werden, da auch hier bei Überschreitung dieses Werts mehr Alternativen gewusst als nicht gewusst werden.