Anforderungen an wissenschaftliche Evaluationen

5 WISSENSCHAFTLICHE FUNDIERUNG VON PROGRAMMEN ZUR

5.2 E MPIRISCHE F UNDIERUNG

5.2.4 Anforderungen an wissenschaftliche Evaluationen

Wird in einem Evaluationsvorhaben empirisch fundiert unter Anwendung sozialwissen-schaftlicher Methoden gearbeitet, kann von Evaluationen mit wissenschaftlichem Cha-rakter gesprochen werden. Drei wichtige Anforderungen an wissenschaftliche Evaluati-onen betreffen die Objektivität, Reliabilität und Validität (z.B. Amelang & Zielinsky, 1997; Lienert & Raatz, 1998).

Ausschlaggebend für die Objektivität eines Testverfahrens ist das Ausmaß, in dem die Ergebnisse eines Testes unabhängig von der Person des Untersuchungsleiters sind. Ein hinreichend objektives Verfahren zeichnet sich aus durch eine maximale Standardisie-rung bei der Erhebung der Daten, eine möglichst eindeutige Auswertung durch die Vor-gabe von Schablonen und eine von der Person des Untersuchers unabhängige Interpreta-tion der numerischen Testergebnisse (Amelang & Zielinski, 1994). Durch den Einsatz standardisierter Fragebogenverfahren mit der Möglichkeit der schablonierten Auswer-tung, lässt sich die Objektivität in der Durchführung und Auswertung des Verfahrens wie auch der Interpretation der numerischen Testergebnisse weitgehend sicherstellen.

„Die Reliabilität beschreibt die Genauigkeit, mit der ein Test eine Merkmalsdimension erfasst, und zwar unter der Vernachlässigung des Umstandes, ob es sich dabei auch um die Merkmalsdimension handelt, deren Erfassung intendiert ist“ (Amelang & Zielinski, 1994, S. 106, Unterstreichung durch A.B.). Das bedeutet, dass die Aspekte der inhaltli-chen Treffsicherheit außer Acht bleiben, es interessiert lediglich die Präzision der Mes-sung. Für die Ermittlung der Genauigkeit der Messung stehen verschiedene Methoden zur Verfügung, die alle darauf basieren, dass die Korrelation von zwei Tests, die das gleiche Merkmal erfassen, etwas über deren Reliabilität aussagen (vgl. Amelang & Zie-linski, 1994; Lienert & Raatz, 1998; Rost, 2004). Der Grad der Reliabilität wird durch einen Reliabilitätskoeffizienten ausgedrückt. Bei der Bestimmung der Reliabilität eines Verfahrens lassen sich verschiedene Aspekte unterscheiden. Dabei schließt jeder Aspekt eine andere Methode zu seiner Bestimmung mit ein.

Bei der Testwiederholung (Retest) wird ein und derselbe Test in einem angemessenen zeitlichen Abstand zweimal von derselben Stichprobe bearbeitet. Der Grad der Überein-stimmung der Messergebnisse zwischen der ersten und zweiten Datenerhebung gibt das Ausmaß der Retestreliabilität an und wird über die Berechnung der Produkt-Moment-Korrelation bestimmt. Die Produkt-Moment-Produkt-Moment-Korrelation zwischen der ersten und

zwei-Wissenschaftliche Fundierung von Programmen zur Förderung von Medienkompetenz 78

ten Testung gibt an, in welchem Ausmaß die interindividuellen Differenzen bei der ers-ten Messung mit denen der zweiers-ten Messung übereinstimmen. Der Korrelationskoeffi-zient (rtt) ist eine Schätzung für das Ausmaß der Retestreliabilität, d.h. der Stabilität der Merkmalserfassung und kann Werte zwischen -1 und +1 (maximale Übereinstimmung) annehmen (Amelang & Zielinski, 1994; Lienert & Raatz, 1998). Von einer hinreichen-den Retestreliabilität für Gruppenvergleiche in einem Forschungsdesign kann ab einem Mindestwert von rtt = .50 gesprochen werden. Für den Zeitabstand zwischen den beiden Testdurchführungen gilt, dass er nicht zu lang sein darf, da ansonsten das Ergebnis durch zwischenzeitliche Ereignisse verfälscht wird. Bei zu kurzem Abstand können E-rinnerungs- oder Übungseffekte das Testergebnis beeinträchtigen und so zu einer gerin-geren Reliabilitätsschätzung führen. Die Erfassung der Retestreliabilität ist immer auch von der Stabilität des erfassten Merkmals abhängig, weshalb sie gelegentlich als Test-stabilität bezeichnet wird (Amelang & Zielinski, 1994, S. 14). Die Retestkoeffizienten liefern eher konservative Schätzungen der Reliabilität.

Liegen für einen Test zwei parallele Versionen vor, die beide von einer Stichprobe be-arbeitet werden können, kann die Paralleltestreliabilität geschätzt werden, indem die Korrelation der beiden Testergebnisse ermittelt wird. Tests sind dann parallel, wenn sowohl die Mittelwerte als auch die Standardabweichungen, die auf der Basis gleicher, aber nicht identischer Itemstichproben gewonnen wurden, übereinstimmen und wenn die Korrelation zwischen den beobachteten Testwerten hoch ist (r = 1.0). Die ermittel-ten Koeffizienermittel-ten liegen häufig unter denjenigen der Restreliabilität.

Besteht nicht die Möglichkeit der Testwiederholung oder des Einsatzes einer parallelen Version, kann die Genauigkeit der Messung durch die Testhalbierungsmethode ge-schätzt werden. Hierfür wird der Test in zwei äquivalente Hälften geteilt und die Korre-lation der beiden Testhälften auf Personenebene bestimmt. Nach Amelang und Zielinski (1994) kommt die Testhalbierungsmethode dem Konzept der instrumentellen Messge-nauigkeit am nächsten, da hierbei Schwankungen der Motivation, der Stimmung, der Aufmerksamkeit bzw. der Fluktuation des untersuchten Merkmals praktisch ausge-schlossen werden können.

Wird der Test nicht in zwei Hälften, sondern in so viele Teile zerlegt, wie es Items gibt, kann die interne Konsistenz eines Tests analysiert werden. Zur Berechnung der internen Konsistenz wird in der Regel auf Cronbachs α zurückgegriffen. Dieser Koeffizient gibt an, wie gut durchschnittlich die Variabilität jedes Items eines Messinstrumentes durch

Wissenschaftliche Fundierung von Programmen zur Förderung von Medienkompetenz 79

eine Linearkombination der übrigen Items vorhersagbar ist. Cronbachs α kann Werte zwischen -1 und +1 (Optimum) annehmen. Für Forschungszwecke, bei denen die Werte von Gruppen miteinander verglichen werden, sollte Cronbachs α mindestens .50 betra-gen (Lienert & Raatz, 1998).

„Unter Validität wird das Maß an Genauigkeit verstanden, mit dem der Test dasjenige Persönlichkeits- oder Verhaltensmerkmal misst, das er messen soll oder zu erfassen vorgibt“ (Amelang & Zielinski, 1994, S. 155, Unterstreichung durch A.B.). Nur bei ei-ner hohen Validität erlauben die Ergebnisse eines Tests den Schluss von den beobacht-baren Testwerten auf das zielrelevante Verhalten außerhalb der Testsituation. Insofern handelt es sich um das wichtigste Gütekriterium überhaupt. Auch bei der Validität las-sen sich verschiedene Aspekte unterscheiden: die inhaltliche Validität, die Kriteriums- und die Konstruktvalidität.

Wenn Testaufgaben Stichproben des zu erfassenden Merkmals darstellen, kann aus dem Verhalten in der Testsituation auf das Verhalten außerhalb der Testsituation geschlossen werden. Der Grad der Genauigkeit, mit dem dieser Schluss möglich ist, wird als inhalt-liche Validität bezeichnet. Ist die Ähnlichkeit zwischen den Aufgaben der Testsituation und der Nicht-Testsituation evident (z.B. Führerscheinprüfung zur Prüfung der Fahr-tüchtigkeit), so kann auf die Ermittlung eines numerischen Wertes für die inhaltliche Validität verzichtet werden. In Fällen, in denen die Ähnlichkeit nicht so augenfällig ist, wird i.d.R. wie folgt verfahren: Zuerst wird das Zielkonstrukt begrifflich und theore-tisch expliziert. Dann werden nach der Maßgabe operationaler Definitionen oder gene-rativer Regeln Testaufgaben erstellt. Die so erstellten Items werden von mehreren, un-abhängig voneinander arbeitenden Experten dahingehend beurteilt, inwieweit sie dem Inhalt des Konstruktes entsprechen. Das Maß der Beurteilerübereinstimmung liefert ei-nen Koeffizienten für die Inhaltsvalidität (Amelang & Zielinski, 1994).

Bei der Kriteriumsvalidität wird mit Hilfe eines Korrelationsschlusses von der Testleis-tung auf das interessierende Merkmal geschlossen. Dazu wird einer Stichprobe der Test zur Bearbeitung vorgegeben. Anschließend wird geprüft, inwieweit die Testleistung mit dem Kriterium übereinstimmt (Amelang & Zielinski, 1994). Die Konstruktvalidität kann als Synthese von inhaltlicher und kriteriumsbezogener Validität aufgefasst wer-den. Sie ist in ein nomologisches Netzwerk ähnlicher und unähnlicher Konstrukte ein-gebettet (Amelang & Zielinski, 1994). Da die beiden zuletzt genannten Arten der

Vali-Wissenschaftliche Fundierung von Programmen zur Förderung von Medienkompetenz 80

ditätsprüfung in der vorliegenden Arbeit keine Anwendung finden, soll diese kurze Charakterisierung genügen.

Im Dokument Förderung von Medienkompetenz - Formative Evaluation eines medienpädagogischen Projektes (Seite 82-85)