• Keine Ergebnisse gefunden

5.3 Auswertungsmethoden der Vorstudie

5.3.2 Qualitative Inhaltsanalyse

Im Rahmen einer Masterarbeit (Schechert, unveröffentlicht, 2014) wurden alle Testaufgaben der Testheftgruppe A aus dem Aufgabenkontext Ökologie mit Methoden der deskrtiptiven Statistik analysiert. Anhand induktiver und deduktiver Kriterien (vgl. Mayring, 2000) wurde ein elaboriertes Kategoriensystem zur Deutung des Aufgabenmaterials erstellt (vgl. Bortz & Dö-ring, 2006). Die Aufgaben im offenen Antwortformat wurden dementsprechend codiert und

für die spätere Selektion einzelner Testitems ausgewertet. Auf Basis einschlägiger Literatur und bestehender Theorien zum Umgang mit MER wurden deduktive Kategorien entwickelt, die die Integration von MER definieren sollen. Neben dem Strukturmodell zur Diagrammkom-petenz (Lachmayer, 2008), dem Konzept der Representational Competence (Kozma & Rus-sell, 2005) sowie dem Kompetenzmodell von Klöpfel, Schwanewedel, & Mayer (2013) zum Erschließen biologischer Informationen aus unterschiedlichen Repräsentationen (Text und Bild) flossen zusätzlich die Ergebnisse der qualitativen Studie von Anderson et al. (2013) zum Umgang mit Schemazeichnungen in die deduktive Kategorienbildung ein. Dabei wurden wei-terhin die Schwierigkeitsstufen gemäß der Einheitlichen Prüfungsanforderungen für das Abi-tur (KMK, 2004) sowie die vier Typisierungen biologischen Wissens nach Schönborn & Bö-geholz (2009), Begriffe – Konzepte – Prinzipien – Grundsätze, in Anlehnung an die fünf Kom-plexitätsstufen nach Kauertz et al. (2010) berücksichtigt. Neben der Formulierung von Ober-kategorien erfolgte anhand der zusammenfassenden Inhaltsanalyse (vgl. Mayring, 2010) die induktive Bildung von Unterkategorien. Dabei wurde das vollständige Datenmaterial analy-siert und auf explizite Teilfähigkeiten der Testpersonen reduziert. Zusätzlich wurde beachtet, dass die Kategorien logisch voneinander unabhängig sind (vgl. Rost, 2004). Damit konnte ein strukturiertes, elaboriertes Kategoriensystem entwickelt werden, dass nicht zu feingliedrig, nicht zu umfangreich, dennoch trennscharf und in Beziehung zu den Fragestellungen und Zielsetzungen der Untersuchung steht.

Für die präzise Zuordnung der Probandenlösungen zu den Kategorien wurde ein Kodierleit-faden entwickelt. Anhand trennscharfer Definitionen und Ankerbeispielen wird die Qualität der Kodierung durch ein höheres Übereinstimmungsergebnis unterschiedlicher Kodierer ver-bessert (Hammann & Jördens, 2014; Bortz & Döring, 2006). Für die weiterführenden Analysen im Rahmen der Klassischen und Probabilistischen Testtheorie wurden die beantworteten of-fenen Aufgaben der Testpersonen anhand des entwickelten Kodierleitfadens codiert. Das Kodiermanual wurde vor Durchführung der Pilotstudie entwickelt, an kleineren Stichproben erprobt, überarbeitet und finalisiert (vgl. Hammann & Jördens, 2014). Für die sich anschlie-ßende Kodierung wurden die Kategorien auf ihre Trennschärfe geprüft. Trennscharfe Kate-gorien wurden 0/1-codiert. Die finale Codierung des offenen Items wurde über die Aggrega-tion der Kategorienwerte ermittelt. Anhand dieser Summenwerte für jede einzelne Testauf-gabe (Summe der richtig codierten Kategorien pro Testitem) wurde je nach Schwierigkeit der Kategorien ein Cut-Off-Wert zwischen 50 und 65% festgelegt und ab hier mit dem Code 1 bewertet. Dabei wurde darauf geachtet, dass Kategorien, die über alle Aufgaben keine Infor-mationsaufklärung anhand von Unterschieden im Beantwortungsmuster zeigen, ausge-schlossen und nicht zur Berechnung des Summenwerts herangezogen wurden. Damit wird

sichergestellt, dass nur diejenigen Kategorien eine Bewertung erhalten, die auch tatsächlich Differenzwerte in der Bearbeitung der Testpersonen zeigen. Im Rahmen der Kodierung inner-halb der Vorstudie wurde die inhaltliche Beschreibung der Codes sukzessive angepasst und optimiert. Damit liegt ein dichotomer Leistungstest vor, d.h. unabhängig davon, ob ein ge-schlossenes, halboffenes oder offenes Antwortformat vorliegt, wird die Bearbeitung einer Testaufgabe eindeutig als falsch (0, no credit) oder richtig (1, full credit) bewertet. Dieses Kodierschema wurde für die Hauptstudie ebenfalls übernommen, hingegen erfolgte die Ko-dierung direkt im Full- und No Credit-Verfahren (s. Kapitel 7).

Vor dem Hintergrund der drei Testgütekriterien Objektivität, Reliabilität und Validität wurden die Schritte der qualitativen Inhaltsanalyse stets dokumentiert und können als gewährleistet angenommen werden. Das methodische Vorgehen wurde möglichst genau beschrieben, transparent formuliert und detailliert dargestellt, um das Kriterium der Objektivität zu sichern (vgl. Bortz & Döring, 2006). Diese Schritte wurden von zwei Personen unabhängig durchge-führt, die Ergebnisse verglichen (vgl. Krüger & Riemeier, 2014) und damit die Auswertungs- und Interpretationsobjektivität eingeschätzt (vgl. Bortz & Döring, 2006). Da die Methoden der quantitativen Forschung zur Reliabilitätsmessung nicht ohne Weiteres auf qualitative Unter-suchungen übertragen werden können, wird zur Zuverlässigkeitsprüfung die Intrarater-Reli-abilität als Gütekriterium herangezogen (vgl. Bortz & Döring, 2006; Krüger & Riemeier, 2014).

Bei diesem Vorgehen werden etwa zehn Prozent des Datenmaterials vom gleichen Kodierer zu einem späteren Zeitpunkt erneut analysiert und geprüft, ob die Ergebnisse reproduziert werden können (vgl. Krüger & Riemer, 2014; Hammann & Jördens, 2014). Der Interrater-Re-liabilitätskoeffizient wird hingegen als Maß bezeichnet, „mit dem mehrere Personen, die un-abhängige Kodierungen vornehmen, offene Aufgaben denselben Antwortkategorien zuord-nen“ (Hammann & Jördens, 2014). Damit wird der interpersonale Konsens beschrieben, in-dem unterschiedliche Kodierer bei der gleichen Untersuchung zu vergleichbaren Ergebnissen kommen (Bortz & Döring, 2006). Anstelle der Berechnung einer prozentualen Beobachterü-bereinstimmung wird als statistisches Maß der Cohens Kappa Koeffizient κ verwendet, der sich folgendermaßen berechnen lässt (vgl. Grouven et al., 2007):

𝜅 = 𝜌0− 𝜌𝑒 1 − 𝜌𝑒

Dabei steht 𝜌0 für den Anteil tatsächlich beobachteter Übereinstimmungen von Rater A und Rater B und 𝜌𝑒 für den Anteil zufälliger Übereinstimmungen. Ein Cohens Kappa von 1 bedeu-tet, dass eine vollständige Übereinstimmung zwischen beiden Kodierern vorliegt. Greve &

Wentura (1997) sprechen ab einem Cohens Kappa über 0,75 von einer guten bis ausgezeich-neten Interrater-Reliabilität. Bortz & Döring (2006) sehen Werte zwischen 0,60 und 0,75 als

gute Übereinstimmungswerte. Zur Bestimmung der Interrater-Reliabilität werden ebenfalls ca. 10% der kodierten Aufgaben aus der behandelten Stichprobe durch einen zweiten Co-dierer (= Rater) erneut kodiert und der Cohens Kappa ermittelt. Liegen die Werte über den genannten Kennzahlen kann die Codierung als ein reliables Verfahren bewertet werden, das das Lösungsverhalten der Testpersonen zum Erwartungshorizont korrekt interpretiert. Über die Validität wird ermittelt, inwieweit der entwickelte Test das intendierte Konstrukt erfasst.

Die Validität gilt als entscheidendes Kriterium der qualitativen Inhaltsanalyse (Mayring, 2010) und erhebt den Anspruch, dass die Inhaltsanalyse durch eine sorgfältige Verfahrensdoku-mentation nachvollziehbar sein muss. Hierzu zählen die semantische Validität, Triangulation und die kommunikative Validierung.

Im Rahmen der vorliegenden Arbeit wird die Übereinstimmung über das Datenmaterial der offenen Aufgaben anhand einer einfachen Übereinstimmungsmatrix (vgl. Rost, 2004; Bortz &

Döring, 2006) in IBM SPSS 22 errechnet. Als Richtwerte zur Interpretation der Interrater-Re-liabilität können für den Koeffizienten κ die in der TABELLE 6 zu entnehmenden Intervalle un-terschieden werden (vgl. Altmann, 1991; Landis & Koch, 1977):

TABELLE 6:RICHTWERT FÜR COHENS KAPPA KOEFFIZIENT

Wert von

Cohens Kappa κ Stärke der Übereinstimmung

< 0,20 schwach (slight)

0,21 – 0,40 leicht (fair)

0,41 – 0,60 mittelmäßig (moderate)

0,61 – 0,80 gut (substantial)

0,81 – 1,00 sehr gut (almost perfect)

Die Intrarater-Reliabilität wurde von Rater 1 nach zwei Wochen erneut bestimmt und der Cohens Kappa Koeffizient berechnet (κ = 0,798). Laut TABELLE 6 kann bei diesem Wert von einer guten Übereinstimmung in der Codierung ausgegangen werden. Der Wert resultiert aus folgender Berechnungsmatrix (vgl. TABELLE 7).

TABELLE 7:KREUZTABELLE ZUR BERECHNUNG DER INTRARATER-RELIABILITÄT

Rating 2

richtig falsch Gesamtsumme

Rating 1 richtig 89 9 98

falsch 4 42 46

Gesamtsumme 93 51 144

Die Interrater-Reliabilität wurde ebenfalls bestimmt und anhand von etwa zehn Prozent der codierten Aufgaben aus der behandelten Stichprobe durch einen zweiten Rater erneut co-diert. Zur Berechnung wurden 174 Variablen (bzw. Kategorien) herangezogen und der Cohens Kappa Koeffizient bestimmt (κ = 0,804). Als Grundlage diente erneut eine Berech-nungsmatrix (vgl. TABELLE 8).

TABELLE 8:KREUZTABELLE ZUR BERECHNUNG DER INTERRATER-RELIABILITÄT

Rater/ Kodierer 1

richtig falsch Gesamtsumme Rater/

Kodierer 2

richtig 38 7 45

falsch 6 123 129

Gesamtsumme 44 130 174

Auch in diesem Fall kann von einer guten bis sehr guten Übereinstimmung zwischen den beiden Ratern ausgegangen werden. Im Rahmen der Hauptstudie wurden sowohl die Intra-rater- als auch die InterIntra-rater-Reliabilität erneut, nach den beschriebenen Kriterien, bestimmt.

Dabei resultierte in beiden Fällen eine sehr gute Übereinstimmung. Die Intrarater-Reliabilität liegt bei einem Cohens Kappa von κ = 0,936 (Gesamtsumme n=135 Fälle) und die Interrater-Reliabilität bei einem Cohens Kappa von κ = 0,826 (Gesamtstumme n=72 Fälle).