• Keine Ergebnisse gefunden

Deskriptive Analysen im Rahmen der Klassischen Testtheorie

5.3 Auswertungsmethoden der Vorstudie

5.3.4 Deskriptive Analysen im Rahmen der Klassischen Testtheorie

Im Rahmen der klassischen Testtheorie werden die in den Rasch-Skalierungen geschätzten Item- und Personenparameter weiter analysiert und in SPSS überführt. In diesem Zusam-menhang kommen multivariate Analysemethoden zum Einsatz. Die Verfahren der multivaria-ten Analyse werden in IBM SPSS 22 durchgeführt.

Für die Datenauswertung stehen je nach Skalenniveau und Datenverteilung parametrische oder nicht-parametrische (verteilungsfreie) Verfahren zur Verfügung. Für parametrische Ver-fahren müssen bestimmte Voraussetzung für die abhängige Variable gegeben sein wie min-destens intervallskalierte Daten, Normalverteilung, Varianzhomogenität und stochastische Unabhängigkeit (Bühner & Ziegler, 2009; Field 2009). Die erste Voraussetzung kann als erfüllt angesehen werden, da die geschätzten abhängigen Variablen, Item- und Personenparame-ter, ein metrisches Skalenniveau besitzen. Die Prüfung der empirischen Daten auf Normal-verteilung erfolgt mit dem Shapiro-Wilk-Test (Field, 2009). Wird der Test signifikant (p < 0,05), liegt eine signifikante Abweichung von der Normalverteilung vor. Die Varianzhomogenität, d.h. die homogene Verteilung einer Variablen in der Grundgesamtheit, wird mit dem Levene-Test überprüft (Bühner & Ziegler; 2009; Field, 2009). Fällt dieser signifikant (p < 0,05) aus, gilt die Varianzhomogenität als nicht angenommen. Mithilfe des Korrelationskoeffizienten kann die stochastische Unabhängigkeit ermittelt werden, die immer dann gegeben ist, wenn die Korrelationen der Mittelwerte verschiedener Gruppen r < 0,05 ist. In diesem Fall trifft die Null-hypothese, d.h. dass die Mittelwerte der Gruppen gleich schwer sind, für die stochastische Unabhängigkeit zu (Field, 2009). Werden diese oder weitere Voraussetzungen für die para-metrischen Verfahren nicht erfüllt oder liegen ordinale Daten vor, kommen nicht-parametri-sche Verfahren zum Einsatz. Je nachdem ob die Daten normalverteilt, die Varianzen homo-gen oder die Stichprobenumfänge gleich oder unterschiedlich groß sind, muss der passende Test ausgewählt werden (Bortz, 2005).

Verhältnis der Schwierigkeiten: Für die Strukturbeschreibung der Repräsentationskompe-tenz im Rahmen der Integration von MER wird mittels deskriptiver Analysen die Itemschwie-rigkeit analysiert. Für die Darstellung der Ergebnisse wird untersucht, in welchem Verhältnis die Schwierigkeiten der (Teil-) Komponenten zueinanderstehen. Dabei erfolgt ein Vergleich

der rasch-skalierten Itemparameter (vgl. Einhaus, 2007). Für die graphische Darstellung wer-den Boxplots verwendet, die als abhängige Variable die Itemschwierigkeit auftragen, wäh-rend die unabhängigen Variablen die (Sub-) Komponenten auf der X-Achse angeben. Die Werte der Itemschwierigkeit gehen von -3 bis +3, wobei leichtere Items einen geringeren Wert haben. Als zentraler Wert wird der Median eingetragen, als obere und untere Grenze einer „Box“ ist das 75. und 25. Perzentil aufgetragen. Dies bedeutet, dass innerhalb der Box 50 Prozent der Messwerte der Items der jeweiligen Komponente liegen (Döring & Bortz, 2016). Die „Whisker“ zeigen die Spannweite der Verteilung an und damit die Werte vom Mi-nimum bis zum Maximum (Bühner & Ziegler, 2009; Dytham, 2005). Um Ausreißer- und Ext-remwerte zu bestimmen wird der Interquartilabstand herangezogen und in SPSS bei Vorlie-gen eines Ausreißerwertes (Messwerte, die von den Boxgrenzen mehr als 1,5-mal die Kan-tenlänge entfernt sind) ein Kreis sowie bei Extremwerten (Abstand von mehr als 3-mal der Kantenlänger) ein Stern, jeweils versehen mit der Versuchspersonennummer, abgebildet (Brosius, 2013; Bühner & Ziegler, 2009). Für die Berechnung der Unterschiede zwischen den einzelnen (Sub-) Komponenten bezüglich der mittleren Itemschwierigkeiten wird der nicht-parametrische Kruskal-Wallis-Test für unabhängige Stichproben verwendet, da durch die un-terschiedliche Itemverteilung in den (Sub-) Komponenten keine Varianzhomogenität und Nor-malverteilung vorliegt (vgl. Bühner & Ziegler, 2009).

Analyse von Mittelwertsunterschieden: Liegen mindestens intervallskalierte Daten vor, sind die Werte der jeweiligen Stichproben normalverteilt und Varianzhomogenität sowie stochastische Unabhängigkeit gegeben, können für den Mittelwertsvergleich einfaktorielle Varianzanalysen (ANOVA) sowie für den Vergleich von zwei Gruppen t-Tests eingesetzt wer-den (vgl. Field, 2009). Beide Analyseverfahren eignen sich für die Testung und Vorhersage möglicher Auswirkungen einer unabhängigen Variable (z.B. Integration von MER) auf eine abhängige Variable (z.B. Itemschwierigkeit) und sind sowohl bei Between-Designs als auch bei Within-Designs anwendbar.

Mithilfe des t-Tests für unabhängige Stichproben (Testpersonen bzw. Testgruppen sind un-terschiedliche Personen) lassen sich Unterschiede zwischen zwei Mittelwerten ermitteln, wo-bei die Beobachtungen in der einen Stichprobe in keinerlei Beziehung zu den Beobachtungen der anderen Stichprobe stehen (Field, 2009; Bortz & Schuster, 2010). Mithilfe des t-Tests für abhängige Stichproben werden zwei Stichproben miteinander verglichen, deren Elemente einander paarweise zugeordnet sind, d.h. man geht von einer Stichprobe von Paaren aus (Bortz & Schuster, 2010). Im Rahmen der vorliegenden Untersuchung lässt sich so klären, ob aufgrund der vorliegenden Daten davon auszugehen ist, dass Items des Kompetenzbereich

MERI schwieriger sind, als Items des Kompetenzbereich MERII oder MERIII (t-Test für unab-hängige Stichproben). Zusätzlich wird untersucht, ob die Kompetenzausprägung in zwei Teil-kompetenzen unterschiedlich ist (t-Test für abhängige Stichproben). Statistisch signifikant werden diese Unterschiede bei einem p-value von p < 0,05. Bei Verletzung der Annahmen für den t-Test für unabhängige Stichproben, stochastische Unabhängigkeit und Varianzho-mogenität, oder bei Vorliegen von ordinalen Daten wird der parameterfreie Mann-Withney-U-Test herangezogen (Field, 2009; Bortz, 2005). Bei abhängigen Stichproben kann der Wil-coxon signed-rank Test herangezogen werden (Field, 2009). Bei Between-Designs wird die abhängige Variable (z.B. Itemschwierigkeit) genau einer von mehreren Gruppen zugeordnet und getestet. Damit können beispielsweise zuvor definierte Stufen innerhalb einer Dimension zugeteilt und getestet werden (vgl. Wellnitz, 2012). Die Berechnung der Mittelwerte der un-abhängigen Gruppen erfolgt mittels einfaktorieller Varianzanalyse, liegen nur zwei Stichpro-ben vor, wird ein t-Test für unabhängige StichproStichpro-ben durchgeführt (Field, 2009). Bei Within-Designs werden t-Tests für verbundene Stichproben herangezogen, wenn jeweils zwei Mit-telwerte direkt miteinander verglichen werden und die oben genannten Voraussetzungen für t-Tests erfüllt sind. Diese Analysen sollten hingegen nur dann durchgeführt werden, wenn die Differenzen zwischen den Item- und Personenkennwerten der jeweiligen Stichproben nor-malverteilt sind (Field, 2009).

Für den Vergleich von mehr als zwei Mittelwerten werden Varianzanalysen durchgeführt. Da-bei wird überprüft, ob mehrere Mittelwerte zu einem gleichen gemeinsamen Mittelwert ange-hören (Field, 2009). Damit ermöglicht die ANOVA Aussagen darüber, ob sich die Mittelwerte einzelner Variablen in mehreren Fallgruppen signifikant unterscheiden. Durch eine zunächst optische Prüfung werden die gewonnenen Daten auf Normalverteilung getestet (vgl. Sed-lmeier & Renkewitz, 2007). Weitere Tests werden nicht herangezogen, da die in der Vari-anzanalyse gewonnene F-Statistik relativ robust gegenüber einer Verletzung der Normalver-teilung ist (Glass, Peckham, & Sanders, 1972). Als weitere Voraussetzung werden die Daten auf Varianzhomogenität (Levene-Test) geprüft, wobei auch hier die ANOVA robust bei Verlet-zungen ist (vgl. Field, 2009, S. 360). Mit der einfaktoriellen ANOVA wird im Rahmen der vor-liegenden Untersuchung ein Vergleich aller Gruppenmittelwerte der Itemschwierigkeiten zu den drei Teilkompetenzen der Kompetenz Integration von MER durchgeführt, um mögliche Komplexitätsstufen zu identifizieren oder auszuschließen. Damit kann überprüft werden, ob Personen, die beispielsweise unterschiedliche Studiengänge besuchen, sich in Hinblick auf die mittleren Kompetenzen zur Integration von MER unterscheiden.

Effektstärke: Beobachtete Effekte können durch die Berechnung von Effektstärken weiter klassifiziert und interpretiert werden. Bei der Effektstärke handelt es sich um standardisierte Mittelwertsunterschiede zwischen zwei untersuchten Gruppen (Bühner & Ziegler, 2009). Für bilaterale Gruppenvergleiche werden Cohens d und für ein- und mehrfaktorielle Varianzana-lysen das partielle eta-Quadrat (2p) herangezogen. Dabei entspricht d  0,20 einem kleinen, d  0,50 einem mittleren und d  0,80 einem großen Effekt (Cohen, 1988, zitiert nach Bühner

& Ziegler, 2009, S. 177). Für 2p gilt: 2p  0,01 deutet auf einen kleinen, 2p  0,06 auf einen mittleren und 2p  0,14 auf einen starken Effekt hin (Bühner, 2011, S. 268) bzw. unterschie-den sich kleine 2p  0,01, mittlere 2p  0,09 und große 2p  0,25 Effekte (Field, 2009).