• Keine Ergebnisse gefunden

Die einzelnen Hypothesen werden mit verschiedenen Auswertungsstrategien überprüft, welche nachfolgend näher beschrieben werden (Tabelle 38). Zudem wird die Vorgehensweise zur Berechnung der Effektstärke, die Berücksichtigung der -Fehlerkumulierung sowie die Ermittlung der Teststärke näher ausgeführt.

Tabelle 38 - Auswertungsstrategie für die einzelnen Hypothesenkomplexe

Hypothese Auswertungsstrategie

I

Wirksamkeit des Advance Organizer für das Lernen und Behalten

Prä- Post-Follow-Up I-Follow-Up II-Vergleich:

Varianzanalyse mit Messwiederholung

II

Wirksamkeit des Advance Organizer für Schülerinnen und Schüler unter Risikobedingungen

Theoriebasierte Kriterienauswahl zur Ermittlung der Risikogruppe

Prä- Post-Follow-Up I-Follow-Up II-Vergleich:

Varianzanalyse mit Messwiederholung III

Wirksamkeit des Advance Organizer unter Kontrolle des Lernverhaltens

Prä-Post-Follow-Up I-Follow-Up II-Vergleich:

Regressionsanalyse

IV

Wirksamkeit des Advance Organizer in Kombination mit Übungsstunden

Prä-Post- Follow-Up I-Follow-Up II-Vergleich:

Varianzanalyse mit Messwiederholung

V

Wirksamkeit des Advance Organizer in Kombination mit Übungsstunden für Schülerinnen und Schüler unter

Risikobedingungen

Theoriebasierte Kriterienauswahl zur Ermittlung der Risikogruppe

Prä-Post- Follow-Up I-Follow-Up II-Vergleich:

Varianzanalyse mit Messwiederholung

148

Für die Auswertung der Daten wird die Statistiksoftware IBM® SPSS® Statistics (Version 22) und in Ergänzung die Software Microsoft® Excel® (Version 14.4.7) genutzt. Die Auswertung erfolgt basierend auf den Rohwerten. Es stehen nicht für alle verwendeten Erhebungsinstrumente Prozentrang- oder T-Werte zur Verfügung, sodass eine Übertragung der Testergebnisse zu einem Verlust des Informationsgehaltes führen würde. Dies gilt nicht für die Rohwerte aus dem CFT 20-R, welche in den Intelligenzquotienten transformiert werden.

Mehrfaktorielle Varianzanalyse mit Messwiederholung

Die Varianzanalyse stellt ein Verfahren dar, dass den Vergleich zwischen mehr als zwei Gruppen sowie bei mehreren unabhängigen Variablen ermöglicht (Bühner & Ziegler, 2009, S. 326). Bei mehr als zwei Erhebungszeitpunkten, wie es in dem vorliegenden Forschungsdesign der Fall ist, wird eine Varianzanalyse mit Messwiederholung berechnet, sodass die Abhängigkeit der Messzeitpunkte untereinander Berücksichtigung findet (Rasch, Friese, Hofmann & Naumann, 2010, S. 99). Die mehrfaktorielle Varianzanalyse mit Messwiederholung untersucht die Unterschiede in der Ausprägung eines Merkmals zu mehreren Messzeitpunkten, die von mehreren unabhängigen Variablen beeinflusst werden (Bühner & Ziegler, 2009, S. 435). Neben den verschiedenen Messzeitpunkten gelten auch die Gruppenzugehörigkeit sowie die Subtests bzw. einzelne Teile der Erhebungsinstrumente als Faktoren.

Als Voraussetzung für die mehrfaktorielle Varianzanalyse gelten folgende Aspekte:

 eine metrische Skalierung der abhängigen Variable,

 eine Normalverteilung aller Variablen in allen Gruppen,

 eine Homogenität der Varianzen zwischen den Gruppen,

 eine Varianz- und Kovarianzhomogenität der Messwiederholungen sowie

 eine Balanciertheit des Designs (Bühner & Ziegler, 2009, S. 518).

Das Verfahren ist robust gegenüber einer Verletzung der Normalverteilung bei gleich großem Stichprobenumfang der Vergleichsgruppen (Bühner & Ziegler, 2009, S. 518; Rost, 2013, S. 213). Zur Überprüfung der Homogenität der Varianzen und Kovarianzen wird der Mauchly-W-Test genutzt (Bühner & Ziegler, 2009, S. 519). Bei Verletzung der Sphärizität wird der Huynh-Feldt-Korrektur-Wert verwendet, der bei einer leichten Verletzung empfehlenswert ist und eine liberale Korrektur ermöglicht (Rasch et al., 2010, S. 111). Um der Balanciertheit des Designs Rechnung zu tragen, werden lediglich Versuchspersonen mit Daten zu allen Messzeitpunkten berücksichtigt.

Zur Spezifizierung der Varianzanalyse bietet sich eine Kontrastanalyse an (Sedlmeier & Renkewitz, 2013, S. 500). Dabei werden ausgewählte Gruppenmittelwerte in einem Einzelvergleich gegenübergestellt (Bühner &

Ziegler, 2009, S. 528).

Regressionsanalyse

Die multiple lineare Regression ermöglicht die Testung einer Variablen hinsichtlich einer Moderation auf den Zusammenhang zwischen zwei Variablen

149

(Bühner & Ziegler, 2009, S. 701). Dabei wird ein Produktterm aus der unabhängigen Variable und der Moderatorvariable gebildet (ebd.). Dieser Produktterm wird neben einzelnen unabhängigen Variablen in der Regressionsanalyse berücksichtigt (Rasch et al., 2010, S. 163).

Für die Durchführung einer linearen Regression müssen folgende Voraussetzungen überprüft werden: Es müssen

 ein linearer Zusammenhang zwischen den Variablen,

 eine Unabhängigkeit und eine Normalverteilung der Residuen,

 die Homoskedastizität zwischen den Residuen und der unabhängigen Variablen sowie

 keine Kollinearität der unabhängigen Variablen vorliegen (Janssen & Laatz, 2013, S. 432ff.)

Die erste Voraussetzung, der lineare Zusammenhang, kann über eine grafische Analyse und dem Verlauf der Anpassungslinie zwischen den Prädiktoren und dem Kriterium untersucht werden. Die Unabhängigkeit der Residuen wird mithilfe der Durbin-Watson-Statistik überprüft, bei der ein Wert von oder im Bereich von 1,5 bis 2,5 wünschenswert ist (Bühner & Ziegler, 2009, S. 679). Ob eine Normalverteilung der Residuen vorhanden ist, kann durch ein Histogramm mit einer Normalverteilungskurve oder durch ein P-P-Diagramm überprüft werden.

Eine Verletzung der Normalverteilung ist nach Bühner und Ziegler (2009, S.

677f.) bei einer Stichprobe von als unproblematisch zu bewerten. Die Voraussetzung der Homoskedastizität lässt sich durch ausgewählte Streudiagramme näher analysieren. Eine konstante Streuung der Residuen mit Zunahme der unabhängigen Variable sollte erkennbar sein (Janssen & Laatz, 2013, S. 434). Für die Überprüfung der letzten Voraussetzung, der Kollinearität stehen drei statistische Kennwerte zur Verfügung: Der VIF-Wert sollte > , der Tolerance-Wert < . und der Konditionsindex < sein.

In der Regressionsanalyse wird der Anteil der Varianz des Kriteriums, der durch den Anteil der Varianz in den Prädiktoren vorhergesagt werden kann, durch den Wert ausgedrückt (Bühner & Ziegler, 2009, S. 656). Für die Interpretation dieses Wertes können folgende Richtlinien genutzt werden (ebd., S. 667):

. kleiner Effekt . mittlerer Effekt . großer Effekt Effektstärke

Neben der statistischen Signifikanz, die sowohl mit der Varianz- als auch mit der Regressionsanalyse ermittelt wird, ist die Angabe der Größe des Effektes relevant (Bühner & Ziegler, 2009, S. 178; Schnell et al., 2011, S. 443; Rost, 2013, S. 246). Für die Effektstärke liegen verschiedene Maße, d.h.

unterschiedliche Berechnungen, mit unterschiedlichen Richtlinien zur Interpretation der Größe des Effektes vor. In der vorliegenden Arbeit wird das Effektstärkemaß nach Cohen (1988) mit der folgenden Formel gewählt:

150

= ��

Anstelle der Standardabweichung der Kontrollgruppe wird die gepoolte Standardabweichung genutzt. Dies ermöglicht die Berücksichtigung von Unterschieden in den Streuungen der Mittelwerte der beiden Gruppen (Borenstein, Hedges, Higgins & Rothstein, 2009, S. 27). Die gepoolte Standardabweichung wird wie folgt berechnet:

�� = √ �����+ �

��+ �

Um mögliche Unterschiede zwischen den Gruppen im Prätest zu berücksichtigen, wird die korrigierte Effektstärke jeweils durch die Differenz zwischen einer der drei Nachtestungen und der Prätestung ermittelt (Klauer, 2001, S. 182):

_ ä= � ℎ �� ä �

Zusätzlich werden korrigierte Effektstärken für die Berücksichtigung der Posttestergebnisse in den weiteren Nachtests berechnet. Die Differenz zwischen den Follow-Up-Erhebungen und dem Posttest soll die Effekte der Behaltensleistung wiederspiegeln:

_ = � ℎ �

Die Berechnung der Effektgröße als Ergebnis der Varianzanalyse, bei der mehrere Mittelwerte verglichen werden, ist über die Umrechnung des

� � �� � � -Wertes möglich. Cohen (1988, S. 276, 281) empfiehlt diesbezüglich folgende Vorgehensweise:

= = √ � ��

− � ��

Zur Interpretation der Größe eines Effektes kann folgende Einteilung genutzt werden (Cohen, 1988, S. 25f.):

. kleiner Effekt . mittlerer Effekt . großer Effekt.

-Adjustierung

Die Überprüfung der Hypothesen erfolgt mit einer %-Irrtumswahrscheinlichkeit der fälschlichen Ablehnung einer Nullhypothese, sodass das -Niveau auf

= . festgelegt wird. Da an derselben Stichprobe mehrere Hypothesen (Kapitel 5.2) überprüft werden, muss eine -Adjustierung vorgenommen werden (Rost, 2013, S. 258). Dieses Vorgehen verhindert eine Kumulation des -Fehlers und die fälschliche Ablehnung einer Nullhypothese. Die -Adjustierung wird für die fünf Hypothesenkomplexe (Kapitel 5.2.1 bis 5.2.4) separat, d.h. „family wise”

(Rost, 2013, S. 258) vorgenommen. Auf diese Weise wird das -Niveau nicht zu sehr reduziert, wodurch die Zunahme der Wahrscheinlichkeit eines -Fehlers, d.h. der fälschlichen Ablehnung einer Alternativhypothese, entgegengewirkt wird.

151

Aufgrund der hohen Anzahl der Signifikanztests (fünf Hypothesenkomplexe mit insgesamt 15 Hypothesenpaaren) wird eine „effektstärkenbasierte sukzessive -Abwärtsadjustierung“ (Rost, 2013, S. 255) vorgenommen. Diese Vorgehensweise ist weniger konservativ, sodass die Wahrscheinlichkeiten für einen - und einen -Fehler in einem akzeptablen Verhältnis bleiben.

Für die -Adjustierung der einzelnen Hypothesenkomplexe werden die Effekte mit den dazugehörigen Signifikanzniveaus der Rangfolge sortiert. Das -Niveau wird bei der %-Irrtumswahrscheinlichkeit

 für den größten Effekt auf = . ,

 für den zweitgrößten Effekt auf = . und

 für den drittgrößten Effekt auf = . adjustiert.

Poweranalyse

Mittels einer Poweranalyse kann die Teststärke eines ermittelten Effektes berechnet werden, d.h. die Wahrscheinlichkeit eine Alternativhypothese anzunehmen, wenn diese gültig ist (Rasch et al., 2010, S. 79). Dies entspricht genau dem Gegenteil der -Fehlerwahrscheinlichkeit, sodass die Teststärke mit

− ausgedrückt wird (ebd.). Die Berechnung der Teststärke erfolgt mit dem Programm G*Power (Faul, Erdfelder, Lang & Buchner, 2014). Für die Einschätzung liegen verschiedene Empfehlungen vor: Sachs (2004, S. 198) gibt eine Teststärke von mindestens % ( − = . ) an. Hingegen bewerten Rost (2013, S. 247) sowie Bortz und Döring (2009, S. 742) eine Teststärke von % als angemessen und Rasch et al. (2010, S. 80) fordern eine Teststärke von %. In der vorliegenden Arbeit wird -Niveau auf = . festgelegt, sodass eine Teststärke von % zur statistischen Absicherung eines Effekts festgelegt wird.

152

7 Ergebnisse

Die Darstellung der Ergebnisse erfolgt entsprechend der Reihenfolge der aufgestellten Hypothesen (Kapitel 5.2). Eingangs erfolgt eine deskriptive Stichprobenbeschreibung, differenziert für die vier Untersuchungsgruppen (Kapitel 7.1). Nachfolgend werden die inferenzstatistischen Ergebnisse zu den einzelnen Hypothesenkomplexen dargestellt (Kapitel 7.2 bis 7.5).