• Keine Ergebnisse gefunden

4   Forschungsdesign und Untersuchungsmethoden

4.5   Pilotierung des Überzeugungsfragebogens

Kapitel 4 – Forschungsdesign und Untersuchungsmethoden

72

Wichtigeres Kriterium für die der Stufenanzahl war das Erreichen eines angemessenen Vertei-lungsmusters der Antworten bei gegebener Probandinnenzahl: Je mehr Antwortstufen gewählt werden, desto differenzierter ist die Aussage, aber desto größer ist auch die notwendige Pro-bandinnenzahl für die Ausprägung eines Verteilungsprofils.

Kapitel 4 – Forschungsdesign und Untersuchungsmethoden

73

entstehenden Graphen wird der Scree-Test auch Ellenbogenkriterium genannt. Faktoren mit hohem Eigenwert befinden sich links eines deutlichen Knicks im Graphen. Abb. 9 zeigt den Screeplot der Skala „Naturbezug“.

Abbildung 9: Skreeplot der Skala „Naturbezug“

Der Ellenbogen des Graphen liegt im Bereich des zweiten bis fünften Faktors, die jedoch bereits relativ niedrige Eigenwerte (zwischen 1 und 2) aufweisen. Deutlich abgesetzt ist lediglich der erste Faktor mit einem Eigenwert über 5, was gegen eine Bildung von Subskalen spricht. Dennoch sind probehalber Komponentenmatrizen mit drei, vier und fünf Hauptkomponenten erstellt worden, um anschließend die einzelnen Items den entstehenden Komponenten auch theoretisch zuzuordnen und passende Titel für sie zu suchen (Beispiele:

„Interesse an der Natur“; „Existenzielle Sorge um die Natur“; „Interesse am eigenen Gartenbau“). Diese Zusammenführung von statistischem Rechenergebnis und theoretischer Zuordnung der Items zu einem Subskalentitel gelang jedoch nicht, da jeweils ein oder mehrere Items inhaltlich dem gewählten Titel widersprachen. Schließlich wurde auf die Bildung von Subskalen verzichtet.

Itemreduktion – Trennschärfe

Die Reliabilitätsanalyse gibt Aufschluss über die Trennschärfe der einzelnen Items innerhalb der Gesamtskala. Hierunter ist die Korrelation eines Einzelitems mit dem Ergebnis der gesam-ten Skala zu verstehen. Die Trennschärfe gibt also Aufschluss darüber, wie gut das Tester-gebnis durch das einzelne Item abgebildet wird, indem an diesem bereits ersichtlich ist, ob der Proband eine hohe oder niedrige Ausprägung hat: Das Einzelitem „trennt“ diese Gruppen mehr oder weniger scharf. Die Trennschärfe kann Werte zwischen –1 und 1 annehmen: zwi-schen 0,3 und 0,5 spricht man von mittlerer, bei über 0,5 von hoher als Trennschärfe (Bortz &

Döring 2006). Als akzeptables Mindestmaß werden Werte ab 0,3 angesehen.

Zur Ermittlung der Trennschärfe der Items wurde die Skala „Naturbezug“ einer Reliabilitäts-analyse unterzogen. Das Ergebnis mehrerer nacheinander ausgeführter Durchgänge zeigte,

Faktor

26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1

Eigenwert

6

5

4

3

2

1

0

Kapitel 4 – Forschungsdesign und Untersuchungsmethoden

74

dass insgesamt 14 der 26 Items unter dem kritischen Wert von .300 lagen und somit nicht trennscharf genug waren. Sie wurden dementsprechend aussortiert. Bei der Auswertung der Hauptstudie erwies sich schließlich noch ein Item als zu wenig trennscharf und wurde nach-träglich aussortiert. Die verbleibenden 11 Items in der Skala „Naturbezug“ sind in Tab. 5 zu-sammengefasst (Kap. 4.4.1).

Itemreduktion – sehr hoch bewertete Items

Ein weiteres Kriterium, das zur Itemauswahl angewendet wurde, ist der durchschnittliche Wert, den die Studierenden der Frage gaben. Items, die bereits ohne eine Intervention im sehr hohen Bereich gewertet werden, und somit eine rechtssteile Verteilung aufweisen, können auch im Idealfall einer perfekten Intervention kaum eine Verbesserung erbringen und sind daher für die Auswertung nicht von Bedeutung. In diesem Fall spricht man vom Deckeneffekt (Bühner 2004).

Im Fall der Skala „Naturbezug“ wurden aufgrund dieses Kriteriums zwei Items aussortiert, die einen Wert über 4,5 bei maximal 5 Punkten erzielten. Diese Items sind relativ unspezifische Aussagen, die von vielen Menschen gerne bejaht werden. Sie lauten „Die Natur ist faszinierend und spannend.“ und „Mich beeindruckt die Schönheit der Natur.“

Skala B: Selbstwirksamkeit

Diese Skala bestand im Pilottest aus 26 Items. Sie wurde den gleichen Testschritten unterzogen wie die vorangegangene Skala „Naturbezug“:

 der Suche nach möglichen Subskalen

 der Suche nach trennunscharfen Items

 der Aussortierung von Items, die zu hoch bewertet werden.

Auch bei der Selbstwirksamkeit legte der Screeplot keine Unterteilung der Skala in Subskalen nahe. Daher ist auch die Bildung von Subskalen nach theoretischen Gesichtspunkten in die drei Bereiche Didaktik, Naturkunde und Gartenbau nicht ratsam, weil keine ausreichende Trennschärfe gewährleistet werden kann. Für bestimmte Auswertungsschritte wie die Zusammenhangssuche zwischen inhaltlicher Ausrichtung und Verbesserung der Selbstwirksamkeit wurde dennoch eine Unterteilung in diese Bereiche vorgenommen (siehe Kap. 4.4.2). Dadurch wurde die Berücksichtigung bestimmter Kompetenzbereiche und somit eine differenziertere Auswertung möglich.

Itemreduktion – Trennschärfe

Die Erhebung der Trennschärfe mittels der Reliabilitätsanalyse ergab, dass alle Items ausrei-chend trennscharf sind (mindestens .366), so dass dies kein geeignetes Maß zur Itemreduktion darstellte, wie es bei Skala A der Fall war.

Itemreduktion – sehr hoch bewertete Items

Der Pilottest ergab Bewertungen mancher Items mit bis zu 4,82, so dass wieder ein Deckenef-fekt mit einer rechtssteilen Verteilung eintrat. Für die Haupterhebung wurden die drei Items aussortiert, die mit über 4,5 bewertet wurden. Diese strenge Auswahl ermöglicht, dass ein

Kapitel 4 – Forschungsdesign und Untersuchungsmethoden

75

ausreichender Verbesserungsspielraum im Bereich der Selbsteinschätzung zur Verfügung steht, und verhilft zu einer Reduktion der Itemanzahl.

Skalen C und D: Wirksamkeitserwartung und Kontrollüberzeugung

Auch diese beiden Skalen wurden einer Faktorenanalyse sowie der Selektion nach Trenn-schärfe und zu hoch bewerteten Items unterzogen. Eine Einteilung in Subskalen wurde auf-grund der Ergebnisse der Faktorenanalyse verworfen, außerdem wurden aus Skala C) drei Items, aus Skala D) zwei Items entfernt, die sich als nicht trennscharf genug erwiesen. Eine Faktorenanalyse beider Skalen zusammen bestätigte die Zuordnung auf die theoretisch gebil-deten Skalen deutlich.

4.5.2 Testgüte des Überzeugungsfragebogens

Nachdem eine Itemreduktion aufgrund der Trennschärfekontrolle und der Deckeneffekt-Kontrolle stattfand, wurde der Gesamttest einer Kriterienkontrolle unterzogen: Sie gibt Aus-kunft über die Testgüte. Die Gütekriterien stellen die Zuverlässigkeit und Anwendbarkeit ei-nes Messinstruments dar. Als Hauptgütekriterien gelten Objektivität, Reliabilität und Validität (Bühner 2004; Bortz & Döring 2006).

Objektivität

Hiermit ist das Maß der Unabhängigkeit von der durchführenden Person gemeint (Bortz &

Döring 2006). Demnach ist ein Test ist dann objektiv, wenn verschiedene Testanwender bei denselben Personen zu den gleichen Resultaten gelangen. Dabei wird – gemäß den Untersu-chungsphasen – zwischen der Durchführungsobjektivität, der Auswertungsobjektivität und der Interpretationsobjektivität unterschieden. Da es sich beim Überzeugungsfragebogen um einen Paper-and-Pencil-Test nach standardisierter Anweisung bei unbekannten Probandinnen handelt, kann die Durchführungsobjektivität als gegeben angesehen werden, auch, wenn sie von unterschiedlichen Personen (Autorin oder Dozentin) durchgeführt wurde. Die Auswer-tungsobjektivität sowie die Interpretationsobjektivität sind durch die Verwendung geschlosse-ner, standardisierter Items und deren quantitative Auswertung gewährleistet.

Reliabilität

Die Reliabilität stellt ein Maß für die Präzision eines Messinstruments dar, mit der ein be-stimmtes Merkmal gemessen wird. Mit diesem Kriterium wird abgeschätzt, wie groß der Feh-leranteil in der Messung ist. Dafür gibt es verschiedene Methoden wie Retestreliabilität bzw.

Stabilität, Paralleltestreliabilität, Testhalbierungsreliabilität etc. Als gängige Methode wurde hier die interne Konsistenz geprüft, deren Schätzung wie viele kleine Paralleltests, nämlich für jedes Item einzeln, aufgebaut ist. Die interne Konsistenz bestimmt so die Homogenität einer Messskala, also ob die Inhalte der einzelnen Items einen inneren Zusammenhang auf-weisen und somit in der Lage sind, die gleiche Testgröße (Überzeugungen) zu messen. Als Kenngröße für die Reliabilität wurde der statistische Wert Cronbachs  aus den Befragungs-ergebnissen je einer Skala errechnet. Cronbachs  kann Werte zwischen 0 und 1 annehmen.

Ab etwa 0,7 wird von einer akzeptablen Reliabilität gesprochen (Bühner 2004).

Kapitel 4 – Forschungsdesign und Untersuchungsmethoden

76

Die in Tab. 10 aufgeführten Reliabilitätswerte der einzelnen Skalen des Überzeugungsfrage-bogens sind mit mindestens .749 sehr befriedigend. Im Fall der Skala „Selbstwirksamkeit“

werden hierdurch die gebildeten Komponenten in ihrer Zusammensetzung bestätigt, wenn-gleich diese nicht Ergebnis einer Hauptkomponentenanalyse sind und aufgrund der hohen Korrelationen untereinander nicht als eigenständige Skalen gegeneinander abgegrenzt sind.

Tabelle 10: Reliabilität aller Skalen und Komponenten des Überzeugungsfragebogens.

Angegeben ist als Reliabiltätsmaß Cronbachs .

Skala Itemanzahl Cronbachs 

A) Naturbezug 11 .841

B) Einschätzung des Wissens und Könnens - gesamt 23 .908

B1) Didaktisches Wissen und Können 7 .803

B2) Naturkundliches Wissen und Können 9 .806

B3) Gartenbauliches Wissen und Können 7 .816

C) Wirksamkeit von Freilandarbeit im Unterricht 13 .846

D) Durchführbarkeit von Freilandarbeit 7 .749

Validität

Die Validität eines Tests ist ein Maß dafür, in wieweit er in der Lage ist, tatsächlich das gewünschte Merkmal zu erheben. Unterschieden werden dabei die Inhaltsvalidität, die Kriteriumsvalidität und die Konstruktvalidität. Die Inhaltsvalidität zielt darauf ab, die Items nach logischen und fachlichen Gesichtspunkten auf ihren Bezug zur gewünschten Messgröße zu prüfen. Wenngleich es sich hier nicht um ein objektives Kriterium handelt, ist diese Prüfung jedoch grundlegend und unverzichtbar. Im vorliegenden Fall des Überzeugungsfragebogens ist sie durch intensiven Austausch mit Prof. Dr. Astrid Kaiser, Prof. Dr. Joachim Lehnert und Prof. Dr. Michael Gebauer sowie den Teilnehmerinnen des Doktorandenkolloquiums durchgeführt worden.

Die Konstruktvalidität bezeichnet den Grad des Zusammenhangs zwischen dem zu messenden Zielkonstrukt und den Testitems. „Ein Test ist konstruktvalide, wenn aus dem zu messenden Zielkonstrukt Hypothesen ableitbar sind, die anhand der Testwerte bestätigt werden können.“ (Bortz & Döring 2006, S. 201). Eine Beispielhypothese für Skala C wäre:

„Studierende mit einer sehr positiven Wirksamkeitserwartung bezüglich Freilandarbeit sind der Ansicht, dass Freilandarbeit das Interesse an Interesse am Unterrichtsstoff erhöht.“

Entsprechendes Testitem: „Freilandarbeit erhöht das Interesse an Interesse am Unterrichtsstoff.“ Die Konstruktvalidität kann dadurch als gegeben angesehen werden, dass die Items des Überzeugungsfragebogens in steter Anlehnung an theoretischen Quellen entwickelt wurden (Kap. 3.1). Die Konstruktvalidität wurde nicht quantifiziert.

Selbstverständlich bilden Testskalen stets nur einen Ausschnitt des zu erhebenden Merkmals ab, nie alle Aspekte davon. Eine perfekte Validität ist schon aus diesem Grund nicht zu erreichen. „Dennoch lässt sich der Einsatz eines psychometrischen Tests generell pragmatisch rechtfertigen, wenn die Entscheidungen und Vorhersagen, die auf der Basis des Tests

Kapitel 4 – Forschungsdesign und Untersuchungsmethoden

77

getroffen werden, tauglicher sind als Entscheidungen und Vorhersagen, die ohne den Test möglich wären – es sei denn, der mit dem Test verbundene Aufwand steht in keinem Verhältnis zum Informationsgewinn.“ (Bortz & Döring 2006, S. 201)