• Keine Ergebnisse gefunden

Masterarbeit. zur Erlangung des akademischen Grades eines Master of Science (MSc.)

N/A
N/A
Protected

Academic year: 2022

Aktie "Masterarbeit. zur Erlangung des akademischen Grades eines Master of Science (MSc.)"

Copied!
106
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Itemschwierigkeiten von automatisch generierten Aufgaben zur Messung der visuellen Wahrnehmung

Masterarbeit

zur Erlangung des akademischen Grades eines Master of Science (MSc.) an der naturwissenschaftlichen Fakultät der Karl-Franzens-Universität Graz

vorgelegt von:

Stefanie Jauk, BSc.

Supervision:

Univ.-Prof. Mag. Dr. Martin Arendasy Institut für Psychologie

März 2017, Graz

(2)

An dieser Stelle ist es an der Zeit meinen Eltern, Josef und Sabine Jauk, zu danken. Ich danke euch, dass ihr mich in all meinen bisherigen Lebensphasen begleitet und mir die Freiheiten gegeben habt, meinen Lebensweg selbst zu gestalten. Ohne euren Rückhalt und eure bedin- gungslose Unterstützung wäre es mir nicht so leicht gefallen meine Ziele zu erreichen.

(3)

Eine Pilotstudie über die psychometrischen Eigenschaften und Itemschwierigkeiten von automatisch generierten Aufgaben zur Messung der visuellen Wahrnehmung

Stefanie Jauk, BSc.

März 2017, Graz

(4)

Zusammenfassung

Flexibility of Closuregilt als Faktor der visuellen Wahrnehmung und ist damit eine Subdimen- sion kognitiver Fähigkeiten. Obwohl der Faktor Teil aktueller Intelligenzmodelle ist, wird nur wenig psychometrische Forschung dazu betrieben. Das Ziel dieser Arbeit ist es, eine Pilotversi- on einesFlexibility of ClosureTests mittels automatischer Itemgenerierung zu konstruieren und die psychometrischen Eigenschaften der Testaufgaben zu evaluieren. Die Testaufgaben dieser Studie wurden nach dem Zwei-Komponenten-Ansatz generiert. In der ersten Komponente wur- den Itemeigenschaften definiert, welche die Schwierigkeit der Aufgaben beeinflussen könnten.

Die zweite Komponente beinhaltete Voraussetzungen, um Testbias zu vermeiden. Die Aus- wertung der Ergebnisse fand zunächst nach Klassischer Testtheorie statt, anschließend wurde der Test nach Probabilistischer Testtheorie auf eine Passung des dichotomen Rasch-Modells überprüft. Von insgesamt 3240 Testaufgaben wurden 18 Aufgaben nach einer systematischen Auswahl der Itemeigenschaften und einer subjektiven Beurteilung der Voraussetzungen ausge- wählt. Die Online-Testung wurde von 322 Personen durchgeführt, von denen die Hälfte mehr als 13 Aufgaben richtig löste. Die durchschnittliche Bearbeitungszeit betrug 12 Minuten. Der Cronbach-α-Koeffizient von .77 zeigte eine mittlere Reliabilität für die 18 Aufgaben. Für die erhobenen Daten konnte keine Passung des Rasch-Modells gezeigt werden, auch nicht nach einer Extraktion von fünf psychometrisch-auffallenden Aufgaben. Obwohl die Hypothese der Raschhomogenität für den Test verworfen werden musste, konnten Informationen für weiter- führende Arbeiten gewonnen werden. Teil der Forschung kann es zukünftig sein, den Einfluss der Itemeigenschaften auf die Schwierigkeit zu analysieren und einen raschhomogenenFlexi- bility of ClosureTest zu konstruieren.

Schlagwörter: Flexibility of Closure, visuelle Wahrnehmung, automatische Itemgenerierung, Zwei-Komponenten-Ansatz, Probabilistische Testtheorie, dichotomes Rasch-Modell

(5)

Abstract

Flexibility of Closureis known as a subordinated ability of visual processing, which is one di- mension of human cognitive abilities. Despite its importance as an ability within intelligence, there is a lack of psychometric research on it. Hence, the aim of this study was to generate a pilot version of a Flexibility of Closure test using automatic item generation and to examine item features concerning their psychometric properties and impact on item difficulties. Based on previous research, items forFlexibility of Closure were automatically generated using the dual-component method. In the first component, item features which may contribute to item difficulty were defined. The second component included constraints to avoid test bias. Test results were analyzed with classical test theory as well as item response theory, using a dicho- tomous Rasch model function for analysis. Out of a pool of 3240 items, 18 items were selected based on (1) a systematic selection according to item features and (2) a subjective assessment of required constraints. The online version of the test was completed by 322 people of whom 50% solved more than 13 items; the average test time was 12 minutes. The Cronbach’sαvalue for reliability was .77 for the 18 selected items, indicating an adequate measurement precision.

The test did not show a fit on the dichotomous Rasch model function of the item response ana- lysis, not even after excluding five of the original 18 items due to unsatisfying item properties.

Rasch homogeneity could not be assumed for the test items. Even though the data of this pilot study showed no fit on the Rasch model, a first step in constructing aFlexibility of Closuretest with automatic item generation was taken. Further research is needed to determine how item features contribute to item difficulty and how to adapt the items for a fit on the Rasch model.

Keywords: Flexibility of Closure, visual processing, automatic item generation, dual-component method, item response theory, dichotomous Rasch model

(6)

Inhaltsverzeichnis

Zusammenfassung II

Abstract III

Einleitung 1

Die Bedeutung der Intelligenzmessung . . . 1

Die Entwicklung von Intelligenzstrukturmodellen . . . 4

Visuelle Wahrnehmung nach Carroll . . . 15

Flexibility of Closure- ein Faktor der visuellen Wahrnehmung . . . 16

Leistungstests zurFlexibility of Closure . . . 19

Individuelle Unterschiede in der FähigkeitFlexibility of Closure . . . 23

Die automatische Itemgenerierung . . . 25

Die generative Komponente . . . 28

Die Qualitätssicherungskomponente . . . 32

Überprüfung der psychometrischen Eigenschaften der Testaufgaben . . . 32

Hypothesen dieser Arbeit . . . 36

Methode 37 Stichprobe . . . 37

Generierung der Testaufgaben . . . 38

Versuchsmaterialien . . . 42

Versuchsablauf . . . 43

Auswertung . . . 43

Ergebnisse 44 Deskriptive und inferenzstatistische Analysen . . . 44

Klassische Testtheorie . . . 49

Probabilistische Testtheorie . . . 51

Ausschluss der Items mit schlechten psychometrischen Eigenschaften . . . 58

(7)

Diskussion 59

Zusammenfassung der Ergebnisse . . . 59

Analyse der auffälligen Testaufgaben . . . 61

Limitationen der Studie . . . 65

Weiterentwicklung der konstruierten Testaufgaben . . . 68

Zusammenfassung und Fazit . . . 71

Literatur 73

Anhang A 78

Anhang B 80

(8)

Tabellenverzeichnis

1 Beschreibung der implementiertenconstraints . . . 33

2 Charakteristiken der Items desFlexibility of ClosureTests . . . 39

3 Überprüfung der formuliertenconstraints . . . 41

4 Deskriptive Statistiken desFlexibility of ClosureTests (n=322) . . . 45

5 Statistische Kennwerte der Itemanalyse nach Klassischer Testtheorie . . . 50

6 Schätzer für die Itemparameter der Testaufgaben im dichotomen Rasch-Modell 52 7 Schätzer der Personenparameter für die Anzahl gelöster Aufgaben . . . 54

8 Ergebnisse der Wald-Tests . . . 56

(9)

Abbildungsverzeichnis

1 Das Structure-of-Intellect-Modell von Guilford . . . 11

2 Das hierarchische Gruppenfaktor-Modell von Vernon . . . 13

3 Die Drei-Stratum-Theorie nach Carroll . . . 14

4 Beispielfiguren zu verschiedenen Tests zur Messung derFlexibility of Closure . 19 5 In der Stichprobe vertretene Studienrichtungen . . . 38

6 Absolute Häufigkeiten der Anzahl richtig gelöster Aufgaben . . . 45

7 Boxplots der mittleren Bearbeitungszeiten . . . 46

8 Anzahl richtig gelöster Aufgaben getrennt für Männer und Frauen . . . 47

9 Relative Häufigkeiten von Männern und Frauen innerhalb der Gruppen mit und ohne Darstellende Geometrie als Unterrichtsfach. . . 48

10 Itemcharakteristikkurven für alle 18 Items desFlexibility of ClosureTests. . . 53

11 Grafische Modelltests . . . 55

12 Items des Flexibility of ClosureTest mit auffälligen psychometrischen Eigen- schaften. . . 62

(10)

Einleitung Die Bedeutung der Intelligenzmessung

Es scheint in der Natur des Menschen zu liegen, sich mit seinesgleichen vergleichen und messen zu wollen. Wenn in früheren Zeiten die Kräftemessung mehr eine physische war, ist sie in unserer westlichen Welt zu einer mit stark kognitivem Fokus geworden. Neben Aus- wahlverfahren für Universitäten mittels kognitiven Leistungstests werden auch teilweise bei beruflichen Bewerbungsverfahren psychologische Testungen durchgeführt, um KandidatInnen besser vergleichen zu können.

Die diagnostische Psychologie beschäftigt sich seit mehr als hundert Jahren damit, ko- gnitive Fähigkeiten von Individuen zu vergleichen. Mit diversen psychologischen Tests sollen hoch fähige Personen von normal fähigen oder auch minder fähigen unterschieden werden.

Während im alltäglichen Sprachgebrauch der Begriff der Intelligenz mehr als Überbegriff für kognitive Fähigkeiten verwendet wird, verbirgt sich im diagnostischen Bereich ein komplexes Konstrukt dahinter. Um das Konstrukt der Intelligenz valide und reliabel messen zu können, bedarf es an gut erforschten kognitiven Leistungstests. PsychologInnen im diagnostischen Be- reich sind daher gefordert, einerseits neue kognitive Leistungstests zu konstruieren und ande- rerseits vorhandene zu überprüfen und gegebenenfalls zu verbessern. Nur durch jene Leistungs- tests, welche die nötigen Gütekriterien erfüllen, kann ein fairer Vergleich zwischen Individuen stattfinden. Für einen fairen Vergleich ist zu bedenken, dass Messmethoden immer mit einem Messfehler behaftet sind und sich kognitive Fähigkeiten im Laufe der Zeit verändern können.

Stabilität der Intelligenz über die Lebensspanne. Obwohl sich kognitive Leistun- gen über die Lebensspanne hinweg entwickeln, verläuft die Entwicklung der Intelligenz nicht linear (Holling, Preckel & Vock, 2004). Während die Intelligenz im Kindes- und Jugendal- ter ansteigt, stagniert sie bereits im frühen Erwachsenenalter und bildet sich gegen Ende der Lebensspanne oftmals etwas zurück.

Auch wenn die Intelligenz eines Erwachsenen nicht durch dessen Testwerte als Klein- kind vorhergesagt werden kann (McCall, Hogarty & Hurlburt, 1972, zitiert nach Schneider, Stefanek & Niklas, 2010), korrelieren Testwerte von erst Dreijährigen mit ihren späteren Ergeb- nissen in kognitiven Leistungstests. Sontag, Baker und Nelson (1958) zeigten in einer Längs-

(11)

schnittstudie, dass der Intelligenzquotient (IQ) eines dreijährigen Kindes, ermittelt mit dem Stanford-Binet-Test, zu .46 mit seinem Wert neun Jahre später korreliert. Yule, Gold und Busch (1982, zitiert nach Schneider et al., 2010) konnten sogar Korrelationen von .86 der Intelligenz- testwerte der Fünfjährigen mit denen als 16-Jährige zeigen. Auch wenn diese Ergebnisse die hohe Stabilität der Intelligenz bereits im Kindesalter zeigen, so ist der Intelligenzquotient in dieser Zeit doch auch veränderbar (Schneider et al., 2010). In jungen Jahren kann es zu intra- individuellen Veränderungen von 20 oder mehr IQ-Punkten kommen (Honzik, MacFarlane &

Allen, 1948, zitiert nach Schneider et al., 2010). Die intraindividuellen Veränderungen sind im Vorschulalter noch sehr bedeutend, während sie im Schulalter wieder abnehmen (Schneider et al., 2010).

Einen einzigartigen Beitrag zur Erforschung der kognitiven Fähigkeiten über die Le- bensspanne leistet die Seattle Langzeitstudie von Schaie (2005). Basierend auf seiner Dok- torarbeit 1956 konstruierte Schaie ein Studiendesign, das sich mit individuellen Veränderun- gen über das Lebensalter, aber auch mit Kohortenveränderungen der Intelligenz beschäftigt. In Testzyklen werden alle sieben Jahre tausende Personen zwischen 22 und 70 Jahren getestet.

Zusätzlich zu den Langzeittestungen der Personen aus den vorherigen Zyklen wird für jeden Zyklus auch eine neue Testgruppe zur Studie hinzugefügt. In der Seattle Langzeitstudie konnte gezeigt werden, dass sich kognitive Leistungen zwischen 25 und 80 Jahren je nach gemessener Fähigkeit unterschiedlich entwickeln. Während induktives Schlussfolgern, räumliche Orientie- rung oder verbales Gedächtnis über die Lebensspanne hinweg abfallen, steigt die Leistung in numerischen oder verbalen Fähigkeiten von 25 Jahren bis ins mittlere Alter an.

Ab einem Alter von 74 Jahren bilden sich kognitive Fähigkeiten wieder zurück, wo- bei hier vor allem die mentale Geschwindigkeit einen Einfluss auf die gemessenen Intelligenz hat (Schaie, 1993). Nachdem die mentale Geschwindigkeit gegen Ende der Lebensspanne ab- nimmt, sinken auch die kognitiven Fähigkeiten. Mit 81 Jahren beträgt dieser Rückgang im Schnitt eine Standardabweichung. Wird die mentale Geschwindigkeit in Analysen kontrolliert, so sind die kognitiven Leistungseinbußen im Alter nur noch gering (Schaie, 1993; Salthouse, 1996, zitiert nach Deary, 2001).

Bezüglich der Kohorteneffekte zeigte die Seattle Langzeitstudie, dass die kognitiven

(12)

Leistungen in späteren Generationen höher sind als in früheren Generationen (Stemmler, Ha- gemann, Amelang & Bartussek, 2011). Allerdings hängen die Leistungsunterschiede auch von der gemessenen kognitiven Fähigkeit ab: Numerische Fähigkeiten hatten ihren Höhepunkt in der 1924 geborenen Kohorte und auch in Wortflüssigkeitstests schnitten kürzlich geborene Ko- horten schlechter ab.

Trotz der kognitiven Leistungszunahme im Kindesalter und der Abnahme im späten Erwachsenenalter wurde die differentielle Stabilität der Intelligenz in vielen Studien gezeigt (Conley, 1984, Hany, 2003, zitiert nach Stemmler et al., 2011). Auch wenn sich also der Mittel- wert über das Alter hinweg verändert, sollte eine Person, die als Kind überdurchschnittlich hohe Werte hatte, auch im Erwachsenenalter und am Ende ihrer Lebensspanne überdurchschnittlich hohe Ergebnisse erzielen. In einer Langzeitstudie über einen Zeitraum von 66 Jahren zeigten Deary, Whalley, Lemmon, Crawford und Starr (2000), dass die psychometrische Intelligenz einer Person mit gutem Gesundheitszustand über diesen Zeitraum hinweg stabil sein kann. Die kognitiven Leistungen schottischer SchülerInnen aus dem Jahre 1932 korrelierten zu .63 mit ihren Ergebnissen 1998, der korrigierte Wert betrug sogar .73.

Intelligenz als Erfolgsvorhersage. Im Laufe des Lebens sind Menschen immer wie- der gefordert, Abstraktionen zu bilden, Probleme zu lösen oder Verknüpfungen herzustellen (Gottfredson, 1997). Ob in der Schule, in der Arbeit oder im Alltag, in vielen Fällen sind Per- sonen mit einer höheren Intelligenz hierbei erfolgreicher. Schulischer Erfolg in der Grundschu- le korreliert zwischen .50 und .60 mit Ergebnissen in Intelligenztests (Stemmler, Hagemann, Amelang & Bartussek, 2011). Dieser Korrelationskoeffizient nimmt im Laufe der Schulzeit ab, und ist schließlich im Zusammenhang mit Erfolg im Studium am niedrigsten.

Ein Beispiel für den alltäglichen Nutzen von Intelligenztests ist deren Anwendung als Instrument der Erfolgsvorhersage im Bereich der Personalauswahl. Der Generalfaktor der In- telligenz nach Spearman (1904, zitiert nach Schmidt & Hunter, 2004) gilt als sehr guter Prädik- tor für extrinsischen Berufserfolg. Mit einer Korrelation von .50 kommt es bei einem höheren Generalfaktor der Intelligenz in der Kindheit zu höherem Einkommen oder höheren Positio- nen im Berufsleben als Erwachsener (Judge, Higgins, Thoresen & Barrick, 1999). Der in der Kindheit gemessene Generalfaktor korreliert nach 19 Jahren sogar zu .71 mit dem Dienstgrad

(13)

(Ball, 1938, zitiert nach Schmidt & Hunter, 2004). Neben einem höheren Beruferfolg gibt es auch Hinweise darauf, dass Personen mit einem hohen IQ leichter trainierbar sind (Gottfredson, 1997). Weiters sind bei ihnen auch die Fähigkeiten sich selbstständig Dinge beizubringen und Routinen schnell zu verstehen besser ausgebildet.

Durch diese empirischen Ergebnisse wird klar, dass die Intelligenz eines Menschen ein wichtiger Vorhersagewert für den Erfolg im zukünftigen Leben sein kann. Um Dimensionen der Intelligenz erfassen zu können, muss man sich allerdings zuerst der Frage stellen, woraus sich die menschliche Intelligenz zusammensetzt und wie man sie schlussendlich messen kann.

Definitionen der Intelligenz. Auch wenn der Begriff Intelligenz durch viele impli- zite Theorien geprägt ist, existiert keine allgemein gültige explizite Definition für Intelligenz (Maltby, Day & Macaskill, 2011; Holling et al., 2004). Trotz uneinheitlicher Definitionen und verschiedener Auffassungen in der Literatur gibt es unter Experten jedoch immer wiederkeh- rende Themen in der Intelligenzmessung (Sternberg, 2000, zitiert nach Maltby et al., 2011).

Beispiele dafür sind grundlegende mentale Verarbeitungsprozesse, Anpassung an die Umwelt sowie schlussfolgerndes Denken, Problemlösen oder Entscheidungsfindung.

Als umstritten gilt in der Literatur die Frage, ob es sich bei Intelligenz um verschiede- ne Fähigkeiten oder eine abgegrenzte Eigenschaft handelt. Abgesehen von sprachlichen Ver- suchen, den Begriff zu definieren, haben vor allem statistische Verfahren wie Korrelationen und Faktorenanalysen dabei geholfen, Intelligenzdimensionen zu identifizieren und Modelle für Intelligenzstrukturen aufzustellen (Holling, Preckel & Vock, 2004). Die Entstehung solcher Intelligenzstrukturmodelle soll im Folgenden erläutert werden.

Die Entwicklung von Intelligenzstrukturmodellen

Die Anfänge der Intelligenzmessung. Die ersten Schritte der Intelligenzmessung gehen auf das Ende des 19. Jahrhunderts zurück (Carroll, 1993). James McKeen Cattell und Francis Galton beschäftigten sich als Vorreiter mit individuellen Unterschieden in physischen und sensorischen Aufgabenstellungen. Galton, der Cousin des Evolutionstheoretikers Charles Darwin, widmete den Großteil seiner Forschung den Theorien der Vererbung von Intelligenz (Maltby, Day & Macaskill, 2011). Dabei ging er davon aus, dass höhere Intelligenz zum meis-

(14)

ten Teil durch vererbte Eigenschaften beeinflusst werde. Zudem nahm er an, dass es Personen mit höherer Intelligenz leichter falle, viele Sinnesinformationen zugleich zu verarbeiten. Per- sonen mit geringeren kognitiven Fähigkeiten hingegen hätten Schwierigkeiten mit Reaktionen auf viele sensorische Reize. Zur Verifizierung seiner Theorien untersuchte er Reaktionszeiten, physiologische Eigenschaften sowie Seh- und Hörvermögen von Individuen. Galtons Messun- gen gelten als eine der ersten zu kognitiven Fähigkeiten und individuellen Unterschieden. Auch wenn seine Intelligenzmessungen mit psychometrischen Tests im Gegensatz zu den physiolo- gischen Messungen nicht sehr erfolgreich waren, blieb beispielsweise der Aspekt der Reak- tionszeit bis heute in Intelligenzstrukturmodellen erhalten.

Inspiriert von Galton und Cattell entwickelte Alfred Binet Anfang des 20. Jahrhunderts eine Intelligenzskala, die als erste Skala der damaligen Zeit gilt (Binet & Simon, 1905, zitiert nach Carroll, 1993). Er ging davon aus, dass sehr komplexe Testmaterialien wie kognitive Fä- higkeiten aus dem Schulunterricht gute Prädiktoren für Intelligenz seien (Carroll, 1993). Mit- hilfe der Intelligenzskala konnte er Kinder mit normaler Intelligenz von denen mit Intelligenz- minderungen schon in sehr frühen Entwicklungsstufen unterscheiden. Für die Testung wurden verschiedene Aufgaben nach ihrem Schwierigkeitsgrad sortiert. Einem Streichholz mit den Au- gen zu folgen zählte beispielsweise zu den einfachen Aufgaben und Körperteile zu benennen zu den mittelschweren Aufgaben. Testaufgaben wie die Reproduktion von Zeichnungen oder das Wiederholen von Zahlen bildeten den schwersten Teil der Testung (Maltby, Day & Macaskill, 2011). Anhand der zuletzt gelösten Aufgabe wurde bestimmt, ob das geistige Alter eines Kin- des seiner Altersgruppe entsprach. Der Ansatz von Binet, das Alter bei Intelligenzmessungen zu berücksichtigen, gilt als wichtiger Schritt in der Messung kognitiver Fähigkeiten.

William Stern entwickelte schließlich einen Quotienten aus dem Lebensalter und dem im Test von Binet und Simon erreichten Intelligenzalter (Stemmler, Hagemann, Amelang &

Bartussek, 2011). Da seine Forschung zeigte, dass das geistige Alter proportional zum realen Alter variierte, kreierte er damit ein Maß, welches unabhängig vom Alter interpretiert werden konnte. Dieser Intelligenzquotient (IQ) nach Stern, abgebildet in Formel 1, ergab sich aus dem Quotienten des Intelligenzalters mit dem Lebensalter. Schließlich wurde der Quotient mit 100 multipliziert, um ganze Zahlen zu erhalten.

(15)

IQ= Intelligenzalter

Lebensalter ∗100 (1)

Diese Formel würde allerdings nur dann ein sinnvolles Ergebnis hervorbringen, wenn mit zunehmendem Alter auch der IQ eines Menschen linear steigen würde (Holling, Preckel &

Vock, 2004). Dies ist jedoch nicht der Fall, da die Ergebnisse in einem Leistungstest ab einem gewissen Alter relativ konstant bleiben. Der nach Stern errechnete IQ einer Person sinkt also mit zunehmendem Alter wieder. David Wechsler (1939, zitiert nach Holling et al., 2004) entwi- ckelte aus diesem Grund eine alternative Berechnung für den IQ. In der noch heute verwendeten Formel wird der Testwert einer Person mit einer repräsentativen Stichprobe verglichen und mit dem Mittelwert und der Standardabweichung der Stichprobe standardisiert. Für die Berechnung des IQ-Werts ergibt sich demnach Formel 2.

IQ= 100 + 15∗ T estwertM ittelwert

Standardabweichung (2)

Diese Berechnung wird nach wie vor zur Bestimmung des IQs verwendet, allerdings wird häufiger eine Standardisierung in z-Werten durchgeführt.

Zwei-Faktoren-Theorie der Intelligenz. Charles Spearman publizierte 1904 seine Versuche, individuelle Unterschiede in der Intelligenz anhand von Korrelationen zu bestimmen (Carroll, 1993). Er beschäftigte sich mit der Frage, ob sensorische Fähigkeiten mit intellek- tuellen Fähigkeiten in Verbindung stehen. In seinen Studien untersuchte er Schulklassen ver- schiedener Altersstufen in unterschiedlichen Schulen (Maltby, Day & Macaskill, 2011). Dabei ließen seine Daten auf eine positive Korrelation zwischen Intelligenztests aus verschiedenen Bereichen schließen. Personen, die in einem Intelligenztest gute Ergebnisse erzielten, erreich- ten oft auch hohe Werte in anderen Tests zu intellektuellen Fähigkeiten. Hierbei machte es keinen Unterschied, ob der Intelligenztest Wortschatz, räumliche Vorstellung oder mathemati- sche Fähigkeiten erfasste. Den Faktor, auf dem alle diese Tests luden, bezeichnete Spearman als Generalfaktor der Intelligenz (g). Je nach Ausprägung dieses Faktors sind Menschen laut ihm fähig, Zusammenhänge wahrzunehmen und Schlussfolgerungen daraus zu ziehen (Maltby, Day & Macaskill, 2011).

(16)

Die Ladungen der einzelnen Intelligenztests aufgerfasste Spearman mithilfe einer Fak- torenanalyse (Stemmler, Hagemann, Amelang & Bartussek, 2011). Aus den Ergebnissen die- ser Analyse schloss er, dass zusätzlich zum Generalfaktor jeder Test noch einen spezifischen Anteil an verbleibender Varianz enthielt. Diesen Anteil, der nicht durchgerklärt werden konn- te, bezeichnete Spearman als den spezifischen Anteil (s) des jeweiligen Tests. Die Annahme, jeder Test für Intelligenz beruhe zum Teil auf dem Generalfaktor und zum anderen Teil auf einem spezifischen Faktor, führte zur Formulierung der Zwei-Faktoren-Theorie der Intelligenz (Amelang & Bartussek, 2001). Laut Carroll (1993) ist der Name der Theorie jedoch irrefüh- rend, da Spearman zwar nur einen Generalfaktor, aber je Intelligenztest noch einen spezifischen Faktor annimmt. Daher besteht seine Theorie genau betrachtet aus mehreren Faktoren.

Dem Generalfaktor wird auch in der aktuellen Diagnostik große Bedeutung zugeschrie- ben. Zum einen kommt er in den gängigen Intelligenztests als breit gefasster Faktor vor, wel- cher eine Varianz von ungefähr 50 Prozent aufklärt (Sternberg & Grigorenko, 2002, zitiert nach Stemmler, Hagemann, Amelang & Bartussek, 2011). Zum anderen istgim alltäglichen Leben von Relevanz, beispielsweise beim Interpretieren von Zeitungsartikeln, bei der Verwendung von Karten und Busplänen oder bei Banktätigkeiten (Gottfredson, 1997).

Modell mehrerer gemeinsamer Faktoren. Gegensätzlich zu Spearman (1904) glaub- te Louis Thurstone nicht an einen Generalfaktor der Intelligenz, auch wenn er in seinen Fakto- renanalysen zur Intelligenzstruktur zunächst davon ausging (Maltby, Day & Macaskill, 2011).

Er kritisierte an Spearmans Arbeiten, dass diese nur gezeigt hatten, dass Intelligenztests positiv miteinander korrelierten. Für Thurstone war dies aber noch kein Beweis für die Existenz eines Generalfaktors.

Die Forschung von Thurstone (1938) gilt als der erste mulitfaktorielle Ansatz einer Intelligenzstruktur, in den mehrere Primärfaktoren eingebettet sind. Für seine Berechnungen ging er davon aus, dass nicht alle Primärfähigkeiten gleichermaßen zur Leistung in einem be- stimmten Test beitragen (Stemmler, Hagemann, Amelang & Bartussek, 2011). Mithilfe einer multiplen Faktorenanalyse konnte Thurstone zuerst neun primäre mentale Fähigkeiten erfassen, die in späteren Arbeiten aber auf folgende sieben reduziert wurden:

(17)

1. Verbales Verständnis 2. Wortflüssigkeit

3. Schlussfolgerndes Denken 4. Assoziatives Gedächtnis 5. Rechenfähigkeit

6. Räumliches Vorstellungsvermögen

7. Wahrnehmungs- und Auffassungsgeschwindigkeit

In Thurstones Theorien bilden diese sieben Primärfaktoren die Grundlage für den Generalfak- tor. Sie stehen auf derselben Ebene des Modells und sind unabhängig voneinander (Stemmler, Hagemann, Amelang & Bartussek, 2011).

Wenngleich Thurstone in seiner Analyse keinen Generalfaktor wie Spearman fand, konnte er diesen auch nicht falsifizieren (Carroll, 1993). Thurstone selbst nahm an, dass in einem Leistungstest mehrere der sieben Primärfaktoren von Bedeutung sind, und dadurch Kor- relationen zwischen den Leistungstests erklärt werden können. Laut Carroll (1993) könnten sowohl die von Thurstone gewählten Methoden als auch die gewählte Stichprobe ein Grund dafür sein, dass Thurstones Analyse keinen Generalfaktor hervorbrachte. Aufgrund der homo- genen Stichprobe bestehend aus Collegestudierenden fehlten negative Extremvarianten in den Arbeiten, was zu einer Verminderung der Interkorrelationen der Leistungstests führen konnte.

Folglich war auch der Nachweis des Generalfaktors schwieriger zu erbringen als bei heteroge- nen Stichproben (Stemmler, Hagemann, Amelang & Bartussek, 2011).

Bezüglich der Methode entschied sich Thurstone für die von ihm entwickelte multiple Faktorenanalyse, wobei er die Zentroidmethode mit einer orthogonalen Rotation der Achsen anwandte (Carroll, 1993). Carroll kritisierte die Anwendung dieser Methode in diesem Zusam- menhang: Eine schiefwinkelige Rotation der Achsen hätte dazu geführt, dass mehrere der Fak- toren miteinander korrelierten, was wiederum einen Generalfaktor der Intelligenz erklärt hätte.

Diese ebenfalls von Thurstone eingeführte Methode der schiefwinkeligen Rotation (1938b, zi- tiert nach Carroll, 1993) erschien jedoch erst kurz nach der Veröffentlichung der Studie der Primärfaktoren.

(18)

Fluide und kristalline Intelligenz. Basierend auf Spearmans Generalfaktor nahm Raymond Cattell in seiner 1957 veröffentlichten Theorie zwei Komponenten der Intelligenz an: die fluide und die kristalline Intelligenz (Holling, Preckel & Vock, 2004). In Cattells Theo- rie setzt sich Spearmans Generalfaktor aus diesen beiden Sekundärfaktoren zusammen.

Als fluide Intelligenz bezeichnete Cattell die Fähigkeit, neue, abstrakte Probleme zu lösen und sich an neue Situationen anzupassen. Durch hohe fluide Intelligenz, auch als gf bezeichnet, wird der Erwerb neuer Information erleichtert und Muster und Beziehungen besser verstanden. Kristalline Intelligenz, oder auch gc, beinhaltet laut Cattell kognitive Fertigkeiten und im Laufe des Lebens erworbenes Wissen. Diese Komponente der Intelligenz beschäftigt sich zudem mit der Anwendung des erworbenen Wissens und der Verarbeitung von vertrauter Information (Holling, Preckel & Vock, 2004; Maltby, Day & Macaskill, 2011).

In der von Cattell erwähnten Investment-Theorie (Holling, Preckel & Vock, 2004) stellt fluide Intelligenz eine Voraussetzung für kristalline Intelligenz dar, wobei die zwei Kompo- nenten in einer dynamischen Beziehung zueinander stehen: Während die kristalline Intelligenz im Laufe des Lebens zunimmt, ist die fluide Intelligenz angeboren und nimmt zugunsten der kristallinen Intelligenz ab (Maltby, Day & Macaskill, 2011).

Kristalline und fluide Intelligenz werden nach Horn und Cattell (1966, zitiert nach Stemmler, Hagemann, Amelang & Bartussek, 2011) durch Primärfaktoren determiniert, welche auf einer untergeordneten Ebene liegen und an Thurstones Theorien erinnern. Demnach setzt sich fluide Intelligenz in erster Linie aus den Primärfaktoren Figurale Beziehungen, Gedächt- nisspanne und Induktion zusammen. Für kristalline Intelligenz sind laut Horn (1968, zitiert nach Stemmler et al., 2011) Wortverständnis, Satzbildung sowie Satzergänzung relevant. Die von ihm genannten Primärfaktoren für fluide Intelligenz lassen sich gut mit kulturfreien Tests erfassen, während solche für kristalline Intelligenz stark an sprachliche und damit kulturspezi- fische Messmethoden gebunden sind.

Zusätzlich zu den gefundenen Primärfaktoren erweiterten Horn und Cattell (1966, zi- tiert nach Verster, 1987) die zwei Sekundärfaktoren. Die Ebene der kristallinen und fluiden Komponente wurde um vier Faktoren erweitert: Visualisierungsfähigkeit, Wahrnehmungsge- schwindigkeit, Gedächtnisleistung und Abrufgeschwindigkeit. Die Ergebnisse wurden in wei-

(19)

terführenden Analysen wiederholt bestätigt (Horn & Bramble, 1967, zitiert nach Verster, 1987;

Gustafson, 1984, zitiert nach Carroll, 1993).

Da manche der Primärfaktoren auf der kristallinen sowie auf der fluiden Intelligenz laden, korrelieren die beiden Komponenten zu etwa .50 miteinander (Stemmler, Hagemann, Amelang & Bartussek, 2011). Cattell nahm daher in späteren Analysen einen übergeordneten Faktorgf(h)als höchste Ebene der Intelligenz an.gf(h)steht fürgf historical, denn laut Cattells Analysen lädt die fluide Intelligenz höher auf dem Faktor als die kristalline Intelligenz.

Die Theorien von Cattell gelten als Synthese der Modelle von Spearman (1904) und Thurstone (1938): Einerseits wird ein übergeordneter Faktor wie bei Spearman angenommen, welcher von Cattell alsgf(h)bezeichnet wird. Andererseits wird dieser Generalfaktor von zwei oder sechs Sekundärfaktoren gebildet, welche wiederum aus Primärfaktoren zusammengesetzt sind (Carroll, 1993).

Structure-of-Intellect Modell. Ebenso wie die Modelle von Thurstone und Cattell gilt auch Joy Guilfords Arbeit als multifaktorelle Intelligenzstrukturtheorie, die auf faktoren- analytischen Verfahren basiert (Maltby, Day & Macaskill, 2011). Trotz der ähnlichen methodi- schen Vorgangsweise brachten alle drei Wissenschaftler unterschiedliche Ergebnisse zum Ge- neralfaktor hervor. Zudem verwendete Guilford im Gegensatz zu den beiden anderen eine kon- firmatorische Faktorenanalyse zur Berechnung und ging nicht mehr von einer hierarchischen Intelligenzstruktur aus. Gleich wie Thurstone rotierte er die Faktoren orthogonal, womit es sehr schwer möglich war, einen Generalfaktor zu ermitteln.

Zu Guilfords Zeit gingen viele der Faktorenanalytiker davon aus, dass es besser war, zu viele Faktoren in den Analysen anzunehmen als zu wenige. Basierend auf dieser Annahme extrahierte Guilford jedoch sehr viele Faktoren und nicht nur die essentiellen (Carroll, 1993).

Schließlich fanden sich 120 Faktoren im Structure-of-Intellect-Modell von Guilford.

Wie in Abbildung 1 dargestellt, wurden die Faktoren in einem Quader angeordnet (Stemmler, Hagemann, Amelang & Bartussek, 2011). Guilford nahm an, dass jeder der Fak- toren drei Facetten umfasst: Inhalt, Vorgang und Produkt. Diese Facetten stellen die drei Ach- sen des Quaders dar, welche die Informationsverarbeitung kognitiver Prozesse erklären. Die drei Facetten gleichen einem Stimulus-Operation-Response-Modell, in dem eine Inputvariable

(20)

durch eine Operation in einen Output gewandelt wird. Die 120 Kombinationen aus den unter- schiedlichen Facetten bilden in diesem Modell die Primärfaktoren.

Abbildung 1. Das Structure-of-Intellect-Modell von Guilford mit drei Facetten und 120 Faktoren (1967, Stemmler, Hagemann, Amelang & Bartussek, 2011).

Auch wenn einige Aspekte von Guilfords Modell in Analysen bestätigt wurden, so wird das Modell doch von den meisten WissenschaftlerInnen kritisch betrachtet (Carroll, 1993). Ei- ner der Kritikpunkte ist die große Anzahl an positiven Korrelationen zwischen den Faktoren, womit die Annahme der Unabhängigkeit zwischen den Faktoren falsifiziert wird (Stemmler, Hagemann, Amelang & Bartussek, 2011). Brody und Brody (1976, zitiert nach Stemmler et al., 2011) kritisierten zudem die Homogenität der analysierten Stichproben sowie die geringen Reliabilitäten der verwendeten Tests. Cronbach und Snow (1977, zitiert nach Carroll, 1993) bezeichneten Guilfords Modell sogar als „unprofitabel complex“. Auch Carroll (1993) distan- zierte sich in seiner Arbeit vom Structure-of-Intellect-Modell.

Gruppenfaktor-Modell. Die hierarchischen Theorien der Intelligenz stehen zwischen den Theorien mit einem Fokus auf dem Generalfaktor, wie von Spearman, und den Theorien mit der Annahme von Primärfaktoren, wie von Thurstone, Cattell oder Guilford (Maltby, Day

& Macaskill, 2011).

(21)

Das erste hierarchische Modell stammt von Philip Veron, der verschiedene Ebenen der Intelligenz annahm (1950, zitiert nach Maltby, Day & Macaskill, 2011). Auf der obersten Ebe- ne steht die Allgemeine Intelligenz als Generalfaktor. Vernon ging davon aus, dass die meisten kognitiven Fähigkeiten aufg zurückzuführen sind (Carroll, 1993). Die nächste Ebene besteht aus zwei Gruppenfaktoren: dem Faktor v:ed (verbal/educational), und dem Faktor k:m (spa- tial/mechanical). Der Faktorv:ed beschreibt verbale und bildungsbezogene Fähigkeiten, wäh- rend der Faktork:mräumliche und mechanische sowie physikalische Fähigkeiten umfasst. Die- se Fähigkeiten werden als einzelne, untergeordnete Gruppenfaktoren innerhalb von v:ed und k:m angesehen. Auf der letzten Ebene werden die untergeordneten Gruppenfaktoren schließ- lich noch in spezifische Intelligenzfaktoren aufgeteilt (Maltby et al., 2011). Beispielsweise ist die verbale Fähigkeit ein untergeordneter Gruppenfaktor vonv:ed, in dem spezifische Faktoren wie Lesen oder Buchstabieren enthalten sind.

Laut Vernon (1950, zitiert nach Carroll, 1993) ist eine hierarchische Anordnung der Ebenen in einem Baumdiagramm keine ganz korrekte Abbildung seines Modells, sondern eine zu starke Vereinfachung. Stattdessen geht er von einer komplexeren Darstellung mit Bezie- hungen zwischen den einzelnen Faktoren aus. Abbildung 2 veranschaulicht eine solche Dar- stellung, in der beispielsweise mathematische Fähigkeiten mit numerischen Fähigkeiten des Faktorsv:ed, aber auch mit räumlichen Fähigkeiten des Faktorsk:min Beziehung stehen.

Die Drei-Stratum-Theorie. In seiner Veröffentlichung Human Cognitive Abilities präsentierte John Carroll 1993 seine Ergebnisse zu Intelligenzstrukturmodellen, die von vie- len als die wichtigsten des Jahrhunderts bezeichnet werden. In einer Meta-Analyse untersuchte er 460 Datasets zu kognitiven Fähigkeiten mithilfe von explorativen Faktorenanalysen. Jede miteinbezogene Studie musste gewissen Qualitätsstandards entsprechen, zum Beispiel über ei- ne ausreichend große Stichprobe verfügen. Auch die Arbeiten von Thurstone und Guilford befanden sich unter den analysierten Daten. Die Ergebnisse einer gemeinsamen hierarchischen Faktorenanalyse über die Korrelationen aller Daten fasste Carroll in seinem Modell der Drei- Stratum-Theorie zusammen.

Die Drei-Stratum-Theorie zählt wie auch das Modell von Vernon zu den hierarchischen Theorien der Intelligenz. Wie in Abbildung 3 dargestellt, werden kognitive Fähigkeiten in der

(22)

Abbildung 2. Eine komplexe Darstellung des hierarchischen Gruppenfaktor-Modells von Vernon (1950, zitiert nach Stemmler, Hagemann, Amelang & Bartussek, 2011). g = Allgemeine Intelligenz; v:ed =

verbal/bildungsbezogen; k:m = räumlich/mechanisch; f = Flüssigkeit; w = literarisch; v = linguistisch; n = numerische; i = induktiv; p = Wahrnehmung.

Drei-Stratum-Theorie als Hierarchie basierend auf drei Ebenen gesehen: Stratum I, Stratum II und Stratum III (Stemmler, Hagemann, Amelang & Bartussek, 2011). Auf der untersten Ebene, dem Stratum I, stehen ungefähr 65 spezifische Faktoren der Intelligenz. Diese Faktoren werden im Modell von Carroll je nach Korrelationen in folgende acht Faktoren der zweiten Ebene, dem Stratum II, gebündelt:

1. Fluide Intelligenz

2. Kristallisierte Intelligenz 3. Gedächtnis und Lernen 4. Visuelle Wahrnehmung 5. Auditive Wahrnehmung 6. Retrieval

7. Kognitive Schnelligkeit 8. Verarbeitungsgeschwindigkeit

Auf dieser mittleren Ebene finden sich große Parallelen zu den Ergebnissen von Thurs- tone und Cattell. Ungleich zu Thurstones Theorien laden diese acht Faktoren im Drei-Stratum- Modell aber auf einem weiteren Faktor. Dieser Faktor stellt als Stratum III die höchste Hier- archieebene dar und wird von Carroll als Allgemeine Intelligenz bezeichnet. Die Allgemeine

(23)

Intelligenz bündelt all das, was den acht Faktoren der zweiten Ebene gemein ist. Die acht Faktoren laden mit unterschiedlichem Ausmaß auf diesem Faktor, wobei die fluide und die kristallisierte Intelligenz die höchsten Faktorladungen aufweisen. Der Faktor der Allgemeinen Intelligenz in der Drei-Stratum-Theorie gleicht dem Generalfaktor von Spearman.

Abbildung 3. Die Drei-Stratum-Theorie nach Carroll (Stemmler, Hagemann, Amelang & Bartussek, 2011).

Auch wenn der Inhalt dieser Arbeit hauptsächlich auf der Drei-Stratum-Theorie von Carroll beruht, soll der Vollständigkeit halber die Weiterentwicklung des Modells erwähnt wer- den. Im Cattell-Horn-Carroll-Modell (CHC-Modell), einem der aktuellsten Modelle der Intelli- genz, wurde die Drei-Stratum-Theorie von Carroll durch die Theorien von Horn und Cattell er- gänzt (Maltby, Day & Macaskill, 2011). Die von Carroll gewählten acht Sekundärfaktoren wur- den im CHC-Modell auf 16 erweitert, der von Carroll angenommene GeneralfaktorAllgemeine Intelligenzentfiel jedoch ganz. Die 16 Faktoren bilden die breite Schicht, welche einzelne Fak- toren der zweiten, engen Schicht als Bündel umfassen. Damit wurde ein Zweischichten-Modell geschaffen, das versucht, Theorie, Praxis und Anwendung besser zu vereinen.

(24)

Visuelle Wahrnehmung nach Carroll

In der Drei-Stratum-Theorie von Carroll (1993) gilt Visuelle Wahrnehmung als einer der acht Faktoren der zweiten Ebene. Laut Carroll bezeichnet Visuelle Wahrnehmung die Fä- higkeit von Individuen, Formen, Konturen und Positionen von Objekten zu erfassen und men- tale Repräsentationen dieser Objekte zu erstellen, sowie diese Repräsentationen mental zu ma- nipulieren (Carroll, 1993, S. 304). Visuelle Wahrnehmung setzt sich laut Carroll aus fünf Fak- toren erster Ordnung zusammen:Visualization, Spatial Relations, Closure Speed, Flexibility of Closure und Perceptual Speed. Carroll vertritt die Annahme, dass unter guten Voraussetzun- gen und mithilfe guter Messmethoden jeder der fünf Faktoren mit hoher Reliabilität und guter Diskriminierung erfasst werden kann.

Visualizationbeschreibt die Fähigkeit, visuelle, räumliche Muster mental zu verändern oder in andere visuelle Zusammensetzungen zu transformieren. Auch das Verstehen imaginärer Bewegungen ist Teil dieses Faktors. Bei Tests dieser Dimension spielt die benötigte Zeit keine Rolle, es handelt sich um reine Power-Testungen.

Spatial Relations ist die Fähigkeit, räumliche Muster erfassen zu können und unter- schiedliche räumliche Anordnungen von Objekten zu erkennen. Der Faktor lädt auf einfachen Tests zu mentalen Rotationen visueller Muster sowie auf Tests von mentalen Transformationen.

Bei den Aufgaben handelt es sich um Speed-Testungen, trotzdem finden sich in vielen Fällen Hinweise auf eine gemeinsame Varianz mit demVisualizationFaktor (Carroll, 1993).

Closure Speedbezeichnet den dritten Faktor der Visuellen Wahrnehmung nach Carroll.

Dabei handelt es sich um die Fähigkeit, ein visuelles Feld in seinen einzelnen Teilen zu be- trachten. Hierbei soll eine vertraute, visuelle Figur in einem Muster identifiziert werden, wobei die Figur zuvor nicht bekannt ist. Sie befindet sich in einem verschleiernden Umfeld, welches beispielsweise durch visuelle Täuschungen hervorgerufen wird.

Bei Tests zum vierten Faktor,Flexibility of Closure, wird ähnlich wie beiClosure Speed eine visuelle Figur in einem Muster gesucht. Der Faktor beschreibt die Fähigkeit, Gestalten auf- zubrechen und zu neuen Einheiten zu formieren. Der Unterschied dieses Faktors zumClosure SpeedFaktor ist, dass die gesuchte Figur in Aufgaben derFlexibility of Closurezuvor bekannt ist. Auch hier werden Verschleierungen wie beispielsweise zusätzliche Linien im Muster ein-

(25)

gebaut, um die Suche der Figur zu erschweren.

Perceptual Speed, der fünfte Faktor der visuellen Wahrnehmung, beschreibt die Fä- higkeit eine bestimmte Konfiguration in einem Muster zu finden. Ein Beispiel hierfür ist die Lokalisierung eines bestimmten Buchstabens in einer Buchstabensequenz. Bei allen Tests zu diesem Faktor handelt es sich um Speed-Testungen.

In der folgenden Studie soll der vierten Faktor,Flexibility of Closure, genauer betrachtet werden. Das Ziel dieser Arbeit ist es, neue Testaufgaben zur Messung des Faktors zu konstru- ieren und anschließend bezüglich ihrer psychometrischen Eigenschaften zu überprüfen.

Flexibility of Closure- ein Faktor der visuellen Wahrnehmung

Der Faktor Flexibility of Closure, zum Teil auch Gestalt Flexibility genannt (French, 1951, zitiert nach Carroll, 1993), wurde zum ersten Mal von Thurstone erwähnt (1944, zitiert nach Carroll, 1993). Thurstone beschriebFlexibility of Closureals die Freiheit der Gestaltbil- dung, also die Fähigkeit eine Gestalt zu brechen und eine andere daraus zu bilden (Lohman, 1987). Nach French, Ekstrom und Price (1963) ist Flexibility of Closure „the ability to keep one or more definite configurations in mind so as to make identification in spite of perceptual distractions“. Carroll (1993) definierte den Faktor Flexibility of Closure als Fähigkeit, ein vi- suelles Feld zu durchsuchen und eine zuvor bekannte, räumliche Figur darin zu identifizieren.

Um die Suche zu erschweren, wird die Figur in ein von ihr ablenkendes und verschleierndes Umfeld gesetzt.

In seinen Analysen konnte Carroll den Flexibility of ClosureFaktor nicht immer gut von anderen Dimensionen unterscheiden. Einige der Datensätze luden auf dem Visualization Faktor, ein paar sogar auf dem FaktorClosure Speed. Für Carroll waren die Ergebnisse trotzdem ausreichend, um einenFlexibility of ClosureFaktor anzunehmen und davon auszugehen, dass dieser sinnvoll messbar wäre. Laut Carroll spielt der Faktor eine entscheidende Rolle bei der Messung von kognitiven Strukturen und intellektueller Entwicklung, wobei er auf die Arbeit von Witkin und Goodenough (1981, zitiert nach Carroll, 1993) verweist. Zudem betonte er die Wichtigkeit weiterer Forschung zu Messungen der Flexibility of Closure, vor allem was Itemformate und Methoden der Itemkonstruktion anbelangt.

(26)

Die Gottschaldt Figuren. Die in der Literatur wohl etablierteste Art von Flexibility of ClosureTest ist jene, in der geometrische Figuren in einem komplexen Muster zu identifizie- ren sind. Als Vorlage dafür werden oft die Figuren aus demGottschaldt Figures Testverwendet (Gottschaldt, 1926). In seiner Veröffentlichung 1926 untersuchte Gottschaldt als einer der Ers- ten Testitems zur Erfassung derFlexibility of Closureund den Einfluss von Erfahrung auf die visuelle Wahrnehmung. Dabei ging er davon aus, dass eine oft gesehene und gut eingeprägte geometrische Figur in einem Muster besser erkennbar ist, da sie aufgrund der Erfahrung stärker in den Vordergrund tritt. Abbildung 4a zeigt eine der Gottschaldt-Figuren aus dem ursprüngli- chen Test. Die geometrische Figuraist im nebenstehenden Musterbzu suchen. In seiner Studie stellte Gottschaldt fest, dass die Erfahrung (in diesem Fall die wiederholte Darbietung der geo- metrischen Figur) keinen Einfluss auf die visuelle Wahrnehmung hatte. Auch bei oftmaliger Darbietung wurde die Figur nicht oder nur selten im Muster entdeckt.

Insgesamt bestand das von Gottschaldt verwendete Material aus fünf verschiedenen a-Figuren, welche die zu suchenden geometrischen Figuren bildeten, und 31 verschiedenen b-Figuren, die als Muster eine der a-Figuren enthielten. Bei der Konstruktion der Aufgaben war es Gottschaldt wichtig, dass die geometrische Figur im Muster nicht sofort erkennbar war, sondern das Muster selbst eine andere Gestalt bildete. Dazu bediente er sich der Gestaltgesetze von Wertheimer (1923) sowie selbst formulierter Theorien zur Verschleierung.

Gestaltgesetze nach Wertheimer. In seinen Testaufgaben integrierte Gottschaldt Ge- staltgesetze von Wertheimer (1923), welche noch heute von Bedeutung sind. Bei den von Wert- heimer formulierten Gestaltgesetzen handelt es sich um Gesetze der Gliederung von Wahrneh- mungsfeldern (Metzger, 1966). Die Gestalt einer Wahrnehmung ist von der Umgebung abgeho- ben und ihre einzelnen Teile werden als zusammengehörig aufgefasst (Rohracher, 1960, zitiert nach Popp, 1975). Mithilfe dieser Gesetze können gezielte Verschleierungen der zu suchenden Figur im Muster implementiert werden.

DasGesetz der Gleichartigkeitbesagt, dass ähnliche Elemente als eine Einheit zusam- mengefasst werden, wobei sich deren Ähnlichkeit auf verschiedene Aspekte wie Form, Farbe etc. beziehen kann. BeimGesetz der guten Gestaltoder Gesetz der Prägnanzhandelt es sich um die Tendenz, möglichst einfache, einprägsame Gestalten zu erfassen. Zu den prägnanten

(27)

Gestalten zählen Kreise, Rechtecke oder auch Quadrate (Morf, 1970, zitiert nach Popp, 1975), welche somit leichter als Einheit wahrgenommen werden. Das Gesetz der guten Fortsetzung (Wertheimer, 1923) erklärt die Gruppierung von Elementen, die auf einer Kurve oder Linie an- geordnet sind und damit als zusammengehörend wahrgenommen werden. Hierbei spielt auch die Geschlossenheit von Objekten und der Umstand, ob diese eine gute Gestalt ergeben, eine Rolle.

Prinzipien der Verschleierung nach Gottschaldt. In den Testaufgaben seiner Studie implementierte Gottschaldt (1926) Prinzipien der Verschleierung, die nach seiner Vorstellung die Gestaltbildung und damit die Schwierigkeit der Aufgaben beeinflussen würden.

Eines dieser Prinzipien der Verschleierung einer geometrischen Figur ist die Aufhebung oder Veränderung der Funktion ihrer Konturen. Dafür können Teile der zu suchenden a-Figur Grenzlinien der b-Figur, also des Musters, bilden. Gleichermaßen können Teile der a-Figur auch neue Flächen in der b-Figur einschließen. In anderen Fällen werden die Linien der a-Figur zu Innenlinien der b-Figur, wobei sich auch hier der Flächencharakter der a-Figur verändern kann.

Ein weiteres der Prinzipien ist die Kompensation und Veränderung der Hauptrichtungen der a-Figuren. Jede a-Figur besitzt laut Gottschaldt (1926) eine spezifische Hauptausdehnung und Richtung. Wird diese Hauptrichtung nun durch ihre Position in der b-Figur verändert, so tritt die a-Figur in den Hintergrund. Dieser Effekt kann beispielsweise durch eine Erweiterung der Grundlinien der a-Figur herbeigeführt werden. Dabei dürfen allerdings nur diejenigen Lini- en erweitert werden, welche für die Hauptrichtung der a-Figur unwesentlich sind. Ist beispiels- weise eine a-Figur horizontal ausgerichtet, so werden für die Gestaltveränderung die senkrech- ten Linien, welche die Hauptrichtung nicht betonen, erweitert. Auch durch eine Schraffierung der b-Figuren kann die Hauptrichtung der a-Figur verändert werden. Dafür werden Flächen der b-Figur schraffiert, deren Linien parallel zu den richtungsunbetonenden Linien der a-Figur sind.

Da die Messmethoden von Gottschaldt (1926) in seiner Arbeit nur den gesamten Effekt der verwendeten Verschleierungsprinzipen erfassten, konnten von ihm keine gezielten Aussa- gen über die Effekte einzelner Prinzipien getoffen werden.

(28)

(a) (b)

(c) (d)

Abbildung 4. Beispielfiguren zu verschiedenen Tests zur Messung derFlexibility of Closure. (4a) Aufgabe aus der originalen Untersuchung von Gottschaldt (1926); die geometrische Figur a ist in b zu suchen. (4b) Item aus dem EFT, die Originalfigur von Gottschaldt (1926) leicht abgeändert und ergänzt (Witkin, Oltman, Raskin &

Karp, 1971). (4c) Aufgabe des GESTA (Hergovich & Hörndler, 2011); eine hausähnliche Figur ist in einem sehr abstrakten Muster zu suchen. (4d) Figur aus dem LPS-2 (Kreuzpointner, Lukesch & Horn, 2013)

Leistungstests zurFlexibility of Closure

Thurstone (1944, zitiert nach Carroll, 1993) verwendete die Gottschaldt Figuren in sei- nen Messungen zur visuellen Wahrnehmung. Da er davon ausging, dass einfachere Items eine andere Fähigkeit erfassten als schwierigere Items, teilte er die Figuren nach ihrer Schwierig- keit in zwei Gruppen. Für die leichteren Aufgaben platzierte er die zu suchende Figur neben dem Muster, in dem sie versteckt war. Bei den schwierigeren Aufgaben wurden der Testperson zwei Figuren präsentiert, von denen eine der Figuren in einer Serie von Mustern vorkam. In Reanalysen von Carroll konnte die leichtere Version nicht von der schwierigeren unterschieden werden. Laut Carroll luden beide Versionen auf dem FaktorVisualization.

Basierend auf den Gottschaldt Figuren wurden weitere psychometrische Tests zurFle- xibility of Closureentwickelt. Dazu zählen derEmbedded Figures Test (Witkin, Oltman, Ras- kin & Karp, 1971), der Hidden Figures Test (Ekstrom, French & Harman, 1976) sowie der

(29)

Gestaltwahrnehmungstest (Hergovich & Hörndler, 2011), welche nun neben anderen genauer betrachtet werden sollen.

Flexibility of Closure im ETS. In die Testbatterie des ETS von 1963 wurden drei Subtests für den FaktorFlexibility of Closureeingebettet (French, Ekstrom & Price, 1963): der Hidden Figures Test, derHidden Patterns Testund derCopying Test. Laut French et al. zeichnen sich Tests für Flexibility of Closuredadurch aus, dass eine oder mehrere Konfigurationen in einem visuellen Feld mit ablenkendem Material zu suchen sind.

In Anlehnung an die Gottschaldt Figuren (Gottschaldt, 1926) soll im Hidden Figures Testeine von fünf geometrische Figuren erkannt werden, welche in ein komplexes Muster ein- gebettet ist. Die Items des Hidden Patterns Test bestehen aus verschiedenen geometrischen Mustern, in denen eine einzelne Figur versteckt ist. Die Aufgabe besteht darin, zu erkennen, ob die Figur im vorgegebenen Muster vorkommt oder nicht. Bei dem Test handelt es sich aller- dings um einen Speed-Test, was nicht der ursprünglichen Definition eines Tests derFlexibility of Closurenach Carroll entspricht. BeimCopying Testsoll eine Figur bestehend aus vier Linien auf eine quadratische Matrix bestehend aus Punkten kopiert werden.

Embedded Figures Test. Der Embedded Figures Test (EFT) von Witkin, Oltman, Raskin und Karp (1971) wurde zur Unterscheidung von feldunabhängigen und feldabhängi- genPersonen konstruiert. Laut Witkin et al. sind feldunabhängige Personen besser in der Lage, Teile eines Ganzen unabhängig voneinander zu betrachten, also eine Gestalt in ihre Subteile aufzubrechen. Diese Fähigkeit bezieht sich nicht nur auf die Ebene der visuellen Wahrneh- mung, sondern auch auf kognitive Fähigkeiten, wie beispielsweise die Bearbeitung von Pro- blemlöseaufgaben von Duncker (1945, zitiert nach Witkin et al.), in denen man Gegenstände aus ihrem Kontext lösen und ihnen eine neue Funktion geben muss. Personen mit einer hohen Feldunabhängigkeit gelingt es leichter, Gegenstände in anderer Form zu verwenden und damit die Duncker-Aufgaben schnell zu lösen. Die Feldunabhängigkeit lädt laut Witkin et al. auf dem gleichen Faktor wie dieFlexibility of Closurevon Thurstone.

Das Itemmaterial des EFT besteht aus den ursprünglichen Aufgaben von Gottschaldt (1926). Einige Items sind ident mit den Gottschaldtfiguren, allerdings wurden die meisten far- big gestaltet, wie in Abbildung 4b zu sehen ist. Durch die zusätzlichen Farbunterlegungen

(30)

sollte ein weiterer Camouflageeffekt entstehen, da die originalen Gottschaldtfiguren eine zu geringe Anzahl an schwierigen Items enthielten (Witkin, 1950). Die Items wurden sehr genau untersucht und nach zwei Hauptkriterien ausgewählt. Das erste Kritierum war eine genügen- de Aufgabenschwierigkeit, das zweite Kriterium war eine hohe Anzahl an verschiedenen zu suchenden Figuren in der gesamten Testbatterie. Durch diese Variation an Figuren sollte ein möglicher Übungseffekt vermieden werden. In den 24 Testaufgaben des EFT waren die zu suchenden Figuren zweier aufeinander folgender Items immer unterschiedlich.

In der Testabfolge wurde den Testpersonen zuerst das komplexe Muster vorgegeben, wobei sie zu diesem Zeitpunkt noch nicht wussten, welche der geometrischen Figuren darin zu suchen war. Erst danach wurde ihnen die zu suchende Figur gezeigt, worauf erneut das komple- xe Muster folgte. Dadurch sollten die Testpersonen dazu verleitet werden, das komplexe Muster zuerst als Ganzes zu erfassen, ohne sofort nach der geometrischen Figur zu suchen. Bei einer vorhergehenden Untersuchung konnten Witkin et al. (1971) feststellen, dass sich die Testper- sonen oft nur auf wenige Segmente des Musters konzentrierten, und nicht das gesamte Muster erfassten. Durch die neue Darbietungsform konnte die Suche der Figur erschwert werden.

Gestaltwahrnehmungstest. Basierend auf der Annahme, dass Feldabhängigkeit ein eindimensionales Konstrukt ist, und mit dem Ziel, die Fähigkeit „zum Zergliedern und Wieder- herstellen von Strukturen“ zu messen, konstruierten Hergovich und Hörndler (2011) den Ge- staltwahrnehmungstest (GESTA). Die Items des GESTA gelten als Weiterentwicklung des EFT (Witkin, Oltman, Raskin & Karp, 1971) und messen ebenfalls die Feldabhängigkeit von Perso- nen. Die Testaufgaben des GESTA wurden in Anlehnung an den Häuschentest von Vukovich (1965, zitiert nach Hergovich & Hörndler, 2011) erstellt und als computergestützte Testbatte- rie veröffentlicht. Abbildung 4c zeigt eine Aufgabe, in der die gesuchte Figur in Form eines Hauses in einem Muster zu suchen ist.

Insgesamt besteht der Test aus 30 verschiedenen Aufgaben, in denen immer die Haus- form in einem unterschiedlichen Muster gesucht werden soll. Das Haus ist jeweils neben dem Muster dargestellt und die Bearbeitungszeit pro Item ist auf 20 Sekunden begrenzt.

In den testtheoretischen Analysen wurde der Test auf seine Modellgültigkeit mit dem dichotomen logistischen Modell von Rasch überprüft (Hergovich, 1999). Für die Testaufgaben

(31)

konnte die Gültigkeit des Rasch-Modells und damit die Eindimensionalität des Tests gezeigt werden. Die Aufgaben messen demnach Feldabhängigkeit als alleinstehende Dimension. Zu- dem erwies sich der Test auch als personenhomogen, da sich die Gruppen geteilt nach Roh- score, Alter und Geschlecht in ihren Itemparameterschätzungen nicht voneinander unterschie- den. Die Itemparameter des Tests deckten allerdings nur den mittleren Bereich der latenten Dimension ab; Extrembereiche können mit dem Test nicht gut erfasst werden. Mit seiner ho- hen Reliabilität und seiner nachgewiesenen Konstruktvalidität gilt der GESTA trotzdem als gutes Instrument zur Erfassung derFlexibility of Closure.

Leistungsprüfsystem 2. Basierend auf Carrolls Drei-Stratum-Theorie wird im Leis- tungsprüfsystem 2 (LPS-2, Kreuzpointner, Lukesch & Horn, 2013) kognitive Leistungsfähig- keit mithilfe von elf Subtests erfasst. Im SubtestLinienmustersoll die Testperson eine von fünf Figuren in einem geometrischen Muster lokalisieren. Dieser Test ist eine Variation der Gott- schaldtfiguren und misst laut Autoren ebenfalls dieFlexibility of Closure. Bei den Items han- delt es sich augenscheinlich um sehr einfach lösbare Gottschaldtfiguren, wie in Abbildung 4d dargestellt.

Bedeutung der bisherigen Messmethoden für diese Arbeit. Die Ideen bisheriger Flexibility of ClosureTests fließen auch in die Konstruktion der Testaufgaben dieser Arbeit ein.

Auch einige der ursprünglichen Ergebnisse von Gottschaldt (1926) wurden in dieser Studie be- rücksichtigt, da sie sich laut Literatur als gute Prädiktoren für die Itemschwierigkeit erweisen.

Eine Farbunterlegung wie bei den Items des EFT wurde auch in dieser Testentwicklung als mögliche erschwerende Komponente diskutiert, allerdings wurde aufgrund der vor allem unter Männern hoch ausgeprägten Rot-Grün-Schwäche darauf verzichtet. Es könnte hier zu Hindernissen bei der Bearbeitung der Items und damit zu Diskriminierungen von Teilnehme- rInnen kommen. Anstatt der Farbschattierungen wurden in dieser Arbeit strukturelle Schattie- rungen in eingeschlossenen Flächen als Verschleierung verwendet.

Die meisten Aufgaben des LPS-2 erscheinen auf den ersten Blick für einen Test zur Flexibility of Closure zu einfach. Bei diesen Items wurden grundlegende Aspekte der Ver- schleierung nicht miteinbezogen und die Muster umfassen nur eine geringe Anzahl an Linien.

Einfache Figuren wie Quadrate oder Dreiecke, welche im LPS-2 zu suchen sind, sind als Ge-

(32)

stalt leichter erfassbar, wie es das Gesetz der guten Gestalt besagt (Morf, 1970, zitiert nach Popp, 1975). Aus diesem Grund wird in dieser Arbeit auf diese Formen verzichtet. Eine weite- re Schwäche des LPS-2 ist die Möglichkeit, Aufgaben durch Raten zu lösen. Nachdem für jede Testaufgabe nur fünf Antworten möglich sind, kann eine Aufgabe mit einer Wahrscheinlichkeit von einem Fünftel durch Zufall gelöst werden.

Der GESTA erfüllt die Anforderungen des dichotomen logistischen Rasch-Modells und weist eine hohe Reliabilität sowie Konstruktvalidität auf. Damit ist der Test gut geeignet, zwi- schen Personen mit geringer Fähigkeitsausprägung und hoher Fähigkeitsausprägung zu dif- ferenzieren. Eine mögliche Schwäche des Tests sind realitätsnahe Muster, welche in einigen Testaufgaben vorkommen. In dieser Arbeit soll auf solche realitätsnahen Muster verzichtet und stattdessen auf Basis sehr abstrakter Muster gearbeitet werden, ähnlich zu Abbildung 4c. Der Grund dafür ist der Versuch einer automatischen, computer-basierten Generierung der Items, wodurch sich die Konstruktion realitätsnaher Muster schwieriger gestaltet.

Individuelle Unterschiede in der FähigkeitFlexibility of Closure

Geschlecht. Geschlechtsunterschiede in der Intelligenz oder in spezifischen Aspekten der Intelligenz werden in der Literatur sehr häufig untersucht und thematisiert. Linn und Pe- tersen (1985, zitiert nach Maltby, Day & Macaskill, 2011) berichteten in einer Meta-Analyse Unterschiede zwischen Männern und Frauen in den Dimensionen räumliche Wahrnehmung, mentale Rotation und räumliche Visualisierung, mit sehr hohen Effektgrößen für die ersten beiden Fähigkeiten. Auch wennFlexibility of Closure weniger die räumlichen Fähigkeiten er- fasst, sind Geschlechtsunterschiede in der visuellen Wahrnehmung generell von Interesse.

In seiner Arbeit zu individuellen Unterschieden in derFlexbility of Closure beschrieb Witkin (1950) einen relevanten Unterschied in der visuellen Wahrnehmung zwischen Män- nern und Frauen. Demnach sind Frauen feldabhängiger als Männer und damit stärker von dem Gesamtbild und der Richtung einer Figur beeinflusst. Zur Bekräftigung dieser Aussage zeigte er diesen Geschlechtsunterschied in den Bearbeitungszeiten der Aufgaben des späteren EFT (Witkin, Oltman, Raskin & Karp, 1971). Frauen benötigten in seiner Testbatterie im Durch- schnitt länger als Männer, um eine geometrische Figur in einem komplexen Muster zu identi-

(33)

fizieren. Bezüglich der Durchführungszeiten für die gesamte Testbatterie beobachtete er eine sehr große Spannweite der Zeiten zwischen zwei Minuten und 71 Minuten. Diese Spannweite war unter den Frauen größer als unter den Männern.

Neben den Bearbeitungszeiten zeigte sich auch ein Geschlechtsunterschied für die An- zahl der innerhalb von fünf Minuten gelösten Aufgaben. Auch hier waren Männer in dem Test von Witkin erfolgreicher als Frauen, da sie in der Gesamtanzahl wesentlich weniger ungelöste Aufgaben vorwiesen als Frauen.

Darstellende Geometrie. Bei der Konstruktion und der Bearbeitung von Testaufga- ben zur Flexibility of Closure spielen geometrische Figuren eine entscheidende Rolle. Alle Testaufgaben der beschriebenen Tests werden aus diversen Rechtecken, Quadraten oder Drei- ecken zusammengesetzt. Diese Formen sind vor allem in der Mathematik und Geometrie von großer Bedeutung. Einige Studien beschreiben einen positiven Zusammenhang zwischen Fä- higkeiten in visueller Wahrnehmung und Erfolg im Mathematikunterricht (e.g. Battista, 1990;

Sherman, 1979, zitiert nach Hegarty & Kozhevnikov, 1999).

Karaman und Togrol (2009) untersuchten den Einfluss von visuellen Fähigkeiten auf Testnoten im Geometrieunterricht an türkischen SchülerInnen. Jene SchülerInnen mit guten Fähigkeiten in den Dimensionen Vizualization, Spatial Relations und Flexibility of Closure erzielten bessere Noten im vorgegebenen Geometrietest. Die Ergebnisse aus dem Flexibility of Closure Test korrelierten nur gering mit dem Geometrietest (r= 0.25), während die ande- ren beiden Dimensionen höhere positive Korrelationen zeigten. In einer multiplen Regression konnte der Einfluss der drei Dimensionen verifiziert werden, wobeiFlexibility of Closureden geringsten Anteil der Varianz erklärte.

Karaman und Togrol (2009) wählten als Messmethode für Flexibility of Closure den Composite Gestalt Completition Test von Eliot und Czarnolewski (1999). Dieser besteht al- lerdings aus Testaufgaben aus verschiedenen Closure Speed Tests und misst demnach einen anderen Faktor der visuellen Wahrnehmung. Obwohl in der genannten Studie derFlexibility of Closure Faktor streng genommen nicht gemessen wurde, soll der Einfluss des Unterrichts in Darstellender Geometrie auf die Ergebnisse in dieser Arbeit analysiert werden.

(34)

Bilingualität. Bialystok und Shapero (2005) untersuchten Unterschiede zwischen mo- nolingualen und bilingualen Kindern in Aufgaben zu Exekutivprozessen, um den Einfluss des Bilingualismus auf die kognitive Entwicklung zu beschreiben. Laut den Autorinnen sind bi- linguale Kinder früher dazu in der Lage, die Exekutivprozesse zu kontrollieren und damit die Aufmerksamkeit auf relevante Dimensionen zu lenken. Dadurch können Sie leichter als mo- nolinguale Kinder gewisse Parameter fokussieren und andere ausblenden. Obwohl die Studie keine Unterschiede zwischen monolingualen und bilingualen Kindern imChildren’s Embedded Figures Task(Witkin, Oltman, Raskin & Karp, 1971) zeigte, könnte ein solcher Gruppenunter- schied auch bei Erwachsenen existieren.

Autismus. Zuletzt sollen individuelle Unterschiede im neuropathologischen Bereich in der visuellen Wahrnehmung und in Flexibility of Closure im Speziellen erwähnt werden.

Ein häufig diskutiertes Thema ist ein Unterschied in Fähigkeiten der visuellen Wahrnehmung zwischen Personen mit einer Autismus-Spektrum-Störung (ASS) und neurotypischen Perso- nen. In einer Meta-Analyse fassten Muth, Hönekopp und Falter (2014) 35 Studien zusam- men, welche die Testergebnisse im EFT (Witkin et al., 1971) zwischen PatientInnen mit einer Autismus-Spektrum-Störung und einer Kontrollgruppe verglichen. Es ergab sich eine positive Effektstärke von 0.26, welche eine durchschnittliche Überlegenheit der ASS-PatientInnen in den Testergebnissen des EFT zeigte. Trotz einer hohen Heterogenität zwischen den untersuch- ten Studien konnte damit in der Meta-Analyse ein kleiner Effekt nachgewiesen werden.

Obwohl eine Studie mit neuropathologischen Testpersonen nicht das Ziel dieser Arbeit ist, sollte das Thema kurz angesprochen werden, um die Wichtigkeit eines validen und reliablen Tests zur Flexibility of Closureund damit auch die Wichtigkeit dieser empirischen Arbeit zu unterstreichen.

Die automatische Itemgenerierung

Im Rahmen dieser Arbeit sollen erste Schritte durchgeführt werden, um einen Test zur Flexibility of Closuremithilfe der automatischen Itemgenerierung (AIG) zu konstruieren. Die- se Art der Testkonstruktion ist aus vielen Gründen erstrebenswert, unter anderem da Testkon- struktionskosten reduziert und die Testsicherheit erhöht werden können (Arendasy, Sommer &

(35)

Hergovich, 2007). Bei computerunterstütztem adaptiven Testen ist es oft schwierig, Testsicher- heit zu garantieren (Wainer, 2002). Auch wenn ein großer Pool an Items gegeben ist, kommt es zu folgenreichen Itemdiebstählen oder Wiederholungen von Aufgaben bei Mehrfachtestun- gen. Um die Sicherheit des Itempools linear zu vergrößern, muss die Anzahl der Items im Pool exponentiell steigen, was wiederum zu exponentiellen Kosten in der Itemkonstruktion führt.

Die AIG kann für diesen Fall einen unendlichen Pool an potenziellen Items erstellen, dessen Kosten pro zusätzlichem Item gegen Null gehen. Dadurch wird eine Massenproduktion in der Testkonstruktion ermöglicht, wodurch Kosten gesenkt werden und die Testsicherheit durch eine unlimitierte Anzahl an Items erhöht wird. Für diagnostische Testverfahren kann es von großem Vorteil sein, wenn Items schneller und billiger generiert werden können.

Ein weiterer psychometrischer Vorteil ist eine gleichbleibende Qualität der Messme- thode, die bei handkonstruierten Items oft nicht möglich ist (Wainer, 2002). Um beispielsweise schwierige Items zu konstruieren, bedarf es einer Person mit exzellenten Fähigkeiten. Aller- dings kann diese Person niemals ein Item generieren, welches ihre Fähigkeiten übertrifft. Durch einen computergestützten Algorithmus kann dieses Problem gelöst werden und es können Items konstruiert werden, welche die Fähigkeiten der TestkonstrukteurInnen übersteigen.

Mithilfe eines computergestützten Algorithmus wird zunächst ein großer Pool an mög- lichen Items generiert. Dafür müssen jene psychometrischen Eigenschaften der Items bestimmt werden, welche die Itemschwierigkeit beeinflussen. Nur so kann später die Schwierigkeit der generierten Items vorhergesagt werden (Dennis, Handley, Bradon, Evans & Newstead, 2002).

Dieser Aspekt wird in zwei der drei von Bejar (2002) formulierten Ansätze der AIG aufgegrif- fen, welche im Folgenden erklärt werden.

Ebenen der automatischen Itemgenerierung. Unter den verschiedenen Ansätzen der AIG unterscheidet Bejar (2002) zwischen drei Formen: die funktionale, die modell-basierte und die regel-basierte Itemgenerierung. DiefunktionaleItemgenerierung stellt hierarchisch ge- sehen die niedrigste Ebene dar. Auf dieser Ebene können Testitems generiert werden, ohne über genaue Kenntniss des dahinterliegenden Konstrukts zu verfügen (Arendasy, Sommer & Hergo- vich, 2007). In diesem Fall ist es jedoch nicht möglich, die Schwierigkeit der Items vorher- zusagen. Bei dermodell-basiertenItemgenerierung ist das zu messende Konstrukt durch eine

(36)

kognitive Analyse bereits im Vorhinein erfasst. Ab dieser Ebene kann somit die Schwierigkeit von Items vorhergesagt werden. Dieregel-basierteItemgenerierung wird als dritte und höchste Ebene der drei Ansätze gesehen. Bei dieser Form handelt es sich um die erstrebenswerteste Art, bei der nicht nur Items generiert werden, sondern all ihre psychometrischen Eigenschaften auf präzise Weise erstellt werden.

Der Zwei-Komponenten-Ansatz. Das für die regel-basierte Itemgenierung benötigte Regelwerk wird in den Komponenten des Zwei-Komponenten-Ansatzes festgelegt (Arendasy

& Sommer, 2012). Mit diesem Ansatz ist es möglich, die konstruktnahe Varianz der Itempara- meter zu maximieren und die Störvarianz zu minimieren.

Die erste Komponente wird generative Komponente genannt und beinhaltet sogenannte radicals, welche als unabhängige Variablen statistisch signifikante Veränderungen in der Item- schwierigkeit hervorrufen sollen (Irvine, 2002). Damit können reliable und valide Parallelfor- men von Items generiert werden. Zusätzlich zu den radicalsbeinhaltet die erste Komponente auch dieincidentals, welche die Oberflächeneigenschaften der Items bestimmen. Mit Hilfe der incidentalskönnen verschiedene Items generiert werden, ihre Variation hat jedoch keinen Ein- fluss auf die Itemschwierigkeit (Irvine, 2002). Je besser diese psychometrischen Eigenschaften kontrolliert werden können, desto höher ist die Reliabilität und die Präzision des konstruierten Messinstruments (Bejar, 2002).

Je nach Variation derincidentalsundradicalswird bei Formen der AIG zwischen kon- stanter und systematisch variierter Schwierigkeit der generierten Items unterschieden (Bejar, 2002). Um die Schwierigkeit der Items beizubehalten, werden dieincidentalsvariiert, diera- dicalsbleiben aber konstant und sind somit ident zu den ursprünglichen Items. Damit werden sogenannte Isomorphe erzeugt, wodurch eine Itemvervielfachung stattfindet (Arendasy, Som- mer & Hergovich, 2007). Um aber eine tatsächliche Itemvermehrung zu erreichen, müssen sich die erstellten Items in ihren Schwierigkeiten unterscheiden. Dafür werden zusätzlich zu denincidentalsauch dieradicalsin einer freien Kombination variiert, wodurch Itemvarianten entstehen.

Um zu gewährleisten, dass eine hohe psychometrische Qualität und eine genügend hohe Konstruktrepräsentation gegeben sind, wird zusätzlich zur ersten Komponente die Qualitätssi-

(37)

cherungskomponente als zweite Komponente eingeführt (Arendasy, 2005). Diese besteht aus den sogenannten constraints, welche sicherstellen, dass keine alternativen Lösungsstrategien bei der Bearbeitung der Items vom Testmaterial gefördert werden. Diese funktionellen Ein- schränkungen sollen somit Störvarianzen verringern, welche dadurch auftreten können, dass bei der Bearbeitung der Items andere kognitive Prozesse genutzt werden (Arendasy, Hergovich

& Sommer, 2008). Die mit der ersten Komponente generierten Items werden in diesem Schritt durch eine Reihe vonconstraintsbezüglich verschiedener Voraussetzungen überprüft (Dennis, Handley, Bradon, Evans & Newstead, 2002).

Die regel-basierte Itemgenierung mit dem Zwei-Komponenten-Ansatz wurde bereits für Konstrukte wie quantitatives Denken (Arendasy, Sommer, Gittler & Hergovich, 2006), nu- merische Flexibilität (Arendasy, Sommer & Hergovich, 2007) oder räumliche Wahrnehmung (Arendasy, 2005) implementiert. In dieser Arbeit soll der erste Schritt zur Entwicklung eines Itemgenerators dieser Art für einenFlexibility of ClosureTest gemacht werden. Das Ziel dabei ist es, Itemvarianten, also Aufgaben mit frei variierten Merkmalen, zu konstruieren. Hierfür werden Itemeigenschaften, welche möglicherweise einen Einfluss auf die Aufgabenschwierig- keit haben, definiert und in den neu konstruierten Testaufgaben implementiert.

Die generative Komponente

Für die Konstruktion der generativen Komponente zur Flexibility of Closure wurden basierend auf vorhergehender Literatur zu Gestaltgesetzen (Wertheimer, 1923) und bereits vor- handenen Tests (Gottschaldt, 1926; French, Ekstrom & Price, 1963; Hergovich & Hörndler, 2011) Annahmen über möglicheradicalsgetroffen. Diese Itemeigenschaften werden schließ- lich über die Aufgaben hinweg systematisch variiert, sodass alle Kombinationen generiert wer- den können. Im Folgenden sollen möglicheradicalsdiskutiert werden.

Schattierungen der Flächen im Muster. Basierend auf demGesetz der Ähnlichkeit nach Wertheimer wird angenommen, dass durch Schattierungen im Muster einzelne Teilfiguren als einheitlich wahrgenommen werden. Bei ähnlichen oder gleichen Schattierungen werden ab- gegrenzte Flächen als zusammengehörig gesehen. Diese Art der Verschleierung wurde in einer ähnlichen Form im EFT (Witkin, Oltman, Raskin & Karp, 1971) mittels der Farbunterlegungen

Referenzen

ÄHNLICHE DOKUMENTE

Außerdem können durch qualitative Forschung subjektive Meinungen rekonstruiert wer- den (Helfferich, 2009, S. Die beiden Subforschungsfragen dieser Untersuchung be- ziehen sich

In der Grundversorgung werden zunächst die Defizitbedürfnisse der untersten Stufe der Bedürfnispyramide bedient. So wird Essen, Trinken und Schlafen sichergestellt. Zugleich aber

In dieser Hinsicht gelang der World Health Organisation (WHO) mit der International Classification of Functioning, Disability and Health (ICF) eine umfassende Darstellung

„Noch weniger zulässig scheint es Uns, wenn man dabei den Schutz der unversehrten, unantastbaren, absoluten Gewissensfreiheit einbezieht...Wenn man sagen will, daß

Üblicherweise werden die Fälle an die Sozialarbeit zugewiesen, mit Ausnahme der Kinder- und Jugendpsychiatrie. Hier ist die Soziale Arbeit fixer Bestandteil des

Mit welcher Häufigkeit können mGluR2-Antikörper in archivierten Proben nachgewiesen werden, welche zwischen 2014 bis 2021 an die Abteilung für Neuropathologie und

Weiters müssen sie von den Betroffenen (Klient/innen, Bewohner/innen, etc.) mitgetragen werden, also wichtig und bedeutsam für diese sein. Weitere Parameter für sinnvolle Ziele

Die Adoleszenz (analog zu Freuds genitaler Phase) ist die Zeit der Identitätsfindung, welche etwa das 13.-18. Lebensjahr in Anspruch nimmt. Die Adoleszenz stellt für die Zeitspanne