Diskussion des resultierenden Testmodells

6. Diskussion 149

6.2. Diskussion des resultierenden Testmodells

wurde zu zeigen, bedient sich auch die quantitativ arbeitende Psychologie implizit in der Item-Response-Theorie ähnlicher Methoden, wie z.B. die statistische Mechanik (Jaynes, 1957a, 1957b) oder die Forschung im Bereich Künstlicher Intelligenz (S. Russel & Norvig, 2010), lediglich der Anwendungsbereich, bzw. die Forschungsgegenstände und auch die Terminologie unterscheiden sich. So wird z.B. im Bereich des machine learnings unter Parameterschätzung maschinelles Lernen verstanden. Eine Implikation für die weitere methodische, modelltheoretische Forschung in der Psychologie könnte darin liegen, die-se breit angelegte und besonders im Bereich des machine learnings gut ausgearbeitete Modellklasse zu erschlieÿen und als eine Möglichkeit der Lösung komplexer Modellie-rungsprobleme zu begreifen. Ein erster Schritt zur Erschlieÿung könnte darin bestehen, die bereits bestehenden Parallelen der in der Psychologie verwendeten Methoden expli-zit zu machen und deren Anwendbarkeit zu überprüfen. So zeigen zum Beispiel lineare Strukturgleichungsmodelle eine konzeptionell starke Ähnlichkeit mit Bayes-Netzwerken.

Ferner bietet die Modellklasse eine Möglichkeit zum interdisziplinären Dialog zwischen Informatikern, Statistikern und Psychologen. Eine wesentliche Schwierigkeit beim Abfas-sen dieser Arbeit lag in notationellen und konzeptuellen Unterschieden zwischen den in der Bayes-Statistik verwurzelten Ansätzen von Jaynes und den frequentistisch orientier-ten Ansätzen in der Psychometrie. Bei weiteren Untersuchungen auf diesem Gebiet ist es ratsam, die konzeptionellen Ansätze von vornherein deutlich voneinander abzugrenzen und sich auf eine kohärente Notation festzulegen. Erste Ansätze zur Verwendung von Bayesianischen Methoden in der Item-Response-Theorie nden sich bei Fox (Fox, 2010).

6.2. Diskussion des resultierenden Testmodells

In der vorliegenden Arbeit wurde die Maximum-Entropie-Methode angewendet, um ein IRT-Modell zur Erfassung intraindividueller Variabilität auf Basis der absoluten suk-zessiven Dierenz (Ebner-Priemer et al., 2009) zu generieren. Das resultierende Modell gehört zur Exponentialfamilie und besitzt daher suziente Statistiken zur Schätzung der Parameter (Pitman, 1936; Koller & Friedman, 2009). Zudem ist das resultierende Modell

dem PCM von Masters (Masters, 1982) sehr ähnlich. Ein Unterschied liegt in der Scoring-Funktion, aus welcher ein Modell zur Beschreibung bedingter Wahrscheinlichkeiten re-sultiert. Der Variabilitäts-Parameter η steht in einer linearen Beziehung zu den Logits benachbarter Kategorien-Wahrscheinlichkeiten, was einen sinnvollen Vergleich der Para-meter auf einer Dierenzenskala ermöglicht. Die Kategorien-ParaPara-meter des Modells ste-hen in einer monotonen Beziehung zur relativen Häugkeit der Wahl einer Kategorie. Das Modell selbst ist relativ einfach gehalten und die Variabilität auf allen personenspezi-schen, diskreten, intraindividuellen Zeitreihen wird - neben den Kategorien-Leichtigkeiten - lediglich auf eine latente, personenspezische Variable zurückgeführt. Relativ neu ist die Skalierung der Variabilität eines Markov-Prozesses auf einer Dierenzenskala im Sinne eines Rasch-Modells. Intraindividuelle Variabilität ist in diesem Sinne nicht als Variabili-tät einer latenten Variable konzipiert, sondern eher als zeitstabile Disposition, die selbst parametrisch erfasst werden kann und die Variabilität auf manifesten Variablen abbildet . Gegenüber der in der Literatur dominierenden Verwendung manifester Indices bietet die latente Modellierung explizite Vorteile. Ein Messmodell liegt vor, dessen Passung überprüft werden kann. Nur wenn ein entsprechendes Messmodell passt, ist es sinnvoll, aggregierte Statistiken als Indikator für die latente Merkmalsausprägung zu verwenden.

Neben der globalen Modellpassung lassen sich item- und personenspezische Statistiken zur Bewertung der jeweiligen Passungen berechnen, zudem ist die Reliabilität der Ge-samtmessung schätzbar und Homogenitätshypothesen sind potentiell prüfbar. Somit ist es mittels des Modells möglich zu prüfen, ob es psychometrisch sinnvoll ist, die mittlere absolute Dierenz als Indikator für ein latentes Merkmal zu verwenden. Eine Beschrän-kung des hier generierten Modells liegen darin, dass in dem konstruierten Modell lediglich ein Markov-Prozess erster Ordnung beschrieben wird, da lediglich die absolute Dierenz

|x_vi[t]−x_vi[t−1]|in die Modellgleichung eingeht. Es sollte allerdings möglich weitere Terme in die Modellgleichung einzubauen, um die Abhängigkeiten von weiteren vorhergehenden Ratings zu berücksichtigen (z.B. |x_vi[t]−x_vi[t−2]|). Der Einfachheit halber wurde in die-ser Arbeit zunächst lediglich die mittlere absolute Dierenz verwendet. In dem Modell werden auch folgende weitere, theoretisch mögliche Sachverhalte nicht abgebildet:

situa-6.2. Diskussion des resultierenden Testmodells tive Einüsse auf die Variabilität und item-spezische Einüsse auf die Variabilität. Das Modell ermöglicht es leider nicht zu überprüfen, ob mit bestimmten Situationen oder Zeitpunkten eine höhere Variabilität der Ratings einhergeht oder nicht. Ebenso ist es theoretisch denkbar, dass bestimmte Items eine höhere Variabilität evozieren als andere.

Da in dem Modell keine Parameter für diese Sachverhalte vorliegen, ist die Überprüfung von Fragestellungen solcher Art mit dem Modell auch nicht möglich. Es sollten jedoch Möglichkeiten der Modellerweiterung existieren, die diese Sachverhalte abbilden kön-nen, wie z.B. die Zerlegung der Variabilitäts-Parameter in item- und personenspezische Komponenten. Eine weitere diagnostisch interessante Information - die mittlere Lage der intraindividuellen Zeitreihen - wird in dem hier generierten Modell ebenfalls nicht erfasst.

Wie ist das Modell vor den im modelltheoretischen Hintergrund beschriebenen Modellen einzuordnen? Zunächst ist zu verzeichnen, dass das Modell intraindividuelle Variabilität als eine Trait-Variable beschreibt. Die Variabilität des Antwortverhaltens der Personen auf einem oder mehreren Items wird auf lediglich eine latente Variable zurückgeführt, die zeitstabil ist. Von daher unterscheidet sich das Modell von den Modellen der dynamischen Faktoranalyse, da diese Modelle davon ausgehen, dass sich der latente Trait selbst verän-dert und somit eine Auswirkung auf das manifeste Antwortverhalten besitzt. Zudem ist das vorliegende Modell im Vergleich zu den meisten dynamischen Faktormodellen nicht auf die Einzelfallanalyse beschränkt. Es ist allerdings zu verzeichnen, dass das Modell selbst ein dynamisches Modell ist, was sich man daran verdeutlichen kann, wie Daten aus dem Modell simuliert werden (vgl. Anhang A 1.5.): zur Simulation von Daten geht der jeweils zuletzt erzeugte Wert in die Simulation mit ein, so dass eine Wahrscheinlich-keitsverteilung für die nachfolgenden, möglichen Werte zum Zeitpunkttdurch das Modell erzeugt wird. Der simulierte Wert zum Zeitpunkt t selbst wiederum ist die Ausgangs-basis für die Erzeugung des Wertes zum Zeitpunkt t+ 1 und so fort. Insofern besitzt das Modell eine gewisse rekursive Struktur. Im Vergleich zur Anwendung von Latent-State-Trait-Modellen auf intraindividuelle Standardabweichungen ist festzustellen, dass das vorliegende Modell es nicht erlaubt, mehrere Traits in einer Modellgleichung zu er-fassen und es werden auch keine situationsabhängigen Eekte erfasst. Allerdings bietet

das vorliegende Modell den Vorteil, dass die Variabilität selbst parametrisch modelliert wird und nicht auf manifeste Standardabweichungen von Zeitreihen zurückgegrien wer-den muss. Das hier generierte Modell zeigt von der Grundidee eine gewisse Ähnlichkeit zu dem Ansatz von Fleeson (Fleeson, 2001), der Traits als Verteilungen von States be-trachtet. Fleeson wählt implizit als Prior-Verteilung für States eine Normalverteilung, wobei die mittlere Lage einer Zeitreihe in Form des Mittelwerts und die Variabilität in Form der Standardabweichung als Trait-Charakteristiken eine Person aufgefasst werden.

Das hier entwickelte Modell berücksichtigt die kategorialen Natur des Antwortformates.

Zudem wird in dem generierten Modell nicht die intraindividuelle Standardabweichung, sondern die absolute Dierenzen als manifester Indikator der Variabilität aufgefasst, die latent und nicht manifest skaliert wird.

Die Parameterschätzung in der vorliegenden Arbeit erfolgte mittels der MCMC-Me-thode, allerdings ist deren Verwendung nicht zwingend notwendig. Es wäre auch möglich, die Modellparameter mit einer Variante der Maximum-Likelihood-Methode zu schätzen, die MCMC-Methode besitzt allerdings einige praktische Vorteile, wie z.B. die relative Einfachheit der Anwendung, die hohe Reichweite und die exible Lösung des Problems fehlender Werten auf Basis von Posterior-Verteilungen von Missings. Allerdings wird bei der Verwendung dieser Methoden der Bayesianische Hintergrund der Statistik quasi mit-gekauft. Da die in dieser Arbeit verwendete Methode der Modellgenerierung in Bayesia-nischem Gedankengut verwurzelt ist, lag es aufgrund einer gewissen Theorie-Homogenität nahe, ebenfalls die MCMC-Methode zur Bestimmung der Posterior-Verteilungen zu ver-wenden. Bezogen auf das Modell und die Verwendung von Bayesianischen Methoden könnte es von Interesse sein, die Performanz der MCMC-Methode mit anderen Möglich-keiten der Parameterschätzung zu vergleichen. Dies wurde in der vorliegenden Arbeit nicht durchgeführt.

Zwei weitere Punkte, die in der Arbeit nur oberächlich angerissen wurden, sind die Berechnung der Reliabilität und die Bewertung der Modellpassung auf Basis standar-disierter Residuen. Obwohl beide Verfahren einer gewissen internen Logik folgen und in der psychometrischen Literatur gut dokumentiert sind, wäre es sinnvoll, die

Relia-6.3. Diskussion der Modellanwendung

Im Dokument Fachbereich Erziehungswissenschaft und Psychologie der Freien Universität Berlin (Seite 151-155)