• Keine Ergebnisse gefunden

Bewertung und Vergleich der Anpassungsg ¨ute der Modelle

Modelle und Prozeduren

3. Die Vorgehensweise bei der SEM-Parametersch¨atzung besteht dann darin, daß wie auch im ” konventionellen“ Fall ohne fehlende Werte Σ und µ als Funktionen eines Vektors der

2.3.2 Bewertung und Vergleich der Anpassungsg ¨ute der Modelle

Eine wichtige und bei den nachfolgenden Stabilit¨atsanalysen angewandte grundlegende Verfahrensweise der Verwendung von Strukturgleichungsmodellen ist der Vergleich von (im englischen Sprachraum) sogenannten

”nested models“ (Bollen, 1989, 289ff; MacCal-lum, 1995, 34-35): Es werden jeweils paarweise verschiedene Modellvarianten eines Struk-turgleichungsmodells miteinander verglichen, die sich darin unterscheiden, daß die frei sch¨atzbaren, unrestringierten Parameter des einen Modells eine Teilmenge der frei sch¨atz-baren Parameter des anderen Modells bilden. Beispielsweise k¨onnte im QMSM getestet werden, ob die unstandardisierten Autoregressionskoeffizientenβt ¨uber die Zeitreihe hin-weg invariant sind: Dazu w¨are ein Modell mit der Gleichheitsrestriktionβt =β gegen ein in dieser Hinsicht unrestringiertes Modell mit frei sch¨atzbarenβtzu vergleichen.

Die prinzipielle Logik solcher Modellvergleiche besteht darin, das

”sparsamste“ (d.h.

am st¨arksten restringierte) Modell auszuw¨ahlen, f¨ur das noch eine Modellanpassung an die empirischen Daten gefunden wird, die gegen¨uber dem unrestingiertesten Modell keinen substantiellen Verlust an sogenanntem Model-Fit bedeutet. Grunds¨atzlich ist diese Logik durch ein epistemologisches Objektivit¨atskriterium begr¨undet, welches auf der Zur¨uckweis-barkeit des Modells durch die in der Modellanpassung implizierte empirische ¨Uberpr¨ufung beruht – die Zur¨uckweisbarkeit des Modells aber w¨achst mit dessen Restriktivit¨at bzw., technisch betrachtet, mit dessen Freiheitsgraden:

”For a given set of data, models with ex-cellent fit and more degrees of freedom are to be preferred, because such models are sub-jected to more conditions of disconfirmability“ (Mulaik & James, 1995, 132; diese Arbeit liefert eine umfassendere Darstellung des hier nur knapp wiedergegebenen wissenschafts-theoretischen Hintergrunds dieser Schlußfolgerung). Es wird also diejenige Modellvariante ausgew¨ahlt, die bestm¨oglich zu den empirischen Daten paßt und dabei mit m¨oglichst we-nigen frei zu sch¨atzenden Kennwerten auskommt. Diese Vorgehensweise entspricht, wie im folgenden Kapitel noch gezeigt wird, sehr gut den inhaltlichen Fragestellungen der hier angestrebten Untersuchung der Merkmalsstabilit¨at von Zufriedenheit, weil die zugrunde-gelegten Hypothesen in solche Restriktionen einzelner Modellparameter ¨ubersetzt werden k¨onnen.

Zum Vergleich unterschiedlich restringierter Modellversionen m¨ussen Entscheidungs-kriterien f¨ur Annahme oder Zur¨uckweisung des jeweils sparsameren Modells festgelegt werden. Ein gewissermaßen

”klassisches“ Kriterium liefert der∆χ2-Test (andere gel¨aufi-ge Bezeichnungel¨aufi-gen sindχ2-Differenzen-Test, Likelihood-Ratio-Test). Dieser beruht auf der Differenz der Diskrepanzwerte (χ2-Werte der Modellanpassungsfunktion) des st¨arker re-stringierten und des schw¨acher restringierteren Modells, welche wiederum dann, wenn der

der Diskrepanzunterschied in der Population nicht vorhanden ist (Nullhypothese), als Rea-lisation einerχ2-verteilten Zufallsvariable aufzufassen ist, deren Freiheitsgrade sich aus der Differenz der Freiheitsgrade des st¨arker und des schw¨acher restringierten Modells ergeben (vgl. z.B. Bollen, 1989, 292). ∆χ2 (die Differenz der χ2-Werte) und ∆df (die Differenz der Freiheitsgrade) sind auf jeden Fall nichtnegativ, denn jede Hinzuf¨ugung einer Parame-terrestriktion bedeutet einen zus¨atzlichen Freiheitsgrad des Modells und kann nur in einer Beibehaltung oder Erh¨ohung des Diskrepanzwerts resultieren. Somit kann also∆χ2 eben-so auf Signifikanz getestet werden, wie dieχ2-Modellanpassungswerte selbst, das jeweils weniger restringierte Modell w¨urde dann zur¨uckgewiesen, wenn dieχ2-Differenz, d.h. der aus den zus¨atzlichen Restriktionen resultierende

”Misfit“, nicht signifikant ist. Allerdings ist m.E. damit der∆χ2-Test zumindest im Prinzip mit denselben Problemen behaftet, wie auch derχ2-Test des Model-Fit selbst. Im folgenden wird darum zun¨achst diese Problema-tik der praktischen Bewertung der Anpassungsg¨ute einzelner Strukturgleichungsmodelle diskutiert, bevor dann die des Modellvergleichs betrachtet wird.

Derχ2-Test der durch eine SEM-Parametersch¨atzung f¨ur ein bestimmtes Modell er-zielten Modellanpassung (allgemeine Darstellung siehe z.B. bei Hu & Bentler, 1995, 77-78; Bollen, 1989, 263) wurde im Laufe der wachsenden Entwicklung und Verbreitung der Strukturgleichungsmodelle zusehends kritisiert aufgrund seiner im Grunde unrealisti-schen Nullhypothese eines perfekten Model-Fit und der aus der Abh¨angigkeit der Testst¨arke von der Stichprobengr¨oße resultierenden Tendenz zur Zur¨uckweisung von

”guten“ Mo-dellen, wenn die Analyse auf großen Stichproben beruht, wie sie eigentlich angesichts der bloß asymptotischen G¨ute (Erwartungstreue, Effizienz) der SEM-Parametersch¨atzung w¨unschenswert sind. Durch denχ2-Test w¨urde dann auch bei einer eigentlich guten An-passung der modellimplizierten an die empirisch gesch¨atzte Varianz-Kovarianz-Matrix oft ein Model-Misfit diagnostiziert. Bei Maximum-Likelihood-Sch¨atzungen kann, wie oben bereits erw¨ahnt, das Problem noch durch Nichtnormalit¨at der Daten versch¨arft werden.

Dieser Nachteil hat zur Entwicklung verschiedener Model-Fit-Indizes gef¨uhrt, welche je-weils als Maßzahl f¨ur die mit dem Modell erzielte Anpassungsg¨ute brauchbar sein sollen.

Die praktische Verwendung solcher Fit-Indizes ist allerdings auch nicht ganz problemfrei, da die verwirrende Vielzahl solchermaßen vorgeschlagener Kennwerte die Frage aufwirft, welche davon und wie diese zur Beurteilung der Anpassungsg¨ute einer Modellsch¨atzung verwendet werden sollen. W¨ahrend allem Anschein nach bei der praktischen Anwendung von Strukturgleichungsmodellen zu Forschungszwecken gewisse Gewohnheiten vorherr-schen, sowohl was die h¨aufige Verwendung einiger weniger besonders

”popul¨arer“ Indi-zes, als auch die Befolgung von Daumenregeln zur Festlegung von Kriterien der

”guten“

Anpassung anbelangt, offenbart die j¨ungere diesbez¨ugliche statistische Fachliteratur einen Eindruck, der angesichts der weiten Verbreitung und langj¨ahrigen intensiven Entwicklung der Strukturgleichungsmodelle doch ¨uberrascht: Es scheint so, als wisse die

”Gemeinde der Strukturgleichungstheoretiker“ keine eindeutigen und allgemein akzeptierten Antwor-ten auf die obige Frage.

Die Vielzahl von Fit-Indizes reflektiert eine Vielzahl unterschiedlicher Konzeptionen einer graduell ausgepr¨agten Anpassungsg¨ute von SEM-Modellanpassungen, charakterisier-bar durch eine jeweils spezifische Akzentuierung und Gewichtung unterschiedlicher inhalt-licher Attribute der Anpassungsg¨ute, wie von Tanaka (1993) dargelegt wurde. Sollen die Indizes allein aufgrund der ihnen jeweils innewohnenden Logik beurteilt werden, so muß letztlich ein Urteil ¨uber den Wert dieser jeweiligen Gewichtung gef¨allt werden werden, und es scheint so, daß daf¨ur ein allgemeing¨ultiger theoretischer Referenzrahmen, aus dem sich dann der wichtigste Fit-Index quasi von selbst erg¨abe, nicht existiert bzw. noch nicht gefun-den wurde.

Eine M¨oglichkeit, die verschiedenen Fit-Indizes auf konkrete Anwendungsempfeh-lungen hin zu beurteilen, besteht darin, ihre Aussagekraft in Simulationsstudien zu testen.

Dieser Weg wurde in einigen Untersuchungen beschritten (zum ¨Uberblick siehe z.B. Hu &

Bentler, 1995; Marsh et al., 1996), jedoch ergeben diese zusammengenommen auch kein eindeutiges Bild etwa der generellen ¨Uberlegenheit eines bestimmten Kennwerts. Dieses kann im Grunde auch nicht ¨uberraschen, da m.E. gerade bei Simulationsstudien zu diesem Thema die jeweilige Generalisierbarkeit der Ergebnisse besonders schwierig zu beurteilen ist. Letztlich geht es dabei stets darum, verschiedene Indizes darin zu vergleichen, wie exakt sie richtige oder falsche Spezifikationen eines Strukturgleichungsmodells unter bestimmten experimentell variierten Bedingungen (z.B. Stichprobengr¨oße, Sch¨atzalgorithmus, Verlet-zung von Verteilungsannahmen etc.) anzeigen, und angesichts des sehr breiten Spektrums m¨oglicher Spezifikationen und Anwendungsbedingungen von Strukturgleichungsmodellen ist hier die Generalisierbarkeit ¨uber die jeweils wenigen spezifizierten Bedingungen hinaus und insbesondere auch, da es ja gewissermaßen um die Diagnostik von Modellspezifikatio-nen geht, ¨uber die jeweils untersuchten speziellen Modelle hinaus fraglich. Denn es muß in solchen Studien jeweils ein bestimmtes

”wahres“ Strukturgleichungsmodell (oder einige wenige) der Datengenerierung zugrundegelegt werden und es k¨onnen f¨ur die generierten Stichproben dann nur einige mehr oder weniger falsch spezifizierte Modelle berechnet wer-den, so daß nicht nur zu fragen ist, wie gut das jeweilige

”wahre“ Modell die Gesamtheit aller m¨oglichen Modelle repr¨asentiert, sondern dar¨uber hinaus auch, wie gut die jeweils realisierten Mißspezifikationen dieses Modells die Gesamtheit der m¨oglichen Mißspezi-fikationen dieses einen und zudem noch aller m¨oglichen anderen

”wahren“ Modelle re-pr¨asentieren. Außerdem unterscheiden sich diese Studien auch darin, wie sie jeweils die Sensibilit¨at der Indizes auf die untersuchte Variation der Modellspezikationen operationa-lisieren, was wiederum zu unterschiedlichen Schlußfolgerungen bez¨uglich dieser Sensibi-lit¨aten f¨uhren kann. Auch sind in den etwas ¨alteren Studien neuere Entwicklungen, v.a. der in j¨ungster Zeit zusehends ins Zentrum des diesbez¨uglichen wissenschaftlichen Interesses ger¨uckte RMSEA (siehe unten), noch gar nicht ber¨ucksichtigt. Und außerdem, mit Blick auf die der hier geplanten Analysen, bleibt zu fragen, ob die berichteten Ergebnisse zur Aussagekraft einzelner Indizes bei konventioneller Maximum-Likelihood-Sch¨atzung ohne weiteres auf die Verwendung des FIML-Algorithmus ¨ubertragbar sind – immerhin wird der

χ2-Wert, der nicht nur im obengenannten Test verwendet wird, sondern auch der Berech-nung der meisten Fit-Indizes zugrundeliegt, hier auf andere Weise berechnet, als bei der konventionellen Sch¨atzmethode (vgl. Arbuckle & Wothke, 1999; Byrne, 2001, 293).

Diese Anmerkungen sollen lediglich andeuten, daß die Verwendung der Fit-Indizes ein komplexes Spezialthema der Strukturgleichungsmethodologie darstellt und genauge-nommen zum gegenw¨artigen Zeitpunkt kaum ein eindeutiger diesbez¨uglicher

”state of the art“ ausgemacht werden kann. Eine einigermaßen ersch¨opfende Darstellung der bislang da-zu vorgelegten Untersuchungen w¨urde den Rahmen dieser Arbeit sprengen, ich verweise stattdessen auf die Buchkapitel von Hu & Bentler (1995) und Marsh et al. (1996), welches aber auf die sogenannten inkrementellen Fit-Indizes beschr¨ankt ist, – beide Arbeiten be-ziehen allerdings die j¨ungsten Entwicklungen nicht mehr mit ein. Einen aktuelleren, wenn auch weniger detaillierten ¨Uberblick liefert Byrne (2001, 79ff).

Zu diesen j¨ungsten Entwicklungen z¨ahlt v.a. die wachsende

”Prominenz“ des RMSEA (K¨urzel f¨ur

”root mean squared error of approximation“) in Forschung und Anwendung:

Obwohl dieser Kennwert bereits 1980 vorgestellt wurde (vgl. Steiger, 2000), scheint man erst in den letzten Jahren, ausgel¨ost durch Browne & Cudeck (1993), auf seine zumindest theoretisch hervorragenden Qualtit¨aten f¨ur die Beurteilung der Anpassungsg¨ute eines Mo-dells aufmerksam geworden zu sein. Seine seitherige Verbreitung mag sich u.a. dem Um-stand verdanken, daß dieser Kennwert im Kontext der Intervallsch¨atzung benutzt werden kann: Der RMSEA ist konzipiert als Populationsparameter der absoluten Anpassungsg¨ute eines Modells in der Population:

”Error of approximation is relevant to the question, How well would the model, with unknown, but optimally choosen, parameter values fit the po-pulation covariance matrix if it were available?“ (Browne & Cudeck, 1993, 137-8). Der jeweils errechnete Stichprobenkennwert ist die Sch¨atzung dieses Parameters und im Ge-gensatz zu gebr¨auchlichen Kennwerten wie GFI, AGFI oder den inkrementellen Indizes NFI, RFI, IFI, TLI, CFI (dieses sind die f¨ur das hier verwendete Softwarepaket AMOS 4.0 gew¨ahlten Bezeichnungen, vgl. Byrne, 2001, 79ff) sind die Verteilungseigenschaften dieses Stichprobenkennwerts ableitbar, so daß z.B. f¨ur einen gegebenen Wert Konfidenz-intervalle berechnet werden k¨onnen oder dieser Wert gegen die Nullhypothese eines zuvor spezifizierten RMSEA-Parameterwerts getestet werden kann. Die h¨aufige Verwendung des RMSEA – d.h. genaugenommen, des aus der Stichprobe gesch¨atzten RMSEA-Werts – hat m.E. bislang kaum Widerspruch in der

”Strukturgleichungsgemeinde“ hervorgerufen,21was gewissermaßen als eine Art von unausgesprochem Konsens bez¨uglich der prinzipiellen Re-levanz dieses Index gewertet werden k¨onnte. Eine Simultionsstudie, die die Bedeutung des RMSEA st¨utzt, lieferten Fan et al. (1999): Dort zeigte dieser Index unter zehn untersuch-ten die deutlich gr¨oßte Sensitivit¨at gegen¨uber Modellmißspezifikationen und die geringste gegen¨uber Variationen der Stichprobengr¨oße (es gelten auch hier die oben dargelegten

Vor-21Eine Ausnahme bildet hier die Kritik von Hayduk & Glaser (2000), welche allerdings von Steiger (2000) in sehr ¨uberzeugender Art und Weise widerlegt wurde. Letztere Arbeit enth¨alt auch eine sehr klare und emp-fehlenswerte formale Darstellung des RMSEA.

behalte bez¨uglich der Generalisierbarkeit solcher Ergebnisse).

Ein m.E. unbedingt erw¨ahnenswerter, sehr interessanten Ansatz zu der Frage der prak-tischen Anwendung der Fit-Indizes liefern Hu & Bentler (1999), die die Kombination von Cut-Off-Werten des SRMR (K¨urzel f¨ur

”standardized root mean squared residual“, in AMOS als unstandardisierter Wert RMR ausgegeben) und eines Index aus einer Gruppe, in der u.a. auch RMSEA, TLI, IFI und CFI enthalten sind zur Entscheidung ¨uber Zur¨uckwei-sung oder Annahme eines Modells vorschlagen. Grundlage dieses Vorschlags war die in Hu

& Bentler (1998) berichtete Untersuchung, bei der diese Indizes sich als solche mit brauch-bareren Sensitivit¨aten gegen¨uber Modellmißspezifikationen zeigten und der SRMR sich von der restlichen Gruppe der ¨uber verschiedene untersuchte Bedingungen hinweg ¨ahnlich reagierenden Indizes unterschied. Ein Blick in die umf¨anglichen Ergebnistabellen zeigt z.B.

die Kombination der Cut-Off-Werte RMSEA≤ 0.05 und SRMR≤ 0.06als Kombination, die bei mittleren und großen Stichprobenumf¨angen (≥250) kaum noch Fehler (Zur¨uckwei-sung eines korrekt spezifizierten, Annahme falsch spezifizierter Modelle) produziert – ¨ahn-lich erfolgreich zeigte sich nur die Kombination von SRMR≤0.06und TLI≥0.96. Dieses k¨onnten, wiederum mit dem einschr¨ankenden Hinweis auf die Generalisierbarkeit solcher Ergebnisse versehen, vern¨unftig scheinende Entscheidungsregeln sein, die z.B. die immer h¨aufiger zu beobachtende praktische Einschr¨ankung auf die von Browne & Cudeck (1993) vorgegbene Daumenregel RMSEA≤ 0.05als Kriterium f¨ur

”guten“ (bzw. RMSEA≤ 0.08 f¨ur”akzeptablen“) Model-Fit aufheben bzw. die Entscheidung auf eine breitere Basis der Fit-Bewertung stellen w¨urde. Jedoch konnte eine solche Regel f¨ur die eigene Untersuchung nicht angewandt werden, weil bei unvollst¨andigen Datens¨atzen und Anwendung des FIML-Algorithmus der SRMR schlicht nicht berechenbar ist.

Die statistische Fachliteratur liefert somit der folgenden Untersuchung keine strikten und verbindlichen praktischen Regeln zur Bewertung der Anpassungsg¨ute, sondern allen-falls ein gewisses

”business as usual“ in Gestalt der derzeit allgemein ¨ublichen Praxis der Auflistung und ad hoc Interpretation verschiedener Fit-Werte. Dieses muß nicht unbedingt als Problem gesehen werden, denn immerhin ist aus den verschiedenen Studien sozusagen auch eine positive Botschaft herauszulesen: Eindeutige Empfehlungen zur Bevorzugung einzelner Indizes fallen darum schwer, weil im Grunde die meisten Kennwerte durchaus aussagekr¨aftig und somit verwendbar sind. Und so lautet die schlichte allgemeine Emp-fehlung f¨ur die Anwender, die Bewertung des Model-Fit nicht ausschließlich auf einen Kennwert zu begr¨unden, sondern m¨oglichst mehrere Kennwerte unterschiedlicher Model-Fit-Typen zu ber¨ucksichtigen (Bollen & Long, 1993; Tanaka, 1993; Bollen, 1989, 281).

Hoyle & Panter (1995) geben sogar explizite Empfehlungen dar¨uber, welche Fit-Indizes berichtet werden sollten - jedoch sind auch dabei wiederum neuere Entwicklungen wie der RMSEA unber¨ucksichtigt.

Zum gewohnheitsm¨aßigen Umgang mit den Fit-Indizes z¨ahlen auch bestimmte Cutoff-Werte zur Interpretation derselben: F¨ur die inkrementellen Fit-Indizes wie NFI, TLI, ICI und CFI besagte eine urspr¨unglich weitverbreitete Daumenregel, daß Werte gr¨oßer/gleich

0.9 als Ausdruck eines guten Model-Fits gelten k¨onnten (z.B. Bentler & Bonnet, 1980), dieser Cutoff-Wert wurde aber inzwischen aufgrund vieler Studien nach oben korrigiert, so daß heute f¨ur diese Indizes 0.95 als Cutoff-Wert empfohlen wird (z.B. Hu & Bentler, 1999).

Bei der Verwendung des RMSEA dominiert der wie schon erw¨ahnt von Browne & Cudeck (1993) empfohlene Cutoff-Wert von 0.05. Hu & Bentler (1999) schlagen den etwas h¨oher-en Wert 0.06 vor, da in ihrer Simulation ein Cutoff von 0.05 zu vielh¨oher-en Zur¨uckweisungh¨oher-en korrekt spezifizierter Modelle bei kleinen Stichprobenumf¨angen f¨uhrte. Dagegen verweist Steiger (2000), der eigentliche Erfinder des RMSEA, auf den mit diesem Kennwert inten-dierten Fortschritt durch die Intervall-, anstatt Punktsch¨atzung der Modellanpassungsg¨ute und empfiehlt, einen einzelnen Cutoff-Wert nicht zu ernst zu nehmen und stattdessen das Konfidenzintervall des RMSEA-Werts st¨arker in die Beurteilung miteinzubeziehen.

F¨ur die folgenden Analysen werden aus dem hier nur ansatzweise wiedergegebenen Forschungsstand bez¨uglich der Bewertung der Modellanpassungsg¨ute von SEM-Parame-tersch¨atzungen pragmatische Regeln abgeleitet. Prinzipiell sollen die folgenden Kennwerte berichtet werden:

I Derχ2-Wert und die Freiheitsgrade der Modellanpassung, sowie die Signifikanz des χ2-Tests – dieses gewissermaßen der Vollst¨andigkeit und Gewohnheit wegen. Aufgrund der dargelegten Problematik dieses Tests soll dem Signifikanztest keine allzu große Be-deutung beigemessen werden.

I Unter Ber¨ucksichtigung der Ergebnisse und Empfehlungen von Hu & Bentler (1998), Hoyle & Panter (1995) sowie Marsh et al. (1996) werden folgende inkrementelle Fit-Indizes berichtet: NFI, TLI, CFI und IFI. F¨ur diese Werte wird der Cutoff-Wert von 0.95 f¨ur”guten“ Model-Fit zugrundegelegt. Es wird erwartet, daß sich diese kaum unterschei-den werunterschei-den, wenn doch, so k¨onnte aus unterschei-den von Hu & Bentler (1999) und Marsh et al.

(1996) berichteten Ergebnissen ein Hinweis auf Bevorzugung des TLI abgeleitet werden.

I Es wird der RMSEA berichtet und als vorrangiges Kriterium zur Beurteilung des Model-Fit herangezogen: Der konventionelle Cutoff-Wert von RMSEA≤ 0.05wird be-r¨ucksichtigt. Außerdem werden die von AMOS 4.0 ausgegebenen 90%-Konfidenzinter-valle angegeben.

Dieses sind Regeln zur jeweils singul¨aren Beurteilung der Modellanpassungsg¨ute der einzelnen Strukturgleichungsmodelle. Es wurde oben aber die Frage aufgeworfen, welche Regeln f¨ur die im folgenden angestrebten Vergleiche von

”nested models“ zu befolgen sind. Die diesbez¨ugliche statistische Fachliteratur behandelt m.E. kaum in ¨ahnlich intensi-ver Weise Alternativen zum∆χ2-Test, wie zumχ2-Test. Solche scheinen aber notwendig, denn es liegt auf der Hand, daß genauso, wie letzterer bei großen Stichprobenumf¨angen zur h¨aufigen Zur¨uckweisung gut, jedoch nicht perfekt, angepaßter Modelle f¨uhrt, durch ersteren dann auch h¨aufig praktisch irrelevante Differenzen der Anpassungsg¨ute von weniger und st¨arker restringierten Modelversionen signifikant werden und somit das sparsamere Mo-dell zu oft zur¨uckgewiesen wird. Diese Bef¨urchtung wurde f¨ur die nachfolgenden Analy-sen auch durch erste

”Erkundungsanalysen“ mit den SOEP-Zufriedenheitswerten und auch

sonstige Auswertungserfahrungen mit SOEP-Daten gen¨ahrt: Bei Verwendung des FIML-Algorithmus wurde bei Modellvergleichen der∆χ2-Test hier praktisch immer hochsignifi-kant mit α 0.001, auch dann, wenn in den Fit-Indizes praktisch kein Unterschied zwi-schen den Modellen festzustellen war. ¨Ubrigens ist bei Anwendung des FIML-Algorithmus derχ2-Test der Modellanpassung nichts anderes als ein∆χ2-Test – n¨amlich der Differenz der Diskrepanzwerte des untersuchten Modells und des sogenannten saturierten, d.h. voll-kommen restriktionsfreien Modells (Arbuckle & Wothke, 1999).22Konsequenterweise soll-te hier dann auch den∆χ2-Tests bei geplanten Modellvergleichen keine gr¨oßere Bedeutung beigemessen werden, als demχ2-Modelltest.

Alternative Verfahren zur Signifikanztestung der aus Modellrestriktionen resultieren-den Verschlechterung der Anpassungsg¨ute sind der Lagrange-Multiplier-Test und der Wald-Test (siehe z.B. Bollen, 1989, 293f; Bentler, 1995, 219-221). F¨ur beide Wald-Tests wurde bislang keine f¨ur das FIML-Sch¨atzverfahren adjustierte Version vorgestellt und sie stehen in AMOS 4.0 nicht zur Verf¨ugung. Angesichts ihrer asymptotischen ¨Aquivalenz zum∆χ2-Test (J¨ores-kog, 1993) ist auch anzunehmen, daß sie in derselben Weise mit dem Problem zu hoher Testst¨arke bei großen Stichproben behaftet sind.

Somit besteht Bedarf nach vern¨unftigen Regeln, die unter Absehung vom∆χ2 -Test-ergebnis eine Annahme des sparsameren Modells dann erlauben, wenn der Unterschied in der tats¨achlichen Anpassungsg¨ute minimal ist. Hierzu scheint besonders der RMSEA-Wert in seiner Eigenschaft als Maßzahl der

”Diskrepanz pro Freiheitsgrad“ des Modells (vgl.

Browne & Cudeck, 1993, 144) geeignet: Ein sparsameres Modell kann dann als einem weniger sparsamen gleichwertiges angesehen werden, wenn es nicht mehr Diskrepanz pro Freiheitsgrad aufweist, wie dieses. In Ermangelung konkreter diesbez¨uglicher Vorschl¨age in der statistischen Fachliteratur wurde f¨ur die nachfolgenden Modellvergleiche deshalb die folgende, vern¨unftig scheindende pragmatische Vorgehensweise festgelegt: Das jeweils sparsameres Modell wird dann nicht zur¨uckgewiesen, wenn sein durch die oben ausgew¨ahl-ten Fit-Indizes, insbesondere den RMSEA-Wert, ausgedr¨uckter Model-Fit genauso gut ist, wie der des weniger restringierten Modells. Als

”genauso gut“ soll der Model-Fit dann gel-ten, wenn die Differenzen aller aufgef¨uhrten Fit-Indizes jeweils nicht gr¨oßer als 0.01 sind und auch die RMSEA-Vertrauensintervalle sich ¨uberschneiden.

2.4 Fazit: Hinweise zur Auswahl statistischer Modelle

Outline

ÄHNLICHE DOKUMENTE