• Keine Ergebnisse gefunden

4.3 Diskussion

6.2.1 Geeignete Tuning-Parameter

Es erfolgt nun die Darstellung der iterativen Vorgehensweise bis zur finalen Auswahl der Tuning-Parameter. An dieser Stelle sei daran erinnert, dass für die Schätzung inkcirtdrei Tuning-Parameter ermittelt werden müssen. Die Kürzel für die Tuning-Parameter der Utilities sind dabei TPµ, für die Faktorladungen TPλ und für die Scores TPη.

Iteration 1

In der ersten Iteration wurden für die Tuning-Parameter TPµ, TPλund TPη Werte aus folgen-der Menge eingesetzt: TP∈ {0.1; 0.3; 0.5; 0.7; 0.9}. Diese Auswahl der Werte orientiert sich an der Standardeinstellung deskcirt-Pakets, wo die Werte für die TP jeweils Zahlen mit einer Nachkommastelle sind. Aus den fünf möglichen Werten ergeben sich in Summe 125 TP-Kombinationen und dementsprechend wurden 125 TIRT-Modelle geschätzt. Die Modelle

wurden jeweils an die Daten der MVSQA-Skala angepasst. Tabelle 17 enthält die zehn TP-Kombinationen mit den niedrigsten RMSEs, also die zehn am besten passenden Modelle. Es kann ihr entnommen werden, dass die Modellgüte tendenziell mit abnehmenden TP zunimmt, wobei die Größen derλ- undη-TP einen größeren Einfluss auf die Modellgüte zu haben schei-nen als die TPµ, da unter den fünf besten Modellen alle fünf möglichen Werte für TPµscheinbar mit nur geringen Änderungen der Anpassungsgüte einhergehen. TPλ und TPη führten bei dieser Auswahl an Werten zu besseren Schätzungen, je kleiner sie gewählt wurden.

Tabelle 17.Güte der TIRT-Modell Schätzung bei unterschiedlichen Tuning-Parametern (Iteration 1 und 2).

Iteration 1 Iteration 2

TPµ TPλ TPη RMSE TPµ TPλ TPη RMSE

0.1 0.1 0.1 0.41 0.01 0.01 0.09 0.07

0.3 0.1 0.1 0.43 0.01 0.09 0.01 0.08

0.5 0.1 0.1 0.50 0.01 0.03 0.05 0.09

0.7 0.1 0.1 0.57 0.01 0.05 0.03 0.09

0.9 0.1 0.1 0.62 0.01 0.07 0.03 0.09

0.1 0.5 0.7 0.87 0.01 0.05 0.01 0.09

0.1 0.7 0.7 0.91 0.01 0.03 0.03 0.09

0.5 0.9 0.9 0.92 0.01 0.01 0.05 0.09

0.5 0.5 0.3 0.92 0.01 0.03 0.07 0.09

0.3 0.3 0.7 0.93 0.01 0.05 0.05 0.10

Anmerkung.Die Tabelle enthält jeweils die zehn besten Modellschätzungen aus Iteration 1 und 2. TP = Tuning-Parameter; RMSE = Root Mean Square Error.

Die absoluten Größen der zehn besten RMSE-Werte liegen zwischen 0.41 und 0.93. Geht man die Berechnungsformel des RMSE zurück, dürften Unterschiede der Modellparameter zwischen denwahrenund dengeschätztenWerten auch im besten Modell noch bei über 0.5 liegen. Dies ist unter Berücksichtigung der zu erwartenden Ausprägungen der Utilities, Faktorladungen und Merkmalsvarianzen als relativ groß einzuschätzen. Der Tendenz entsprechend, dass mit kleineren Tuning-Parametern die RMSE besser wurden, wurden in der folgenden Iteration kleinere Tuning-Parameter untersucht.

Iteration 2

Für die zweite Iteration wurden Werte für TP∈ {0.01; 0.03; 0.05; 0.07; 0.09}gewählt. Auch hier ergeben sich somit 125 TP-Kombinationen und 125 TIRT-Modelle, die geschätzt werden müssen.

Die komprimierten Ergebnisse dieser Iteration wurden auch in Tabelle 17 aufgelistet. Als erstes kann festgestellt werden, dass die zehn besten Schätzungen deutlich bessere RMSEs aufweisen.

Das bedeutet, dass die Tuning-Parameter zwischen 0.01 und 0.09 bessere Modellschätzungen liefern können als Tuning-Parameter zwischen 0.1 und 0.9. Allerdings gilt die Tendenz, dass kleinere TPλ und TPη zu besseren Schätzungen führen, nicht mehr. Vielmehr scheint es eine Tendenz zu geben, dass wenn einer der beiden klein ist, der andere größer sein muss, um einen guten Modellfit zu erreichen. Über die TPµkann gesagt werden, dass sie bei den zehn besten Schätzungen alle den kleinstmöglichen Wert dieser Iteration haben. Insgesamt liegt in diesem Schritt die geeignetste TP-Kombination mit dem niedrigsten RMSE von 0.07 für TPµ = 0.01, TPλ = 0.01und TPη = 0.09vor, wobei sich die RMSEs deutlich geringfügiger unterscheiden als in Iteration 1. Bezogen auf die absoluten Werte des RMSE kann gesagt werden, dass die Abweichungen der wahren und geschätzten Variablen in einem Bereich um 0.2 bewegen, also deutlich weniger variieren als in Iteration 1.

Um den Zusammenhang von TPλund TPη zu verdeutlichen, wurden diese in Abbildung 5 bei konstantem TPµ = 0.01verbildlicht. Darin ist zu erkennen, dass wenn beide Werte für TPλ und TPη zu klein (z.B. 0.01) oder zu groß (z.B. 0.09) gewählt werden, die dazugehörigen RMSEs im Vergleich schlechter ausfallen. Bessere Anpassungsgüten werden anscheinend dann erreicht, wenn TPλ und TPη aufeinander abgestimmt sind. Um zu untersuchen, ob die Abstimmungs-verhältnisse einem Muster folgen, wurde für die folgende Iteration TPµfestgehalten, um die Durchführung der Tests für größere Anzahlen von Werten für TPλ und TPη zu vereinfachen.

Iteration 3

In Iteration 3 wurde nun TPλbei 0.01 fixiert und die Werte für TPλund TPηaus allen Kombinatio-nen der Wertemenge{0.001; 0.005; 0.0075; 0.01; 0.02; 0.03; 0.04; 0.05; 0.06; 0.07; 0.08; 0.09;

0.1; 0.11; 0.12}gewählt. Insgesamt ergab das 225 Modelle. Die dazugehörigen RMSEs wurden in Abbildung 6 wieder farblich und nach TP-Kombination geordnet dargestellt. Dabei tritt das Muster der Abstimmung zwischen TPλ und TPη, das sich in Abbildung 5 angedeutet hat, wesentlich deutlicher hervor und zeigt einen leicht kurvilinearen Zusammenhang zwischen TPλ und TPη. Zwar liegen sehr viele RMSEs in einem sehr niedrigen Bereich um 0.1, doch zwei RMSEs fallen in der farblichen Darstellung auf. Die hellsten Felder treten bei der Kombination der Parameter TPλ = 0.01und TPη = 0.09sowie bei TPλ = 0.0075und TPη = 0.1auf. Die erste Kombination war schon in Iteration 2 die Beste. Tabelle 18 zeigt die entsprechenden Zahlenwerte der RMSEs und es kann festgestellt werden, dass keine der untersuchten TP-Kombinationen zu einem besseren RMSE im Vergleich zu Iteration 2 geführt hat. Allerdings

RMSE bei TPµ = 0.01

TP

λ

TP

η

0.01 0.03 0.05 0.07 0.09

0.01 0.03 0.05 0.07 0.09

0.10 0.15 0.20 0.25 0.30 0.35

Abbildung 5.Zusammenhang von TPλund TPη bei konstantem TPµ= 0.01. Die farbliche Schattie-rung repräsentiert dabei die Ausprägung des zur TP-Kombination gehörigen RMSE.

Grün indiziert niedrige Werte, rot hohe Werte, gemäß der am rechten Rand angeführ-ten Skala. TP = Tuning-Parameter; RMSE = Root Mean Square Error.

liegen die besten zehn Parameter-Kombinationen in einer sehr ähnlichen Größendimension (RMSE zwischen 0.0734 und 0.0776) wie der beste RMSE aus Iteration 2. Zudem fällt auf, dass bei acht der zehn besten Kombinationen TPλniedriger als TPη ist.

Iteration 4

Die zehn besten Modellschätzungen aus Iteration 3 traten bei einem TPµvon 0.01 auf, dem kleins-ten untersuchkleins-ten Wert. Deshalb kann vermutet werden, dass kleinere TPµzu noch adäquateren Modellschätzungen führen. In der vierten Iteration werden als Folge noch kleinere Werte für TPµ untersucht, wobei die Werte für TPλund TPηin relativ engen Grenzen um die beste Kombination dieser beiden Werte aus Iteration 3 gewählt werden: TPµ∈ {0.001; 0.002; 0.003; 0.004; 0.005;

0.006; 0.007; 0.008; 0.009; 0.010}, TPλ ∈ {0.0075; 0.0100; 0.0125}und TPη ∈ {0.09; 0.11; 0.10}. Mit jeweils drei Werten für TPλ und TPη und zehn Werten für TPµ ergeben sich so 90 TP-Kombinationen, mit denen je ein TIRT-Modell angepasst wird.

Tabelle 18 zeigt die Ergebnisse dieser Iteration, die zu dem Rückschluss führen, dass kleinere Tuning-Parameter der Utilities (TPµ) bessere Schätzergebnisse liefern. Auch die RMSE haben sich bei den 10 besten Modellen verbessert und liegen mit 0.04 bei der besten TP-Kombination (TPµ = 0.002, TPλ = 0.0075und TPη = 0.09) noch mal deutlich besser als die zuvor erzielten Anpassungsgüten.

RMSE bei TPµ = 0.01

0.001 0.005 0.0075 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 0.11 0.12

0.1

Abbildung 6.Detaillierter Zusammenhang von TPλ und TPηbei konstantem TPµ = 0.01. Die farbliche Schattierung repräsentiert dabei die Ausprägung des zur TP-Kombination gehörigen RMSE. Grün indiziert niedrige Werte und rot hohe Werte, gemäß der am rechten Rand angeführten Skala. TP = Tuning-Parameter; RMSE = Root Mean Square Error.

Da die Berechnungsweise des RMSE simulationsbasiert ist, für alle Simulationsschritte der seed-Wert von 1 gesetzt wurde und mehrere TP-Kombinationen zu ähnlichen RMSEs führten, wurde zur Kontrolle möglicher Effekte der Zufallsgenerierung ein weitere Überprüfung der RMSE durchgeführt. Es wurden zehn Replikationen mit zehn verschiedenenseedsfür die besten drei TP-Kombinationen geschätzt und daraus der mittlere RMSE sowie die Spanne der RMSEs berechnet. Die Ergebnisse dieses Analyse sind in Tabelle 19 dargestellt. Darin können zwei Beobachtungen gemacht werden: Erstens sind die Mittelwerte der RMSEs etwas höher als die in Iteration 4 ermittelten RMSEs und zweitens sind die Unterschiede sehr gering, so dass im Endeffekt jede der drei besten TP-Kombinationen verwendet werden könnte und alle drei zu vergleichbaren Ergebnissen führen würden. Die finale Wahl der Tuning-Parameter viel auf die Kombination TPµ= 0.001, TPλ = 0.0075und TPη = 0.09, da bei dieser Kombination die Spanne der RMSEs, bei gleichem Mittelwert mit der ersten Kombination, am engsten war.

Tabelle 18.Güte der TIRT-Modell Schätzung bei unterschiedlichen Tuning-Parametern (Iteration 3 und 4).

Iteration 3 Iteration 4

TPµ TPλ TPη RMSE TPµ TPλ TPη RMSE

0.01 0.0100 0.0900 0.073 0.002 0.0075 0.09 0.036

0.01 0.0075 0.1000 0.074 0.001 0.0075 0.09 0.037

0.01 0.0100 0.1000 0.075 0.001 0.0075 0.10 0.038

0.01 0.0200 0.0500 0.075 0.002 0.0075 0.11 0.042

0.01 0.0100 0.1200 0.076 0.002 0.0075 0.10 0.043

0.01 0.0300 0.0300 0.077 0.003 0.0075 0.10 0.043

0.01 0.0400 0.0200 0.077 0.003 0.0100 0.09 0.045

0.01 0.0800 0.0100 0.077 0.002 0.0100 0.10 0.046

0.01 0.1000 0.0075 0.077 0.004 0.0075 0.11 0.047

0.01 0.0500 0.0200 0.078 0.002 0.0100 0.09 0.048

Anmerkung.Die Tabelle enthält jeweils die zehn besten Modellschätzungen aus Iteration 3 und 4. TP = Tuning-Parameter; RMSE = Root Mean Square Error.

Tabelle 19.Vergleich der RMSEs über 10 Replikationen bei den drei besten TP-Kombinationen.

Tuning-Parameter RMSE

µ λ η M min max

0.002 0.0075 0.09 0.049 0.034 0.068

0.001 0.0075 0.09 0.049 0.036 0.063

0.001 0.0075 0.10 0.055 0.039 0.075

Anmerkung.RMSE = Root Mean Square Error.

Iteration 5

Im folgenden Abschnitt werden geeignete Tuning-Parameter für das MVSQV-TIRT-Modell gesucht. Es ist naheliegend, zunächst die Tuning-Parameter des Annäherungsmodells zu ver-wenden, da die Subskalen dasselbe Format aufweisen. Wie zuvor wird der RMSE als Maß der Eignung der Tuning-Parameter berechnet.

Wenn für beide Modelle dieselben Tuning-Parameter verwendet würden, hätte dies den Vor-teil, dass die Modellparameter jeweils im selben Ausmaß und im gleichen Verhältnis zueinander

geschrumpft würden. Dies würde den Vergleich der absoluten Höhen der Modellparameter zwischen den Modellen plausibel machen. Würden unterschiedliche Tuning-Parameter zur Schätzung der Modelle verwendet, wären lediglich Aussagen innerhalb der Modelle sinnvoll, da der Einfluss unterschiedlicher Tuning-Parameter auf das Ausmaß der Unterschiedlichkeit der Modellparameter nicht abzuschätzen ist.

Der RMSE des MVSQV-Modells, das mit denselben Tuning-Parametern wie das MVSQA -Modell geschätzt wurde (TPµ= 0.001, TPλ = 0.0075und TPη = 0.09), betrug im Mittel über zehn Replikationen 0.074 (von 0.031 bis 0.108). Zwar ist der Mittelwert der RMSE etwas höher als der Vergleichswert der MVSQA-Skala bei denselben TPs, befindet sich jedoch in derselben Größenordnung.

Für beide TIRT-Modelle kann somit dieselbe Parameterkombination gewählt werden, ob-gleich die Anpassungsgüte beim MVSQV mit diesen Tuning-Parametern etwas schlechter ist.

Die gewählten Tuning-Parameter passen demnach besser zu den MVSQA-Daten, was nicht verwunderlich ist, da die iterative Suche nach einer geeigneten Kombination von den MVSQA -Daten ausging. Zum Zweck der besseren Vergleichbarkeit wurde diese Parametereinstellung jedoch auch für das MVSQV-Modell beibehalten.