2 Methodik und Kennzahlen
2.2 Verwendete Kennzahlen
2.2.1 Aggregierte Gütemaße auf Individualebene
Um empirisch fundierte Aussagen zur Vorhersagequalität der berechneten Modelle zu treffen, werden diverse Gütemaße auf der Individualebene ermittelt. Diese bewerten, wie genau die von den Schätzmodellen prognostizierten Werte die tatsächli‐
chen Leistungsausgaben der einzelnen Versicherten vorhersa‐
gen können.
Die im RSA verteilten Zuweisungen für die einzelnen Versicher‐
ten entsprechen den – durch das verwendete Risikoklassifikati‐
onsmodell unter Verwendung einer gewichteten Kleinste‐
Quadrate‐Regression (weighted least square [WLS]‐Regression) geschätzten – zu erwartenden Leistungsausgaben dieser Versi‐
cherten ( ) im Folgejahr. Diese werden zur Berechnung der Gütemaße auf der Individualebene den von den Krankenkassen tatsächlich für das Folgejahr in der SA700 gemeldeten, versi‐
chertenindividuellen Netto‐Leistungsausgaben , gegen‐
übergestellt.
Auf Ebene der einzelnen Versicherten stehen verschiedene statistische Gütemaße zur Verfügung. Da die verschiedenen Maßzahlen jeweils ihre Stärken und Schwächen haben, sollte sich die Beurteilung der Zielgenauigkeit der Zuweisungen nicht auf ein einzelnes Maß beschränken. Im Rahmen des vorliegen‐
den Gutachtens werden daher – wie auch schon im Sondergut‐
achten zu den Wirkungen des morbiditätsorientieren Risi‐
kostrukturausgleichs (vgl. Drösler et al. 2017, S. 61ff.) – als Gü‐
temaße auf Ebene der einzelnen Versicherten das Be‐
stimmtheitsmaß (R2), Cumming’s Prediction Measure (CPM) sowie der mittlere absolute Vorhersagefehler (mean absolute prediction error [MAPE]) verwendet.
Das international gebräuchlichste Gütemaß ist das statistische Bestimmtheitsmaß R2. Es ist definiert als
1 ∑ ²
∑ ² (2.1)
mit:
tatsächliche Leistungsausgaben von Individuum i, durch das Modell prognostizierte Leistungsausgaben für Individuum i,
durchschnittliche Leistungsausgaben über alle Versi‐
cherten,
Anzahl Versicherte.
Das R2 gibt an, wie hoch der Anteil der Varianz der Leistungs‐
ausgaben ist, der durch das verwendete Modell erklärt wird.4 Der Wertebereich des R2 liegt i.d.R. zwischen 0 % (das Modell liefert überhaupt keinen Erklärungsbeitrag zur Varianz der Leis‐
tungsausgaben) und 100 % (das Modell erklärt die Varianz der
4 Eine Herleitung der Varianzerklärung unter Anwendung der Streuungszerlegung findet sich z.B. bei Schäfer (2011, S. 8f.)
Leistungsausgaben vollständig).5 Je höher das Bestimmtheits‐
maß ist, desto höher ist die Anpassungsgüte bzw. die Erklä‐
rungskraft im Regressionsmodell (vgl. Schäfer 2011, S. 7ff.).
Eine vollständige Erklärung der Ausgabenvarianz ist insbeson‐
dere in prospektiven Modellen nahezu unmöglich. Zum einen unterliegen die Gesundheitsproduktion und Leistungsausgaben Zufallsprozessen, die sich einer systematischen Erfassung ent‐
ziehen. Zum anderen wird der Erklärungsgehalt des prospekti‐
ven Modells dadurch eingeschränkt, dass die Ausgaben des Ausgleichsjahres (AJ) durch neu auftretende Ereignisse (z.B.
Verletzungen durch Unfälle) beeinflusst werden, die nicht in den Risikogruppeninformationen aus dem Vorjahr berücksich‐
tigt werden.
Das R2 ist jedoch mit zwei Problemen behaftet: Zum einen er‐
höht jede zusätzliche im Modell verwendete Variable das R2 und zwar unabhängig davon, ob sie tatsächlich einen Beitrag zur Erklärung des Modells leistet. Zum anderen reagiert es be‐
sonders sensibel auf statistische Ausreißer. Der Einfluss zusätz‐
licher Variablen kann durch eine auf Erwartungstreue korrigier‐
te Adjustierung der R2‐Formel beschränkt werden. Das soge‐
nannte adjustierte R2 berechnet sich dann wie folgt:
5 Bei Modellen, die nicht unter Verwendung einer linearen Regression berechnet werden, kann der berechnete R2‐Wert auch negativ werden. In diesem Fall würde
. 1
1 (2.2)
mit:
Anzahl der erklärenden/zu schätzenden Parameter p, Anzahl der Versicherten.
Der bei der Berechnung des adjustierten R2 vom R2‐Wert abge‐
zogene Term 1 R bildet einen Strafterm, der das Anwachsen des Bestimmtheitsmaßes mit der Zahl der erklä‐
renden Variablen (P) berücksichtigt (vgl. Schäfer 2011, S. 10). Es ist an dieser Stelle darauf hinzuweisen, dass der Strafterm ne‐
ben der Zahl der erklärenden Variablen auch die Anzahl der im Modell betrachteten Versicherten (N) berücksichtigt. Im Rah‐
men der im vorliegenden Gutachten betrachteten Modelle werden in der Regel Berechnungen mit mehr als 73 Mio. Versi‐
cherten vorgenommen, während die Zahl der verwendeten Variablen im Status‐quo‐Modell für das AJ2018 bei 254 liegt.
Der resultierende Strafterm wird daher im Wesentlichen durch die Anzahl der Versicherten determiniert und ist im Regelfall für alle betrachteten Variablenzahlen vernachlässigbar klein, sodass im Rahmen der Betrachtungsgenauigkeit das adjustierte
R2 i.d.R. identisch mit dem nicht‐adjustierten R2 ist.
Problematischer erscheint die hohe Sensibilität des R2‐Wertes bezogen auf statistische Ausreißer. Durch das im Rahmen der Berechnung erfolgte Quadrieren der Über‐ oder Unterdeckung
tet als geringe Fehldeckungen. Methodisch bewirkt das Quad‐
rieren der Abweichungen eine hohe Ausreißersensitivität. Im Extremfall kann dies dazu führen, dass ein Modell, das für eine kleine Gruppe von Ausreißern eine hohe Zielgenauigkeit, aber für alle anderen Werte eine geringe Zielgenauigkeit aufweist, einen höheren R2‐Wert ausweist als ein Modell, das bezogen auf die überwiegende Zahl der Beobachtungen eine gute Prog‐
nose liefert, aber die wenigen Ausreißer schlecht abbildet (vgl.
Schäfer 2011, S. 9).
Als Alternative bietet sich daher an, die Abweichungen nicht zu quadrieren, sondern den Absolutwert des Prognosefehlers zu verwenden. Das entsprechende Gütemaß wird auch als mittle‐
rer absoluter Prognosefehler (MAPE) bezeichnet und lässt sich anhand der folgenden Formel berechnen:
∑ (2.3)
mit:
tatsächliche Leistungsausgaben von Individuum i,
durch das Modell prognostizierte Leistungsausga‐
ben von Individuum i, Anzahl Versicherte.
Als absolute Größe, ausgedrückt in Euro, hängt das MAPE aller‐
dings stark von den Eigenschaften der verwendeten Daten‐
grundlage ab und kann über unterschiedliche Datengrundlagen
nicht verglichen werden. Es eignet sich daher nicht für Grup‐
penvergleiche oder Zeitreihenbetrachtungen.
Das von Cumming et al. (2002, S. 51ff.) entwickelte CPM ver‐
meidet ebenfalls die Anfälligkeit des R2 für Ausreißer und ver‐
wendet statt der quadrierten Abweichungen die absoluten Ab‐
weichungen der Schätzer von den tatsächlichen Werten. Dar‐
über hinaus wird das Ergebnis auf einer standardisierten, ver‐
gleichbaren Skala ausgedrückt. Die Berechnungsformel für das CPM lautet wie folgt:
1 ∑
∑ | | (2.4)
mit:
tatsächliche Leistungsausgaben von Individuum i,
durch das Modell prognostizierte Leistungsausga‐
ben von Individuum i,
durchschnittliche Leistungsausgaben über alle Ver‐
sicherten,
Anzahl Versicherte.
Das CPM nimmt in der Regel einen Wert zwischen 0 % und 100 % an und kann mit Einschränkungen ebenfalls als Prozent‐
satz der erklärten Varianz interpretiert werden. Extreme Be‐
obachtungsfälle fallen durch die Verwendung von absoluten Abweichungen weniger stark ins Gewicht als beim R2. Zudem
wird das CPM, im Gegensatz zum R2, bei Hinzunahme eines zusätzlichen Prädiktors nicht automatisch größer, sodass eine dem adjustierten R2 vergleichbare Korrektur nicht nur unnötig, sondern falsch wäre (vgl. Schäfer 2011, S. 14).
2.2.2 Kennzahlen auf Ebene von Versichertengruppen