• Keine Ergebnisse gefunden

Aggregierte Gütemaße auf Individualebene

2   Methodik und Kennzahlen

2.2   Verwendete Kennzahlen

2.2.1   Aggregierte Gütemaße auf Individualebene

Um empirisch fundierte Aussagen zur Vorhersagequalität der  berechneten Modelle zu treffen, werden diverse Gütemaße auf  der Individualebene ermittelt. Diese bewerten, wie genau die  von den Schätzmodellen prognostizierten Werte die tatsächli‐

chen Leistungsausgaben der einzelnen Versicherten vorhersa‐

gen können. 

Die im RSA verteilten Zuweisungen für die einzelnen Versicher‐

ten entsprechen den – durch das verwendete Risikoklassifikati‐

onsmodell  unter  Verwendung  einer  gewichteten  Kleinste‐

Quadrate‐Regression (weighted least square [WLS]‐Regression)  geschätzten – zu erwartenden Leistungsausgaben dieser Versi‐

cherten ( ) im Folgejahr. Diese werden zur Berechnung der  Gütemaße auf der Individualebene den von den Krankenkassen  tatsächlich für das Folgejahr in der SA700 gemeldeten, versi‐

chertenindividuellen  Netto‐Leistungsausgaben  ,  gegen‐

übergestellt. 

Auf  Ebene  der  einzelnen  Versicherten  stehen  verschiedene  statistische Gütemaße zur Verfügung. Da die verschiedenen  Maßzahlen jeweils ihre Stärken und Schwächen haben, sollte  sich die Beurteilung der Zielgenauigkeit der Zuweisungen nicht  auf ein einzelnes Maß beschränken. Im Rahmen des vorliegen‐

den Gutachtens werden daher – wie auch schon im Sondergut‐

achten  zu  den  Wirkungen  des  morbiditätsorientieren  Risi‐

kostrukturausgleichs (vgl. Drösler et al. 2017, S. 61ff.) – als Gü‐

temaße  auf  Ebene  der  einzelnen  Versicherten  das  Be‐

stimmtheitsmaß  (R2),  Cumming’s Prediction  Measure  (CPM)  sowie der mittlere absolute Vorhersagefehler (mean absolute  prediction error [MAPE]) verwendet. 

Das international gebräuchlichste Gütemaß ist das statistische  Bestimmtheitsmaß R2. Es ist definiert als 

1 ∑ ²

∑ ²  (2.1) 

mit: 

tatsächliche Leistungsausgaben von Individuum i,  durch das Modell prognostizierte Leistungsausgaben  für Individuum i, 

durchschnittliche Leistungsausgaben über alle Versi‐

cherten, 

Anzahl Versicherte. 

Das R2 gibt an, wie hoch der Anteil der Varianz der Leistungs‐

ausgaben ist, der durch das verwendete Modell erklärt wird.4  Der Wertebereich des R2 liegt i.d.R. zwischen 0 % (das Modell  liefert überhaupt keinen Erklärungsbeitrag zur Varianz der Leis‐

tungsausgaben) und 100 % (das Modell erklärt die Varianz der         

4 Eine Herleitung der Varianzerklärung unter Anwendung der Streuungszerlegung  findet sich z.B. bei Schäfer (2011, S. 8f.) 

Leistungsausgaben vollständig).5 Je höher das Bestimmtheits‐

maß ist, desto höher ist die Anpassungsgüte bzw. die Erklä‐

rungskraft  im  Regressionsmodell  (vgl.  Schäfer 2011,  S. 7ff.). 

Eine vollständige Erklärung der Ausgabenvarianz ist insbeson‐

dere in prospektiven Modellen nahezu unmöglich. Zum einen  unterliegen die Gesundheitsproduktion und Leistungsausgaben  Zufallsprozessen, die sich einer systematischen Erfassung ent‐

ziehen. Zum anderen wird der Erklärungsgehalt des prospekti‐

ven Modells dadurch eingeschränkt, dass die Ausgaben des  Ausgleichsjahres  (AJ) durch  neu auftretende  Ereignisse (z.B. 

Verletzungen durch Unfälle) beeinflusst werden, die nicht in  den Risikogruppeninformationen aus dem Vorjahr berücksich‐

tigt werden. 

Das R2 ist jedoch mit zwei Problemen behaftet: Zum einen er‐

höht jede zusätzliche im Modell verwendete Variable das R2  und zwar unabhängig davon, ob sie tatsächlich einen Beitrag  zur Erklärung des Modells leistet. Zum anderen reagiert es be‐

sonders sensibel auf statistische Ausreißer. Der Einfluss zusätz‐

licher Variablen kann durch eine auf Erwartungstreue korrigier‐

te Adjustierung der R2‐Formel beschränkt werden. Das soge‐

nannte adjustierte R2 berechnet sich dann wie folgt:  

       

5 Bei Modellen, die nicht unter Verwendung einer linearen Regression berechnet  werden, kann der berechnete R2‐Wert auch negativ werden. In diesem Fall würde 

. 1

(2.2) 

mit: 

Anzahl der erklärenden/zu schätzenden Parameter p,  Anzahl der Versicherten. 

Der bei der Berechnung des adjustierten R2 vom R2‐Wert abge‐

zogene Term  1 R bildet einen Strafterm, der das  Anwachsen des Bestimmtheitsmaßes mit der Zahl der erklä‐

renden Variablen (P) berücksichtigt (vgl. Schäfer 2011, S. 10). Es  ist an dieser Stelle darauf hinzuweisen, dass der Strafterm ne‐

ben der Zahl der erklärenden Variablen auch die Anzahl der im  Modell betrachteten Versicherten (N) berücksichtigt. Im Rah‐

men  der  im  vorliegenden  Gutachten  betrachteten  Modelle  werden in der Regel Berechnungen mit mehr als 73 Mio. Versi‐

cherten vorgenommen,  während die Zahl  der  verwendeten  Variablen im Status‐quo‐Modell für das AJ2018 bei 254 liegt. 

Der resultierende Strafterm wird daher im Wesentlichen durch  die Anzahl der Versicherten determiniert und ist im Regelfall  für alle betrachteten Variablenzahlen vernachlässigbar klein,  sodass im Rahmen der Betrachtungsgenauigkeit das adjustierte 

R2 i.d.R. identisch mit dem nicht‐adjustierten R2 ist. 

Problematischer erscheint die hohe Sensibilität des R2‐Wertes  bezogen auf statistische Ausreißer. Durch das im Rahmen der  Berechnung erfolgte Quadrieren der Über‐ oder Unterdeckung 

tet als geringe Fehldeckungen. Methodisch bewirkt das Quad‐

rieren der Abweichungen eine hohe Ausreißersensitivität. Im  Extremfall kann dies dazu führen, dass ein Modell, das für eine  kleine Gruppe von Ausreißern eine hohe Zielgenauigkeit, aber  für alle anderen Werte eine geringe Zielgenauigkeit aufweist,  einen höheren R2‐Wert ausweist als ein Modell, das bezogen  auf die überwiegende Zahl der Beobachtungen eine gute Prog‐

nose liefert, aber die wenigen Ausreißer schlecht abbildet (vgl. 

Schäfer 2011, S. 9). 

Als Alternative bietet sich daher an, die Abweichungen nicht zu  quadrieren, sondern den Absolutwert des Prognosefehlers zu  verwenden. Das entsprechende Gütemaß wird auch als mittle‐

rer absoluter Prognosefehler (MAPE) bezeichnet und lässt sich  anhand der folgenden Formel berechnen: 

∑   (2.3) 

mit: 

tatsächliche Leistungsausgaben von Individuum i, 

durch das Modell prognostizierte Leistungsausga‐

ben von Individuum i,  Anzahl Versicherte. 

Als absolute Größe, ausgedrückt in Euro, hängt das MAPE aller‐

dings stark von den Eigenschaften der verwendeten Daten‐

grundlage ab und kann über unterschiedliche Datengrundlagen 

nicht verglichen werden. Es eignet sich daher nicht für Grup‐

penvergleiche oder Zeitreihenbetrachtungen. 

Das von Cumming et al. (2002, S. 51ff.) entwickelte CPM ver‐

meidet ebenfalls die Anfälligkeit des R2 für Ausreißer und ver‐

wendet statt der quadrierten Abweichungen die absoluten Ab‐

weichungen der Schätzer von den tatsächlichen Werten. Dar‐

über hinaus wird das Ergebnis auf einer standardisierten, ver‐

gleichbaren Skala ausgedrückt. Die Berechnungsformel für das  CPM lautet wie folgt: 

1 ∑

∑ | |   (2.4) 

mit: 

tatsächliche Leistungsausgaben von Individuum i, 

durch das Modell prognostizierte Leistungsausga‐

ben von Individuum i, 

durchschnittliche Leistungsausgaben über alle Ver‐

sicherten, 

Anzahl Versicherte. 

Das CPM nimmt in der Regel einen Wert zwischen 0 % und  100 % an und kann mit Einschränkungen ebenfalls als Prozent‐

satz der erklärten Varianz interpretiert werden. Extreme Be‐

obachtungsfälle fallen durch die Verwendung von absoluten  Abweichungen weniger stark ins Gewicht als beim R2. Zudem 

wird das CPM, im Gegensatz zum R2, bei Hinzunahme eines  zusätzlichen Prädiktors nicht automatisch größer, sodass eine  dem adjustierten R2 vergleichbare Korrektur nicht nur unnötig,  sondern falsch wäre (vgl. Schäfer 2011, S. 14). 

2.2.2 Kennzahlen auf Ebene von Versichertengruppen