Bewertung der Genauigkeit von Sch¨ atzern mit ROC-KurvenROC-Kurven

der Armut

2.3 Bewertung der Genauigkeit von Sch¨ atzern mit ROC-KurvenROC-Kurven

In der Literatur ¨uber die Vulnerabilit¨at wurde der Beurteilung der Genauigkeit von Vulnerabilit¨ats-Sch¨atzern bisher relativ wenig Aufmerksamkeit gezollt. Ausnahmen stellen die Autoren Ligon und Schechter (2004), Jha und Dang (2010) und Zhang und Wan (2009) dar.

Um die Genauigkeit von verschiedenen Vulnerabilit¨ats-Sch¨atzern zu vergleichen, f¨uhren Ligon und Schechter (2004) Monte Carlo Experimente von k¨unstlich er-zeugten Datens¨atzen (”data generating process by Jalan and Ravallion (1999)“), in denen Werte f¨ur die zuk¨unftige Wohlfahrt bekannt sind, unter verschiedenen Be-dingungen (Stationarit¨at, Nichtstationarit¨at, Vorhandensein oder Abwesenheit von Messfehlern) durch. Das Vorgehen zur Erzeugung ihrer Vulnerabilit¨ats-Sch¨atzer er-folgt in zwei Schritten: Im ersten Schritt sch¨atzen die Autoren den Konsum mit verschiedenen Sch¨atzern (Pritchett et al. (2000), Sch¨atzer mit Querschnittsdaten, Chaudhuri (2001), Ligon und Schechter (2003)). Im zweiten Schritt wenden sie auf jeden Sch¨atzer des Konsums verschiedene Vulnerabilit¨atsmaße (Foster-Greer-Thorbecke Maße (Foster et al.,1984) f¨ur α ∈ {0,1,2}, Ligon und Schechter Maß (Ligon und Schechter, 2003) und Calvo und Dercon Maß (Calvo und Dercon, 2003)) an. Die Genauigkeit dieser Vulnerabilit¨ats-Sch¨atzer messen die Autoren durch den (logarithmischen) mittleren quadratischen Fehler (Mean Squared Error, MSE) und den Spearman Rangkorrelationskoeffizienten als eine Funktion der Gr¨oße der Pa-nelstichprobe und der Anzahl der Panelwellen. Sie kommen zu dem Ergebnis, dass Sch¨atzer von Querschnittsdaten unter allen Bedingungen eine geringe Genauig-keit haben. Unter der Annahme der Stationarit¨at ist unabh¨angig vom Vulnerabi-lit¨atsmaß der Sch¨atzer von Chaudhuri (2001) am besten, wenn der Konsum nicht mit Fehler gemessen wird. Ist das Vulnerabilit¨atsmaß dagegen

”risk-sensitive“ (stei-gendes Risiko f¨uhrt zu einem Anstieg des Vulnerabilit¨atsmaßes) und der Konsum mit Fehler behaftet, so hat der Sch¨atzer von Ligon uns Schechter (2003) die besten Eigenschaften. Die Autoren ermitteln weiterhin, dass unter Annahme von Nicht-Stationarit¨at der Sch¨atzer von Pritchett et al. (2000) am besten ist. Allerdings st¨utzen sich ihre Ergebnisse auf simulierte Daten, was, wie sie zugeben ”of course assume away the complexity of the real-world data“. Ihre Analysen basierend auf der Vietnamesischen Haushaltsbefragung (2 Perioden) und der Bulgarischen Haus-haltsbefragung (12 Perioden) vergleichen die Beziehungen zwischen verschiedenen Vulnerabilit¨atsmaßen, d.h. die Korrelation zwischen diesen. Der Sch¨atzer, der als bester in ihren Experimenten identifiziert wurde, wurde auf die Befragungen

an-gewendet und das erhaltene Vulnerabilit¨atsmaß wurde in Armut, aggregiertes und spezifisches Risiko und Messfehler zerlegt. Diese Zerlegung misst allerdings nicht die Genauigkeit der Vulnerabilit¨at, d.h.welche Haushalte arm geworden sind und welche nicht.

Jha und Dang (2010) messen die Genauigkeit als den Anteil von Haushalten in der Stichprobe, die richtig klassifiziert wurden. Auf dieser Grundlage stellen sie fest, dass die Vulnerabilit¨ats-Sch¨atzer

”einigermaßen gute Arbeit leisten“. Allerdings ist der Anteil der richtigen Klassifizierungen ein irref¨uhrendes Maß der Qualit¨at einer Diagnosemethode, da es stark von den Anteilen der armen und nicht-armen Haus-halte in der Bev¨olkerung abh¨angt. Die Receiver Operating Characteristic (ROC), die unten erl¨autert wird, wurde speziell daf¨ur konstruiert, um die Genauigkeit sol-cher Diagnosen zu quantifizieren.

Zhang und Wan (2009) untersuchen den Einfluss von verschiedenen Einkommens-maßen, Armuts- und Vulnerabilit¨atslinien auf die Genauigkeit von Vulnerabilit¨ats-Sch¨atzern. Sie definieren Genauigkeit als den Anteil der richtig als armutsgef¨ahrdet klassifizierten Haushalte an allen als armutsgef¨ahrdet klassifizierten Haushalten.

Dieses Maß ber¨ucksichtigt, im Gegensatz zur ROC, nicht die Haushalte, die arm werden aber als nicht-armutsgef¨ahrdet klassifiziert wurden.

Die ROC ist ein sehr etabliertes Werkzeug, das die Genauigkeit einer Diagno-semethode quantitativ misst und damit einen Vergleich verschiedener Verfahren erm¨oglicht. Es findet in vielen Fachrichtungen Anwendung (siehe z.B. Egan (1975), Spackman (1989), Thompson and Zucchini (1989), Swets et al. (2000), Fawcett (2006)). Im medizinischen Kontext wird es verwendet, um den Zielkonflikt zwi-schen der Sensitivit¨at oder True Positive Rate (TPR, d.h. die Wahrscheinlichkeit, einen kranken Patienten richtig zu identifizieren) und der Spezifit¨at (die Wahr-scheinlichkeit, einen nicht-kranken Patienten richtig zu identifizieren); letzteres ist gleich zu eins subtrahiert um die

”Fehlalarmh¨aufigkeit“, d.h. 1 - False Positive Ra-te (FPR). In dieser Arbeit soll bewerRa-tet werden, wie gut verschiedene Methoden die zuk¨unftige Armut vorhersagen k¨onnen, d.h. wie genau sie vorhersagen k¨onnen, welche Haushalte arm werden und welche nicht.

Eine Diagnose l¨auft wie folgt ab: Zun¨achst wird das zuk¨unftige Einkommen mit Modellen, die im n¨achsten Abschnitt vorgestellt werden, vorhergesagt. Dann wird eine Vulnerabilit¨atslinie (VPL) festgelegt, so dass Haushalte, die unter diese Grenze fallen, als armutsgef¨ahrdet klassifiziert werden und alle anderen als nicht-armutsge-f¨ahrdet. Folglich sind vier verschiedene Kombinationen von Diagnoseergebnissen m¨oglich, die in der Kontingenztabelle in Abbildung 2.6 dargestellt werden.

TRUE POSITIVES FALSE POSITIVES

FALSE NEGATIVES TRUE NEGATIVES

arm nicht-arm

Vermutete Klasse armutsgef¨ahrdet

nicht-armutsgef¨ahrdet

Tats¨achliche Klasse

Abbildung 2.6: Kontigenztabelle der Diagnoseergebnisse [Darstellung nach Fa-wcett (2006)].

Indem die VPL ver¨andert wird, k¨onnen die Anteile der Fehler (false negatives und false positives) abgestimmt werden. Die ROC ist ein Graph, in dem die FPR auf der x-Achse gegen die TPR auf der y-Achse aufgetragen wird. Sie ist eine nichtfallende Funktion, die im Punkt (0,0) beginnt und im Punkt (1,1) endet. Grob l¨asst sich sagen, dass ein Verfahren umso besser ist, je schneller die Kurve y = 1 erreicht.

Also ist die Methode optimal, die soforty = 1 erreicht, d.h. durch den Punkt (0,1) verl¨auft. Die ROC erm¨oglicht es, die im n¨achsten Abschnitt vorgestellten Modelle zu vergleichen, wobei als VPLs die Einkommen (in aufsteigender Sortierung) der Reihe nach verwendet werden. Die VPLs f¨ur verschiedene Modelle m¨ussen nicht dieselben sein.

Als Qualit¨atsmaße f¨ur die ROC gibt es verschiedene M¨oglichkeiten, von denen drei in Abbildung 2.7 dargestellt sind. Das am h¨aufigsten verwendete ist die Fl¨ache un-ter der Kurve (Area under the Curve, AUC), d.h. die Performance der Kurve wird auf einen einzelnen Wert reduziert, der zwischen 0 und 1 liegt. Eine Methode wird als besser gegen¨uber einer andere angesehen, wenn seine AUC gr¨oßer ist; optimal also wenn sie den Fl¨acheninhalt 1 hat. Der Nachteil, AUC zur Bewertung der Mo-delle von Vulnerabilit¨ats-Sch¨atzern zu betrachten, ist, dass mit dem Qualit¨atsmaß AUC die gesamte Spanne von TPRs verglichen wird. Um die Vulnerabilit¨at zu sch¨atzen, ist es irrelevant, ob eine Methode besser als eine andere f¨ur kleine Werte der TPR ist, z.B. ist eine Methode, die nur 10% der zuk¨unftig armen Haushalte identifizieren kann (T P R= 10%), nicht von Nutzen.

Nur große Werte der TPR sind von praktischem Interesse. Das bedeutet, dass AUC als Qualit¨atsmaß in diesem Kontext nicht gen¨ugt. Dasselbe gilt f¨ur Seltens Maß

des ”voraussagenden Erfolges“ (Selten und Krischker (1983), Selten (1991)). Eine M¨oglichkeit zur Verbesserung des Maßes AUC f¨ur diesen Zusammenhang besteht darin, die Spanne der TPR bis zu einem Wert, z.B. F P R= 25%, zu beschr¨anken und als Qualit¨atsmaß nur eine Teilfl¨ache unter der ROC zu betrachten (Partial Area under the Curve, PAUC) (Thompson und Zucchini, 1989).

In dieser Arbeit werden Methoden aufgrund der FPR, die bei einer vorher festge-legten TPR eintritt, bewertet (Fienberg und Stern, 2005). Meistens wird als TPR 80% und in einigen F¨allen 90% verwendet, d.h. es sollen mindestens 80% bzw. 90%

der Haushalte identifiziert werden, die im kommenden Jahr arm werden. Der Wert T P R = 80% ergibt r¨uckwirkend die VPL, die wiederum die FPR bestimmt. Die FPR stellt die Kosten dar, die in Kauf genommen werden m¨ussen, um die TPR von 80% zu erreichen. Eine Methode wird gegen¨uber einer anderen als besser an-gesehen, wenn die FPR dieser Methode (f¨ur die festgelegte TPR) kleiner ist als die FPR der anderen Methode. Wenn die FPR einer Methode bei TPR=80% sehr hoch ist, z.B. 40%, dann ist die absolute Anzahl der falsch als armutsgef¨ahrdeten Haushalte m¨oglicherweise zu groß, so dass die Methode keinen praktischen Nutzen zur Sch¨atzung der Vulnerabilit¨at erbringt.

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.0

fpr

tpr

AUC

PAUC 0.25 TPR=0.8

Abbildung 2.7: Qualit¨atsmaße f¨ur die ROC-Kurven: AUC (graue Fl¨ache), PAUC (schraffierte Fl¨ache), FPR (=0.17) korresponierend zu TPR=0.8 [Dar-stellung (Thompson und Zucchini, 1989) auf Basis der in Kapitel 3 beschrie-benen Daten].

Bisher wurde davon ausgegangen, dass die VPL ex post so festgelegt wird, dass eine TPR von 80% erzielt wird. Um die Vulnerabilit¨at zu sch¨atzen, muss die VPL

nat¨urlich ex ante fixiert werden. Idealerweise sollte dies so geschehen, dass die TPR m¨oglichst konstant bei 80% liegt. Das Vorgehen besteht darin, dass f¨ur rollierende Panels die Vulnerabilit¨at gesch¨atzt wird, und auf Basis der historischen VPLs bei 80% TPR eine Festlegung getroffen wird.

Das Vorgehen l¨asst sich dem Konzept VEP zuordnen.

2.4 Sch¨ atzmethoden f¨ ur verschiedene Situationen

Im Dokument Messung der Vulnerabilität der Armut - Eine statistische Analyse mit deutschen Paneldaten (Seite 56-60)