Sch¨atzer im Modell 1 - Nichtparametrische Analyse von diagnostischen Tests

3.6 Konfidenzintervalle

4.1.1 Sch¨atzer im Modell 1

Wir betrachten zun¨achst das Modell 1, d.h. den Fall, dass an jedem der N Patien-ten nur eine Messung vorgenommen wurde. Es gibt n0 gesunde (K−) und n1 kranke (K+) Patienten. Es k¨onnen dann richtig positive (RP), richtig negative (RN), falsch positive (FP) und falsch negative (FN) Diagnosen getroffen werden. Die Vierfelder-tafel f¨ur einen Reader oder eine Methode ist in Tabelle4.1dargestellt. Die Pr¨avalenz der Krankheit im Kollektiv wird durch ˆP =n1/N gesch¨atzt. Die einfachste Vorge-hensweise bei dichotomen Daten ist der getrennte Vergleich von Sensitivit¨at und Spezifit¨at. Diese werden ¨uber die relativen H¨aufigkeiten gesch¨atzt :

Sens =d #RP n1

und [Spez = #RN n0

K+ K− T+ #RP #F P T− #F N #RN

n1 n0 N

Tabelle 4.1: Vierfeldertafel f¨ur ein dichotomes Testergebnis

Anschließend k¨onnen auch Sch¨atzer ˆVSe,VˆSp f¨ur die Varianzen bestimmt werden:

VˆSe = Sens(1d −Sens)d

n₁ = #RP ·#F N n₁

und analog f¨ur die Spezifit¨at. Mithilfe eines einfachen Wald-Tests werden Unter-schiede getestet.

H¨aufig ist man aber an der gemeinsamen Analyse von Sensitivit¨at und Spezifit¨at, al-so eher einem globalen als einem geschichteten Verfahren, interessiert. Eine zun¨achst einfache Methode der Sch¨atzung der Accuracy ist der Anteil der richtig diagnosti-zierten Personen am Gesamtkollektiv, die sogenannte Trefferquote (TQ). Sie wurde erstmals vonMetz (1978) erw¨ahnt. Der Sch¨atzer lautet:

dT Q= #RP + #RN

N = n1Sens +d n0Spez[

n₀+n₁ = ˆP ·Sens + (1d −Pˆ)·[Spez. (4.1) Der Sch¨atzer ist also das gewichtete Mittel aus gesch¨atzter Sensitivit¨at und Spe-zifit¨at, wobei die Wichtung mit den relativen Stichprobenumf¨angen der einzelnen Gruppen erfolgt. Man sieht leicht, dass dieser Sch¨atzer direkt von der Pr¨avalenz der Krankheit im untersuchten Kollektiv abh¨angt. Es ist somit sehr einfach, diesen Wert zu manipulieren, indem man entweder sehr viele oder sehr wenige Kranke bzw.

Gesunde rekrutiert.

Deshalb ist es sinnvoller, einen pr¨avalenzunabh¨angigen Sch¨atzer zu definieren. Die Fl¨ache unter der ROC-Kurve erf¨ullt diese Eigenschaft, die sie auch im Fall stetiger oder ordinaler Testergebnisse zu einem guten analytischen Werkzeug macht. Be-trachtet man die algebraische Herleitung des Sch¨atzers f¨ur die Accuracy ¨uber die Trapezregel (siehe Abbildung 4.1), so kann man feststellen, dass diese AUC genau dem ungewichteten Mittelwert zwischen Sensitivit¨at und Spezifit¨at entspricht.

AUC[ =Sensd ·Spez[

| {z }

+Sens(1d −[Spez)

| {z2 }

+Spez(1[ −Sens)d

| {z2 }

= Sens +d [Spez

2 . (4.2)

Die Ziffern 1,2,3 stehen f¨ur die einzelnen Fl¨achen in der Abbildung.

Es h¨angt nat¨urlich vor allem von der Fragestellung des Anwenders ab, ob die beiden Gr¨oßen gleiches Gewicht (AUC) haben sollen oder nicht (Trefferquote). Die Unter-schiede zwischen den beiden Sch¨atzern unterliegen den gleichen Diskussionen und

1 2

1-Spezifit¨at

Sensitivit¨at

Abbildung 4.1: Algebraische Bestimmung der AUC ¨uber die Trapezregel, zur Er-kl¨arung der Ziffern siehe Formel (4.2)

Angriffspunkten, mit denen man immer konfrontiert ist, wenn man unbalancierte Gruppen hat. Youden (1950) schlug f¨ur die Wahl des optimalen Cut-Off Wertes die direkte Summe aus Sensitivit¨at und Spezifit¨at vor, also einen Sch¨atzer, der dem un-gewichteten Mittel entspricht. Allerdings verwendete er zur Normierung des Wertes die Subtraktion von 1. Dieser sogenannte

”Youden-Index“ ist eine etablierte Gr¨oße in der Biometrie und liefert somit ein Argument f¨ur die AUC im Gegensatz zur Trefferquote.

Ein Blick in die Literatur zeigt, dass die Diskussion ¨uber diese beiden unterschied-lichen Sch¨atzer schon lange gef¨uhrt wird. Bereits Feinstein (1975) diskutiert die Unterschiede der beiden Sch¨atzer und kommt zu dem Schluss, dass die Pr¨avalenz-abh¨angigkeit der Trefferquote problematisch ist und zu Manipulationen f¨uhren kann.

Er zieht hier Youdens Index der Trefferquote eindeutig vor, wendet allerdings ein, dass bei der Zusammenfassung von Sensitivit¨at und Spezifit¨at in einem Index immer die einzelnen Werte und somit deren Dualit¨at verloren gehen.

Shapiro (1999) erw¨ahnt die Trefferquote, gibt aber zu bedenken, dass sie irref¨uhrend sein kann. Er illustriert dies mit folgendem Beispiel: w¨urde man alle schwangeren Frauen in den USA auf eine HIV-Infektion testen wollen, h¨atte ein Test, der ein-fach jede dieser Frauen als HIV-negativ klassifiziert eine Trefferquote von vermutlich 99%, wobei die Sensitivit¨at 0% betr¨uge.

Parker & Davis (1999) definieren die Accuracy eines dichotomen Tests als Summe aus Sensitivit¨at und Spezifit¨at und geben hierf¨ur auch exakte Konfidenzbereiche (statt

”crude approximations“) an.

In Zhou et al. (2002) wird die Trefferquote als

”h¨aufig verwendetes Maß wegen seiner Einfachheit“ erw¨ahnt, aber die Autoren sagen auch, dass sie einige weitere Summenmaße vorstellen werden, die der Trefferquote ¨uberlegen sind. An dieser Stel-le findet sich dann auch der Hinweis, dass die ¨uberStel-legenen Maße mit der ROC-Kurve assoziiert sind.

Bei Luet al. (2003) wird beschrieben, dass die Trefferquote nur in

Kohortenstu-dien Sinn macht, denn nur hier ist die Pr¨avalenz nicht frei w¨ahlbar. F¨ur eine Non-Inferiority Fragestellung schlagen sie als alternative Hypothese vor, dass beide Gr¨oßen, also Sensitivit¨atund Spezifit¨at, des neuen Tests denen des alten Tests nicht unterlegen sein d¨urfen.

In den Points to Consider der European Medicines Agency (EMEA) (2001) wird zun¨achst gefordert:

”In a suitable experiment the probability of a correct test result is estimated as the proportion of cases for which the test result is correct.“ Weiter hinten im Dokument wird dann allerdings verlangt, dass es pr¨avalenzunabh¨angige Maße geben soll, die die Accuracy der Testverfahren vergleichen.

Zusammenfassend hat dieser Literatur¨uberblick gezeigt, dass die Diskussion immer noch aktuell ist, da vermutlich die meisten Anwender die Trefferquote wegen ihrer Einfachheit vorziehen. Gerade deshalb soll die Empfehlung in dieser Arbeit aber sein, dass man auch bei dichotomen Daten sehr wohl und sehr gut die AUC als Sch¨atzer f¨ur die Accuracy bei dichotomen Testergebnissen verwenden kann.

Im Dokument Nichtparametrische Analyse von diagnostischen Tests (Seite 53-56)