• Keine Ergebnisse gefunden

IV. Diskussion

IV.4 Statistische Beurteilung der Markergüte

Aufgrund des Screeningansatzes des DPD, bei dem zeitgleich einige Tausend Peptide in einer Probe überprüft wurden, galt es eine große Menge generierter Daten auszuwerten. Dies war möglich mit der parallel zur Entwicklung der experimentellen Methoden des DPD stattfindenden hausinternen Programmierung geeigneter Software durch die Abteilung Bioinformatics. Basis für die Bewertung der Ergebnisse war eine exakte Beschreibung und Klassifizierung des Patientenkollektives sowie die sorgfältige und standardisierte Probenverarbeitung. Hierdurch wurde die Reproduzierbarkeit der Analysen gewährleistest.

Ein bestimmtes Peptid befand sich immer an derselben Stelle, definiert durch Fraktion und Masse, in der Peptidkarte.

Die Güte eines möglichen diagnostischen Markers bzw. Tests lässt sich anhand der Sensitivität und Spezifität beurteilen. Ein biochemischer Marker sollte eine hohe Sensitivität besitzen, d.h. möglichst alle Erkrankten sollten auch als Erkrankte durch den Marker erkannt werden. Gleichzeitig sollte die Spezifität möglichst hoch sein, um falsch positive Ergebnisse zu vermeiden. Die Berechnung von ROC-Kurven und dem dazugehörigen Integral ist eine statistische Methode, in die Sensitivität wie Spezifität einfließen. So lassen sich Peptide mit gleichermaßen guter Sensitivität und Spezifität für die Diagnostik von Gonarthrose

„herauszufiltern“. Das Integral steht für seine Eignung zwischen zwei Gruppen zu diskriminieren. Es kann Werte zwischen 0,5 (50 %) und 1,0 (100 %) annehmen. Je höher der Wert, desto besser ist die Güte des Markers. Das Integral der ROC-Kurven der Kandidaten S1 und S2 war vergleichbar: ROC-AUC S1 81,9 %, ROC-AUC S2 79,8 %. In beiden Fällen ist also die Wahrscheinlichkeit, dass ein an ernster Arthrose Erkrankter einen im Vergleich zur Kontrollgruppe erhöhten (S1) bzw. erniedrigten (S2) Wert hat, etwa 80 %. Da das Integral der ROC-Kurven derselben Statistik folgt wie andere nicht-parametrische Tests, konnte die Signifikanz der ermittelten Unterschiede mittels u-Test nach Mann-Whitney-Wilcoxon bestimmt werden.

Zusätzlich wurde auch der Korrelationsfaktor zwischen Signalintensität und Krankheitsstadium berechnet. Mit Hilfe der partiellen Korrelationsanalyse wurde überprüft, ob sich die Intensität eines Peptids nicht nur im Zusammenhang mit der primären Variablen Krankheitsstadium, sondern auch parallel dazu in Abhängigkeit von einer weiteren Variabel verändert und dadurch ein Zusammenhang mit der primären Variablen vorgetäuscht wird. Für

jeden Kandidaten und Zielparameter wurde der mögliche Einfluss eines jeden einzelnen der anderen Parameter untersucht. Da auch ein Beitrag der normalen Altersdegeneration der Knorpelmatrix beachtet werden muss [Swoboda, B. et al. 1996, Debrunner, A. M. 1994]

wurde kontrolliert, ob eine Korrelation zwischen einer Signalintensität und der Diagnose Arthrose allein auf die unterschiedliche Altersverteilung innerhalb der Kollektive zurückzuführen ist. Korrelierte eine Signalintensität mit dem Alter, so wurde durch eine Ungleichverteilung des Alters in den verglichenen Gruppen auch eine Korrelation zwischen Signalintensität und Indikation vorgetäuscht. Mittels partieller Korrelation wurde der Störeinfluss herausgerechnet, so dass sich keine Korrelation mehr zwischen Zielparameter und Signalintensität ergab. Nur solche Signale, die in der partiellen Korrelationsanalyse weiterhin einen Zusammenhang mit den Zielparametern zeigten, wurden als Markerkandidaten gewertet.

Während bei der Berechnung der ROC-Integrale die Erkrankungsgrade I und II sowie III und IV zusammengefasst wurden, wurden bei der Korrelationsanalyse alle Erkrankungsstadien einzeln berücksichtigt. Auf diese Weise wurde kontrolliert, ob ein stetiger Anstieg bzw. eine stetige Abnahme mit jedem Schweregrad vorliegt und somit der Marker geeignet ist, auch in einem frühen Arthrosestadium die Erkrankung zu signalisieren.

Anhand der aufgeführten statistischen Parameter konnten aus der massenspektrometrischen Datenmatrix solche Signale bzw. Peptide selektiert werden, die eine große Unterscheidungskraft zwischen den Arthrosestadien aufweisen und für diese eine Rangfolge anhand des ROC-Integrals erstellt werden. Peptide mit hohem Integral der ROC-Kurven zeigten auch mit den anderen Analyseverfahren die höchste Signifikanz. Dies bestätigt die Aussagekraft der statistischen Einzelwerte.

Die Datenanalyse wurde durch visuelle Kontrolle der Peptide in Korrelations- und Differenzkarte bestätigt. Mittels Regressionsanalyse wurde eine prädiktive Schätzung des Arthrosegrades anhand der Signalintensität eines Peptides durchgeführt. Dies simuliert den klinischen Alltag, in dem anhand einer Markerkonzentration der Erkrankungsgrad bestimmt wird. Dabei waren die Ergebnisse für die Kandidaten S1 und S2 gemessen in Synovia mit einer richtigen Zuordnungsquote von etwa 80 % bei Einzelmessung und mehr als 95 % bei kombinierter Messung sehr vielversprechend. Der prädiktive Wert eines positiven Testergebnisses erreichte mit 87,5 % bei kombinierter Messung beider Kandidaten einen

ähnlich guten Wert, der prädiktive Wert eines negativen Testergebnisses schnitt mit 72 % schlechter ab und lag im Bereich der Werte für die NPV der Einzelmessungen. Der PPV von Kandidat S1 war mit 81,3 % dem von Kandidat S2 (68,2 %) deutlich überlegen. Prädikative Werte beschreiben die Sicht des Arztes, der damit die Relevanz des Testergebnisses einschätzen kann. Allerdings übertraf die Sensitivität von Kandidat S2 den Wert der kombinierten Messung (71,4 % versus 66,7 %). Zu beachten ist, dass der Kellgren und Lawrence-Score einer ordinären bzw. numerischen Skala folgt, während die Intensitätsmessung des Markers kontinuierlich ist. Die Beurteilung des Röntgenfotos kann deshalb zu gewissen Verzerrungen führen, wenn der Befund zwischen zwei Stadien liegt.

Durch die multiple Korrelation wurde gezeigt, dass die kombinierte Messung mehrerer Marker der Messung eines einzelnen Peptids überlegen ist. Dies bestätigt die Erwartung, dass die biochemische Diagnostik von Arthrose anhand eines Markerpanels statt eines einzelnen Laborparameters erfolgreich sein wird. Aufgrund der beschriebenen Nachteile von Plasma gegenüber Synovia als Probenmaterial wurde bezweifelt, dass überhaupt jemals ein Marker im Blut zur Diagnostik von Arthrose eingesetzt werden kann [Brandt, K.D. 1989]. In der vorliegenden Arbeit war Kandidat S1 auch unter den Topkandidaten im Blut zu finden, wenn auch mit geringerer Signifikanz. Die verbesserten statistischen Parameter bei Kombination von mehreren Markern lassen hoffen, dass auch im Plasma zuverlässige Bestimmungen möglich sein werden. Ein Vorbild für den Einsatz biochemischer Marker von Gelenkerkrankungen ist die Osteoporosediagnostik: Hierbei werden Marker des Knochenmetabolismus (z. B. die Alkalische Phosphatase und ihr knochenspezifisches Isoenzym sowie Osteocalcin und Hydroxyprolin) bereits als zusätzliche Parameter in der Diagnostik und als sekundäre Endpunkte für pharmakologische Studien eingesetzt [Delmas, P.D. et al. 2000]. Auch hier wird durch Kombination mehrerer Marker, z. B. Vitamin K und Alkalische Phosphatase oder Vitamin K und Pyridin die höchste Sensitivität erreicht [Heiss, C. et al 2004].

Ein „guter“ Biomarker zeichnet sich durch eine hohe Krankheitsspezifität aus, spiegelt die aktuelle Krankheitsprogression wider, reagiert auf therapeutische Interventionen und kann den Krankheitsverlauf voraussagen [Lamers, R.J. et al. 2005]. Da kein Biomarker alle Kriterien erfüllen wird, sind die Fortschritte im Bereich Metabolics das Werkzeug, um geeignete Markerkombinationen zu identifizieren. Da es sich um eine Pilotstudie handelte, lagen bei Planung der Messreihen noch keine Kenntnisse zur inneren Struktur der Daten vor,

so dass a priori keine Fallzahlschätzung durchgeführt werden konnte. Die Berechnung der Fallzahl anhand der erhaltenen Signaldifferenzen, wie es zur Planung einer Folgestudie nötig ist, ergab eine Populationsgröße von 39 (S1) und 45 Patienten (S2). Die bereits gut gewählte Populationsgröße (41 Synoviamessungen) untermauert zusätzlich die statistische Signifikanz.

Trotzdem sollte eine Bestätigung der Ergebnisse in einer Folgestudie mit anderer Technik, z. B. ELISA, stattfinden. Dies nicht zuletzt, um der Kritik an den Screeningmethoden [Victor, A. et al. 2005], dass man bei so vielen registrierten Signalen viele falsch positive findet, entgegenzutreten. Ein wichtiger Punkt in diesem Zusammenhang ist sicher auch die innerhalb einer Patientengruppe große Variabilität der Stoffkonzentrationen. Hinzukommt eine methodenbedingte Intrasample-Variabilität von 30 %. Durch Verwendung verschiedener statistischer Verfahren sind dennoch valide Ergebnisse zu erreichen. Die Tatsache, dass Peptid S1 sowohl in Synovia als auch im Blutplasma als Markerkandidat gewertet wurde und die guten Resultate der kombinierten Markermessung bei der multiplen Korrelationsanalyse rechtfertigten eine weitere Evaluierung des Kandidaten, auch wenn nach Korrektur des p-Wertes formal keine Signifikanz mehr vorlag. Die hierbei angewandte Bonferroni-Methode ist ein sehr grobes und konservatives Vorgehen, das bei hoher Anzahl der Vergleiche dazu führt, dass das Signifikanzniveau α sehr klein wird und damit nur hochsignifikante Ergebnisse zur Ablehnung der Nullhypothese führen. Somit kann es zu einer Verkennung signifikanter Resultate kommen.