• Keine Ergebnisse gefunden

4. Diskussion

4.2 Evaluation der Data Mining Applikationen

Im vorliegenden Projekt wurden zum Zwecke der Diagnoseunterstützung gesammelte Fragebogen mit gesicherter Diagnose durch Data Mining Verfahren ausgewertet. Die genannten Verfahren sind ursprünglich für die Analyse großer Datenmengen entwickelt worden125, können jedoch auch für kleinere Datensätze angewandt werden, deren komplexe Struktur (z.B. große Anzahl an Fragen mit mehreren Antwortmöglichkeiten in einem Fragebogen) eine computergestützte Auswertung notwendig machen77,138. Die Anwendung von Data Mining Verfahren auf einen verhältnismäßig kleinen Datensatz wurde bereits von Horowitz et al. erprobt.54 Diese werteten 132 beantwortete Fragebogen von Patienten mit der gesicherten Diagnose einer gastroösophagealen Refluxerkrankung (GERD) mithilfe von Data Mining Verfahren aus (siehe Kapitel 1.2).54

Im vorliegenden Projekt konnten 76 ausgefüllte Fragebogen mit gesicherter Diagnose gesammelt werden. Die diagnostische Sensitivität von 90% für die Diagnose ‚MPS’ im prospektiven Test zeigt, dass auch hier Data Mining Verfahren zur Diagnoseunterstützung auf einen verhältnismäßig kleinen Datensatz angewandt werden konnten.

Die Anwendung der Data Mining Verfahren konnte lediglich für die Diagnoseunterstützung der MPS mittels Elternfragebogen getestet werden (vgl. Kapitel 3.2.4). Gründe für den nicht ausreichenden Fragebogenrücklauf der Elternfragebogen in den Diagnosegruppen M. Fabry und M. Gaucher, sowie der entsprechenden Erwachsenenfragebogen, konnten nicht eruiert werden.

Eltern, die als Kontrollgruppe die Fragebogen ausfüllten, wurden durch persönliche Ansprache zur Teilnahme an dem Projekt motiviert. Die Auswahl der Kontrollteilnehmer erfolgte bewusst in Spezialambulanzen der Kinderklinik der MHH, denn es sollten keine Eltern klinisch gesunder Kinder in die Kontrollgruppe mit aufgenommen werden. Lediglich Eltern, deren Kinder eine passende Differentialdiagnose zu den Zielerkrankungen der Studie oder eine ähnliche Akutsymptomatik aufwiesen, wurden als Kontrollgruppe eingebunden (vgl. Kapitel 2.3.6). Eine Aufnahme gesunder Kontrollen in das Projekt hätte zu keinen aussagekräftigen Ergebnissen geführt. Es ist empirisch nachvollziehbar, dass die klinische Unterscheidung eines gesunden Menschen von einem chronisch Kranken keine diagnostische Herausforderung für

behandelnde Ärzte darstellt und damit auch Data Mining Verfahren exzellente Werte erzielen würden. Zu dieser Schlussfolgerung kommen ebenfalls Naydenova et al. am Ende ihres Projektes, dessen zentraler Punkt ein Data Mining basiertes Werkzeug zur Diagnoseunterstützung von Lungenentzündungen im Kindesalter ist.55 Die Sensitivität mit der ein junger Patient mit einer Lungenentzündung erkannt wird, liegt bei 98%.129 Die Kontrollgruppe dieser Studie bestand jedoch nur aus gesunden Patienten, weshalb sich der Nutzen eines auf diesen Daten aufgebauten Werkzeugs im klinischen Setting in Frage stellen lässt.

Horowitz et al. hingegen entwarfen ein fragebogenbasiertes Werkzeug, welches in der Lage ist, Patienten mit einer gastroösophagealen Refluxerkrankung (GERD) in einer Gruppe von Betroffenen mit gastrointestinalen Oberbauchbeschwerden zu finden.54 Die Kontrollgruppe besteht in deren Studie also nicht aus gesunden Menschen, sondern schließt – wie es auch im vorliegenden Projekt der Fall ist – Menschen mit zur Zielerkrankung ähnlichen Symptomen ein. Entsprechend der höheren diagnostischen Herausforderung liegt die Sensitivität des Werkzeugs von Horowitz et al. – je nach verwendetem Klassifikator – bei maximal 78%.54 Im hier vorliegenden Projekt können die ausgewählten Klassifikatoren die gesammelten Fragebogen nach der ‚k-fold Cross Validation’-Methode mit 91% der Diagnosegruppe ‚MPS‘

zuordnen. Das im Vergleich zu Horowitz et al. sensitivere Ergebnis kann unter anderem in der Verwendung des ‚Fusion’-Algorithmus begründet sein, der bei Horowitz et al. nicht zum Einsatz kam.54 Naydenova et al. sowie Maghooli et al. betonten bereits in ihren Arbeiten die Möglichkeit, dass der Gebrauch eines verfahrenkombinierenden Algorithmus die Ergebnisse einer Klassifikation optimieren könnte.55,56

Die Leistungsfähigkeit der Klassifikatoren im vorliegenden Projekt wurde anhand der 8-fach stratifizierten Kreuz-Validierung (vgl. Kapitel 2.4.1) ermittelt. Hierbei fanden sich zum Teil erhebliche Unterschiede in der Ergebnisqualität der eingesetzten Klassifikatoren.

Schwankungen und ein deutlich schlechteres Klassifikationsergebnis von 75% korrekter Ergebnisse wies die LD auf. Das solideste Ergebnis der einzelnen Klassifikatoren zeigten der SVM- und der RF-Klassifikator mit jeweils einem Wert für die richtig klassifizierten Diagnosen von 91% für die Diagnose ‚MPS’. Der ‚Random Forest’-Algorithmus erzielte im Projekt von Naydenova et al. ebenfalls die besten Ergebnisse.55

Der prospektive Test mit unbekannten Datensätzen ergab eine Sensitivität von 90% mit der ein Fragebogen einer korrekten Diagnose zugeordnet werden konnte. Der prospektive Test mit einem unbekannten Datensatz war nötig, damit die Leistung der Klassifikatoren nicht durch bereits bekannte Datensätze verfälscht bzw. in ihrer diagnostischen Effizienz zu gut eingestuft wurden. Die erheblichen Ergebnisunterschiede zwischen der Testung eines Systems mit bekannten und unbekannten Datensätzen wurden bereits durch Horowitz et al.

demonstriert.54 Hierbei ergaben sich Unterschiede in der Sensitivität des Verfahrens von 33%

zugunsten des Tests mit den dem System bereits bekannten Datensätzen.54

Im prospektiven Test wurden von dem hier erarbeiteten System zwei Fragebogen der falschen Diagnosegruppe zugeordnet. Ein Fragebogen mit der Diagnose ‚MPS IV’ wurde nicht als solcher erkannt. Die Begründung hierfür könnte unter anderem darin liegen, dass die bereits kleine Trainingsmenge (56 Fragebogen), die den Data Mining Verfahren zur Verfügung gestellt wurde, vorwiegend aus den Diagnoseangaben ‚MPS I–III’ sowie der Kontrollgruppe bestand.

In der Trainingsmenge befanden sich lediglich zwei Fragebogen mit der Diagnose ‚MPS IV’.

Durch das vorwiegende Training der Verfahren für die MPS I–III lässt sich auch die Signifikanz der Fragen ‚Haben Sie den Eindruck, dass Ihr Kind sich in manchen Bereichen langsamer entwickelt als andere Kinder (z.B. sprachliche Entwicklung, Bewegungsentwicklung, Gang zur Toilette etc.)?’ und ‚Trifft es zu, dass Sie viel Engagement aufbringen müssen, um die normale Entwicklung (z.B. Laufen, Treppen steigen, einfache Koordination, Sprache etc.) Ihres Kindes voran zu bringen?’ erklären. Bei der MPS I–III sind betroffene Kinder für gewöhnlich entwicklungsverzögert, wohingegen Kinder mit MPS IV und VI in der Regel keine kognitive Beeinträchtigung aufweisen.126,6 Eltern mit einem von MPS IV betroffenem Kind geben demnach mit hoher Wahrscheinlichkeit an, dass sie bei ihrem Kind keine Entwicklungsverzögerung bemerken. Die Data Mining Verfahren ordnen dann das Antwortmuster mit geringerer Wahrscheinlichkeit der Diagnose ‚MPS’ zu, denn das System kennt vorwiegend Antwortmuster von Eltern deren Kinder an MPS I–III leiden.

Die höchste Signifikanz wies die Frage ‚Wurde bei Ihrem Kind eine vergrößerte Leber und/oder Milz festgestellt?‘ auf. Es ist zu beachten, dass für diese Frage nur die Antwortmöglichkeiten

‚ja’ oder ‚nein’ zur Verfügung standen. Es ist anzunehmen, dass hierdurch eine bessere Trennschärfe der Antworten erreicht werden konnte, was die Signifikanz der Frage gegebenenfalls erhöhte. Der fehlerhaft klassifizierte Fragebogen mit der Diagnose ‚MPS IV’

wies sowohl für die Entwicklungsverzögerung als auch für die Hepatosplenomegalie eine negative Antwort auf. Da jedoch die überwiegende Zahl der Teilnehmer mit der Diagnose

‚MPS’ im Training diese Fragen positiv beantwortet hat, ist es wahrscheinlich, dass der Fragebogen mit der Diagnose ‚MPS IV’ unter anderem aus diesen Gründen fehlerhaft klassifiziert wurde. Eine Ergebnisoptimierung könnte durch die Erweiterung des Trainingsdatensatzes einschließlich der Diagnose ‚MPS IV’ erreicht werden.

Ein zweiter Fragebogen mit der Diagnoseangabe ‚Multiple kartilaginäre Exostosen’ wurde vom System als Diagnose ‚MPS’ fehlerhaft klassifiziert. Dies kann beispielsweise darin begründet sein, dass die Beantwortung der Fragebogen unter anderem von der persönlichen und differenzierten Sichtweise der Befragten abhängt. Die Beantwortung von signifikanten Fragen wie ‚Haben Sie das Gefühl, dass Ihr Kind „anders“ ist als andere Kinder?’ und ‚Bedrückt Sie starke Ungewissheit bezüglich der Gesundheit Ihres Kindes?’ steht in engem Zusammenhang mit der individuellen Wahrnehmung des Beantwortenden. So kann es sein, dass Eltern deren Kinder an der Diagnose ‚Multiple kartilaginäre Exostosen’ leiden, ebenfalls der Meinung sind, dass ihre Kinder ‚anders’ als andere sind und unter der ‚Ungewissheit’, die diese Erkrankung mit sich bringt, leiden. Die Diagnose ‚Multiple kartilaginäre Exostosen’ gehört zu den seltenen Erkrankungen, weshalb es empirisch nachvollziehbar ist, dass sich die Wahrnehmungen der von dieser Krankheit betroffenen Familien durchaus mit der Wahrnehmung von Betroffenen mit einer LSD überschneiden können. Die vorliegende Fehlklassifikation zeigt die Grenzen des entwickelten Systems auf, wobei auch hier die Wahrscheinlichkeit auf eine Minimierung der Fehlklassifikationen durch eine Erweiterung des Trainingsdatensatzes besteht.