• Keine Ergebnisse gefunden

Archiv "Data Mining und Data Warehouse: Wissen aus medizinischen Datenbanken nutzen" (21.05.1999)

N/A
N/A
Protected

Academic year: 2022

Aktie "Archiv "Data Mining und Data Warehouse: Wissen aus medizinischen Datenbanken nutzen" (21.05.1999)"

Copied!
3
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

unehmend größere Mengen an Daten aus medizinischen Prozessen werden elektronisch erfaßt oder generiert. Bislang aller- dings stellen diese Datenbestände ei- ne wenig genutzte Ressource zur Ver- besserung der Patientenversorgung dar. Heute noch immer gebräuchliche Dogmen der medizinischen Erkennt- nisgewinnung stammen aus den An- fängen des ausgehenden Jahrhun- derts, als aktuelle Möglichkeiten der Datenverarbeitung unvorstellbar wa- ren. Neue Metho-

den der systemati- schen Nutzbarma- chung von empiri- schem Wissen sind gefragt.

Gleichzeitig erleben die USA eine „Managed Care“-Revolution im Gesundheitswe- sen. Ähnlich dra- matische ökono- misch-organisatori-

sche Veränderungen zeichnen sich in Europa und Deutschland ab. Umfang- reiches und qualitativ hochwertiges Datenmaterial zur Unterstützung für klinische, administrative und finanzi- elle Entscheidungen wird zum kompe- titiven Vorteil einer Einrichtung, gleichgültig ob Klinik oder Arztpraxis.

Mediziner sind zunehmend gezwun- gen, die Effizienz ihrer praktischen Arbeit durch die Verfügbarkeit von aktuellen, bislang noch völlig unzu- gänglichen Informationen zu steigern.

Der Aufbau von gewaltigen Daten- banken mit möglichst vollständigen Daten über die gesamte Lebenszeit al-

ler versicherten Patienten hat höchste Priorität bei den überwiegend profit- orientierten Betreibern der US-ameri- kanischen „Managed Care“ (1).

Nicht zuletzt aufgrund von die- sem Bedarf hat sich die Medizininfor- matik als expandierendes Fachgebiet etabliert. Sie kann sich einer exponen- tiell wachsenden Computerleistung und Speicherkapazität bedienen. Weit wichtiger noch sind Konzepte und methodische Lösungen für eine in- haltlich relevante Informationsverar- beitung. Ein aktu- eller Ansatz ist das „Data Min- ing“ und „Data Warehousing“ in Verbindung mit großen medizini- schen Datenban- ken.

„Data Min- ing“ wird defi- niert als „nicht-tri- viale Extraktion impliziter bislang unbekannter und potentiell nützlicher Information aus Daten“ (2). „Data Mining“ stützt sich auf Verfahren wie maschinelles Lernen, künstliche Intel- ligenz, explorative multivariate Stati- stik, graphische Visualisierung, neu- ronale und probabilistische Netz- werke. Damit wird versucht, Wissen zu entdecken und in einem Format zu präsentieren, welches leicht und um- fassend verständlich ist. In einer uni-

versellen Datenbank, dem „Data Warehouse“, soll sich der Nutzer ziel- strebig zurechtfinden und seinen Infor- mationsbedarf erschöpfend im „Da- ten-Supermarkt“ befriedigen können.

Paradigmenwechsel

Die wissenschaftliche Medizin hat möglicherweise das Ende des lan- ge gültigen experimentellen Dogmas erreicht. Der doppelblinde, randomi- siert kontrollierte Versuch, derzeit noch immer als „Goldstandard“ ange- sehen, hat bedeutende Schwächen:

1 Die Erforschung von seltenen Erkrankungen ist schwierig oder un- möglich. Studien können selten so groß angelegt werden, daß der Nach- weis von statistisch und medizinisch signifikanten Unterschieden gelingt (statistische „Power“).

1 Sehr große Studien von häufi- gen Erkrankungen können wiederum kleine therapeutische oder diagnosti- sche Unterschiede als statistisch signi- fikant nachweisen, welche keine me- dizinische Relevanz haben (siehe Me- dikamenten-Marketing).

1 Akademische Zentren haben eine selektierte Patientenpopulation.

Deren Versuchsergebnisse sind also nicht ohne weiteres auf die allgemeine Praxis übertragbar („Referral Bias“).

1 Kontrollen, zum Beispiel mit Plazebos, können in manchen Berei- chen ethisch problematisch sein.

1 Große, randomisiert kontrol- lierte Versuche sind extrem aufwen- dig und teuer. Wichtige Probleme werden schon deshalb nicht angegan- gen, weil der finanzielle, zeitliche und A-1336 (32) Deutsches Ärzteblatt 96,Heft 20, 21. Mai 1999

T H E M E N D E R Z E I T AUFSÄTZE

Data Mining und Data Warehouse

Wissen aus medizinischen Datenbanken nutzen

Die elektronische Speicherung von immer größeren Mengen medizinischer Daten ermöglicht die Verbesserung der

Patientenversorgung durch eine systematische Nutzbarmachung von empirischem Wissen.

Z

Dr. med. Ulrich Bothner, Research Fellow Dr. med. Frank W. Meissner, Consultant Car- diologist, Department of Medical Informatics, University of Utah

Ulrich Bothner

Frank William Meissner

(2)

administrative Aufwand gescheut wird, oder es werden überwiegend Fragestellungen bearbeitet, hinter de- nen ein kommerzieller Anreiz steckt (Industrie-Sponsoren).

1 Die Planung und Durch- führung von kontrollierten Versuchen bedingen eine strenge Einschränkung der Heterogenität der untersuchten Patientengruppe. Sogenannte Aus- schlußkriterien sollen Patienten mit der Reinform der betreffenden Er- krankung herausfiltern. Dieser Vor- gang ist wissenschaftlich erforderlich, um Unterschiede in den Ergebnissen tatsächlich der untersuchten Behand- lung und nicht eventuellen Störfakto- ren zuschreiben zu können. Gerade dieser Prozeß untergräbt jedoch die Möglichkeit, die Studienergebnisse auf eine natürliche, unselektierte Pati- entenpopulation zu verallgemeinern.

1 Kontrollierte Versuche unter- suchen den Durchschnitts-

patienten. Sie können kli- nisch wichtige Nuancen, wie die Schwere der Er- krankung, Komorbidität, psychosoziale Faktoren so- wie deren zeitliche Ent- wicklung, nicht berücksich- tigen, da die Fallgruppen sonst zu klein werden.

1 Die wissenschaftli- che Grundlage und die Notwendigkeit der breiten Anwendung des kontrol- lierten Versuchs stammen aus den 20er und 30er Jah- ren, als rechenintensive multivariate Statistik ent- weder unbekannt oder un- durchführbar war.

1 Medizinisches Wis- sen ist nicht statisch. Resul- tate langwieriger klinischer Studien sind oft schon bei deren Veröffentlichung

durch technologische Veränderungen in Diagnostik und Therapie veraltet.

Die zunehmende Anwendung um- fassender klinischer Datenbanken und eine universell zugängliche elektroni- sche Patientenakte können eine wissen- schaftliche Revolution und einen Para- digmenwechsel bewirken (3).

„Evidence Based Medicine“ ist ein lobenswerter Ansatz, um wissen- schaftlich fundierte medizinische Ent- scheidungen auf der Grundlage der

bestmöglichen Erkenntnis zu treffen (4). Tatsächlich sind jedoch für viele Probleme in der Praxis keine relevan- ten Daten verfügbar, da sich die Me- thodik ausschließlich auf kontrollierte Versuche und deren Meta-Analysen mit allen oben genannten Schwächen gründet (5).

Aus der Chaos-Theorie wird ver- mutet, daß die Wirklichkeit gleichzeitig einfacher und weniger vorhersagbar ist, als dies Modelle der klassischen Wis- senschaft annehmen (6). Demzufolge sind viele gebräuchlichen mathemati- schen Modelle und Methoden in der medizinischen Forschung eine schlech- te Annäherung an die chaotische Natur biologischer und sozialer Systeme.

Als potente und kosteneffektive Alternative bietet sich „Data Mining“

an. Der Erkenntnisgewinn kann direkt auf heterogene Populationen und all- tägliche medizinische Probleme ange-

wendet werden. Zum Beispiel können in bereits bestehenden Datenbestän- den aus klinischen und administrati- ven Vorgängen mit neuronalen Netz- werken schnell und einfach wertvolle Zusammenhänge entdeckt werden.

Zwar ist ein neuronales Netz zunächst eine „Black Box“ (7) und bietet kei- ne logische Erklärung. Prinzipiell ist dies jedoch der Vorteil der Methodik, da sie nur Muster identifiziert, die tatsächlich in der Realität existieren.

Im Gegensatz zu herkömmlichen sta- tistischen Verfahren mit ihren mögli- cherweise falschen Annahmen über das mathematische Verhalten von Po- pulationen sind diese Verfahren frei von Voraussetzungen und voreinge- nommenen Konstrukten.

„Data Warehousing“ und

„Data Mining“

In der Geschäftswelt (zum Bei- spiel Finanzen oder Marketing) wer- den seit langem große Datenbanken aufgebaut, die als „Data Warehouse“

bezeichnet werden. Im Gegensatz zu operationellen Datenbanken für den täglichen Betrieb der Informationssy- steme des Unternehmens („Online Transaction Processing“) findet im

„Data Warehouse“ keine konventio- nelle Datenverarbeitung statt. Das

„Data Warehouse“ ist viel- mehr ein Repositorium, in welchem die Datenbestän- de periodisch mit neuen oder veränderten Daten aus operationellen und exter- nen Datenbanken („Online Analytic Processing“) auf- gefrischt werden (8). Gra- fik 1 zeigt die prinzipielle Systemarchitektur.

Relevante Datenmen- gen werden aus dem „Data Warehouse“ extrahiert. Die Daten werden zunächst be- reinigt. Dies ist ein aufwen- diger, eher unspektakulärer Prozeß, der in der Regel 60 bis 80 Prozent der Zeit jedes

„Data Mining“-Projekts in Anspruch nimmt. „Garbage in, garbage out“ ist jedoch das ungeschriebene Gesetz beim „Data Mining“. Be- deutende Erkenntnis er- folgt deshalb nur nach einer umsichti- gen Präparation des Datenmaterials.

„Data Mining“ ist keine einheitli- che Methode; es benutzt vielmehr ei- ne Reihe von Werkzeugen. Neben den oben genannten sind zum Bei- spiel „Cluster“-Verfahren, Entschei- dungsbäume und genetische Algo- rithmen gebräuchlich. „Data Mining“

sollte am besten von Experten des je- weiligen Fachgebiets betrieben wer- den. Das ist besonders wichtig bei den A-1337 Deutsches Ärzteblatt 96,Heft 20, 21. Mai 1999 (33)

T H E M E N D E R Z E I T AUFSÄTZE

Grafik 1

(OLAP)

Routine-Informationssystem Entscheidungs-

unterstützung Externe

Datenquellen

Operationelle Datenbank

(OLTP) volatile Daten bzgl. Individuen

„„DDaattaa WWaarreehhoouussee““

historische Daten bzgl. Populationen

„„DDaattaa M Miinniinngg““

Daten- Integration

Systemarchitektur von „Data Mining“ in einem „Data Warehouse“ zur Unterstützung individueller und be- triebsweiter Entscheidungen. OLTP = „Online Transac- tion Processing“, OLAP = „Online Analytic Processing“

(3)

A-1338 (34) Deutsches Ärzteblatt 96,Heft 20, 21. Mai 1999

T H E M E N D E R Z E I T AUFSÄTZE

komplexen Zusammenhängen in der Medizin, da Wissen nur Sinn in einem angemessenen Kontext macht.

Als konkretes Beispiel für den praktischen Nutzen eines „Data Ware- house“ kann man sich die Beratungssi- tuation mit ei-

nem Patienten vor einer koro- naren Bypass- Operation vor- stellen. In einem hierarchischen Erkenntnismo- dell (Grafik 2) liegen vom Pati- enten auf der untersten Er- kenntnisebene die demografi- schen und ana- mnestischen Da- ten sowie physio- logische Werte

von Belastungstest und Koronaran- giographie vor. Die Interpretation von Belastungstest und Angiogramm durch einen Spezialisten macht diese bereits zur Information. Auf der Wissens- ebene werden seit über 25 Jahren auf- wendige, randomisierte klinische Ver- suche bezüglich operativer und medi- kamentöser Therapie der koronaren Herzkrankheit durchgeführt. Die In- dikationen und Ergebnisse der Koro- narchirurgie sind dementsprechend gut beschrieben und bekannt (9). Nun zeigt aber der Patient eventuell wenig Ähnlichkeit mit dem Durchschnitts- patienten aus klinischen Studien. Die

„National Database“ der Society of Thoracic Surgeons (401 North Michi- gan Avenue, Chicago, IL, USA 60611- 4267, Internet: http://www.sts.org) bie- tet Möglichkeiten, um das individuel- le Morbiditäts- und Mortalitätsrisiko während und nach Herzoperationen vorherzusagen. Anwendungssysteme für diese Datenbank benutzen soge- nannte Subset-Analysen mittels eines multivariaten statistischen Vorhersa- gemodells, um die Charakteristik des fraglichen Patienten mit allen Daten- bank-Patienten zu vergleichen und so zu einer präziseren Einschätzung des Risikos zu gelangen.

Geht man von der Vorstellung aus, daß alle klinischen Daten ge- bräuchlicher Operationen in einem er- schöpfend vollständigen und universell

zugänglichen „Data Warehouse“ abge- legt sind, könnte der Patient in diesem Szenarium gegenüber einer vollständi- gen Population einer ganzen Region oder sogar international verglichen werden. Jeder individuelle Patient kann in mehr- fachen Dimen- sionen mit ver- gleichbaren Pati- enten und deren Ergebnissen ab- gebildet werden („Case-based Reasoning“).

Durch die Nut- zung des „Data Warehouse“ ge- langt man auf die Wissensebe- ne der Erkennt- nishierarchie. Zu- sätzlich zum tra- ditionellen Wis- sen von konventionellen wissenschaft- lichen Methoden ist dies jedoch ein ku- mulativer empirischer Erfahrungs- schatz, welcher der tausendfachen Ar- beitserfahrung eines einzelnen Medizi- ners entspricht – vorausgesetzt, das Datenmuster ist detailliert genug.

Dieses Vorgehen ermöglicht schließlich dem betreffenden Patien- ten mehr Autonomie bei seiner Ent- scheidung, und die Risikoaufklärung ist weniger vom subjektiven Wissens- stand des beratenden Arztes abhän- gig. Unterzieht sich der Patient der Operation, so weiß er, daß seine Er- fahrungen explizit in diesen Wissens- schatz mit eingehen und die Entschei- dungen zukünftiger Patienten erleich- tern helfen.

Quintessenz

Primär ökonomische Kräfte treiben die Ansammlung von einem bislang noch nie dagewesenen Um- fang an elektronisch gespeicherten Daten im Gesundheitswesen. Durch die verantwortungsvolle Nutzung und Weiterverarbeitung dieser Da- ten werden für Patienten und Thera- peuten auch die Möglichkeiten verbessert, Entscheidungen auf der Grundlage von umfassendem em- pirischem Wissen zu fällen. Effi- zientere Entscheidungen führen zu

besseren Ergebnissen und zu nied- rigeren Kosten des Gesundheits- systems.

Es ist anzunehmen, daß potente Werkzeuge zur Erkenntnisgewin- nung nicht nur von profitorien- tierten Einrichtungen ergriffen wer- den, wie sie derzeit den US-ame- rikanischen Gesundheitsmarkt be- herrschen. Ein kostengünstiges und effizientes Gesundheitssystem muß in erster Linie den Patienten und Versicherten zugute kommen. Das medizinische „Data Warehouse“ ist ein entscheidendes Instrument der Entwicklung hin zu einem daten- und ergebnisorientierten Gesund- heitswesen.

Zitierweise dieses Beitrags:

Dt Ärztebl 1998; 95: A-1336–1338 [Heft 20]

Literatur

1. Borok LS: Data mining: sophisticated forms of managed care modeling through artifi- cial intelligence. J Health Care Finance 1997; 23: 20-36.

2. Anahory S, Murray D: Data warehousing in the real world. Reading, Massachusetts:

Addison-Wesley, 1997.

3. Kuhn TS: The structure of scientific revolu- tions. Chicago, Illinois: University of Chi- cago Press, 1970.

4. Evidence-based medicine working group:

Evidence-based medicine: a new approach to teaching the practice of medicine.

JAMA 1992; 268: 2420–2425.

5. Feinstein AR, Horwitz RI: Problems in the

„evidence“ of „evidence-based medicine“.

Am J Med 1997; 103: 529–535.

6. Devaney RL: A first course in chaotic dyna- mical systems. Reading, Massachusetts:

Addison-Wesley, 1992.

7. Kasabov NK: Foundations of neural net- works, fuzzy systems, and knowledge en- gineering. Cambridge, Massachusetts: The MIT Press, 1996.

8. Inmon WH, Welch JD, Glassey KL: Man- aging the data warehouse. New York: Wiley Computer Publishing, 1997.

9. Yusuf S, Zucker D, Peduzzi P et al.: Effect of coronary artery bypass graft surgery on survival: overview of 10-year results from randomised trials by the Coronary Artery Bypass Graft Surgery Trialists Collabora- tion. Lancet 1994; 344: 563–570.

Anschrift für die Verfasser Dr. med. Ulrich Bothner

Department of Medical Informatics University of Utah

School of Medicine, AB193 Salt Lake City, Utah 84132, USA E-Mail: ulrich.bothner@m.cc.utah.edu Universitätsklinik für

Anästhesiologie, Universität Ulm Steinhövelstraße 9, 89075 Ulm Grafik 2

Wissen

Informationen

Daten

Entscheidungs- unterstützung

Hierarchisches Erkenntnismodell, das den Beitrag der einzelnen Erkenntnisebenen zur Unterstüt- zung von Entscheidungen zeigt

Referenzen

ÄHNLICHE DOKUMENTE

Data Warehousing & OLAP – Wolf-Tilo Balke – Institut für Informationssysteme – TU Braunschweig

DW & DM – Wolf-Tilo Balke – Institut für Informationssysteme – TU Braunschweig 2.. Building

– Mining with multiple minimum supports – Mining class association rules. DW & DM – Wolf-Tilo Balke – Institut für Informationssysteme – TU

• With the systematic analysis of the trend, cyclic, seasonal, and irregular components, it is possible to make long- or short-term predictions (time- series forecasting)

Ziel: Analyse der Kunden oder Fälle Analyse der Kunden oder Fälle Typ: Typ: Klassifikation Klassifikation..

Fast alle der Unternehmen, bei denen Data Mining-Techniken angewandt werden, wollen in Zukunft diesen Einsatz noch erhöhen, und 87% dieser Unternehmen berichten über eine

– Data Mining innerhalb eines „ großen“ DW oder Data Mining innerhalb der vielen „ kleinen“ Data

Hat ein Unternehmen allerdings eine eher zentralistische Struktur und sind noch keine kleineren Data Mart Projekte begonnen worden, ist es nat¨urlich besser gleich mit einem