• Keine Ergebnisse gefunden

Auslösen von Aktionen

Eine Theorie der Interessantheit für die Entdeckung von Wissen in Datenbanken

Definition 3.2 Die Funktion

4.3 Auslösen von Aktionen

Unterschiedliche Konstellationen der Facettenbewertungen lösen verschiedene Aktionen aus. Dies sind zum einen Vorschläge an den Benutzer und zum anderen Aktionen, die das weitere Vorgehen des Systems beeinflussen.

Beispiel 4.3

Bei Aussagen, die einen sehr niedrigen Allgemeingültigkeitswert aufweisen, ansonsten je-doch hohe Interessantheitswerte erhalten haben, empfiehlt das System, die Hypothesen in einem größeren Patientinnenkollektiv zu überprüfen. Sehr unerwartete Aussagen triggern die folgenden Aktionen: Zunächst schlägt das System dem Benutzer vor, die Korrektheit der Daten zu überprüfen. Nach dem Ausschluß dieser möglichen Ursache suchen Benutzer und System nach möglichen Erklärungen des Phänomens. Diese Phase endet mit einer etwai-gen Revision der bisherietwai-gen Überzeugunetwai-gen. Hohe Auffälligkeit weist auf potentielle Ein-flußfaktoren hin. Dieses Wissen kann - nach entsprechender Konsolidierung - nützlich in der medizinischen Praxis - bei Beratung oder Therapie - sein. Während subjektiv relevante Er-gebnisse - bezüglich des aktuellen Interessenfokus - auch bei sonstiger Uninteressantheit zwingend in die Dokumentation der Arbeit einfließen, sollten objektiv relevante und auch sonst interessante Ergebnisse zumindest weiter beobachtet werden. Mangelnde Aktualität bei sonstiger Interessantheit kann darauf hinweisen, wieder auf bereits aufgegebene Be-handlungsmethoden zurückzugreifen oder alternative zu berücksichtigen.

5 Der Knowledge Discovery Assistant

Ausgehend von den beschriebenen Vorarbeiten haben wir den Knowledge Discovery Assi-stant entwickelt, der einen Beitrag dazu liefert, den Schritt vom Data-Mining-Level zum Knowledge-Discovery-Level zu vollziehen. Ergebnisse von Data-Mining-Methoden werden bezüglich ihrer Interessantheit bewertet, gefiltert und sortiert sowie in eine für den Benutzer verständliche Sprache übersetzt. Unser Prototyp besteht aus einem Parser für die Ergeb-nisse von Data-Mining-Methoden, einer Interessantheitskomponente - zusammengesetzt aus einzelnen Facetten und einem Integrator -, einer Wissensbasis mit dem Wissen über Domäne und Benutzer sowie einer Dokumentationskomponente. Diese generiert aus den bewerteten Aussagen eine strukturierte Dokumentation in HTML zusammen mit Erklärun-gen.

6 Evaluierung

Nachdem wir eine Vielzahl von Interessantheitsfacetten explorativ akquiriert haben, soll in der Evaluierungsphase ermittelt werden, welche Facetten zusammen mit welcher Art der Integration die Interessantheitsbewertung von Benutzern tatsächlich erklären. Zu diesem Zweck haben wir Bewertungen des Systems ls mit denen von Benutzern lu verglichen. Da-bei sind die Parametereinstellungen des Interessantheitsmaßes (z. B. Anzahl der Facetten, Selektion der Facetten, Gewichte der Facetten) variiert worden. Das Ziel besteht darin, Pa-rameterkonstellationen zu finden, die starke Korrelationen zwischen ls und lu mit möglichst

geringem Bewertungsaufwand bewirken. Erste Hypothesen bezüglich der Interessantheits-bewertung von Benutzern werden aufgestellt.

Wir haben zwei Ärzten in unterschiedlichen Kliniken 29 Aussagen, die von EXPLORA gefun-den worgefun-den sind, zur Bewertung (Werte 0: sehr uninteressant, 0.25, 0.5, 0.75, 1: sehr inter-essant) vorgelegt. Die Facetten, die zur Bewertung durch das System beigetragen haben, sind in der Tabelle 1 im Anhang mit einem Stern (*) markiert. Bei Anwendung mehrerer Fa-cetten hat eine gewichtete Summe als Integrationsfunktion gedient.

In den Scatterplots (Abb. 2 - 4) sind die Bewertungen des Systems auf der Abszisse gegen diejenigen des Experten auf der Ordinate aufgetragen.

Die Interpretation der Diagramme hat zu sechs Hypothesen geführt. Viele Aussagen sind von den Experten A und B - zum Teil sogar stark - unterschiedlich bewertet worden (Hypo-these 1: Die Interessantheitsbewertung ist subjektiv.). Im Laufe des Bewertungsvorganges haben die Experten zum Teil bisherige Bewertungen aufgrund neuer Aussagen revidiert (Hypothese 2: Die Interessantheitsbewertung ist dynamisch.). Die Aussagen sind nicht nur mit einem der fünf möglichen Interessantheitswerte belegt, sondern auch sortiert worden (Hypothese 3: Interessantheitsmaße sind kontinuierlich.). Bei alleiniger Anwendung der ob-jektiven Facette „Auffälligkeit" stellt man keine Korrelation zwischen ls und lu fest (Siehe Abb. 2) (Hypothese 4: Die alleinige Anwendung objektiver Facetten ist nicht ausreichend.).

Die Anwendung der Facette „Unerwartetheit" - in Kombination mit anderen Facetten oder allein - führt zu befriedigenden Ergebnissen (Siehe Abb. 4, 5) (Hypothese 5: Die Facette „Un-erwartetheit" spielt eine wichtige Rolle.). Bei Integration einer Vielzahl von Facetten (Siehe Abb. 3, 4) erreicht man eine stärkere Korrelation zwischen System- und Benutzerbewertun-gen als bei alleiniger Anwendung einer objektiven Facette wie „Auffälligkeit" (Siehe Abb. 2).

Die besten Ergebnisse haben wir jedoch mit der alleinigen Anwendung der Facette „Uner-wartetheit" erzielt. Die Problematik einer adäquaten Integration wird dadurch verschärft, daß in Experteninterviews kein explizites Wissen über die Integration mehrerer Facetten akqui-riert werden konnte (Hypothese 6: Es existieren mehrere gleich „gute" Sortierungen, die durch unterschiedliche Integrationen der Facetten entstehen.).

Q . OJ

o

atingsigness restinmter

1.25

interestingness ratings ol ttie System

Abb. 2: Facette „Auffälligkeit"

m 1 25 275 325 .375 .425 .475 .525 .575

interestingness ratings of the System

Abb. 3: Alle Facetten außer „Unerwartetheit"

a. .275 .325 .375 .425 .475 .525 .575

i n t e r e s t i n g n e s s r a t i n g s of t h e System

Abb. 4: Alle Facetten

0.0

i n t e r e s t i n g n e s s ratings of the System

Abb. 5: Facette „Unerwartetheit"

7 Zusammenfassung und Ausblick

Wir haben gezeigt, daß Interessantheit bei intensivem Wissenserwerb heuristisch operatio-nalisierbar ist. Zukünftige Studien in unterschiedlichen Domänen mit verschiedenen Data-Mining-Methoden sollen zeigen, welche der in der Bibliothek explorativ eingesammelten In-teressantheitsfacetten zusammen mit welcher Art der Integration tatsächlich die Interes-santheitsbewertung der Benutzer erklären.

Literatur [Fayyad96]

Fayyad, U. M.; Piatetsky-Shapiro, G.; Smyth, P.: From Data Mining to Knowledge Disco-very: An Overview, in Fayyad, U. M.; Piatetsky-Shapiro, G.; Smyth, P.; Uthurusamy, R.

(Hrsg.): Advances in Knowledge Discovery and Data Mining, AAAI Press, Menlo Park, California, 1996, S. 1-34.

[Gebhardt94]

Gebhardt, F.: Discovering interesting Statements from a database, Applied Stochastic Models and Data Analysis, Bd. 10, Nr. 1,1994, S. 1 -14.

[Klösgen96]

Klösgen, W.: EXPLORA: A Multipattern and Multistrategy Discovery Assistant, in Fayyad, U. M.; Piatetsky-Shapiro, G.; Smyth, P.; Uthurusamy, R. (Hrsg.j: Advances in Knowledge Discovery and Data Mining, AAAI Press, Menlo Park, California, 1996, S.

249-271.

[Major93]

Major, J. A.; Mangano, J. J.: Selectingamong Rules Induced froma Hurricane Database, in Piatetsky-Shapiro, G. (HrsgJ: Knowledge Discovery in Databases, Papers from the 1993AAAI Workshop, American Association for Artificial Intelligence, AAAI Press, Menlo Park, California, 1993, S. 28-44.

[Piatetsky-Shapiro94]

Piatetsky-Shapiro, G.; Matheus, C. J.: The Interestingness of Deviations, in Knowledge Discovery in Databases, Papers from the 1994 AAAI Workshop, American Association for Artificial Intelligence, AAAI Press, Menlo Park, California, 1994, S. 25-36.

[Silberschatz95]

Silberschatz, A.; Tuzhilin, A.; On Subjective Measures of Interestingness in Knowledge Discovery, in Fayyad, U. M.; Uthurusamy, R. (Hrsg J : First International Conference on Knowledge Discovery & Data Mining, American Association for Artificial Intelligence, AAAI Press, Menlo Park, California, 1995, S. 275-281.

Anhang