• Keine Ergebnisse gefunden

Mögliches Ergebnis einer Subgruppen-Analyse

N/A
N/A
Protected

Academic year: 2022

Aktie "Mögliches Ergebnis einer Subgruppen-Analyse"

Copied!
19
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Subgruppen-Analyse beim DataMining Frank Puppe 1

Subgruppen-Analyse

Def.: Die Beziehung zwischen unabhängigen (erklärenden) Variablen und einer abhängigen (Ziel-)Variable unterscheidet sich in Subgruppen vom allgemeinen Zusammenhangin Fallsammlungen.

¾Subgruppen beschreiben lokale, interessante Abweichungen.

¾Nur partielle Relationen zwischen abhängiger und unabhängigen Variablen.

Beispiele:

Die Arbeitslosenrate ist überproportional hoch für junge Männer mit niedrigem Bildungsgrad.

Junge arme Frauen haben viel häufiger AIDS als junge arme Männer.

Die Sterblichkeit bei Lungenkrebs ist bei Frauen in den letzten 10 Jahren stark gestiegen.

Alleinstehende junge Männer in ländlichen Regionen sind relativ selten Kunden bei einer Lebensversicherung.

Verheiratete Männer mit einem PKW der Luxusklasse machen 2% der

Kunden aus, erzeugen aber 14% der Lebensversicherungsabschlusssumme.

Mögliches Ergebnis einer Subgruppen-Analyse

Kästchen:

• Breite: Subgruppengröße

• Helligkeit: Qualität Pfeile:

Analyse von Unfallstatistiken

male 18-25 single foreig

ners

male & single

65+

18-25 & single male & foreigner male & 18-25 alle erfassten Unfälle

(2)

Subgruppen-Analyse beim DataMining Frank Puppe 3

Anwendungsspektrum und Motivation

Subgruppen finden sich in Verkaufszahlen, Verbreitung von Gütern, Medizinischen Daten, Zustand der Umwelt, usw.:

Subgruppen repräsentieren Abweichungen von der Norm

Abweichung sind häufig nicht bloße statistische Schwankungen, sondern haben lokale Ursachen

Analyse dieser Ursachen fördert Verständnis über Gesamtprozess

Grundlage für gezielte Aktionen zur Vermeidung von Schwächen bzw. Ausbau von Stärken

Praktische Bedeutung

Die Ergebnisse sind leicht operationalisierbar

Argumentation leicht visualisierbar & nachvollziehbar

lokale Zusammenhänge lassen sich einfacher entdecken und validieren als globale Aussagen

praktische Umsetzung erfordert keine technische Infrastruktur

Systematische Suche nach Subgruppen in Daten hat in letzter Zeit stark an Bedeutung gewonnen

(3)

Subgruppen-Analyse beim DataMining Frank Puppe 5

Formale Beschreibung der Subgruppen-Analyse

Beschreibungssprache: definiert, welche Art von Subgruppen überhaupt gefunden werden kann. Daraus ergibt sich auch die Größe des Suchraums.

Abhängige Variable (Zielkonzept): binär, nominal, ordinal, kontinuierlich

Unabhängige Variablen:

• Meist Konjunktion von Aussagen, z.B. A1=W1 A2=W2

• Negation bei Werten

• Disjunktion bei Werten bzw. Intervalle (ggf. mit Generalisierungshierarchie)

• (Disjunktionen bei Attributen; sehr aufwändig)

Qualitätsfunktion: bewertet Qualität bzw. Interessantheit gefundener Subgruppen (nächste Folie)

Suchmethode: kritisch, da exponentieller Suchraum (s.u.)

Interessantheit von Mustern

Kennzeichen interessanter Muster:

1. für Menschen einfach verständlich

2. auf neue Daten mit gewisser Wahrscheinlichkeit übertragbar 3. potentiell nützlich

4. neu

Operationalisierung:

Confidence: Sicherheit & Abweichungsgrad des Musters (2, 3)

Support: Häufigkeit des Musters (2, 3)

Einfachheit: Komplexitätsmaß für Muster (1, 2)

Nicht-Herleitbarkeit (3, 4)

• mit Hintergrundwissen / Allgemeinwissen

• Redundanzvermeidung unter gefundenen Mustern Explizite Beschränkung mit Constraints (1, 3, 4)

(4)

Subgruppen-Analyse beim DataMining Frank Puppe 7

Algorithmen für Subgruppen-Analyse

vollständige Suche (mit Einschränkungen)

Transfer von DataMining-Algorithmen

Datawarehouse-Operationen: Berechnung von Indikatoren für überraschende Werte pro Zelle auf verschiedenen

Abstraktionsebenen

• Problem: nur im Datawarehouse vordefiniere Subgruppen auffindbar Assoziationsregellernen

• Problem: Betonung von support statt confidencs Entscheidungsbaum- und Regellernen

• Problem: disjunktive Abdeckung des Zielkonzeptes

Spezielle Algorithmen für Subgruppen-Analyse

Kombination mit Clustering

Subgruppenlernen in speziellen Situationen

Vollständige Suche

Iterative Tiefensuche

Einschränkung mit Constraints (s.u.; z.B. entspricht Anzahl der Konjunktionen der Suchtiefe)

in kleineren Domänen durchaus attraktiv

(5)

Subgruppen-Analyse beim DataMining Frank Puppe 9

Einschränkung des Suchraums für Subgruppen

Beschränkung der zu untersuchenden Fallmenge

Beschränkung der Ausdrucksmächtigkeit in Zielausdruck

z.B. Anzahl der Konjunktionen

Beschränkung der Kandidaten für unabhängige Variablen

Positivliste

Negativliste (z.B. basierend auf Relevanzanalyse)

Beschränkung der Kandidaten für abhängige Variable

Beschränkungen der Wertebereiche für Attribute:

normal / abnorm (z.B. in diagnostischen Domänen)

Generalisierungshierarchie

Intervalle bei numerischen Attributen

Transfer von Techniken für Subgruppen-Analyse

Die meisten Lernverfahren basieren auf effizienten Greedy bzw.

Hill-Climbing-Algorithmen im Gegensatz zu systematischen Suchverfahren.

Transfer auf Subgruppen: Schrittweise Verfeinerung von Subgruppen, um Signifikanz zu erhöhen.

Beispiel: Wenn Alter, Bildungsgrad und Region wichtige

Faktoren bei der Analyse der Arbeitslosigkeit sind, dann ist zu erwarten, dass deren Kombination besonders signifikant ist (vgl.

Algorithmus zur Konzeptbeschreibung)

Verallgemeinerung: Algorithmus wie beim Lernen von Assoziationsregeln: Starte mit signifikanten Einer-Menge,

Verfeinerung zu Zweier-Mengen usw., solange sich Signifikanz verbessern lässt.

Qualitätskriterium: Mischung aus Confidence und Support

Aber: Im Gegensatz zum Lernen von Assoziationsregeln keine Monotonie-Eigenschaft

(6)

Subgruppen-Analyse beim DataMining Frank Puppe 11

Spezielle Suchtechniken

Suchstrategie

Vollständige Suche mit Beschränkungen (s.o.)

Verwendung von bekannten Data-Mining-Strategien für Subgruppen-Analyse (s.o.)

aufteilende und verallgemeinernde Suchverfahren

modifiziertes Beam-Search mit Besten-Suche und Clustering ähnlicher Subgruppen

Mehrstufige Suche

Zunächst Suche nach Einflussfaktoren, dann Kombination

™ Relevanzanalyse / Nutzung von Hintergrundwissen

Qualitätsfunktion

Ausführlicher Test

Schnell-Evaluationstests

Qualitätsfunktion

Wird beeinflusst durch:

Größe der Subgruppe (n) bzw. der Population (N)

Wahrscheinlichkeit des Zielkonzepts im allgemeinen (p0)

Verhältnis von p0 zur Wahrscheinlichkeit der Subgruppe (p)

Mögliche Qualitätsfunktionen:

[(p – p0) / √(p0 (1- p0))] * [√n * √(N / (N-n))] bzw. z-Test

(p – p0) * n / N

Chi-Quadrat- bzw. Kontigenztest

Informationsgewinn der Subgruppe nach Entropieformel

TruePositive / (FalsePositive + g) [Gamberger & Lavrac] (g = Gewichtungsparameter) = p / (1 – p + g/n)

Ggf. Abwertung für hohe Komplexität

Herleitbarkeit bzw. Ähnlichkeit zu bekanntem Wissen prüfen

(7)

Subgruppen-Analyse beim DataMining Frank Puppe 13

aufteilende & verallgemeinernde Suchverfahren

Aufteilende Suchverfahren (wie beim Entscheidungs-

baumlernen) vermeiden auch das Verfolgen vieler ähnlicher Subgruppen, aber sind zu "greedy"

Verallgemeinernde Suchverfahren (patient strategies, z.B.

PRIM) starten mit speziellen Beispielen bzw. Regionen und verallgemeinern diese durch schrittweises Eliminieren

(peeling) von Attributen.

Bessere Ergebnisse als bei aufteilenden Suchverfahren

höhere Rechenzeiten

Standard: Modifiziertes Beamsearch

Basisalgorithmus: allgemein → speziell (ähnlich wie Apriori-A.)

Initialisiere Eltern als häufige k-elementige Mengen (z.B. k=1)

Solange, bis max. Tiefe oder keine signifikante Verbesserung erreicht wurde, tue:

• Verfeinere sie zu (k+1)-elementigen Mengen (Kinder) durch:

– Hinzunahme eines Selektors (Attribut-Wert-Kombination)

– Verfeinerung eines Wert in einer Taxonomie (bzw. Disjunktion)

• Wähle aus allen generierten Subgruppen die besten aus (mit Qualitätsfunktion)

• Clustere ähnliche Subgruppen

• Wähle aus jedem Cluster die besten Subgruppen als neue Eltern

Clustering-Schritt vermeidet die Verfeinerung vieler ähnlicher Subgruppen

Parameter zur Größe des "Beams" einstellbar

(8)

Subgruppen-Analyse beim DataMining Frank Puppe 15

Redundanz-Management für Subgruppen

Überlappungsmaß für 2 Subgruppen: Durchschnitt / Vereinigung

Ziele und Ansätze des Redundanz-Managements:

Selektion relevanter Subgruppen, d.h. signifikanter, disjunk- ter Subgruppen mit möglichst hohem Abdeckungsgrad

• Ansatz: Wenn eine Subgruppe gefunden wurde, werden die überdeckten Objekte abgewertet, so dass die nächstbeste Subgruppe möglichst andere Objekte überdeckt.

Selektion kausaler Subgruppen

Unterdrückungsansatz:eine bekannte Subgruppe kann die Abhän- gigkeit einer zweiten Subgruppe von der Zielgruppe vorhersagen

Probleme:

– zufällige Korrelationen wegen großen Suchraumes

– Verborgene Variablen, von denen verschiedene Subgruppen kausal abhängen

¾Interaktiver Ansatz zur Korrektur vorgeschlagener Kausalitäten

Probleme und Lösungsansätze

Interessante Kombination uninteressanter Einzelfaktoren

Viele schwache bzw. abhängige Variablen

Mangelnde Ausdrucksstärke von Konjunktionen

Effektive Nutzung von Hintergrundwissen

(9)

Subgruppen-Analyse beim DataMining Frank Puppe 17

Kombinatorisches Problem für Subgruppensuche

Interessante Kombination von uninteressanten Einzelfaktoren

wenn z.B. Faktoren sich gegenseitig beeinflussen

Beispiel:

¾

P (D1/A) = P(D1/B) = P(D1/C) = 0,5 = "mäßig" (einschl. Umkehrung)

¾

P (D1/A,B,C) = 1 = "hochsignifikant"

™

Bestensuche würde die Subgruppe (A,B,C) für D1 nicht finden!

X X

X E

X X

D X

X X

X C X

X X

X B X

X X

X A X

D1 D1

D2 D1

D4 D3

D2 D1

Lösungsansatz: Cluster-Verfahren

Generiere Cluster mit Standardverfahren und suche darin Subgruppen:

Allgemeine Clusteranalyse

Eingeschränkte Clusteranalyse bezogen auf ein Zielkonzept

Beispiel: für D1 würden 2 Cluster gefunden: (A,B,C) & (D,E)

(10)

Subgruppen-Analyse beim DataMining Frank Puppe 19

Umgang mit vielen schwachen Variablen

Problem:

Wenn es wenige starke und viele schwache Variablen gibt, die ein Zielkonzept beeinflussen, bleiben die schwachen eher unberücksichtigt.

Das Problem verschärft sich noch, wenn die schwachen Variablen auch untereinander korrelieren.

Lösungsansatz:

Zusammenfassung vieler schwacher bzw. korrelierender unabhängiger Variablen (z.B. "Bildungsstand" aus

Schulabschluss, Ausbildung, Sprachfähigkeiten usw.)

Aggregation "ähnlicher" Variablen (Benennung wichtig!)

¾impliziert mehrstufige Suche

¾Zusatzwissen über "Ähnlichkeiten" erforderlich

Ausdruckstärke und Komplexität

Problem:

Subgruppen werden meist mit logischen Konnektoren beschrieben (und, oder, Negation, z.B. in disjunktiver Normalform wie A & B & C oder D & E).

umständlich bei vielen schwachen Faktoren, von denen nicht alle zutreffen müssen (z.B. 7 von 10 Faktoren)

Faktoren können noch unterschiedlich gewichtet sein

Lösungsansatz:

Nutzung von "Scores" (z.B. in Medizin weit verbreitet)

Jeder Faktor trägt mit einfacher Punktzahl zum Gesamtkonto (Score) bei, Bewertung des Score mit Schwellwerten.

Beispiel: Risikofaktoren für Arterienverkalkung (Cholesterin, Bewegungsmangel, Übergewicht, Rauchen, Alter usw.)

(11)

Subgruppen-Analyse beim DataMining Frank Puppe 21

Hintergrundwissen

Arten von Hintergrundwissen:

1. Einschränkungen des Suchraums (s.o)

2. Bekannte Confounding Factors (z.B. Alter, Geschlecht, …) 3. Bekannte Beziehungen zwischen Zielkonzept und

unabhängigen Variablen (z.B. zwischen Einkommen und Versicherungsprämie)

4. Bekannte Korrelationen zwischen unabhängigen Variablen 5. Ausschluss möglicher Beziehungen zwischen Zielkonzept

und unabhängigen Variablen (z.B. Namen, IDs usw.) 6. Bewertung von Interessantheit

Nutzung von Hintergrundwissen

Effizienzsteigerung (1,3,5,6)

Qualitätssteigerung (2,3,4,6)

Validierung (3)

interaktive Analyse und Visualisierung

Visualisierung der Ergebnisse der Subgruppen-Analyse

direkte Darstellungen

Attribut-orientierte Darstellung

Abhängigkeitsgraph

(12)

Subgruppen-Analyse beim DataMining Frank Puppe 23

Box: Verteilung CHD / ¬ CHD

grau: Verteilung in Subgruppe

gestrichtelt: CHD leer: ¬ CHD

Skala: 46,6% aller Patienten hat CHD

(Choronar heart disease)

Direkte Visualisierung von Subgruppen

Attritbutorientierte Visualisierung

(Gamberger et al.)

Vergleich zweier Konzepte (CHD und Gesund) entlang eines numerischen Attributes (Alter) mit Visualisierung einer oder mehrere Subgruppen (B1 und teilweise B2)

(13)

Subgruppen-Analyse beim DataMining Frank Puppe 25

Subgruppen gegen diskretes Attribut

Kästchen:

• Breite: Subgruppengröße

• Helligkeit: Qualität Pfeile:

Analyse von Unfallstatistiken

male 18-25 single forein

gers

male & single

65+

18-25 & single male & foreinger male & 18-25 alle erfassten Autounfälle

Visualisierung von Subgruppen-Abhängigkeiten

(14)

Subgruppen-Analyse beim DataMining Frank Puppe 27

Übersicht VIKAMINE

Tool zur automatischen & interaktiven Subgruppenanalyse

automatische Analyse:

Umfangreiche Vorverarbeitung der Daten (z.B. Aggregation von Symptomen und Wertebereichen)

Verschiedene Qualitätsfunktionen

Abhängigkeitsanalyse der Subgruppen-Zwischenergebnisse

Suchstrategie: Beamsearch mit aufteilenden und verallgemeinernden Suchverfahren

Interaktive Analyse

Zahlreiche Visualisierungen

Frei kombinierbar mit automatischer Analyse

Evaluiert mit SonoConsult-Datensammlung

ca. 5000 Sonographie-Fälle

72 Diagnosen; pro Fall ca. 5 ± 3

pro Fall 77 ± 21 Attribute (Symptome)

Start der automatischen Analyse Zielvariable: Leberzirrhose

(15)

Subgruppen-Analyse beim DataMining Frank Puppe 29

Ergebnisse der Beamsearch-Suche

Genauere Betrachtung einer Subgruppe

(16)

Subgruppen-Analyse beim DataMining Frank Puppe 31

Vergleich verschiedener Subgruppen

Start der interaktiven Analyse Zielvariable: Leberzirrhose

Verfeinerung der Startsubgruppe "Aszitis"

(17)

Subgruppen-Analyse beim DataMining Frank Puppe 33

Erweiterung der Subgruppe

Automatische Verfeinerungssuche der Subgruppe

(18)

Subgruppen-Analyse beim DataMining Frank Puppe 35

Abhängigkeitsanalyse der Subgruppe

Visualisierung verschiedener Subgruppen

(19)

Subgruppen-Analyse beim DataMining Frank Puppe 37

Zusammenfassung

Subgruppen-Analyse eines der wichtigsten Ziele des DataMining

Algorithmen:

Assoziationsregel-Algorithmen: wichtiger Spezialfall für häufige Subgruppen

Partionierungsalgorithmen nicht empfehlenswert, da zu "greedy"

"Standard": Beam-Search mit Erweiterung für ähnliche Subgruppen

Spezialprobleme (Cluster, Datenabstraktion, Scores, Hintergrundwissen)

Interaktive Vorgehensweisen

Interpretation

Identifikation kausaler Subgruppen

Validierung durch Visualisierung

Anwendung

Bisher in wenigen DataMining Tools explizit angeboten

Interesse stark zunehmend

Referenzen

ÄHNLICHE DOKUMENTE

Der Regierungsrat wird beauftragt, das Kosten-Nutzen-Verhältnis bei den Leistungserbringern im Suchtbereich unter den verschiedenen Produktegruppen kritisch zu überprüfen

Fazit: Das Herzinfarktrisiko ist ei- ner großen Kohortenstudie zufolge bis zu sechs Wochen nach Implanta- tion einer Hüftendoprothese deutlich erhöht, bei einem Kniegelenkersatz

Für die Expression von Bcl-2 zeigte sich in unseren Ergebnissen im Gesamtkollektiv, als auch in der Subgruppenanalyse der prä- und postmenopausalen Karzinome,

Der Post-hoc-Test zeigt, dass die Un- terschiede zwischen dem kombinierten Typ und der Kontrollgruppe sowie zwi- schen dem kombinierten Typ und dem vorwiegenden unaufmerksamen Typus

Da aber nicht nur in der vorliegenden Arbeit, sondern auch in zahlreichen weiteren Studien signifikante Unterschiede des Methylierungsstatus von E-Cadherin und HIC-1 bei

Zwei Veröffentlichungen untersuchten den kathetergestützten Ersatz einer chirurgisch eingesetzten degenerativen Bioprothese (Eggebrecht et al. 2012), eine

Suckfüll M: Perspectives on the pathophysiology and treatment of sudden idiopathic sensorineural hearing loss [Hörsturz – Erwägung zur Pathophysiologie und Therapie]..

Die Vorhersage für die abhängige Variable konnte durch Kenntnis der unabhängigen Variablen um 17 % verbessert werden. Lambda ist dann unbrauchbar, wenn die Verteilung der