Mögliches Ergebnis einer Subgruppen-Analyse

(1)

Subgruppen-Analyse beim DataMining Frank Puppe 1

Subgruppen-Analyse

Def.: Die Beziehung zwischen unabhängigen (erklärenden) Variablen und einer abhängigen (Ziel-)Variable unterscheidet sich in Subgruppen vom allgemeinen Zusammenhangin Fallsammlungen.

¾Subgruppen beschreiben lokale, interessante Abweichungen.

¾Nur partielle Relationen zwischen abhängiger und unabhängigen Variablen.

Beispiele:

• Die Arbeitslosenrate ist überproportional hoch für junge Männer mit niedrigem Bildungsgrad.

• Junge arme Frauen haben viel häufiger AIDS als junge arme Männer.

• Die Sterblichkeit bei Lungenkrebs ist bei Frauen in den letzten 10 Jahren stark gestiegen.

• Alleinstehende junge Männer in ländlichen Regionen sind relativ selten Kunden bei einer Lebensversicherung.

• Verheiratete Männer mit einem PKW der Luxusklasse machen 2% der

Kunden aus, erzeugen aber 14% der Lebensversicherungsabschlusssumme.

Mögliches Ergebnis einer Subgruppen-Analyse

Kästchen:

• Breite: Subgruppengröße

• Helligkeit: Qualität Pfeile:

Analyse von Unfallstatistiken

male 18-25 single foreig

ners

male & single

65+

18-25 & single male & foreigner male & 18-25 alle erfassten Unfälle

(2)

Anwendungsspektrum und Motivation

•

Subgruppen finden sich in Verkaufszahlen, Verbreitung von Gütern, Medizinischen Daten, Zustand der Umwelt, usw.:

–Subgruppen repräsentieren Abweichungen von der Norm

–Abweichung sind häufig nicht bloße statistische Schwankungen, sondern haben lokale Ursachen

–Analyse dieser Ursachen fördert Verständnis über Gesamtprozess

–Grundlage für gezielte Aktionen zur Vermeidung von Schwächen bzw. Ausbau von Stärken

Praktische Bedeutung

•

Die Ergebnisse sind leicht operationalisierbar

–Argumentation leicht visualisierbar & nachvollziehbar

–lokale Zusammenhänge lassen sich einfacher entdecken und validieren als globale Aussagen

–praktische Umsetzung erfordert keine technische Infrastruktur

•

Systematische Suche nach Subgruppen in Daten hat in letzter Zeit stark an Bedeutung gewonnen

(3)

Formale Beschreibung der Subgruppen-Analyse

•

Beschreibungssprache: definiert, welche Art von Subgruppen überhaupt gefunden werden kann. Daraus ergibt sich auch die Größe des Suchraums.

– Abhängige Variable (Zielkonzept): binär, nominal, ordinal, kontinuierlich

– Unabhängige Variablen:

• Meist Konjunktion von Aussagen, z.B. A1=W1 ∧A2=W2 ∧ …

• Negation bei Werten

• Disjunktion bei Werten bzw. Intervalle (ggf. mit Generalisierungshierarchie)

• (Disjunktionen bei Attributen; sehr aufwändig)

•

Qualitätsfunktion: bewertet Qualität bzw. Interessantheit gefundener Subgruppen (nächste Folie)

•

Suchmethode: kritisch, da exponentieller Suchraum (s.u.)

Interessantheit von Mustern

•

Kennzeichen interessanter Muster:

1. für Menschen einfach verständlich

2. auf neue Daten mit gewisser Wahrscheinlichkeit übertragbar 3. potentiell nützlich

4. neu

•

Operationalisierung:

–Confidence: Sicherheit & Abweichungsgrad des Musters (2, 3)

–Support: Häufigkeit des Musters (2, 3)

–Einfachheit: Komplexitätsmaß für Muster (1, 2)

–Nicht-Herleitbarkeit (3, 4)

• mit Hintergrundwissen / Allgemeinwissen

• Redundanzvermeidung unter gefundenen Mustern –Explizite Beschränkung mit Constraints (1, 3, 4)

(4)

Algorithmen für Subgruppen-Analyse

•

vollständige Suche (mit Einschränkungen)

•

Transfer von DataMining-Algorithmen

–Datawarehouse-Operationen: Berechnung von Indikatoren für überraschende Werte pro Zelle auf verschiedenen

Abstraktionsebenen

• Problem: nur im Datawarehouse vordefiniere Subgruppen auffindbar –Assoziationsregellernen

• Problem: Betonung von support statt confidencs –Entscheidungsbaum- und Regellernen

• Problem: disjunktive Abdeckung des Zielkonzeptes

•

Spezielle Algorithmen für Subgruppen-Analyse

•

Kombination mit Clustering

•

Subgruppenlernen in speziellen Situationen

Vollständige Suche

•

Iterative Tiefensuche

•

Einschränkung mit Constraints (s.u.; z.B. entspricht Anzahl der Konjunktionen der Suchtiefe)

•

in kleineren Domänen durchaus attraktiv

(5)

Einschränkung des Suchraums für Subgruppen

•

Beschränkung der zu untersuchenden Fallmenge

•

Beschränkung der Ausdrucksmächtigkeit in Zielausdruck

–z.B. Anzahl der Konjunktionen

•

Beschränkung der Kandidaten für unabhängige Variablen

–Positivliste

–Negativliste (z.B. basierend auf Relevanzanalyse)

•

Beschränkung der Kandidaten für abhängige Variable

•

Beschränkungen der Wertebereiche für Attribute:

–normal / abnorm (z.B. in diagnostischen Domänen)

–Generalisierungshierarchie

–Intervalle bei numerischen Attributen

Transfer von Techniken für Subgruppen-Analyse

•Die meisten Lernverfahren basieren auf effizienten Greedy bzw.

Hill-Climbing-Algorithmen im Gegensatz zu systematischen Suchverfahren.

•Transfer auf Subgruppen: Schrittweise Verfeinerung von Subgruppen, um Signifikanz zu erhöhen.

–Beispiel: Wenn Alter, Bildungsgrad und Region wichtige

Faktoren bei der Analyse der Arbeitslosigkeit sind, dann ist zu erwarten, dass deren Kombination besonders signifikant ist (vgl.

Algorithmus zur Konzeptbeschreibung)

–Verallgemeinerung: Algorithmus wie beim Lernen von Assoziationsregeln: Starte mit signifikanten Einer-Menge,

Verfeinerung zu Zweier-Mengen usw., solange sich Signifikanz verbessern lässt.

–Qualitätskriterium: Mischung aus Confidence und Support

–Aber: Im Gegensatz zum Lernen von Assoziationsregeln keine Monotonie-Eigenschaft

(6)

Spezielle Suchtechniken

•

Suchstrategie

–Vollständige Suche mit Beschränkungen (s.o.)

–Verwendung von bekannten Data-Mining-Strategien für Subgruppen-Analyse (s.o.)

–aufteilende und verallgemeinernde Suchverfahren

–modifiziertes Beam-Search mit Besten-Suche und Clustering ähnlicher Subgruppen

•

Mehrstufige Suche

–Zunächst Suche nach Einflussfaktoren, dann Kombination

Relevanzanalyse / Nutzung von Hintergrundwissen

•

Qualitätsfunktion

–Ausführlicher Test

–Schnell-Evaluationstests

Qualitätsfunktion

•

Wird beeinflusst durch:

–Größe der Subgruppe (n) bzw. der Population (N)

–Wahrscheinlichkeit des Zielkonzepts im allgemeinen (p₀)

–Verhältnis von p₀ zur Wahrscheinlichkeit der Subgruppe (p)

•

Mögliche Qualitätsfunktionen:

–[(p – p₀) / √(p₀ (1- p₀))] * [√n * √(N / (N-n))] bzw. z-Test

–(p – p₀) * n / N

–Chi-Quadrat- bzw. Kontigenztest

–Informationsgewinn der Subgruppe nach Entropieformel

–TruePositive / (FalsePositive + g) [Gamberger & Lavrac] (g = Gewichtungsparameter) = p / (1 – p + g/n)

•

Ggf. Abwertung für hohe Komplexität

•

Herleitbarkeit bzw. Ähnlichkeit zu bekanntem Wissen prüfen

(7)

aufteilende & verallgemeinernde Suchverfahren

•

Aufteilende Suchverfahren (wie beim Entscheidungs-

baumlernen) vermeiden auch das Verfolgen vieler ähnlicher Subgruppen, aber sind zu "greedy"

•

Verallgemeinernde Suchverfahren (patient strategies, z.B.

PRIM) starten mit speziellen Beispielen bzw. Regionen und verallgemeinern diese durch schrittweises Eliminieren

(peeling) von Attributen.

–Bessere Ergebnisse als bei aufteilenden Suchverfahren

–höhere Rechenzeiten

Standard: Modifiziertes Beamsearch

•

Basisalgorithmus: allgemein → speziell (ähnlich wie Apriori-A.)

–Initialisiere Eltern als häufige k-elementige Mengen (z.B. k=1)

–Solange, bis max. Tiefe oder keine signifikante Verbesserung erreicht wurde, tue:

• Verfeinere sie zu (k+1)-elementigen Mengen (Kinder) durch:

– Hinzunahme eines Selektors (Attribut-Wert-Kombination)

– Verfeinerung eines Wert in einer Taxonomie (bzw. Disjunktion)

• Wähle aus allen generierten Subgruppen die besten aus (mit Qualitätsfunktion)

• Clustere ähnliche Subgruppen

• Wähle aus jedem Cluster die besten Subgruppen als neue Eltern

•

Clustering-Schritt vermeidet die Verfeinerung vieler ähnlicher Subgruppen

•

Parameter zur Größe des "Beams" einstellbar

(8)

Redundanz-Management für Subgruppen

•

Überlappungsmaß für 2 Subgruppen: Durchschnitt / Vereinigung

•

Ziele und Ansätze des Redundanz-Managements:

–Selektion relevanter Subgruppen, d.h. signifikanter, disjunk- ter Subgruppen mit möglichst hohem Abdeckungsgrad

• Ansatz: Wenn eine Subgruppe gefunden wurde, werden die überdeckten Objekte abgewertet, so dass die nächstbeste Subgruppe möglichst andere Objekte überdeckt.

–Selektion kausaler Subgruppen

• Unterdrückungsansatz:eine bekannte Subgruppe kann die Abhän- gigkeit einer zweiten Subgruppe von der Zielgruppe vorhersagen

• Probleme:

– zufällige Korrelationen wegen großen Suchraumes

– Verborgene Variablen, von denen verschiedene Subgruppen kausal abhängen

¾Interaktiver Ansatz zur Korrektur vorgeschlagener Kausalitäten

Probleme und Lösungsansätze

•

Interessante Kombination uninteressanter Einzelfaktoren

•

Viele schwache bzw. abhängige Variablen

•

Mangelnde Ausdrucksstärke von Konjunktionen

•

Effektive Nutzung von Hintergrundwissen

(9)

Kombinatorisches Problem für Subgruppensuche

•

Interessante Kombination von uninteressanten Einzelfaktoren

–wenn z.B. Faktoren sich gegenseitig beeinflussen

•

Beispiel:

¾

P (D1/A) = P(D1/B) = P(D1/C) = 0,5 = "mäßig" (einschl. Umkehrung)

¾

P (D1/A,B,C) = 1 = "hochsignifikant"

Bestensuche würde die Subgruppe (A,B,C) für D1 nicht finden!

X X

X E

X X

D X

X X

X C X

X X

X B X

X X

X A X

D1 D1

D2 D1

D4 D3

D2 D1

Lösungsansatz: Cluster-Verfahren

Generiere Cluster mit Standardverfahren und suche darin Subgruppen:

•

Allgemeine Clusteranalyse

•

Eingeschränkte Clusteranalyse bezogen auf ein Zielkonzept

•

Beispiel: für D1 würden 2 Cluster gefunden: (A,B,C) & (D,E)

(10)

Umgang mit vielen schwachen Variablen

•

Problem:

–Wenn es wenige starke und viele schwache Variablen gibt, die ein Zielkonzept beeinflussen, bleiben die schwachen eher unberücksichtigt.

–Das Problem verschärft sich noch, wenn die schwachen Variablen auch untereinander korrelieren.

•

Lösungsansatz:

–Zusammenfassung vieler schwacher bzw. korrelierender unabhängiger Variablen (z.B. "Bildungsstand" aus

Schulabschluss, Ausbildung, Sprachfähigkeiten usw.)

–Aggregation "ähnlicher" Variablen (Benennung wichtig!)

¾impliziert mehrstufige Suche

¾Zusatzwissen über "Ähnlichkeiten" erforderlich

Ausdruckstärke und Komplexität

•

Problem:

–Subgruppen werden meist mit logischen Konnektoren beschrieben (und, oder, Negation, z.B. in disjunktiver Normalform wie A & B & C oder D & E).

–umständlich bei vielen schwachen Faktoren, von denen nicht alle zutreffen müssen (z.B. 7 von 10 Faktoren)

–Faktoren können noch unterschiedlich gewichtet sein

•

Lösungsansatz:

–Nutzung von "Scores" (z.B. in Medizin weit verbreitet)

–Jeder Faktor trägt mit einfacher Punktzahl zum Gesamtkonto (Score) bei, Bewertung des Score mit Schwellwerten.

–Beispiel: Risikofaktoren für Arterienverkalkung (Cholesterin, Bewegungsmangel, Übergewicht, Rauchen, Alter usw.)

(11)

Hintergrundwissen

•

Arten von Hintergrundwissen:

1. Einschränkungen des Suchraums (s.o)

2. Bekannte Confounding Factors (z.B. Alter, Geschlecht, …) 3. Bekannte Beziehungen zwischen Zielkonzept und

unabhängigen Variablen (z.B. zwischen Einkommen und Versicherungsprämie)

4. Bekannte Korrelationen zwischen unabhängigen Variablen 5. Ausschluss möglicher Beziehungen zwischen Zielkonzept

und unabhängigen Variablen (z.B. Namen, IDs usw.) 6. Bewertung von Interessantheit

•

Nutzung von Hintergrundwissen

– Effizienzsteigerung (1,3,5,6)

– Qualitätssteigerung (2,3,4,6)

– Validierung (3)

interaktive Analyse und Visualisierung

•

Visualisierung der Ergebnisse der Subgruppen-Analyse

–direkte Darstellungen

–Attribut-orientierte Darstellung

–Abhängigkeitsgraph

(12)

Box: Verteilung CHD / ¬ CHD

grau: Verteilung in Subgruppe

gestrichtelt: CHD leer: ¬ CHD

Skala: 46,6% aller Patienten hat CHD

(Choronar heart disease)

Direkte Visualisierung von Subgruppen

Attritbutorientierte Visualisierung

(Gamberger et al.)

Vergleich zweier Konzepte (CHD und Gesund) entlang eines numerischen Attributes (Alter) mit Visualisierung einer oder mehrere Subgruppen (B1 und teilweise B2)

(13)

Subgruppen gegen diskretes Attribut

Kästchen:

• Breite: Subgruppengröße

• Helligkeit: Qualität Pfeile:

Analyse von Unfallstatistiken

male 18-25 single forein

gers

male & single

65+

18-25 & single male & foreinger male & 18-25 alle erfassten Autounfälle

Visualisierung von Subgruppen-Abhängigkeiten

(14)

Übersicht VIKAMINE

•

Tool zur automatischen & interaktiven Subgruppenanalyse

•

automatische Analyse:

–Umfangreiche Vorverarbeitung der Daten (z.B. Aggregation von Symptomen und Wertebereichen)

–Verschiedene Qualitätsfunktionen

–Abhängigkeitsanalyse der Subgruppen-Zwischenergebnisse

–Suchstrategie: Beamsearch mit aufteilenden und verallgemeinernden Suchverfahren

•

Interaktive Analyse

–Zahlreiche Visualisierungen

–Frei kombinierbar mit automatischer Analyse

•

Evaluiert mit SonoConsult-Datensammlung

–ca. 5000 Sonographie-Fälle

–72 Diagnosen; pro Fall ca. 5 ± 3

–pro Fall 77 ± 21 Attribute (Symptome)

Start der automatischen Analyse Zielvariable: Leberzirrhose

(15)

Ergebnisse der Beamsearch-Suche

Genauere Betrachtung einer Subgruppe

(16)

Vergleich verschiedener Subgruppen

Start der interaktiven Analyse Zielvariable: Leberzirrhose

Verfeinerung der Startsubgruppe "Aszitis"

(17)

Erweiterung der Subgruppe

Automatische Verfeinerungssuche der Subgruppe

(18)

Abhängigkeitsanalyse der Subgruppe

Visualisierung verschiedener Subgruppen

(19)

Zusammenfassung

•

Subgruppen-Analyse eines der wichtigsten Ziele des DataMining

•

Algorithmen:

–Assoziationsregel-Algorithmen: wichtiger Spezialfall für häufige Subgruppen

–Partionierungsalgorithmen nicht empfehlenswert, da zu "greedy"

–"Standard": Beam-Search mit Erweiterung für ähnliche Subgruppen

–Spezialprobleme (Cluster, Datenabstraktion, Scores, Hintergrundwissen)

–Interaktive Vorgehensweisen

•

Interpretation

–Identifikation kausaler Subgruppen

–Validierung durch Visualisierung

•

Anwendung

–Bisher in wenigen DataMining Tools explizit angeboten

–Interesse stark zunehmend

Mögliches Ergebnis einer Subgruppen-Analyse

Subgruppen-Analyse

Mögliches Ergebnis einer Subgruppen-Analyse

Anwendungsspektrum und Motivation

•

Praktische Bedeutung

•

•

Formale Beschreibung der Subgruppen-Analyse

•

•

•

Interessantheit von Mustern

•

•

Algorithmen für Subgruppen-Analyse

•

•

•

•

•

Vollständige Suche

•

•

•

•

•

•

•

•

Spezielle Suchtechniken

•

•

•

Qualitätsfunktion

•

•

•

•

aufteilende & verallgemeinernde Suchverfahren

•

•

Standard: Modifiziertes Beamsearch

•

•

•

Redundanz-Management für Subgruppen

•

•

Probleme und Lösungsansätze

•

•

•

•

•

•

¾

¾



Lösungsansatz: Cluster-Verfahren

•

•

•

Umgang mit vielen schwachen Variablen

•

•

Ausdruckstärke und Komplexität

•

•

Hintergrundwissen

•

•

interaktive Analyse und Visualisierung

•

Direkte Visualisierung von Subgruppen

Attritbutorientierte Visualisierung

Subgruppen gegen diskretes Attribut

Visualisierung von Subgruppen-Abhängigkeiten

Übersicht VIKAMINE

•