Subgruppen-Analyse beim DataMining Frank Puppe 1
Subgruppen-Analyse
Def.: Die Beziehung zwischen unabhängigen (erklärenden) Variablen und einer abhängigen (Ziel-)Variable unterscheidet sich in Subgruppen vom allgemeinen Zusammenhangin Fallsammlungen.
¾Subgruppen beschreiben lokale, interessante Abweichungen.
¾Nur partielle Relationen zwischen abhängiger und unabhängigen Variablen.
Beispiele:
• Die Arbeitslosenrate ist überproportional hoch für junge Männer mit niedrigem Bildungsgrad.
• Junge arme Frauen haben viel häufiger AIDS als junge arme Männer.
• Die Sterblichkeit bei Lungenkrebs ist bei Frauen in den letzten 10 Jahren stark gestiegen.
• Alleinstehende junge Männer in ländlichen Regionen sind relativ selten Kunden bei einer Lebensversicherung.
• Verheiratete Männer mit einem PKW der Luxusklasse machen 2% der
Kunden aus, erzeugen aber 14% der Lebensversicherungsabschlusssumme.
Mögliches Ergebnis einer Subgruppen-Analyse
Kästchen:
• Breite: Subgruppengröße
• Helligkeit: Qualität Pfeile:
Analyse von Unfallstatistiken
male 18-25 single foreig
ners
male & single
65+
18-25 & single male & foreigner male & 18-25 alle erfassten Unfälle
Subgruppen-Analyse beim DataMining Frank Puppe 3
Anwendungsspektrum und Motivation
•
Subgruppen finden sich in Verkaufszahlen, Verbreitung von Gütern, Medizinischen Daten, Zustand der Umwelt, usw.:–Subgruppen repräsentieren Abweichungen von der Norm
–Abweichung sind häufig nicht bloße statistische Schwankungen, sondern haben lokale Ursachen
–Analyse dieser Ursachen fördert Verständnis über Gesamtprozess
–Grundlage für gezielte Aktionen zur Vermeidung von Schwächen bzw. Ausbau von Stärken
Praktische Bedeutung
•
Die Ergebnisse sind leicht operationalisierbar–Argumentation leicht visualisierbar & nachvollziehbar
–lokale Zusammenhänge lassen sich einfacher entdecken und validieren als globale Aussagen
–praktische Umsetzung erfordert keine technische Infrastruktur
•
Systematische Suche nach Subgruppen in Daten hat in letzter Zeit stark an Bedeutung gewonnenSubgruppen-Analyse beim DataMining Frank Puppe 5
Formale Beschreibung der Subgruppen-Analyse
•
Beschreibungssprache: definiert, welche Art von Subgruppen überhaupt gefunden werden kann. Daraus ergibt sich auch die Größe des Suchraums.– Abhängige Variable (Zielkonzept): binär, nominal, ordinal, kontinuierlich
– Unabhängige Variablen:
• Meist Konjunktion von Aussagen, z.B. A1=W1 ∧A2=W2 ∧ …
• Negation bei Werten
• Disjunktion bei Werten bzw. Intervalle (ggf. mit Generalisierungshierarchie)
• (Disjunktionen bei Attributen; sehr aufwändig)
•
Qualitätsfunktion: bewertet Qualität bzw. Interessantheit gefundener Subgruppen (nächste Folie)•
Suchmethode: kritisch, da exponentieller Suchraum (s.u.)Interessantheit von Mustern
•
Kennzeichen interessanter Muster:1. für Menschen einfach verständlich
2. auf neue Daten mit gewisser Wahrscheinlichkeit übertragbar 3. potentiell nützlich
4. neu
•
Operationalisierung:–Confidence: Sicherheit & Abweichungsgrad des Musters (2, 3)
–Support: Häufigkeit des Musters (2, 3)
–Einfachheit: Komplexitätsmaß für Muster (1, 2)
–Nicht-Herleitbarkeit (3, 4)
• mit Hintergrundwissen / Allgemeinwissen
• Redundanzvermeidung unter gefundenen Mustern –Explizite Beschränkung mit Constraints (1, 3, 4)
Subgruppen-Analyse beim DataMining Frank Puppe 7
Algorithmen für Subgruppen-Analyse
•
vollständige Suche (mit Einschränkungen)•
Transfer von DataMining-Algorithmen–Datawarehouse-Operationen: Berechnung von Indikatoren für überraschende Werte pro Zelle auf verschiedenen
Abstraktionsebenen
• Problem: nur im Datawarehouse vordefiniere Subgruppen auffindbar –Assoziationsregellernen
• Problem: Betonung von support statt confidencs –Entscheidungsbaum- und Regellernen
• Problem: disjunktive Abdeckung des Zielkonzeptes
•
Spezielle Algorithmen für Subgruppen-Analyse•
Kombination mit Clustering•
Subgruppenlernen in speziellen SituationenVollständige Suche
•
Iterative Tiefensuche•
Einschränkung mit Constraints (s.u.; z.B. entspricht Anzahl der Konjunktionen der Suchtiefe)•
in kleineren Domänen durchaus attraktivSubgruppen-Analyse beim DataMining Frank Puppe 9
Einschränkung des Suchraums für Subgruppen
•
Beschränkung der zu untersuchenden Fallmenge•
Beschränkung der Ausdrucksmächtigkeit in Zielausdruck–z.B. Anzahl der Konjunktionen
•
Beschränkung der Kandidaten für unabhängige Variablen–Positivliste
–Negativliste (z.B. basierend auf Relevanzanalyse)
•
Beschränkung der Kandidaten für abhängige Variable•
Beschränkungen der Wertebereiche für Attribute:–normal / abnorm (z.B. in diagnostischen Domänen)
–Generalisierungshierarchie
–Intervalle bei numerischen Attributen
Transfer von Techniken für Subgruppen-Analyse
•Die meisten Lernverfahren basieren auf effizienten Greedy bzw.
Hill-Climbing-Algorithmen im Gegensatz zu systematischen Suchverfahren.
•Transfer auf Subgruppen: Schrittweise Verfeinerung von Subgruppen, um Signifikanz zu erhöhen.
–Beispiel: Wenn Alter, Bildungsgrad und Region wichtige
Faktoren bei der Analyse der Arbeitslosigkeit sind, dann ist zu erwarten, dass deren Kombination besonders signifikant ist (vgl.
Algorithmus zur Konzeptbeschreibung)
–Verallgemeinerung: Algorithmus wie beim Lernen von Assoziationsregeln: Starte mit signifikanten Einer-Menge,
Verfeinerung zu Zweier-Mengen usw., solange sich Signifikanz verbessern lässt.
–Qualitätskriterium: Mischung aus Confidence und Support
–Aber: Im Gegensatz zum Lernen von Assoziationsregeln keine Monotonie-Eigenschaft
Subgruppen-Analyse beim DataMining Frank Puppe 11
Spezielle Suchtechniken
•
Suchstrategie–Vollständige Suche mit Beschränkungen (s.o.)
–Verwendung von bekannten Data-Mining-Strategien für Subgruppen-Analyse (s.o.)
–aufteilende und verallgemeinernde Suchverfahren
–modifiziertes Beam-Search mit Besten-Suche und Clustering ähnlicher Subgruppen
•
Mehrstufige Suche–Zunächst Suche nach Einflussfaktoren, dann Kombination
Relevanzanalyse / Nutzung von Hintergrundwissen
•
Qualitätsfunktion–Ausführlicher Test
–Schnell-Evaluationstests
Qualitätsfunktion
•
Wird beeinflusst durch:–Größe der Subgruppe (n) bzw. der Population (N)
–Wahrscheinlichkeit des Zielkonzepts im allgemeinen (p0)
–Verhältnis von p0 zur Wahrscheinlichkeit der Subgruppe (p)
•
Mögliche Qualitätsfunktionen:–[(p – p0) / √(p0 (1- p0))] * [√n * √(N / (N-n))] bzw. z-Test
–(p – p0) * n / N
–Chi-Quadrat- bzw. Kontigenztest
–Informationsgewinn der Subgruppe nach Entropieformel
–TruePositive / (FalsePositive + g) [Gamberger & Lavrac] (g = Gewichtungsparameter) = p / (1 – p + g/n)
•
Ggf. Abwertung für hohe Komplexität•
Herleitbarkeit bzw. Ähnlichkeit zu bekanntem Wissen prüfenSubgruppen-Analyse beim DataMining Frank Puppe 13
aufteilende & verallgemeinernde Suchverfahren
•
Aufteilende Suchverfahren (wie beim Entscheidungs-baumlernen) vermeiden auch das Verfolgen vieler ähnlicher Subgruppen, aber sind zu "greedy"
•
Verallgemeinernde Suchverfahren (patient strategies, z.B.PRIM) starten mit speziellen Beispielen bzw. Regionen und verallgemeinern diese durch schrittweises Eliminieren
(peeling) von Attributen.
–Bessere Ergebnisse als bei aufteilenden Suchverfahren
–höhere Rechenzeiten
Standard: Modifiziertes Beamsearch
•
Basisalgorithmus: allgemein → speziell (ähnlich wie Apriori-A.)–Initialisiere Eltern als häufige k-elementige Mengen (z.B. k=1)
–Solange, bis max. Tiefe oder keine signifikante Verbesserung erreicht wurde, tue:
• Verfeinere sie zu (k+1)-elementigen Mengen (Kinder) durch:
– Hinzunahme eines Selektors (Attribut-Wert-Kombination)
– Verfeinerung eines Wert in einer Taxonomie (bzw. Disjunktion)
• Wähle aus allen generierten Subgruppen die besten aus (mit Qualitätsfunktion)
• Clustere ähnliche Subgruppen
• Wähle aus jedem Cluster die besten Subgruppen als neue Eltern
•
Clustering-Schritt vermeidet die Verfeinerung vieler ähnlicher Subgruppen•
Parameter zur Größe des "Beams" einstellbarSubgruppen-Analyse beim DataMining Frank Puppe 15
Redundanz-Management für Subgruppen
•
Überlappungsmaß für 2 Subgruppen: Durchschnitt / Vereinigung•
Ziele und Ansätze des Redundanz-Managements:–Selektion relevanter Subgruppen, d.h. signifikanter, disjunk- ter Subgruppen mit möglichst hohem Abdeckungsgrad
• Ansatz: Wenn eine Subgruppe gefunden wurde, werden die überdeckten Objekte abgewertet, so dass die nächstbeste Subgruppe möglichst andere Objekte überdeckt.
–Selektion kausaler Subgruppen
• Unterdrückungsansatz:eine bekannte Subgruppe kann die Abhän- gigkeit einer zweiten Subgruppe von der Zielgruppe vorhersagen
• Probleme:
– zufällige Korrelationen wegen großen Suchraumes
– Verborgene Variablen, von denen verschiedene Subgruppen kausal abhängen
¾Interaktiver Ansatz zur Korrektur vorgeschlagener Kausalitäten
Probleme und Lösungsansätze
•
Interessante Kombination uninteressanter Einzelfaktoren•
Viele schwache bzw. abhängige Variablen•
Mangelnde Ausdrucksstärke von Konjunktionen•
Effektive Nutzung von HintergrundwissenSubgruppen-Analyse beim DataMining Frank Puppe 17
Kombinatorisches Problem für Subgruppensuche
•
Interessante Kombination von uninteressanten Einzelfaktoren–wenn z.B. Faktoren sich gegenseitig beeinflussen
•
Beispiel:¾
P (D1/A) = P(D1/B) = P(D1/C) = 0,5 = "mäßig" (einschl. Umkehrung)¾
P (D1/A,B,C) = 1 = "hochsignifikant"
Bestensuche würde die Subgruppe (A,B,C) für D1 nicht finden!X X
X E
X X
D X
X X
X C X
X X
X B X
X X
X A X
D1 D1
D2 D1
D4 D3
D2 D1
Lösungsansatz: Cluster-Verfahren
Generiere Cluster mit Standardverfahren und suche darin Subgruppen:
•
Allgemeine Clusteranalyse•
Eingeschränkte Clusteranalyse bezogen auf ein Zielkonzept•
Beispiel: für D1 würden 2 Cluster gefunden: (A,B,C) & (D,E)Subgruppen-Analyse beim DataMining Frank Puppe 19
Umgang mit vielen schwachen Variablen
•
Problem:–Wenn es wenige starke und viele schwache Variablen gibt, die ein Zielkonzept beeinflussen, bleiben die schwachen eher unberücksichtigt.
–Das Problem verschärft sich noch, wenn die schwachen Variablen auch untereinander korrelieren.
•
Lösungsansatz:–Zusammenfassung vieler schwacher bzw. korrelierender unabhängiger Variablen (z.B. "Bildungsstand" aus
Schulabschluss, Ausbildung, Sprachfähigkeiten usw.)
–Aggregation "ähnlicher" Variablen (Benennung wichtig!)
¾impliziert mehrstufige Suche
¾Zusatzwissen über "Ähnlichkeiten" erforderlich
Ausdruckstärke und Komplexität
•
Problem:–Subgruppen werden meist mit logischen Konnektoren beschrieben (und, oder, Negation, z.B. in disjunktiver Normalform wie A & B & C oder D & E).
–umständlich bei vielen schwachen Faktoren, von denen nicht alle zutreffen müssen (z.B. 7 von 10 Faktoren)
–Faktoren können noch unterschiedlich gewichtet sein
•
Lösungsansatz:–Nutzung von "Scores" (z.B. in Medizin weit verbreitet)
–Jeder Faktor trägt mit einfacher Punktzahl zum Gesamtkonto (Score) bei, Bewertung des Score mit Schwellwerten.
–Beispiel: Risikofaktoren für Arterienverkalkung (Cholesterin, Bewegungsmangel, Übergewicht, Rauchen, Alter usw.)
Subgruppen-Analyse beim DataMining Frank Puppe 21
Hintergrundwissen
•
Arten von Hintergrundwissen:1. Einschränkungen des Suchraums (s.o)
2. Bekannte Confounding Factors (z.B. Alter, Geschlecht, …) 3. Bekannte Beziehungen zwischen Zielkonzept und
unabhängigen Variablen (z.B. zwischen Einkommen und Versicherungsprämie)
4. Bekannte Korrelationen zwischen unabhängigen Variablen 5. Ausschluss möglicher Beziehungen zwischen Zielkonzept
und unabhängigen Variablen (z.B. Namen, IDs usw.) 6. Bewertung von Interessantheit
•
Nutzung von Hintergrundwissen– Effizienzsteigerung (1,3,5,6)
– Qualitätssteigerung (2,3,4,6)
– Validierung (3)
interaktive Analyse und Visualisierung
•
Visualisierung der Ergebnisse der Subgruppen-Analyse–direkte Darstellungen
–Attribut-orientierte Darstellung
–Abhängigkeitsgraph
Subgruppen-Analyse beim DataMining Frank Puppe 23
Box: Verteilung CHD / ¬ CHD
grau: Verteilung in Subgruppe
gestrichtelt: CHD leer: ¬ CHD
Skala: 46,6% aller Patienten hat CHD
(Choronar heart disease)
Direkte Visualisierung von Subgruppen
Attritbutorientierte Visualisierung
(Gamberger et al.)Vergleich zweier Konzepte (CHD und Gesund) entlang eines numerischen Attributes (Alter) mit Visualisierung einer oder mehrere Subgruppen (B1 und teilweise B2)
Subgruppen-Analyse beim DataMining Frank Puppe 25
Subgruppen gegen diskretes Attribut
Kästchen:
• Breite: Subgruppengröße
• Helligkeit: Qualität Pfeile:
Analyse von Unfallstatistiken
male 18-25 single forein
gers
male & single
65+
18-25 & single male & foreinger male & 18-25 alle erfassten Autounfälle
Visualisierung von Subgruppen-Abhängigkeiten
Subgruppen-Analyse beim DataMining Frank Puppe 27
Übersicht VIKAMINE
•
Tool zur automatischen & interaktiven Subgruppenanalyse•
automatische Analyse:–Umfangreiche Vorverarbeitung der Daten (z.B. Aggregation von Symptomen und Wertebereichen)
–Verschiedene Qualitätsfunktionen
–Abhängigkeitsanalyse der Subgruppen-Zwischenergebnisse
–Suchstrategie: Beamsearch mit aufteilenden und verallgemeinernden Suchverfahren
•
Interaktive Analyse–Zahlreiche Visualisierungen
–Frei kombinierbar mit automatischer Analyse
•
Evaluiert mit SonoConsult-Datensammlung–ca. 5000 Sonographie-Fälle
–72 Diagnosen; pro Fall ca. 5 ± 3
–pro Fall 77 ± 21 Attribute (Symptome)
Start der automatischen Analyse Zielvariable: Leberzirrhose
Subgruppen-Analyse beim DataMining Frank Puppe 29
Ergebnisse der Beamsearch-Suche
Genauere Betrachtung einer Subgruppe
Subgruppen-Analyse beim DataMining Frank Puppe 31
Vergleich verschiedener Subgruppen
Start der interaktiven Analyse Zielvariable: Leberzirrhose
Verfeinerung der Startsubgruppe "Aszitis"
Subgruppen-Analyse beim DataMining Frank Puppe 33
Erweiterung der Subgruppe
Automatische Verfeinerungssuche der Subgruppe
Subgruppen-Analyse beim DataMining Frank Puppe 35
Abhängigkeitsanalyse der Subgruppe
Visualisierung verschiedener Subgruppen
Subgruppen-Analyse beim DataMining Frank Puppe 37
Zusammenfassung
•
Subgruppen-Analyse eines der wichtigsten Ziele des DataMining•
Algorithmen:–Assoziationsregel-Algorithmen: wichtiger Spezialfall für häufige Subgruppen
–Partionierungsalgorithmen nicht empfehlenswert, da zu "greedy"
–"Standard": Beam-Search mit Erweiterung für ähnliche Subgruppen
–Spezialprobleme (Cluster, Datenabstraktion, Scores, Hintergrundwissen)
–Interaktive Vorgehensweisen
•
Interpretation–Identifikation kausaler Subgruppen
–Validierung durch Visualisierung
•
Anwendung–Bisher in wenigen DataMining Tools explizit angeboten
–Interesse stark zunehmend