Visuelles Data Mining komplexer Strukturen
Vorstellung meiner Diplomarbeit
Hans-Jörg Schulz
Einf ¨uhrung Begriffskl ¨arung Anwendungsgebiete Informationsmodell Preprocessing Visualisierung Interaktion Implementation Erg ¨anzungen
Einführung
Einf ¨uhrung Begriffskl ¨arung Anwendungsgebiete Informationsmodell Preprocessing Visualisierung Interaktion Implementation Erg ¨anzungen
Begriffsklärung
Visual Data Mining
Data Mining
Information Visualization Visual Data Exploration
Exploratory Data Analysis visuell
abstrakt
statisch interaktiv
Einf ¨uhrung Begriffskl ¨arung Anwendungsgebiete Informationsmodell Preprocessing Visualisierung Interaktion Implementation Erg ¨anzungen
Anwendungsgebiete
– Crime Data Mining -COPLINK [Hauck et al,2002]
➥ Überwachung von finanziellen Transaktionen (Geldwäsche, Kreditkartenbetrug)
➥ Analyse krimineller / terroristischer Netzwerke
– Analyse von Citation Networks - z.B. NEC
SiteSeer Datenbank mit 250.000 Papers und ca.
4,5 Mio. Verweisen
– Web Structure Mining (im Gegensatz zu Web Content Mining und Web Usage Mining)
– Analyse von P2P-Netzwerken
z.B. unter http://www.minitasking.com/old/
– zur Untersuchung von phylogenetischen
Bäumen, Ontologien, Netzplänen (PERT, CPM),
Einf ¨uhrung Begriffskl ¨arung Anwendungsgebiete Informationsmodell
Preprocessing Visualisierung Interaktion Implementation Erg ¨anzungen
Informationsmodell & Framework
– Informationsmenge: IM = { IO 1 , . . . , IO n }
– Attributmenge: AM = attr ({ IO 1 , . . . , IO n })
– Informationsraum: dim ( IR ) = | AM |
– Informationsstruktur: IS ⊆ IM × IM
Prepocessing Visualisierung
Daten Charakteristika
der Daten
Merkmale der Daten in Form eines Bildes
VDM−Control
Anwendungskontext Nutzerziele
Einf ¨uhrung Begriffskl ¨arung Anwendungsgebiete Informationsmodell
Preprocessing Visualisierung Interaktion Implementation Erg ¨anzungen
Informationsmodell & Framework
– Informationsmenge: IM = { IO 1 , . . . , IO n }
– Attributmenge: AM = attr ({ IO 1 , . . . , IO n })
– Informationsraum: dim ( IR ) = | AM |
– Informationsstruktur: IS ⊆ IM × IM
Data Mining
Prepocessing Visualisierung
Daten Charakteristika
der Daten
Merkmale der Daten in Form eines Bildes
(manuelle) Vorver−
arbeitung
Rohdaten
View
View
VDM−Control
Anwendungskontext Nutzerziele
Einf ¨uhrung Begriffskl ¨arung Anwendungsgebiete Informationsmodell
Preprocessing Visualisierung Interaktion Implementation Erg ¨anzungen
Informationsmodell & Framework
– Informationsmenge: IM = { IO 1 , . . . , IO n }
– Attributmenge: AM = attr ({ IO 1 , . . . , IO n })
– Informationsraum: dim ( IR ) = | AM |
– Informationsstruktur: IS ⊆ IM × . . . × IM × R
– Strukturmenge: SM = { IS 1 , . . . , IS k }
Data Mining
Prepocessing Visualisierung
Daten Charakteristika
der Daten
Merkmale der Daten in Form eines Bildes
(manuelle) Vorver−
arbeitung
Rohdaten
View
View
VDM−Control
Anwendungskontext Nutzerziele
Einf ¨uhrung Preprocessing Uberblick¨ Klassifikation
Strukt. Parameter (1) Strukt. Parameter (2) Strukt. Parameter (3) Strukt. Parameter (4) Clustering
Dekomposition (1) Dekomposition (2) Visualisierung Interaktion Implementation Erg ¨anzungen
Preprocessing
Einf ¨uhrung Preprocessing Uberblick¨ Klassifikation
Strukt. Parameter (1) Strukt. Parameter (2) Strukt. Parameter (3) Strukt. Parameter (4) Clustering
Dekomposition (1) Dekomposition (2) Visualisierung Interaktion Implementation Erg ¨anzungen
Überblick
Clustering
Berechnung struktureller
Parameter
Dekomposition
ergänzende Attribute hierarchische Cluster /
Dendrogramm
Dekompositionsbaum Zentralitätsmaße, Ähnlichkeitsmaße, Graphattribute
Informationsstruktur
Klassifikation
Einf ¨uhrung Preprocessing Uberblick¨ Klassifikation
Strukt. Parameter (1) Strukt. Parameter (2) Strukt. Parameter (3) Strukt. Parameter (4) Clustering
Dekomposition (1) Dekomposition (2) Visualisierung Interaktion Implementation Erg ¨anzungen
Klassifikation
Graph Hypergraph
Netzwerk Baum
gerichtet ungerichtet
kreisfrei zyklisch
Einf ¨uhrung Preprocessing Uberblick¨ Klassifikation
Strukt. Parameter (1) Strukt. Parameter (2) Strukt. Parameter (3) Strukt. Parameter (4) Clustering
Dekomposition (1) Dekomposition (2) Visualisierung Interaktion Implementation Erg ¨anzungen
Strukt. Parameter — Zentralitätsmaße
– Grad deg ( v ) : Zahl der zu v inzidenten Kanten (mit Graph G = ( V, E ) und v ∈ V )
– k-Neighborhood Größe: | N k ( v )|
mit N k ( v ) = { u : u ∈ V \ { v } ∧ dist ( u, v ) ≤ k }
– Closeness: (
∀ u ∈ V \{ v } dist ( v, u )) −1
– Eccentricity: (max ∀ u ∈ V \{ v } dist ( v, u )) −1
– Radiality:
∀u∈V\{v}
diam ( G )−1− dist ( v,u )
| V |· diam ( G )
mit diam ( G ) = max{ dist ( u, v ) : u, v ∈ V }
Einf ¨uhrung Preprocessing Uberblick¨ Klassifikation
Strukt. Parameter (1) Strukt. Parameter (2) Strukt. Parameter (3) Strukt. Parameter (4) Clustering
Dekomposition (1) Dekomposition (2) Visualisierung Interaktion Implementation Erg ¨anzungen
Strukt. Parameter — Zentralitätsmaße
– Betweenness: Anzahl aller kürzesten Pfade, die den Knoten v durchlaufen
– Flow-Betweenness: Summe aller max. Flüsse, die Knoten v durchlaufen
– PageRank: R ( v ) = c
u ∈ B
vR ( u )
L
u+ cE ( u ) mit
➥ c < 1 Skalierungsfaktor
➥ B v Menge der Backlinks von v
➥ L u Menge der Links von u
➥ E ( u ) = 0 . 15 Korrekturglied zur Vermeidung
des Rank-Sink-Problems
Einf ¨uhrung Preprocessing Uberblick¨ Klassifikation
Strukt. Parameter (1) Strukt. Parameter (2) Strukt. Parameter (3) Strukt. Parameter (4) Clustering
Dekomposition (1) Dekomposition (2) Visualisierung Interaktion Implementation Erg ¨anzungen
Strukt. Parameter — Ähnlichkeitsmaße
– Connectivity: | cut ( v, u )| mit trennender Kantenmenge cut ( v, u ) = f low ( v, u )
➥ entspricht Anzahl disjunkter Pfade
– Dependency: Anzahl kürzester Pfade von v, die u passieren
– Anzahl aller Index- bzw. Referenzknoten mit denen sowohl v als auch u benachbart sind
➥ Indexknoten: outdeg ≥ indeg
➥ Referenzknoten: indeg ≥ outdeg
Einf ¨uhrung Preprocessing Uberblick¨ Klassifikation
Strukt. Parameter (1) Strukt. Parameter (2) Strukt. Parameter (3) Strukt. Parameter (4) Clustering
Dekomposition (1) Dekomposition (2) Visualisierung Interaktion Implementation Erg ¨anzungen
Strukt. Parameter für (Teil-)Graphen
– durchschnittl. Grad:
v ∈ V
deg ( v )
| V |
– Compactness oder Density: | ℘ | E |
2
( V )|
mit | ℘ 2 ( V )| = | V |·(| 2 V |−1)
– Clustering Coefficient:
v ∈ V
compact ( N
1( v ))
| V |
Einf ¨uhrung Preprocessing Uberblick¨ Klassifikation
Strukt. Parameter (1) Strukt. Parameter (2) Strukt. Parameter (3) Strukt. Parameter (4) Clustering
Dekomposition (1) Dekomposition (2) Visualisierung Interaktion Implementation Erg ¨anzungen
Clustering
– Separation (TopDown): unähnliche Objekte trennen
➥ Edge Betweenness Centrality Clustering
➥ Normalized Cut
ncut ( A, B ) = assoc cut ( A,B ( A,V ) ) + assoc cut ( B,A ( B,V ) )
– Agglomeration (BottomUp): ähnliche Objekte zusammenfassen
➥ single, complete, average linkage
➥ Normalized Association
nassoc ( A, B ) = assoc assoc ( ( A,V A,A ) ) + assoc assoc ( ( B,B B,V ) ) wobei assoc ( X, Y ) =
x ∈ X,y ∈ Y
w xy
Einf ¨uhrung Preprocessing Uberblick¨ Klassifikation
Strukt. Parameter (1) Strukt. Parameter (2) Strukt. Parameter (3) Strukt. Parameter (4) Clustering
Dekomposition (1) Dekomposition (2) Visualisierung Interaktion Implementation Erg ¨anzungen
Dekomposition (1)
– k-Core-Dekomposition
1-Core
Einf ¨uhrung Preprocessing Uberblick¨ Klassifikation
Strukt. Parameter (1) Strukt. Parameter (2) Strukt. Parameter (3) Strukt. Parameter (4) Clustering
Dekomposition (1) Dekomposition (2)
Visualisierung Interaktion Implementation Erg ¨anzungen
Dekomposition (2)
– Modulare Dekomposition
Einf ¨uhrung Preprocessing Visualisierung Vorbemerkung Techniken (1) Techniken (2) Techniken (3) Techniken (4) Interaktion Implementation Erg ¨anzungen
Visualisierung
Einf ¨uhrung Preprocessing Visualisierung Vorbemerkung Techniken (1) Techniken (2) Techniken (3) Techniken (4) Interaktion Implementation Erg ¨anzungen
Vorbemerkung
Definition des Begriffs p-Baumähnlichkeit:
Ein Graph G ( V, E ) ist zu p % baumähnlich gdw.
∃ E : E ⊆ E ∧ | E |
| E | ≥ p ∧ G ( V, E ) ist kreisfrei
Definition des Begriffs k-Baumähnlichkeit:
Ein Graph G ( V, E ) ist k-baumähnlich gdw.
∃ E : E ⊆ E ∧ | E | − | E | ≤ k ∧ G ( V, E ) ist kreisfrei
Einf ¨uhrung Preprocessing Visualisierung Vorbemerkung Techniken (1) Techniken (2) Techniken (3) Techniken (4) Interaktion Implementation Erg ¨anzungen
Techniken für Bäume
TreeMap, SunBurst, Information Slices, Space
Tree,...
Einf ¨uhrung Preprocessing Visualisierung Vorbemerkung Techniken (1) Techniken (2) Techniken (3) Techniken (4) Interaktion Implementation Erg ¨anzungen
Techniken für baumähnliche Graphen
Hyperbolic Viewer, H3, MagicEye, ConeTrees,...
Einf ¨uhrung Preprocessing Visualisierung Vorbemerkung Techniken (1) Techniken (2) Techniken (3) Techniken (4) Interaktion Implementation Erg ¨anzungen
Techniken für baumähnliche Graphen
Hyperbolic Viewer, H3, MagicEye, ConeTrees,...
Einf ¨uhrung Preprocessing Visualisierung Vorbemerkung Techniken (1) Techniken (2) Techniken (3) Techniken (4) Interaktion Implementation Erg ¨anzungen
Techniken für Netzwerke
Federkraftmodelle (im R 2 und R 3 ), Graph Sketches,...
interne Feder
externe Feder
virtuelle Feder
virtueller Knoten
realer Koten
Einf ¨uhrung Preprocessing Visualisierung Vorbemerkung Techniken (1) Techniken (2) Techniken (3) Techniken (4)
Interaktion Implementation Erg ¨anzungen
Einfache Techniken für Graphparameter
Scatter Plots, Balkendiagramme oder Histogramme zur Darstellung von
Graphparametern
Einf ¨uhrung Preprocessing Visualisierung Interaktion Techniken Beispiel
Implementation Erg ¨anzungen
Interaktion
Einf ¨uhrung Preprocessing Visualisierung Interaktion Techniken Beispiel
Implementation Erg ¨anzungen
Navigations– & Interaktionstechniken
– Manipulation des Graphen:
➥ Aggregation
➥ Extraction
➥ Elemination
– Interaktion mit dem Graphen:
➥ Selektion (Suche, Overview, manuell)
➥ Falten
➥ Verstecken
➥ Zoom
➥ Details On Demad
+ History-Konzept
Einf ¨uhrung Preprocessing Visualisierung Interaktion Techniken Beispiel
Implementation Erg ¨anzungen
Beispiel: DendroNavigation
Einf ¨uhrung Preprocessing Visualisierung Interaktion Techniken Beispiel
Implementation Erg ¨anzungen
Beispiel: DendroNavigation
Einf ¨uhrung Preprocessing Visualisierung Interaktion Techniken Beispiel
Implementation Erg ¨anzungen
Beispiel: DendroNavigation
Einf ¨uhrung Preprocessing Visualisierung Interaktion Techniken Beispiel
Implementation Erg ¨anzungen
Beispiel: DendroNavigation
Einf ¨uhrung Preprocessing Visualisierung Interaktion Techniken Beispiel
Implementation Erg ¨anzungen
Beispiel: DendroNavigation
Einf ¨uhrung Preprocessing Visualisierung Interaktion Implementation Allgemeines Beispiel 1 Beispiel 2 Beispiel 3 Erg ¨anzungen
Implementation
Einf ¨uhrung Preprocessing Visualisierung Interaktion Implementation Allgemeines Beispiel 1 Beispiel 2 Beispiel 3 Erg ¨anzungen
Allgemeine Bemerkungen
– lt. Aufgabenstellung:
PROTOTYPISCHE IMPLEMENTATION
– erfolgt in C/C++, QT, OpenGL
– Datenbasis: Linkgraph der öffentlichen Websiten des Instituts für Informatik vom 30.03.2004
(57.060 Knoten, 532.857 Kanten)
– weitere Daten auf Vladimir Batageljs “Graph
Theory and Network Analysis“-Homepage unter http://vlado.fmf.uni-lj.si/vlado/vladonet.htm
– offene Fragen:
➥ flexibles Datenformat?
➥ Schnittstellen für Erweiterungsmodule
(neue Clusteralgorithmen,
Einf ¨uhrung Preprocessing Visualisierung Interaktion Implementation Allgemeines Beispiel 1 Beispiel 2 Beispiel 3 Erg ¨anzungen
Beispiel 1: Klassifikation
Einf ¨uhrung Preprocessing Visualisierung Interaktion Implementation Allgemeines Beispiel 1 Beispiel 2 Beispiel 3 Erg ¨anzungen
Beispiel 2: Navigation
Einf ¨uhrung Preprocessing Visualisierung Interaktion Implementation Allgemeines Beispiel 1 Beispiel 2 Beispiel 3 Erg ¨anzungen
Beispiel 3: Preprocessing
Data Mining
Prepocessing
Visualisierung
Daten Charakteristika
der Daten
Merkmale der Daten in Form eines Bildes
Nutzerinteraktion
(manuelle) Vorver- arbeitung
Rohdaten
View
View
ge nderter Datensatz
VDM-Control
Anwendungskontext Nutzerziele
Einf ¨uhrung Preprocessing Visualisierung Interaktion Implementation Allgemeines Beispiel 1 Beispiel 2 Beispiel 3 Erg ¨anzungen
Beispiel 3: Preprocessing
Data Mining
Information Visualization Visual Data Exploration
Exploratory Data Analysis visuell
abstrakt
statisch interaktiv
Einf ¨uhrung Preprocessing Visualisierung Interaktion Implementation Erg ¨anzungen Uberblick¨
Ergänzungen
Einf ¨uhrung Preprocessing Visualisierung Interaktion Implementation Erg ¨anzungen Uberblick¨