• Keine Ergebnisse gefunden

Vorstellung meiner Diplomarbeit

N/A
N/A
Protected

Academic year: 2022

Aktie "Vorstellung meiner Diplomarbeit"

Copied!
39
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Visuelles Data Mining komplexer Strukturen

Vorstellung meiner Diplomarbeit

Hans-Jörg Schulz

(2)

Einf ¨uhrung Begriffskl ¨arung Anwendungsgebiete Informationsmodell Preprocessing Visualisierung Interaktion Implementation Erg ¨anzungen

Einführung

(3)

Einf ¨uhrung Begriffskl ¨arung Anwendungsgebiete Informationsmodell Preprocessing Visualisierung Interaktion Implementation Erg ¨anzungen

Begriffsklärung

Visual Data Mining

Data Mining

Information Visualization Visual Data Exploration

Exploratory Data Analysis visuell

abstrakt

statisch interaktiv

(4)

Einf ¨uhrung Begriffskl ¨arung Anwendungsgebiete Informationsmodell Preprocessing Visualisierung Interaktion Implementation Erg ¨anzungen

Anwendungsgebiete

Crime Data Mining -COPLINK [Hauck et al,2002]

➥ Überwachung von finanziellen Transaktionen (Geldwäsche, Kreditkartenbetrug)

➥ Analyse krimineller / terroristischer Netzwerke

Analyse von Citation Networks - z.B. NEC

SiteSeer Datenbank mit 250.000 Papers und ca.

4,5 Mio. Verweisen

Web Structure Mining (im Gegensatz zu Web Content Mining und Web Usage Mining)

Analyse von P2P-Netzwerken

z.B. unter http://www.minitasking.com/old/

zur Untersuchung von phylogenetischen

Bäumen, Ontologien, Netzplänen (PERT, CPM),

(5)

Einf ¨uhrung Begriffskl ¨arung Anwendungsgebiete Informationsmodell

Preprocessing Visualisierung Interaktion Implementation Erg ¨anzungen

Informationsmodell & Framework

Informationsmenge: IM = { IO 1 , . . . , IO n }

Attributmenge: AM = attr ({ IO 1 , . . . , IO n })

Informationsraum: dim ( IR ) = | AM |

Informationsstruktur: IS IM × IM

Prepocessing Visualisierung

Daten Charakteristika

der Daten

Merkmale der Daten in Form eines Bildes

VDM−Control

Anwendungskontext Nutzerziele

(6)

Einf ¨uhrung Begriffskl ¨arung Anwendungsgebiete Informationsmodell

Preprocessing Visualisierung Interaktion Implementation Erg ¨anzungen

Informationsmodell & Framework

Informationsmenge: IM = { IO 1 , . . . , IO n }

Attributmenge: AM = attr ({ IO 1 , . . . , IO n })

Informationsraum: dim ( IR ) = | AM |

Informationsstruktur: IS IM × IM

Data Mining

Prepocessing Visualisierung

Daten Charakteristika

der Daten

Merkmale der Daten in Form eines Bildes

(manuelle) Vorver−

arbeitung

Rohdaten

View

View

VDM−Control

Anwendungskontext Nutzerziele

(7)

Einf ¨uhrung Begriffskl ¨arung Anwendungsgebiete Informationsmodell

Preprocessing Visualisierung Interaktion Implementation Erg ¨anzungen

Informationsmodell & Framework

Informationsmenge: IM = { IO 1 , . . . , IO n }

Attributmenge: AM = attr ({ IO 1 , . . . , IO n })

Informationsraum: dim ( IR ) = | AM |

Informationsstruktur: IS IM × . . . × IM × R

Strukturmenge: SM = { IS 1 , . . . , IS k }

Data Mining

Prepocessing Visualisierung

Daten Charakteristika

der Daten

Merkmale der Daten in Form eines Bildes

(manuelle) Vorver−

arbeitung

Rohdaten

View

View

VDM−Control

Anwendungskontext Nutzerziele

(8)

Einf ¨uhrung Preprocessing Uberblick¨ Klassifikation

Strukt. Parameter (1) Strukt. Parameter (2) Strukt. Parameter (3) Strukt. Parameter (4) Clustering

Dekomposition (1) Dekomposition (2) Visualisierung Interaktion Implementation Erg ¨anzungen

Preprocessing

(9)

Einf ¨uhrung Preprocessing Uberblick¨ Klassifikation

Strukt. Parameter (1) Strukt. Parameter (2) Strukt. Parameter (3) Strukt. Parameter (4) Clustering

Dekomposition (1) Dekomposition (2) Visualisierung Interaktion Implementation Erg ¨anzungen

Überblick

Clustering

Berechnung struktureller

Parameter

Dekomposition

ergänzende Attribute hierarchische Cluster /

Dendrogramm

Dekompositionsbaum Zentralitätsmaße, Ähnlichkeitsmaße, Graphattribute

Informationsstruktur

Klassifikation

(10)

Einf ¨uhrung Preprocessing Uberblick¨ Klassifikation

Strukt. Parameter (1) Strukt. Parameter (2) Strukt. Parameter (3) Strukt. Parameter (4) Clustering

Dekomposition (1) Dekomposition (2) Visualisierung Interaktion Implementation Erg ¨anzungen

Klassifikation

Graph Hypergraph

Netzwerk Baum

gerichtet ungerichtet

kreisfrei zyklisch

(11)

Einf ¨uhrung Preprocessing Uberblick¨ Klassifikation

Strukt. Parameter (1) Strukt. Parameter (2) Strukt. Parameter (3) Strukt. Parameter (4) Clustering

Dekomposition (1) Dekomposition (2) Visualisierung Interaktion Implementation Erg ¨anzungen

Strukt. Parameter — Zentralitätsmaße

Grad deg ( v ) : Zahl der zu v inzidenten Kanten (mit Graph G = ( V, E ) und v V )

k-Neighborhood Größe: | N k ( v )|

mit N k ( v ) = { u : u V \ { v } ∧ dist ( u, v ) k }

Closeness: (

u V \{ v } dist ( v, u )) −1

Eccentricity: (max u V \{ v } dist ( v, u )) −1

Radiality:

∀u∈V\{v}

diam ( G )−1− dist ( v,u )

| V diam ( G )

mit diam ( G ) = max{ dist ( u, v ) : u, v V }

(12)

Einf ¨uhrung Preprocessing Uberblick¨ Klassifikation

Strukt. Parameter (1) Strukt. Parameter (2) Strukt. Parameter (3) Strukt. Parameter (4) Clustering

Dekomposition (1) Dekomposition (2) Visualisierung Interaktion Implementation Erg ¨anzungen

Strukt. Parameter — Zentralitätsmaße

Betweenness: Anzahl aller kürzesten Pfade, die den Knoten v durchlaufen

Flow-Betweenness: Summe aller max. Flüsse, die Knoten v durchlaufen

PageRank: R ( v ) = c

u B

v

R ( u )

L

u

+ cE ( u ) mit

c < 1 Skalierungsfaktor

B v Menge der Backlinks von v

L u Menge der Links von u

E ( u ) = 0 . 15 Korrekturglied zur Vermeidung

des Rank-Sink-Problems

(13)

Einf ¨uhrung Preprocessing Uberblick¨ Klassifikation

Strukt. Parameter (1) Strukt. Parameter (2) Strukt. Parameter (3) Strukt. Parameter (4) Clustering

Dekomposition (1) Dekomposition (2) Visualisierung Interaktion Implementation Erg ¨anzungen

Strukt. Parameter — Ähnlichkeitsmaße

Connectivity: | cut ( v, u )| mit trennender Kantenmenge cut ( v, u ) = f low ( v, u )

➥ entspricht Anzahl disjunkter Pfade

Dependency: Anzahl kürzester Pfade von v, die u passieren

Anzahl aller Index- bzw. Referenzknoten mit denen sowohl v als auch u benachbart sind

➥ Indexknoten: outdeg indeg

➥ Referenzknoten: indeg outdeg

(14)

Einf ¨uhrung Preprocessing Uberblick¨ Klassifikation

Strukt. Parameter (1) Strukt. Parameter (2) Strukt. Parameter (3) Strukt. Parameter (4) Clustering

Dekomposition (1) Dekomposition (2) Visualisierung Interaktion Implementation Erg ¨anzungen

Strukt. Parameter für (Teil-)Graphen

durchschnittl. Grad:

v V

deg ( v )

| V |

Compactness oder Density: | | E |

2

( V )|

mit | 2 ( V )| = | V |·(| 2 V |−1)

Clustering Coefficient:

v V

compact ( N

1

( v ))

| V |

(15)

Einf ¨uhrung Preprocessing Uberblick¨ Klassifikation

Strukt. Parameter (1) Strukt. Parameter (2) Strukt. Parameter (3) Strukt. Parameter (4) Clustering

Dekomposition (1) Dekomposition (2) Visualisierung Interaktion Implementation Erg ¨anzungen

Clustering

Separation (TopDown): unähnliche Objekte trennen

➥ Edge Betweenness Centrality Clustering

➥ Normalized Cut

ncut ( A, B ) = assoc cut ( A,B ( A,V ) ) + assoc cut ( B,A ( B,V ) )

Agglomeration (BottomUp): ähnliche Objekte zusammenfassen

➥ single, complete, average linkage

➥ Normalized Association

nassoc ( A, B ) = assoc assoc ( ( A,V A,A ) ) + assoc assoc ( ( B,B B,V ) ) wobei assoc ( X, Y ) =

x X,y Y

w xy

(16)

Einf ¨uhrung Preprocessing Uberblick¨ Klassifikation

Strukt. Parameter (1) Strukt. Parameter (2) Strukt. Parameter (3) Strukt. Parameter (4) Clustering

Dekomposition (1) Dekomposition (2) Visualisierung Interaktion Implementation Erg ¨anzungen

Dekomposition (1)

k-Core-Dekomposition

1-Core

(17)

Einf ¨uhrung Preprocessing Uberblick¨ Klassifikation

Strukt. Parameter (1) Strukt. Parameter (2) Strukt. Parameter (3) Strukt. Parameter (4) Clustering

Dekomposition (1) Dekomposition (2)

Visualisierung Interaktion Implementation Erg ¨anzungen

Dekomposition (2)

Modulare Dekomposition

(18)

Einf ¨uhrung Preprocessing Visualisierung Vorbemerkung Techniken (1) Techniken (2) Techniken (3) Techniken (4) Interaktion Implementation Erg ¨anzungen

Visualisierung

(19)

Einf ¨uhrung Preprocessing Visualisierung Vorbemerkung Techniken (1) Techniken (2) Techniken (3) Techniken (4) Interaktion Implementation Erg ¨anzungen

Vorbemerkung

Definition des Begriffs p-Baumähnlichkeit:

Ein Graph G ( V, E ) ist zu p % baumähnlich gdw.

E : E E | E |

| E | p G ( V, E ) ist kreisfrei

Definition des Begriffs k-Baumähnlichkeit:

Ein Graph G ( V, E ) ist k-baumähnlich gdw.

E : E E ∧ | E | − | E | ≤ k G ( V, E ) ist kreisfrei

(20)

Einf ¨uhrung Preprocessing Visualisierung Vorbemerkung Techniken (1) Techniken (2) Techniken (3) Techniken (4) Interaktion Implementation Erg ¨anzungen

Techniken für Bäume

TreeMap, SunBurst, Information Slices, Space

Tree,...

(21)

Einf ¨uhrung Preprocessing Visualisierung Vorbemerkung Techniken (1) Techniken (2) Techniken (3) Techniken (4) Interaktion Implementation Erg ¨anzungen

Techniken für baumähnliche Graphen

Hyperbolic Viewer, H3, MagicEye, ConeTrees,...

(22)

Einf ¨uhrung Preprocessing Visualisierung Vorbemerkung Techniken (1) Techniken (2) Techniken (3) Techniken (4) Interaktion Implementation Erg ¨anzungen

Techniken für baumähnliche Graphen

Hyperbolic Viewer, H3, MagicEye, ConeTrees,...

(23)

Einf ¨uhrung Preprocessing Visualisierung Vorbemerkung Techniken (1) Techniken (2) Techniken (3) Techniken (4) Interaktion Implementation Erg ¨anzungen

Techniken für Netzwerke

Federkraftmodelle (im R 2 und R 3 ), Graph Sketches,...

interne Feder

externe Feder

virtuelle Feder

virtueller Knoten

realer Koten

(24)

Einf ¨uhrung Preprocessing Visualisierung Vorbemerkung Techniken (1) Techniken (2) Techniken (3) Techniken (4)

Interaktion Implementation Erg ¨anzungen

Einfache Techniken für Graphparameter

Scatter Plots, Balkendiagramme oder Histogramme zur Darstellung von

Graphparametern

(25)

Einf ¨uhrung Preprocessing Visualisierung Interaktion Techniken Beispiel

Implementation Erg ¨anzungen

Interaktion

(26)

Einf ¨uhrung Preprocessing Visualisierung Interaktion Techniken Beispiel

Implementation Erg ¨anzungen

Navigations– & Interaktionstechniken

Manipulation des Graphen:

➥ Aggregation

➥ Extraction

➥ Elemination

Interaktion mit dem Graphen:

➥ Selektion (Suche, Overview, manuell)

➥ Falten

➥ Verstecken

➥ Zoom

➥ Details On Demad

+ History-Konzept

(27)

Einf ¨uhrung Preprocessing Visualisierung Interaktion Techniken Beispiel

Implementation Erg ¨anzungen

Beispiel: DendroNavigation

(28)

Einf ¨uhrung Preprocessing Visualisierung Interaktion Techniken Beispiel

Implementation Erg ¨anzungen

Beispiel: DendroNavigation

(29)

Einf ¨uhrung Preprocessing Visualisierung Interaktion Techniken Beispiel

Implementation Erg ¨anzungen

Beispiel: DendroNavigation

(30)

Einf ¨uhrung Preprocessing Visualisierung Interaktion Techniken Beispiel

Implementation Erg ¨anzungen

Beispiel: DendroNavigation

(31)

Einf ¨uhrung Preprocessing Visualisierung Interaktion Techniken Beispiel

Implementation Erg ¨anzungen

Beispiel: DendroNavigation

(32)

Einf ¨uhrung Preprocessing Visualisierung Interaktion Implementation Allgemeines Beispiel 1 Beispiel 2 Beispiel 3 Erg ¨anzungen

Implementation

(33)

Einf ¨uhrung Preprocessing Visualisierung Interaktion Implementation Allgemeines Beispiel 1 Beispiel 2 Beispiel 3 Erg ¨anzungen

Allgemeine Bemerkungen

lt. Aufgabenstellung:

PROTOTYPISCHE IMPLEMENTATION

erfolgt in C/C++, QT, OpenGL

Datenbasis: Linkgraph der öffentlichen Websiten des Instituts für Informatik vom 30.03.2004

(57.060 Knoten, 532.857 Kanten)

weitere Daten auf Vladimir Batageljs “Graph

Theory and Network Analysis“-Homepage unter http://vlado.fmf.uni-lj.si/vlado/vladonet.htm

offene Fragen:

➥ flexibles Datenformat?

➥ Schnittstellen für Erweiterungsmodule

(neue Clusteralgorithmen,

(34)

Einf ¨uhrung Preprocessing Visualisierung Interaktion Implementation Allgemeines Beispiel 1 Beispiel 2 Beispiel 3 Erg ¨anzungen

Beispiel 1: Klassifikation

(35)

Einf ¨uhrung Preprocessing Visualisierung Interaktion Implementation Allgemeines Beispiel 1 Beispiel 2 Beispiel 3 Erg ¨anzungen

Beispiel 2: Navigation

(36)

Einf ¨uhrung Preprocessing Visualisierung Interaktion Implementation Allgemeines Beispiel 1 Beispiel 2 Beispiel 3 Erg ¨anzungen

Beispiel 3: Preprocessing

Data Mining

Prepocessing

Visualisierung

Daten Charakteristika

der Daten

Merkmale der Daten in Form eines Bildes

Nutzerinteraktion

(manuelle) Vorver- arbeitung

Rohdaten

View

View

ge nderter Datensatz

VDM-Control

Anwendungskontext Nutzerziele

(37)

Einf ¨uhrung Preprocessing Visualisierung Interaktion Implementation Allgemeines Beispiel 1 Beispiel 2 Beispiel 3 Erg ¨anzungen

Beispiel 3: Preprocessing

Data Mining

Information Visualization Visual Data Exploration

Exploratory Data Analysis visuell

abstrakt

statisch interaktiv

(38)

Einf ¨uhrung Preprocessing Visualisierung Interaktion Implementation Erg ¨anzungen Uberblick¨

Ergänzungen

(39)

Einf ¨uhrung Preprocessing Visualisierung Interaktion Implementation Erg ¨anzungen Uberblick¨

Überblick

Preprocessing & Visualisierung von Hypergraphen

Parameter & Visualisierung auf anderen Anwendungsgebieten

Parameterapproximation

Dekomposition von “real-world-data“ und ihre Bedeutung

Suche bestimmter Konfigurationen

mögliche Automatisierung

Referenzen

ÄHNLICHE DOKUMENTE

Ein Pendel mit gegebenen Anfangsbedingungen liegt ˙ bei kleinen Amplituden auf einem Kreis in diesem Diagramm.. All m¨ oglichen Anfangsbedingungen f¨ uhren zu

Es ist dann zwar richtig, dass wir einen materiellen Gegenstand nur anhand sinnlicher Wahrnehmungen re-identifizieren, aber es stimmt auch, dass wir, wenn wir den Gegenstand denken,

[r]

Man berechne die durchschnittliche Anzahl und die Varianz der Anzahl der zuf¨ allig ankommenden Kunden w¨ ahrend der gesamten ¨ Offnungszeit des Gesch¨ afts.. Wie groß ist

We extend the space by adding points at infinity, an idea due to the artists of renascimento: pencils of parallel lines are in 1-1-correspondence with points at infinity - the lines

[r]

Die Hauptabfrage ¨ubergibt pro Zeile von PERS jeweils den aktuellen ABTNR- Wert an die Korrelationsvariable u.Abtnr: Mit diesem Wert ermittelt die Unterab- frage die

Anorganische Strukturchemie Vorlage