• Keine Ergebnisse gefunden

visualisierung Informations-

N/A
N/A
Protected

Academic year: 2021

Aktie "visualisierung Informations-"

Copied!
126
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Informations- visualisierung

Thema: 3. Darstellung von mehrdimensionalen Daten Dozent: Dr. Dirk Zeckzer

zeckzer@informatik.uni-leipzig.de Sprechstunde: nach Vereinbarung

Umfang: 2

Prüfungsfach: Modul Fortgeschrittene Computergraphik Medizininformatik, Angewandte Informatik

(2)

Informationsvisualisierung, WS 2016/2017 3-2

Übersicht

3. Darstellung von mehrdimensionalen Daten

3.1 Einleitung 3.2 Datentypen

3.3 Uni-variate Daten 3.4 Bi-variate Daten 3.5 Tri-variate Daten 3.6 Multi-variate Daten

3.7 Anordnung der Dimensionen

(3)

Informationsvisualisierung, WS 2016/2017 3-3

3.1. Einleitung

Informationsvisualisierung dient vor allem drei Zielen:

1. Erkundende Analyse

 Es gibt keine Hypothesen.

 Visualisierungsprozess zeichnet sich durch eine interaktive, ungerichtete Suche nach Strukturen aus.

 Im Ergebnis führt dies zu Visualisierungen der Daten, aus denen

Hypothesen abgeleitet werden können.

(4)

Informationsvisualisierung, WS 2016/2017 3-4

3.1. Einleitung

Informationsvisualisierung dient vor allem drei Zielen:

2. Überprüfende Analyse

 Es existieren zu überprüfende Hypothesen.

 Visualisierungsprozess unterstützt eine zielorientierte Untersuchung der Hypothesen.

 Als Ergebnis entsteht eine Visualisierung der Daten, welche mit den Hypothesen verglichen werden. Dies ermöglicht es, die

Hypothesen zu bestätigen oder zu verwerfen.

(5)

Informationsvisualisierung, WS 2016/2017 3-5

3.1. Einleitung

Informationsvisualisierung dient vor allem drei Zielen:

3. Präsentation

 Zu präsentierenden Fakten sind a priori festgelegt.

 Visualisierungsprozess besteht aus Auswahl geeigneter Präsentationstechniken.

 Ergebnis stellt eine Visualisierung der Daten von hoher

Qualität dar, welche die ausgewählten Fakten repräsentiert.

(6)

Informationsvisualisierung, WS 2016/2017 3-6

3.1. Einleitung

Referenzmodell

Daten Tabellen Visuelle

Strukturen Ansichten

Daten

Transformationen

Visuelle Abbildung

Ansichts- Transformation

Interaktion

Aufgabe

Daten Visuelle Darstellung

[CMS:17ff]

(7)

Informationsvisualisierung, WS 2016/2017 3-7

3.2. Datentypen

 Informationsvisualisierung wird in vielen Anwendungsdomänen genutzt.

 Im Prinzip kann jede Datei oder Sammlung von Dateien im Rechner Ausgangspunkt einer Informationsvisualisierung sein, einschließlich Algorithmen und Prozesse

(Softwarevisualisierung).

(8)

Informationsvisualisierung, WS 2016/2017 3-8

3.2. Datentypen

 Unterteilung von möglichen Daten in Klassen hängt eng mit Klassifikation von Wissen zusammen

 Problem kann deshalb bislang nicht endgültig gelöst werden

 Basierend auf Ideen aus Softwaremodellierung und

Datenbanken – Unterscheidung nach folgenden Elementen:

Objekte, Dinge, Einheiten, Instanzen (engl. entity)

Relationen (zwischen Objekten)

Attribute (von Objekten oder Relationen)

Operationen (auf Objekten oder Relationen)

Metadaten (Ergebnisse von Datenanalysen – abgeleitete Objekte und Relationen ggf. mit Attributen)

(9)

Informationsvisualisierung, WS 2016/2017 3-9

3.2. Datentypen

Folgende Liste enthält wesentliche Datenquellen und ihre Einordnung gemäß der Einteilung der Datentypen:

Tabellen: Objekte mit Attributen

Mediadaten: Objekte mit Attributen, teilweise auch Relationen

Graphen: Objekte und Relationen, möglicherweise mit Attributen

Prozesse: Objekte mit Operationen und Relationen, oft mit Attributen

Auswahl der Visualisierungstechnik basiert im wesentlichen zunächst auf dem Datentyp

Tabellen: multidimensionale Darstellungen

Mediadaten: multidimensionale Darstellungen, spezielle Darstellungen

Graphen: Darstellungen von Graphen (graph drawing)

Prozesse: meist basierend auf Darstellungen von Graphen

(10)

Informationsvisualisierung, WS 2016/2017 3-10

3.2. Datentypen

Tabellen

 bestehen aus mehreren Datensätzen (Objekten) d

1

,...,d

m

 enthalten für jeden Datensatz jeweils einen Wert für eine feste Menge von Attributen x

1

,...,x

n

 Die meisten Anwendungen im kaufmännischen Bereich und viele

Statistikanwendungen arbeiten mit tabellarischen Daten.

(11)

Informationsvisualisierung, WS 2016/2017 3-11

3.2. Datentypen

Mediadaten

Textdokumente: Jedes Dokument d ist formal ein Wort über einem Alphabet A, d  A*. Dokumente sind noch in Kapitel, Abschnitte, Paragraphen, Sätze und Worte (Worte im üblichen Sinn ohne Leerzeichen und Interpunktionen) untergliedert

Bilder: Bilddaten können in verschiedenen Formaten vorliegen, beschreiben jedoch letztlich ein 2 oder 3-dimensionales Array von Pixeln mit Farbwerten oder eine Vektorgraphik

Audiodaten: Folge von Frequenz- und Amplitudenwerten mit meist konstanter zeitlicher Abfolge

Filmdaten: Folge von Einzelbildern mit meist konstanter zeitlicher Abfolge

Multimediadateien: Filmdaten, Sounddaten, Bilder und Texte mit zeitlichen und räumlichen Angaben verknüpft

(12)

Informationsvisualisierung, WS 2016/2017 3-12

3.2. Datentypen

Graphen

 Graphen bestehen aus

Objekten (Knoten)

Relationen (Kanten)

 Beiden Elementtypen können Attribute zugeordnet sein

 Beispiele für Verbindungsstrukturen, welche sich durch Graphen mit unterschiedlichen Spezialisierungen abbilden lassen:

 Software-Struktur

 Metabolische Netzwerke

 Filesysteme

 Internetverbindungen

 Straßennetze

 Kommunikationssysteme

(13)

Informationsvisualisierung, WS 2016/2017 3-13

3.2. Datentypen

Prozesse

 Prozesse bestehen aus

Objekten

Relationen

Operationen

 Häufig mit Attributen

 Beispiele

 Algorithmen

 Prozesse im Software Engineering (z.B.

Softwareentwicklungsprozess)

 Geschäftsprozessmodellierungen

 Ablaufplanungen für Fabriken oder Kliniken

(14)

Informationsvisualisierung, WS 2016/2017 3-14

3.2. Datentypen

Mehrdimensionale Daten

 Auswahl der Visualisierungstechnik basierend auf Anzahl und Kategorie der Attribute

 Auswahl der visuellen Abbildung eines Attributes hängt u.a. von

seiner Kategorie ab

(15)

Informationsvisualisierung, WS 2016/2017 3-15

3.2. Datentypen

Kategorisierung I (nach Ward 2011):

Nominal: nicht numerische Werte

Kategorisch: endliche Menge von Werten, ungeordnet

Ungeordnet: unendliche Menge von Werten, ungeordnet

Geordnet: endliche oder unendliche Menge von Werten, geordnet

Ordinal: numerische Werte

Binär: 0 und 1

Diskret: natürliche oder ganze Zahlen

Kontinuierlich: reelle Zahlen

(16)

Informationsvisualisierung, WS 2016/2017 3-16

3.2. Datentypen

Kategorisierung II [nach Ward 2011]:

Skala: drei Attribute, welche Variablenmaße definieren

Ordnungsrelation:

Daten können geordnet werden

Operationen: Vergleiche

Abstandsmetrik:

Abstände zwischen zwei Objekten können berechnet werden

Operationen: Vergleiche, Addition, Subtraktion

Absolute Null:

fester kleinster Wert, z.B. Gewicht, aber nicht Temperatur

Operationen: Vergleiche, Addition, Subtraktion, Multiplikation, Division

(17)

Informationsvisualisierung, WS 2016/2017 3-17

3.2. Datentypen

Auswahl der visuellen Abbildung in Abhängigkeit von der Dimension (Anzahl der Attribute (Variablen)) der Daten

Dimension Bezeichnung

1D Uni-Variate Daten 2D Bi-Variate Daten 3D Tri-Variate Daten

≥4D Multi-Variate Daten (Hyper-Variate Daten)

(18)

Informationsvisualisierung, WS 2016/2017 3-18

3.2. Datentypen

 In der Informationsvisualisierung werden Daten in einem 2- oder 3-dimensionalen visuellen Raum dargestellt

 Im Folgenden sind die Daten meistens quantitativ

 Uni-, Bi- und Tri-Variate Daten werden normalerweise über die Position von Markierungen auf orthogonalen Achsen dargestellt

 Multi-Variate Daten sind schwieriger darzustellen

 Wahrnehmung ist sehr wichtig für die visuelle Abbildung und die

Bildung von visuellen Strukturen

(19)

Informationsvisualisierung, WS 2016/2017 3-19

3.3. Uni-Variate Daten

Gegeben:

Eine Menge von Objekten mit einem Attribute.

Frage:

Welche Verteilung hat dieses Attribut?

Zusatzinformation:

In der Regel sind nominale Attribute zur Bezeichnung der Objekte vorhanden.

[R. Spence. Information Visualization. ACM Press/Addison Wesley, New York, ISBN 0-201-59626-1, 2001, page 35]

(20)

Informationsvisualisierung, WS 2016/2017 3-20

3.3. Uni-Variate Daten

Visuelle Abbildung:

 Daten werden entlang einer Achse abgetragen

 Werte werden dargestellt als

Punkte

Balken

Segmente

Möglicherweise zusammen mit Bezeichnern

[R. Spence. Information Visualization. ACM Press/Addison Wesley, New York, ISBN 0-201-59626-1, 2001, page 35]

(21)

Informationsvisualisierung, WS 2016/2017 3-21

3.3. Uni-Variate Daten

Alternative visuelle Abbildung

 Statistische Kombination

 Die Werte können zusammengefasst werden

 Dies ist insbesondere dann sinnvoll, wenn es bei sehr vielen Daten zur Überlagerung der Punkte kommen kann

 Zum Einsatz kommen zusammenfassende statistische Verfahren

[R. Spence. Information Visualization. ACM Press/Addison Wesley, New York, ISBN 0-201-59626-1, 2001, page 35]

(22)

Informationsvisualisierung, WS 2016/2017 3-22

3.3. Uni-Variate Daten

Box-Plot

 Median:

50% der Werte liegen darüber, 50% darunter

Darstellung: Linie

 25% und 75% - Prozentteile

Darstellung: Box

 Whisker (Tukey)

Oberer Whisker: 75% + 1,5 * IQR (Interquartile Range)

Unterer Whisker: 25% - 1,5 * IQR

Darstellung: Balken

 Ausreißer

Darstellung: individuelle Datenpunkte

Bis 3 IQR: „milde Ausreißer“

[R. Spence. Information Visualization. ACM Press/Addison Wesley, New York, ISBN 0-201-59626-1, 2001, page 35]

(23)

Informationsvisualisierung, WS 2016/2017 3-23

3.3. Uni-Variate Daten

Box-Plot Varianten

 Man kann Perzentile auch nur zusätzlich einzeichnen oder nur Median und Varianz angeben

 Whisker

 2,5% und 97,5 % Quantile

 Führt immer zu Punkten außerhalb der Whisker (5% aller Punkte)

 Nicht notwendigerweise Ausreißer

[R. Spence. Information Visualization. ACM Press/Addison Wesley, New York, ISBN 0-201-59626-1, 2001, page 35]

(24)

Informationsvisualisierung, WS 2016/2017 3-24

3.3. Uni-Variate Daten

Plot Plot mit Bezeichungen Tukey Box Plot [Spence 2001]

(25)

Informationsvisualisierung, WS 2016/2017 3-25

Alternativen zur Darstellung von Tukey Boxplots 3.3. Uni-Variate Daten

[Spence 2001]

(26)

Informationsvisualisierung, WS 2016/2017 3-26

3.3. Uni-Variate Daten

Semantische Vergrößerung (Semantic zoom)

[R. Spence. Information Visualization. ACM Press/Addison Wesley, New York, ISBN 0-201-59626-1, 2001, page 39]

(27)

Informationsvisualisierung, WS 2016/2017 3-27

3.3. Uni-Variate Daten

Histogramme

Können mit statistischen Angaben angereichert werden

[Spence 2001]

(28)

Informationsvisualisierung, WS 2016/2017 3-28

3.3. Uni-Variate Daten

Pie-Chart (Tortendiagramm, Kreisdiagramm)

[R. Spence. Information Visualization. ACM Press/Addison Wesley, New York, ISBN 0-201-59626-1, 2001, page 35]

(29)

Informationsvisualisierung, WS 2016/2017 3-29

3.3. Uni-Variate Daten

Pie-Charts

Zeigen relative/anteilige Verteilung

Meist für Geschäftsgraphiken

Kaum Verwendung im wissenschaftlichen Bereich

Probleme:

Fläche und Winkel sind schwieriger zu interpretieren als Länge

Schwierig für (numerische) Vergleiche

Nutzung von vielen Pie-Charts gleichzeitig ist sehr schwierig

(30)

Informationsvisualisierung, WS 2016/2017 3-30

3.4. Bi-Variate Daten

Gegeben:

Eine Menge von Objekten mit zwei Attributen.

Frage:

Welcher Zusammenhang besteht zwischen den Attributen?

[Spence 2001]

(31)

Informationsvisualisierung, WS 2016/2017 3-31

3.4. Bi-Variate Daten

Scatterplot

Punktdarstellungen in einem kartesischen Koordinatensystem

Beispiel: Hauspreise und Anzahl der Schlafzimmer werden gegenübergestellt

[Spence 2001]

(32)

Informationsvisualisierung, WS 2016/2017 3-32

3.4. Bi-Variate Daten

Bei präsentativer Visualisierung können zusätzlich statistische

Analyseergebnisse eintragen werden

(33)

Informationsvisualisierung, WS 2016/2017 3-33

3.4. Bi-Variate Daten

Histogramme

 können verwendet werden

 Müssen allerdings gekoppelt werden (linked histograms)

Farbe

Pattern (Textur)

Interaktion

[Spence 2001]

(34)

Informationsvisualisierung, WS 2016/2017 3-34

3.5. Tri-Variate Daten

Gegeben:

Eine Menge von Objekten mit drei Attributen.

Frage:

Welcher Zusammenhang besteht zwischen den Attributen?

(35)

Informationsvisualisierung, WS 2016/2017 3-35

3.5. Tri-Variate Daten

3D-Scatterplot

 Logische oder geometrische 2D- Projektion der 3D Darstellung

 Probleme

2D-Darstellung eines 3D-Raumes

Wie bestimmt man die Werte?

Verdeckungsproblem

[Spence 2001]

(36)

Informationsvisualisierung, WS 2016/2017 3-36

3.5. Tri-Variate Daten

Alternative zu 3D-Scatterplot:

Betrachtung aller achsenparallelen Projektionen (2D- scatterplots)

Alle drei möglichen 1-1 Beziehungen können untersucht werden

[Spence 2001]

(37)

Informationsvisualisierung, WS 2016/2017 3-37

3.5. Tri-Variate Daten

Scatterplot-Matrix: Übersichtliche Anordnung von Scatterplots Brushing: Markierung gleicher Punkte

Scatter Plot Matrix mit Brushing Scatter Plot Matrix

[Spence 2001]

(38)

Informationsvisualisierung, WS 2016/2017 3-38

3.5. Tri-Variate Daten

Alternative: Repräsentation einer Dimension durch Größe oder Farbe

Nachteil: Unterschiedliche Qualität in der Darstellung macht es schwieriger, Korrelationen zu sehen

[Inspired by a lecture of J. Stasko]

(39)

Informationsvisualisierung, WS 2016/2017 3-39

3.5. Tri-Variate Daten

Mit Hilfe von Interpolation kann man auch Flächen zur Darstellung verwenden:

Schnitt-Ebenen können bei der Festlegung von Werten helfen („Flooding“)

In diesem Bereich treffen sich Informationsvisualisierung und wissenschaftliche Visualisierung

[Spence 2001]

(40)

Informationsvisualisierung, WS 2016/2017 3-40

3.6. Multi-Variate Daten

Gegeben:

Eine Menge von Objekten mit mehr als drei Attributen

Frage:

Welcher Zusammenhang besteht zwischen den Attributen?

Lösungen:

 Mehr als drei Attribute können nicht mehr nur über die Position repräsentiert werden.

 Übertragung der Tri-Variaten Ansätze

 Scatterplot-Matrizen

 Repräsentation mittels anderer visueller Attribute (z.B. Größe)

 Neue Methoden

(41)

Informationsvisualisierung, WS 2016/2017 3-41

3.6. Multi-Variate Daten

Geometrische Ansätze (Projektion)

Scatterplot-Matrizen

Auch für n-dimensionalen Fall nutzbar

Es ergeben sich 𝑛2−𝑛

2 verschiedene Koordinatenpaare

Hyperslice

Ohne strikte Festlegung auf orthogonale Projektionen

n² Schnitte fester Breite durch Daten legen

Prosection Views

Auswahl einer n-dimensionalen Teilmenge (Hyperwürfel)

Wird bei Projektion mit anderer Farbe dargestellt

[Ankerst et al. 2002]

[Cleveland W. S.: „Visualizing Data“ AT&T Bell Labortories, Murray Hill, NJ, revised edition]

(42)

Informationsvisualisierung, WS 2016/2017 3-42

3.6. Multi-Variate Daten

Scatterplot-Matrizen

[Ankerst et al. 2002]

[Cleveland W. S.: „Visualizing Data“ AT&T Bell Labortories, Murray Hill, NJ, revised edition]

(43)

Informationsvisualisierung, WS 2016/2017 3-43

3.6. Multi-Variate Daten

Hyperslice

[van Wijk, van Liere, Hyperslice, Proc. Vis 1993] [Ankerst et al. 2002]

(44)

Informationsvisualisierung, WS 2016/2017 3-44

3.6. Multi-Variate Daten

Prosection Views

[Su H., Dawkes H., Tweedie L., Spence R.: „An Interactive Visualization Tool for Tolerance Design“, Technical Report, Imperial College, London, 1995]

[Furnas G. W., Buja A.: „Prosections Views: Dimensional Inferecel through Sections and Projections“, Journal of Computational and Graphical Statistics, Vol. 3, No. 4, 1994, pp. 323-353]

[Ankerst et al. 2002]

(45)

Informationsvisualisierung, WS 2016/2017 3-45

3.6. Multi-Variate Daten

Achsenbasierte Ansätze

Scatterplot

Hyperbox

Parallele Koordinaten

Star Plot

Star Koordinaten

RadVizTM

Flexible Linked Axes

(46)

Informationsvisualisierung, WS 2016/2017 3-46

3.6. Multi-Variate Daten

Hyperbox

 Oberfläche eines dreidimensionalen Polytops wird gezeichnet

 Sichtbare Polygone bestehen aus Vierecken, die genau allen auftretenden Attributpaaren entsprechen

 Weitere Attribute können auf die Oberfläche abgebildet werden

Farbe

Textur

[Spence 2001]

[Alpen und Carten, Hyperbox, Proc. IEEE Visualization, pp. 133-139, 1991]

6D-Hyperbox

(47)

Informationsvisualisierung, WS 2016/2017 3-47

3.6. Multi-Variate Daten

Parallele Koordinaten

Es werden n parallele Achsen gezeichnet, eine pro Attribut.

Jede Achse wird auf das [Minimum, Maximum]-Intervall der auftretenden Werte des assoziierten Attributes skaliert.

Jeder Datensatz wird als Polygon dargestellt.

[Spence 2001]

[Inselberg 1985, Inselberg 1998, Wegman 1990]

(48)

Informationsvisualisierung, WS 2016/2017 3-48

3.6. Multi-Variate Daten

Parallele Koordinaten

[Spence 2001]

[Inselberg 1985, Inselberg 1998, Wegman 1990]

(49)

Informationsvisualisierung, WS 2016/2017 3-49

3.6. Multi-Variate Daten

Linienzüge zeigen lineare Abhängigkeiten der Daten.

Die Polygonzüge schneiden sich zwischen zwei Achsen in maximal einem Punkt.

Man kann Regeln für k-dimensionale Unterräume ableiten.

[Inselberg 1998]

[Ankerst et al. 2002]

(50)

Informationsvisualisierung, WS 2016/2017 3-50

3.6. Multi-Variate Daten

Leichtes Rauschen verursacht Probleme.

[Ankerst et al. 2002]

(51)

Informationsvisualisierung, WS 2016/2017 3-51

3.6. Multi-Variate Daten

Beispiele

[http://davis.wpi.edu/~xmdv/]

(52)

Informationsvisualisierung, WS 2016/2017 3-52

3.6. Multi-Variate Daten

 Nachteile von parallelen Koordinaten

Bei einer großen Anzahl von Datensätzen gibt es viele Überlappungen

Relativ unflexibel (ohne Erweiterung)

Es werden nur 𝑛 − 1 von 𝑛

2−𝑛

2 möglichen Korrelationen zwischen zwei Variablen angezeigt

Auswahl notwendig

Reihenfolge spielt eine wichtige Rolle

 Untersuchungen zeigen:

[Lane Harrison, Fumeng Yang, Steven Franconeri, Remco Chang. Ranking Visualizations of Correlation Using Weber’s Law. IEEE TVCG Vol. 20(12), 2014]

 Positive Korrelationen sind relativ schwer zu erkennen

 Negative Korrelationen sind relativ einfach zu erkennen

(53)

Informationsvisualisierung, WS 2016/2017 3-53

3.6. Multi-Variate Daten

Parallele Koordinaten

 Viele Erweiterungen

 Um die Nachteile zu beseitigen, werden verschiedene Techniken

eingesetzt

 Fokus und Kontext (Kapitel „Interaktion“)

 Brushing (Parvis, Kapitel „Interaktion“)

 Clustering

(54)

Informationsvisualisierung, WS 2016/2017 3-54

3.6. Multi-Variate Daten

Parvis – Beispiele

[http://old.vrvis.at/via/research/ang-brush/]

Brushing

(55)

Informationsvisualisierung, WS 2016/2017 3-55

3.6. Multi-Variate Daten

Parvis – Beispiele

[http://old.vrvis.at/via/research/ang-brush/]

Brushing + Histogram

(56)

Informationsvisualisierung, WS 2016/2017 3-56

3.6. Multi-Variate Daten

Parvis – Beispiele

Auswahl über Achsenabschnitte und Winkel (in rot) → Fokus

[http://old.vrvis.at/via/research/ang-brush/]

(57)

Informationsvisualisierung, WS 2016/2017 3-57

3.6. Multi-Variate Daten

[Jimmy Johansson, Revealing Structure within Clustered Parallel Coordinates Displays, InfoVis 2005]

(58)

Informationsvisualisierung, WS 2016/2017 3-58

3.6. Multi-Variate Daten

[Jimmy Johansson, Revealing Structure within Clustered Parallel Coordinates Displays, InfoVis 2005]

(59)

Informationsvisualisierung, WS 2016/2017 3-59

3.6. Multi-Variate Daten

[Jimmy Johansson, Revealing Structure within Clustered Parallel Coordinates Displays, InfoVis 2005]

(60)

Informationsvisualisierung, WS 2016/2017 3-60

3.6. Multi-Variate Daten

[Jimmy Johansson, Revealing Structure within Clustered Parallel Coordinates Displays, InfoVis 2005]

(61)

Informationsvisualisierung, WS 2016/2017 3-61

3.6. Multi-Variate Daten

Star Plot

Wenn man Achsen nicht parallel, sondern sternförmig anordnet, erhält man den Star Plot.

[Spence 2001]

(62)

Informationsvisualisierung, WS 2016/2017 3-62

3.6. Multi-Variate Daten

Star Plot Alternativen

http://seamonkey.ed.asu.edu/~behrens/asu/reports/compre/comp1.html

Ein Stern für alle Datensätze Ein Stern pro Datensatz

(63)

Informationsvisualisierung, WS 2016/2017 3-63

3.6. Multi-Variate Daten

Star-Koordinaten

 Kombination von Star Plots und Scatterplots

 Initial haben alle Achsen die gleiche Länge

 Die Punkten werden wie in der Abbildung gezeigt positioniert

 Interaktion

Skalieren der Achsen

Rotieren der Achsen

Auswahl von Punkten

8D-Star Coordinate

[http://people.cs.vt.edu/~north/infoviz/starcoords.pdf]

[E. Kandogan,“Visualizing multi-dimensional clusters, trends, and outliers using star coordinates”,Proc. of ACM SIGKDD Conference, 2001, pp.107-116.]

(64)

Informationsvisualisierung, WS 2016/2017 3-64

3.6. Multi-Variate Daten

Star-Koordinaten

[http://people.cs.vt.edu/~north/infoviz/starcoords.pdf]

[E. Kandogan,“Visualizing multi-dimensional clusters, trends, and outliers using star coordinates”,Proc. of ACM SIGKDD Conference, 2001, pp.107-116.]

(65)

Informationsvisualisierung, WS 2016/2017 3-65

RadViz

TM

Bei RadViz werden Achsen ebenfalls radial aufgespannt

Werte der einzelnen Attribute werden jedoch als Federkonstanten

interpretiert, die einen Punkt, der ein Objekt darstellt, zu einem Eckpunkt zieht

Dabei werden alle Attribute über ihr jeweiliges Min-Max-Intervall skaliert und in den nichtnegativen Raum verschoben (etwa alle auf [0, 1]).

3.6. Multi-Variate Daten

[Ankerst et al. 2002]

(66)

Informationsvisualisierung, WS 2016/2017 3-66

RadViz

TM

3.6. Multi-Variate Daten

[Ankerst et al. 2002]

(67)

Informationsvisualisierung, WS 2016/2017 3-67

[Jarry H.T. Claessen, Jarke J. van Wijk, Flexible Linked Axes for Multivariate Data Visualization, InfoVis 2011]

3.6. Multi-Variate Daten

(68)

Informationsvisualisierung, WS 2016/2017 3-68

[Jarry H.T. Claessen, Jarke J. van Wijk, Flexible Linked Axes for Multivariate Data Visualization, InfoVis 2011]

3.6. Multi-Variate Daten

(69)

Informationsvisualisierung, WS 2016/2017 3-69

[Jarry H.T. Claessen, Jarke J. van Wijk, Flexible Linked Axes for Multivariate Data Visualization, InfoVis 2011]

3.6. Multi-Variate Daten

(70)

Informationsvisualisierung, WS 2016/2017 3-70

[Jarry H.T. Claessen, Jarke J. van Wijk, Flexible Linked Axes for Multivariate Data Visualization, InfoVis 2011]

3.6. Multi-Variate Daten

(71)

Informationsvisualisierung, WS 2016/2017 3-71

[Jarry H.T. Claessen, Jarke J. van Wijk, Flexible Linked Axes for Multivariate Data Visualization, InfoVis 2011]

3.6. Multi-Variate Daten

(72)

Informationsvisualisierung, WS 2016/2017 3-72

[Jarry H.T. Claessen, Jarke J. van Wijk, Flexible Linked Axes for Multivariate Data Visualization, InfoVis 2011]

3.6. Multi-Variate Daten

(73)

Informationsvisualisierung, WS 2016/2017 3-73

[Jarry H.T. Claessen, Jarke J. van Wijk, Flexible Linked Axes for Multivariate Data Visualization, InfoVis 2011]

3.6. Multi-Variate Daten

(74)

Informationsvisualisierung, WS 2016/2017 3-74

[Jarry H.T. Claessen, Jarke J. van Wijk, Flexible Linked Axes for Multivariate Data Visualization, InfoVis 2011]

3.6. Multi-Variate Daten

(75)

Informationsvisualisierung, WS 2016/2017 3-75

[Jarry H.T. Claessen, Jarke J. van Wijk, Flexible Linked Axes for Multivariate Data Visualization, InfoVis 2011]

3.6. Multi-Variate Daten

(76)

Informationsvisualisierung, WS 2016/2017 3-76

[Jarry H.T. Claessen, Jarke J. van Wijk, Flexible Linked Axes for Multivariate Data Visualization, InfoVis 2011]

3.6. Multi-Variate Daten

(77)

Informationsvisualisierung, WS 2016/2017 3-77

[Stef van den Elzen, Jarke J. van Wijk, Small Multiples, Large Singles, EuroVis 2013]

3.6. Multi-Variate Daten

(78)

Informationsvisualisierung, WS 2016/2017 3-78

[Stef van den Elzen, Jarke J. van Wijk, Small Multiples, Large Singles, EuroVis 2013]

3.6. Multi-Variate Daten

(79)

Informationsvisualisierung, WS 2016/2017 3-79

[Stef van den Elzen, Jarke J. van Wijk, Small Multiples, Large Singles, EuroVis 2013]

3.6. Multi-Variate Daten

(80)

Informationsvisualisierung, WS 2016/2017 3-80

[Stef van den Elzen, Jarke J. van Wijk, Small Multiples, Large Singles, EuroVis 2013]

3.6. Multi-Variate Daten

(81)

Informationsvisualisierung, WS 2016/2017 3-81

[Stef van den Elzen, Jarke J. van Wijk, Small Multiples, Large Singles, EuroVis 2013]

3.6. Multi-Variate Daten

(82)

Informationsvisualisierung, WS 2016/2017 3-82

[Stef van den Elzen, Jarke J. van Wijk, Small Multiples, Large Singles, EuroVis 2013]

3.6. Multi-Variate Daten

(83)

Informationsvisualisierung, WS 2016/2017 3-83

[Stef van den Elzen, Jarke J. van Wijk, Small Multiples, Large Singles, EuroVis 2013]

3.6. Multi-Variate Daten

(84)

Informationsvisualisierung, WS 2016/2017 3-84

[Stef van den Elzen, Jarke J. van Wijk, Small Multiples, Large Singles, EuroVis 2013]

3.6. Multi-Variate Daten

(85)

Informationsvisualisierung, WS 2016/2017 3-85

[Stef van den Elzen, Jarke J. van Wijk, Small Multiples, Large Singles, EuroVis 2013]

Video

3.6. Multi-Variate Daten

(86)

Informationsvisualisierung, WS 2016/2017 3-86

3.6. Multi-Variate Daten

Dimensional Stacking

 Unterteilung der Dimensionen in Gruppen

Hauptachsen: „Hauptdimensionen“

Teilabschnitte: „Nebendimensionen“

Gut bei einer geringen Kardinalität (Anzahl von Datenpunkten)

Beschränkt in der Anzahl der Dimensionen

(87)

Informationsvisualisierung, WS 2016/2017 3-87

3.6. Multi-Variate Daten

Dimensional Stacking

Längengrad Breitengrad

Steinqualität

Bohrtiefe

(88)

Informationsvisualisierung, WS 2016/2017 3-88

3.6. Multi-Variate Daten

Stacked Histogram

Viele Ansätze versuchen mehrere Variablen in ein Histogramm zu packen

Absolutes Histogramm Relatives Histogramm

[Wikipedia.de]

[Hauser, 2006]

(89)

Informationsvisualisierung, WS 2016/2017 3-89

3.6. Multi-Variate Daten

ThemeRiver

Eine Sammlung von Dokumenten mit Zeitstempel wird in einzelne Zeitscheiben aufgeteilt

(90)

Informationsvisualisierung, WS 2016/2017 3-90

3.6. Multi-Variate Daten

 Für sehr große Objektzahlen und/oder viele Attribute kommt man mit den bisherigen Verfahren sehr schnell an die Grenze der Bildschirmauflösung

 Pro Objekt und Attribut werden viele Pixel verwendet

 Überschneidungen verhindern schnell klare Sicht auf Daten

 Pixelbasierte Verfahren (Dense Pixel Displays) verwenden die Darstellungskapazität des Bildschirms optimal

 Verwenden pro Attributwert eines Objektes genau ein Pixel

Farbe des Pixels gibt Wert an

Werte der einzelnen Attribute für alle Datensätze bilden eigene Teilfenster (subwindows)

[Ankerst et al. 2002]

(91)

Informationsvisualisierung, WS 2016/2017 3-91

3.6. Multi-Variate Daten

[Ankerst et al. 2002]

(92)

Informationsvisualisierung, WS 2016/2017 3-92

3.6. Multi-Variate Daten

Folgende Fragen stellen sich

 Wie werden die Pixel innerhalb der Teilfenster positioniert?

 Sind neben Rechtecken andere Teilfensterformen möglich?

 Wie können die Attribute (Dimensionen, Teilfenster) angeordnet

werden?

(93)

Informationsvisualisierung, WS 2016/2017 3-93

3.6. Multi-Variate Daten

Anordnung der Pixel

Suchen einer bijektiven Abbildung

𝑓: 1, … , 𝑚 → 1, … , 𝑏 × {1, … , ℎ}

𝑚 Objekte

𝑏 Teilfensterbreite

ℎ Teilfensterhöhe so dass die Funktion

𝑖=1 𝑚

𝑗=1 𝑚

𝑑 𝑓 𝑖 , 𝑓 𝑗 − 𝑑 0,0 , 𝑏 𝑖 − 𝑗

𝑚 , ℎ 𝑖 − 𝑗 𝑚

minimiert wird.

Dabei ist 𝑑(𝑓 𝑖 , 𝑓 𝑗 ) eine 𝐿𝑝-Norm (𝑝 = 1, 2): der Abstand von Pixel 𝑑𝑖 zu 𝑑𝑗.

(94)

Informationsvisualisierung, WS 2016/2017 3-94

3.6. Multi-Variate Daten

Rekursive Muster

Man kann ein Muster der Ebene wi-mal in horizontaler Richtung und dann hi fach in vertikaler Richtung zeichnen.

[Ankerst et al. 2002]

(95)

Informationsvisualisierung, WS 2016/2017 3-95

3.6. Multi-Variate Daten

[Ankerst et al. 2002]

(96)

Informationsvisualisierung, WS 2016/2017 3-96

3.6. Multi-Variate Daten

[Ankerst et al. 2002]

Hilbert-Kurve Z-Kurve

(97)

Informationsvisualisierung, WS 2016/2017 3-97

3.6. Multi-Variate Daten

Form der Teilfenster

Für Teilfenster eignen sich 2D-Arrays von Rechtecken, oder Kreissegmente.

[Ankerst et al. 2002]

(98)

Informationsvisualisierung, WS 2016/2017 3-98

3.6. Multi-Variate Daten

Kreissegmente – Beispiel

Kreissegmente stellen 50 Aktien über 20 Jahre dar

Die Anordnung der Pixel beginnt im Zentrum des Kreises und setzt sich nach außen fort indem auf einer Senkrechten zur Mittelachse des Segmentes gezeichnet wird

Alle „älteren“ Werte liegen in der Nähe des Zentrums und nahe beieinander

[Ankerst, Keim, Kriegel: „Circle segments: A technique for visually exploring large dimensional datasets“. IEEE Visualization Hot Topics 1996]

[Ankerst et al. 2002]

(99)

Informationsvisualisierung, WS 2016/2017 3-99

3.6. Multi-Variate Daten

[Ankerst et al. 2002]

(100)

Informationsvisualisierung, WS 2016/2017 3-100

3.6. Multi-Variate Daten

VisDB wurde zur Visualisierung und Erforschung von Datenbanken entwickelt

[Keim D. A., Kriegel H.-P. “VisDB: Database Exploration using Multidimensional Visualization,” Computer Graphics & Applications Journal, 1994]

Motivation:

 Datenbanken enthalten eine große Menge von Elementen in jeweils n Dimensionen

 n-dimensionale Abfrage der Datenbank

Problem: oft keine exakte Übereinstimmung

Lösung: finden von „nahen“ Elementen

(101)

Informationsvisualisierung, WS 2016/2017 3-101

3.6. Multi-Variate Daten

Wie nahe ist ein Eintrag zu einer Anfrage?

 Datensätze haben oft numerische Werte

 Jeder Wert einer Dimension hat einen gewissen Abstand zur Anfrage

 Aufsummieren der Abstände

 Relevanz ist der Kehrwert des Abstandes:

Kleiner Abstand → hohe Relevanz

Großer Abstand → geringe Relevanz

 Beispiel (5D, Integer von 0 bis 255)

Anfrage: 6, 210, 73, 45, 92

Datensatz: 8, 200, 73, 50, 91

Abstand: 2 + 10 + 0 + 5 + 1 = 18

Relevanz: 1275 – 18 = 1267

(102)

Informationsvisualisierung, WS 2016/2017 3-102

3.6. Multi-Variate Daten

Kodierung

 Berechne Relevanz aller Datensätze

 Sortiere Datensätze nach ihrer Relevanz

 Verwende Spiraltechnik zur Anordnung der Werte – von innen nach außen

 Verwende Farben zur Kodierung der Relevanz

(103)

Informationsvisualisierung, WS 2016/2017 3-103

3.6. Multi-Variate Daten

Spiraltechnik

 Höchste Relevanz im Zentrum

 Absteigende Relevanz nach außen

(104)

Informationsvisualisierung, WS 2016/2017 3-104

3.6. Multi-Variate Daten

Spiraltechnik

 5 Dimensionen

(105)

Informationsvisualisierung, WS 2016/2017 3-105

3.6. Multi-Variate Daten

Gruppierung

 Gruppiere alle Dimensionen eines Datensatzes

 Anstelle von mehreren Fenstern

(106)

Informationsvisualisierung, WS 2016/2017 3-106

3.6. Multi-Variate Daten

VisDB – Beispiele

8 Dimensionen und 1000 Datensätze

Mehrere Fenster Gruppierung

(107)

Informationsvisualisierung, WS 2016/2017 3-107

3.6. Multi-Variate Daten

VisDB – Beispiele

(108)

Informationsvisualisierung, WS 2016/2017 3-108

3.6. Multi-Variate Daten

Ordinale Attribute lassen sich gut mit Farben darstellen

 Pixeltechniken sind sogar eher für ordinale Variablen geeignet

 Mischungen von ordinalen und kontinuierlichen Attributen sind in der Regel ebenfalls möglich

Aber: Bei koordinatenachsenorientierten Verfahren

führen die ordinalen Attribute mit einer kleinen Wertmenge zu auffälligen Clustern

 Diese springen dem Anwender ins Auge und überbetonen

damit diese Attribute

(109)

Informationsvisualisierung, WS 2016/2017 3-109

3.6. Multi-Variate Daten

 Projektions- und Koordinatenachsenansätze eignen sich nur sehr begrenzt für nominale Attribute, da die

Reihenfolge der Werte künstlich erzeugt werden muss.

 Pixelbasierte Verfahren können dagegen gut mit

kategorischen Variablen umgehen, da Farben nach Kapitel

„Wahrnehmung“ im Allgemeinen nicht geordnet sind.

 Einige Techniken sind für ordinale und nominale Attribute

besonders geeignet.

(110)

Informationsvisualisierung, WS 2016/2017 3-110

3.6. Multi-Variate Daten

Iconbasierte Techniken

Bei den iconbasierten (icon = Bildelement) Techniken werden kleine Graphikelemente aufgrund der Werte eines oder

mehrerer Attribute verändert.

Darstellung auf dem Bildschirm mit Hilfe

von Werten weiterer Variablen

der geometrischen Lage

per ebenenfüllender Kurve (VisDB)

(111)

Informationsvisualisierung, WS 2016/2017 3-111

3.6. Multi-Variate Daten

Chernoff Faces

 Bei den Chernoff Faces [Chernoff 1973] wird die Tatsache ausgenutzt, dass Menschen Gesichter besonders gut unterscheiden können.

[H. Chernoff. The Use of Faces to Represent Points in k-dimensional Space Graphically, J. of American Statistical Association 68:361-368, 1973]

[Spence 2001]

[http://bradandkathy.com/software/faces.html]

(112)

Informationsvisualisierung, WS 2016/2017 3-112

3.6. Multi-Variate Daten

Chernoff Faces

 Bei den Chernoff Faces [Chernoff 1973] wird die Tatsache ausgenutzt, dass Menschen Gesichter besonders gut unterscheiden können.

[H. Chernoff. The Use of Faces to Represent Points in k-dim‘ Space Graphically, J. of American Statistical Association 68:361-368, 1973]

[Spence 2001]

(113)

Informationsvisualisierung, WS 2016/2017 3-113

3.6. Multi-Variate Daten

[Ankerst et al. 2002]

(114)

Informationsvisualisierung, WS 2016/2017 3-114

3.6. Multi-Variate Daten

Stick Figures

Bei Strichfiguren (Stick Figures) werden zwei kontinuierliche oder ordinale Attribute (falls vorhanden) zur Positionierung in der Ebene verwendet

Die übrigen Attribute werden für Winkel und/oder Längen der Striche verwendet

[Ankerst et al. 2002]

[Tufte E. R.: „The Visual Display of Quantitative Information“', Graphics Press, Cheshire, CT, 1983]

[Pickett R. M.: „Visual Analyses of Texture in the Detection and Recognition of Objects“ in: Picture Processing and Psycho-Pictorics, Lipkin B. S., Rosenfeld A. (eds.), Academic Press, New York, 1970]

(115)

Informationsvisualisierung, WS 2016/2017 3-115

3.6. Multi-Variate Daten

Texturen aus diesen Figuren ergeben dann Datencharakteristika

[Ankerst et al. 2002]

(116)

Informationsvisualisierung, WS 2016/2017 3-116

3.6. Multi-Variate Daten

Shape Coding

Nutzt kleine Rechtecke, um die einzelnen Datensätze anzuzeigen

Hält für jedes Attribut ein Teilquadrat bereit

Rechtecke werden dann geeignet angeordnet, wozu häufig die Zeit (bei Zeitreihen) verwendet wird

[Ankerst et al. 2002]

[Beddow J.: „Shape Coding of Multidimensional Data on a Mircocomputer Display“, Proc. IEEE Visualization, pp. 238-246, 1990,]

(117)

Informationsvisualisierung, WS 2016/2017 3-117

3.6. Multi-Variate Daten

[Ankerst et al. 2002]

(118)

Informationsvisualisierung, WS 2016/2017 3-118

3.7. Anordnung der Dimensionen

 Clutter reduction in Multi-Dimensional Data Visualization

[Wei Peng et al., Clutter Reduction in Multi-Dimensional Data Visualization Using Dimension Reordering, InfoVis 2004]

(119)

Informationsvisualisierung, WS 2016/2017 3-119

3.7. Anordnung der Dimensionen

 Maß für Clutter in Parallelen Koordinaten

 Annahme: Ausreißer verschleiern die Struktur

 Maß: Verhältnis von Ausreißern zur Gesamtanzahl der Datenpunkte

 𝑆

𝑜𝑢𝑡𝑙𝑖𝑒𝑟

: Anzahl der Ausreißer zwischen benachbarten Dimensionen

 Anzahl der benachbarten Paare: 𝑛 − 1

 𝑆

𝑎𝑣𝑔

=

𝑆𝑜𝑢𝑡𝑙𝑖𝑒𝑟

𝑛−1

 𝑆

𝑡𝑜𝑡𝑎𝑙

: Gesamtzahl der Datenpunkte

 𝐶 =

𝑆𝑎𝑣𝑔

𝑆𝑡𝑜𝑡𝑎𝑙

=

𝑆𝑜𝑢𝑡𝑙𝑖𝑒𝑟 𝑛−1

𝑆𝑡𝑜𝑡𝑎𝑙

=

𝑆𝑜𝑢𝑡𝑙𝑖𝑒𝑟

𝑛−1 ∙𝑆𝑡𝑜𝑡𝑎𝑙

(120)

Informationsvisualisierung, WS 2016/2017 3-120

3.7. Anordnung der Dimensionen

[Wei Peng et al., Clutter Reduction in Multi-Dimensional Data Visualization Using Dimension Reordering, InfoVis 2004]

(121)

Informationsvisualisierung, WS 2016/2017 3-121

3.7. Anordnung der Dimensionen

[Wei Peng et al., Clutter Reduction in Multi-Dimensional Data Visualization Using Dimension Reordering, InfoVis 2004]

(122)

Informationsvisualisierung, WS 2016/2017 3-122

3.7. Anordnung der Dimensionen

[Wei Peng et al., Clutter Reduction in Multi-Dimensional Data Visualization Using Dimension Reordering, InfoVis 2004]

(123)

Informationsvisualisierung, WS 2016/2017 3-123

3.7. Anordnung der Dimensionen

[Wei Peng et al., Clutter Reduction in Multi-Dimensional Data Visualization Using Dimension Reordering, InfoVis 2004]

(124)

Informationsvisualisierung, WS 2016/2017 3-124

3.7. Anordnung der Dimensionen

[Wei Peng et al., Clutter Reduction in Multi-Dimensional Data Visualization Using Dimension Reordering, InfoVis 2004]

(125)

Informationsvisualisierung, WS 2016/2017 3-125

3.7. Anordnung der Dimensionen

[Wei Peng et al., Clutter Reduction in Multi-Dimensional Data Visualization Using Dimension Reordering, InfoVis 2004]

Visualization Algorithm complexity Dataset Size Dim. Time (min) Parallel

Coordinates

𝑂(𝑛 ∙ 𝑛!) AAUP 1161 9 0:03

Cereal 77 10 0:23

Voy 744 11 4:02

Scatterplot Matrices

𝑂(𝑛2 ∙ 𝑛!) Voy 744 11 (6) 0:05

Star Glyphs 𝑂(𝑚 ∙ 𝑛 ∙ 𝑛!) AAUP 1161 9 3:13

Cars 392 7 0:18

Dimensional Stacking

𝑂(𝑚2 ∙ 𝑛!) Coal Disaster 191 5 0:10

Detroit 13 7 0:05

(126)

Informationsvisualisierung, WS 2016/2017 3-126

Literatur

R. Spence. Information Visualization. Addison-Wesley, Reading, MA, USA, 2001.

M. Ward, G. Grinstein, D. Keim. Interactive Data Visualization: foundations, techniques, and applications. A K Peters. Ltd, 2011.

M. Ankerst, G. Grinstein, D. Keim. Visual Data Mining, Tutorial at KDD 2002.

Referenzen

ÄHNLICHE DOKUMENTE

 Für Orientierung gilt eine Änderung um 30° als gut wahrnehmbar durch visuelle Vorverarbeitung (low-level).  Aber: Größenänderung von 9% ist sichtbar und Winkeldifferenzen

Mit der Hauptkomponentenanalyse (principle component analysis, PCA) kann man die n untereinander korrelierten beobachtbaren Variablen x 1 ,...,x n auf möglichst wenige

 Ordinale Tabellen (Tabellen mit nur ordinalen Attributen) lassen sich gut mit den Verfahren für Farben darstellen.  Pixeltechniken sind sogar eher für ordinale

Eine Zeichnung eines Graphen oder Digraphen heißt planar, wenn sich Kurven zweier verschiedener Kanten höchstens in Endpunkten schneiden.. Ein Graph oder Digraph heißt planar, wenn

 Geordnete Liste der Dokumente durch Auswahl von einem oder mehreren dieser Themen (nach Ähnlichkeit -

 Suche nach Mustern für inneres Modell (Vorstellung der Daten, kognitive Karte).  Internes Model interpretiert Bilder im Hinblick auf das

 Viele Ansätze versuchen mehr Variablen in Histogramm zu packen:.  Gradientenhistogramm(2D-Histogramm) in

 van Wijk, van der Wetering, Cushion Treemaps - Visualization of Hierarchical Information, Proc. of IEEE Symposium on Information