Data Preprocessing II
Sabine Queckbörner
Übersicht Übersicht
Reduktion
Aggregation von Daten Mengenreduktion
Numerosity Reduction
Diskretisierung von Datenwerten
Kompression
Kompression multidimensionaler Daten Zeichenkettenkompression
DATA PREPROCESSING II
DATA PREPROCESSING II
Aggregation von Daten Aggregation von Daten
Reduktion
Aggregation von Daten Mengenreduktion
Numerosity Reduction
Diskretisierung von Datenwerten
Kompression
Kompression multidimensionaler Daten Zeichenkettenkompression
Aggregation von Daten Aggregation von Daten
Data Cubes
verschiedene Abstraktionsebenen
Jede Abstraktionsebene reduziert die Größe der resultierenden Daten
Die höchste Abstraktionsebene und damit die größte Reduktion, wird mit der Aggregation aller Teilwürfel zu einem Gesamtwürfel erreicht.
REDUKTION
REDUKTION
Aggregation von Daten Aggregation von Daten
Data Cubes - Beispiel
2 5
1 Filiale 4 7
Filiale 3 Filiale 2 Filiale 1
Quartal 1 2 3 4
Waschmaschinen Ablufttrockner SpülmaschinenKondenstrockner
7 7
1
Waschmaschinen Filiale 4
Filiale 3 Filiale 2 Filiale 1
Wieviele Waschmaschinen wurden im ganzen Jahr in den Filialen verkauft?
Aggregation von Daten Aggregation von Daten
Data Cubes - Beispiel REDUKTION
REDUKTION
2 5
1
Filiale 4 7
Filiale 3 Filiale 2 Filiale 1
Quartal 1 2 3 4
Waschmaschinen Ablufttrockner SpülmaschinenKondenstrockner
7 Filiale 4
7 Filiale 1
1 Filiale 2
- Filiale 3
Waschmaschinen
7 7
1
Waschm.
Filiale 4 Filiale 3 Filiale 2 Filiale 1
Wieviele Waschmaschinen wurden im ganzen Jahr in den Filialen verkauft?
Mengenreduktion Mengenreduktion
Reduktion
Aggregation von Daten Mengenreduktion
Numerosity Reduction
Diskretisierung von Datenwerten
Kompression
Kompression multidimensionaler Daten Zeichenkettenkompression
Auswahlverfahren:
Schrittweise Vorwärtsauswahl
Mengenreduktion Mengenreduktion
REDUKTION REDUKTION
y z x
Start
Ende
z y x
Lösungsmenge Ausgangsmenge
y x
z
AuswahlAuswahlverfahren:
Schrittweise Vorwärtsauswahl Schrittweise Rückwärtseliminierung
Mengenreduktion Mengenreduktion
Start
y x z
Ende
z y
Lösungsmenge Ausgangsmenge
Eliminierung
y z x y z x
Auswahlverfahren:
Schrittweise Vorwärtsauswahl Schrittweise Rückwärtseliminierung Kombination aus beiden Verfahren
Mengenreduktion Mengenreduktion
REDUKTION REDUKTION
x z y
Ende
z y
x z y
Start
Lösungsmenge Ausgangsmenge
Auswahl Eliminierung
Numerosity Reduction Numerosity Reduction
Reduktion
Aggregation von Daten Mengenreduktion
Numerosity Reduction
Diskretisierung von Datenwerten
Kompression
Kompression multidimensionaler Daten Zeichenkettenkompression
Numerosity
Numerosity Reduktion Reduktion
Histogramme REDUKTION REDUKTION
0 5 10 15 20 25 30 35
1 2 3 4 5 6 7 8 9 10
Numerosity
Numerosity Reduktion Reduktion
Histogramme Clustering
Numerosity
Numerosity Reduktion Reduktion
Histogramme Clustering Sampling
Einfache zufällige Stichprobe ohne Ersetzung Einfache zufällige Stichprobe mit Ersetzung Cluster-Stichprobe
Schichtenweise Stichproben
REDUKTION
REDUKTION
Diskretisierung Diskretisierung
Reduktion
Aggregation von Daten Mengenreduktion
Numerosity Reduction
Diskretisierung von Datenwerten
Kompression
Kompression multidimensionaler Daten Zeichenkettenkompression
Diskretisierung Diskretisierung
Numerische Daten
Binning
Histogramm - Analyse Cluster - Analyse
Segmentierung durch natürliche Partitionierung
3-4-5 Regel
REDUKTION
REDUKTION
Diskretisierung Diskretisierung
3-4-5 Regel
3, 6, 7 oder 9 unterschiedliche Werte Bereich in 3 Intervalle (2-3-2 für sieben) aufteilen
2, 4 oder 8 unterschiedliche Werte Bereich in 4gleichweite Intervalle aufteilen
1, 5 oder 10 unterschiedliche Werte Bereich in 5 gleichweite Intervalle aufteilen
Diskretisierung Diskretisierung
3-4-5 Regel – Beispiel:
REDUKTION REDUKTION
63 59 43 42 37 20 13 09
Diskretisierung Diskretisierung
3-4-5 Regel – Beispiel:
63 59 43 42 37 20 13 09
7 verschiedene Werte
50 .. 69 20 .. 49
0 .. 19
63 59 43 42 37 20 13 09
Diskretisierung Diskretisierung
3-4-5 Regel – Beispiel:
REDUKTION REDUKTION
63 59 43 42 37 20 13 09
7 verschiedene Werte
50 .. 69 20 .. 49
0 .. 19
63 59 43 42 37 20 13 09
3 verschiedene Werte
42 43 37
20
40 .. 49 30 .. 39
20 .. 29
Multidimensionale Daten Multidimensionale Daten
Reduktion
Aggregation von Daten Mengenreduktion
Numerosity Reduction
Diskretisierung von Datenwerten
Kompression
Kompression multidimensionaler Daten Zeichenkettenkompression
Multidimensionale Daten Multidimensionale Daten
Transformationskodierung – Prinzip:
Transformation
•Daten anders darstellen
•Zum Beispiel Fourier-Transformation, Cosinus- Transformation, Wavelet-Transformation
Quantisierung
•Wertebereich der Bildpunkte einschränken
Kodierung
•Binärkodierung
•zum Beispiel durch Lauflängenkodierung
KOMPRESSION
KOMPRESSION
Multidimensionale Daten Multidimensionale Daten
Wavelet-Transformation - Prinzip:
Immer kleiner werdende Hochpassanteile und ein einziger Tiefpassanteil
Ursprungsbild
1.Transformation
1. Tiefpassfilterung 2. Tiefpassfilterung
2.Transformation
Multidimensionale Daten Multidimensionale Daten
Wavelet-Transformation - Beispiel:
KOMPRESSION KOMPRESSION
H1 Dx1
Dy1 Dxy1
H2
Dx1
Dy1 Dxy1
Zeichenkettenkompression Zeichenkettenkompression
Reduktion
Aggregation von Daten Mengenreduktion
Numerosity Reduction
Diskretisierung von Datenwerten
Kompression
Kompression multidimensionaler Daten Zeichenkettenkompression
Zeichenkettenkompression Zeichenkettenkompression
Dictionary-basierte Algorithmen Statistische Kodierer
Borrows-Wheeler-Transformation KOMPRESSION
KOMPRESSION
Zeichenkettenkompression Zeichenkettenkompression
Dictionary-basierte Algorithmen Statistische Kodierer
Borrows-Wheeler-Transformation
Zeichenkette umsortieren kodieren
Zeichenkettenkompression Zeichenkettenkompression
Dictionary-basierte Algorithmen Statistische Kodierer
Borrows-Wheeler-Transformation
Zeichenkette umsortieren
•quadratische Matrix erstellen
•Zeilen der Matrix alphabetisch sortieren Ausgabe:
– letzte Spalte
– Position der Ausgangszeichenkette in sortierter Matrix
kodieren
KOMPRESSION
KOMPRESSION
Zeichenkettenkompression Zeichenkettenkompression
Borrows-Wheeler-Transformation – Beispiel:
Ausgabe: ooHBaallll, 1
Zeichenkettenkompression Zeichenkettenkompression
Borrows-Wheeler-Transformation – Beispiel:
KOMPRESSION KOMPRESSION
F T
1
o l l l l a a H B
0 8
9 7
8 6
7 5
6 4
5 3
4 2
2 1
3 0
l l a B o l l a H Eingabe: ooHBaallll, 1
B B
Zusammenfassung Zusammenfassung
Reduktion
Aggregation von Daten, Mengenreduktion, Numerosity Reduction, Diskretisierung
Kompression
Multidimensionale Daten und Zeichenketten