Next
• DM und KDD, Phasen
• Aufgabenstellungen des DM
• Wissensrepräsentation
• Wissensrepräsentation
• Entscheidungsbäume I – Repräsentation
• Entscheidungsbäume II – Lernen
• Entscheidungsbäume III – Praktisch – Ausblick ID3 zu C4.5
– Ein Problem – Ein Problem – Tools
– RapidMiner
ID3-Algorithmus
• Wie beschrieben mit Gain als Auswahlkriterium des Attributes
• Entwickler Ross Quinlan (Sydney)
Exkurs
• Kein Backtracking => nicht optimal, lokale Minima mgl.
• ID3 sehr erfolgreich, Zerlegung anhand des Informationsgewinns einleuchtend
• Kleine Probleme in der Praxis, deshalb von Quinlan weiterentwickelt zu
• C4.5 (J48 in Weka, DecisionTree in RapidMiner) [Quinlan1993]
• C4.5 (J48 in Weka, DecisionTree in RapidMiner) [Quinlan1993]
• C5.0 (kommerziell, unveröff. Verfahren, ähnlich C4.5 aber schneller)
Probleme des ID3 – Ein Beispiel
Hinter einem Vorhang verbirgt sich ein Mitarbeiter oder Professor des Fachbereiches. Sie sollen herausbekommen, wer es ist.
Exkurs
Welches Attribut fragen Sie als erstes ab?
Problem des Information Gain (möglichst reine Knoten)
– Attribute mit vielen Attributwerten werden stark bevorzugt, denn sie enthalten sehr viel Information – bis zur Identifikation
• Andere Maße um das beste Attribut zu bestimmen
– Gain ratio (möglichst reine Knoten, aber nicht zu viele)
Probleme des ID3
• Attribute mit vielen Werten (Primärschlüssel, ID)
• Numerische Werte
Exkurs
Numerische Werte
• Fehlende Werte
– Bei der Baumkonstruktion – Beim Klassifizieren
• Overfitting: 100% Beherrschung der Testdaten ist nicht notwendig, Prepruning vermeidet overfitting
⇒ Diese Probleme sind gelöst im C4.5
⇒ Diese Probleme sind gelöst im C4.5
Tools
Kostenfreie Nutzung:
• oft Duale Lizenz: GPL + kommerzielle mit Service und Erweiterungen Exkurs
• RapidMiner Open + Closed Source, Uni. Dortmund + Rapid-I GmbH (Dortmund)
• WEKA GPL, Universität von Waikato (Neuseeland)
• KNIME GPL + dual, Uni. Konstanz + KNIME.com GmbH (Zürich)
• Orange GPL + Qt, University of Ljubljana (Slowenien)
• Rattle in R, Open Source, Fa. Togaware (Australien)
• Rattle in R, Open Source, Fa. Togaware (Australien)
• R GPL, Programmiersprache
Umfrage in Kdnuggets, 2010
Which data mining/analytic tools you used in the past 12 months for a real
Exkurs
12 months for a real project (not just
evaluation)
[912 Teilnehmer]
Vielfalt kostenloser Werkzeuge
Werkzeuge
Werden die kostenlosen Werkzeuge tatsächlich verwendet?
Exkurs
Ja.
In Europa.
KD nuggets,
Seminare-Angebote von rapid-i (Stand April 09)
Exkurs
2012
RapidMiner
• Data Mining Tool
• ehemals YALE (Yet Another Learning Environment)
• open source (Community Edition), JAVA
• open source (Community Edition), JAVA
• GUI oder offline
• DM-Prozess als Operatorgraph, XML-File
• Operator: erwartet Input und Parameter, liefert Output
Parameter:
Parameter:
criterion, minimal_size_for_split, ...
Open Source
Exkurs
RapidMiner Operatoren
• Data preprocessing operators
• Feature operators
• Machine learning algorithms
*
*
Exkurs
• Machine learning algorithms für numerische Prognose
und Klassifikation: SVM,
Decisiontrees, Lazy, Bayes, KNN, KNN, ..., Metalernen
• Meta operators
• Performance evaluation
* *
*
• Visualization
• In- and output
RapidMiner – TDIDT
ID3 oder
DecisionTree (C4.5)
Tree
outlook = overcast: yes
DecisionTree (C4.5) outlook = overcast: yes
outlook = rainy
| windy = FALSE: yes
| windy = TRUE: no outlook = sunny
| humidity = high: no
| humidity = normal: yes
Next
• DM und KDD, Phasen
• Aufgabenstellungen des DM
• Wissensrepräsentation
• Wissensrepräsentation
• Entscheidungsbäume I – Repräsentation
• Entscheidungsbäume II – Lernen
• Entscheidungsbäume III – Praktisch
– Erinnerung an die Übung: Rapidminer, Scatterplot, ID3, Decisiontree
• Performance von Klassifikatoren
• Ethik
• Ethik
In der Übung:
• Protokoll
• Protokoll
• Datenmenge öffnen, visualisieren, Streudiagramm
• Baum mit ID3 aus Datenmenge erzeugen
• Modell anwenden auf unbekannten Datensatz
• Entscheidungsbaum der Tiere – Tiefe 20, Tiefe 4
Streudiagramm (Scatterplot)
• 2 Variablen als Achsen, ein Punkt pro Datensatz
• Überdeckung von Punkten durch Jitter vermeidbar
• Explorative Analyse: bivariate Korrelationen, Cluster, Kompaktheit,
• Explorative Analyse: bivariate Korrelationen, Cluster, Kompaktheit, Streuung
Beispiel:
Wovon hängt der
Nachtstrom-Verbrauch ab?
chtstromverbrauch
ab?
Ursache oder nur chts
tromverbrauch
Matrix aller Streudiagramme
• Auch
Scatterplotmatrix (SPLOM)
(SPLOM) k Variablen ->
k x k - Matrix Matrixelemente:
Streudiagramme Einfärbung (blau, rot)
durch Zielklasse durch Zielklasse
Welche Merkmale sind abhängig?
Reale SPLOM für Hypothesenbildung
Exkurs
Welche Merkmale eignen sich für die Klassifizierung?
Cluster
Visual Analytics (Sonderheft (Sonderheft
Informatikspektrum , Dezember 2010)
Welche Merkmale sind abhängig?
Reale SPLOM für Hypothesenbildung
Exkurs
Welche Merkmale eignen sich für die Klassifizierung?
Cluster
Visual Analytics (Sonderheft (Sonderheft
Informatikspektrum , Dezember 2010)
Welche Merkmale sind abhängig?
Reale SPLOM für Hypothesenbildung
Exkurs
Welche Merkmale eignen sich für die Klassifizierung?
Cluster
Visual Analytics (Sonderheft (Sonderheft
Informatikspektrum , Dezember 2010)
Welche Merkmale sind abhängig?
Reale SPLOM für Hypothesenbildung
Exkurs
Welche Merkmale eignen sich für die Klassifizierung?
Cluster
Visual Analytics (Sonderheft (Sonderheft
Informatikspektrum , Dezember 2010)
Spongebob und Crabs
• Lernen von Objektbeschreibungen durch Zeigen von Beispielen
Exkurs
• Diplomarbeit Benjamin Kieper:
Entwurf und Implementierung einer Anwendung zum dialogbasierten, überwachten Lernen von Objektmodellen aus Bildern
Einschätzung des Gelernten
Fragen in der Praxis:
1. Welche Lernmethoden sollen auf welches Problem 1. Welche Lernmethoden sollen auf welches Problem
angewendet werden?
2. Welcher trainierte Klassifizierer (Modell) soll letztendlich verwendet werden?
=> Lernmethoden und Modelle müssen verglichen werden.
=> Lernmethoden und Modelle müssen verglichen werden.
Next
• Performance von Klassifikatoren, Einschätzung des Gelernten, – Konfusionsmatrix
– Fehlermaße: Fehlerrate, Erfolgsrate – Fehlermaße: Fehlerrate, Erfolgsrate – Resubstitutions-Fehler
– Bsp kNearest Neighbor -> Der Resubstitutionsfehler hat ein Problem
• Fehlerschätzung – Wie sieht die Praxis aus:
– Holdout-Methode + Stratifikation + Wiederholung -> Kreuzvalidierung – leave-one-out, bootstrap
– leave-one-out, bootstrap
• Ethik und Data Mining
Güte eines Modells
Wie kann die Prognosegüte eines Modells beurteilt werden:
Wir schätzen die Performance (bspw. Fehlerrate, Erfolgsrate), die das Modell bei seiner Anwendung in der Praxis erreichen
das Modell bei seiner Anwendung in der Praxis erreichen wird.
Wie? Zwei Wege
– Einfacher Weg
– Besserer Weg
– Besserer Weg
Modell auf bekannte Daten anwenden
1. Modell erstellen
2. Modell auf die Daten anwenden und Prognose der Klasse
und Prognose der Klasse ermitteln (prediction)
3. Performance berechnen aus
Vergleich der ermittelten mit der tatsächlichen Klasse
• Vielzahl von Performancemaßen
Konfusionsmatrix
Gegenüberstellung der Häufigkeiten der ermittelten Klassen (predicted) und der tatsächlichen Klassen (real) eines Testfalles.
Hauptdiagonale = richtig
Vorhergesagte
Vorhergesagte
Aus der Konfusionsmatrix: Erfolgsrate, Fehlerrate
• Erfolgsrate = #richtig Vorhergesagte / #Alle
• Fehlerrate = #falsch Vorhergesagte / #Alle
• Engl. accuracy, classification error
• Engl. accuracy, classification error
Beispiel:
Erfolgsrate =
(12+9+9+5) / 192
= 18.2%
Fehlerrate = Fehlerrate =
(7+3+…+12+3) / 192
= 81.8%
Genau 2 Klassen: {ja, nein}, {positiv, negativ}, {0,1}, {wahr, falsch}, {krank, gesund} …
Konfusionsmatrix 2 x 2:
Spezialfall: Konfusionsmatrix bei binärer Klassifikation
Exkurs
Konfusionsmatrix 2 x 2:
Tatsächliche Klasse positiv negativ
Ermittelte Klasse
positiv TP = True positive
FP = False positiv negativ FN = False
negative
TN = True negative
• Erfolgsrate = (TP+TN) / (TP + FP + FN +TN ) x
Diagnose mit 95% <Gütemaß>
krank (+), gesund (-), „Ein positiver Befund ist oft nicht positiv“
grüne Performancewerte möglichst hoch, rote niedrig
95% Erfolgsrate:
Die Diagnose stimmt in 95%
der Fälle.
95% Fehlerrate:
95% der Diagnosen sind falsch.
95%: Sensitivität:
95% der Kranken werden als krank erkannt
accuracy classification error
95% Spezifität:
95% der Gesunden werden
Weitere Maße
95% Positiver Vorhersagewert:
Von Krankgeschriebenen sind 5% gesund (und 95%
krank)
Exkurs
95% Negativer Vorhersagewert:
95% der als gesund Erklärten sind gesund.
95% Ausfallrate:
95% der Gesunden werden als krank erklärt
precision,
positiv predictive value (PPV)
= TP / (TP + FP)
negative predictive value (NPV)
= TN / (FN + TN)
krank erklärt
95% false discovery rate:
So nicht!
Wo ist das Problem?
Die Performance eines Klassifizierers auf den Trainingsdaten ist kein guter
Resubstitutionsfehler
Resubstitution = „nochmal verwenden“
• Fehlerrate eines Klassifizierers auf seinen Trainingsdaten wird als Resubstitutions- Fehler bezeichnet
• Die Trainingsdaten werden also nochmal verwendet
• Entsprechend Resubstitutions-Erfolgsrate etc.
Warum ist der Resubstitutionsfehler keine gute Schätzung für die spätere Leistung des Modells?
Beispiel: k-Nearest Neighbor (k-NN) - ein sog. Lazy learner
• Lernen hier: einfaches Speichern aller Beispiele
das Modell ist damit diese gespeicherte Beispielmenge das Modell ist damit diese gespeicherte Beispielmenge
• Anwenden auf unbekanntes x: Finden der k ähnlichsten Beispiele in der Beispielmenge -> deren häufigste Klasse ausgeben
Resubstitutionsfehler eines k-Nearest Neighbor mit k = 1
Datenmenge == Modell
a1 a2 Klasse
6 3 2
10 0 0
Exkurs
10 0 0
5 3 1
6 6 1
4 8 2
2 2 1
0 8 1
3 4 0
5 3 1
10 7 2
4 4 0
10 2 1
4 10 1
=
4 10 1
Ein Datensatz X sei (6,6)
Wie wird X durch den k-Nearest Neighbor mit k=1 klassifiziert?
Die Resubstitutions-Erfolgsrate eine k-NN mit k = 1 ist stets 100%. Ein hochangepasster Klassifikator.
Wie können wir den zukünftigen Fehler besser schätzen?
• Trotzdem wird diese Methode oft verwendet.
– Als Heuristik: ein großer Resubstitutionsfehler zeigt, dass die
Der Resubstitutionsfehler ist nicht geeignet, den Fehler während der späteren Anwendung des Klassifikators zu schätzen.
– Als Heuristik: ein großer Resubstitutionsfehler zeigt, dass die Modellierung mit diesem Lernverfahren nicht gelingt.
Holdout-Methode
• Holdout-Methode reserviert Daten für das Testen und verwendet nur den Rest fürs Training
• 2 disjunkte Mengen
• 2 disjunkte Mengen
– Trainingsdaten: Erstellung des Klassifikators, Lernen – Testdaten: Schätzung der Fehlerrate des Klassifikators
• Üblich: 1/3 Testen, 2/3 Training
Performance Konfusionsmatrix
Test
Performance
Test
der Lernmethode
anwenden auf
Konfusionsmatrix
Stratifikation
Problem: Möglicherweise sind die für die Testmenge gewählten Daten nicht repräsentativ
Stratifikation:
• Datenmenge so teilen, dass die relativen Klassenhäufigkeiten in Test- und Trainingsdaten übereinstimmen
-> Stratifizierte Holdout Methode
Wiederholtes Holdout
• Idee: Holdout-Methode mehrmals mit unterschiedlichen Datenteilungen wiederholen und
• den Mittelwert alle Fehlerraten bilden
• den Mittelwert alle Fehlerraten bilden
• damit erfolgt eine Kompensierung der Fehler, die durch Auswahl der Stichprobe entstanden sind
• Das wichtigste Verfahren des wiederholten Holdout:
Kreuzvalidierung (engl. cross validation, CV)
Kreuzvalidierung (engl. cross validation, CV)
n-fache Kreuzvalidierung (CV)
Beispiele zufällig in n Mengen (Partitionen) aufteilen, z.B. n=3 oder n=10.
Für i=1 bis n:
- i-te Menge ist Testmenge - i-te Menge ist Testmenge
- restliche n-1 Mengen sind Trainingsmenge -> Lerner erzeugt Modell i - bestimme die Leistung des Modells auf der Testmenge -> Fehler i -> n Fehlerwerte
Bestimme Mittelwert und ggf. Streuung des Fehlers -> Ergebnis der CV
• Das Ergebnis der CV ist eine Schätzung des zu erwartenden
• Das Ergebnis der CV ist eine Schätzung des zu erwartenden Generalisierungsfehlers auf unbekannten Daten.
• Das Modell für den späteren Einsatz wird mit allen verfügbaren Daten
Stratifizierte Kreuzvalidierung
• Besser: Stratifikation
– Relative Klassenhäufigkeiten in allen Partitionen annähernd gleich zur Verteilung in der Gesamtmenge
Verteilung in der Gesamtmenge – -> stratifizierte Kreuzvalidierung
• Noch besser: wiederholte Kreuzvalidierung
– Bsp: 10mal wiederholte 10fache Kreuzvalidierung – -> 100 Modelle zu lernen und zu testen
• in RapidMiner: X-Validation
• Beispiel: Erfolgsrate eines ID3 und NN auf der Datenmenge weather
Beispiel: Erfolgsrate schätzen (1)
Exkurs
Erfolgsrate schätzen (2)
• Erfolgsrate (ID3) = 63.33%
Exkurs
1 2
3
Erfolgsrate schätzen (3)
0 2 1 0
1 1 0 1
0 0 1 1
1 0 0 2
1 0 0 2
5 Konfusions- matrizen:
real
predicted Exkurs
Mittelwert Classification_error
(FP+FN)/All
3/3 1/3 1/2 0/3 0/3 36.67%
Accuracy (TP+TN)/All 0/3 2/3 1/2 3/3 3/3 63.33%
matrizen:
Standardabweichung der Erfolgsraten ei: s= 1 ( ) = 0,371184291 e
e n i −
1 2
3 3
2 6
Kumulierte Konfusionsmatrix:
n
Erfolgsrate schätzen (4)
• Neuronales Netz
• Erfolgsrate (KNN) = 43.33 %
Exkurs
Andere Schätzverfahren – Leave one out
• Leave one out
– n-fache Kreuzvalidierung mit n=Instanzenanzahl – Testmenge = eine Instanz, Rest ist Trainingsmenge
Exkurs
– Testmenge = eine Instanz, Rest ist Trainingsmenge – Keine zufällige Stichprobenwahl -> deterministisch – Hoher Rechenaufwand: n-mal lernen
– Realistische Schätzung
Andere Schätzverfahren - Bootstrap
• Bootstrap
– aus einer Datenmenge mit n Instanzen wird n-mal zufällig eine Instanz gewählt und in die Trainingsdaten kopiert
Exkurs
gewählt und in die Trainingsdaten kopiert – Nicht gewählte Instanzen -> Testdaten
– p=1/n für jede Instanz, dass sie ausgewählt wird – p=1-1/n, dass sie nicht ausgewählt wird
– Potenzierung über n Auswahlvorgänge führt zur Wahrscheinlichkeit, dass eine bestimmte Instanz in der Trainingsmenge vorkommt von:
( 1 1 / ) 1 0 . 632
1 − − n
n
n →
→
∞− e
−1≈
– Pessimistische Schätzung, weil Trainingsmenge nur 63% der
( 1 1 / ) 1 0 . 632
1 − − n
n →
→
∞− e
−1≈
Was war
Wie würde es weiter gehen (geht es aber nicht)
Rückblick
• Konfusionsmatrix
• Fehlermaße
Exkurs
• Fehlermaße
• Resubstitutionsfehler nicht als Schätzung geeignet
• Bsp. k-Nearest Neighbor
• Fehlerschätzung: Kreuzvalidierung
Wie würde es weiter gehen (geht es aber nicht)
• Explorative Analyse: Boxplots, QQ-Plots, ROC, ...
• Explorative Analyse: Boxplots, QQ-Plots, ROC, ...
• Merkmalsselektion (Unabhängigkeit, Kontingenztabelle, Chi2-Test, ... )
• Merkmalsdiskretisierung (Diskretisieren, Normieren, …)
Auswirkungen erfolgreichen Data Minings
Auswirkungen erfolgreichen Data Minings
CRM mit Social Media Mining
Unternehmen XY betreibt eine gut gepflegte Kundendatenbank. Das Unternehmen ist ein Wellnesshotel in einer Ferienregion Bayerns. Ein Kunde, der in der Datenbank registriert ist, kündigt seine Anreise an und bucht einen Aufenthalt. Die Software zieht alle aktuellen Social Media Inhalte von diesem Kunden und alle Inhalte in denen er erwähnt wird, im Backend der CRM Software zusammen.
Exkurs
Der Hotelier loggt sich ein im CRM bevor er die Auftragsbestätigung verschickt und liest dort, dass sein bald anreisender Gast gerade extremen Stress im Job hat und letztes Wochenende dennoch eine Wanderung mit seiner Partnerin in seinem straffen Zeitplan untergebracht hat. Jetzt aber hat er ja eine Woche Urlaub. Zudem hat er auch Kommentare in diversen Langlauf-Foren geschrieben, welche die Kombination aus CRM und Social Media Monitoring Tool aufbereitet und zuordnen kann.
Der Hotelier schreibt ausgestattet mit diesem Basiswissen eine sehr personalisierte Buchungsbestätigung:
“Lieber Herr B, es freut uns, dass Sie trotz des vielen Stress den Ihnen gerade Ihr Projekt C bereitet, Zeit für einen Urlaub finden konnten. Wir freuen uns sehr darauf, Sie und Ihre Partnerin bei uns Zeit für einen Urlaub finden konnten. Wir freuen uns sehr darauf, Sie und Ihre Partnerin bei uns
Willkommen zu heißen. Bei uns können Sie übrigens jetzt im März immer noch wunderbar Langlaufen, vergessen Sie also Ihre Skier nicht! [...]”
Der Gast wird sehr direkt angesprochen, wird abgeholt wo er sich befindet etc.
Letzte Aufgabe
Die FH Brandenburg hat u.a. folgende Ziele
• hoher Anteil Studierender in der Regelstudienzeit
• hohe Absolventenquote
informativ
Exkurs
• hohe Absolventenquote
• Ziel: Studienverzögerungen frühzeitig erkennen, reagieren
• Aufgabe: Bestimmen Sie nach dem zweiten Semester die Studierenden, die aufgrund der Notenprofile einen Studienabschluss außerhalb der Regelstudienzeit erwarten lassen. Und helfen Sie ihnen.
Regelstudienzeit erwarten lassen. Und helfen Sie ihnen.
• Diskussion – Wo sehen Sie Probleme?
Data Mining und Ethik
„Die Nutzung von Data Mining-Techniken bedeutet, dass die
Nutzung der Daten weit über das hinausgehen kann, was bei der Aufnahme der Daten ursprünglich bekannt war“
Exkurs
der Aufnahme der Daten ursprünglich bekannt war“
[WF01 S.36]
d. h. für personenbezogene Daten:
…, was dem Erfassten bei der Aufnahme der Daten bewusst und von ihm geduldet war.
Bei personenbezogenen Daten befinden sich Data Mining und Datenschutz im ständigen Konflikt.
Bundesdatenschutzgesetz (BDSG)
Umgang mit pb Daten
Personenbezogene Daten: Einzelangaben über persönliche oder sachliche Verhältnisse einer bestimmten oder bestimmbaren natürlichen Person (Betroffener).
Exkurs
(Betroffener).
Grundsätze bei Erhebung, Verarbeitung, Nutzung
• Zulässigkeit (Gesetz erlaubt, Vertrag, Einwilligung)
• Zweckbindung (Festlegung, Änderung)
• Erforderlichkeit (Datensparsamkeit, Anonymisierung, Pseudonymisierung, zeitliche Dauer, Löschung)
• Transparenz (Erhebung beim Betroffenen, Unterrichtung, Auskunft)
Beispiel Kundendaten im Online-Shop
• zur Abwicklung des Kaufes, oder wegen steuerrechtlicher Aufbewahrungspflichten
• Keine andere Verwendung ohne die Einwilligung des Betroffenen erlaubt.
informativ
Exkurs
• Keine andere Verwendung ohne die Einwilligung des Betroffenen erlaubt.
(Gebot der Zweckbindung) Datenarten
• Stammdaten (Name, Anschrift, Geburtsjahr)
• erfragte Konsumvorlieben, demographische Angaben (Familienstand, Haushaltsgröße, Einkommen, Beruf, Hobbies)
• Nutzung des Dienstes (gekaufte Artikel, angesehene Artikel, Clickstream)
• Nutzung des Dienstes (gekaufte Artikel, angesehene Artikel, Clickstream)
• Profilerstellung (=Veränderung)
• Analyse des Profils: Data Mining
Beispiel Kundendaten im Online-Shop
Rechtsgrundlagen für Erhebung, Nutzung zu Werbezwecken
• Stammdaten: § 28 II Nr. 1 mit I Nr. 2 BDSG (eigener Geschäftszweck)
• Erfragte Daten: Einwilligung
• Nutzungsdaten: Einwilligung
• Profilerstellung (Verändern): Einwilligung
informativ
Exkurs
• Profilerstellung (Verändern): Einwilligung
• Verarbeitung, Durchführung Data Mining: Einwilligung?
„Informierte“ Einwilligung § 4a BDSG
• In der Regel schriftlich, besondere Hervorhebung
• Freiwillige Entscheidung als Grundlage
• Hinweis auf Zweck, Hinweis auf Folgen der Verweigerung
Beispiel: abgewählte Checkbox „Mit der Erhebung und Verwendung meiner Daten zu
Werbezwecken bin ich einverstanden. Ich weiß, dass ich mein Einverständnis jederzeit widerrufen kann.“
Werbezwecken bin ich einverstanden. Ich weiß, dass ich mein Einverständnis jederzeit widerrufen kann.“
Problem: wirksame Einwilligung zum Data Mining schwierig
Daten erheben, speichern, übermitteln und nutzen
BDSG: Datensparsamkeit, Datenvermeidung
• Verwendung personenbezogener Daten in D. restriktiv geregelt
• Schutz der Daten, Recht auf Auskunft, Berichtigung, Löschung,
Exkurs
• Schutz der Daten, Recht auf Auskunft, Berichtigung, Löschung, Verwendungsbeschränkung …
Kontroll-Problem: Datenerheber hat ein massives (existentielles?) Interesse an abgeleitetem (personenbezogenem) Wissen.
Wer kontrolliert ihn?
Starke Triebkräfte: Data Mining als Geschäftsvorteil, Sicherheitsbedürfnis, aus Neugier, Kostenersparnis, Globalisierung ..
Data Dealer – nur ein Spiel
Bei welchen Personen führen folgende Motive zur Datenweitergabe?
• Schulden und Geldprobleme: Sieglinde Bayer-Wurz, Manny Maier
• Unzufriedenheit mit der Arbeitstätigkeit: Franz Sauerzapf, Manny Maier,
informativ
Exkurs
• Unzufriedenheit mit der Arbeitstätigkeit: Franz Sauerzapf, Manny Maier, Schwester Elfriede
• Unzufriedenheit mit Lohn/Gehalt: Manny Maier, Stephan Petzold, Schwester Elfriede
• Erpressung: Dr. Ernst Krasser
• Hacker: Mara Loft, Onkel Enzo
• Rache: Manny Maier
Sie erkennen die soziale Dimension des Datenverlustes, keine der Datenquellen ist grundsätzlich habgierig, bösartig oder primär auf das Schaden anderer Personen ausgerichtet. Die Fälle Sie erkennen die soziale Dimension des Datenverlustes, keine der Datenquellen ist grundsätzlich
habgierig, bösartig oder primär auf das Schaden anderer Personen ausgerichtet. Die Fälle resultieren aus persönlichen Zwangslagen, aus denen man sich auf Kosten anderer (mit denen man sich nicht direkt auseinandersetzen muss) befreien kann. Eine direkte
Schadenswirkung auf die von der Datenweitergabe betroffene Person kann nur äußerst
Data Dealer
• Welche beiden Datenquellen verkaufen die Daten, die für die Krankenversicherung am wertvollsten sind?
– Schwester Elfriede, Vorteilsclub
informativ
Exkurs
Reales Beispiel: Rapleaf
– Identity Check API als Webservice (passt der Name zur email)
Beispiel Rapleaf informativ
Exkursw.rapleaf.com/how-it-works/w.rapleaf.com/how
Mikrogeografische Daten
informativ
Exkurs
User Tracking beim Browsen, Tool LightBeam Kreise = Besuchte Seiten eines Tages
Exkurs
LightBeam:
User Tracking:
Die besuchten Seiten
Exkurs
Seiten
informieren andere Server (Dreiecke) über eingeblendete
<IRGENDWAS>, dass Sie da sind.
Datensammler, die von vielen Webservern über Ihren Besuch informiert werden -> Profil -> Wiedererkennen
Exkurs
Liebe xxxx,
informativ
Exkurs
Du würdest dein Facebook-Login+Passwort bei einem Vorstellungsgepräch nicht
preisgeben, oder? Oder Dich beim Gespräch wenigstens einloggen? Aha, auch nicht.
Aber einen Firmenmitarbeiter zum 'Freund' erklären? Nicht mal das?
Dann aber wenigstens einer Third-Party App Zugriff aufs Profil erlauben?
Auch nicht - dann willst Du den Job (im öffentlichen Dienst) wohl gar nicht?
Speichern und Übermitteln von Daten
Sexuelle Vorlieben im BDSG
• Anonyme Daten dürfen immer gespeichert werden
• Allgemein zugängliche personenbezogene Daten im Prinzip auch
• Weitergabe von Listen erlaubt – demnächst nicht mehr?
informativ
Exkurs
• Weitergabe von Listen erlaubt – demnächst nicht mehr?
Besondere Arten personenbezogener Daten: rassische und ethnische Herkunft, politische Meinungen, religiöse oder philosophische Überzeugungen,
Gewerkschaftszugehörigkeit, Gesundheit oder Sexualleben:
Erheben, Verarbeiten und Nutzen zulässig, wenn:
• es sich um Daten handelt, die der Betroffene offenkundig öffentlich gemacht hat – Forschung, Medizin (inkl. Beauftragte)
– Abwehr von erheblichen Gefahren, Verfolgung von Straftaten von
§ 28
– Abwehr von erheblichen Gefahren, Verfolgung von Straftaten von erheblicher Bedeutung
– Organisationen ohne Erwerbszweck: Mitglieder oder Personen, die im Zusammenhang mit deren Tätigkeitszweck regelmäßig Kontakte mit ihr
Anonym – noch
Datenbank 1: A ist depressiv, er sitzt in der zweiten Reihe.
Exkurs
Datenbank 2: A ist depressiv, er sitzt rechts.
Verknüpfen von Datenbank 1 und 2 hebt die Anonymität auf:
Data Mining – Die Automatisierte Einzelentscheidung
(§ 6a BDSG, A15 Europäische Datenschutzrichtlinie)
(1) Entscheidungen, die für den Betroffenen eine rechtliche Folge nach sich ziehen oder ihn erheblich beeinträchtigen, dürfen nicht ausschließlich auf eine automatisierte Verarbeitung personenbezogener Daten gestützt werden, die der Bewertung
einzelner Persönlichkeitsmerkmale dienen.
informativ
Exkurs
einzelner Persönlichkeitsmerkmale dienen.
(2) Dies gilt nicht, wenn
1. die Entscheidung im Rahmen des Abschlusses oder der Erfüllung eines
Vertragsverhältnisses oder eines sonstigen Rechtsverhältnisses ergeht und dem Begehren des Betroffenen stattgegeben wurde oder
2. die Wahrung der berechtigten Interessen des Betroffenen durch geeignete
Maßnahmen gewährleistet und dem Betroffenen von der verantwortlichen Stelle Maßnahmen gewährleistet und dem Betroffenen von der verantwortlichen Stelle die Tatsache des Vorliegens einer Entscheidung im Sinne des Absatzes 1 mitgeteilt wird. Als geeignete Maßnahme gilt insbesondere die Möglichkeit des Betroffenen, seinen Standpunkt geltend zu machen. Die verantwortliche Stelle ist verpflichtet,
Automatisierte Einzelentscheidung (ausschließliche)
§ 6a BDSG
Rechtliche Folge?
Nicht erlaubt Standard
informativ
Exkurs
Erhebliche Beeinträch-
tigung?
nein
Im Rahmen Rechts- Verhältnis?
ja ja
ja
Maßnahmen Interessen-
Wahrung?
Nicht erlaubt
nein
Mitteilung?
ja
nein
Standard
Begehren stattgegeben?
ja nein
Konsequenzen des Data Mining
Mögliche persönliche Nebenwirkungen
• Wann wird Diskrimination zu Diskriminierung?
Exkurs
• Wann wird Diskrimination zu Diskriminierung?
• Dem Ausgewählten entsteht ein
– Vorteil: Kündigerprävention, Jobangebote für beste Studenten, Ehepartner, personalisierte Angebote, günstige
Krankenversicherung
– Nachteil: Zahlungsart, Kredit abgelehnt, Bewerbung, Terrorist,
Mietvertrag, nicht bester Student, Kosten für Kündigerprävention, Mietvertrag, nicht bester Student, Kosten für Kündigerprävention, teure Krankenversicherung
Konsequenzen des Data Mining
Mögliche gesellschaftliche Nebenwirkungen (negative)
– Ständige Profilbildung, Belanglose Daten
Exkurs
– Ständige Profilbildung, Belanglose Daten
– Verhaltensänderung durch gefühlte Beobachtung, Selbstzensur – Identifikation, Profilabruf, Prognose im täglichen Leben
• Einschränkung der Handlungsfreiheit
• Manipulation ‘freier’ Entscheidungen
– Personalisierte Filterblase: Google Suchergebnisse, Facebook-Timeline, News: Ausblenden ‘uninteressanter’ Inhalte
– Potential sozialer Diskreditierung Einzelner (Politiker, Kritiker ..)
– Exponentielle Fehlentwicklungen durch automatische Entscheidungen
3 Tendenzen
1. Maschinelle Wahrnehmung wächst
Exkurs
1. Maschinelle Wahrnehmung wächst
2. Vernetzung der Wissensbasen wächst
3. Semantische Modellierung wächst
These 1
These 1: Wachsende maschinelle Wahrnehmung
Beispiel Gesichtserkennung – das Netz öffnet die Augen
Gesicht: frei verfügbares Merkmal, Erfassung aus Distanz
Google-Bildersuche „Einstein“ $imgtype=face, Kamera Casio Exilim (Lächeln, Schärfe auf Bekannte), Picasa online, Photoshop elements V6, iPhoto (Mac),
informativ
Exkursauf Bekannte), Picasa online, Photoshop elements V6, iPhoto (Mac),
Face.com Photo Finder: Suche in Facebook-Alben von Freunden (Upload 700 Mill.
Fotos/Monat)
Foto-Fahndung (BKA 01/07), Elektronischer Personalausweis 11/2010, Flughafen (Smart Gate), Sportstadien, Einkaufszentren, Bahnhöfe,
FIND: Facial Images National Database, Projekt in UK, Ende 2008 Erkennbarkeit
Erkennbarkeit
... von Stimmung, Alter, Geschlecht, Raucher, Programmierer, ..., ... von Blickrichtung,
• Audio Mining, bspw. Google Audio Indexing (Texte aus Youtube-Videos)
• Reality-Mining: Handy an Funkzelle, WLAN- & Bluetooth-Broadcasts, GPS
These 1: Wachsende maschinelle Wahrnehmung
informativ
Exkurs• Reality-Mining: Handy an Funkzelle, WLAN- & Bluetooth-Broadcasts, GPS aus Taxis, Routenplanung in GPS-Geräten mit aktuellen Verkehrsdaten ->
(Zeit+Ort+ID)* -> Firma Sense Networks (USA, Lateinamerika, Europa) ->
Bewegungsprofile
• RFIDs in Waren, Tieren
• Social Networks: Facebook, MySpace, StudiVZ, Xing, ...
•
These 2 und 3
Vernetzung und semantische Modellierung
• Zunehmende Integration von Datenbeständen – Bei Firmenübernahmen, Insolvenzen
– In Werbenetzwerken
informativ
Exkurs– In Werbenetzwerken
– Bei Kriminellen (Data Dealer) – Bei Behörden
• Semantische Modellierung
– Von Bildern, Videos: Ort, Zeit, andere Personen, Ereignis, ...
– Von Webseiten: Semantic Web – Von Webseiten: Semantic Web
– Durch Text-Mining, Modellierung aus natürlicher Sprache
Exkurs
http://www.informationisbeautif ul.net/visualizations/worlds- biggest-data-breaches-
Informatiker am Hebel?!
Data Mining-Resultate (bspw. Modelle) kritisch betrachten – Schätzung des Generalisierungsfehlers – schwierig!
– Prozesse ändern sich!
– Daten nicht repräsentativ, fehlerhaft, zufällige Zusammenhänge – Man findet, was man sucht
⇒ Datenschutz als Chance (Akzeptanz, Rechtssicherheit von Geschäftsmodellen)
⇒ Transparente Modelle als Chance
⇒ Datensparsamkeit, Zweckbindung
⇒ Datensparsamkeit, Zweckbindung
⇒ Respekt: Recht des Einzelnen auf informationelle Selbstbestimmung, Perspektivwechsel, Konsequenzen
Poll at KDD-2010 conference
• Wissen über Data Mining führt zur verantwortlicherem Umgang mit den eigenen Daten:
informativ
Exkurs
informativ
Exkurs
Prediction is very difficult, especially about the future.
Niels Bohr
Niels Bohr
Ausgangsfrage
Ist es möglich, die angefallenen und weiter anfallenden
riesigen Datenbestände in nützliche Informationen oder sogar Wissen umzuwandeln?
Exkurs
sogar Wissen umzuwandeln?
Ja.
Mehr, als Sie sich vorstellen können.
Mehr, als Sie sich vorstellen können.
Literatur
Literaturempfehlung
• [WF01] Witten, Ian H. ; Frank, Eibe: Data Mining. Praktische Werkzeuge und Techniken für das maschinelle Lernen. Hanser Fachbuch,2001 (12 Exemplare in der Bibliothek)
• [HK01] Han, Jiawei ; Kamber, Micheline: Data Mining. Concepts and Techniques. Morgan Kaufmann Publishers, 2001 (1 Exemplar in der Bibliothek)
der Bibliothek)
• http://www.datenschutzverein.de/ und ips-Kriterien, Teil Rechtliche Grundlagen unter http://www.datenschutz- cert.de/kriterien/Modul_MI_Rechtliche_Grundlagen.pdf
Algorithmen von Quinlan
• [Qui86] Quinlan, J.R.: Induction of decision trees. In Machine Learning 1986 Volume 1 Number 1. Springer Netherlands. Seiten 81- 106: online unter http://www.springerlink.com/content/ku63wm5513224245/fulltext.pdf
• [Qui93] J. Quinlan. C4.5: Programs for Machine Learning. Morgan Kaufmann, San Mateo, CA, 1993.
Quellennachweis
• [Ult04] Ultsch, Alfred: Anwendungen Emergenter SOM. 2004. –http://www.mathematik.uni-marburg.de/~databionics/de//?q=app Stand 18.05.2006
• [FPSS96] Fayyad, Usama ; Piatetsky-Shapiro, Gregory ; Smyth, Padhraic: From Data Mining to Knowledge Discovery in Databases. In:
• [FPSS96] Fayyad, Usama ; Piatetsky-Shapiro, Gregory ; Smyth, Padhraic: From Data Mining to Knowledge Discovery in Databases. In:
AI Magazine 17(3) (1996), S. 37–54. – http://www.kdnuggets.com/gpspubs/aimag-kdd-overview-1996-Fayyad.pdf Stand 18.05.2006
• [AG05] prudsys AG: Data Mining Cup. Webseite. 2005. – http://www.data-mining-cup.de/ Stand 18.05.2006