Probleme des ID3

(1)

ID3-Algorithmus

• Wie beschrieben mit Gain als Auswahlkriterium des Attributes

• Entwickler Ross Quinlan (Sydney)

Exkurs

• Kein Backtracking => nicht optimal, lokale Minima mgl.

• ID3 sehr erfolgreich, Zerlegung anhand des Informationsgewinns einleuchtend

• Kleine Probleme in der Praxis, deshalb von Quinlan weiterentwickelt zu

• C4.5 (J48 in Weka, DecisionTree in RapidMiner) [Quinlan1993]

• C5.0 (kommerziell, unveröff. Verfahren, ähnlich C4.5 aber schneller)

(3)

Probleme des ID3 – Ein Beispiel

Hinter einem Vorhang verbirgt sich ein Mitarbeiter oder Professor des Fachbereiches. Sie sollen herausbekommen, wer es ist.

Exkurs

Welches Attribut fragen Sie als erstes ab?

Problem des Information Gain (möglichst reine Knoten)

– Attribute mit vielen Attributwerten werden stark bevorzugt, denn sie enthalten sehr viel Information – bis zur Identifikation

• Andere Maße um das beste Attribut zu bestimmen

– Gain ratio (möglichst reine Knoten, aber nicht zu viele)

(4)

• Attribute mit vielen Werten (Primärschlüssel, ID)

• Numerische Werte

Exkurs

Numerische Werte

• Fehlende Werte

– Bei der Baumkonstruktion – Beim Klassifizieren

• Overfitting: 100% Beherrschung der Testdaten ist nicht notwendig, Prepruning vermeidet overfitting

⇒ Diese Probleme sind gelöst im C4.5

(5)

Tools

Kostenfreie Nutzung:

• oft Duale Lizenz: GPL + kommerzielle mit Service und Erweiterungen Exkurs

• RapidMiner Open + Closed Source, Uni. Dortmund + Rapid-I GmbH (Dortmund)

• WEKA GPL, Universität von Waikato (Neuseeland)

• KNIME GPL + dual, Uni. Konstanz + KNIME.com GmbH (Zürich)

• Orange GPL + Qt, University of Ljubljana (Slowenien)

• Rattle in R, Open Source, Fa. Togaware (Australien)

• R GPL, Programmiersprache

(6)

Umfrage in Kdnuggets, 2010

Which data mining/analytic tools you used in the past 12 months for a real

Exkurs

12 months for a real project (not just

evaluation)

[912 Teilnehmer]

Vielfalt kostenloser Werkzeuge

Werkzeuge

(7)

Werden die kostenlosen Werkzeuge tatsächlich verwendet?

Exkurs

Ja.

In Europa.

KD nuggets,

(8)

Seminare-Angebote von rapid-i (Stand April 09)

Exkurs

2012

(9)

RapidMiner

• Data Mining Tool

• ehemals YALE (Yet Another Learning Environment)

• open source (Community Edition), JAVA

• GUI oder offline

• DM-Prozess als Operatorgraph, XML-File

• Operator: erwartet Input und Parameter, liefert Output

Parameter:

criterion, minimal_size_for_split, ...

(10)

Open Source

Exkurs

(11)

RapidMiner Operatoren

• Data preprocessing operators

• Feature operators

• Machine learning algorithms

*

Exkurs

• Machine learning algorithms für numerische Prognose

und Klassifikation: SVM,

Decisiontrees, Lazy, Bayes, KNN, KNN, ..., Metalernen

• Meta operators

• Performance evaluation

* *

*

• Visualization

• In- and output

(12)

RapidMiner – TDIDT

ID3 oder

DecisionTree (C4.5)

Tree

outlook = overcast: yes

DecisionTree (C4.5) outlook = overcast: yes

outlook = rainy

| windy = FALSE: yes

| windy = TRUE: no outlook = sunny

| humidity = high: no

| humidity = normal: yes

(13)

Streudiagramm (Scatterplot)

• 2 Variablen als Achsen, ein Punkt pro Datensatz

• Überdeckung von Punkten durch Jitter vermeidbar

• Explorative Analyse: bivariate Korrelationen, Cluster, Kompaktheit,

• Explorative Analyse: bivariate Korrelationen, Cluster, Kompaktheit, Streuung

Beispiel:

Wovon hängt der

Nachtstrom-Verbrauch ab?

chtstromverbrauch

ab?

Ursache oder nur _ch^ts

tromverbrauch

(16)

(17)

(18)

Matrix aller Streudiagramme

• Auch

Scatterplotmatrix (SPLOM)

(SPLOM) k Variablen ->

k x k - Matrix Matrixelemente:

Streudiagramme Einfärbung (blau, rot)

durch Zielklasse durch Zielklasse

(19)

Welche Merkmale sind abhängig?

Reale SPLOM für Hypothesenbildung

Exkurs

Welche Merkmale eignen sich für die Klassifizierung?

Cluster

Visual Analytics (Sonderheft (Sonderheft

Informatikspektrum , Dezember 2010)

(20)

Reale SPLOM für Hypothesenbildung

Exkurs

Cluster

(21)

Reale SPLOM für Hypothesenbildung

Exkurs

Cluster

(22)

Reale SPLOM für Hypothesenbildung

Exkurs

Cluster

(23)

Spongebob und Crabs

• Lernen von Objektbeschreibungen durch Zeigen von Beispielen

Exkurs

• Diplomarbeit Benjamin Kieper:

Entwurf und Implementierung einer Anwendung zum dialogbasierten, überwachten Lernen von Objektmodellen aus Bildern

(24)

Einschätzung des Gelernten

Fragen in der Praxis:

1. Welche Lernmethoden sollen auf welches Problem 1. Welche Lernmethoden sollen auf welches Problem

angewendet werden?

2. Welcher trainierte Klassifizierer (Modell) soll letztendlich verwendet werden?

=> Lernmethoden und Modelle müssen verglichen ^werden.

(25)

Güte eines Modells

Wie kann die Prognosegüte eines Modells beurteilt werden:

Wir schätzen die Performance (bspw. Fehlerrate, Erfolgsrate), die das Modell bei seiner Anwendung in der Praxis erreichen

das Modell bei seiner Anwendung in der Praxis erreichen wird.

Wie? Zwei Wege

– Einfacher Weg

– Besserer Weg

(27)

Modell auf bekannte Daten anwenden

1. Modell erstellen

2. Modell auf die Daten anwenden und Prognose der Klasse

und Prognose der Klasse ermitteln (prediction)

3. Performance berechnen aus

Vergleich der ermittelten mit der tatsächlichen Klasse

• Vielzahl von Performancemaßen

(28)

Konfusionsmatrix

Gegenüberstellung der Häufigkeiten der ermittelten Klassen (predicted) und der tatsächlichen Klassen (real) eines Testfalles.

Hauptdiagonale = richtig

Vorhergesagte

(29)

Aus der Konfusionsmatrix: Erfolgsrate, Fehlerrate

• Erfolgsrate = #richtig Vorhergesagte / #Alle

• Fehlerrate = #falsch Vorhergesagte / #Alle

• Engl. accuracy, classification error

Beispiel:

Erfolgsrate =

(12+9+9+5) / 192

= 18.2%

Fehlerrate = Fehlerrate =

(7+3+…+12+3) / 192

= 81.8%

(30)

Genau 2 Klassen: {ja, nein}, {positiv, negativ}, {0,1}, {wahr, falsch}, {krank, gesund} …

Konfusionsmatrix 2 x 2:

Spezialfall: Konfusionsmatrix bei binärer Klassifikation

Exkurs

Konfusionsmatrix 2 x 2:

Tatsächliche Klasse positiv negativ

Ermittelte Klasse

positiv TP = True positive

FP = False positiv negativ FN = False

negative

TN = True negative

• Erfolgsrate = (TP+TN) / (TP + FP + FN +TN ) x

(31)

Diagnose mit 95% <Gütemaß>

krank (+), gesund (-), „Ein positiver Befund ist oft nicht positiv“

grüne Performancewerte möglichst hoch, rote niedrig

95% Erfolgsrate:

Die Diagnose stimmt in 95%

der Fälle.

95% Fehlerrate:

95% der Diagnosen sind falsch.

95%: Sensitivität:

95% der Kranken werden als krank erkannt

accuracy classification error

95% Spezifität:

95% der Gesunden werden

(32)

Weitere Maße

95% Positiver Vorhersagewert:

Von Krankgeschriebenen sind 5% gesund (und 95%

krank)

Exkurs

95% Negativer Vorhersagewert:

95% der als gesund Erklärten sind gesund.

95% Ausfallrate:

95% der Gesunden werden als krank erklärt

precision,

positiv predictive value (PPV)

= TP / (TP + FP)

negative predictive value (NPV)

= TN / (FN + TN)

krank erklärt

95% false discovery rate:

(33)

So nicht!

Wo ist das Problem?

Die Performance eines Klassifizierers auf den Trainingsdaten ist kein guter

(34)

Resubstitutionsfehler

Resubstitution = „nochmal verwenden“

• Fehlerrate eines Klassifizierers auf seinen Trainingsdaten wird als Resubstitutions- Fehler bezeichnet

• Die Trainingsdaten werden also nochmal verwendet

• Entsprechend Resubstitutions-Erfolgsrate etc.

Warum ist der Resubstitutionsfehler keine gute Schätzung für die spätere Leistung des Modells?

Beispiel: k-Nearest Neighbor (k-NN) - ein sog. Lazy learner

• Lernen hier: einfaches Speichern aller Beispiele

das Modell ist damit diese gespeicherte Beispielmenge das Modell ist damit diese gespeicherte Beispielmenge

• Anwenden auf unbekanntes x: Finden der k ähnlichsten Beispiele in der Beispielmenge -> deren häufigste Klasse ausgeben

(35)

Resubstitutionsfehler eines k-Nearest Neighbor mit k = 1

Datenmenge == Modell

a1 a2 Klasse

6 3 2

10 0 0

Exkurs

10 0 0

5 3 1

6 6 1

4 8 2

2 2 1

0 8 1

3 4 0

5 3 1

10 7 2

4 4 0

10 2 1

4 10 1

=

4 10 1

Ein Datensatz X sei (6,6)

Wie wird X durch den k-Nearest Neighbor mit k=1 klassifiziert?

(36)

Die Resubstitutions-Erfolgsrate eine k-NN mit k = 1 ist stets 100%. Ein hochangepasster Klassifikator.

Wie können wir den zukünftigen Fehler besser schätzen?

• Trotzdem wird diese Methode oft verwendet.

– Als Heuristik: ein großer Resubstitutionsfehler zeigt, dass die

Der Resubstitutionsfehler ist nicht geeignet, den Fehler während der späteren Anwendung des Klassifikators zu schätzen.

– Als Heuristik: ein großer Resubstitutionsfehler zeigt, dass die Modellierung mit diesem Lernverfahren nicht gelingt.

(37)

Holdout-Methode

• Holdout-Methode reserviert Daten für das Testen und verwendet nur den Rest fürs Training

• 2 disjunkte Mengen

– Trainingsdaten: Erstellung des Klassifikators, Lernen – Testdaten: Schätzung der Fehlerrate des Klassifikators

• Üblich: 1/3 Testen, 2/3 Training

Performance Konfusionsmatrix

Test

Performance

Test

der Lernmethode

anwenden auf

Konfusionsmatrix

(38)

Stratifikation

Problem: Möglicherweise sind die für die Testmenge gewählten Daten nicht repräsentativ

Stratifikation:

• Datenmenge so teilen, dass die relativen Klassenhäufigkeiten in Test- und Trainingsdaten übereinstimmen

-> Stratifizierte Holdout Methode

(39)

Wiederholtes Holdout

• Idee: Holdout-Methode mehrmals mit unterschiedlichen Datenteilungen wiederholen und

• den Mittelwert alle Fehlerraten bilden

• damit erfolgt eine Kompensierung der Fehler, die durch Auswahl der Stichprobe entstanden sind

• Das wichtigste Verfahren des wiederholten Holdout:

Kreuzvalidierung (engl. cross validation, CV)

(40)

n-fache Kreuzvalidierung (CV)

Beispiele zufällig in n Mengen (Partitionen) aufteilen, z.B. n=3 oder n=10.

Für i=1 bis n:

- i-te Menge ist Testmenge - i-te Menge ist Testmenge

- restliche n-1 Mengen sind Trainingsmenge -> Lerner erzeugt Modell i - bestimme die Leistung des Modells auf der Testmenge -> Fehler i -> n Fehlerwerte

Bestimme Mittelwert und ggf. Streuung des Fehlers -> Ergebnis der CV

• Das Ergebnis der CV ist eine Schätzung des zu erwartenden

• Das Ergebnis der CV ist eine Schätzung des zu erwartenden Generalisierungsfehlers auf unbekannten Daten.

• Das Modell für den späteren Einsatz wird mit allen verfügbaren Daten

(41)

Stratifizierte Kreuzvalidierung

• Besser: Stratifikation

– Relative Klassenhäufigkeiten in allen Partitionen annähernd gleich zur Verteilung in der Gesamtmenge

Verteilung in der Gesamtmenge – -> stratifizierte Kreuzvalidierung

• Noch besser: wiederholte Kreuzvalidierung

– Bsp: 10mal wiederholte 10fache Kreuzvalidierung – -> 100 Modelle zu lernen und zu testen

• in RapidMiner: X-Validation

• Beispiel: Erfolgsrate eines ID3 und NN auf der Datenmenge weather

(42)

Beispiel: Erfolgsrate schätzen (1)

Exkurs

(43)

Erfolgsrate schätzen (2)

• Erfolgsrate (ID3) = 63.33%

Exkurs

1 2

3

(44)

Erfolgsrate schätzen (3)

0 2 1 0

1 1 0 1

0 0 1 1

1 0 0 2

5 Konfusions- matrizen:

real

predicted Exkurs

Mittelwert Classification_error

(FP+FN)/All

3/3 1/3 1/2 0/3 0/3 36.67%

Accuracy (TP+TN)/All 0/3 2/3 1/2 3/3 3/3 63.33%

matrizen:

Standardabweichung der Erfolgsraten e_i: s= 1 ( ) = 0,371184291 e

e n ⁱ −

1 2

3 3

2 6

Kumulierte Konfusionsmatrix:

n

(45)

Erfolgsrate schätzen (4)

• Neuronales Netz

• Erfolgsrate (KNN) = 43.33 %

Exkurs

(46)

Andere Schätzverfahren – Leave one out

• Leave one out

– n-fache Kreuzvalidierung mit n=Instanzenanzahl – Testmenge = eine Instanz, Rest ist Trainingsmenge

Exkurs

– Testmenge = eine Instanz, Rest ist Trainingsmenge – Keine zufällige Stichprobenwahl -> deterministisch – Hoher Rechenaufwand: n-mal lernen

– Realistische Schätzung

(47)

Andere Schätzverfahren - Bootstrap

• Bootstrap

– aus einer Datenmenge mit n Instanzen wird n-mal zufällig eine Instanz gewählt und in die Trainingsdaten kopiert

Exkurs

gewählt und in die Trainingsdaten kopiert – Nicht gewählte Instanzen -> Testdaten

– p=1/n für jede Instanz, dass sie ausgewählt wird – p=1-1/n, dass sie nicht ausgewählt wird

– Potenzierung über n Auswahlvorgänge führt zur Wahrscheinlichkeit, dass eine bestimmte Instanz in der Trainingsmenge vorkommt von:

( ¹ ¹ ^/ ) ¹ ⁰ ^. ⁶³²

1 − − n

ⁿ



ⁿ

 →

^→



^∞

− e

⁻¹

≈

– Pessimistische Schätzung, weil Trainingsmenge nur 63% der

( ¹ ¹ ^/ ) ¹ ⁰ ^. ⁶³²

1 − − n 

ⁿ

 →

^→



^∞

− e

⁻¹

≈

(48)

Was war

Wie würde es weiter gehen (geht es aber nicht)

Rückblick

• Konfusionsmatrix

• Fehlermaße

Exkurs

• Fehlermaße

• Resubstitutionsfehler nicht als Schätzung geeignet

• Bsp. k-Nearest Neighbor

• Fehlerschätzung: Kreuzvalidierung

Wie würde es weiter gehen (geht es aber nicht)

• Explorative Analyse: Boxplots, QQ-Plots, ROC, ...

• Merkmalsselektion (Unabhängigkeit, Kontingenztabelle, Chi2-Test, ... )

• Merkmalsdiskretisierung (Diskretisieren, Normieren, …)

(49)

Auswirkungen erfolgreichen Data Minings

(50)

CRM mit Social Media Mining

Unternehmen XY betreibt eine gut gepflegte Kundendatenbank. Das Unternehmen ist ein Wellnesshotel in einer Ferienregion Bayerns. Ein Kunde, der in der Datenbank registriert ist, kündigt seine Anreise an und bucht einen Aufenthalt. Die Software zieht alle aktuellen Social Media Inhalte von diesem Kunden und alle Inhalte in denen er erwähnt wird, im Backend der CRM Software zusammen.

Exkurs

Der Hotelier loggt sich ein im CRM bevor er die Auftragsbestätigung verschickt und liest dort, dass sein bald anreisender Gast gerade extremen Stress im Job hat und letztes Wochenende dennoch eine Wanderung mit seiner Partnerin in seinem straffen Zeitplan untergebracht hat. Jetzt aber hat er ja eine Woche Urlaub. Zudem hat er auch Kommentare in diversen Langlauf-Foren geschrieben, welche die Kombination aus CRM und Social Media Monitoring Tool aufbereitet und zuordnen kann.

Der Hotelier schreibt ausgestattet mit diesem Basiswissen eine sehr personalisierte Buchungsbestätigung:

“Lieber Herr B, es freut uns, dass Sie trotz des vielen Stress den Ihnen gerade Ihr Projekt C bereitet, Zeit für einen Urlaub finden konnten. Wir freuen uns sehr darauf, Sie und Ihre Partnerin bei uns Zeit für einen Urlaub finden konnten. Wir freuen uns sehr darauf, Sie und Ihre Partnerin bei uns

Willkommen zu heißen. Bei uns können Sie übrigens jetzt im März immer noch wunderbar Langlaufen, vergessen Sie also Ihre Skier nicht! [...]”

Der Gast wird sehr direkt angesprochen, wird abgeholt wo er sich befindet etc.

(51)

Letzte Aufgabe

Die FH Brandenburg hat u.a. folgende Ziele

• hoher Anteil Studierender in der Regelstudienzeit

• hohe Absolventenquote

informativ

Exkurs

• hohe Absolventenquote

• Ziel: Studienverzögerungen frühzeitig erkennen, reagieren

• Aufgabe: Bestimmen Sie nach dem zweiten Semester die Studierenden, die aufgrund der Notenprofile einen Studienabschluss außerhalb der Regelstudienzeit erwarten lassen. Und helfen Sie ihnen.

Regelstudienzeit erwarten lassen. Und helfen Sie ihnen.

• Diskussion – Wo sehen Sie Probleme?

(52)

Data Mining und Ethik

„Die Nutzung von Data Mining-Techniken bedeutet, dass die

Nutzung der Daten weit über das hinausgehen kann, was bei der Aufnahme der Daten ursprünglich bekannt war“

Exkurs

der Aufnahme der Daten ursprünglich bekannt war“

[WF01 S.36]

d. h. für personenbezogene Daten:

…, was dem Erfassten bei der Aufnahme der Daten bewusst und von ihm geduldet war.

Bei personenbezogenen Daten befinden sich Data Mining und Datenschutz im ständigen Konflikt.

(53)

Bundesdatenschutzgesetz (BDSG)

Umgang mit pb Daten

Personenbezogene Daten: Einzelangaben über persönliche oder sachliche Verhältnisse einer bestimmten oder bestimmbaren natürlichen Person (Betroffener).

Exkurs

(Betroffener).

Grundsätze bei Erhebung, Verarbeitung, Nutzung

• Zulässigkeit (Gesetz erlaubt, Vertrag, Einwilligung)

• Zweckbindung (Festlegung, Änderung)

• Erforderlichkeit (Datensparsamkeit, Anonymisierung, Pseudonymisierung, zeitliche Dauer, Löschung)

• Transparenz (Erhebung beim Betroffenen, Unterrichtung, Auskunft)

(54)

Beispiel Kundendaten im Online-Shop

• zur Abwicklung des Kaufes, oder wegen steuerrechtlicher Aufbewahrungspflichten

• Keine andere Verwendung ohne die Einwilligung des Betroffenen erlaubt.

informativ

Exkurs

• Keine andere Verwendung ohne die Einwilligung des Betroffenen erlaubt.

(Gebot der Zweckbindung) Datenarten

• Stammdaten (Name, Anschrift, Geburtsjahr)

• erfragte Konsumvorlieben, demographische Angaben (Familienstand, Haushaltsgröße, Einkommen, Beruf, Hobbies)

• Nutzung des Dienstes (gekaufte Artikel, angesehene Artikel, Clickstream)

• Profilerstellung (=Veränderung)

• Analyse des Profils: Data Mining

(55)

Beispiel Kundendaten im Online-Shop

Rechtsgrundlagen für Erhebung, Nutzung zu Werbezwecken

• Stammdaten: § 28 II Nr. 1 mit I Nr. 2 BDSG (eigener Geschäftszweck)

• Erfragte Daten: Einwilligung

• Nutzungsdaten: Einwilligung

• Profilerstellung (Verändern): Einwilligung

informativ

Exkurs

• Profilerstellung (Verändern): Einwilligung

• Verarbeitung, Durchführung Data Mining: Einwilligung?

„Informierte“ Einwilligung § 4a BDSG

• In der Regel schriftlich, besondere Hervorhebung

• Freiwillige Entscheidung als Grundlage

• Hinweis auf Zweck, Hinweis auf Folgen der Verweigerung

Beispiel: abgewählte Checkbox „Mit der Erhebung und Verwendung meiner Daten zu

Werbezwecken bin ich einverstanden. Ich weiß, dass ich mein Einverständnis jederzeit widerrufen kann.“

Problem: wirksame Einwilligung zum Data Mining schwierig

(56)

Daten erheben, speichern, übermitteln und nutzen

BDSG: Datensparsamkeit, Datenvermeidung

• Verwendung personenbezogener Daten in D. restriktiv geregelt

• Schutz der Daten, Recht auf Auskunft, Berichtigung, Löschung,

Exkurs

• Schutz der Daten, Recht auf Auskunft, Berichtigung, Löschung, Verwendungsbeschränkung …

Kontroll-Problem: Datenerheber hat ein massives (existentielles?) Interesse an abgeleitetem (personenbezogenem) Wissen.

Wer kontrolliert ihn?

Starke Triebkräfte: Data Mining als Geschäftsvorteil, Sicherheitsbedürfnis, aus Neugier, Kostenersparnis, Globalisierung ..

(57)

Data Dealer – nur ein Spiel

Bei welchen Personen führen folgende Motive zur Datenweitergabe?

• Schulden und Geldprobleme: Sieglinde Bayer-Wurz, Manny Maier

• Unzufriedenheit mit der Arbeitstätigkeit: Franz Sauerzapf, Manny Maier,

informativ

Exkurs

• Unzufriedenheit mit der Arbeitstätigkeit: Franz Sauerzapf, Manny Maier, Schwester Elfriede

• Unzufriedenheit mit Lohn/Gehalt: Manny Maier, Stephan Petzold, Schwester Elfriede

• Erpressung: Dr. Ernst Krasser

• Hacker: Mara Loft, Onkel Enzo

• Rache: Manny Maier

Sie erkennen die soziale Dimension des Datenverlustes, keine der Datenquellen ist grundsätzlich habgierig, bösartig oder primär auf das Schaden anderer Personen ausgerichtet. Die Fälle Sie erkennen die soziale Dimension des Datenverlustes, keine der Datenquellen ist grundsätzlich

habgierig, bösartig oder primär auf das Schaden anderer Personen ausgerichtet. Die Fälle resultieren aus persönlichen Zwangslagen, aus denen man sich auf Kosten anderer (mit denen man sich nicht direkt auseinandersetzen muss) befreien kann. Eine direkte

Schadenswirkung auf die von der Datenweitergabe betroffene Person kann nur äußerst

(58)

Data Dealer

• Welche beiden Datenquellen verkaufen die Daten, die für die Krankenversicherung am wertvollsten sind?

– Schwester Elfriede, Vorteilsclub

informativ

Exkurs

Reales Beispiel: Rapleaf

– Identity Check API als Webservice (passt der Name zur email)

(59)

Beispiel Rapleaf _informativ

^Exkurs

w.rapleaf.com/how-it-works/w.rapleaf.com/how

(60)

Mikrogeografische Daten

informativ

Exkurs

(61)

User Tracking beim Browsen, Tool LightBeam Kreise = Besuchte Seiten eines Tages

Exkurs

(62)

LightBeam:

User Tracking:

Die besuchten Seiten

Exkurs

Seiten

informieren andere Server (Dreiecke) über eingeblendete

<IRGENDWAS>, dass Sie da sind.

(63)

Datensammler, die von vielen Webservern über Ihren Besuch informiert werden -> Profil -> Wiedererkennen

Exkurs

(64)

Liebe xxxx,

informativ

Exkurs

Du würdest dein Facebook-Login+Passwort bei einem Vorstellungsgepräch nicht

preisgeben, oder? Oder Dich beim Gespräch wenigstens einloggen? Aha, auch nicht.

Aber einen Firmenmitarbeiter zum 'Freund' erklären? Nicht mal das?

Dann aber wenigstens einer Third-Party App Zugriff aufs Profil erlauben?

Auch nicht - dann willst Du den Job (im öffentlichen Dienst) wohl gar nicht?

(65)

Speichern und Übermitteln von Daten

Sexuelle Vorlieben im BDSG

• Anonyme Daten dürfen immer gespeichert werden

• Allgemein zugängliche personenbezogene Daten im Prinzip auch

• Weitergabe von Listen erlaubt – demnächst nicht mehr?

informativ

Exkurs

• Weitergabe von Listen erlaubt – demnächst nicht mehr?

Besondere Arten personenbezogener Daten: rassische und ethnische Herkunft, politische Meinungen, religiöse oder philosophische Überzeugungen,

Gewerkschaftszugehörigkeit, Gesundheit oder Sexualleben:

Erheben, Verarbeiten und Nutzen zulässig, wenn:

• es sich um Daten handelt, die der Betroffene offenkundig öffentlich gemacht hat – Forschung, Medizin (inkl. Beauftragte)

– Abwehr von erheblichen Gefahren, Verfolgung von Straftaten von

§ 28

– Abwehr von erheblichen Gefahren, Verfolgung von Straftaten von erheblicher Bedeutung

– Organisationen ohne Erwerbszweck: Mitglieder oder Personen, die im Zusammenhang mit deren Tätigkeitszweck regelmäßig Kontakte mit ihr

(66)

Anonym – noch

Datenbank 1: A ist depressiv, er sitzt in der zweiten Reihe.

Exkurs

Datenbank 2: A ist depressiv, er sitzt rechts.

Verknüpfen von Datenbank 1 und 2 hebt die Anonymität auf:

(67)

Data Mining – Die Automatisierte Einzelentscheidung

(§ 6a BDSG, A15 Europäische Datenschutzrichtlinie)

(1) Entscheidungen, die für den Betroffenen eine rechtliche Folge nach sich ziehen oder ihn erheblich beeinträchtigen, dürfen nicht ausschließlich auf eine automatisierte Verarbeitung personenbezogener Daten gestützt werden, die der Bewertung

einzelner Persönlichkeitsmerkmale dienen.

informativ

Exkurs

einzelner Persönlichkeitsmerkmale dienen.

(2) Dies gilt nicht, wenn

1. die Entscheidung im Rahmen des Abschlusses oder der Erfüllung eines

Vertragsverhältnisses oder eines sonstigen Rechtsverhältnisses ergeht und dem Begehren des Betroffenen stattgegeben wurde oder

2. die Wahrung der berechtigten Interessen des Betroffenen durch geeignete

Maßnahmen gewährleistet und dem Betroffenen von der verantwortlichen Stelle Maßnahmen gewährleistet und dem Betroffenen von der verantwortlichen Stelle die Tatsache des Vorliegens einer Entscheidung im Sinne des Absatzes 1 mitgeteilt wird. Als geeignete Maßnahme gilt insbesondere die Möglichkeit des Betroffenen, seinen Standpunkt geltend zu machen. Die verantwortliche Stelle ist verpflichtet,

(68)

Automatisierte Einzelentscheidung (ausschließliche)

§ 6a BDSG

Rechtliche Folge?

Nicht erlaubt Standard

informativ

Exkurs

Erhebliche Beeinträch-

tigung?

nein

Im Rahmen Rechts- Verhältnis?

ja ja

ja

Maßnahmen Interessen-

Wahrung?

Nicht erlaubt

nein

Mitteilung?

ja

nein

Standard

Begehren stattgegeben?

ja nein

(69)

Konsequenzen des Data Mining

Mögliche persönliche Nebenwirkungen

• Wann wird Diskrimination zu Diskriminierung?

Exkurs

• Wann wird Diskrimination zu Diskriminierung?

• Dem Ausgewählten entsteht ein

– Vorteil: Kündigerprävention, Jobangebote für beste Studenten, Ehepartner, personalisierte Angebote, günstige

Krankenversicherung

– Nachteil: Zahlungsart, Kredit abgelehnt, Bewerbung, Terrorist,

Mietvertrag, nicht bester Student, Kosten für Kündigerprävention, Mietvertrag, nicht bester Student, Kosten für Kündigerprävention, teure Krankenversicherung

(70)

Konsequenzen des Data Mining

Mögliche gesellschaftliche Nebenwirkungen (negative)

– Ständige Profilbildung, Belanglose Daten

Exkurs

– Ständige Profilbildung, Belanglose Daten

– Verhaltensänderung durch gefühlte Beobachtung, Selbstzensur – Identifikation, Profilabruf, Prognose im täglichen Leben

• Einschränkung der Handlungsfreiheit

• Manipulation ‘freier’ Entscheidungen

– Personalisierte Filterblase: Google Suchergebnisse, Facebook-Timeline, News: Ausblenden ‘uninteressanter’ Inhalte

– Potential sozialer Diskreditierung Einzelner (Politiker, Kritiker ..)

– Exponentielle Fehlentwicklungen durch automatische Entscheidungen

(71)

3 Tendenzen

1. Maschinelle Wahrnehmung wächst

Exkurs

1. Maschinelle Wahrnehmung wächst

2. Vernetzung der Wissensbasen wächst

3. Semantische Modellierung wächst

(72)

These 1

These 1: Wachsende maschinelle Wahrnehmung

Beispiel Gesichtserkennung – das Netz öffnet die Augen

Gesicht: frei verfügbares Merkmal, Erfassung aus Distanz

Google-Bildersuche „Einstein“ $imgtype=face, Kamera Casio Exilim (Lächeln, Schärfe auf Bekannte), Picasa online, Photoshop elements V6, iPhoto (Mac),

informativ

^Exkurs

auf Bekannte), Picasa online, Photoshop elements V6, iPhoto (Mac),

Face.com Photo Finder: Suche in Facebook-Alben von Freunden (Upload 700 Mill.

Fotos/Monat)

Foto-Fahndung (BKA 01/07), Elektronischer Personalausweis 11/2010, Flughafen (Smart Gate), Sportstadien, Einkaufszentren, Bahnhöfe,

FIND: Facial Images National Database, Projekt in UK, Ende 2008 Erkennbarkeit

Erkennbarkeit

... von Stimmung, Alter, Geschlecht, Raucher, Programmierer, ..., ... von Blickrichtung,

(73)

• Audio Mining, bspw. Google Audio Indexing (Texte aus Youtube-Videos)

• Reality-Mining: Handy an Funkzelle, WLAN- & Bluetooth-Broadcasts, GPS

These 1: Wachsende maschinelle Wahrnehmung

informativ

^Exkurs

• Reality-Mining: Handy an Funkzelle, WLAN- & Bluetooth-Broadcasts, GPS aus Taxis, Routenplanung in GPS-Geräten mit aktuellen Verkehrsdaten ->

(Zeit+Ort+ID)* -> Firma Sense Networks (USA, Lateinamerika, Europa) ->

Bewegungsprofile

• RFIDs in Waren, Tieren

• Social Networks: Facebook, MySpace, StudiVZ, Xing, ...

•

(74)

These 2 und 3

Vernetzung und semantische Modellierung

• Zunehmende Integration von Datenbeständen – Bei Firmenübernahmen, Insolvenzen

– In Werbenetzwerken

informativ

^Exkurs

– In Werbenetzwerken

– Bei Kriminellen (Data Dealer) – Bei Behörden

• Semantische Modellierung

– Von Bildern, Videos: Ort, Zeit, andere Personen, Ereignis, ...

– Von Webseiten: Semantic Web – Von Webseiten: Semantic Web

– Durch Text-Mining, Modellierung aus natürlicher Sprache

(75)

Exkurs

http://www.informationisbeautif ul.net/visualizations/worlds- biggest-data-breaches-

(76)

Informatiker am Hebel?!

Data Mining-Resultate (bspw. Modelle) kritisch betrachten – Schätzung des Generalisierungsfehlers – schwierig!

– Prozesse ändern sich!

– Daten nicht repräsentativ, fehlerhaft, zufällige Zusammenhänge – Man findet, was man sucht

⇒ Datenschutz als Chance (Akzeptanz, Rechtssicherheit von Geschäftsmodellen)

⇒ Transparente Modelle als Chance

⇒ Datensparsamkeit, Zweckbindung

⇒ Respekt: Recht des Einzelnen auf informationelle Selbstbestimmung, Perspektivwechsel, Konsequenzen

(77)

Poll at KDD-2010 conference

• Wissen über Data Mining führt zur verantwortlicherem Umgang mit den eigenen Daten:

informativ

Exkurs

(78)

informativ

Exkurs

Prediction is very difficult, especially about the future.

Niels Bohr

(79)

Ausgangsfrage

Ist es möglich, die angefallenen und weiter anfallenden

riesigen Datenbestände in nützliche Informationen oder sogar Wissen umzuwandeln?

Exkurs

sogar Wissen umzuwandeln?

Ja.

Mehr, als Sie sich vorstellen können.

(80)

Literatur

Literaturempfehlung

• [WF01] Witten, Ian H. ; Frank, Eibe: Data Mining. Praktische Werkzeuge und Techniken für das maschinelle Lernen. Hanser Fachbuch,2001 (12 Exemplare in der Bibliothek)

• [HK01] Han, Jiawei ; Kamber, Micheline: Data Mining. Concepts and Techniques. Morgan Kaufmann Publishers, 2001 (1 Exemplar in der Bibliothek)

der Bibliothek)

• http://www.datenschutzverein.de/ und ips-Kriterien, Teil Rechtliche Grundlagen unter http://www.datenschutz- cert.de/kriterien/Modul_MI_Rechtliche_Grundlagen.pdf

Algorithmen von Quinlan

• [Qui86] Quinlan, J.R.: Induction of decision trees. In Machine Learning 1986 Volume 1 Number 1. Springer Netherlands. Seiten 81- 106: online unter http://www.springerlink.com/content/ku63wm5513224245/fulltext.pdf

• [Qui93] J. Quinlan. C4.5: Programs for Machine Learning. Morgan Kaufmann, San Mateo, CA, 1993.

Quellennachweis

• [Ult04] Ultsch, Alfred: Anwendungen Emergenter SOM. 2004. –http://www.mathematik.uni-marburg.de/~databionics/de//?q=app Stand 18.05.2006

• [FPSS96] Fayyad, Usama ; Piatetsky-Shapiro, Gregory ; Smyth, Padhraic: From Data Mining to Knowledge Discovery in Databases. In:

AI Magazine 17(3) (1996), S. 37–54. – http://www.kdnuggets.com/gpspubs/aimag-kdd-overview-1996-Fayyad.pdf Stand 18.05.2006

• [AG05] prudsys AG: Data Mining Cup. Webseite. 2005. – http://www.data-mining-cup.de/ Stand 18.05.2006

Probleme des ID3 – Ein Beispiel

Next

ID3-Algorithmus

Probleme des ID3 – Ein Beispiel

Probleme des ID3

⇒ Diese Probleme sind gelöst im C4.5

⇒ Diese Probleme sind gelöst im C4.5

Tools

Umfrage in Kdnuggets, 2010

Werden die kostenlosen Werkzeuge tatsächlich verwendet?

Ja.

In Europa.

Seminare-Angebote von rapid-i (Stand April 09)

2012

RapidMiner

Parameter:

Parameter:

criterion, minimal_size_for_split, ...

Open Source

RapidMiner Operatoren

*

*

* *

*

RapidMiner – TDIDT

Next

Streudiagramm (Scatterplot)

Matrix aller Streudiagramme

Reale SPLOM für Hypothesenbildung

Reale SPLOM für Hypothesenbildung

Reale SPLOM für Hypothesenbildung

Reale SPLOM für Hypothesenbildung

Spongebob und Crabs

Einschätzung des Gelernten

Fragen in der Praxis:

1. Welche Lernmethoden sollen auf welches Problem 1. Welche Lernmethoden sollen auf welches Problem

angewendet werden?

2. Welcher trainierte Klassifizierer (Modell) soll letztendlich verwendet werden?

=> Lernmethoden und Modelle müssen verglichen werden.

=> Lernmethoden und Modelle müssen verglichen werden.

Next

Güte eines Modells

Wie kann die Prognosegüte eines Modells beurteilt werden:

Wir schätzen die Performance (bspw. Fehlerrate, Erfolgsrate), die das Modell bei seiner Anwendung in der Praxis erreichen

das Modell bei seiner Anwendung in der Praxis erreichen wird.

Wie? Zwei Wege

– Einfacher Weg

– Besserer Weg

– Besserer Weg

Modell auf bekannte Daten anwenden

Konfusionsmatrix

Hauptdiagonale = richtig

Vorhergesagte

Vorhergesagte

Aus der Konfusionsmatrix: Erfolgsrate, Fehlerrate

Spezialfall: Konfusionsmatrix bei binärer Klassifikation

Diagnose mit 95% <Gütemaß>

Weitere Maße

So nicht!

Resubstitutionsfehler

Warum ist der Resubstitutionsfehler keine gute Schätzung für die spätere Leistung des Modells?

Resubstitutionsfehler eines k-Nearest Neighbor mit k = 1

=

Wie können wir den zukünftigen Fehler besser schätzen?

Der Resubstitutionsfehler ist nicht geeignet, den Fehler während der späteren Anwendung des Klassifikators zu schätzen.

Holdout-Methode

Test

Test

Stratifikation

Wiederholtes Holdout

Kreuzvalidierung (engl. cross validation, CV)

Kreuzvalidierung (engl. cross validation, CV)

n-fache Kreuzvalidierung (CV)

Stratifizierte Kreuzvalidierung

Beispiel: Erfolgsrate schätzen (1)

Erfolgsrate schätzen (2)

1 2

3

Erfolgsrate schätzen (3)

Erfolgsrate schätzen (4)

=> Lernmethoden und Modelle müssen verglichen ^werden.

=> Lernmethoden und Modelle müssen verglichen ^werden.

( ¹ ¹ ^/ ) ¹ ⁰ ^. ⁶³²

( ¹ ¹ ^/ ) ¹ ⁰ ^. ⁶³²

Beispiel Rapleaf _informativ