• Keine Ergebnisse gefunden

Data Mining in speziellen Daten und Data Mining Anwendungen

N/A
N/A
Protected

Academic year: 2022

Aktie "Data Mining in speziellen Daten und Data Mining Anwendungen"

Copied!
40
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Data Mining in speziellen Daten und Data Mining Anwendungen

Vortrag im Rahmen des Seminars Business Intelligence -Teil II:

Data Mining & Knowledge Discovery Holger Klus

30.01.2004

(2)

Gliederung

/ Text Mining

/ Image Mining

/ Video Mining

/ Mining in räumlichen Daten

/ Soziale Aspekte

/ Zusammenfassung

(3)

Text Mining

/ Text-Mining-Anwendungen

/

Klassifizieren von Textdokumenten

/

Erkennen von Trends

/

Generieren von

Textzusammenfassungen

/

Halbautomatisches Beantworten von

Kundenanfragen

(4)

Text Mining

/ Klassifizieren von Textdokumenten

/

Preprocessing

/

Entfernen von Formatierungszeichen, HTML- Tags oder Ähnliches

/

Entfernen von Stoppworten

/ Artikel, Präpositionen, ...

/

Stammbildung

/ Zusammenfassung von Worten, die in

unterschiedlichen syntaktischen Formen im Dokument auftreten, aber vom selben Wort abstammen(Suche, suchen, gesucht, ...)

(5)

Text Mining

/ Indexierung

/

Auswahl eines Modells zur

Repräsentation von Textdokumenten

/

Vektorraummodell

/ Dokumente sind Vektoren von Wörtern

/ Sammlung von Dokumenten wird durch eine Dokumentmatrix repräsentiert, mit

A = a

i k

(6)

Text Mining

/

Gewichtung der Worte nach zwei Regeln

/

Je öfter ein Wort im Dokument enthalten ist, desto höher sein Gewicht

/

Je öfter ein Wort in allen Dokumenten enthalten ist, desto geringer sein Gewicht

/

Berechnung des Gewichtes durch

ai k=f i k∗log N ni

3,43 0 6,23 0

1,76 11,76 9,34 0

0 9,23 0 2,98

6,99 0 0.92 1,98 D1 D2 D3 D4

W1 W2 W3 W4

(7)

Text Mining

/ Dimensionsreduktion

/

Problem

/

Sehr große Dokumentmatrix

/

Dokumentmatrix nur dünn besetzt

/

Document Frequency Thresholding

/

Document Frequency: Anzahl Dokumente, in

denen ein Wort vorkommt

(8)

Text Mining

/ Anwendung eines

Klassifizierungsalgorithmus

/

kNN (k-Nearest Neighbour)

/

Eingabe: Dokumentvektor d, Trainingsmenge D

(1) Bestimmen der k ähnlichsten Nachbarn von d

(2) Gewichtung der Klassen, in denen die k ähnlichsten Nachbarn von d enthalten sind

/

Berechnung der Ähnlichkeit

/ Euklidischer Abstand

α=arccos a , b

(9)

Text Mining

/

Klassifizieren von Nachrichten in der Reuters-Textsammlung

/

Enthält über 12.000 Nachrichtenartikel

/

Bis zu 135 Kategorien

/ Einkommen, Gewinn, Rohstoffe, ...

/

Aufgabe

/

Automatisches Zuordnen von Dokumenten zu Kategorien anhand einer Trainingsmenge

/ 7.000 Trainingsdokumente

/ 2.600 Testdokumente /

Ziel

/

Messung der Effektivität des vorgestellten

(10)

Text Mining

/ Der kNN-Algorithmus

/

Trainingsphase

Rohstoffe Gewinn

Einkommen Getreide

d

(11)

Text Mining

/ Der kNN-Algorithmus

/

Finden der k-ähnlichsten Nachbarn von d

Rohstoffe Gewinn

Einkommen Getreide

2 d

1 5

3 4

(12)

Text Mining

/ Der kNN-Algorithmus

/

Gewichtung der Klassen

Rohstoffe Gewinn

Einkommen Getreide

2 d

1 5

3 4

ø3,5

ø3,0

ø2,0

(13)

Text Mining

/ Der kNN-Algorithmus

/

Klassenzuordnung

Rohstoffe Gewinn

Einkommen Getreide

d

ø3,5

ø3,0

ø2,0

(14)

Text Mining

/ Maßgrößen zur Effektivitätsmessung

/

Precision (Präzision) :

/

Recall (Ausbeute) :

a

aAc a aAb

/

a : Anzahl korrekt zugewiesener Dokumente

/

b: Anzahl der Dokumente, die der Kategorie fälschlicherweise zugewiesen wurden

/

c: Anzahl der Dokumente, die der Kategorie fälschlicherweise nicht zugewiesen wurden

/

Precision und Recall hängen voneinander ab

(15)

Text Mining

/ Ergebnisse

160 191 198 289 349 377 394 460 1.488 2.709

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Recall Precision

#Trainingsdaten

/

Je mehr Trainingsdaten, desto genauer

das Ergebnis

(16)

Image Mining

/ Ziel

/

Automatische Extraktion von semantisch aussagekräftigen Informationen

/ Anwendungen

/

Medizin

/

Analyse von medizinischen Aufnahmen

/

Image-Retrieval

/

Kategorisieren von Bildern in „relevant“ und

„irrelevant“ bzgl. einer Anwendung

(17)

Image Mining

/

Ein informationsorientierter Image-Mining- Ansatz

/

Pixel-Ebene

/ Extrahieren potentiell relevanter Regionen

/ homogene Farbverteilung

/ Konturen

/

Objekt-Ebene

/ Identifizierung domänenspezifischer Merkmale der Regionen

/ Fläche, Länge, Form, ...

/

Semantische Ebene

/ Erkennen von Mustern in der identifizierten Objektmenge durch Anwenden eines Data-Mining-Algorithmus

/

Wissens-Ebene

(18)

Image Mining

/

Anwendung bei der Erkennung von

Tumorzellen auf medizinischen Aufnahmen

/

Aufgabe

/ Zählen von Tumorzellen zur Messung der Aktivität des Tumors

/ Hohe Treffergenauigkeit erforderlich

/ Reine Bildverarbeitungs-Algorithmen ungeeignet

/ Zählen von Tumorzellen durch Menschen zu zeitaufwendig und teuer

/

Ziel

/ Signifikante Steigerung der Genauigkeit durch

Kombination von Bildverarbeitungs-Algorithmen und Image-Mining-Algorithmen

(19)

Image Mining

/ Pixelebene

/

Erkennen potentiell relevanter Regionen

/

Problem bei medizinischen Aufnahmen

/

Kein homogener Hintergrund

/ Reflektionen

/ Überlappende Zellen, dadurch verschiedene Pixelintensitäten

/

Unklare Konturen

(20)

Image Mining

/

Ansatz zur Extraktion von potentiell relevanten Objekten

/

Festlegen einer Pixelintensität, ab der eine Region als potentiell relevant deklariert wird

/

Problem

/

Tumorzellen können in einem Teil des Bildes dunkler sein, als der Hintergrund in einem anderen Bildbereich

/ Es könnten zu viele oder zu wenige Tumorzellen erkannt werden, je nach Wahl des Schwellwertes

(21)

Image Mining

/

Festlegen lokaler Schwellwerte

/

Ergebnis nach Entfernen des Hintergrundes

/

Der „Water-Immersion-Algorithmus“

(22)

Image Mining

/ Objektebene

/

Berechnung folgender Merkmale für jede erkannte Region

/

Fläche: Anzahl Pixel

/

Rundheit =

4⋅π⋅UmfangFläche2

/

Dehnung =

L Hauptachse

LNebenachse

/

Jede Region wird durch diese drei

(23)

Image Mining

/ Semantische Ebene

/

Anlegen einer Trainingsmenge mit

Ausprägungen der drei Merkmale, die auf einen Tumor schließen lassen

/

Anwenden einen Klassifizierungsalgorithmus

/ CBA

/ C4.5

/ Bayesche Klassifikation

/

Ergebnis

/ Ohne Data Mining: Fehlerrate von 40,1%

/ Mit Data Mining: Fehlerrate von 20%

/ Kombination aller drei Klassifizierungsalgorithmen:

Fehlerrate von 18,7%

(24)

Video Mining

/ Ziel

/

Organisieren von Videodaten derart, dass bisher unbekannte Informationen extrahiert werden können

/ Video-Mining-Anwendungen

/

Verkehr

/

Medizin

/

Biologie

(25)

Video Mining

/ Video-Mining in der Verkehrsüberwachung

/

Ziele

/

Erkennen von Staus

/

Erkennen von Unfällen

/

Analyse der Verkehrsbelastung

/

Eigenschaften von Überwachungsvideos

/

Meist stationäre Kameras

/ Gleichbleibender Hingergrund

/

Keine oder wenige Schnitte

/

Bekannte Objekte

(26)

Video Mining

/ Analyse des Verkehrsaufkommens an einer Kreuzung

(1)

Entfernen des Hintergrundes

/

Wie beim Image-Mining

/ Zu aufwendig, da für jeden Frame durchzuführen

/

Extraktion von sich nicht bewegenden Objekten

/

Erzeugen eines Referenzframes in Form einer Referenzaufnahme der leeren Kreuzung

/ Schnelles Verfahren

(27)

Video Mining

(2)

Erkennen von Fahrzeugen

/

Repräsentation der Fahrzeuge durch Rechtecke

/

Probleme

/ Verdeckte Fahrzeuge

/ Von oben kommende Fahrzeuge werden als ein langes Fahrzeug erkannt

/

Zunächst als ein Fahrzeug behandeln.

Eventuell später den möglichen Fahrzeugweg

(28)

Video Mining

(3) Verfolgen von Fahrzeugen

/

Verbinden von zusammengehörigen Objekten zweier aufeinanderfolgender Frames

/ Jeweils zwei Objekte mit geringstem Abstand

/ Größe der Objekte mit einbeziehen

/

Aufteilung jedes Frames in beschriftete Segmente

1 2 3 4 5 6 7 8 9 10 11 12

(29)

Video Mining

(4)

Ergebnisse

/

Multimedia Input Strings

...

A6 & B2 & C11 A5 & B2 & C12 A5 & B6

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

/

Ermöglicht Beantwortung von Fragen wie

/ Wie viele Fahrzeuge sind von links in die Kreuzung eingefahren und haben sie nach oben wieder

verlassen?

/ Wie hoch war das Verkehrsaufkommen zwischen 08:00 und 08:30 ?

(30)

/ Eine räumliche Datenbank

/

Räumliche Objekte (Straßen, Häuser, Flüsse,...)

/ Stehen in Relation zu anderen Objekten in der Datenbank

/ Topologie (A berührt B, A liegt in B,...)

/ Distanz

/ Richtung

/

Nicht-räumliche Attribute je Objekt (Hausnummer, Wohnfläche, Bewohnerzahl, ...)

/

Repräsentation mittels Nachbarschaftsgraphen

/

Knotenmenge

/ Menge der räumlichen Objekte

/

Kantenmenge

Mining in räumlichen Daten

(31)

/ Ziel

/

Erkennen von Mustern und Beziehungen zwischen

/

Räumlichen Objekten untereinander

/ Parks liegen häufig in der Nähe von Schulen

/

Räumlichen und nicht-räumlichen Daten

/ In der Nähe von Universitäten ist die Anzahl von Wohnungen pro Gebäude relativ hoch

/ Traditionelle statistische Data-Mining- Methoden sind ungeeignet

/

Datensätze sind nicht unabhängig verteilt

/

Objekte beeinflussen sich gegenseitig

Mining in räumlichen Daten

(32)

/ Finden von Assoziationen in räumlichen Daten

/

Korrelationen zwischen verschiedenen Charakteristiken in bestimmten Regionen

/

Beispiel

/ Regionen mit einer hohen Anzahl von Rentnern liegen meist in der Nähe von Gebirgen und Flüssen

/ Clustering

/

Dichtebasiertes Clustering

Mining in räumlichen Daten

(33)

/ Erkennen von Trends und Trendabweichungen

/

Analysieren von Veränderungen nicht-

räumlicher Attribute bei der Entfernung von einem räumlichen Objekt

/ Festlegen eines Zentrums

/ Zeichnet sich durch besondere

Merkmalsausprägung mind. eines nicht-räumlicher Attributes aus

Mining in räumlichen Daten

Fläche 10 km†

Einwohner 500

Arbeitslosenquote 1,00%

Rentneranteil 7,00%

....

(34)

Mining in räumlichen Daten

/

Berechnung eines theoretischen Trends

/ Annahme: Die Arbeitslosenquote steigt mit wachsender Enfternung vom Zentrum

(35)

/

Berechnung eines theoretischen Trends

/ Annahme: Die Arbeitslosenquote steigt mit wachsender Enfternung vom Zentrum

/

Suche nach Trendabweichungen

Mining in räumlichen Daten

(36)

/ Begründen der Abweichung

Mining in räumlichen Daten

Flughafen

Logistik-Unternehmen

/ Weitere Anwendungen

/

Verbrechensanalyse

(37)

Soziale Auswirkungen

/ Data Mining

/

Generieren von Informationen, die nicht offensichtlich sind

/

Vorteile

/ Vorhersagen von Naturkatastrophen

/ Unterstützung bei der Diagnose von Krankheiten

/ Personalisierte Produkte, personalisiertes Marketing

/

Nachteil

/ Bei der Bekanntgabe von Informationen ist von vornherein nicht bekannt, wieviel Wissen man tatsächlich preisgegeben hat

(38)

Trends im Data Mining

/ Exponentielles Wachstum von Informationen

/

Vervielfältigung der

Anwendungsmöglichkeiten

/

Neue Methoden zum Mining von komplexen Datentypen

/

Skalierbare Data-Mining-Methoden

/

Spezialisierte Mining-Methoden

(39)

Zusammenfassung

/ Text Mining

/

Klassifizieren von Text-Dokumenten

/ Preprocessing, Indexierung, Dimensionsreduktion, Clustering

/ Image Mining

/

Erkennen von Tumoren

/ Pixelebene, Objektebene, Semantische Ebene, Wissensebene

/ Video Mining

/

Der Video-Mining-Prozess

/ Verkehrsüberwachung: Objektverfolgung, Multimedia Input Strings

(40)

Zusammenfassung

/ Mining in räumlichen Daten

/

Erkennen von Trends und Trendabweichungen

/

Assoziationen in räumlichen Daten

/ Soziale Auswirkungen und Trends im

Data Mining

Referenzen

ÄHNLICHE DOKUMENTE

Iterate over the whole data points: assign each data point to the cluster with the nearest centroid. Recompute cluster centroids based on contained data

Ziel: Analyse der Kunden oder Fälle Analyse der Kunden oder Fälle Typ: Typ: Klassifikation Klassifikation..

Fast alle der Unternehmen, bei denen Data Mining-Techniken angewandt werden, wollen in Zukunft diesen Einsatz noch erhöhen, und 87% dieser Unternehmen berichten über eine

•kann auch alleine für Data Mining- oder OLAP- Zwecke genutzt werden.. Der Data Mining Prozess

“YouTube eine weltweite, nicht-exklusive und gebührenfreie Lizenz ein (mit dem Recht der Unterlizenzierung) bezüglich der Nutzung, der Reproduktion, dem Vertrieb,

Entferne Kandidaten Item-Mengen, die nicht häufig auftretende Teilmengen der Länge k enthalten. Ermittle den Support

A) Es werden oft Windeln gekauft. B) Der Kauf von Windeln führt zum Kauf von Bier.. B) Der Kauf von Windeln führt zum Kauf

Beim Web Mining (vgl. Kapitel 4.2) kommt die Analyse von se- mistrukturierten Texten zum Einsatz, die auf die Tags einer Auszeichnungsspra- che wie HTML zugreift. Zeitreihen