• Keine Ergebnisse gefunden

Web Intelligent Systems

N/A
N/A
Protected

Academic year: 2022

Aktie "Web Intelligent Systems"

Copied!
38
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Infrastruktur für

Web Intelligent Systems

Thema: Business Intelligence –

Teil II: Data Mining & Knowledge Discovery

von Christian Merker

(2)

Gliederung

ƒ Web-Intelligent-Systeme

ƒ Begriffsklärung

ƒ Personalisiertes Web

ƒ Infrastruktur und Datenhaltung

ƒ Verfahren zur Ähnlichkeitssuche

ƒ Algorithmen

ƒ Beispiele

ƒ Prefetching

ƒ Begriffsklärung

ƒ Prefetching-Methoden

ƒ Zusammenfassung

(3)

Web-Intelligent-Systeme

ƒ Was ist Web-Intelligence ?

ƒ Es gibt eine Vielzahl von Definitionen, die sich in Aussage und Formulierung sehr unterscheiden.

ƒ Alle besitzen einen gemeinsamen Grundgedanken:

Daten über die Besucher von Internet-Seiten zu sammeln, um daraus auf die Interessen und Vorlieben des Besuchers zu schließen bzw.

bei Benutzereingaben dieses Wissen zu

verwenden.

(4)

Web-Intelligent-Systeme

ƒ Was sind Web-Intelligent-Systeme ?

ƒ Web-Intelligent-Systeme sind Komponenten,

die Algorithmen zur Ähnlichkeitssuche implementieren.

ƒ Aufgaben:

ƒ Sammeln von Daten über die Benutzer,

ƒ Analyse der Daten,

ƒ Erstellung von Benutzerprofilen aus analysierten Daten,

ƒ Bereitstellung von Funktionalitäten für andere Systeme z. B. in E-Commerce-Systeme.

(5)

Web-Intelligent-Systeme

ƒ Wie werden sie eingesetzt ?

ƒ Einsatzgebiete:

ƒ Portale

ƒ Anpassung des Arbeitsbereichs an individuelle Bedürfnisse.

Î Schnellere Erreichbarkeit der gewünschten Informationen.

ƒ Marketing-Instrument

ƒ Verwendung von Wissen über Benutzervorlieben, um interessante Produkte anzubieten.

Î Personalisierte Werbung!

(6)

Personalisiertes Web

ƒ Ziel: Möglichst viele persönliche Daten über den / die Benutzer sammeln!

ƒ Datenerhebung:

ƒ Bewertungsfragebogen

Î Benutzer weiß, welche Daten er preisgibt.

ƒ Digitale Fußspuren

- Besuchte Links auf einer Seite oder - Verweildauer auf Seite.

Î Benutzer weiß nicht welche Daten er preisgibt.

(7)

Personalisiertes Web

ƒ Realisierung

ƒ Cookies:

ƒ Speicherung des Cookies auf Client-Seite,

ƒ Eindeutige Identifikation des Benutzers im System,

ƒ Auslesen der Daten im Cookie beim Seitenaufruf.

ƒ Registrierung:

ƒ Benutzer erhält Benutzernamen,

ƒ Eingabe persönlicher Vorlieben (Profil),

ƒ Dauerhafte Verwaltung der Benutzerdaten auf Server-Seite.

(8)

Personalisiertes Web

ƒ Verwendung der Daten:

ƒ Persönliches ansprechen des Benutzers,

ƒ Gestaltung der Seite nach Benutzerwünschen.

(z. B. Benutzer erhält beim Anmelden im System alle Börsendaten, die er beim letzten Besuch betrachtet hat.)

ƒ Schattenseiten:

ƒ Verkauf der Profile,

ƒ „Belästigung“ durch sog. Spam-Mails.

(9)

Infrastruktur und Datenhaltung

ƒ Probleme:

ƒ Entstehen von großen Datenmengen durch Interaktion, Î „Click-Stream-Daten“

ƒ Hoher Datendurchsatz erforderlich.

ƒ Lösung:

ƒ Entfernen von Rauschen,

ƒ Analyse der Daten (Aggregation von Informationen),

ƒ Verwendung einer Speicherhierarchie:

ƒ Web-Server mit Datenbank,

ƒ Data-Warehouse und

ƒ Third-Level-Speicher.

(10)

Web-Server mit Datenbank

ƒ Aufgaben :

ƒ Bereitstellen der Web-Seiten,

ƒ Haltung der aktuellsten Benutzerdaten,

ƒ Herausfiltern unnötiger Daten aus „Click-Stream“,

ƒ Speicherung der Daten für ~24 h,

ƒ Priorisierung auf Durchsatz.

+

Webserver + DB

Data

Warehouse Third-Level-

Speicher

(11)

Data-Warehouse

ƒ Aufgaben:

ƒ Haltung der Daten mit mittlerer Zugriffswahrscheinlichkeit,

ƒ Analyse der Daten für Marktforschungen,

ƒ Speicherung der Daten bis zu 12 Monaten.

+

Webserver + DB

Data

Warehouse Third-Level-

Speicher

(12)

Third-Level-Speicher

ƒ Aufgaben:

ƒ Haltung der Daten mit geringer Zugriffswahrscheinlichkeit,

ƒ Verwendung der Daten für Langzeitanalysen,

ƒ Speicherung über Jahre bzw. Jahrzehnte.

+

Webserver + DB

Data

Warehouse Third-Level-

Speicher

(13)

Gliederung

ƒ Web-Intelligent-Systeme

ƒ Begriffsklärung

ƒ Personalisiertes Web

ƒ Infrastruktur und Datenhaltung

ƒ Verfahren zur Ähnlichkeitssuche

ƒ Algorithmen

ƒ Beispiele

ƒ Prefetching

ƒ Begriffsklärung

ƒ Prefetching-Methoden

ƒ Zusammenfassung

(14)

Algorithmen

ƒ Erzeugte „Click-Stream“-Daten bestehen fast ausschließlich aus Textdaten.

Î Verwendung von Methoden aus Text Retrieval!

ƒ Einteilung der Algorithmen in 4 Klassen:

ƒ Kollaborative Filter,

ƒ Cluster-Verfahren,

ƒ Suchbasierte Verfahren,

ƒ Item-to-Item Collaborative Filtering.

(15)

Kollaborative Filter (1)

ƒ Darstellung der Benutzerdaten als N-dim Vektor,

ƒ Vektoreinträge enthalten positive / negative Produktbewertungen des Benutzer.

ƒ Annahme für Ähnlichkeitssuche:

ƒ Ähnliche Benutzerinteressen werden durch ähnliche Produktbewertungen wiedergegeben.

Î Ähnlichkeitsvergleich der Benutzerbewertungen!

(16)

Kollaborative Filter (2)

ƒ Bewertung:

+ Liefert sehr gute Ergebnisse!

(Verwendung des Cosinus-Maß)

- Vergleich sehr teuer!

(Benutzer muss mit allen im System vorhandenen Benutzer verglichen werden.)

Î Nicht geeignet bei vielen Benutzern!

(17)

Cluster-Verfahren

ƒ Verfahren ähnlich dem Kollaborativen Filtern.

Aber:

ƒ Gruppierung von ähnlichen Benutzern zu Clustern.

ƒ Suche:

ƒ Vergleich des Benutzers mit Repräsentanten jedes Clusters.

ƒ Suche nach ähnlichstem Benutzer im Cluster

mit ähnlichsten Repräsentanten fortsetzen.

(18)

Cluster-Verfahren (Beispiel)

Vorbereitungsphase:

1. Wähle für jeden Cluster einen Repräsentanten (manuell).

(19)

Cluster-Verfahren (Beispiel)

Vorbereitungsphase:

1. Wähle für jeden Cluster einen Repräsentanten (manuell).

2. Ordne restliche Benutzer dem ähnlichsten Repräsentanten zu.

Î Cluster

(20)

Cluster-Verfahren (Beispiel)

?

?

? Vorbereitungsphase:

1. Wähle für jeden Cluster einen Repräsentanten (manuell).

2. Ordne restliche Benutzer dem ähnlichsten Repräsentanten zu.

Î Cluster

Laufzeitphase:

1. Vergleiche aktuellen Benutzer mit Cluster-Repräsentanten.

(21)

Cluster-Verfahren (Beispiel)

Vorbereitungsphase:

1. Wähle für jeden Cluster einen Repräsentanten (manuell).

2. Ordne restliche Benutzer dem ähnlichsten Repräsentanten zu.

Î Cluster

Laufzeitphase:

1. Vergleiche aktuellen Benutzer mit Cluster-Repräsentanten.

2. Wähle den Cluster mit ähnlichstem Repräsentanten aus.

(22)

Cluster-Verfahren (Beispiel)

Vorbereitungsphase:

1. Wähle für jeden Cluster einen Repräsentanten (manuell).

2. Ordne restliche Benutzer dem ähnlichsten Repräsentanten zu.

Î Cluster

Laufzeitphase:

1. Vergleiche aktuellen Benutzer mit Cluster-Repräsentanten.

2. Wähle den Cluster mit ähnlichstem Repräsentanten aus.

3. Vergleiche aktuellen Benutzer mit allen Benutzern im gewählten Cluster.

(23)

Cluster-Verfahren

ƒ Bewertung:

+ Berechnung der Cluster nicht zur Laufzeit!

+ Weniger Vergleiche notwendig!

- Qualität der Ergebnisse schlechter als bei Kollaborativen Filtern!

Grund: Benutzerprofil kann in einen Cluster gelangen

der nicht den ähnlichsten Benutzer enthält.

(24)

Suchbasierte Verfahren (1)

ƒ Untersuchung der vom Benutzer gekauften Produkte,

ƒ Suchanfrage mit Schlüsselworten aus den Produkteigenschaften,

(z. B. Autor, Darsteller, Genre …)

ƒ Suchanfrage kann einer SQL-Anfrage auf DB

entsprechen.

(25)

Suchbasierte Verfahren (2)

ƒ Bewertung:

+ Sehr gute Ergebnisse bei wenigen gekauften Produkten!

- Anfrageergebnis sehr groß, bei vielen gekauften Produkten und disjunktiver Verknüpfung der

Schlüsselworte!

(26)

Item-to-Item Collaborative Filtering

ƒ Weiterentwicklung des suchbasierten Verfahrens,

ƒ Matrix mit Ähnlichkeitswerten für jedes Produkt,

ƒ Matrixberechnung geschieht nicht zur Laufzeit.

ƒ Zur Laufzeit: Für gekaufte Produkte des Benutzers die

n-ähnlichsten Produkte aus entsprechenden Matrizen

auswählen.

(27)

Item-to-Item Collaborative Filtering

ƒ Beispiel

Ähnlichkeit zu Produkt X

Ähnlichkeit zu Produkt Y

Ähnlichkeit zu Produkt Z

A D

Fritz Meier Benutzer

X, Y

Gekaufte Produkte Interessante Produkte

A 83%

B 70%

C 68%

D 81%

E 74%

B 66%

C 72%

F 47%

G 32%

A, D

(28)

Item-to-Item Collaborative Filtering

ƒ Bewertung:

+ Verfahren ist zur Laufzeit sehr schnell!

+ Liefert sehr gute Ergebnisse!

+ Auch bei großen Produktkatalogen effizient!

(Anzahl Produkte >1.000.000)

- Matrixberechnung sehr aufwändig und speicherplatzintensiv!

Î Aber: Berechnung nicht zur Laufzeit!

(29)

Beispiele

ƒ myFreddy.com (www.myFreddy.com)

ƒ Testplattform für Algorithmen,

ƒ Gegründet, um Testdaten zu gewinnen.

(30)

Beispiele

ƒ PalmAgent

ƒ Führungssystem für Touristen,

ƒ Basierend auf PDA‘s,

ƒ PDA besitzt Agent, der Benutzerinteressen kennt,

ƒ Neue Daten (z. B. Veranstaltungen) durch Funk oder durch automatischen Austausch mit anderen Agenten,

ƒ Bewertung der Informationen nach Benutzervorlieben durch den Agenten,

ƒ Ähnlich dem Nexus-Projekt.

(http://www.nexus.uni-stuttgart.de/ )

(31)

Gliederung

ƒ Web-Intelligent-Systeme

ƒ Begriffsklärung

ƒ Personalisiertes Web

ƒ Infrastruktur und Datenhaltung

ƒ Verfahren zur Ähnlichkeitssuche

ƒ Algorithmen

ƒ Beispiele

ƒ Prefetching

ƒ Begriffsklärung

ƒ Prefetching-Methoden

ƒ Zusammenfassung

(32)

Prefetching

ƒ Ziele:

ƒ Optimale Ausnutzung der Bandbreite zwischen Client und Server,

ƒ Wartezeit für den Benutzer verkürzen,

ƒ Reduzierung der Latenzzeit.

ƒ Durchführungsmöglichkeiten:

ƒ Verhalten des Benutzers statistisch schätzen,

ƒ Zeitspanne zwischen 2 Aufrufen verwenden.

(33)

Prefetching

ƒ Prefetching Methoden

ƒ Client-basiertes Prefetching,

ƒ Proxy-basiertes Prefetching,

ƒ Server-basiertes Prefetching,

ƒ Kooperatives Prefetching.

(34)

Client-basiertes Prefetching

ƒ Analyse des Benutzerverhaltens.

Î Gewohnheiten des Benutzers sehr gut ableitbar!

ƒ Unterteilung in 2 Klassen:

ƒ Greedy: Alle Links auf einer Seite werden vorgeladen.

Î viele unnötige Daten!

ƒ Non-Greedy: Aufrufhäufigkeiten werden berücksichtigt.

Î häufig besuchte Seiten als interessanter einstufen!

(35)

Proxy-basiertes Prefetching

ƒ Proxy verwaltet normalerweise eine ganze Domäne.

Î Aufrufe von mehreren Benutzern sind bekannt.

ƒ Aufrufreihenfolgen miteinander vergleichen.

Î Benutzerverhalten auf Seiten vorhersagbar.

ƒ Vergleich neuer Aufrufe mit bekannten

Aufrufreihenfolgen und Folgeseiten vorladen.

ƒ Komprimierung der Daten, um Übertragungszeit zu

sparen.

(36)

Server-basiertes Prefetching

ƒ Server besitzt größere Historie als Proxy und Client.

ƒ Wissen über das Verhalten vieler Benutzer.

ƒ Zwei Strategien

ƒ Push

ƒ Übertragung der z. B. 10 am häufigsten angeforderten Seiten bei jeder Anfrage.

ƒ Pull

ƒ Übergabe einer Liste der häufigsten angeforderten Seiten,

ƒ Auswahl von „interessanten“ Seiten durch Proxy / Client,

ƒ Auswahl an Server melden.

(37)

Kooperatives Prefetching

ƒ Prefetching auf allen Ebenen.

ƒ Kombination der Vorteile der 3 Verfahren.

ƒ Server können interessante Seiten an Proxy schicken.

ƒ Proxy kann Interessen der Benutzer an Server schicken.

ƒ Clients können Verlaufsdaten an Proxy schicken.

Î Hohe Kommunikation auf allen Ebenen.

Î Erweiterung um Web-Intelligent-Komponenten möglich.

Î Web-Intelligent-System.

(38)

Zusammenfassung

ƒ Web-Intelligence

ƒ Begriff, Aufgaben, Einsatzgebiete (z. B. Portale),

ƒ Personalisiertes Web,

ƒ Infrastruktur (3-stufige Speicherhierarchie).

ƒ Algorithmen zum Vergleich von Profilen

ƒ Kollaborative Filter,

ƒ Cluster-Verfahren,

ƒ Suchbasierte Verfahren,

ƒ Item-to-Item Collaborative Filtering.

ƒ Prefetching

ƒ Client-, Proxy-, Server-basiertes Prefetching,

ƒ Kooperatives Prefetching.

Referenzen

ÄHNLICHE DOKUMENTE

– Mitglieder von vordefinierten und selbst definierte Gruppen: Benutzer, Sondergruppen – Mitglieder von Sondergruppen: Benutzer (werden automatisch zugewiesen). Franz Kohnle Seite 1

– Mitglieder von vordefinierten und selbst definierte Gruppen: Benutzer, Sondergruppen – Mitglieder von Sondergruppen: Benutzer (werden automatisch zugewiesen). Franz Kohnle Seite 1

Bild oben: Neben dem Bundesarbeits- minister und dem BÄK-Präsidenten der parlamentarische Staatssekretär Hein- rich Franke (links), der Hauptgeschäfts- führer der BÄK, Prof..

Fußball, Hühnerei, Mond, Ameisenei, Tennisball, Handball, Murmel, Erde, Mandarine, Kirsche. Blauwal, Mensch, Hase, Marienkäfer, Löwe, Amsel,

der Laub sammeln neblig Blätter rot sonnig Ernte gelb bunt Äste wandern das windig Nebel pusten ein Drachen steigen Wind färben leuchten kühl wehen die windstill flattern Wolke

[r]

Unterstreiche die Namenwörter blau und schreib die Sätze ins

[r]