Auffinden von und Zugriff auf Datenquellen Dragan Sunjka
Autonome Datenquellen
Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme
Mediation Wrapper
Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids
Einleitung OGSA-DAI DynaGrid Zusammenfassung
Auffinden von und Zugriff auf Datenquellen
Seminar Informationsintegration und Informationsqualit¨ at
Dragan Sunjka
TU Kaiserslautern
30. Juni 2006
Auffinden von und Zugriff auf Datenquellen Dragan Sunjka
Autonome Datenquellen
Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme
Mediation Wrapper
Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids
Einleitung OGSA-DAI DynaGrid Zusammenfassung
Gliederung
Autonome Datenquellen Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme
Mediation Wrapper Hidden Web Einleitung
Automatische Klassifikation von Hidden-Web-Quellen Beispiel
Data Management in Grids Einleitung
OGSA-DAI
DynaGrid
Zusammenfassung
Auffinden von und Zugriff auf Datenquellen Dragan Sunjka
Autonome Datenquellen
Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme
Mediation Wrapper
Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids
Einleitung OGSA-DAI DynaGrid Zusammenfassung
Autonomie
Verteilung f¨ uhrt zu Autonomie...
I Intra-Organisation: historisch
I Inter-Organisation: Internet
Autonomie
I Grad zu dem verschiedene DBMS unabh¨ angig operieren
Autonomieklassen
I Entwurfsautonomie
I Kommunikationsautonomie
I Ausf¨ uhrungsautonomie
Auffinden von und Zugriff auf Datenquellen Dragan Sunjka
Autonome Datenquellen
Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme
Mediation Wrapper
Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids
Einleitung OGSA-DAI DynaGrid Zusammenfassung
Autonomieklassen
Entwurfsautonomie
I Datenmodell, Schema
Kommunikationsautonomie:
I Wahl mit welchen Systemen wann was kommuniziert wird, Anfragesprache
Ausf¨ uhrungsautonomie
I Wahl wann und wie Anfragen ausgef¨ uhrt werden
I Wahl der Scheduling- und Optimierungs-Strategie
Auffinden von und Zugriff auf Datenquellen Dragan Sunjka
Autonome Datenquellen
Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme
Mediation Wrapper
Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids
Einleitung OGSA-DAI DynaGrid Zusammenfassung
Autonomie f¨ uhrt zu Heterogenit¨ at
Autonomie als Ursache f¨ ur Heterogenit¨ at:
Autonome Systeme
I Gestaltungsfreiheit
⇒ unterschiedliche Entscheidungen
⇒ Heterogenit¨ at
I
technisch, logisch, semantisch
Auffinden von und Zugriff auf Datenquellen Dragan Sunjka
Autonome Datenquellen
Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme
Mediation Wrapper
Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids
Einleitung OGSA-DAI DynaGrid Zusammenfassung
Gliederung
Autonome Datenquellen Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme
Mediation Wrapper Hidden Web Einleitung
Automatische Klassifikation von Hidden-Web-Quellen Beispiel
Data Management in Grids Einleitung
OGSA-DAI
DynaGrid
Zusammenfassung
Auffinden von und Zugriff auf Datenquellen Dragan Sunjka
Autonome Datenquellen
Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme
Mediation Wrapper
Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids
Einleitung OGSA-DAI DynaGrid Zusammenfassung
Mediation
Auffinden von und Zugriff auf Datenquellen Dragan Sunjka
Autonome Datenquellen
Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme
Mediation Wrapper
Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids
Einleitung OGSA-DAI DynaGrid Zusammenfassung
Mediation (2)
Funktionen der Mediation
I Suche und Auswahl von relevanten Datenquellen
I Transformation der Daten anhand von Metadaten
I Integration der transformierten Daten
I Zusammenfassung zur Pr¨ asentation
⇒ Transformation von Daten zu Informationen
Auffinden von und Zugriff auf Datenquellen Dragan Sunjka
Autonome Datenquellen
Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme
Mediation Wrapper
Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids
Einleitung OGSA-DAI DynaGrid Zusammenfassung
Wrapper
I Vermittlung zwischen Mediator und Datenquelle
I jeweils spezialisiert auf eine Auspr¨ agung autonomer,
heterogener Datenquellen
Auffinden von und Zugriff auf Datenquellen Dragan Sunjka
Autonome Datenquellen
Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme
Mediation Wrapper
Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids
Einleitung OGSA-DAI DynaGrid Zusammenfassung
Wrapper (2)
Vorteile des Wrappings
I ¨ uberwinden Heterogenit¨ aten
I Wiederverwendbarkeit
I Unabh¨ angigkeit der Datenquellen
Nachteile des Wrappings
I i.A. schlechtere Leistung
I Aktualit¨ at der Wrapper
notwendig
Auffinden von und Zugriff auf Datenquellen Dragan Sunjka
Autonome Datenquellen
Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme
Mediation Wrapper
Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids
Einleitung OGSA-DAI DynaGrid Zusammenfassung
XML Wrapper in IBM DB2 II
Auffinden von und Zugriff auf Datenquellen Dragan Sunjka
Autonome Datenquellen
Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme
Mediation Wrapper
Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids
Einleitung OGSA-DAI DynaGrid Zusammenfassung
XML Wrapper in IBM DB2 II (2)
Auffinden von und Zugriff auf Datenquellen Dragan Sunjka
Autonome Datenquellen
Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme
Mediation Wrapper
Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids
Einleitung OGSA-DAI DynaGrid Zusammenfassung
Gliederung
Autonome Datenquellen Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme
Mediation Wrapper Hidden Web Einleitung
Automatische Klassifikation von Hidden-Web-Quellen Beispiel
Data Management in Grids Einleitung
OGSA-DAI
DynaGrid
Zusammenfassung
Auffinden von und Zugriff auf Datenquellen Dragan Sunjka
Autonome Datenquellen
Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme
Mediation Wrapper
Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids
Einleitung OGSA-DAI DynaGrid Zusammenfassung
Surface Web vs. Hidden Web
Surface Web
I Linkstruktur
I zum Crawlen geeignet
Hidden Web
I keine Linkstruktur
I Dokumente versteckt in
DBMS
Auffinden von und Zugriff auf Datenquellen Dragan Sunjka
Autonome Datenquellen
Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme
Mediation Wrapper
Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids
Einleitung OGSA-DAI DynaGrid Zusammenfassung
Hidden Web
Statistiken zum Hidden Web
I 550 mal gr¨ oßer als das Surface Web
I 7500 Terabyte im Hidden Web
I ca. 84% sind auf Textdokumente spezialisiert
I ca. 95% des Hidden Web ist ¨ offentlich verf¨ ugbar
I am schnellsten wachsende Kategorie neuer Informationen im Internet
Herausforderungen
I Auffinden von relevanten Hidden-Web-Quellen
→ Klassifikation
I Zugriff auf Hidden-Web-Quellen
→ Anfragesprache lernen
Auffinden von und Zugriff auf Datenquellen Dragan Sunjka
Autonome Datenquellen
Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme
Mediation Wrapper
Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids
Einleitung OGSA-DAI DynaGrid Zusammenfassung
Uberblick ¨
Klassifikation: Zuordnung zu Kategorien in einer Hierarchie
I Manuell
I
Yahoo!, InvisibleWeb, SearchEngineGuide
I Automatisch
Zwei Arten von Klassifikation
Coverage (Abdeckung)-basierte Klassifikation
I #docs ¨ uber das Thema
Specifity (Spezifizit¨ at)-basierte Klassifikation
I #docs/|DB|
Auffinden von und Zugriff auf Datenquellen Dragan Sunjka
Autonome Datenquellen
Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme
Mediation Wrapper
Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids
Einleitung OGSA-DAI DynaGrid Zusammenfassung
Query Probing
Classifier Learning
I Input: Menge von bereits klassifizierten Dokumenten
I Output: Menge von Klassifikationsregeln
I
IF linux THEN Computers
I
IF ibm AND intel THEN Computers
I
IF jordan AND bulls THEN Sports
I
IF diabetes THEN Health
Query Probing
I Schicke Anfragen an die Datenbank
I Hole (parse) Anzahl der Ergebnisse
Auffinden von und Zugriff auf Datenquellen Dragan Sunjka
Autonome Datenquellen
Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme
Mediation Wrapper
Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids
Einleitung OGSA-DAI DynaGrid Zusammenfassung
Query Probing
Classifier Learning
I Input: Menge von bereits klassifizierten Dokumenten
I Output: Menge von Klassifikationsregeln
I
IF linux THEN Computers → +linux
I
IF ibm AND intel THEN Computers → +ibm +intel
I
IF jordan AND bulls THEN Sports → +jordan +bulls
I
IF diabetes THEN Health → +diabetes
Query Probing
I Schicke Anfragen an die Datenbank
I Hole (parse) Anzahl der Ergebnisse
Auffinden von und Zugriff auf Datenquellen Dragan Sunjka
Autonome Datenquellen
Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme
Mediation Wrapper
Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids
Einleitung OGSA-DAI DynaGrid Zusammenfassung
Query Probing
Classifier Learning
I Input: Menge von bereits klassifizierten Dokumenten
I Output: Menge von Klassifikationsregeln
I
IF linux THEN Computers → +linux
I
IF ibm AND intel THEN Computers → +ibm +intel
I
IF jordan AND bulls THEN Sports → +jordan +bulls
I
IF diabetes THEN Health → +diabetes
Query Probing
I Schicke Anfragen an die Datenbank
I Hole (parse) Anzahl der Ergebnisse
Auffinden von und Zugriff auf Datenquellen Dragan Sunjka
Autonome Datenquellen
Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme
Mediation Wrapper
Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids
Einleitung OGSA-DAI DynaGrid Zusammenfassung
Klassifikation einer Datenbank
1. Schicke Anfragen f¨ ur Top-Level-Kategorien 2. Hole Anzahl der Treffer f¨ ur jede Anfrage
3. Berechne gesch¨ atzte Spezifizit¨ at und Abdeckung f¨ ur jede Kategorie
4. Bewege die Datenbank in die sich qualifizierenden
Kategorien (mit Spezifizit¨ at ≥ Ts, Abdeckung ≥ Tc)
5. Wiederhole f¨ ur alle sich qualifizierenden Subkategorien
6. Gib alle Kategorien zur¨ uck, die sich qualfiziert haben
Auffinden von und Zugriff auf Datenquellen Dragan Sunjka
Autonome Datenquellen
Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme
Mediation Wrapper
Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids
Einleitung OGSA-DAI DynaGrid Zusammenfassung
Beispiel: ACM Digital Library (Tc=100, Ts=0.5)
Auffinden von und Zugriff auf Datenquellen Dragan Sunjka
Autonome Datenquellen
Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme
Mediation Wrapper
Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids
Einleitung OGSA-DAI DynaGrid Zusammenfassung
Gliederung
Autonome Datenquellen Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme
Mediation Wrapper Hidden Web Einleitung
Automatische Klassifikation von Hidden-Web-Quellen Beispiel
Data Management in Grids Einleitung
OGSA-DAI
DynaGrid
Zusammenfassung
Auffinden von und Zugriff auf Datenquellen Dragan Sunjka
Autonome Datenquellen
Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme
Mediation Wrapper
Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids
Einleitung OGSA-DAI DynaGrid Zusammenfassung
Begriffskl¨ arung: Grid
Grid-Paradigma: Virtualisierung von Ressourcen
I Urspr¨ ungliche Idee: Rechenleistung aus der Steckdose
I Ziel: High Performance Super-Computing
I CPU-Rechenleisung und Arbeitsspeicher als einzige Ressourcen im Grid
Data Grids
I anfangs: Datentransfer nur dateibasiert, Input/Output-Dateien
I sp¨ ater: Speicherplatz als Ressource
I heute: (semi-)strukturierte Daten als Ressourcen
Auffinden von und Zugriff auf Datenquellen Dragan Sunjka
Autonome Datenquellen
Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme
Mediation Wrapper
Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids
Einleitung OGSA-DAI DynaGrid Zusammenfassung
OGSA-DAI
Open Grid Services Architecture - Data Access and Integration
I ein in Java entwickeltes Framework f¨ ur den Zugriff auf Datenbanken
I Ziel: einheitliche Schnittstelle zum Zugriff auf heterogene Datenbanken
I versucht nicht, die Kluft zwischen SQL und XML zu
¨ uberbr¨ ucken
⇒ Uberwindung technischer Heterogenit¨ ¨ at
Anfragen an Quellen
I erfolgen mittels XML-basierten Perform-Dokumenten
I
Basisaktivit¨ aten (Anfragen, Transformationen,
Ubertragung) ¨
Auffinden von und Zugriff auf Datenquellen Dragan Sunjka
Autonome Datenquellen
Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme
Mediation Wrapper
Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids
Einleitung OGSA-DAI DynaGrid Zusammenfassung
Interaktion von Komponenten
Herausforderungen
I Common Data Model?
I SQL vs. XML
I XML WebRowSet ist flexibel aber ineffizient
Auffinden von und Zugriff auf Datenquellen Dragan Sunjka
Autonome Datenquellen
Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme
Mediation Wrapper
Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids
Einleitung OGSA-DAI DynaGrid Zusammenfassung
Dynamische Integration in Grid-Umgebungen
Dynamische Integration heterogener, autonomer, verteilter Datenquellen
Merkmale
I Zum Zeitpunkt der Anfrage gibt es kein globales Schema
I automatische Integration von neuen Quellen
I OGSA-DAI als Infrastruktur
Auffinden von und Zugriff auf Datenquellen Dragan Sunjka
Autonome Datenquellen
Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme
Mediation Wrapper
Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids
Einleitung OGSA-DAI DynaGrid Zusammenfassung
DynaGrid Architektur
Auffinden von und Zugriff auf Datenquellen Dragan Sunjka
Autonome Datenquellen
Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme
Mediation Wrapper
Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids
Einleitung OGSA-DAI DynaGrid Zusammenfassung
Zusammenfassung
I viele Varianten klassischer Mediator/Wrapper-Architektur
I
Wrapping zur ¨ Uberbr¨ uckung der Heterogenit¨ at
I Hidden Web w¨ achst schnell
I
Wie findet man solche Eintrittspunkte?
I
Semantic Web?
I zahlreiche autonome Datenquellen und schnell wechselnde Benutzeranforderungen
I
dynamische Discovery und flexible
Schema-Matching-Verfahren
Auffinden von und Zugriff auf Datenquellen Dragan Sunjka
Autonome Datenquellen
Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme
Mediation Wrapper
Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids
Einleitung OGSA-DAI DynaGrid Zusammenfassung