• Keine Ergebnisse gefunden

Auffinden von und Zugriff auf Datenquellen Seminar Informationsintegration und Informationsqualit¨at Dragan Sunjka

N/A
N/A
Protected

Academic year: 2022

Aktie "Auffinden von und Zugriff auf Datenquellen Seminar Informationsintegration und Informationsqualit¨at Dragan Sunjka"

Copied!
29
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Auffinden von und Zugriff auf Datenquellen Dragan Sunjka

Autonome Datenquellen

Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme

Mediation Wrapper

Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids

Einleitung OGSA-DAI DynaGrid Zusammenfassung

Auffinden von und Zugriff auf Datenquellen

Seminar Informationsintegration und Informationsqualit¨ at

Dragan Sunjka

TU Kaiserslautern

30. Juni 2006

(2)

Auffinden von und Zugriff auf Datenquellen Dragan Sunjka

Autonome Datenquellen

Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme

Mediation Wrapper

Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids

Einleitung OGSA-DAI DynaGrid Zusammenfassung

Gliederung

Autonome Datenquellen Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme

Mediation Wrapper Hidden Web Einleitung

Automatische Klassifikation von Hidden-Web-Quellen Beispiel

Data Management in Grids Einleitung

OGSA-DAI

DynaGrid

Zusammenfassung

(3)

Auffinden von und Zugriff auf Datenquellen Dragan Sunjka

Autonome Datenquellen

Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme

Mediation Wrapper

Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids

Einleitung OGSA-DAI DynaGrid Zusammenfassung

Autonomie

Verteilung f¨ uhrt zu Autonomie...

I Intra-Organisation: historisch

I Inter-Organisation: Internet

Autonomie

I Grad zu dem verschiedene DBMS unabh¨ angig operieren

Autonomieklassen

I Entwurfsautonomie

I Kommunikationsautonomie

I Ausf¨ uhrungsautonomie

(4)

Auffinden von und Zugriff auf Datenquellen Dragan Sunjka

Autonome Datenquellen

Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme

Mediation Wrapper

Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids

Einleitung OGSA-DAI DynaGrid Zusammenfassung

Autonomieklassen

Entwurfsautonomie

I Datenmodell, Schema

Kommunikationsautonomie:

I Wahl mit welchen Systemen wann was kommuniziert wird, Anfragesprache

Ausf¨ uhrungsautonomie

I Wahl wann und wie Anfragen ausgef¨ uhrt werden

I Wahl der Scheduling- und Optimierungs-Strategie

(5)

Auffinden von und Zugriff auf Datenquellen Dragan Sunjka

Autonome Datenquellen

Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme

Mediation Wrapper

Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids

Einleitung OGSA-DAI DynaGrid Zusammenfassung

Autonomie f¨ uhrt zu Heterogenit¨ at

Autonomie als Ursache f¨ ur Heterogenit¨ at:

Autonome Systeme

I Gestaltungsfreiheit

⇒ unterschiedliche Entscheidungen

⇒ Heterogenit¨ at

I

technisch, logisch, semantisch

(6)

Auffinden von und Zugriff auf Datenquellen Dragan Sunjka

Autonome Datenquellen

Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme

Mediation Wrapper

Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids

Einleitung OGSA-DAI DynaGrid Zusammenfassung

Gliederung

Autonome Datenquellen Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme

Mediation Wrapper Hidden Web Einleitung

Automatische Klassifikation von Hidden-Web-Quellen Beispiel

Data Management in Grids Einleitung

OGSA-DAI

DynaGrid

Zusammenfassung

(7)

Auffinden von und Zugriff auf Datenquellen Dragan Sunjka

Autonome Datenquellen

Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme

Mediation Wrapper

Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids

Einleitung OGSA-DAI DynaGrid Zusammenfassung

Mediation

(8)

Auffinden von und Zugriff auf Datenquellen Dragan Sunjka

Autonome Datenquellen

Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme

Mediation Wrapper

Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids

Einleitung OGSA-DAI DynaGrid Zusammenfassung

Mediation (2)

Funktionen der Mediation

I Suche und Auswahl von relevanten Datenquellen

I Transformation der Daten anhand von Metadaten

I Integration der transformierten Daten

I Zusammenfassung zur Pr¨ asentation

⇒ Transformation von Daten zu Informationen

(9)

Auffinden von und Zugriff auf Datenquellen Dragan Sunjka

Autonome Datenquellen

Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme

Mediation Wrapper

Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids

Einleitung OGSA-DAI DynaGrid Zusammenfassung

Wrapper

I Vermittlung zwischen Mediator und Datenquelle

I jeweils spezialisiert auf eine Auspr¨ agung autonomer,

heterogener Datenquellen

(10)

Auffinden von und Zugriff auf Datenquellen Dragan Sunjka

Autonome Datenquellen

Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme

Mediation Wrapper

Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids

Einleitung OGSA-DAI DynaGrid Zusammenfassung

Wrapper (2)

Vorteile des Wrappings

I ¨ uberwinden Heterogenit¨ aten

I Wiederverwendbarkeit

I Unabh¨ angigkeit der Datenquellen

Nachteile des Wrappings

I i.A. schlechtere Leistung

I Aktualit¨ at der Wrapper

notwendig

(11)

Auffinden von und Zugriff auf Datenquellen Dragan Sunjka

Autonome Datenquellen

Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme

Mediation Wrapper

Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids

Einleitung OGSA-DAI DynaGrid Zusammenfassung

XML Wrapper in IBM DB2 II

(12)

Auffinden von und Zugriff auf Datenquellen Dragan Sunjka

Autonome Datenquellen

Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme

Mediation Wrapper

Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids

Einleitung OGSA-DAI DynaGrid Zusammenfassung

XML Wrapper in IBM DB2 II (2)

(13)

Auffinden von und Zugriff auf Datenquellen Dragan Sunjka

Autonome Datenquellen

Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme

Mediation Wrapper

Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids

Einleitung OGSA-DAI DynaGrid Zusammenfassung

Gliederung

Autonome Datenquellen Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme

Mediation Wrapper Hidden Web Einleitung

Automatische Klassifikation von Hidden-Web-Quellen Beispiel

Data Management in Grids Einleitung

OGSA-DAI

DynaGrid

Zusammenfassung

(14)

Auffinden von und Zugriff auf Datenquellen Dragan Sunjka

Autonome Datenquellen

Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme

Mediation Wrapper

Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids

Einleitung OGSA-DAI DynaGrid Zusammenfassung

Surface Web vs. Hidden Web

Surface Web

I Linkstruktur

I zum Crawlen geeignet

Hidden Web

I keine Linkstruktur

I Dokumente versteckt in

DBMS

(15)

Auffinden von und Zugriff auf Datenquellen Dragan Sunjka

Autonome Datenquellen

Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme

Mediation Wrapper

Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids

Einleitung OGSA-DAI DynaGrid Zusammenfassung

Hidden Web

Statistiken zum Hidden Web

I 550 mal gr¨ oßer als das Surface Web

I 7500 Terabyte im Hidden Web

I ca. 84% sind auf Textdokumente spezialisiert

I ca. 95% des Hidden Web ist ¨ offentlich verf¨ ugbar

I am schnellsten wachsende Kategorie neuer Informationen im Internet

Herausforderungen

I Auffinden von relevanten Hidden-Web-Quellen

→ Klassifikation

I Zugriff auf Hidden-Web-Quellen

→ Anfragesprache lernen

(16)

Auffinden von und Zugriff auf Datenquellen Dragan Sunjka

Autonome Datenquellen

Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme

Mediation Wrapper

Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids

Einleitung OGSA-DAI DynaGrid Zusammenfassung

Uberblick ¨

Klassifikation: Zuordnung zu Kategorien in einer Hierarchie

I Manuell

I

Yahoo!, InvisibleWeb, SearchEngineGuide

I Automatisch

Zwei Arten von Klassifikation

Coverage (Abdeckung)-basierte Klassifikation

I #docs ¨ uber das Thema

Specifity (Spezifizit¨ at)-basierte Klassifikation

I #docs/|DB|

(17)

Auffinden von und Zugriff auf Datenquellen Dragan Sunjka

Autonome Datenquellen

Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme

Mediation Wrapper

Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids

Einleitung OGSA-DAI DynaGrid Zusammenfassung

Query Probing

Classifier Learning

I Input: Menge von bereits klassifizierten Dokumenten

I Output: Menge von Klassifikationsregeln

I

IF linux THEN Computers

I

IF ibm AND intel THEN Computers

I

IF jordan AND bulls THEN Sports

I

IF diabetes THEN Health

Query Probing

I Schicke Anfragen an die Datenbank

I Hole (parse) Anzahl der Ergebnisse

(18)

Auffinden von und Zugriff auf Datenquellen Dragan Sunjka

Autonome Datenquellen

Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme

Mediation Wrapper

Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids

Einleitung OGSA-DAI DynaGrid Zusammenfassung

Query Probing

Classifier Learning

I Input: Menge von bereits klassifizierten Dokumenten

I Output: Menge von Klassifikationsregeln

I

IF linux THEN Computers → +linux

I

IF ibm AND intel THEN Computers → +ibm +intel

I

IF jordan AND bulls THEN Sports → +jordan +bulls

I

IF diabetes THEN Health → +diabetes

Query Probing

I Schicke Anfragen an die Datenbank

I Hole (parse) Anzahl der Ergebnisse

(19)

Auffinden von und Zugriff auf Datenquellen Dragan Sunjka

Autonome Datenquellen

Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme

Mediation Wrapper

Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids

Einleitung OGSA-DAI DynaGrid Zusammenfassung

Query Probing

Classifier Learning

I Input: Menge von bereits klassifizierten Dokumenten

I Output: Menge von Klassifikationsregeln

I

IF linux THEN Computers → +linux

I

IF ibm AND intel THEN Computers → +ibm +intel

I

IF jordan AND bulls THEN Sports → +jordan +bulls

I

IF diabetes THEN Health → +diabetes

Query Probing

I Schicke Anfragen an die Datenbank

I Hole (parse) Anzahl der Ergebnisse

(20)

Auffinden von und Zugriff auf Datenquellen Dragan Sunjka

Autonome Datenquellen

Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme

Mediation Wrapper

Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids

Einleitung OGSA-DAI DynaGrid Zusammenfassung

Klassifikation einer Datenbank

1. Schicke Anfragen f¨ ur Top-Level-Kategorien 2. Hole Anzahl der Treffer f¨ ur jede Anfrage

3. Berechne gesch¨ atzte Spezifizit¨ at und Abdeckung f¨ ur jede Kategorie

4. Bewege die Datenbank in die sich qualifizierenden

Kategorien (mit Spezifizit¨ at ≥ Ts, Abdeckung ≥ Tc)

5. Wiederhole f¨ ur alle sich qualifizierenden Subkategorien

6. Gib alle Kategorien zur¨ uck, die sich qualfiziert haben

(21)

Auffinden von und Zugriff auf Datenquellen Dragan Sunjka

Autonome Datenquellen

Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme

Mediation Wrapper

Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids

Einleitung OGSA-DAI DynaGrid Zusammenfassung

Beispiel: ACM Digital Library (Tc=100, Ts=0.5)

(22)

Auffinden von und Zugriff auf Datenquellen Dragan Sunjka

Autonome Datenquellen

Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme

Mediation Wrapper

Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids

Einleitung OGSA-DAI DynaGrid Zusammenfassung

Gliederung

Autonome Datenquellen Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme

Mediation Wrapper Hidden Web Einleitung

Automatische Klassifikation von Hidden-Web-Quellen Beispiel

Data Management in Grids Einleitung

OGSA-DAI

DynaGrid

Zusammenfassung

(23)

Auffinden von und Zugriff auf Datenquellen Dragan Sunjka

Autonome Datenquellen

Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme

Mediation Wrapper

Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids

Einleitung OGSA-DAI DynaGrid Zusammenfassung

Begriffskl¨ arung: Grid

Grid-Paradigma: Virtualisierung von Ressourcen

I Urspr¨ ungliche Idee: Rechenleistung aus der Steckdose

I Ziel: High Performance Super-Computing

I CPU-Rechenleisung und Arbeitsspeicher als einzige Ressourcen im Grid

Data Grids

I anfangs: Datentransfer nur dateibasiert, Input/Output-Dateien

I sp¨ ater: Speicherplatz als Ressource

I heute: (semi-)strukturierte Daten als Ressourcen

(24)

Auffinden von und Zugriff auf Datenquellen Dragan Sunjka

Autonome Datenquellen

Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme

Mediation Wrapper

Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids

Einleitung OGSA-DAI DynaGrid Zusammenfassung

OGSA-DAI

Open Grid Services Architecture - Data Access and Integration

I ein in Java entwickeltes Framework f¨ ur den Zugriff auf Datenbanken

I Ziel: einheitliche Schnittstelle zum Zugriff auf heterogene Datenbanken

I versucht nicht, die Kluft zwischen SQL und XML zu

¨ uberbr¨ ucken

⇒ Uberwindung technischer Heterogenit¨ ¨ at

Anfragen an Quellen

I erfolgen mittels XML-basierten Perform-Dokumenten

I

Basisaktivit¨ aten (Anfragen, Transformationen,

Ubertragung) ¨

(25)

Auffinden von und Zugriff auf Datenquellen Dragan Sunjka

Autonome Datenquellen

Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme

Mediation Wrapper

Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids

Einleitung OGSA-DAI DynaGrid Zusammenfassung

Interaktion von Komponenten

Herausforderungen

I Common Data Model?

I SQL vs. XML

I XML WebRowSet ist flexibel aber ineffizient

(26)

Auffinden von und Zugriff auf Datenquellen Dragan Sunjka

Autonome Datenquellen

Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme

Mediation Wrapper

Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids

Einleitung OGSA-DAI DynaGrid Zusammenfassung

Dynamische Integration in Grid-Umgebungen

Dynamische Integration heterogener, autonomer, verteilter Datenquellen

Merkmale

I Zum Zeitpunkt der Anfrage gibt es kein globales Schema

I automatische Integration von neuen Quellen

I OGSA-DAI als Infrastruktur

(27)

Auffinden von und Zugriff auf Datenquellen Dragan Sunjka

Autonome Datenquellen

Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme

Mediation Wrapper

Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids

Einleitung OGSA-DAI DynaGrid Zusammenfassung

DynaGrid Architektur

(28)

Auffinden von und Zugriff auf Datenquellen Dragan Sunjka

Autonome Datenquellen

Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme

Mediation Wrapper

Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids

Einleitung OGSA-DAI DynaGrid Zusammenfassung

Zusammenfassung

I viele Varianten klassischer Mediator/Wrapper-Architektur

I

Wrapping zur ¨ Uberbr¨ uckung der Heterogenit¨ at

I Hidden Web w¨ achst schnell

I

Wie findet man solche Eintrittspunkte?

I

Semantic Web?

I zahlreiche autonome Datenquellen und schnell wechselnde Benutzeranforderungen

I

dynamische Discovery und flexible

Schema-Matching-Verfahren

(29)

Auffinden von und Zugriff auf Datenquellen Dragan Sunjka

Autonome Datenquellen

Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme

Mediation Wrapper

Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids

Einleitung OGSA-DAI DynaGrid Zusammenfassung

Vielen Dank f¨ ur die Aufmerksamkeit

Fragen?

Referenzen

ÄHNLICHE DOKUMENTE

• Fachkräfte für Arbeitssicherheit Hinweise/Bemerkungen Voraussetzung für den Besuch dieses Seminars ist das Grund- seminar. Termin Seminarnummer

Sicherheits- und Gesundheitsmanagement Sicherheit und Gesundheit in der Kindertageseinrichtung – Grundlagen für Leiterinnen und

Arbeits- und Gesundheitsschutz – eine Aufgabe für Führungskräfte aus dem akademischen Mittelbau.. Betriebsartenspezifische

allgemeinbildendenSchulen Hinweise / Bemerkungen Lehrkräfte,diesichfürdie-

Ausschlaggebend ist diese Unterscheidung auch für die Abgrenzung von Content Manage- ment Systemen (CMS) und Dokumenten Management Systemen (DMS), die im Abschnitt 2.5.1 (Seite

From their point of view, technical fixes such as the Green Revolution package, fortified food, and Golden Rice, fall far short of addressing the problem of hunger and

Damit erhalten die Lehrenden einen Überblick über den Wissensstand der Lernenden und kann mit Hilfe von so genannten Software Agenten bedarfspezifische, relevante Ressourcen aus

Eine weitere Möglichkeit, Informationen über die Beziehungen zwischen Klassen in einer Ontologie, bei der Entscheidung, ein neues Wort in eine Klasse einzuorden,