Das Semantic Web
Quelle:
Prof. Dr. Felix Naumann
HPI, Uni Potsdam
Überblick
Motivation und Definition
TXT → XML
XML → RDF(S)
RDF → Ontologien
Ausblick / Diskussion
Rückblick & Evaluation
3
Definitionen
Fremdwörterduden “Semantik”
1.
Teilgebiet der Linguistik, das sich mit den Bedeutungen sprachlicher Zeichen und Zeichenfolgen befasst
2.
Bedeutung, Inhalt eines Wortes, Satzes oder Textes
“The Semantic Web is an extension of the current web in which information is given well-defined meaning,
better enabling computers and people to work in cooperation.” [BLHL01]
Das Semantische Web ist einer Erweiterung des gegenwärtigen Webs, in der Informationen wohl-
definierte Bedeutungen erhalten, so dass Computer
und Menschen besser kooperieren können.
Web?
Überfluss an Daten
–
Stark verteilt
–
Suche und Integration nötig
–
Die Kosten, relevante Informationen zu finden und Wert daraus zu schöpfen sind enorm.
Kostenreduzierung
–
Workflows und Businessprozesse miteinander verknüpfen
–
Data- und Service-Sharing ermöglichen
–
auch zwischen heterogenen Gruppen
eScience: Wissenschaftler, Standards-Konsortien, Bioinformatik
eGovernment: u.a. Gesundheitswesen
eBusiness
eSociety: Blogging, Gnutella
Quelle: [DK03]
5
Motivation
Web Seiten tragen Layout-Informationen
–
Gut für Menschen
–
Nicht zu interpretieren für Rechner
Informationen leben in zwei Welten
–
Für Menschen als Konsumenten
Gedichte, Filme, Text,...
–
Für Computer als Konsumenten
Daten, Programme,...
–
Das Web betont den Menschen.
–
Das Semantic Web soll dies ausgleichen.
Ease-of-Use und Wachstum des WWW soll nicht beeinträchtigt werden.
Es muss also nicht alles perfekt verstanden werden.
Informationssuche im Web
Methode 1: Browsing
geht nicht (Milliarden von Dokumenten)
Methode 2: Suche
–
Suche mittels Suchmaschinen besser
Recall nicht immer perfekt (Größe der Suchmaschine).
Precision nicht immer perfekt (Relevanz der Ergebnisse).
Techniken des Information Retrieval
–
Leider wirklich nur „retrieval“
–
Extraktion und Interpretation der Informationen durch Nutzer
Funktioniert nur mit Menschen, nicht automatisiert
7
Informationssuche im Web
Methode 3: Informationsextraktion
–
Computational Linguistics
–
Named Entity Recognition (z.B. Gene)
–
Relationship Extraction (z.B. Firmensitze aus Wirtschaftsmeldungen extrahieren)
Methode 4: Wrapper
–
Bsp: Shopping Agenten
–
Generierung von Wrappern per Hand
–
Müssen sich auf HTML Tags verlassen
Methode 5: Annotation
–
Maschinenlesbare Annotation (z.B. XML)
Methode 6: Semantic Web
–
Semantische Annotation (RDF & Ontologien)
Beispiel-Anwendungen
Wissensmanagement (knowledge management, KM)
–
Intranet mit Millionen Dokumenten
–
Informationsbeschaffung, -wartung und -suche
–
Mit Ontologien
Intelligente Suche
Anfragen und Sichten statt Suche
– Bsp.: Liste alle Projekte aller Mitarbeiter der HTWK Leipzig
Dokumentenaustausch
Web Commerce
–
Shopping-Agenten suchen bestes und billigstes Angebot.
–
On-line Shops präsentieren Waren sinnvoll
–
Broker vermitteln zwischen Anbietern und Käufern (e-marketplace)
–
Meta-Stores
E-Business
–
Virtuelle Unternehmen
–
Katalog-Integration und Datenaustausch
9
Semantic Web Prinzipien [BL]
Alles kann eine URI#xxx haben.
–
Sage nicht „farbe“, sage
"http://www.pantomime.com/2002/std6#farbe"
Vokabulare können im Laufe der Zeit integriert und ersetzt werden.
Dokumente sind selbst-beschreibend.
„Jeder kann Beliebiges über Beliebiges sagen."
Kein einzelnes System weiß alles.
Das Design muss minimalistisch sein.
Semantic Web Layer Cake
Quelle: [Hen02]
Basisdaten, Texte und Identifikatoren
Syntax und Struktur Beziehungen
Bedeutung
Regeln
Nutzen
11
Überblick
Motivation und Definition
TXT → XML
XML → RDF(S)
RDF → Ontologien
Ausblick / Diskussion
Rückblick & Evaluation
Überblick Semantic Web
Quelle: Tim Berners-Lee
13
TEXT XML
Reiner Text
– Keine Struktur (höchstens implizit)
– Nicht maschinenlesbar
XML
– Kann Text strukturieren
– Maschinenlesbare Struktur
– Implizite Semantik durch Benennung von
Struktureinheiten
Text im Web (UNICODE + URI)
So sieht ein natürlichsprachige Webseite für eine Maschine aus.
Quelle: [Hen02]
15
XML … immerhin
XML erlaubt es, sinnvoll tags zu Texteinheiten hinzuzufügen.
CV
name education
work private
< >
< >
< >
< >
< >
Quelle: [Hen02]XML maschinenlesbare Bedeutung
Aber: Für eine Maschine sehen die tags so aus...
< >
< >
<>
<>
<>
Quelle: [Hen02]17
Schemata: Die richtige Richtung
Schemata helfen….
CV name education
work private
< >
< >
< >
< >
< >
< >
< >
<>
<>
<>
CV name education
work private
< >
< >
< >
< >
< >
< >
< >
<>
<>
<>
< > …indem sie
gemeinsame
Ausdrücke zwischen Dokumenten in
Beziehung setzen.
Quelle: [Hen02]
Schemata unterscheiden sich
Jemand anderes verwendet dieses Schema:
< >
< >
<>
<>
<>
Quelle: [Hen02]< >
< >
<>
<>
<>
19
Schemata fehlt die Bedeutung
CV name education
work private
< >
< >
< >
< >
< >
< >
< >
<>
<>
<>
CV name education
work private
< >
< >
< >
< >
< >
< >
< >
<>
<>
<>
< >
CV name education
work private
< >
< >
< >
< >
< >
< >
<>
<>
<>
Quelle: [Hen02]
Immerhin:
Semi-
automatisches Schema Matching &
Mapping
Überblick
Motivation und Definition
TXT → XML
XML → RDF(S)
RDF → Ontologien
Ausblick / Diskussion
Rückblick & Evaluation
21
Überblick Semantic Web
Quelle: Tim Berners-Lee
XML RDF
XML
–
erlaubt beliebige Strukturen.
–
Bedeutung „verborgen“/“vermischt“ in Struktur (durch geeignete Tag-Namen)
–
Fortschritt, aber Strukturen noch ohne „Bedeutung“
RDF…
–
…kann „Bedeutung“ ausdrücken, ohne Annahmen zur Struktur.
–
…besteht aus Tripeln: Subjekt, Prädikat, Objekt
–
…ist ein Datenmodell für Metadaten.
23
Metadaten Format: RDF
RDF (Resource Description Framework)
–
Jenseits von Maschinenlesbarkeit: „Maschinenverstehbarkeit“
RDF besteht aus zwei Teilen:
–
RDF Modell (eine Menge von Tripeln)
–
RDF Syntax (verschiedene XML-Serialisierungs Syntaxen)
RDF Schema
–
Definition von Vokabularen (einfache Ontologien) für RDF
–
Formuliert in RDF
Quelle: [DK03]
RDF Beispiel
Ausdruck
–
“Peter Mueller ist Autor der Ressource http://www.w3.org/home/mueller .”
<rdf:Description rdf:about=“#pers05”>
<authorOf>ISBN...</authorOf>
</rdf:Description>
pers05 Author-of ISBN...
Quelle: [OH03]
pers05 Author-of ISBN...
MIT ISBN...
Publ- by
Author- of Publ -
by
Struktur
–
Ressource (Subjekt)
http://www.w3.org/home/mueller
–
Eigenschaft (Prädikat)
http://www.schema.org/#authorOf
–
Wert (Objekt)
„Peter Mueller”
Gerichteter Graph
25
Schachtelung mit RDF
Jeder Ausdruck kann wiederum eine Ressource sein:
–
Schachtelung von Graphen – reification (“Verdinglichung”)
pers05 AutorVon ISBN...
NYT behauptet
<rdf:Description rdf:about=“#NYT”>
<behauptet>
<rdf:Description rdf:about=“#pers05”>
<AutorVon>ISBN...</AutorVon>
</rdf:Description>
</behauptet>
</rdf:Description> Quelle: [OH03]
Vorteile von RDF vs. XML
„Der Autor der Seite ist Peter“
–
RDF: triple(author, Seite, Peter)
–
XML:
<autor>
<uri>Seite</uri>
<name>Peter</name>
</autor>
<document href=“Seite">
<autor>Peter</autor>
</document>
<document>
<details>
<uri>href=“Seite"</uri>
<autor>
<name>Peter</name>
</autor>
</details>
</document>
<document>
<autor>
<uri>href=“Seite"</uri>
<details>
<name>Peter</name>
</details>
</autor>
</document>
<v>
<x>
<y> a="ppppp"</y>
<z>
<w>qqqqq</w>
</z>
</x>
</v>
Anfragen nur über das Dokument, nicht über dessen Bedeutung:
Ist ppppp ein y von qqqqq?
Oder ist qqqqq ein
z von ppppp? Aber es kann viele
verschiedene Schemata für die gleiche Bedeutung geben.
<?xml version="1.0"?>
<Description xmlns="http://www.w3.org/TR/WD-rdf-syntax#"
xmlns:s="http://docs.r.us.com/bibliography-info/"
about="http://www.w3.org/test/seite"
s:Author ="http://www.w3.org/staff/Peter" />
Nur falls Schema vorhanden, kann man sinnvolle
Fragen stellen.
27
Überblick
Motivation und Definition
TXT → XML
XML → RDF(S)
RDF → Ontologien
Ausblick / Diskussion
Rückblick & Evaluation
Semantic Web
29
XML / RDF Ontologien
XML und RDF
– Kein Standard-Vokabular um Semantik auszudrücken
Gleiche Probleme wie bisher, jedoch auf Tag-Ebene
– Keine Standard-Struktur (Hierarchie) um Semantik auszudrücken.
Ontologien
– stellen Standard-Vokabulare bereit.
– stellen Standard-Struktur bereit.
Motivation für Ontologien
class-def animal % animals are a class
class-def plant % plants are a class
subclass-of NOT animal % that is disjoint from animals class-def tree
subclass-of plant % trees are a type of plants class-def branch
slot-constraint is-part-of % branches are parts of some tree has-value tree
max-cardinality 1
class-def defined carnivore % carnivores are animals subclass-of animal
slot-constraint eats % that eat any other animals value-type animal
class-def defined herbivore % herbivores are animals
subclass-of animal, NOT carnivore % that are not carnivores, and
slot-constraint eats % they eat plants or parts of plants value-type plant OR (slot-constraint is-part-of has-value plant)
Quelle: [OH03]
31
Was ist eine Ontologie?
„Eine Ontologie ist eine formale, explizite Spezifikation einer gemeinsamen Konzeptionalisierung“ – Tom
Gruber
–
‚Konzeptionalisierung‘ (Conceptualization): Abstraktes Modell von Phänomenen der wirklichen Welt durch Identifikation der relevanten Konzepte der Phänomene.
–
‘Explizit’: Verwendete Konzepte (und deren Typen und Bedingungen darauf) sind explizit definiert.
–
‘Formal’: Maschinenlesbar
–
‘Gemeinsam’: Reflektiert Wissen über das Konsens in der Gemeinde herrscht.
Quelle: [Fen03]
Was ist eine Ontologie?
Ontologien sind soziale Kontrakte:
– Akzeptierte, explizite Semantik
– Verständlich für Außenstehende
– (Meist) erzeugt in einem community process.
Im Gegensatz zu Datenbankschema
– Zielrichtung dort: Physische Datenunabhängigkeit
Im Gegensatz zu XML-Schema
– Zielrichtung dort: Dokumentstruktur
Quelle: [DK03]
33
Arten von Ontologien
Domänen-Ontologien
–
Für eine spezielle Domäne (Elektronik, Medizin, Datenbanken, usw.)
Meta-Ontologien
–
Verwendbar über Domänen hinweg
–
Stellen Vokabular zur Verfügung
–
Beispiel: Dublin Core für Dokumente / Digital Libraries
Generische Ontologien (common sense)
–
Vokabular über Dinge, Ereignisse, Zeit, Raum, etc.
–
Verwendbar über Domänen hinweg
–
Beispiel: Meter und Inch Konvertierungtabellen
Quelle: [Fen03]
Ontologien: Beispiele
WordNet
–
100.000 Worte mit natürlichsprachlicher Bedeutung
–
Organisiert in Synonym-Sets
–
Kategorisierung
Substantiv, Verb, Adjektiv, Adverb, Funktionswort
–
Zusätzliche Beziehungen
Synonym, Antonym
Hyponomy (is-a Beziehungen als Hierarchie)
Meronymy (part-of Beziehungen)
Morphologie (für Wortformen)
–
Vorteile
Domänenunabhängig, groß, frei verfügbar
35
Ontologien: Beispiele
Cyc
– Entstammt aus KI Forschung
– Versuch, Allgemeinwissen zu formalisieren
– 100.000de Konzepte formalisiert
– Millionen Axiome, Regeln, Einschränkungen
– Herausgeber: Cycorp
Eine high-level Ontologie
Quelle: [HHL04]
37
Gene Ontologie
Ziel: Kontrolliertes Vokabular (controlled vocabulary) über Organismen in Bezug auf Gene und Proteine
16675 Ausdrücke
–
[Term] id: GO:0000001
name: mitochondrion inheritance
namespace: process
def: "The distribution of mitochondria\, including the mitochondrial genome\, into daughter cells after mitosis or meiosis\, mediated by interactions between
mitochondria and the cytoskeleton." [PMID:11389764, PMID:10873824, SGD:mcc]
is_a: GO:0048308 (-> organelle inheritance)
is_a: GO:0048311 (-> mitochondrian distribution)
–
[Term] id: GO:0000002
name: mitochondrial genome maintenance
namespace: process
def: "The maintenance of the structure and integrity of the mitochondrial genome."
[GO:ai]
is_a: GO:0007005
–
[Term] id: GO:0000003 ...
http://www.geneontology.org/
Gene Ontology
Probleme in GO (aus [SKK04])
– z.B. A partOf B
„A is always part of B“
„A is sometimes part of B“
„A can be part of B“
„Vocabulary A is included within vocabulary B“
– Ähnliches für A isA B
39
Überblick
Motivation und Definition
TXT → XML
XML → RDF(S)
RDF → Ontologien
Ausblick / Diskussion
Rückblick & Evaluation
Semantic Web
Quelle: Tim Berners-Lee
41
Web?
Das Semantic Web selbst!
– Ähnlich wie das Web selbst Killer-App des Internet war.
Wichtige Anwendungen z.B.
– Online Kataloge für B2B und B2C
– Reiseplanung und Reisekoordination mit
Terminplaner
Die Zukunft des Semantic Web
Semantic Web in der physischen Welt
– URI zeigen auf physische Objekte
– RDF beschreibt physische Objekte
– Physische Objekte beschreiben ihre Fähigkeiten und Funktionen („Internet of Things“).
Home-automation
Lautstärkeregelung
Mikrowelle sucht nach optimalen Kochparametern auf Iglo Webseite
Aber: Es gibt auch Kritik und viele Skeptiker!
Aber: Es gibt auch Kritik und viele Skeptiker!
43
Überblick
Motivation und Definition
TXT → XML
XML → RDF(S)
RDF → Ontologien
Ausblick / Diskussion
Rückblick & Evaluation
Integrierte Informationssysteme
Integriertes Informations- system
Oracle, DB2…
Design time
Web Service
Anwen- dung
HTML Form
Integriertes Info.-system Datei-
system
Anfrage
Architekturen Anfragesprache Schemamanagement
Wrapper
Run time
Anfrageausführung
Optimierung
Anfrageplanung
Datenfusion / ETL
45
Glossar aus [BLHL01]
Resource: Web jargon for any entity. Includes Web pages, parts of a Web page, devices, people and more.
URL: Uniform Resource Locator.
URI: Universal Resource Identifier. URLs are the most familiar type of URI. A URI defines or specifies an entity, not necessarily by naming its location on the Web.
RDF: Resource Description Framework. A scheme for defining information on the Web. RDF provides the technology for expressing the meaning of terms and concepts in a form that computers can readily process. RDF can use XML for its syntax and URIs to specify entities, concepts, properties and relations.
Ontologies: Collections of statements written in a language such as RDF that define the relations between concepts and specify logical rules for reasoning about them. Computers will
"understand" the meaning of semantic data on a Web page by following links to specified ontologies.
Agent: A piece of software that runs without direct human control or constant supervision to accomplish goals provided by a user. Agents typically collect, filter and process information found on the Web, sometimes with the help of other agents.
Service discovery: The process of locating an agent or automated Web-based service that will perform a required function. Semantics will enable agents to describe to one another precisely what function they carry out and what input data are needed.
Literatur
[BLHL01] T. Berners-Lee, J. Hendler, O. Lassila, The Semantic Web, Scientific American, May 2001
[DK03] Stefan Decker und Vipul Kashyap. The Semantic Web: Semantics for Data on the Web, Tutorial at VLDB 2003 Berlin.
[Fen03] Dieter Fensel. Lecture Introduction:
Semantic Web & Ontology, 2003
[OH03] Slides: Semantic Web. Jacco van Ossenbruggen, Lynda Hardman. CWI Amsterdam 2003.
[BL] Tim Berners Lee. The Semantic Web (slides).
http://www.w3.org/2002/Talks/09-lcs-sweb-tbl/Overview.html
Web sites
–
www.ontoknowledge.org
–
www.ontoweb.org
–
www.daml.org
–
www.w3.org/2001/sw/
–