• Keine Ergebnisse gefunden

Das Semantic Web

N/A
N/A
Protected

Academic year: 2022

Aktie "Das Semantic Web"

Copied!
46
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Das Semantic Web

Quelle:

Prof. Dr. Felix Naumann

HPI, Uni Potsdam

(2)

Überblick

 Motivation und Definition

 TXT → XML

 XML → RDF(S)

 RDF → Ontologien

 Ausblick / Diskussion

 Rückblick & Evaluation

(3)

3

Definitionen

 Fremdwörterduden “Semantik”

1.

Teilgebiet der Linguistik, das sich mit den Bedeutungen sprachlicher Zeichen und Zeichenfolgen befasst

2.

Bedeutung, Inhalt eines Wortes, Satzes oder Textes

 “The Semantic Web is an extension of the current web in which information is given well-defined meaning,

better enabling computers and people to work in cooperation.” [BLHL01]

 Das Semantische Web ist einer Erweiterung des gegenwärtigen Webs, in der Informationen wohl-

definierte Bedeutungen erhalten, so dass Computer

und Menschen besser kooperieren können.

(4)

Web?

 Überfluss an Daten

Stark verteilt

Suche und Integration nötig

Die Kosten, relevante Informationen zu finden und Wert daraus zu schöpfen sind enorm.

 Kostenreduzierung

Workflows und Businessprozesse miteinander verknüpfen

Data- und Service-Sharing ermöglichen

auch zwischen heterogenen Gruppen

eScience: Wissenschaftler, Standards-Konsortien, Bioinformatik

eGovernment: u.a. Gesundheitswesen

eBusiness

eSociety: Blogging, Gnutella

Quelle: [DK03]

(5)

5

Motivation

 Web Seiten tragen Layout-Informationen

Gut für Menschen

Nicht zu interpretieren für Rechner

 Informationen leben in zwei Welten

Für Menschen als Konsumenten

Gedichte, Filme, Text,...

Für Computer als Konsumenten

Daten, Programme,...

Das Web betont den Menschen.

Das Semantic Web soll dies ausgleichen.

 Ease-of-Use und Wachstum des WWW soll nicht beeinträchtigt werden.

 Es muss also nicht alles perfekt verstanden werden.

(6)

Informationssuche im Web

 Methode 1: Browsing

geht nicht (Milliarden von Dokumenten)

 Methode 2: Suche

Suche mittels Suchmaschinen besser

Recall nicht immer perfekt (Größe der Suchmaschine).

Precision nicht immer perfekt (Relevanz der Ergebnisse).

Techniken des Information Retrieval

Leider wirklich nur „retrieval“

Extraktion und Interpretation der Informationen durch Nutzer

Funktioniert nur mit Menschen, nicht automatisiert

(7)

7

Informationssuche im Web

Methode 3: Informationsextraktion

Computational Linguistics

Named Entity Recognition (z.B. Gene)

Relationship Extraction (z.B. Firmensitze aus Wirtschaftsmeldungen extrahieren)

Methode 4: Wrapper

Bsp: Shopping Agenten

Generierung von Wrappern per Hand

Müssen sich auf HTML Tags verlassen

Methode 5: Annotation

Maschinenlesbare Annotation (z.B. XML)

Methode 6: Semantic Web

Semantische Annotation (RDF & Ontologien)

(8)

Beispiel-Anwendungen

Wissensmanagement (knowledge management, KM)

Intranet mit Millionen Dokumenten

Informationsbeschaffung, -wartung und -suche

Mit Ontologien

Intelligente Suche

Anfragen und Sichten statt Suche

Bsp.: Liste alle Projekte aller Mitarbeiter der HTWK Leipzig

Dokumentenaustausch

Web Commerce

Shopping-Agenten suchen bestes und billigstes Angebot.

On-line Shops präsentieren Waren sinnvoll

Broker vermitteln zwischen Anbietern und Käufern (e-marketplace)

Meta-Stores

E-Business

Virtuelle Unternehmen

Katalog-Integration und Datenaustausch

(9)

9

Semantic Web Prinzipien [BL]

 Alles kann eine URI#xxx haben.

Sage nicht „farbe“, sage

"http://www.pantomime.com/2002/std6#farbe"

 Vokabulare können im Laufe der Zeit integriert und ersetzt werden.

 Dokumente sind selbst-beschreibend.

 „Jeder kann Beliebiges über Beliebiges sagen."

 Kein einzelnes System weiß alles.

 Das Design muss minimalistisch sein.

(10)

Semantic Web Layer Cake

Quelle: [Hen02]

Basisdaten, Texte und Identifikatoren

Syntax und Struktur Beziehungen

Bedeutung

Regeln

Nutzen

(11)

11

Überblick

 Motivation und Definition

 TXT → XML

 XML → RDF(S)

 RDF → Ontologien

 Ausblick / Diskussion

 Rückblick & Evaluation

(12)

Überblick Semantic Web

Quelle: Tim Berners-Lee

(13)

13

TEXT  XML

 Reiner Text

– Keine Struktur (höchstens implizit)

– Nicht maschinenlesbar

 XML

– Kann Text strukturieren

– Maschinenlesbare Struktur

– Implizite Semantik durch Benennung von

Struktureinheiten

(14)

Text im Web (UNICODE + URI)

 So sieht ein natürlichsprachige Webseite für eine Maschine aus.

Quelle: [Hen02]

(15)

15

XML … immerhin

 XML erlaubt es, sinnvoll tags zu Texteinheiten hinzuzufügen.

CV

name education

work private

< >

< >

< >

< >

< >

Quelle: [Hen02]

(16)

XML  maschinenlesbare Bedeutung

 Aber: Für eine Maschine sehen die tags so aus...

<  >

< >

<>

<>

<>

Quelle: [Hen02]

(17)

17

Schemata: Die richtige Richtung

Schemata helfen….

CV name education

work private

< >

< >

< >

< >

< >

<  >

< >

<>

<>

<>

CV name education

work private

< >

< >

< >

< >

< >

<  >

< >

<>

<>

<>

<  > …indem sie

gemeinsame

Ausdrücke zwischen Dokumenten in

Beziehung setzen.



Quelle: [Hen02]

(18)

Schemata unterscheiden sich

 Jemand anderes verwendet dieses Schema:

<  >

<  >

<>

<>

<>

Quelle: [Hen02]

<  >

< >

<>

<>

<>

(19)

19

Schemata fehlt die Bedeutung

CV name education

work private

< >

< >

< >

< >

< >

<  >

< >

<>

<>

<>

CV name education

work private

< >

< >

< >

< >

< >

<  >

< >

<>

<>

<>

<  >



CV name education

work private

< >

< >

< >

< >

< >

<  >

<>

<>



<>

Quelle: [Hen02]

Immerhin:

Semi-

automatisches Schema Matching &

Mapping

(20)

Überblick

 Motivation und Definition

 TXT → XML

 XML → RDF(S)

 RDF → Ontologien

 Ausblick / Diskussion

 Rückblick & Evaluation

(21)

21

Überblick Semantic Web

Quelle: Tim Berners-Lee

(22)

XML  RDF

 XML

erlaubt beliebige Strukturen.

Bedeutung „verborgen“/“vermischt“ in Struktur (durch geeignete Tag-Namen)

Fortschritt, aber Strukturen noch ohne „Bedeutung“

 RDF…

…kann „Bedeutung“ ausdrücken, ohne Annahmen zur Struktur.

…besteht aus Tripeln: Subjekt, Prädikat, Objekt

…ist ein Datenmodell für Metadaten.

(23)

23

Metadaten Format: RDF

 RDF (Resource Description Framework)

Jenseits von Maschinenlesbarkeit: „Maschinenverstehbarkeit“

 RDF besteht aus zwei Teilen:

RDF Modell (eine Menge von Tripeln)

RDF Syntax (verschiedene XML-Serialisierungs Syntaxen)

 RDF Schema

Definition von Vokabularen (einfache Ontologien) für RDF

Formuliert in RDF

Quelle: [DK03]

(24)

RDF Beispiel

Ausdruck

“Peter Mueller ist Autor der Ressource http://www.w3.org/home/mueller .”

<rdf:Description rdf:about=“#pers05”>

<authorOf>ISBN...</authorOf>

</rdf:Description>

pers05 Author-of ISBN...

Quelle: [OH03]

pers05 Author-of ISBN...

MIT ISBN...

Publ- by

Author- of Publ -

by

Struktur

Ressource (Subjekt)

http://www.w3.org/home/mueller

Eigenschaft (Prädikat)

http://www.schema.org/#authorOf

Wert (Objekt)

„Peter Mueller”

Gerichteter Graph

(25)

25

Schachtelung mit RDF

 Jeder Ausdruck kann wiederum eine Ressource sein:

Schachtelung von Graphen – reification (“Verdinglichung”)

pers05 AutorVon ISBN...

NYT behauptet

<rdf:Description rdf:about=“#NYT”>

<behauptet>

<rdf:Description rdf:about=“#pers05”>

<AutorVon>ISBN...</AutorVon>

</rdf:Description>

</behauptet>

</rdf:Description> Quelle: [OH03]

(26)

Vorteile von RDF vs. XML

„Der Autor der Seite ist Peter“

RDF: triple(author, Seite, Peter)

XML:

<autor>

<uri>Seite</uri>

<name>Peter</name>

</autor>

<document href=“Seite">

<autor>Peter</autor>

</document>

<document>

<details>

<uri>href=“Seite"</uri>

<autor>

<name>Peter</name>

</autor>

</details>

</document>

<document>

<autor>

<uri>href=“Seite"</uri>

<details>

<name>Peter</name>

</details>

</autor>

</document>

<v>

<x>

<y> a="ppppp"</y>

<z>

<w>qqqqq</w>

</z>

</x>

</v>

Anfragen nur über das Dokument, nicht über dessen Bedeutung:

Ist ppppp ein y von qqqqq?

Oder ist qqqqq ein

z von ppppp? Aber es kann viele

verschiedene Schemata für die gleiche Bedeutung geben.

<?xml version="1.0"?>

<Description xmlns="http://www.w3.org/TR/WD-rdf-syntax#"

xmlns:s="http://docs.r.us.com/bibliography-info/"

about="http://www.w3.org/test/seite"

s:Author ="http://www.w3.org/staff/Peter" />

Nur falls Schema vorhanden, kann man sinnvolle

Fragen stellen.

(27)

27

Überblick

 Motivation und Definition

 TXT → XML

 XML → RDF(S)

 RDF → Ontologien

 Ausblick / Diskussion

 Rückblick & Evaluation

(28)

Semantic Web

(29)

29

XML / RDF  Ontologien

 XML und RDF

– Kein Standard-Vokabular um Semantik auszudrücken

 Gleiche Probleme wie bisher, jedoch auf Tag-Ebene

– Keine Standard-Struktur (Hierarchie) um Semantik auszudrücken.

 Ontologien

– stellen Standard-Vokabulare bereit.

– stellen Standard-Struktur bereit.

(30)

Motivation für Ontologien

class-def animal % animals are a class

class-def plant % plants are a class

subclass-of NOT animal % that is disjoint from animals class-def tree

subclass-of plant % trees are a type of plants class-def branch

slot-constraint is-part-of % branches are parts of some tree has-value tree

max-cardinality 1

class-def defined carnivore % carnivores are animals subclass-of animal

slot-constraint eats % that eat any other animals value-type animal

class-def defined herbivore % herbivores are animals

subclass-of animal, NOT carnivore % that are not carnivores, and

slot-constraint eats % they eat plants or parts of plants value-type plant OR (slot-constraint is-part-of has-value plant)

Quelle: [OH03]

(31)

31

Was ist eine Ontologie?

 „Eine Ontologie ist eine formale, explizite Spezifikation einer gemeinsamen Konzeptionalisierung“ – Tom

Gruber

‚Konzeptionalisierung‘ (Conceptualization): Abstraktes Modell von Phänomenen der wirklichen Welt durch Identifikation der relevanten Konzepte der Phänomene.

‘Explizit’: Verwendete Konzepte (und deren Typen und Bedingungen darauf) sind explizit definiert.

‘Formal’: Maschinenlesbar

‘Gemeinsam’: Reflektiert Wissen über das Konsens in der Gemeinde herrscht.

Quelle: [Fen03]

(32)

Was ist eine Ontologie?

 Ontologien sind soziale Kontrakte:

– Akzeptierte, explizite Semantik

– Verständlich für Außenstehende

– (Meist) erzeugt in einem community process.

 Im Gegensatz zu Datenbankschema

– Zielrichtung dort: Physische Datenunabhängigkeit

 Im Gegensatz zu XML-Schema

– Zielrichtung dort: Dokumentstruktur

Quelle: [DK03]

(33)

33

Arten von Ontologien

 Domänen-Ontologien

Für eine spezielle Domäne (Elektronik, Medizin, Datenbanken, usw.)

 Meta-Ontologien

Verwendbar über Domänen hinweg

Stellen Vokabular zur Verfügung

Beispiel: Dublin Core für Dokumente / Digital Libraries

 Generische Ontologien (common sense)

Vokabular über Dinge, Ereignisse, Zeit, Raum, etc.

Verwendbar über Domänen hinweg

Beispiel: Meter und Inch Konvertierungtabellen

Quelle: [Fen03]

(34)

Ontologien: Beispiele

 WordNet

100.000 Worte mit natürlichsprachlicher Bedeutung

Organisiert in Synonym-Sets

Kategorisierung

Substantiv, Verb, Adjektiv, Adverb, Funktionswort

Zusätzliche Beziehungen

Synonym, Antonym

Hyponomy (is-a Beziehungen als Hierarchie)

Meronymy (part-of Beziehungen)

Morphologie (für Wortformen)

Vorteile

Domänenunabhängig, groß, frei verfügbar

(35)

35

Ontologien: Beispiele

 Cyc

– Entstammt aus KI Forschung

– Versuch, Allgemeinwissen zu formalisieren

– 100.000de Konzepte formalisiert

– Millionen Axiome, Regeln, Einschränkungen

– Herausgeber: Cycorp

(36)

Eine high-level Ontologie

Quelle: [HHL04]

(37)

37

Gene Ontologie

Ziel: Kontrolliertes Vokabular (controlled vocabulary) über Organismen in Bezug auf Gene und Proteine

16675 Ausdrücke

[Term] id: GO:0000001

name: mitochondrion inheritance

namespace: process

def: "The distribution of mitochondria\, including the mitochondrial genome\, into daughter cells after mitosis or meiosis\, mediated by interactions between

mitochondria and the cytoskeleton." [PMID:11389764, PMID:10873824, SGD:mcc]

is_a: GO:0048308 (-> organelle inheritance)

is_a: GO:0048311 (-> mitochondrian distribution)

[Term] id: GO:0000002

name: mitochondrial genome maintenance

namespace: process

def: "The maintenance of the structure and integrity of the mitochondrial genome."

[GO:ai]

is_a: GO:0007005

[Term] id: GO:0000003 ...

http://www.geneontology.org/

(38)

Gene Ontology

 Probleme in GO (aus [SKK04])

– z.B. A partOf B

„A is always part of B“

„A is sometimes part of B“

„A can be part of B“

„Vocabulary A is included within vocabulary B“

– Ähnliches für A isA B

(39)

39

Überblick

 Motivation und Definition

 TXT → XML

 XML → RDF(S)

 RDF → Ontologien

 Ausblick / Diskussion

 Rückblick & Evaluation

(40)

Semantic Web

Quelle: Tim Berners-Lee

(41)

41

Web?

 Das Semantic Web selbst!

– Ähnlich wie das Web selbst Killer-App des Internet war.

 Wichtige Anwendungen z.B.

– Online Kataloge für B2B und B2C

– Reiseplanung und Reisekoordination mit

Terminplaner

(42)

Die Zukunft des Semantic Web

 Semantic Web in der physischen Welt

– URI zeigen auf physische Objekte

– RDF beschreibt physische Objekte

– Physische Objekte beschreiben ihre Fähigkeiten und Funktionen („Internet of Things“).

Home-automation

Lautstärkeregelung

Mikrowelle sucht nach optimalen Kochparametern auf Iglo Webseite

Aber: Es gibt auch Kritik und viele Skeptiker!

Aber: Es gibt auch Kritik und viele Skeptiker!

(43)

43

Überblick

 Motivation und Definition

 TXT → XML

 XML → RDF(S)

 RDF → Ontologien

 Ausblick / Diskussion

 Rückblick & Evaluation

(44)

Integrierte Informationssysteme

Integriertes Informations- system

Oracle, DB2…

Design time

Web Service

Anwen- dung

HTML Form

Integriertes Info.-system Datei-

system

Anfrage

Architekturen Anfragesprache Schemamanagement

Wrapper

Run time

Anfrageausführung

Optimierung

Anfrageplanung

Datenfusion / ETL

(45)

45

Glossar aus [BLHL01]

Resource: Web jargon for any entity. Includes Web pages, parts of a Web page, devices, people and more.

URL: Uniform Resource Locator.

URI: Universal Resource Identifier. URLs are the most familiar type of URI. A URI defines or specifies an entity, not necessarily by naming its location on the Web.

RDF: Resource Description Framework. A scheme for defining information on the Web. RDF provides the technology for expressing the meaning of terms and concepts in a form that computers can readily process. RDF can use XML for its syntax and URIs to specify entities, concepts, properties and relations.

Ontologies: Collections of statements written in a language such as RDF that define the relations between concepts and specify logical rules for reasoning about them. Computers will

"understand" the meaning of semantic data on a Web page by following links to specified ontologies.

Agent: A piece of software that runs without direct human control or constant supervision to accomplish goals provided by a user. Agents typically collect, filter and process information found on the Web, sometimes with the help of other agents.

Service discovery: The process of locating an agent or automated Web-based service that will perform a required function. Semantics will enable agents to describe to one another precisely what function they carry out and what input data are needed.

(46)

Literatur

[BLHL01] T. Berners-Lee, J. Hendler, O. Lassila, The Semantic Web, Scientific American, May 2001

[DK03] Stefan Decker und Vipul Kashyap. The Semantic Web: Semantics for Data on the Web, Tutorial at VLDB 2003 Berlin.

[Fen03] Dieter Fensel. Lecture Introduction:

Semantic Web & Ontology, 2003

[OH03] Slides: Semantic Web. Jacco van Ossenbruggen, Lynda Hardman. CWI Amsterdam 2003.

[BL] Tim Berners Lee. The Semantic Web (slides).

http://www.w3.org/2002/Talks/09-lcs-sweb-tbl/Overview.html

Web sites

www.ontoknowledge.org

www.ontoweb.org

www.daml.org

www.w3.org/2001/sw/

www.semanticweb.org

Referenzen

ÄHNLICHE DOKUMENTE

In hosts with stem sections containing soft pith Cladomyrma queens restrict their colony founding to these modified stem parts, but, as a rule, the intial nest

3 EPG variable values (mean ± SE) during the probing and feed- ing behaviour of Trioza erytreae on lemon and bitter orange plants.. Only those variables that showed

In the context of mobile interfaces and brows- ing in ontological answer structures, we focus on semantic navigation that helps to (1) access semantic information quickly, (2) allow

Depending on the operator’s requirements, however, the container slot allocation heuristic might need to trade some of the proximity of container slots to the later

Operators of terrestrial slot games should consider filing an appeal against their VAT assessments and, with reference to the proceedings of the Fiscal Court of Münster, apply

[r]

Wenn 2 oder mehr Emoji-Meter gleichzeitig voll werden, werden die Emoji- Funktionen in der folgenden Reihenfolge ausgeführt: Bomben-Funktion, Pizza- Funktion,

While studies of modern-day food security abound, we lack a devoted study of the history of food scarcity and abundance across the continent.. From modern studies, we know that