Eine Methode zur Berechnung der Ähnlichkeit zwischen Konzepten unter Berücksichtigung der Modellierungsperspektive

(1)

Masterarbeit

im Fachbereich Information Engineering der Universität Konstanz

Eine Methode zur Berechnung der Ähnlichkeit zwischen Konzepten unter Berücksichtigung der

Modellierungsperspektive

Karoline Kirmse August-Bebel-Str. 21d

04769 Mügeln

15.September 2006

Bearbeitungszeit: 6 Monate

1. Gutachter: Prof. Dr. Rainer Kuhlen (Universität Konstanz) 2. Gutachter: Prof. Dr. Johannes Fürnkranz (TU Darmstadt) Betreut von: Rodolfo Stecher (Fraunhofer IPSI, Darmstadt)

Konstanzer Online-Publikations-System (KOPS) URL: http://www.ub.uni-konstanz.de/kops/volltexte/2007/2362/

URN: http://nbn-resolving.de/urn:nbn:de:bsz:352-opus-23629

(2)

(3)

Vorwort

Diese Masterarbeit fand im Umfeld des Projekts VIKEF im Fraunhofer Institut für Integrierte Publikations- und Informationssysteme (IPSI) statt. Betreut wurde sie intern durch Herrn Rodol- fo Stecher. Begutachtet wird sie von Prof. Dr. Rainer Kuhlen und Prof. Dr. Johannes Fürnkranz.

Diese Arbeit gab mir die Möglichkeit eine Komponente zu konzipieren, umzusetzen und zu testen. Sie konfrontierte mich mit der formellen Konzeption einer komplexen Lösung und der Implementierung dieser. Die Evaluierung der Lösung stellte dabei eine gute Kontrolle meiner eigenen Ergebnisse und Anstrengungen zur Verbesserung der Lösung dar.

Ich möchte mich bei Prof. Dr. Rainer Kuhlen dafür bedanken, dass er mich in meinem Vorha- ben unterstützt hat meine Masterarbeit auÿerhalb der Universität Konstanz zu schreiben. Prof.

Dr. Johannes Fürnkranz möchte ich dafür danken, dass er die Begutachtung meiner Arbeit über- nommen hat.

Meinem Betreuer, Rodolfo Stecher, möchte ich für die Unterstützung während der gesamten Arbeit und die zahlreichen Hinweise und Verbesserungsvorschläge danken.

Bei der Formalisierung war mir Patrick Wolf eine groÿe Hilfe, wofür ich ihm sehr danken möchte. Des Weiteren möchte ich ihm und dem Rest der Mensagänger für ein pünktliches Mit- tagessen und für ein stets oenes Ohr danken.

Ein ganz besonderer Dank gilt meiner Familie, die mich mal wieder trotz der Distanz besonders unterstützt haben und mir immer den Rücken freigehalten haben. Mein Dank gilt auch meinem Freund für seine Geduld und Zuversicht.

(4)

(5)

Kurzfassung

Ontologien spielen im Semantic Web eine wichtige Rolle für die (teilweise) maschineninter- pretierbare Repräsentationen von Wissen. Die Erstellung einer Ontologie ist jedoch eine kom- plexe Aufgabe, die durch die Wiederverwendung geeigneter Teile existierender Ontologien ver- einfacht werden kann.

Diese Arbeit ist in den Kontext des Europäischen Projekts VIKEF (www.vikef.net) einge- bettet. Ziel dieses Projekts ist es, implizites Wissen aus Informationsquellen zu extrahieren, dieses Wissen explizit darzustellen und darauf semantikbasierte Dienste zur Unterstützung von Community-Prozessen aufzubauen. Zur Wissensrepräsentation werden dabei Ontologien verwendet.

In dieser Arbeit wird eine Methode vorgestellt, die einen Beitrag dazu leisten soll Ontologien, die zur Wiederverwendung geeignet sind, zu nden. Sie ist damit Teil einer gröÿeren Kompo- nente, die den Knowledge Engineer bei der Ontologieerstellung unterstützen soll.

Für die Wiederverwendung sind solche Ontologien relevant, welche den gleichen oder einen ähnlichen Gegenstand modellieren und dabei die gleiche oder eine ähnliche Modellierungsper- spektive einnehmen. Im Ansatz dieser Arbeit wird die Modellierungsperspektive anhand der Eigenschaften einer Klasse und den mit diesen Eigenschaften verbundenen Klassen bestimmt, d.h., es wird die lokale Umgebung der Klasse betrachtet.

Im Gebiet des Ontology Matching existieren bereits Ansätze zum Vergleich von Elementen verschiedener Ontologien, die auf unterschiedlichen Techniken basieren. Dabei kann man zwischen Ansätzen unterscheiden, welche die Elemente isoliert betrachten, und solchen, die zusätzlich die Struktur, in der die Elemente sich benden, zum Vergleich heranziehen.

Die hier entwickelte Methode soll - zusätzlich zu den einzelnen Elementen einer Ontologie - die Struktur, in dem sich die einzelnen Elemente benden, berücksichtigen. Die zugrunde liegende Annahme ist, dass hierin ein wichtiger Teil der Information über die Modellierungsperspektive enthalten ist. Die Methode arbeitet in zwei Schritten. Mit Hilfe einer einfachen externen Ba- sisontologie, auch als lexikalische Ressource bezeichnet, wird die Bedeutung der ausgewählten Elemente ermittelt. Diese Bedeutungen stellen einen Teil der Semantik der Ontologie dar, auf deren Basis eine Ähnlichkeitsberechnung durchgeführt werden soll. In einem zweiten Schritt wird eine Ähnlichkeitsberechnung vorgenommen, wobei die Bedeutungen der Elemente in Beziehun- gen zueinander gesetzt werden. Zusätzlich werden die Ähnlichkeiten der Strukturen in denen die zu vergleichenden Elemente sich benden, zur Berücksichtigung der Modellierungsperspektive, berechnet. Auf der Basis der ermittelten Ähnlichkeiten kann dann die Relevanz einer Ontologie für die Wiederverwendung berechnet werden.

Die entwickelte Methode wird in dieser Arbeit prototypisch umgesetzt und evaluiert.

(6)

(7)

Abstract

Ontologies are used in the Semantic Web for representing knowledge in a machine readable manner. The creation of ontologies is a complex task, that can be supported by reusing suitable parts of already existing ontologies.

This Thesis is written in the context of the European project VIKEF (www.vikef.net). The VIKEF project aims at extracting implicit knowledge from information resources and make it explicit in order to build semantic-based services for supporting community processes. Ontologies are used within VIKEF for knowledge representation.

The method presented in this Thesis is a contribution in the area of ontology reuse, by nding suitable ontologies. This method will be part of a bigger component, which should support the knowledge engineer in creating ontologies.

Ontologies, which are relevant for reuse, model the same or similar concepts under the same or a similar perspective. In this Thesis the modelling perspective is determined by the properties of the concepts and the concepts related to those properties. That means that mainly the local neighbourhood is considered for it.

In the domain of ontology matching there are several algorithms for comparing concepts of dierent ontologies based on dierent techniques. Those techniques can be classied in techniques considering concepts in isolation and techniques considering also the structure in which the concept occurs.

The developed method considers single concepts as well as the structure where they appear.

The idea here is that the structure holds part of the information determining the modelling perspective. The method has two phases. In the rst phase the meaning of an element is computed by using a basic ontology, also denoted as lexical resource. The meanings of the elements repre- sent the semantics upon which the similarity calculation is performed. In the second phase the similarity is calculated by relating elements to each other. Additionally a similarity is calculated by considering the structures where the elements occur. The computed similarities are used to calculate the relevance for reuse of the considered ontology.

The developed method is implemented as a prototype and an evaluation has been performed.

(8)

(9)

Inhaltsverzeichnis

1. Einleitung 11

1.1. Das Projekt VIKEF . . . 11 1.2. Aufgabenstellung . . . 12 1.3. Struktur der Arbeit . . . 13

2. Verwandte Arbeiten 15

3. Beschreibung der Methode 27

3.1. Grundlegende Denitionen . . . 29 3.2. Beschreibung des Verfahrens . . . 34 3.2.1. Explizite Darstellung der Bedeutung des Modellierungsgegenstands . . . . 36 3.2.2. Ermittlung einer Kandidatenmenge . . . 52 3.2.3. Ähnlichkeitsberechnung . . . 54

4. Implementierung 71

4.1. Umgebung der Implementierung . . . 71 4.2. Architektur des Prototyps . . . 71 4.3. Beschreibung der umgesetzten Programmabläufe . . . 76

5. Evaluierung 87

5.1. EON - Ontology Alignment Contest . . . 87 5.2. Ergebnisse und Diskussion der Evaluierung . . . 92

6. Zusammenfassung und Ausblick 99

Literatur 101

A. Klassendiagramm 109

(10)

(11)

1. Einleitung

Das Semantic Web beschreibt eine Vision für die nächste Generation des World Wide Web (WWW). Es stellt, in seiner Idee, eine Erweiterung des WWW um Informationen dar, die von Maschinen interpretiert werden können. Dies wird erreicht, indem man die bereits im Inter- net verfügbaren Ressourcen mit semantischen Informationen anreichert bzw. annotiert. Eine wesentliche Rolle im Semantic Web spielen die Ontologien. Sie bieten eine (teilweise) maschi- neninterpretierbare Repräsentation von Wissen. Auf der Basis dieses Wissens können Agenten die annotierten Informationen zumindest partiell interpretieren.

In dem EU-Projekt Virtual Information and Knowledge Environments Framework (VIKEF) spielen Ontologien ebenfalls eine grundlegende Rolle. Ziel dieses Projekts ist es, implizites Wissen aus Informationsquellen zu extrahieren, dieses Wissen explizit darzustellen und darauf semantikbasierte Dienste zur Unterstützung von Community-Prozessen aufzubauen. Zur Wissensreprä- sentation werden dabei Ontologien verwendet, die für die Anwendung in diesem Umfeld erstellt werden müssen.

Die Erstellung von Ontologien ist ein aufwändiger und zeitintensiver Vorgang, der darüber hinaus sehr subjektiv geprägt ist. Das Wissen eines Bereichs kann auf sehr verschiedene Weise modelliert werden. Damit können für einen Bereich sehr unterschiedliche Ontologien entstehen.

Diese Heterogenität behindert den Datenaustausch und die Kommunikation zwischen Informa- tionssystemen, was aber das Ziel war, welches mit den Ontologien verfolgt wurde.

Um diese Heterogenität zu verringern ist es sinnvoll schon im Prozess der Erstellung einer Ontologie anzusetzen. So sollen bereits bestehende Ontologien wiederverwendet werden. Dies würde dazu führen, dass weniger unterschiedliche Ontologien zu einem Bereich erstellt werden.

Das Ergebnis wären Ontologien, die nur in Teilen voneinander abweichen. Die Wiederverwen- dung von bereits bestehenden Ontologien soll weiterhin den Erstellungsprozess vereinfachen und beschleunigen.

Für das VIKEF Projekt soll aus diesem Grund eine Komponente entwickelt werden, die die Wiederverwendung von Ontologien unterstützt.

1.1. Das Projekt VIKEF

VIKEF ist die Abkürzung für Virtual Information and Knowledge Environments Framework.

Es ist ein aktuelles EU-Projekt (Referenznummer IST-507173), das sich mit der semantischen Anreicherung von Ressourcen aus dem Bereich wissenschaftlicher Kongresse und Fachmessen und der Nutzung solcher Anreicherungen für Mehrwertdienste beschäftigt. Der dem Projekt zugrunde liegende Gedanke ist, dass die eektive Nutzung und Wiederverwendbarkeit von Ressourcen in

(12)

der Informationsgesellschaft und der Knowledge Economy eine wichtige Rolle spielt und die Wettbewerbsfähigkeit erhöht. Daher setzt sich das Projekt mit der Erschlieÿung der implizit vorhandenen Informationen auseinander. Da die Annotierung einer groÿen Menge multimedialer Ressourcen einen groÿen manuellen Aufwand bedeuten würden, liegt der zentrale Aspekt von VIKEF in der Automatisierung dieses Prozesses.

Abbildung 1.1.: Überblick über die Aufgaben des VIKEF Frameworks [45]

Die wichtigsten Ziele von VIKEF sind:

• die Akquisition und Verwaltung von ICK¹ Ressourcen aus dem industriellen und der wis- senschaftlichen Bereich (Abbildung 1.1 - Acquisition und Content Management),

• die (semi-)automatische Analyse linguistischer, d.h. Text- und Sprachquellen, aber auch multimedialer Ressourcen,

• die Annotierung der Ressourcen mit den aus der Analyse gewonnen Informationen (Ab- bildung 1.1 - Semantic Enrichment, Ontology) [45] und

• die Nutzung dieser semantischen Annotierungen, um Dienste zur Unterstützung von vir- tuellen Informations- und Wissensumgebungen zu realisieren.

Das VIKEF Framework stellt ein Softwarerahmenwerk für semantikbasierte ICK-Manage- mentsysteme und intelligente Dienste bereit.

1.2. Aufgabenstellung

Die Aufgabe in dieser Arbeit ist es ein Methode zu konzipieren, die ein Teil der Komponente bilden soll, die den Ontology Engineer im VIKEF Framework durch die Wiederverwendung von Ontologien unterstützt. Diese Methode soll, um Ontologien für die Wiederverwendung nden zu

1Information, Content and Knowledge

(13)

1.3. Struktur der Arbeit können, herausstellen, ob zwei Ontologien gleiche oder ähnliche Gegenstände modellieren. Aber für die Wiederverwendung ist es nicht nur relevant herauszustellen, ob gleiche oder ähnliche Gegenstände modelliert werden, sondern ob diese auch unter derselben Perspektive modelliert wurden. Die Modellierungsperspektive wird von den Eigenschaften der Modellierungsgegenstän- de dargestellt Aus diesem Grund soll die zu entwickelnde Methode zusätzlich die Modellierungs- perspektive in Betracht ziehen.

Die Methode soll anhand der Bedeutung der Modellierungsgegenstände ihre Ähnlichkeit berechnen. Für die Bestimmung der Bedeutung soll eine lexikalische Ressource eingesetzt werden, mit deren Hilfe die Zusammensetzung der Bedeutung berechnet wird. Unter Verwendung der benachbarten Elemente in der Ontologie sollen dabei Bedeutungen ausgeschlossen werden, die die Bedeutung des Modellierungsgegenstands nicht wiedergeben. Auf Basis der so explizit ge- machten Semantik soll die Ähnlichkeitsberechnung stattnden.

Die konzipierte Methode soll prototypisch implementiert und evaluiert werden.

1.3. Struktur der Arbeit

Nachdem in diesem Kapitel die Thematik vorgestellt und die Aufgabenstellung für diese Arbeit beschrieben wurde, wird im nächsten Kapitel ein kurzer Überblick über verschiedene Techniken zum Schema und Ontology Matching gegeben. Diese Techniken stehen insofern in Bezug zur Problematik dieser Arbeit, dass sie es ermöglichen korrespondierende Modellierungsgegenstände zu nden. Diese Techniken stellen ebenfalls eine gute Basis dafür dar eine eigene Methode zu entwickeln. Es werden drei Verfahren zum Schema Matching und zwei Verfahren zum Ontology Matching, sowie ein Ansatz zur Klassizierung verschiedener Matchingverfahren, vorgestellt.

Im Anschluss daran wird eine eigene Methode entwickelt, die eine Lösung der Problemstel- lung bietet. Dieses Kapitel gliedert sich in die einzelnen Schritte, die zur Berechnung ähnlicher Modellierungsgegenstände mit ähnlichen Modellierungsperspektiven durchlaufen werden. Diese Konzeption enthält eine Formalisierung der einzelnen Abläufe.

Die entwickelte Methode wurde prototypisch umgesetzt. Die Beschreibung des Prototypen erfolgt in Kapitel 4. In diesem Kapitel wird neben dem Aufbau und der Funktionsweise des Prototypen kurz dargestellt mit welchen Hilfsmitteln die Implementierung erfolgte.

Im Anschluss an die Implementierung folgt das Kapitel über die Evaluierung des Prototypen.

Für die Evaluierung wurde auf ein bereits bestehendes Evaluierungsverfahren, welches als erstes vorgestellt wird, zurückgegrien. Die Ergebnisse der Evaluierung werden dann vorgestellt und diskutiert.

Im letzten Kapitel wird der für die Arbeit entwickelte Lösungsansatz nochmals kurz zusam- mengefasst und ein Ausblick darauf gegeben, welche weiteren Schritte zu einer möglichen Ver- besserung der Lösung unternommen werden können.

(14)

(15)

2. Verwandte Arbeiten

Im Folgenden werden einige Algorithmen zum Thema Ähnlichkeitsberechung in Ontologien und Schemata vorgestellt. Des weiteren wird ein Klassikationsansatz für Techniken zur Ähnlichkeits- berechnung vorgestellt, um einen groben Überblick über mögliche andere Techniken zu geben.

Zuvor werden aber noch einige grundlegende Begriichkeiten kurz dargestellt.

In der Literatur ndet man immer wieder die Begrie Matching, Mapping, Alignment und Mer- ging. Shvaiko und Euzenat geben in [37] die Denition, dass Matching eine Operation ist, die zwei Ontologien als Eingabe hat und eine Zuordnung von korrespondierenden Elementen (Map- ping) als Ausgabe hat. Eine Menge von solchen Zuordnungen wird als Alignment bezeichnet.

Eine schematische Darstellung dieser Denition zeigt Abbildung 2.1, wobeioundo⁰ die Ontolo- gien darstellen, die die Operation übergeben bekommt.A stellt ein Alignment dar, welches der Operation übergeben wird. Es ist in den meisten Fällen leer. Dieses Alignment wird während der Operation durch die gefundenen Mappings ergänzt und ergibt am Ende A⁰. Die Variablen p und r stellen die Parameter der Operation (p) und die verwendeten externen Ressourcen (r) dar.

Abbildung 2.1.: Schematische Darstellung des Matching Prozesses [37]

Das Ontology Merging bezeichnet das Zusammenführen zweier Ontologien, wobei die ermittelten Mappings als Zusammenführungspunkte verwendet werden.

Eine etwas andere Verwendung der Begrie ist bei den Publikationen zu CTX-Match, S-Match und Cupid zu nden. Hier wird das Matching ebenfalls als Operation angesehen, nur dass das Ergebnis aus einer Menge von Mapping Elementen besteht die zusammen das Mapping (vergl.

Alignment) ergeben.

Bei den Techniken kann man ausgehend von den Strukturen, die sie erwarten Ontology Mat- ching und Schema Matching unterscheiden. Beim Ontology Matching werden dem Matching Algorithmus zwei Ontologien übergeben. Im Gegensatz dazu werden den Algorithmen beim Schema Matching Schemata übergeben. Der Unterschied zwischen beiden besteht darin, dass die Hierarchien in der Ontologie so aufgebaut sind, dass zwischen den Elementen der Hierarchie eine ist ein(e)-Beziehungen besteht. In den Schemata ist das dagegen nicht zwingend so. Die

(16)

verwendeten Schemata sind in den meisten Fällen Klassikationshierarchien. Bei diesen wird mit jeder Hierarchiestufe eine Verfeinerung der Klassikation vorgenommen.

Klassikation der verschiedenen Techniken zum Ontology und Schema Matching

Shvaiko und Euzenat entwickeln in [37] eine Klassizierung für Algorithmen zum Ontology und Schema Matching. Für diesen Zweck bauen sie zwei Klassikationen auf. Die erste unterscheidet die Algorithmen danach, wie die Eingabedaten betrachtet werden, werden die Elemente für sich betrachtet oder werden auch die Strukturen in denen die Elemente sich benden betrachtet (Granularity). Des weiteren wird begutachtet, wie die Daten des Schemas bzw. der Ontologie interpretiert werden (Input Interpretation). Die zweite Klassikation unterscheidet die Algorith- men danach, als was die Daten des Schemas bzw. der Ontologie betrachtet werden (Kind of Input). Abbildung 2.2 zeigt die aufgestellte Klassikation und die verschiedenen Ausprägungen.

Abbildung 2.2.: Darstellung der Klassikationen von Shvaiko und Euzenat [37]

(17)

Den Punkt Granularity unterteilen Shvaiko und Euzenat in zwei Ausprägungen. Die element- level Techniken verwenden nur die Daten des Elements und ignorierten die Struktur in der das Element steht. Die structure-level Techniken betrachten die Struktur in der die Elemente auftauchen.

Für die Unterscheidung wie die Eingabedaten interpretiert werden können werden drei Aus- prägungen unterschieden. Algorithmen, die nur die Daten des Schemas bzw. der Ontologie betrachten ohne deren Bedeutung zu berücksichtigen, wurden in Abbildung 2.2 unter syntactic eingeordnet. Unter semantic wurden Techniken eingeordnet, die formale Semantiken verwenden um die Daten zu interpretieren und damit ein Ergebnis ermitteln. Techniken, die auf externe Ressourcen, domänenspezischer oder allgemeiner Natur, werden unter external gruppiert.

In der mittleren Schicht von Abbildung 2.2 werden die verschiedenen Technologien gezeigt, die von Shvaiko und Euzenat herausgestellt wurden. Diese Technologien bilden die Blätter der zwei Klassikationsbäume, die in der Abbildung zusammengeführt wurden. Sie bilden also die Sicht auf die Technologien wie sie sich nach der Klassikation nach beiden Schemata ergeben.

Den Punkt Kind of Input verfeinern sie in zwei Schritten. Im Groben wird unterschieden zwischen Algorithmen, die die Eingabedaten als Strings betrachten (terminological), die die strukturellen Beziehungen der Schemata bzw. Ontologien betrachten (structural) und die die Daten als semantische Modelle auassen (semantics). Diese Unterteilung wird im zweiten Schritt verfeinert. Die Algorithmen, die Strings betrachten, müssen diese nicht unbedingt als eine Menge von Buchstaben betrachten, sondern können sie auch als linguistische Objekte betrachten. Die Techniken die die strukturellen Beziehungen auswerten werden unterteilt in solche die die interne Struktur der Elemente berücksichtigen (internal) und Techniken, die die Beziehungen zu anderen Elementen verarbeiten (relational).

Die aus diesen Klassikationen resultierenden Einzeltechniken werden dann wie folgt charakterisiert.

Bei den stringbasierten (string-based) Techniken werden die Mappings anhand von Strin- gänhlichkeitsmaÿen berechnet. Diese werden auf die Label der Elemente der Schemata bzw.

Ontologien angewandt. Je ähnlicher die Strings der Label sind, desto ähnlicher sind auch die Elemente.

Die sprachbasierten (language-based) Techniken betrachten ebenfalls die Strings der Label.

Diese werden aber nicht als Ansammlung von Buchstaben sondern als Menge von Wörtern einer natürlichen Sprache betrachtet.Diese Techniken verwenden Methoden des Natural Language Processings (NLP). Die Resultate dieser Verarbeitung werden häug mit weiteren Techniken bearbeitet, so z.B. mit lexikonbasierten Techniken.

Die bedingungsbasierten Techniken (constraint-based) verarbeiten die Bedingungen, die an Elemente geknüpft sind. Zu den Bedingungen zählen neben Datentypen und Kardinalitäten der Attribute auch die Schlüsselbeziehungen zwischen Tabellen bei relationalen Datenbanken.

(18)

Techniken die linguistische Ressourcen (linguistic resources) einsetzen verwenden die linguistischen Beziehungen dieser, um Elemente einander zuzuordnen. Sehr weit verbreitet ist hier die Verwendung von WordNet als allgemeiner Thesaurus.

Die Techniken, die bereits bestehende Alignments wieder verwenden (alignment reuse) gehen davon aus, dass Ontologien zu denen Alignments berechnet werden sollen, ähnlich zu solchen sind zu denen bereits Alignments berechnet wurden. Diese Techniken verwenden Repositorien mit bereits berechneten Alignments als externe Ressource.

Ebenfalls eine externe Ressource stellen übergeordnete formale Ontologien (upper level for- mal ontologies) dar. Diese externen Ressourcen sind gegenüber den linguistischen Ressourcen logikbasiert und erlauben es dem Matching Algorithmus logische Methoden auszuschöpfen um Alignments zu erzeugen.

Die bisher vorgestellten Techniken konzentrieren sich darauf Mappings auf Basis der Informa- tionen der Elemente zu berechnen. Nun sollen die Techniken vorgestellt werden, die die strukturellen Informationen benutzen.

Die graphbasierten Techniken (graph-based) betrachten die Ontologien als beschrifteten Gra- phen. Bei dieser Technik wird davon ausgegangen, dass wenn zwei Knoten in einem Graphen ähnlich sind, dass dann auch ihre benachbarten Knoten ähnlich sind.

Algorithmen, die ebenfalls die graphische Struktur ausnutzen, sind die taxonomiebasierten Techniken (taxonomy-based). Sie nutzen die Spezialisierungsbeziehungen zwischen den Elemen- ten in der Taxonomie. Diese Techniken gehen davon aus, dass die Beziehungen in der Taxonomie bereits ähnliche Elemente verbinden, und somit die benachbarten Elemente ebenfalls zu einem gewissen Maÿe ähnlich sind.

Ähnlich der Wiederverwendung von Alignments gibt es bei den strukturbasierten Techniken die Möglichkeit Ähnlichkeiten zwischen Strukturen zu speichern und für die Berechnung zu verwenden (repository of structures).

Die modellbasierten Techniken (model-based) stellen die letzte der strukturbasierten Techni- ken dar. Diese Techniken behandeln die Schemata bzw. Ontologien gemäÿ ihrer semantischen Interpretation.

Die im Folgenden vorgestellten Techniken werden danach unterteilt, ob sie Mappings für Schemata oder Ontologien berechnen.

Algorithmen zum Schema Matching S-Match

In den Publikationen [16], [18] und [17] wird von Giunchiglia, Shvaiko und Yatskevich der Algo- rithmus S-Match vorgestellt. S-Match ist ein Algorithmus der Elemente aus Schemata einander zuordnet und dabei keinen Ähnlichkeitskoezienten berechnet, sondern eine logische Beziehung zwischen den Elementen berechnet.

(19)

In [16] führen Giunchiglia und Shvaiko ein, was sie unter syntaktischen und semantischen Matching verstehen. Syntaktisches Matching besteht für sie dann, wenn die Ähnlichkeiten auf Basis der Strings der Label berechnet wird. Kennzeichnend für sie ist, dass beim syntaktischen Matching ein Ähnlichkeitskoezient berechnet wird, der einen Wert zwischen Null und Eins annimmt.

Das semantische Matching hingegen kennzeichnen sie dadurch, dass anstelle eines Ähnlich- keitskoezienten eine logische Beziehung berechnet wird. Diese wird im Gegensatz zum syntaktischen Matching nicht zwischen den Labelstrings berechnet, sondern zwischen den logischen Konzepten, die den Knoten des Graphen zugeordnet sind. Für das Matching von Knoten im Gra- phen geben sie an, dass syntaktisches Matching unabhängig von der Struktur vorgeht und die Ähnlichkeit nur auf Basis der Label bestimmt werden. Für das semantische Matching betrachten sie die Konzepte der Knoten, die, da sie sich mit Klassikationshierarchien befassen, nicht nur die Bedeutung des Knotens für sich betrachtet, sondern auch die Bedeutung der Knoten, die diesem bis zum Wurzelknoten übergeordnet sind, mit einbezieht.

Für die Umsetzung ihrer Idee des semantischen Matchings gehen sie in zwei Schritten vor.

Der erste Schritt ist das elementbasierte Matching. Bei diesem werden für alle Knotenpaare der abzugleichenden Klassikationshierarchien logische Beziehungen berechnet. Beim zweitem Schritt, dem strukturbasierten Matching werden Zuordnungen zwischen Subgraphen berechnet.

Für das elementbasierte Matching wenden Giunchiglia und Shvaiko in [16] verschiedene Ver- fahren an, die sie in weak und strong semantics teilen. Zu den schwachen semantischen Ver- fahren gehören syntaktische Matching Verfahren, die so modiziert werden, dass sie anstelle eines Ähnlichkeitskoezienten eine logische Beziehung zurückgeben. Für die starken semantischen Verfahren werden die Konzepte (logische Formeln bestehend aus den Wortbedeutungen der Wörter des Labels) der Labels in Zusammenhang mit externen Ressourcen verwendet, die semantische Informationen und Verbindungen zwischen diesen explizit speichern (z.B. Word- Net). Die Beziehungen zwischen den semantischen Informationen werden für das semantische elementbasierte Matching in logische Beziehungen umgesetzt. Dabei wird so vorgegangen, dass wenn mindestens eine Wortbedeutung des ersten Konzepts ein Synonym einer Wortbedeutung des zweiten Konzepts ist, dann wird beiden die Äquivalenzbeziehung zugewiesen. Hat mindestens eine Wortbedeutung des ersten Konzepts eine der Wortbedeutungen des zweiten Konzepts als Hyperonym oder Holonym so wird das erste als genereller als das zweite betrachtet. Ähn- lich verhält es sich bei Hyponymen und Meronymen, nur dass hier das erste als spezieller als das zweite betrachtet wird. Falls beide Konzepte mindestens eine der Bedeutungen teilen, dann werden sie als überlappend angesehen. Trit keines der oben genannten zu, so wird ausgegeben, dass beide Konzepte nicht übereinstimmen.

Auf dem elementbasierten Matching baut das strukturbasierte Matching auf. Diesem werden die im elementbasierten Matching berechneten Beziehungen als Hintergrundwissen übergeben.

Daneben werden die Konzepte für jeden Knoten berechnet. Das Konzept eines Knotens besteht im Gegensatz zu dem Konzept des Labels, welches für das elementbasierte Matching verwendet

(20)

wird, nicht nur aus den Bedeutungen des Labels, sondern aus der Konjunktion der Konzepte der Labels aller bis zum Wurzelknoten übergeordneten Knoten des Schemas. Für die jeweiligen Knotenpaare werden die logischen Beziehungen zwischen den zugehörigen Konzepten berechnet.

Dazu werden logische Erfüllbarkeitsprobleme aufgestellt und veriziert. Diese Berechnung wird iterativ durchgeführt, um bereits berechnete logische Beziehungen mit in die Ausgangsdaten miteinbeziehen zu können und damit bessere Ergebnisse erreichen zu können.

In [18] werden die Verfahren beim elementbasierten Matching weiter verfeintert. So werden verschiedene zusätzliche Berechnungsmethoden eingeführt. Besonders hervorzuheben sind die Berechnungsmethoden, die auf der Wortbedeutungsbeschreibung (Glosse) von WordNet basieren. Die elementbasierten Matchings werden nicht mehr nach starker oder schwacher Semantik aufgeteilt, sondern in drei Kategorien unterteilt: stringbasiert, bedeutungsbasiert und glosseba- siert. Den einzelnen Berechnungsmethoden wird entsprechend ihrer Genauigkeit ein Approxima- tionswert zugewiesen.

Die glossebasierten Verfahren berechnen anhand der Wortbedeutungsbeschreibungen der einzelnen Wortbedeutungen die Beziehung zwischen den Konzepten der Label. Giunchiglia und Yatskevich unterscheiden dabei zwischen der normalen Glosse und der erweiterten Glosse. Die erweiterte Glosse setzt sich aus der Glosse der über- bzw. untergeordneten Wortbedetungen zusammen. Die glossebasierten Matchings stellen verschiedene Variation davon dar, ob die Wör- ter des Labels in den jeweiligen Glossen erscheinen sollen oder ob die Glossen der verschiedenen Wortbedeutungen sich überschneiden müssen. Erweiternd wird noch betrachtet, wie viele Synonyme, Hyperonyme/Holonyme und Hyponyme/Meronyme die jeweiligen Glossen teilen.

Anhand desse welche Glossen untersucht werden wird eine entsprechende logische Beziehung ausgegeben. So wird die Beziehung ist genereller als dann ausgegeben, wenn die Glosse der zweiten Wortbedeutung viele (über einem bestimmten Schwellwert liegende) Hyperonyme und Holonyme der Wörter der Glosse der ersten Wortbedeutung besitzt.

Die Konstruktion der Konzepte der Labels wird in [17] verdeutlicht. Im Preprocessing werden die Label tokenisiert und dann die einzelnen Wörter des Labels lemmatisiert, so dass die Grundformen der einzelnen Wörter zur Verfügung stehen. Zu diesen Wörtern, abgesehen von Präpositionen etc., werden die verschiedenen Wortbedeutungen aus WordNet geholt. Die Prä- positionen und Satzzeichen werden nach einem vorgegebenen Schema in logische Konnektoren umgewandelt.

Es wird ebenfalls der Ablauf des Algorithmus nochmals genauer dargestellt. So werden zu erst die Konzepte der Label und dann darauf aufbauend die Konzepte der Knoten berechnet. Mit den Konzepten der Label wird das elementbasierte Matching durchgeführt. Das Ergebnis dieses Prozesses ist eine Matrix mit den logischen Beziehungen zwischen den Konzepten der Label.

Diese Matrix wird dann als Hintergrundwissen für die Berechnung der logischen Beziehungen zwischen den Konzepten der Knoten verwendet.

S-Match basiert auf einer früheren Version von CTX-Match.

(21)

CTX-Match

Bouquet et. al. beschäftigen sich in [4] mit dem Matching von Klassikationsschemata. Diese Klassikationsschemata bezeichnen sie als Kontexte, welche eine partielle und approximierte Abbildung der Welt aus Sicht einer abgegrenzten Gruppe darstellen. Aus der Bezeichnung als Kontexte leitet sich auch die Bezeichnung des Algorithmus CTX-Match ab. Dieser Algorithmus berechnet eine Beziehung zwischen zwei Knoten verschiedener Klassikationsschemata. Die Fra- ge, die sich Bouquet et. al. stellen ist, ausgehend von zwei Klassikationsschemata von denen zwei Knoten aufeinander abgebildet werden sollen, welche logische Beziehung zwischen diesen beiden Knoten besteht. Für ihren Algorithmus gehen sie davon aus, dass die Knoten der Klas- sikationsschemata mit natürlich sprachlichen Begrien oder Ausdrücken bezeichnet sind und damit über diese Begrie und Ausdrücke viel implizites Wissen in den Klassikationsschemata gespeichert ist.

Das Klassikationsschema wird als gerichteter Graph betrachtet dessen Knoten natürlich- sprachlich bezeichnet sind. Die Bedeutung der Knoten ergibt sich aber nicht nur aus der Bedeu- tung der Label der Knoten, sondern auch aus der Position des Knotens im Schema.

In [4] werden Kontext, Konzepthierarchie und hierarchische Klassikation voneinander abge- grenzt. Dabei ist der Kontext als ein Graph und eine Menge von Annahmen deniert, die Metain- formationen zum Graph geben. Die Konzepthierarchie bezeichnet den Graph des Kontextes und die hierarchische Klassikation ist eine Zuweisungsfunktion, die eine Menge von Dokumenten einem Knoten der Konzepthierarchie zuordnet.

Für das Matching wird einem Knotenpaar, wobei beide Knoten aus unterschiedlichen Kon- zepthierarchien entstammen, eine von fünf logischen Beziehungen zugewiesen. Die fünf logischen Beziehungen sind dabei die folgenden: ist äquivalent zu, ist genereller als, ist spezieller als, ist disjunkt zu und beide sind kompatibel.

Die Beziehungen werden so aufgefasst, dass wenn zwei Knoten der Konzepthierarchien äqui- valent sind, dann werden dieselben Dokumente von den hierarchischen Klassikationen diesen Knoten zugewiesen.

Der Algorithmus sieht ein Vorgehen in zwei Schritten vor. Der erste Schritt ist die Seman- tic Explication. In diesem Schritt werden die impliziten Daten der Konzepthierarchie explizit in einer logischen Formel dargestellt. Diese logische Formel soll nach Bouquet et. al eine Ap- proximation dessen sein, wie ein Benutzer den Knoten interpretieren würde. Für diesen Schritt werden lexikalische Informationen und Informationen aus dem Schema genutzt. Die Semantic Explication wird in zwei Phasen geteilt. Die erste Phase ist die linguistische Interpretation. In dieser Phase wird zu jedem Label der Konzepthierarchie eine logische Formel aufgestellt, die auf Basis der Wortbedeutungen der Wörter der Label aufgebaut wird. In der zweiten Phase, der Kontextualisierung, werden die logischen Formeln um die Wortbedeutungen reduziert, bei denen es unwahrscheinlich ist, dass diese die Bedeutung des Konzepts korrekt wiedergeben (als sense ltering bezeichnet). Weiterhin wird in der Kontextualisierung die logische Formel für den Kno-

(22)

ten unter Berücksichtigung der Position des Knotens in der Konzepthierarchie berechnet (sense composition). Dafür wird eine Konjunktion der logischen Formeln aller übergeordneten Knoten bis hin zum Wurzelknoten und des betrachteten Knoten erstellt. Diese Konjunktion ergibt die logische Formel des Knotens auf dessen Basis die logische Beziehung zu einem anderen Knoten berechnet wird.

Der zweite Schritt des Algorithmus ist die Semantic Comparison. Dieser Schritt besteht daraus, dass für jedes Knotenpaar ein Erfüllbarkeitsproblem gestellt wird, welches durch einen SAT solver (Reasoner) auf Erfüllbarkeit geprüft wird. Für diesen Schritt wird Hintergrundwissen be- nötigt, auf dessen Basis die Erfüllbarkeitsprüfung berechnet werden kann. Dieses Hintergrund- wissen wird aus den Beziehungen zwischen den Wortbedeutungen gebildet, aus denen sich die logischen Formeln zu den Knoten zusammensetzen. Für den Aufbau des Hintergrundwissens werden die Beziehungen in WordNet dabei wie folgt umgesetzt: Synonymbeziehung wird zu ist äquivalent zu, Hyperonyme und Holonyme werden durch ist genereller als, Hyponyme und Meronyme werden durch ist spezieller als und zwei Nomen, die Hyponyme desselben Wortes sind, werden durch ist disjunkt zu verbunden.

Anhand der so aufgebauten Axiome können die logischen Beziehungen der kontextualisierten logischen Formeln der Knoten berechnet werden.

Für die Berechnung werden nach [5] drei verschiedene Typen von Wissen verwendet:

• lexikalisches Wissen: Wissen über die verwendeten Wörter

• domönenspezisches Wissen: Wissen über die Beziehungen zwischen der Wortbedeutun- genm der einzelnen Wörter

• strukturelles Wissen: Wissen, welches aus der Anordnung der Knoten abgleitet werden kann.

Cupid Madhavan, Bernstein und Rahm konzentrieren sich in [28] ähnlich wie S-Match und CTX-Match auf Schema Matching. Mit ihrem Algorithmus Cupid generieren sie Mappings, die aber nur angeben, dass zwei ausgewählte Knoten einander zugeordnet werden können, nicht aber in welcher Beziehung die zwei Knoten zueinander stehen. Für ihren Algorithmus versuchen sie verschiedene Techniken zum Einsatz zu bringen. Mit ihrem Algorithmus berechnen Madhavan, Bernstein und Rahm für Knotenpaare einen Ähnlichkeitskoezienten dessen Wert im Intervall [0,1] liegt. Dieser Koezient berechnet sich aus zwei weiteren Koezienten, die in den zwei Phasen des Algorithmus berechnet werden. Der erste der beiden ist der linguistische Ähnlich- keitskoezient, der in der Phase des linguistic Matching berechnet wird. Die zweite Phase ist das structural Matching, welche als Ergebnis den strukturellen Ähnlichkeitskoezienten besitzt. Die gewichtete Summe der beiden Koezienten ergibt den Ähnlichkeitskoezienten des Mappings.

Das linguistic Matching beruht hauptsächlich auf der Namensgebung der Knoten des Sche- mas. Der linguistische Ähnlichkeitskoezient wird in drei Schritten berechnet. Der erste Schritt ist die Normalisierung. Hier werden die einzelnen Wörter der Beschriftungen extrahiert und

(23)

Abkürzungen durch ihre Langform ersetzt. Präpositionen, Artikel und Wörter ähnlicher Wort- arten werden verworfen. Im zweiten Schritt werden die Elemente des Schemas in Kategorien unterteilt. Die Kategorienzuordnung wird anhand von Datentypen, Position in der Hierarchie und des linguistischen Inhalts vorgenommen. Ein Schemaelement kann dabei verschiedenen Ka- tegorien zugeordnet sein. Im dritten Schritt des linguistic Matching erfolgt die Berechnung des linguistischen Ähnlichkeitskoezienten. Für diese Berechnung werden die aus den Bezeichnun- gen extrahierten Wörter unter Verwendung eines Thesaurus, der auch synonyme und hyperonyme Wortbeziehungen berücksichtigt, verglichen. Die vorher getroene Kategorisierung spielt in dieser Berechnung insofern eine Rolle, dass nicht alle Elemente des einen Schemas mit allen Ele- menten des anderen verglichen werden müssen. Es werden nur Elemente gleicher und ähnlicher Kategorien verglichen.

Für jedes Elementpaar wird im structure Matching ein struktureller Ähnlichkeitskoezient berechnet. Dabei werden folgende Ideen zugrunde gelegt:

• Blattknoten der Schemata sind ähnlich, wenn die linguistische Ähnlichkeit hoch ist und die übergeordneten Knoten ebenfalls sehr ähnlich sind

• Knoten der Schemata sind ähnlich, wenn sie linguistisch ähnlich sind und die untergeordneten Knoten ähnlich sind

• Knoten der Schemata sind strukturell ähnlich, wenn die ihnen untergeordneten Blattknoten ähn-lich sind unabhängig davon ob die Kindknoten ähnlich sind.

Beim structure Matching wird so vorgegangen, dass zu erst die Kompatibilität ihrer Daten- typen geprüft wird. Dies erfolgt anhand einer vorgegebenen Tabelle. Dann wird in postorder Abfolge die strukturelle Ähnlichkeit der jeweiligen Elemente berechnet. Dabei werden zuerst die Ähnlichkeiten der Blattknoten in einem Durchlauf berechnet. Die Ähnlichkeit bestimmt sich aus der lingustischen Ähnlichkeit und wird dann um jeweils einen Faktor erhöht oder verringert, je nachdem wie ähnlich oder unähnlich die übergeordneten Knoten sind. Diese Berechnung erfolgt iterativ, so dass die strukturelle Ähnlichkeit der Blattknoten bei der Betrachtung aller über- geordneten Knoten angepasst wird. In einem zweiten Durchlauf werden die Ähnlichkeiten der Knoten, die keine Blattknoten sind, anhand der Ähnlichkeit der Blattknoten berechnet.

Algorithmen zum Ontology Matching

GLUE Das in [9] vorgestellte Matching ist ein Verfahren, welches Methoden des maschinellen Lernens verwendet. Das Verfahren setzt dabei verschiedene Lernverfahren ein und greift auf unterschiedliche Typen von Informationen zurück, so z.B. auf die Instanzen und die Taxonomie der Ontologie. Zur Verbesserung der Ergebnisse werden zusätzlich domänenspezische Einschrän- kungen in Form von Heuristiken berücksichtigt.

Doan et. al. betrachten einen Instanzenraum. Jeder Klasse der Ontologie ist eine Menge von Instanzen dieses Instanzenraumes zugeordnet. Sie gehen davon aus, dass gerade bei der Verwen- dung der Ontologien im Semantic Web den Klassen besonders viele Instanzen zugeordnet sind.

(24)

Die Instanzen, die in den verschiedenen Ontologien deniert sind, betrachten sie als repräsenta- tiven Schnitt des Instanzenraumes. Anhand der Instanzen die den Klassen A und B zugeordnet sind berechnen Doan et. al. die Ähnlichkeit dieser Klassen.

Der Ähnlichkeitswert im Algorithmus GLUE wird anhand der vereinigten Wahrscheinlich- keitsverteilung berechnet. Die vereinigte Wahrscheinlichkeitsverteilung zweier Klassen A und B, wobei beide verschiedenen Ontologien entstammen, setzt sich aus den vier Wahrscheinlich- keitswerten P(A, B), P(A, B), P(A, B), P(A, B) zusammen. Diese Werte ergeben sich aus der Anzahl der Instanzen, die sowohl A und B, A aber nicht B, nicht A aber B und weder A noch B zugeordnet sind. Als Ähnlichkeitsmaÿ wird in [9] der Jaccard Koezient verwendet. Der Algo- rithmus GLUE sieht als Eingabe zwei Ontologien vor, deren Klassen (zumindest den Klassen der Taxonomie) die Instanzen der Ontologie zugeordnet sind. Das bedeutet aber, dass die Instanzen der Ontologie, in der B eine Klasse ist, nicht A zugeordnet sind und umgekehrt. Dieses Pro- blem wird mit Hilfe von Methoden des Maschinenlernens versucht zu lösen. So wird ein Lerner mit den Instanzen der Klasse A trainiert, der dann die Instanzen der Klasse B klassiziert und umgekehrt. Auf diese Art und Weise werden die Instanzen bestimmt, die sowohl A als auch B, etc. zugeordnet sind. Der WahrscheinlichkeitswertP(A, B) ergibt sich dann aus der Anzahl der Instanzen beider Ontologien die beiden Klassen zugeordnet sind geteilt durch die Anzahl aller Instanzen beider Ontologien. Auf diese Art und Weise werden auch die restlichen drei Wahr- scheinlichkeitswerte berechnet. Diese Berechnung wird für mehrere Lerner durchgeführt. Somit wird ein multi-strategy Lernverfahren aufgebaut. Die Ergebnisse der verschiedenen Lerner werden von einem so genannten Metalerner zusammengerechnet. In der Version von GLUE, die in dem Paper vorgestellt wird, werden zwei verschiedene Lerner eingesetzt, deren Ergebnisse der Metalerner mittelt. Die verwendeten Lerner sind zum einen der Content Learner und zum anderen der Name Learner. Der Content Learner berechnet die Zugehörigkeit zu einer Klasse anhand der Gesamtheit der Literale, die einer Instanz aufgrund von Wertzuweisungen zugeordnet sind. Der Name Learner berechnet die Zugehörigkeit nur anhand der namensgebenden Litera- le. Auf diese Weise werden für alle Paare Ähnlichkeitswerte ermittelt. Diese Ähnlichkeitswerte werden im letzten Schritt durch die Verwendung eines Relaxation Labeler mit den Heuristiken und den domänenspezischen und allgemeinen Einschränkungen zusammengeführt. Dabei werden vor allem strukturbezogene Daten herangezogen. Für das Relaxation Labeling werden die Einschränkungen als Merkmale verwendet. Diese Einschränkungen werden für die Berechnung in numerische Werte im Intervall [0,1]umgesetzt. Anhand der Merkmale wird dann die Wahr- scheinlichkeit berechnet, dass ein Label zu einem Knoten passt. Die Label sind dabei die Klassen der Taxonomie der ersten Ontologie und die Knoten sind die Klassen der Taxonomie der zweiten Ontologie. GLUE berücksichtigt für seine Berechnungen nur die Klassen der Taxonomie und die Instanzen dieser Klassen. Die berechneten Zuordnungen sind Eins zu Eins, das bedeutet, dass einer Klasse aus der einen Ontologie eine Klasse aus der zweiten Ontologie gegenübergestellt wird.

(25)

Matching anhand von Googletreern Die Idee, die in [44] entwickelt wird, geht davon aus, dass ähnliche Klassen oder verwandte Klassen in Ontologien anhand von Google Suchen gefunden werden können. Dazu werden die einander zuzuordnenden Klassen bzw. deren Labels zu Suchausdrücken verbunden. Für dieses Verbinden wird auf die so genannten Hearst Patterns zurückgegrien. Diese setzen zwei Begrie in verschiedenartige Beziehungen zueinander. Die Ergebnisse der Google Suche werden dann anhand ihrer Treermengen bewertet. Je gröÿer die Treermenge ist, desto gröÿer ist der Hinweis auf eine existierende Beziehung zwischen den Klassen. Neben der Untersuchung mit Google wird aber auch eine Untersuchung auf Basis eines brachenspezischen Wörterbuchs durchgeführt.

Im ersten Versuch werden die Labels der Klassen einfach durch die verschiedenen Hearst Pat- terns verbunden. Nach den so kreierten Suchtermen wird dann in Google gesucht und die An- zahl der Googletreer wird gezählt. Überschreitet die Anzahl der Suchtreer einen bestimmten Schwellwert, so kann davon ausgegangen werden, dass zwischen beiden Klassen eine Beziehung besteht.

Dieses Vorgehen wird dann so erweitert, dass nicht alle Googletreer verwendet werden, sondern dass zusätzlich zu den Treermengen von Google die Ausschnitte zu jedem Treer abgefragt werden. Anhand dieses Ausschnitts wird bestimmt, ob wirklich die Labels der Klassen enthalten sind oder, ob der jeweilige Suchtreer durch andere Daten verfälscht wurde. Die Treer bei denen die verbundenen Wörter nicht denen der Label der Klassen entsprechen werden als falsche Treer entfernt.

Als weitere Methode wird in diesem Paper die Bestimmung der Existenz einer Beziehung anhand eines Wörterbuchs vorgenommen. Dabei wurde nicht WordNet verwendet, sondern ein fachbezogenes Wörterbuch. Hier wurde die These aufgestellt, dass in der Beschreibung eines Wortes generellere Begrie als der eigentliche Begri verwendet werden. Diese These wurde so eingegrenzt, dass gesagt wurde, dass das erste Nomen der Beschreibung ein übergeordneter Begri ist. Für diese Berechnung wurden für ein Label alle Begrie aus dem Wörterbuch extrahiert, die den Wörtern des Labels entsprechen (hier wurden Label betrachtet, die aus einem Wort bestehen). Die Beschreibungen dieser Wörterbucheinträge wurden mit einem Dependency Parser geparst und das erste Kopfwort extrahiert (genauere Erläuterung was ein Dependency Parser und ein Kopfwort ist im zweiten Unterabschnitt von Abschnitt 3.2.1 zu nden). Stimmt das erste Kopfwort der Beschreibung eines Wortes mit dem Label der zu vergleichenden Klasse überein, so wird zwischen beiden Klassen eine Unterklassebeziehung festgestellt.

Die Bestimmung der Beziehung mittels Google und eines Wörterbuchs werden in der letzten Variante gemeinsam genutzt. Um eine Beziehung zu bestimmen werden die über die Wörter- buchmethode gefundenen Beziehungen mit der Googlemethode veriziert oder falsiziert.

(26)

(27)

3. Beschreibung der Methode

In diesem Kapitel wird die entwickelte Methode vorgestellt und anhand eines Beispiels demonstriert. Als Beispiel soll dabei die Weinontologie¹ dienen, die auch als Beispiel für den OWL Guide² verwendet wird. Diese Ontologie modelliert verschiedene Weinsorten mit ihren verschiedenen Eigenschaften und weist einer Menge modellierter Mahlzeiten verschiedene Weinsorten anhand deren Eigenschaften zu.

Das Weinontologie Beispiel

Der Modellierungsbereich dieser Ontologie ist der Bereich der Nahrungsmittel, speziell von Wein und der Abstimmung von verschiedenen Weinen und Mahlzeiten. Die Modellierungsgegenstände sind die verschiedenen Weinsorten und Mahlzeiten, sowie die verschiedenen Eigenschaftstypen dieser. Die Modellierungsperspektive der Weine ist die Betrachtung als Getränk mit verschiedenen Eigenschaften, wie Farbe, Zuckergehalt und Herkunftsregion. Die Modellierungsperspektive der Mahlzeiten ist die Betrachtung der Hauptbestandteile der Mahlzeiten und die zu den Mahl- zeiten passenden Weingeschmacksrichtungen.

Um zu einem Modellierungsgegenstand einer Ontologie ähnliche Modellierungsgegenstände zu nden, die unter einer ähnlichen Modellierungsperspektive modelliert sind, ist es zu erst notwendig den Modellierungsgegenstand und die Modellierungsperspektive in einer vergleichba- ren Form darzustellen. Ist dies geschehen, so muss eine Kandidatenmenge erstellt werden. Diese Kandidatenmenge besteht aus Modellierungsgegenständen der Ontologie, in der ähnliche Model- lierungsgegenstände vermutet werden und die auf ihre Ähnlichkeit hin geprüft werden sollen. Die Modellierungsgegenstände dieser Kandidatenmenge müssen dann ebenfalls in dieser vergleichba- ren Form dargestellt werden. Auf dieser Basis können dann die Modellierungsgegenstände und -perspektiven verglichen werden. Auf diese Art und Weise erhält man zwei Ähnlichkeitswerte.

Diese zwei Werte geben Auskunft über die Menge der Gemeinsamkeiten der Modellierungsge- genstände bzw. Modellierungsperspektiven. Neben den Ähnlichkeitswerten soll eine Beziehung zwischen den verglichenen Modellierungsgegenständen hergestellt werden. Das heiÿt, dass bestimmt werden soll, ob beide Gegenstände äquivalent sind oder ob einer der beiden Modellie- rungsgegenstände eine generellere Bedeutung hat als der andere. Der Modellierungsgegenstand Wein hat eine generellere Bedeutung als der Modellierungsgegenstand französischer Wein.

Bei der hier vorgestellten Methode wird davon ausgegangen, dass eine Menge Modellierungsge- genstände aus der Ausgangsontologie bereits ausgewählt wurden zu denen ähnliche Gegenstände

1http://www.w3.org/2001/sw/WebOnt/guide-src/wine.rdf

2http://www.w3.org/TR/owl-guide/

(28)

gefunden werden sollen. Als vergleichbare Form, in der die Modellierungsgegenstände dargestellt werden sollen, wird eine Darstellung auf Grundlage einer gemeinsamen Basisontologie verwendet. Diese Darstellung soll die Bedeutung des Modellierungsgegenstands explizit darstellen. Sie soll es ermöglichen zu bestimmen in welchem Verhältnis zwei Modellierungsgegenstände zueinander stehen und einen Ähnlichkeitswert zu berechnen.

Diese vergleichbare Form beinhaltet bei der hier entwickelten Methode zwei verschiedene Dar- stellungen. So wird für die Berechnung des Verhältnisses in dem zwei Modellierungsgegenstände zueinander stehen die Darstellung als beschreibungslogisches Konzept gewählt und für die Be- rechnung eines Ähnlichkeitswertes wird eine Darstellung als Menge gewählt. Das beschreibungslogische Konzept soll dabei die Bedeutung eines Modellierungsgegenstandes auf Grundlage einer Basisontologie wiedergeben und die Menge soll auf dieser Darstellung aufbauend die Zusammen- setzung wiedergeben. Hat man zum Beispiel den Modellierungsgegenstand Wein und Käse, so ist dessen Bedeutung die von Wein und Käse. Die Menge setzt sich dann aus den Mengen für Wein und für Käse zusammen. Wein und Käse wären hierbei der Basisontologie entnom- men.

'

&

$

% Schritte der Methode zur Ähnlichkeitsberechnung

1. Bestimmung der Modellierungsgegenstände (als Fragment bezeichnet) zu denen ähnliche gefunden werden sollen (wird vom Benutzer vorgenommen)

2. Darstellung Modellierungsgegenstände des Fragments als beschreibungslogisches Konzept und als Menge

3. Bestimmung einer Kandidatenmenge zu den Modellierungsgegenstän- den des Fragments deren Ähnlichkeit zu diesen berechnet werden soll 4. Darstellung der Modellierungsgegenstände der Kandidatenmenge als

beschreibungslogisches Konzept und als Menge

5. Berechnung der Beziehungen zwischen den Modellierungsgegenstän- den des Fragments und der Kandidatenmenge, als auch der Werte für die Ähnlichkeit der Gegenstände und die Ähnlichkeit deren Perspek- tiven

Abbildung 3.1.: Schritte der Methode zur Ähnlichkeitsberechnung

In den folgenden Abschnitten werden die einzelnen Schritte (siehe Abbildung 3.1) genauer dargelegt und anhand der Weinontologie erläutert. Es werden die verschiedenen Grundbegrie erläutert, die die Terminologie für die Beschreibung des Modells bilden. Im darauf folgenden Abschnitt werden die einzelnen Schritte präsentiert und mit Hilfe des Weinbeispiels veranschau- licht.

(29)

3.1. Grundlegende Denitionen 3.1. Grundlegende Denitionen

In diesem Abschnitt soll geklärt werden, was unter einer Ontologie verstanden wird und wie in diesem Modell der Modellierungsgegenstand und die Modellierungsperspektive bestimmt werden.

Denition 1 (Ontologie) Eine OntologieOist deniert als Menge von Klassen³C, Beziehun- gen zwischen KlassenP (auch als Eigenschaften bezeichnet), InstanzenI und AxiomenA, sowie einer Klassenhierarchie C≤, einer EigenschaftshierarchieP≤ und der Menge der Bezeichnungen (auch Labels) der Klassen bzw. Eigenschaften (L_C und L_P).

O={C, P, I, A, C_≤, P≤, LC, LP}

Die Eigenschaften sind Abbildungen, die eine Menge von Klassen (Denitionsmenge Def(p)) auf eine Menge von Klassen (Bildmenge Bild p) abbilden.

p:c→c⁰, wobei c, c⁰ ∈C und p∈P

Zwischen den Klassen bzw. Eigenschaften der Ontologie besteht eine partielle Ordnung C≤

(partielle Ordnung der Klassen) bzw. P≤ (partielle Ordnung der Eigenschaften) (siehe hierzu auch [7]), die die Klassen- bzw. Eigenschaftshierarchie bildet. Diese partielle Ordnung sagt aus, dass eine Klasse bzw. eine Eigenschaft eine Unterklasse oder Oberklasse bzw. eine Untereigen- schaft oder Obereigenschaft einer anderen Klasse (c₁ ≤c₂, c₁, c₂ ∈C c₁ ist Unterklasse von c2) bzw. einer anderen Eigenschaft ist (p1≤p2, p1, p2 ∈P p1 ist Untereigenschaft vonp2). Ist c1 ≤c2 und es gibt keine Klasse c3, so dass c1 ≤c3 ≤c2, dann ist c1 eine direkte Unterklasse von c₂ (c₁ ≺c₂) und c₂ ist eine direkte Oberklasse von c₁. Die Denition direkter Unter- und Obereigenschaften erfolgt analog.

Einer Klasse bzw. einer Eigenschaft ist nur ein Label zugeordnet, wie auch einem Label nur eine Klasse bzw. eine Eigenschaft zugeordnet ist.

Die Klassen einer Ontologie werden als Modellierungsgegenstand betrachtet. Das bedeutet, dass eine Ontologie in der Regel über mehrere Modellierungsgegenstände verfügt. Die Menge der vorausgewählten Modellierungsgegenstände zu denen ähnliche gesucht werden sollen werden als Fragment (C_{f rag}) bezeichnet.

Die Weinontologie hat unter anderem die verschiedenen Weine und Mahlzeiten als Klassen.

Ein Teil dieser wird in Abbildung 3.2 grasch dargestellt. Diese Klassen sind in einer Hierarchie angeordnet, die als oberste Klasse ConsumableThing⁴ hat und diese in Edible Thing, Meal Course und Potable Liquid unterteilt. In der Klasse PotableLiquid bendet sich die Klasse Wine und deren Unterklassen. Die Eigenschaften der Weinontologie (siehe hier auch Abbildung 3.3 für eine auszugsweise Darstellung von Eigenschaften) für die Klasse Wine sind z.B. hasCo- lor und hasSugar. Den Wertebereich dieser Eigenschaften bilden die Klassen WineColor und

3In der Literatur werden die Klassen von Ontologien auch als Konzepte bezeichnet.

4Die Klassen der Ontologie werden hier im Text mit ihren Labels bezeichnet.

(30)

WineSugar, die Unterklassen von WineDescriptor sind. Abbildung 3.2 zeigt die beschriebenen Klassen und deren hierarchische Anordnung⁵.

Abbildung 3.2.: Auszug aus der Weinontologie - Darstellung der Klassenhierarchie von Consu- mableThing und WineDescriptor

Denition 2 (Graph der Ontologie) Ein Graph ist gemäÿ Graphentheorie deniert als Men- ge von Knoten E (Elemente) und Kanten V (Verbindungen).

Graph= (E, V)

Die Knoten des Graphen der Ontologie GraphO sind die Klassen und Eigenschaften ( die Elemente) der Ontologie. Die Kanten stellen die Verbindungen zwischen den Klassen und Ei- genschaften dar. Eine Verbindung zwischen einer Klasse und einer Eigenschaft (c ∈ C und p ∈ P) besteht dann, wenn die Klasse im Denitionsbereich der Eigenschaft ist (c ∈ Def(p)) oder die Klasse im Bildbereich der Eigenschaft ist (c∈Bild p). Eine Verbindung zwischen zwei Klassen (c, c⁰ ∈ C) bzw. Eigenschaften (p, p⁰ ∈ P) besteht dann, wenn eine der beiden Klas- sen bzw. Eigenschaften die direkte Unter- oder Oberklasse (c ≺ c⁰) bzw. direkte Unter- bzw.

Obereigenschaft (p≺p⁰) der anderen Klasse bzw. Eigenschaft ist.

GraphO = (E, V), mit E ={C∪P}

5Die Pfeilspitzen in den Ovalen der Klassen zeigen an, dass diese Klasse weiter Ober- oder Unterklassen, die nicht angezeigt werden besitzt. Die Orangefärbung zeigt, an, dass diese Klassen äquivalente Klassen in der Ontologie besitzen

(31)

3.1. Grundlegende Denitionen V_(c,p)={(c, p)|c∈C, p∈P : c∈Def(p)∨c∈Bild p}

V_(c,c⁰₎={(c, c⁰)|c, c⁰ ∈C: c≺c⁰} V_(p,p⁰₎={(p, p⁰)|p, p⁰∈P : p≺p⁰} V =V_(c,p)∪V_(c,c⁰₎∪V_(p,p⁰₎

Die Knoten des Graphen der Weinontologie werden von den Klassen und Eigenschaften gebildet. Abbildung 3.3 zeigt einen Auszug aus dem Graphen der Ontologie.

In der Literatur ndet man meist eine andere Graphendarstellung. In dieser Darstellung werden die Knoten von den Klassen und die Kanten von den Eigenschaften gebildet. Der Graph ist hier gerichtet. Die Kanten zeigen vom Denitions- zum Wertebereich der Eigenschaft.

Abbildung 3.3.: Auszug aus der Weinontologie - Darstellung als Graph

Der Graph der Ontologie ist ein ungerichteter Graph, in dem über den Pfad im Graphen die Distanz zwischen zwei Knoten deniert ist.

Denition 3 (Distanz) Die Distanz zwischen zwei Elementen im Graphen der Ontologie wird gemäÿ der Graphentheorie über den kürzesten Pfad deniert. Ein Pfad der Längenim Graphen der Ontologie ist dabei eine Folge von Elementen (e0, e1, ..., en) mit (ei, ei+1) ∈ Vfür 0 ≤ i ≤ n (i∈N), wobei die Länge des Pfades der Anzahl der Kanten entspricht.

P f ad= (e0, e1),(e1, e2), ...,(en−1, en)

dist(e₀, e_n) =n

Die Distanz zwischen den Knoten Wine und WineColor (siehe dazu Abbildung 3.3) beträgt gemäÿ Denition zwei und zwischen PotableLiquid und WineTaste vier.

Durch Verwenden der Distanz wird für ein Element der Ontologie ein Kontext bestimmt.

(32)

Denition 4 (Kontext) Der Kontext eines Elementseergibt sich aus der Menge von Elemen- ten e⁰, für die gilt:

dist(e, e⁰)≤Radius

wobei Radius eine Konstante ist, die den Radius des Kontextes bestimmt. Damit ergibt sich für ein Elemente ein Kontext, der aus Klassen, Eigenschaften und deren Labels besteht.

CT X(e) ={C^{CT X}, P^{CT X}}, wobei C^{CT X} ={c∈C|dist(e, c)≤Radius},

P^{CT X} ={p∈P |dist(e, p)≤Radius},

Der Kontext eines Modellierungsgegenstandes stellt dessen Modellierungsperspektive dar. Die Gesamtheit der Modellierungsgegenstände und deren -perspektive bildet den Modellierungsbe- reich.

Will man nun die Modellierungsperspektive des Modellierungsgegenstands Wine der Wei- nontologie bestimmen und wählt dafür den Kontextradius eins, so erhält man die Zuordnung zu den Getränken (Oberklasse) und kann anhand der Eigenschaften erkennen, dass der Wein nach seinen geschmacklichen und äuÿeren Eigenschaften charakterisiert wird (siehe dazu Abbildung 3.4).

Abbildung 3.4.: Auszug aus Weinontologie - Darstellung des Kontexts von Wine mit Radius Eins (ohne Unterklassen von Wine, aufgrund ihrer Menge)

Die Ober- und Unterklassen und die Eigenschaften werden für die Methode der Ähnlichkeits- berechnung dazu verwendet die Bedeutung des Modellierungsgegenstands genauer abzugrenzen und daraus die vergleichbare Darstellung (sowohl die beschreibungslogische Formel als auch die Menge) zu berechnen. Das bedeutet, dass im Beispiel die Klasse Wine durch ihre Oberklasse und ihre Eigenschaften weniger als wine im Sinne der Farbe sondern mehr im Sinne des Ge- tränks verstanden wird. Dies grenzt die Bedeutung ein und hilft damit die Bedeutung explizit

(33)

3.1. Grundlegende Denitionen darzustellen. Über diese Einschränkung kann für bestimmte Klassen ebenfalls die Mengengröÿe bestimmt werden. Diese Verfahren werden im nächsten Abschnitt beschrieben.

Die beschreibungslogische Formel als auch die Mengendarstellung werden auf Grundlage der Klassen einer Basisontologie entwickelt. Die Klassen der Basisontologie werden dabei als atomare Konzepte der Beschreibungslogik und als Mengen aus denen sich die Menge eines Mo- dellierungsgegenstands zusammensetzt betrachtet. Als Basisontologie wird hier eine lexikalische Ressource verwendet, da diese bereits über mehrere vordenierte Beziehungen verfügt. So ver- fügt die lexikalische Ressource neben einer Begrishierarchie über eine Ordnung der Begrie in Teil-Ganzes-Beziehungen. Darüber hinaus gibt es die Deklaration als Synonyme und Antonyme.

Jeder Klasse dieser Basisontologie ist eine Beschreibung zugeordnet.

Denition 5 (Lexikalische Ressource (Basisontologie)) Eine Lexikalische Ressource LR ist deniert als eine Menge von WortbedeutungenSund eine Menge von BeziehungenRzwischen diesen Wortbedeutungen.

LR={S, R}

Die Menge der Beziehungen zwischen zwei Wortbedeutungen sund s⁰ (s, s⁰ ∈S) ist deniert als R_(s,s⁰₎.

R_(s,s⁰₎={r_(s,s⁰_),1, r_(s,s⁰_),2, ..., r_(s,s⁰_),n}

Die Beziehung zwischen zwei Wortbedeutungen gibt an ob beide Bedeutungen Synonyme oder Antonyme sind oder in einer Generalisierungs- oder auch Teil-Ganzes-Beziehung zueinander stehen⁶. Eine Wortbedeutung aus der lexikalischen Ressource wäre zum Beispiel wine in der Bedeutung eines alkoholischen Getränks. Diese Bedeutung ist eine Spezialisierung der Bedeutung alcoholic beverage und steht in Teil-Ganzes-Beziehung zu der Wortbedeutung grape (die Frucht Weintraube).

Um die Bedeutung eines Modellierungsgegenstands auf Basis der lexikalischen Ressource als ein beschreibungslogisches Konzept darstellen zu können wird eine Beschreibungslogik benötigt, die die Klassen (also die Wortbedeutungen) der lexikalischen Ressource als Konzepte verwendet.

Angelehnt an die lexicalized Description Logic von Zanobini [48] wird hier die Beschreibungs- logik mit lexikalischen Konzepten deniert. Sie ist dadurch gekennzeichnet, dass ihre atomaren Konzepte Klassen der lexikalischen Ressource sind.

Denition 6 (Beschreibungslogik mit lexikalischen Konzepten) Eine Beschreibungslogik mit lexikalischen Konzepten DL_L ist deniert als eine Beschreibungslogik deren atomare Kon- zepte As Klassen (Wortbedeutungen) der Ontologie der lexikalischen Ressource LR sind. Ein Konzept der BeschreibungslogikDL_L wird wie folgt aus atomaren Konzepten gebildet:

6Betrachtet man die lexikalische Ressource als Ontologie, so sind die Wortbedeutungen Klassen und die Bezie- hungsarten, wie Synonym und Antonym, sind Eigenschaften.

(34)

C, D−→

> |(oberstes Konzept)

⊥ |(unterstes Konzept)

As |(atomares Konzept - Klasse der lexikalischen Ressource) CuD |(Konzeptkonjunktion)

CtD |(Konzeptdisjunktion)

Mit der Beschreibungslogik mit lexikalischen Konzepten ist es nun möglich die Bedeutung eines Modellierungsgegenstands explizit auf Basis der lexikalischen Ressource auszudrücken. Ne- ben der Darstellung als beschreibungslogisches Konzept wird die Darstellung als Menge für die Ähnlichkeitsberechnung verwendet. Dieses baut auf dem beschreibungslogischen Konzept auf und soll die Zusammensetzung dieses angeben.

Denition 7 (Menge des Konzepts) Zu jedem Konzept der Beschreibungslogik mit lexikalischen Konzepten DL_L ist eine Menge S_C des Konzepts deniert. Eine Menge eines Konzepts wird aus den Mengen der atomaren KonzepteS_A_s aufgebaut. Der Konzeptkonjunktion entspricht in der Mengendarstellung die Schnittmengen und der Konzeptdisjunktion entspricht die Verei- nigungsmenge.

Die Gröÿe der Menge eines Konzepts beträgt immer Eins. Die Gröÿe der Mengen aus denen sich die Menge des Konzepts zusammensetzt, ergibt sich aus dem Gröÿenanteil dieser Menge an der Menge des Konzepts _S

As,i

S_C

.

Im Beispiel ist WineAndCheese eine Konzeptdisjunktion bestehend aus den atomaren Kon- zepten wine#n1 und cheese#n1⁷ ( wine#n1tcheese#n1), somit ist die Menge zu diesem Konzept die Vereinigungsmenge der Mengen S_wine#n1 und S_cheese#n1 (Swine#n1tcheese#n1 = S_wine#n1∪ S_cheese#n1).

3.2. Beschreibung des Verfahrens

In diesem Abschnitt wird das zu Beginn dieses Kapitels grob umrissene Verfahren zur Ähn- lichkeitsberechnung genauer beschrieben. In Anlehnung an die Vorgehensweise bei CTX-Match, einem Algorithmus zur Bestimmung äquivalenter Klassikationen in Klassikationshierarchien, (siehe folgende Quellen [4], [5], [6], [36] und [48]) wird hier ebenfalls versucht nachzuvollziehen, wie ein Benutzer versuchen würde eine Ontologie bzw. einen Modellierungsgegenstand zu interpretieren. Hier wird davon ausgegangen, dass ein Benutzer einen Modellierungsgegenstand anhand seines Wissens und der Modellierungsperspektive interpretieren würde. Die Modellie- rungsperspektive ist als Kontext der Klasse, die einen Modellierungsgegenstand darstellt, gegeben. Als Wissensbasis wird hier die lexikalische Ressource verwendet. Der erste Schritt, um einen Modellierungsgegenstand als beschreibungslogisches Konzept, welches seine Bedeutung

7Die hier verwendete Notation wird in Kapitel 3.2.1 eingeführt.

(35)

3.2. Beschreibung des Verfahrens darstellen soll, und als Menge darzustellen, besteht darin, die Bedeutung mit Hilfe des Kontexts und der lexikalischen Ressource zu ermitteln. Dazu wird für jede Wortbedeutung jedes Wortes des Labels einer Klasse eine Punktzahl ermittelt, die aussagt, wie stark diese Wortbedeutung zur Bedeutung des Modellierungsgegenstands beiträgt. Die Menge dieser Wortbedeutungen und ihrer Punktzahlen vermittelt die Bedeutung des Modellierungsgegenstands. Wurden diese Wort- bedeutungen und Punktzahlen ermittelt, so werden sie als Konzept der Beschreibungslogik mit lexikalischen Konzepten dargestellt. Dies ist der zweite Schritt. Der dritte Schritt besteht aus der Berechnung der Gröÿer der Mengen aus denen die Menge des Konzepts besteht. Abbildung 3.5 fasst diese Schritte nochmals kurz zusammen.

'

&

$

% Schritte der Berechnung der beschreibungslogischen Konzepte

und Mengen der Modellierungsgegenstände

1. Bedeutungsanalyse (auch als Disambiguierung bezeichnet) 2. Ermittlung des beschreibungslogischen Konzepts

3. Berechnung der Gröÿe der Mengen

Abbildung 3.5.: Schritte zur Berechnung derDL_LKonzepte und Mengen der Konzepte Für die Zusammenstellung der Kandidatenmenge wird versucht potenziell ähnliche Modellie- rungsgegenstände in der Ontologie, in der ähnliche Modellierungsgegenstände vermutet werden oder gesucht werden sollen (im Weiteren als Vergleichsontologie bezeichnet), zu suchen. Die Eingrenzung der Kandidatenmenge soll hauptsächlich aus Performanzgründen vorgenommen werden, so dass nicht alle Klassen des Fragments mit allen Klassen der Vergleichsontologie verglichen werden müssen.

Wurden die Modellierungsgegenstände der Kandidatenontologie wie die Modellierungsgegen- stände des Fragments als Konzepte und Mengen dargestellt, kann die Ähnlichkeit berechnet werden. Für die Bestimmung des Verhältnisses in dem zwei Modellierungsgegenstände zueinander stehen wird ein Reasoner verwendet. Dieser analysiert anhand der Konzepte die Klassen daraufhin, ob sie äquivalent sind oder eine der beiden Klassen spezieller oder genereller ist als die andere. Für die Ähnlichkeitsberechnung wird die Mengendarstellung verwendet. Sie basiert auf der Berechnung der Schnittmenge beider Mengen. Der damit ermittelte Ähnlichkeitswert ist die Ähnlichkeit des Modellierungsgegenstandes. Die Ähnlichkeit der Modellierungsperspektive wird anhand der Gemeinsamkeiten der Kontexte berechnet. Es wird hierfür berechnet wie viele der Elemente des einen Kontexts im anderen enthalten sind und wie ähnlich diese Elemente sich sind. Der somit errechnete Wert bestimmt die Ähnlichkeit der Modellierungsperspektive.

Konnte vom Reasoner keine Beziehung zwischen beiden Modellierungsgegenständen ermittelt werden, so wird versucht die Beziehung rechnerisch zu approximieren. Diese Approximierung ist angelehnt an die subsumption approximation von Zanobini [48] und hat als Ergebnis eine approximierte Beziehung (äquivalent, genereller, spezieller) und einen Approximierungswert.

(36)

Abbildung 3.6 fasst die verschiedenen Berechnungen zur Bestimmung der Ähnlichkeit zweier Modellierungsgegenstände kurz zusammen.

'

&

$

% Schritte zur Berechnung der Ähnlichkeiten

1. Berechnung der Beziehung zwischen zwei Modellierungsgegenständen mit Hilfe des Reasoners

2. Berechnung des Ähnlichkeitswertes zweier Modellierungsgegenstände 3. Berechnung des Ähnlichkeitswertes zweier Modellierungsperspektiven 4. Approximierung der Beziehung zwischen zwei Modellierungsgegen-

ständen.

Abbildung 3.6.: Schritte zur Berechnung Ähnlichkeit zweier Modellierungsgegenstände und deren -perspektiven

In den folgenden Abschnitten sollen die in diesem Absatz aufgeführten Schritte erläutert und demonstriert werden. Im ersten Abschnitt wird dargestellt, wie zu einem Modellierungsgegen- stand das Konzept und die Menge berechnet werden. Darauf folgt die Suche und Zusammen- stellung einer Kandidatenmenge von Modellierungsgegenständen. Im letzten Kapitel werden Modellierungsgegenstände des Fragments mit denen der Kandidatenmenge verglichen und deren Ähnlichkeit berechnet.

3.2.1. Explizite Darstellung der Bedeutung des Modellierungsgegenstands

Dieses Kapitel widmet sich dem Prozess zur expliziten Darstellung der Bedeutung des Model- lierungsgegenstands. Als erstes wird versucht die Bedeutung eines Modellierungsgegenstands einzugrenzen. Dazu wird angenommen dass die Beschriftung (das Label) einer Klasse aus einem oder mehreren Sinn gebenden Wörtern besteht. Anhand dieser Wörter, der Wörter der Label der Elemente im Kontext und der Wortbedeutungen der lexikalischen Ressource wird für jede Wortbedeutung jedes Wortes des Labels eine Punktzahl berechnet. Diese Punktzahl soll angeben wie stark die jeweilige Wortbedeutung die Bedeutung des Wortes im Label wiedergibt. Die Menge der Wortbedeutungen aller Wörter des Labels deren Punktzahl nicht Null ist gibt, bei der hier vorgestellten Methode, die Bedeutung des Modellierungsgegenstands wieder.

Anhand des Labels und der Verwendung der verschiedenen Wörter des Labels als Kopf oder Spezikator wird versucht das Konzept zu einem Modellierungsgegenstand zu ermitteln. Der Kopf bezeichnet ein Wort in einem Satz, welches besonders relevant ist. Ein Spezikator bezieht sich immer auf einen Kopf und beschreibt ihn. In der Wortgruppe ein trockener, süÿer Wein ist das Wort Wein der Kopf, da er die Hauptbedeutung trägt und trockener und süÿer sind dessen Spezikatoren, da sie das Wort Wein beschreiben.

Die Zusammensetzung der Menge des Konzepts braucht nicht zu berechnet werden, da sie bereits durch die Zusammensetzung des Konzepts aus Wortbedeutungen vorgegeben ist. Die