Abgleich und Alinierung generierter Eintr¨ age

3.3 Eine Sprache zur Integration von Daten in EFGT- EFGT-Netze

3.3.2 Abgleich und Alinierung generierter Eintr¨ age

3.3 Eine Sprache zur Integration von Daten in EFGT-Netze 71 (a) Findet sich in der Datenbank ein Eintrag mit einem gesamten Identifikator der Form (τ φ⁰.x), wobei 1 ≤ x ≤ max und sind die Attribute dieses Eintrags unifizierbar (s.u.) mit den Attributen des im Template mit ρ markierten Ein-trags, so werden beide Eintr¨age gleichgesetzt, d.h. in diesem Fall n =x.

(b) Ansonsten n = max+ 1.

Dass die Attribute zweier Eintr¨age unifizierbar sind, bedeutet, dass alle Attribute eines Eintrags im anderen enthalten sind. Zwei Attribute sind gleich, wenn sie komponentenweise verglichen gleich sind (komplexer Typ und Wert).

Durch den im Fall 2.(a) n¨otigen Vergleich zwischen Eintr¨agen ist die Auswertung eines Templates mit der Alinierung der generierten Eintr¨age zu den Eintr¨agen im EFGT-Netz eng verzahnt. Den Details dieser Alinierung widmet sich der n¨achste Abschnitt.

3.3 Eine Sprache zur Integration von Daten in EFGT-Netze 72

Ling. Vor- han- den Part. Ling. Match Logisch Vor- han- den Part. Log. Match

NameCodeInterpretation:Aktion --Pot.neuerEintrag00NeuerEintrag:¨ubernehmen x--Namenskonflikt101)HomonymeKonzepte:Vorzugsbez. ¨andern/Eintragunver¨andert¨ubernehmen 2)UnterschiedlicheModellierungdesselben Konzepts:ID-String¨andern/ausw¨ahlen x-x-Konzeptmatch11VorhandenerEintrag:- -x-LogischerKonflikt011)Komplemen t¨ar

eling.Repr¨asentation:At- tributrepr.vereinigen 2)Sem.verschiedeneKonzepte:ID-String beiderEintr¨ageverfeinern xxpot.Konzept- match(ling.

¨ Ub

erlappung)

21Fall01Interpr.1:Attributrepr¨asentationver- einigen xxpot.Konzeptmatch (log.

¨ Ub erlappung)12Fall10Interpr.2:ID-String¨andern/ ausw¨ahlen xxpot.Konzeptmatch

(¨ahnlic heKonzep- te)

221)Konzeptidentit¨at:ID-Stringsundlingui- stischeRepr¨asentationvereinigen 2)VerschiedeneKonzepte:keine xling.Warnung20PotenziellerNamenskonflikt:ggf.wieFall10 xlog.Warnung02PotenziellerlogischerKonflikt:ggf.wieFall 01 Tabelle3.2:InterpretationderF¨allebeimAbgleichgenerierterEintr¨age

3.3 Eine Sprache zur Integration von Daten in EFGT-Netze 73 Aus der Kombination der Testergebnisse auf logisches und linguistisches Vorhandensein ergeben sich die vier ersten F¨alle der Tabelle 3.2. Ein generierter Eintrag wird als neuer Eintrag interpretiert, wenn weder auf der logischen noch auf der linguistischen Ebene ein Konflikt vorhanden ist. In diesem Fall kann der Eintrag einfach in die Wissensressource

¨ubernommen werden. Ergibt sich einNamenskonflikt (zweiter Fall), hat das zwei m¨ogliche Interpretationen: Eine besteht darin, dass die beiden Eintr¨age, wie von ihren unterschiedli-chen ID-Strings ausgedr¨uckt, semantisch verschiedene Konzepte darstellen, aberhomonym, d.h. in ihrem Bezeichner ununterscheidbar sind. Durch die ¨Ubernahme des neuen Eintrags w¨urde eine Ambiguit¨at in der Wissensressource entstehen. Um dies zu vermeiden, kann etwa die Vorzugsbezeichnung des generierten Eintrags ge¨andert werden. Die andere In-terpretation eines Nameskonflikts fasst sowohl den generierten als auch den linguistisch gleich repr¨asentierten, bestehenden Eintrag als dasselbe abstrakte Konzept auf, wobei die-ses aber in den beiden Eintr¨agen logisch unterschiedlich modelliert wird. In diesem Fall muss entschieden werden, welcher ID-String ¨ubernommen werden soll. Insbesondere ist es interessant zu pr¨ufen, ob einer der beiden ID-Strings eine Verfeinerung des anderen dar-stellt. Ein logischer Konflikt (dritter Fall) kann ebenfalls zweifach ausgelegt werden. Eine M¨oglichkeit ist, dass die linguistischen Repr¨asentationen der beiden Eintr¨age komplement¨ar sind und etwa ein Synonym der anderen erfasst. In diesem Fall liegt die Vereinigung beider Attributmengen nahe. In der anderen, konversen Interpretation bezeichnen beide lingui-stisch gleiche Eintr¨age unterschiedliche semantische Konzepte, deren logische Modellierung zu grob ist, um auf der Ebene der ID-Strings unterschieden werden zu k¨onnen. Schließlich liegt einKonzeptmatchvor, wenn im erweiterten Eintragsraum sowohl linguistisch als auch logisch der generierte Eintrag von einem vorhandenen ununterscheidbar ist.

Zus¨atzliche Informationen durch partielles Matching

Mit der Alinierung generierter Eintr¨age will man verhindern, dasssemantisch redundante Eintr¨age in der Datenbank entstehen. Der im vorherigen Abschnitt beschriebene Abgleich identifiziert jedoch potenziell redundante Eintr¨age auf Grund syntaktischer Hinweise, der logischen und linguistischen Repr¨asentation. Bei der Interpretation der Konfliktf¨alle muss der Ontologieentwickler selbst entscheiden, ob der Eintrag semantisch redundat ist oder nicht, und ihn entsprechend verwerfen oder ver¨andern. Zus¨atzliche Information, die die Interpretation der unklaren F¨alle unterst¨utzen kann, l¨asst sich gewinnen, indem die Ab-gleichmethode permissiver gemacht und dadurch bei der Alinierung Eintr¨age ber¨ucksichtigt werden, die sich in der Attributrepr¨asentation oder im ID-String ¨ahneln. Mit Hilfe dieser zus¨atzlichen Information ist zu erwarten, dass sich der Integrationsprozess beschleunigen l¨asst und sicherer bez¨uglich der Vermeidung redundanter Eintr¨age wird.

Beim Vergleich der Attributrepr¨asentation zweier Eintr¨age l¨asst sich das in Abschnitt 3.3.1 beschriebene, exakte Verfahren auf unterschiedliche Weise durchl¨assiger machen. An-statt die vollkommene Unifizierbarkeit der beiden Attributrepr¨asentationen zu betrachten, kann etwa gefordert werden, dass nur sie einen bestimmten Anteil gemeinsamer Attribute haben. Eine andere M¨oglichkeit ist, Attribute als gleich gelten zu lassen, wenn sie unge-achtet des Typs den gleichen Wert haben. Außerdem kann der Vergleich der Attributwerte

3.3 Eine Sprache zur Integration von Daten in EFGT-Netze 74 mit Hilfe der Funktion lingSim approximativ gemacht werden: Demnach ist ein Attribut (τ, σ) – wobei wie bisher τ den komplexen Typ aus der Kombination der Annotationsrolle mit zus¨atzlichen Typen und σ den Wert darstellt – mit einem Attribut ρ eines anderen Eintrags gleichzusetzen, wenn ρ ∈lingSim(σ). In der Implementierung (s. Abschnitt 3.4) ist ein Eintrag ε⁰ aus dem erweiterten Eintragsraum einpartielles linguistisches Matchdes generierten Eintrags ε_gen, wenn sich ein Attributρ∈ε⁰ und ein Attribut φ= (τ, σ)∈ε_gen finden lassen, so dass ρ∈lingSim(σ).

Die Definition einer approximativen Vergleichsvorschrift, die die semantische N¨ahe zwei-er ID-Strings bewzwei-ertet, ist durchaus schwizwei-erigzwei-er. Bei einem solchen approximativen logi-schen Matching kann zum einen die Gestalt der beiden ID-Strings miteinander verglichen werden. Hierbei m¨ussen unterschiedliche Faktoren und F¨alle betrachtet werden. Beispiels-weise kann man die semantische N¨ahe zweier Identifikatoren, die beide eine &-Summe darstellen und mehrere Komponenten gemeinsam haben, unterschiedlich bewerten, je nach-dem, wie groß der Anteil der nicht geteilten Komponenten ist. Ein weiterer Fall k¨onnte der sein, in dem ID-Strings der Form

S_gen= (e(X&Y &Z).1) S_found= (e(A&Y⁰&Z).3)

gegeben sind. Hier stehenX,Y, usw. f¨ur spezifischen Komponenten undY⁰ f¨ur einen Vor-fahren von Y in einem bestimmten EFGT-Netz. Zur Bewertung der semantischen N¨ahe dieser beiden ID-Strings k¨onnen im Prinzip unterschiedliche Kriterien wie die Anzahl der gemeinsamen Komponenten, die ¨Ubereinstimmung der Typen der beiden ID-Strings, der Grad der semantischen Verwandtheit zwischen Y und Y⁰, usw. herangezogen werden. Bei der Betrachtung dieser und weiterer F¨alle ist es unklar, welche Kriterien ein gutes Maß der semantischen N¨ahe auf der Grundlage des Aufbaus der Identifikatoren a priori liefern. Zum anderen scheint es sinnvoll zu sein, beim approximativen logischen Matching die Topologie des Netzes zu ber¨ucksichtigen, in denen die zu vergleichenden ID-Strings eingebettet sind.

Im obigen Beispiel kann die semantische N¨ahe vonS_genundS_found davon abh¨angen, wievie-le Konzepte im spezifischen NetzY undY⁰ voneinander trennen. Bei der Betrachtung von ausschließlich zwei ID-Strings kann nichts dar¨uber ausgesagt werden, welche Struktur beide Konzepte im Netz verbindet. Je nach Gr¨oße des betrachteten EFGT-Netzes und je nach-dem, welche ID-Strings als Konzepte umgesetzt sind, kann semantische N¨ahe topologisch betrachtet unterschiedlich verstanden werden.

Gute Kriterien f¨ur Maße semantischer N¨ahe scheinen sich demnach nur experimentell bestimmen zu lassen. Außerdem scheint die Interpretation eines solchen Maßes f¨ur den Be-nutzer schwer zu sein, wenn sich ohnehin keine guten Vergleichskriterien a priori angeben lassen. Ein partielles logisches Matching wird bis zur Entwicklung einer geeigneten Vor-schrift nur als theoretische M¨oglichkeit in Tab. 3.2 aufgenommen. In der Implementierung liegt ein partielles logisches Match vor, wenn zwei ID-Strings syntaktisch die gleiche lokale Einf¨uhrung darstellen und sich nur im Index unterscheiden.

Tabelle 3.2 erfasst die zus¨atzlichen F¨alle, die sich bei der Alinierung generierter Eintr¨age ergeben, wenn Ergebnisse eines partiellen linguistischen bzw. logischen Abgleichverfahrens

3.3 Eine Sprache zur Integration von Daten in EFGT-Netze 75 als Zusatzinformation dienen. Die ersten zwei F¨alle unterst¨utzen die Interpretation des Ab-gleichs im Konfliktfall. Wenn beispielsweise der ID-String des generierten Eintrags bereits vorhanden ist und zus¨atzlich eine partielle ¨Ubereinstimmung der Attributrepr¨asentation mit demselben Eintrag vorliegt (Fallcode 21), spricht das f¨ur die erste Interpretation des vorhandenen logischen Konflikts (Fallcode 01). Die F¨alle mit dem Code 22, 20 und 02 stellen Zusatzinformationen im Fall eines potenziellen neuen Eintrags dar.

Auf die in der Tabelle vorgeschlagenen Aktionen zur L¨osung der Konflikte wird in der Implementierung (s. Abschnitt 3.4) eingegangen.

Im Dokument Semiautomatischer Aufbau und Anwendung von EFGT-Netzen: Beiträge zum Lebenszyklus von EFGT-Netzen - Centrum für Informations- und Sprachverarbeitung - LMU Munich (Seite 82-86)