Ausgangspunkt: Muster bei der Kodierung von EFGT-Netz-Eintr¨ agen

Nachdem der Kern entwickelt, die wichtigsten thematischen Bereiche und die geographi-schen und temporalen Achsen eines EFGT-Netzes ausgebaut worden sind, werden in der Phase der Population eines EFGT-Netzes vorrangig Eintr¨age vorgenommen, die einzelne benannte Entit¨aten darstellen und in der Struktur des Netzes Bl¨atter bilden (s. Abschnitt Kodierung, S. 50). Diese benannten Entit¨aten k¨onnen als einzelne Instanzen verschiedener

3.1 Ausgangspunkt: Muster bei der Kodierung von EFGT-Netz-Eintr¨agen 61 Entit¨atenklassen wie Personen, Gemeinden Deutschlands, Baufirmen in Großbritannien, usw. aufgefasst werden, die innerhalb einer bestimmten Klasse ¨ahnlich konzeptualisiert wer-den und charakteristische, bin¨are Relationen zu anderen Konzepten des Netzes eingehen.

So kann jede einzelne Instanz des KonzeptsPersonenals eine Entit¨at mit einer bestimmten Nationalit¨at, Beruf, Geburtsjahr und einer starken Beziehung zu einem bestimmten Thema aufgefasst werden. Bei der Kodierung dieser Instanz-Konzepte spiegeln sich die charakteri-stischen Relationen im Identifikator des Eintrags als Facettenwider. Beispielsweise k¨onnte man den ID-String f¨ur das Konzept Gabriel Garc´ıa M´arquezfolgendermaßen spezifizieren:

(e([Kolumbien]&[Schriftsteller]&[Jahr 1928]&[Fantastischer Realismus]).26)

wobei hier die einzelnen Komponenten des ID-Strings durch ihre nat¨urlichen Namen im EFGT-Netz ersetzt wurden, um die Lesbarkeit und die Kodierung charakteristischer Re-lationen zu anderen Konzepten im Netz zu verdeutlichen. Einen validen ID-String erh¨alt man einfach dadurch, dass f¨ur jede Angabe der Form [Konzept] der korrespondierende ID-String dieses Konzeptsersetzt wird. So m¨usste man im obigen Ausdruck die Komponente [Jahr 1928] durch ihren Identifikator (t((T(t.2).2)&(t.11)).59.1.3.9) ersetzen. Die charakteristischen Relationen des Konzepts Gabriel Garc´ıa M´arquez spiegeln sich in der Kodierung als &-Summe von Werten charakteristischer Facetten, wobei der Eintrag mit dem Typ e und einem noch nicht belegten, “frischen” Index (im Bsp.26) lokal eingef¨uhrt wird. F¨uhrt man f¨ur jede Facette im obigen Ausdruck eine Variable ein, die je nach Per-son einen konkreten Wert annimmt, kann man den ID-String aller Instanzen der Klasse Personen mit folgendem “Muster” zusammenfassen:

(e(Land & Beruf& Geburtsjahr &Thema).n)

wobei Variablenkursivgeschrieben sind undneinen frischen Index f¨ur jede Person bezeich-net. ¨Ahnliche Muster lassen sich f¨ur weitere semantische Klassen wieGemeinden Deutsch-lands,Weißweine, usw. angeben, bei denen alle Elemente innerhalb der Klasse “analytisch”

ahnlich konzeptualisiert werden.

Auch wenn ein Muster f¨ur die Kodierung der Instanzen einer Klasse angegeben wer-den kann, ist die Kodierung einer solchen Klasse von benannten Entit¨aten mit signifikan-tem Aufwand verbunden: F¨ur jeden einzelnen Eintrag m¨ussen die Facetten mit konkreten Werten belegt werden, wof¨ur einschl¨agiges Wissen vorausgesetzt wird und die passenden Konzepte im bereits bestehenden EFGT-Netz gefunden werden m¨ussen. So wird insgesamt f¨ur die Kodierung einer ganzen Klasse sehr viel kontingentes Wissen vorausgesetzt, da im Prinzip jede einzelne Facette sehr viele Werte annehmen kann und sich insgesamt eine hohe Multiplizit¨at bei der Kombination mehrerer Facetten ergeben kann. Dem kann nur begeg-net werden, indem eine gezielte, automatisierte Wissensakquisition durchgef¨uhrt oder auf geeignete externe Wissensressourcen zur¨uckgegriffen wird.

F¨ur das Ziel, den anvisierten Wissensbereich angemessen abzudecken und die Aktualit¨at der Ontologie zu wahren, hat die Population der Ontologie und die regelm¨aßige Pflege dieser potenziell sehr großen, im Prinzip offenen Klassen von benannten Entit¨aten oder Lexikon-Klassen jedoch eine zentrale Bedeutung, da benannte Entit¨aten als Verankerung

3.1 Ausgangspunkt: Muster bei der Kodierung von EFGT-Netz-Eintr¨agen 62 des EFGT-Netzes in Texten dienen und somit den Ausgangspunkt f¨ur das thematische Reasoning darstellen (s. Kapitel 2). Die Existenz von Kodierungsmustern ¨offnet in dieser Hinsicht eine T¨ur zur Automatisierung der Populationder Ontologie mit Lexikon-Klassen:

Das Muster kann als Schablone gedacht werden, die f¨ur jede neu einzuf¨uhrende Entit¨at mit akquirierten Daten, die als Werte f¨ur die Facetten fungieren, ausgef¨ullt wird und zu einem neuen Eintrag in der Ressource f¨uhrt. Hier gilt es, vorhandene, vorstrukturierte Daten in Form von Eintr¨agen auf das EFGT-Netz abzubilden.

Muster in der Kodierung von Eintr¨agen sind auch in anderen Bereichen zu beobachten.

So k¨onnen beispielsweise bei der Kodierung einer Taxonomie im EFGT-Netz die einzelnen ist-eine-Art-von-Kanten, die jedes Element der Taxonomie mit dessen Elternknoten ver-binden, als Facetten aufgefasst werden. Ein Muster f¨ur den ID-String aller Elemente der Taxonomie, die drei Elternteile haben, k¨onnte also folgendermaßen aussehen:

(e(Elternteil1 & Elternteil2 & Elternteil3).n)

Hier gilt, die richtigen Elternteile f¨ur jedes Element der Taxonomie einzusetzen.

Wie an den Beispielen zu sehen ist, ist das jeweilige Muster je nach betrachteter Klasse oder Bereich semantisch anders zu interpretieren. Die Beziehung des neuen Eintrags zu den einzelnen Konzepten, die im ID-String-Muster die Variablen belegen, kann semantisch betrachtet eben eine Rolle, eineist-eine-Art-von-, d.h. taxonomische Beziehung, oder auch andere Relationen darstellen. In dem Sinne, in dem die unterschiedlichen, f¨ur jeden Bereich relevanten Beziehungen durch deren Kodierung im ID-String auf die Vorfahre-Nachfahre-Relation des Netzes abgebildet werden, ist diese strukturelle Vorfahre-Nachfahre-Relationsemantisch ¨uberladen.

Eine andere Art von Mustern kann bei der linguistischen Repr¨asentation des Konzeptes und der Definition anderer Attribute beobachtet werden. So ist denkbar, bei der Klasse der Gemeinden Deutschlandsneben dem Namen der Gemeinde im Nominativ die Genitiv-Form durch Hinzuf¨ugung eines s automatisch im Eintrag zu erzeugen oder aus den akquirierten Daten die Anzahl der Anwohner als Attribut zu ¨ubernehmen. Bei der Erarbeitung eines Systems zur automatischen Generierung von Eintr¨agen ist ebenfalls diese Art von Mustern zu ber¨ucksichtigen, da sie einen relevanten Teil des Aufwands der Kodierung ausmachen.

Ausgehend von der Hauptidee, Kodierungsmuster als Grundlage zu nehmen, werden in diesem Abschnitt zun¨achst weitere Anforderungen an ein System zur semiautomati-schen Integration von Daten identifiziert. Im weiteren Verlauf des Kapitels erfolgt dann die Entwicklung technischer L¨osungen f¨ur diese Anforderungen. An dieser Stelle sei darauf hingewiesen, dass eine Betrachtung des Problems der Wissensakquisition in dieser Ar-beit ausgeklammert wird. Wie bereits erw¨ahnt, wird hier die Annahme gemacht, dass auf geeignete bestehende Ressourcen zur¨uckgegriffen oder bekannte Techniken der Informa-tionsextraktion, wie der Einsatz von Wrappertools und Crawler, Analyse mit regul¨aren Ausdr¨ucken usw., eingesetzt werden k¨onnen, um n¨otige Daten f¨ur den Aufbau der Onto-logie bereitzustellen.

3.2 Anforderungen an ein System zur Datenintegration 63

3.2 Anforderungen an ein System zur

Im Dokument Semiautomatischer Aufbau und Anwendung von EFGT-Netzen: Beiträge zum Lebenszyklus von EFGT-Netzen - Centrum für Informations- und Sprachverarbeitung - LMU Munich (Seite 71-74)