• Keine Ergebnisse gefunden

3.4 Erweiterung des Lexikons zur Ontologie

3.4.2 Geographische Entitäten

3.4.2.1 Klassen geographischer Entitäten

“When you say ‘hill,’” the Queen interrupted, “I could show you hills, in comparison with which you’d call that a valley.”

“No, I shouldn’t,” said Alice, surprised into contradicting her at last: “a hill can’t be a valley, you know. That would be nonsense—” Lewis Caroll, Through the looking glass, chap. 2 Helen Kerfoot schreibt in Bezug auf die Entwicklung einer Taxonomie für einen kanadischen nationalen Gazetteer: „On studying existing national gazetteers, we found there to be no generally accepted or standardized approach to the representation of feature types from one country to another. Some national gazetteers use as few as 7 categories, others have many as 60 or more types of features identified, and most fall somewhere in between.“ (UNGEGN 1996) Darin hat sich bis heute nichts geändert. Es existiert keine a-priori-Taxonomie, die sich allgemeiner Akzeptanz erfreut und sich deshalb als Standard durchgesetzt hätte (vgl.

Kap. 3.4.2.1.1 und A.1.5). Bereits bei der Wahl des Kriteriums zur Unterscheidung der Klas-sen in der obersten Ebene der Taxonomie existieren parallel eine Reihe von inkompatiblen Kriterien:

1. Art der räumlichen Repräsentation: Punkt, Linie, Fläche

2. Makro- vs. Mikrotoponyme (‚große‘ vs. ‚kleine‘ Orte), vgl. Walther (2003), Abb. A.3 auf S. 334

3. ‚natürliche‘ vs. vom Menschen geschaffene, ‚künstliche‘ Strukturen, z.B. bei Kamianets (2000), Abb. A.2 auf S. 334 oder ADL, S. 135 und Abb. A.17 auf S. 349

4. Beschaffenheit (der Oberfläche) 5. Funktion

Kriterium 1 ist gebunden an die Form der räumlichen Repräsentation im Gazetteer/Ontologie (vgl. die Diskussion ab S. 103). Die Kriterien 2 und 3 werden häufig zur Klassifikation her-angezogen, sind aber willkürlich:

Wieder ist eine Untergliederung nach allgemein verbindlichen Ordnungskriterien nicht mög-lich: in der Art der Einteilung spiegelt sich die Weltansicht des Klassifizierenden. So lässt sich auch hier allenfalls eine Aufzählung möglicher Untergruppen geben, denn schon die erste grobe Aufspaltung in Makro- und Mikrotoponym (etwa Raum- und Punktnamen) erweist sich als relativ, sobald man die Subkategorien Gewässernamen (Hydronyme) [. . .], Gebirgsnamen (Oronyme) – wozu auch die Namen einzelner Berge gehören [. . .] und die Gemarkungs- oder Flurnamen (Mikrotoponyme im eigentlichen Sinne) [. . .] im System sinnvoll unterzubringen versucht. Auch die Gliederung in Namen für naturbedingte Sachverhalte (Naturnamen) und Namen für durch den Zugriff des Menschen zustandegekommene Gegebenheiten der Natur (Kulturnamen) ist letztlich willkürlich, weil vom Standpunkt einer bestimmten menschlichen

Entwicklungsstufe aus getroffen. (Bauer 1998: 55–6)

Die verbleibenden beiden Kriterien Oberflächenbeschaffenheit und Funktion werden von al-len Klassifikationssystemen zumindest auf untergeordneten Ebenen herangezogen. Aus der Perspektive einer Einteilung in Selektionsklassen von Prädikaten, ist zu erwarten, das die Selektionsklassen teilweise mit Beschaffenheit und Funktion Hand in Hand gehen. Menschen

„tun“ vergleichbare Dinge mit (funktional) gleichartigen Objekten. Allerdings erschwert auch hier die Polyfunktionalität einzelner Objekte eine Zuordnung. Oder Beschaffenheit und Funk-tion ermöglichen jeweils eine Zuordnung zu einer Klasse, wie z.B. Wasserwege die als Gewäs-ser und Verkehrswege klassifiziert werden können. Einander überlappende Klassen sind die

Folge, und die Gefahr einer inkonsistenten und unlogischen Taxonomie ist groß (vgl. Langer 2003).

Ein weiterer kritischer Punkt sind Klassengrenzen innerhalb von Kontinua, z.B. den Fließ-gewässern (Bach, Fluss, Strom) oder Siedlungen (Dorf vs. Stadt). Für den Lexikographen bedeutet die Grenzziehung hier eine unsichere, willkürliche und potentiell fehlerträchtige Entscheidung, die auch mit längerem Abwägen und Absprachen mit Kollegen nicht sicher zu lösen ist.

Die Unmöglichkeit oder Schwierigkeit einer multilingualen Klassifikation wird oft erwähnt.

Paradebeispiel aus der Domäne der geographischen Entitäten ist das Begriffspaar engl. river (‚Fluss‘) undstream (‚großer Fluss, Strom‘), das nicht mit franz. rivière (‚Fluss, der in einen anderen Fluss mündet‘) und fleuve (‚Fluss, der ins Meer mündet‘) in Übereinstimmung zu bringen ist:127

Any concept can be refined into more specialized subtypes by making more detailed distinc-tions. Since different cultures may be sensitive to different features, their languages may have words that have to be translated into other languages either by rough approximations or by clumsy paraphrases. In English, for example, size is the feature that distinguishesriver from stream; in French, a fleuve is a river that flows into the sea, and a rivière is either a river or

a stream that flows into another river. (Sowa 1993: 246)

Damit bleibt es aber weiterhin möglich, gute und universelle Ontologien zu konstruieren.128 Es ist ausreichend, Konzepte zu kategorisieren, die nicht unbedingt eine 1:1-Entsprechung in der Sprache haben müssen. Denn nicht jeder in einer Sprache vorhandene Klassenbezeichner (‘X ist ein Y’) muss eine Kategorie der Ontologie konstituieren.

Auch den Geographen ist bewusst, dass sie über keine einheitliche und allgemein akzeptierte und verwendbare Klassifikation geographischer Objekte verfügen. Versuche, die Klassen ver-schiedener Klassifikationssysteme und Ontologien mittels statistischer Verfahren aufeinander abzubilden (Rodríguez, Egenhofer & Rugg 1999, Rodríguez 2000, Rodríguez & Egenhofer 2003, 2004, Kavouras, Margarita & Tomai 2005, Tomai & Kavouras 2005) konstatieren die Existenz des Problems, liefern aber keine Lösung.

Die Erarbeitung einer Klassifikation deutscher Toponyme war angesichts der oben geschil-derten Probleme eher ein Versuch, das beste aus bestehenden Klassifikationssystemen (siehe Kap. 3.4.2.1.1) zu übernehmen, um zu einer brauchbaren, pragmatischen, bei weitem aber nicht perfekten Lösung zu kommen. Die Zuordnung zu einer Klasse erfolgte mit der syn-taktischen Beschreibung eines Toponyms bei der Aufnahme ins Lexikon (vgl. Kap. 3.3.1).

Erwartungsgemäß sind nur die Klassen geographischer Entitäten vertreten, deren Instanzen auch durch Toponyme benannt sind. Verfolgt wurde schließlich ein synkretistischer Ansatz, der sich primär an der Funktion und Oberflächenbeschaffenheit der Objekte orientiert und mehrfache Superklassen von Klassen (nicht aber Instanzen) erlaubt. Die Taxonomie stellt also einen Graph, keinen Baum dar (siehe Abb. 3.6 und A.7).

127 Vgl. die Diskussion in Janssen (2002: 115–43). Weitere Beispiele sind bei Tichelaar (2003b: 80) zu finden – nicht nur aus dem Finnischen, Arabischen und anderen „exotischen“ Sprachen, sondern auch z.B. dt.

Kloster vs. engl.convent ‚Nonnenkloster‘ vs.monastery ‚Kloster für Mönche‘.

128 Für theoretische Überlegungen zur Universalität einer geographischen Ontologie, siehe Mark (1989, 1999), Mark, Smith & Tversky (1999), Mark & Smith (2003), Fisher & Wood (1998) undBuffaloOntology.

3.4.2.1.1 Überblick über Klassifikationssysteme Klassifikationssysteme geographischer Entitäten werden hier im Überblick dargestellt. Beispiele für die voneinander verschiedenen Taxonomien sind im Anhang (Kap. A.1.5) zu finden.

SDTS Der Spatial Data Transfer Standard definiert 200 „standard entity types“, verzichtet aber auf eine hierarchische Organisation der Klassen: „This standard specifically avoids adopting any particular hierarchy, in part because the higher level classifications differ from one organization to another. Hierarchical classification, if desired, may be constructed using standard attributes (such as air/land/water, or manmade/natural) or through user-defined non-standard attributes.“129

DAML:Geofile enthält knapp 60 000 „Locations“ aus verschiedenen Teilen der Welt, die jeweils durch Namen und Koordinatentripel (geogr. Länge und Breite, Höher über NN) repräsentiert sind. Jede Lokation ist einem „Geographic Area“ zugeordnet, d.h. einer nur durch ihren Namen spezifizierten Entität. Geographic Areas sind 100 größere Gewässer, 250 unabhängige Staaten und die 50 Bundesstaaten der USA. Die Lokationen verteilen sich auf 70 Klassen mit Schwerpunkt auf militärischen und Infrastruktureinrichtungen (siehe Abb. A.9 auf S. 341).

Die Klassifikation folgt pragmatischen Kriterien und berücksichtigt, wofür und wie ein Ob-jekt genutzt wird. Die Taxonomie hat die Form eines Baumes. Das zwingt zu eindeutigen Zuordnungen, die mitunter nicht unmittelbar einsichtig sind. Z.B. ist nicht nachzuvollzie-hen wieso Port zu SeaArea und NavalBase zu MilitaryInstallation gerechnet werden, wenn andererseitsMilitaryAirport undInternationalAirport in die glei-che Klasse AirLandingArea fallen.

NASA:SWEET verknüpft Klassen geographischer Entitäten mit zahlreichen physischen Ei-genschaften (Beschaffenheit des Untergrundes, Bodenbedeckung, Erdgeschichte). Das zu-grundeliegende wissenschaftliche Weltbild (Geologie, Biologie, Ökologie) macht den Ta-xonomiebaum (Abb. A.11 auf S. 343) eher ungeeignet für eine linguistisch orientierte Klassifikation.

NGA:GNS stellt mit über 600 Klassen die vermutlich größte Taxonomie auf. Jede Klasse ist kurz beschrieben und im wohl größten Gazetteer (vgl. S. 107) durch zahlreiche Entitäten belegt. Allerdings ist die Taxonomie mit nur zwei Ebenen für diese Anzahl von Klassen zu flach. Die Wahl der neun übergeordneten Klassen erscheint nicht intuitiv:

• administrative boundary features

• hydrographic features

• area features

• populated place features

• road / railroad features

• spot features

• hypsographic features

• undersea features

• vegetation features

Auch die Zuordnung einer Klasse zu einer der übergeordneten Klassen ist nicht immer nachvollziehbar, z.B. findet sich unter der Kategorie ‘populated place features’ eine Klasse

‘religious populated place’ („a populated place whose population is largely engaged in religious occupations“). Die Klasse ‘monastery’ ist aber nicht etwa als Subklasse dieser definiert, sondern der Kategorie ‘spot features’ untergeordnet.

129 Siehehttp://thor-f5.er.usgs.gov/sdts/standard/ps/part2.ps

Langer (1996) stellte im Rahmen des CISLEX-Projektes eine allgemeine Klassifikation ein-facher (nicht-präfigierter, nicht-komplexer) Nomina auf. Gut 40 000 Nomina wurden etwa 300 Klassen zugeordnet. Abb. A.5 auf S. 336 zeigt einen Ausschnitt aus der Taxonomie.

Bezeichnungen für Orte und Lokationen nehmen nur einen kleinen Teil ein und verteilen sich auf mind. zwei Superklassen, für die übergeordnete Kriterien wie die Unterscheidung Lebewesen – Artefakt – andere höher gewichtet wurden als unmittelbar auf Eigenschaften von Orten bezogene Kriterien. Als klare Taxonomie und durch ihren großen Umfang lie-ferte sie jedoch gutes Material für das Lexikon der lokativen Nomina (siehe Kap. 3.1.6).

geoFeatures.owl von Mindswap:geoOntologies ist geprägt durch eine sehr flache Taxonomie, die alle topographischen Objekte auf einer Ebene vereint. Dies und Klas-sen wie „Pakistan-administered“ empfehlen die Taxonomie nicht zur Nachahmung, siehe Abb. A.12 auf S. 344.

corine ist ein Projekt der Europäischen Union mit dem Ziel einheitliche Daten zur Boden-bedeckung bereitzustellen. Die Taxonomie von corine liegt in mehreren Sprachen vor, ihrer Aufgabe entsprechend beinhaltet sie nur Klassen der Bodennutzung/-bedeckung.

Diese Ausrichtung macht sie jedoch zu einer brauchbaren, wenn auch nicht vollständigen Taxonomie, siehe Abb. A.13 auf S. 345.

SekineExtNER von Satoshi Sekine et al. (Sekine, Sudo & Nobata 2002, Sekine & Nobata 2004, SekineExtNER, Sekine 2004) stellt einen Taxonomiebaum für das Japanische auf, der aber auch in englischer Übersetzung vorliegt. Die Anzahl der lokativen Klassen beträgt etwa 50 (von insgesamt 200 Klassen, vgl. Abb. A.14, A.15 und A.16). Die Lokativa verteilen sich dabei auf die beiden Oberklassen Locationund Facility.

Die Taxonomie ist funktional ausgerichtet, d.h. sie klassifiziert die Entitäten primär nach ihrer Funktion. Klassen, die regulär polysem sind (Ort und Organisation), werden zu den Klassen GPE (Geographical and Political Entity) und GOE (Geographical and Organiza-tional Entity) zusammengefasst, die jeweils Unterklassen von Location bzw. Facility sind. Der Aufbau der Taxonomie erfolgte nach Angaben von Sekine, Sudo & Nobata (2002) einerseits „bottom-up“, ausgehend von in einem Zeitungskorpus vorkommenden Named Entities, andererseits orientiert er sich an den Klassen existierender NER-Systeme und den beiden ThesauriWordNet und Roget (1852).

Eine Konsequenz aus dem Bemühen, die Klassen von Named Entities zu erweitern ist die Aufweichung der Grenze zwischen Namen, d.h. Referenzen auf einzelne, unique Entitäten und Klassenbezeichnern, z.B. Produktnamen, die auf eine Klasse von Entitäten referieren.

Damit werden aber auch gewöhnliche Nomina zu Entitäten. Das äußert sich vor allem in nicht-lokativen Klassen wie einer Klasse BODY_REGION mit head, heart, rib, muscle, nerves, upper half of the body,gallstone, oder SCHOOL_AGE (als Unterklasse von NU-MEX) mitfirst-grade pupil,freshman,sophomor,junior,senior. Bei den Lokativa finden sich Ausdrücke wiea subway line,flight route to Las Vegas from New York, heaven, hell, 8th floor,the South,John’s kitchen. Das letzte Beispiel (John’s kitchen) verfügt zwar über eine eindeutige Referenz, ist aber (a) als Named Entity so gut wie gar nicht relevant, (b) nicht beständig genug, um wirklich informativ zu sein (Personen ziehen zu oft um), und schließlich (c) ist es vermutlich eine der wichtigsten Eigenschaften von Sprache, im Diskurs eindeutige Referenz zu Objekten herzustellen, aber deshalb von „benannten Objekten“ zu sprechen ist gewagt. Es erscheint kaum sinnvoll, den Begriff der Named Entity aufzuwei-chen in Richtung solcher (im Diskurs) monoreferentieller Ausdrücke (vgl. die Diskussion auf S. 94 und Fußnote 139 auf S. 176). Dennoch: für die Lokativa ist die Taxonomie von

Sekine et al. brauchbar, da pragmatisch und funktional orientiert.

ADL Feature Type Thesaurus (Hill 2000, Hill, Goodchild & Janée 2004) liefert eine gute und umfangreiche Taxonomie mit gut 200 Klassen (Abb. A.17 und A.18). Sie ist geprägt durch die Unterscheidung zwischen natürlichen und vom Menschen geschaffenen Objekten auf oberster Ebene, hinter der funktionale Kriterien zurücktreten. Die Klassereservoirs ist zusammen mit offshore platformsdenhydrographic structuresuntergeordnet und steht damit weit entfernt von der Klasse lakes.

KIM ist eine vollwertige Ontologie mit 250 Klassen und 40 Relationen. Darunter sind gut 100 lokative Klassen, laut Manov et al. (2003) basierend auf der Taxonomie des ADL.

Die Taxonomie erlaubt mehrfache Klassenzugehörigkeit, z.B. ist Harbor den Klassen Facility und WaterRegionuntergeordnet. Sie ist intuitiv, und nur Kleinigkeiten sind zu beanstanden oder bedürfen einer Diskussion, so die Entscheidung Waterfalls als Landregion und nicht wie River und Spring als WaterRegion zu klassifizieren.

Der Taxonomiebaum ist in Abb. A.20 auf S. 352 abgebildet. Die Definition der Taxonomie enthält ein Mapping auf die Klassen von NGA:GNS (s.o.), womit ein riesiger Gazetteer in die Taxonomie integriert ist.

WordNet (Fellbaum ed. 1998) ist eines der bekanntesten Klassifikationssysteme, und da-zu das mit Abstand umfangreichste. Jedoch erfolgt die Klassifikation inkonsequent und unsauber. So sind beispielsweise die beiden Lesarten voncounty „1. (United States) the largest administrative district within a state; 2. (United Kingdom) a region created by territorial division for the purpose of local government“ einmal als (wohl korrekte) Unter-klasse von administrative district, das andere Mal mit interstellar space oder depth als Kohyponymen dem Synset region, part untergeordnet (vgl. Abb. A.6 auf S. 337). Dass Kohyponyme eine homogene Menge bilden ist eine der wichtigsten Eigen-schaften einer Taxonomie. Als Hyponyme von country, state, land (vgl. Abb. A.6 auf S. 337) sind aber Klassen wie banana republic, tax haven ‚Steueroase‘, king-dom undAfrican countrygelistet, die sich durch deutlich verschiedene Eigenschaften auszeichnen (vgl. die Kritik von Langer 2003: 139). Auch ist nicht nachvollziehbar wieso zwar kingdom und sultanate Instanzen eines Landes sein sollen, republic dagegen nur Instanz des Synsetspolitical system, form of governmentist (vgl. Kap. 3.1.4 zum Problem der regulären Polysemie).

Aufgrund dieser chaotischen Klassifikation, ist WordNet als Ausgangsbasis für eine Ta-xonomie geographischer Objekte nicht geeignet.

BBNtaxon Die Taxonomie von BBN mit Guidelines zur Annotierung eines vom LDC vertriebenen Korpus130 besteht aus 29 Oberklassen (davon 12 NE-Klassen, 9 nominale Entity-Klassen und 7 Klassen nummerischer Entitäten), und 64 Unterklassen. Abb. A.19 auf S. 351 zeigt alle fünf lokativen Oberklassen, darunter auch die Klasse Facility De-scriptor, die nicht den Eigennamen zuzurechnen ist. Die Klasse NORP (“nationality, religion, organization, political”) enthält Einwohnerbezeichungen und von Toponymen ab-geleitete Adjektive.

Problematisch ist die Unterscheidung zwischen Facility und Organization. Alle Ge-bäude oder Einrichtungen, die Organisationen beherbergen (können), wie White House, Kremlin, sowie Kirchen, Museen usw., werden als Organization klassifiziert. Dies ist

130 BBN Pronoun Coreference and Entity Type Corpus (http://www.ldc.upenn.edu/Catalog/docs/

LDC2005T33/), erstellt von Ralph Weischedel und Ada Brunstein.

teilweise durch die häufige metonymische Verwendung gerechtfertigt (vgl. Kap. 3.1.4), aber mangels Flexibilität kaum einer Lösung mit metonymischen Klassen und multiplen Hyperonymen vorzuziehen.

Prolex mit einer langen Geschichte vom französischen elektronischen Orts- und Eigenna-menlexikon bis zur multilingualen Ontologie (Prolintex, Prolex, Belleil 1997, Belleil &

Maurel 1997, Maurel et al. 1997, Maurel, Piton & Eggert 2000, Maurel et al. 2004, 2006) organisiert die enthalten Eigennamen aller Typen nach einer Taxonomie die mit Modifi-kationen auf Bauer (1998) basiert. Für alle Eigennamen sind nur zwei Gliederungsebenen vorgesehen, d.h. alle acht Toponymklassen stehen auf einer Ebene. Die metonymische Verwendung von Eigennamen (vgl. Kap. 3.1.4) findet durch „sekundäre Hyperonyme“ Be-rücksichtigung: so ist eine Stadt nicht nur ein Toponym, sondern bezeichnet auch deren Bewohner (=Anthroponym); sie ist von Menschen geschaffen und deshalb auch ein Er-gonym (siehe Abb. A.4).

GETTY Die 1700 Klassen des GETTY-Thesaurus, sind zu viele, so dass die Taxonomie schwer handzuhaben ist. Die Zuordnung der Klassen erfolgt eher nach Art eines Epithe-tons, mehrfache Klassenzugehörigkeit von Objekten ist eher die Regel, denn die Ausnah-me. Vgl. Moskau alsinhabited place,city,regional capital,industrial center, manufacturing center, commercial center, cultural center, transporta-tion center und capital (Abb. 3.2 auf S. 128).

3.4.2.2 Relationen zwischen geographischen Entitäten