• Keine Ergebnisse gefunden

4.3 Die Salzburger Dialektometrie

4.3.3 Taxierung und Datenmatrix

Die dialektometrische Arbeit an einem sprachlichen Korpus, d.h. den Karten eines Sprachatlas-ses oder einer ähnlich strukturierten Datensammlung in Listenform, erfordert zunächst eine Aufbereitung der (als Ausschnitt aus der sprachlichen Objektwelt) gewählten Original- bzw.

Rohdaten (Taxandum). Ziel dieser Datenaufbereitung ist die Generierung einer zweidimensio-nalen, nominalen Datenmatrix des Typs n (Elemente, hier: Messpunkte, d.h. Aufnahmepunkte des Sprachatlasses) x p (sprachliche Merkmale bzw. Arbeitskarten, s. Abb. 7).

Abbildung 7. Schema einer dialektometrischen Datenmatrix in der S-DM (Goebl 1984: 16). Grau un-terlegt: Merkmalsvektor 2, d.h. Ausprägungen (e, f, g) eines sprachlichen Merkmals (2) an den berück-sichtigten Messpunkten (1-6).

Die Erstellung der dialektometrischen Datenmatrix läuft über den Prozess der Taxierung (auch:

Typisierung) der Originaldaten, d.h. einer „nac̍ ̌ewissen linguistischen Prinzipien vorzuneh-mende[n], klassifizierende[n] Zusammenfassung der auf den Originalkarten des betreffenden Sprachatlasses anzutreffenden, lautschriftlich festgehaltenen Dialekt-Antworten in voneinan-der disjunkte Gruppen“ (Goebl β00ιμ 1λλ).251 Die Taxierung erfolgt für jede Sprachatlas-Karte separat und kann auf verschiedenen sprachlichen Ebenen (Lexikon, Phonetik/Phonologie, Mor-phologie, (Morpho-)Syntax) durchgeführt werden, sodass eine Atlaskarte je nach der dort vor-liegenden Belegstruktur mehrfach taxiert werden kann. Der Taxierungsvorgang umfasst fol-gende Schritte (vgl. ebd.: 198f.):

1) Zunächst wird jede Karte im Hinblick auf ihre Tauglichkeit für eine taxatorische Er-fassung auf den jeweils berücksichtigten sprachlichen Ebenen überprüft. Dabei wird zum Einen die in der Belegstruktur für jedes potentielle (lexikalische, phonetische etc.) Merkmal vorlie-gende diatopische Differenzierung untersucht: Da die Analyse sprachlicher Variation das Vor-handensein mindestens zweier als unterschiedlich betrachteter Merkmalsausprägungen (Typen,

251 Die mit der Taxierung vorgenommene Filterung der sprachlichen Roh- bzw. τrǐinaldaten ist „eine notwen-dige und unabdingbare Voraussetzung für die Erstellung der Datenmatrix in ihrer orthogonalen Form und hat zur Folge, daß die in der Datenmatrix enthaltenen Informationen […] aus «objektiven» (d.̍. der τbjektwelt ver-pflichteten) und «subjektiven» (d.h. dem Taxonomen bzw. dessen Objektschau oder Theorie verver-pflichteten) An-teilen beste̍en“ (Goebl 1λκ4μ 1ι).

in der S-DM: Taxate)252 voraussetzt, werden mononyme253 Atlaskarten, d.h. Atlaskarten, auf denen alle Messpunkte für das jeweilige Merkmal dieselbe Ausprägung aufweisen, bei der Ta-xierung nicht berücksichtigt.254 Zum Anderen wird bei der Evaluierung der Eignung einer Karte der Besatz mit Nullstellen, d.h. Datenlücken (fehlende Belege) geprüft. Um eine zu große Be-einträchtigung des Messergebnisses zu verhindern, muss – in Abhängigkeit von Struktur und Ergiebigkeit der Originaldaten und somit für jede dialektometrische Untersuchung individuell – eine maximale Anzahl an Messpunkten (je Karte) festgelegt werden, die Datenlücken auf-weisen dürfen. Alle Atlaskarten, die mehr als die maximale Anzahl an Datenlücken enthalten, werden aus der Taxierung ausgeschlossen. Da die Taxierung einer Karte im Hinblick auf ein oder mehrere phonetische Merkmale nur im Falle lexikalisch mononymer Karten möglich ist (Goebl 2007: 200), muss hier zudem sicher gestellt werden, dass die Anzahl der Messpunkte, die lexikalisch unterschiedliche (und damit als Nullstellen zu wertende) Belege aufweisen, zu-sammen mit den eigentlichen Datenlücken den festgelegten maximalen Prozentsatz an Null-stellen nicht übersteigt.

2) Im zweiten Schritt werden die taxatorische(n) Kategorie(n) der Karte (lexikalisch, phonetisch, morphologisch, (morpho-)syntaktisch) sowie die Merkmale, im Hinblick auf wel-che die Taxierung jeweils stattfinden soll, auf einem Erfassungsformular festgehalten.255 Im lexikalisc̍en ɒereic̍ ̍andelt es sic̍ bei den ‚εerkmalen‘ um die ab̌efrǎten δexeme (d.̍.

die Kartentitel bzw. bei Karten, die mehrere Lexeme enthalten, die entsprechenden Teile der Kartentitel), die je nach Erkenntnisinteresse auf der Basis semantischer, grammatischer oder etymologischer Kriterien in verschiedene Kategorien eingeteilt und entsprechend kodiert wer-den können. In wer-den strukturellen Bereichen wird auf im Vorfeld erstellte Merkmalskataloge mit entsprechenden Kodierungen zurückgegriffen.256

Die phonetische Taxierung kann auf der Makro- wie auf der Mikroebene erfolgen (vgl.

Bauer 2009: 182). Bei der makrophonetischen Taxierung werden die vorliegenden Daten bzw.

Antwortlemmata im Hinblick auf bestimmte (für das Untersuchungsgebiet typische) Lautent-wicklungen im jeweiligen Etymon taxiert (etwa Diphthoňieruň von lat. Ŏ, Palatalisieruň

von lat. C vor A/O/U), während bei der mikrophonetischen Taxierung das Etymon in seine phonetischen Teilnexus zerlegt wird, deren in den jeweiligen Antwortlemmata vorliegenden Resultate taxiert werden (Goebl 2014: 243):

252 In der Biologie werden die als hinreichend verschieden betrachteten Merkmalsausprägungen, die jeweils eine Gruppe von Einzeldaten ̌enerieren, als „Taxa“ (Š. „Taxon“) bezeic̍net. Die Wa̍l der ɒezeic̍nuň „Taxat“ in der S-DM soll (in Analogie zur Bezeichnuň „Taxandum“ für die Gesamt̍eit der zǔrunde ̌elěten (noc̍ unta-xierten) sprachlichen Rohdaten) „unter Rücǩriff auf die der lateinisc̍en Wortbilduň innewo̍nende Semantik den letztendlich provisorischen bzw. fließenden Charakter des Taxierens betonen und damit terminologisch auf die σotwendǐkeit ̍inweisen, εessuňen bzw. Taxieruňen nie als definitiv zu betrac̍ten“ (Goebl 1λκ4μ γ1).

253 Zur Nomenklatur vgl. FN 263.

254 Je nach Umfang der Datenbasis kann es sinnvoll sein, eine Minimalvariation vorauszusetzen, die die Anzahl von zwei Taxaten übersteigt. Dadurch kann insbesondere vermieden werden, dass isoliert auftretende Merkmals-ausprä̌uňen, die „oft auf Verlěen̍eitsantworten oder sac̍lic̍e und/oder sprac̍lic̍e Unsic̍er̍eiten seitens der Informanten zurückzufü̍ren [sind]“ (ɒauer β00λμ 1κ0), das Messergebnis beeinträchtigen.

255 Muster für die bei einer Taxierung im Rahmen der S-DM verwendeten unterschiedlichen Erfassungsformu-lare finden sich in Kap. 5.3.1.

256 Vgl. Kap. 5.3.1, Tabelle 20.

C im Anlaut vor A

A im Vorton vor Nasalkonsonant intervokalisches NT

Á im Hauptton und in offener Silbe intervokalisches R

E im Auslaut

Unter den Merkmalen im Bereich der morphologischen bzw. morphosyntaktischen Taxierung sind (im Falle romanischer Sprachatlanten) häufig die Realisierung und Form des bestimmten Artikels (differenziert nach Genus und Numerus) und der Subjektpronomina, die Pluralbildung von Substantiven und Adjektiven und verschiedene Aspekte der Verbalmorphologie (Bauer 2009: 186). Eine hypothetische, drei Messpunkte enthaltende ɑtlaskarte mit dem Titel „quando mio fǐlio“ (v̌l. ɑIS I, Karte 9) und den Belegen kwan al me mat in Messpunkt 1, kan ke mun fey in Messpunkt 2 und kwan me fyöl in Messpunkt 3 kann also hinsichtlich dreier Merkmale taxiert werden, nämlich der Realisierungsform der temporalen Konjunktion quando (Syntax), der Form des maskulinen Possessivpronomens der 1. Pers. Sg. (mio, Morphosyntax) und der Realisieruň des Konzepts ‚fǐlio‘ (δexikon, v̌l. Goebl 1λκ4μ 1λ).

3) Im nächsten Schritt werden für jedes Merkmal die zueinander disjunkten Merkmals-ausprägungen bzw. Taxate erfasst und kodiert. Da ein universal gültiges System für die Taxat-bildung bis heute weder in der Dialektometrie noch in anderen taxonomischen Anwendungs-bereichen existiert,257 müssen für jedes dialektometrische Vorhaben stets indivuelle Taxie-rungsrichtlinien geschaffen werden, die jedoch gewissen grundlegenden methodischen Anfor-derungen – z.B. der prinzipiellen Vergleichbarkeit von Objekten auf der Basis ihrer Merkmale, der Relevanz und Repräsentativität der gewählten Merkmale, der Genauigkeit der Taxierung (Mikro- bzw. Makroanalyse) – genügen müssen (Bauer 2009: 161).258

4) Den letzten – und zentralen – Taxierungsschritt bildet die Erfassung der an den Mess-punkten in den jeweiligen Belegen vorliegenden Merkmalsausprägungen. Bei in kartographi-scher Form vorliegenden Originaldaten werden auf die Karten (bzw. den Kartenteil, der das interessierende geographische Teilareal abbildet) sog. Prüfpfade aufgebracht, um dem Taxie-renden das Zurechtfinden auf der Karte zu erleichtern und Fehler zu vermeiden.259 Die Erfas-sung erfoľt dann über das ‚ɑb̌e̍en‘ der erstellten Prüfpfade und die Eintragung der Taxatgehörigkeit der an den Messpunkten notierten sprachlichen Belege in Form der im Vorfeld zu-geordneten Taxat-Kodes auf das Erfassungsformular. Dabei wird in den Fällen, in denen für einen Messpunkt mehrere Belege vorliegen, grundsätzlich nur die erste Nennung berücksich-tigt.260 Nach Abschluss der Taxierungsarbeit werden die Inhalte aller Erfassungsformulare in

257 Bei den zwei konkurrierenden Taxierungsprinzipien spricht man von splitting und lumpingμ „[D]er ‚splitter‘

strebt an, aber auch jede Andeutung von Verschiedenheit und jede Ebene von Verwandtschaftsbeziehung durch die formale Anerkennung gesonderter Taxa auszudrücken und dies in aufwendig abgestufte Kategorien umzuset-zen. Dem̌ěenüber ̍ält es der ‚lumper‘ für ideal, in der Klassifikation die Tatsac̍e zum ɑusdruck zu briňen, daß höhere Taxa und Kategorien Ausdruck von Verwandtschaft sind, und daß eine zu weitgehende [sic] Aufglie-deruň der Taxa zu einer nic̍t vertretbaren Gedäc̍tnisbelastuň fü̍rt“ (εayr 1λιημ β1ιf.).

258 Von besonderer Bedeutung sind diese Kriterien insbesondere in Fällen, in denen aus arbeitspraktischen Grün-den das Taxandum nicht der Gesamtheit der Datenquelle (d.h. dem gesamten Datenmaterial eines Sprachatlas-ses) entsprechen kann und Entscheidungen hinsichtlich der Auswahl insbesondere struktureller Merkmale getrof-fen werden müssen.

259 Für in Listenform vorliegende Originaldaten sind entsprechend ‚Prüflisten‘ (durch Festlegung der Reihen-folge der zu überprüfenden Messpunkte) zu erstellen.

260 Der (bewusste) Ausschluss von Mehrfachantworten bzw. -nennungen (multiple responses, kurz MRs) stellt wohl einen der am häufigsten genannten Kritikpunkte der S-DM dar (vgl. etwa Schneider 1984: 324), der auch dann nicht restlos aufgelöst wird, wenn statt der ersten die im Merkmalsvektor am häufigsten vertretene Antwort

eine elektronische Datenbank261 übertragen und so die entsprechende Datenmatrix erstellt, die die Basis für die dialektometrischen Berechnungen mit Hilfe des Programms VDM bildet.

Die Resultate der Taxierung der Originalkarten werden in der S-DM als Arbeitskarten (AK) bezeichnet (Goebl 2014: 245).262 Zu ihrer kartographischen Visualisierung werden jedem Taxat eine eǐene Farbe zǔeordnet und eine im Vorfeld erstellte „stumme“ Poly̌onkarte (v̌l.

Kap. 4.3.7.1) entsprechend der vorgenommenen Zuordnung der Messpunkte eingefärbt (s.

Karte 24 und 25). Die Anzahl der auf den polynymen Arbeitskarten263 jeweils aufscheinenden Taxate (Taxatbesatz, Polynymie) kann zwischen 2 (bi-nyme Arbeitskarten) und N (n-nyme Ar-beitskarten) variieren (Goebl/Smečka β014μ 44η). Die ̌rap̍isc̍e Umlegung der Häufigkeits-verteilung der Arbeitskarten im Hinblick auf ihre jeweiligen Taxatbesätze mittels eines Säulen-diagramms (vgl. Abb. 8) zeigt in allen bisher durchgeführten dialektometrischen Untersuchun-gen das Bild einer exponentiell abfallenden Kurve (Goebl 2014: 246), die je nach Datenquelle mehr oder weniger prototypisch sein kann.264 Bereits die Analyse der Häufigkeitsverteilung der Taxatbesätze265 weist also darauf hin, dass die sprachliche Bewirtschaftung des Raumes durch den Menschen nach bestimmten Regularitäten verläuft. Es lässt sich zeigen, dass es sich dabei um Gesetzmäßigkeiten handelt, die mit den Zipfschen Gesetzen bzw. Kräften aus der Text- bzw.

Korpuslinguistik266 veřleic̍bar sind bzw. deren „̌eoliňuistisc̍es Pendant“ darstellen

gewählt wird (etwa in dem von Schiltz (1996) eingeführten Ähnlichkeitsmaß RIWa). In der Kontroverse um die Berücksichtigung von MRs in dialektometrischen Berechnungen werden jedoch die dafür eigentlich

maßgeblichen Punkte meist nicht berücksichtigt. Hier ist zunächst der Umstand zu nennen, dass (nach Gilliéronschen Prinzipien erstellte) romanische Sprachatlanten – im Gegensatz zu deutschen oder englischen Sprachatlanten, wo der Anteil an MRs bis zu 7% betragen kann – im Allgemeinen eine sehr geringe Anzahl an Mehrfachnennungen aufweisen (Schiltz 1997: 662), sodass ihre Berücksichtigung in der romanistischen Dia-lektometrie von geringerer Relevanz ist. Den gewichtigeren Punkt stellt jedoch die epistemologische Bewertung von MRs dar, d.h. die Frage, ob Mehrfachantworten im Rahmen der jeweiligen geolinguistischen Theorie grund-sätzlic̍ den „Wert“ der Forsc̍uňseřebnisse er̍ö̍en oder aber verriňern (Goebl 1λλιaμ βγ). Da εe̍rfach-nennungen mehr soziolinguistische als eigentlich geolinguistische Information enthalten (ebd.: 28), ist ihre Be-rücksichtigung von geringem erkenntnistheoretischen Nutzen, wenn der durchzuführenden dialektometrischen Berechnung ein genuin geolinguistisches Ziel, d.h. die Erkennung sprachlicher Raumstrukturen zugrunde liegt.

Steht hingegen der soziolinguistische Wandel – als eines dessen Zeichen MRs im Allgemeinen gelten können – im Zentrum des Forschungsinteresses, so können Ähnlichkeitsmaße, mit denen sich Mehrfachnennungen berücksichtigen lassen (wie etwas das in Goebl (1997a) verwendete Ähnlichkeitsmaß VBOMjk) den „Wert“ des dialektometrischen Ergebnisses steigern (Schiltz 1997: 666).

261 Zur Struktur der dialektometrischen Datenbank vgl. Kap. 5.3.1., Tabelle 21.

262 Der ɒěriff ‚ɑrbeitskarte‘ bezeic̍net zwar im eǐentlic̍en Sinne die kartǒrap̍isc̍e Visualisierung der Ta-xierungsergebnisse, hat sich jedoch auch für die entsprechenden Taxatlisten etabliert, die in VDM neben der kar-tographischen Darstellung ebenfalls eingesehen werden können.

263 Die Angabe des Taxatbesatzes einer Arbeitskarte erfolgt durch das Einsetzen griechischer oder lateinischer Präfixe für die jeweilige Taxatzahl: Eine Arbeitskarte mit drei Taxaten wird als tri-nym, eine Arbeitskarte mit zehn Taxaten als deka-nym etc. bezeichnet. Für die Bezeichnung verschiedener Stufen des Taxatbesatzes haben sich die Termini oligo-nym (AK mit niedriger Taxatzahl), meso-nym (AK mit mittlerer Taxatzahl) und poikilo-nym Arbeitskarten (ɑK mit ̍o̍er Taxatza̍l) etabliert (v̌l. Goebl β014μ β4η, Goebl/Smečka β014μ 44η).

264 Die Tatsache, dass sich unter den Untersuchungsergebnissen auch solche befinden, bei denen die Taxierungs-arbeit von bis zu 11 verschiedenen, unterschiedlichen Klassifikationsrichtlinien folgenden Personen vorgenom-men wurde (vgl. Goebl/Smečka 2016: 118ff.), zeigt, dass die Regularitäten mitnichten auf die individuelle „̌eo-linguistic bias“ des Taxierenden (ebd.: 119) zurückgehen können.

265 Eine ähnliche Kurve ergibt sich für die Verteilung der Taxate nach der Anzahl der Polygone (Messpunkte), in denen das jeweilige Taxat auftritt (Taxatareale) und die zwischen 1 und N – 1 variiert (vgl. Kap. 5.3.2, Abb. 23-25 und Abb. 29-31). Das da̍inter ste̍ende, universale P̍änomen wird in der Dialektometrie als „spezielle Verza̍nuň“ (eňl. special entanglement, frz. enchevêtrement particulier) der Taxatareale bezeichnet (vgl.

Goebl/Smečka 2016, 2017).

266 Bei dem nach dem amerikanischen Linguisten George K. Zipf (1902-1λη0) benannten „Zipfsc̍en Gesetz“

handelt es sich um einen – unabhängig von Textsorte sowie Alter und Sprache des Textes gültigen – „̌esetzli-chen Zusammenhang zwis„̌esetzli-chen der Verwendungshäufigkeit von Wörtern in einzelnen Texten bzw. bei einzelnen Sprechern/Autoren und ihrem Rangplatz auf einer Liste ihrer generellen Auftretenshäufigkeit: Die Logarithmen

(Goebl/Smečka β014μ 44κ).267 Wie sich im Folgenden zeigen wird, werden diese in der diato-pischen Diversifikation wirksamen Regularitäten auch im weiteren Verlauf der dialektometri-schen Verfahrenskette sichtbar.

Abbildung 8. Histogramm (Goebl 2007: 203): Verteilung von 1746 aus dem AIS extrahierten Arbeits-karten (y-Achse) nach der Anzahl der auf ihnen aufscheinenden Taxate (x-Achse, Polynymie hier: 2 bis 132).

dieser beiden Variablen stehen in einer konstanten Relation zueinander, d.h. das Produkt aus einem Rangplatz und der Verwenduňs̍äufǐkeit ist konstant“ (ɒußmann β00βμ ιθγ). V̌l. Zipf (1λθη [1λγη]).

267 Den mathematischen Nachweis dazu erbringt Altmann (1985) auf der Basis von Daten aus Goebl (1984). In Analogie zum Zipfschen Gesetz prägt Altmann (ebd.: 155) für die Gesetzmäßigkeiten der diatopischen Variation den Begriff des „Goeblsc̍en Gesetzes“.

Karte 24. Lexikalisch relevante Arbeitskarte (Goebl 2007: 237). Geographische Verteilung der Bezeich-nungen für ‚blind‘ an̍and der Karte 1κκ ‚cieco‘ des ɑIS. Hinter den Taxaten ist in Klammern die Anzahl der Orte notiert, die den jeweiligen lexikalischen Typ aufweisen.

Karte 25. Phonetisch relevante Arbeitskarte (Goebl 2007: 236). Geographische Verteilung der Resultate von lat. C vor bet. ̌ in ČσTU an̍and der Karte γ04 ‚cento‘ des ɑIS. Hinter den Taxaten ist in Klammern die Anzahl der Orte notiert, die den jeweiligen phonetischen Typ aufweisen.