Relativer (ungewichteter) Identitäts- bzw. Distanzwert

4.3 Die Salzburger Dialektometrie

4.3.4 Erstellung der Ähnlichkeits- und Distanzmatrix

4.3.4.1 Relativer (ungewichteter) Identitäts- bzw. Distanzwert

Im Zentrum der dialektometrischen Analyse steht die Ermittlung der sprachlichen Beziehun-gen, d.h. der sprachlichen Ähnlichkeiten bzw. Distanzen zwischen den Messpunkten des Un-tersuchungsnetzes.²⁶⁸ Diese verläuft über den jeweils paarweise ausgeführten Vergleich der Messpunktvektoren der nominalen Datenmatrix, wobei verschiedene Ähnlichkeits- bzw. Dis-tanzmaße zur Verfügung stehen. Für die metrischen Eigenschaften dieser Maße gelten dabei – wie für alle taxonomischen Ähnlichkeits- bzw. Distanzmaße²⁶⁹ – dieselben Bedingungen wie für geometrische (euklidische) Distanzen (nach Bauer 2009: 93f.):

1) Positivdefiniertheit: sjk ≥ 0 bzw. djk ≥ 0

Die zwischen zwei Punkten j und k gemessenen Ähnlichkeits- (sjk) bzw. Distanzwerte (djk)dürfen nicht negativ sein.

2) Reflexivität: skk = 1 (bzw. 100%), dkk = 0 (bzw. 0%)

Die Ähnlichkeit eines Punktes zu sich selbst ist immer 1 (bzw. 100%), die Distanz eines Punktes zu sich selbst ist immer 0 (bzw. 0%).

3) Symmetrie: skj = sjk bzw. dkj = djk

DieÄhnlichkeit bzw. Distanz zwischen zwei Punkten j und k ist numerisch identisch mit der Ähnlichkeit bzw. Distanz zwischen den Punkten k und j. Das Ergebnis ist also unabhängig von der Messrichtung.

4) Dreiecksungleichung: dji + dik ≥ d^jk

Die Distanz zwischen zwei Punkten j und i über einen weiteren Punkt k darf nicht kürzer sein als die direkte Distanz zwischen den Punkten j und k.

Das in der S-DM am häufigsten verwendete Maß zur Ermittlung der Ähnlichkeit zwischen zwei Messpunktvektoren ist der Relative Identitätswert (RIWjk)²⁷⁰, bei dem „die paarweisen Über-einstimmungen zwischen den qualitativen Merkmalsausprägungen (a, b, c, d etc.) im Inneren der Datenmatrix erfasst und zur Gesamtmenge der in den betreffenden Paarvergleich überhaupt einbeziehbaren Ausprägungs-Paare in Relation“ ̌esetzt werden (Goebl β00ιμ 1λη). εit ande-ren Worten, es werden je zwei Vektoande-ren der Datenmatrix im Hinblick auf die Anzahl von

268 Die Messung der Beziehungen zwischen den Objekten einer Klassifikation wird in der numerischen Taxono-mie als Q-Analyse bezeichnet. Demgegenüber spricht man bei der Ermittlung von Zusammenhängen zwischen den Klassifikationsmerkmalen von R-Analyse (Sneath/Sokal 1973: 114). In der Dialektometrie wird häufig eine etwas abgewandelte R-Analyse verwendet, die auf Q-analytischen Messungen basiert, „wobei aber merkmalssei-tig systematische Datenrestriktionen bzw. –manipulationen vorgenommen werden, um solcherart festzustellen, inwieweit ein bestimmter Q-analytischer Meßertrag von R-analytisch relevanten Ordnungsstrukturen abhängig ist“ (Goebl 1984: 197). Das bedeutet, dass die dialektometrischen Ergebnisse bzw. die kartographisch aufschei-nenden Ordnungsstrukturen verschiedener Teilkorpora (z.B. des phonetischen und des lexikalischen Teilkorpus oder aber des vokalischen und des konsonantischen Teilkorpus) miteinander verglichen werden, um Informatio-nen über die Korpus-Sensibilität des Messergebnisses zu erhalten (vgl. Kap. 4.3.8).

269 Vgl. Vogel (1975: 82-84) und Bock (1974: 24-26).

270 Die Indizes j und k stehen für zwei verschiedene Messpunktvektoren der Datenmatrix. Im Französischen wird der RIWjk als Indice Relatif d’Identité (IRIjk) und im Englischen als Relative Identity Value (RIVjk) bezeichnet.

Koidentitäten (übereinstimmende Merkmalsausprägungen/Taxate) und Kodifferenzen (diver-gierende Merkmalsausprägungen/Taxate) miteinander verglichen, wobei keine unterschiedli-che Gewichtung der Taxate erfolgt, alle Taxate also mit gleiunterschiedli-chem Gewicht in die Berechnung eingehen (Goebl 1984: 76).²⁷¹ Nullstellen werden in der S-DM generell nicht in den Vergleich einbezǒen, um zu ̌ewä̍rleisten, „dass zwei- oder mehrmaliges Auftreten von Nullstellen in-nerhalb eines Merkmalsvektors beim paarweisen Vergleich der Ortsvektoren nicht als Ko-Iden-tität […] interpretiert wird“ (ɒauer β00λμ λβ). ɒei der ɒerec̍nung des RIWjk (und aller anderen Ähnlichkeitsmaße) wird also die Anzahl der bei dem Vergleich insgesamt zu berücksichtigen-den Merkmale (Arbeitskarten) für jede Ortspaarung neu definiert.²⁷²

Der Relative Identitätswert RIWjk ergibt sich daraus, dass die Summe der Koidentitäten (Absoluter Identitätswert AIWjk) in Bezug zur Summe aller messbaren Koidentitäten und Ko-differenzen, d.h. aller berücksichtigten Merkmale gesetzt und mit dem Faktor 100 multipliziert wird (vgl. Goebl 1984: 76):

RIWjk = 100 ∙ _∑^p₌₁_KOI^∑^p⁼¹ + ∑^KOI ^p₌₁ KOD

wobei

RIWjk Maß für die Ähnlichkeit zwischen den Messpunktvektoren j und k (0 ≤ RIW^jk≤ 100)

∑ KOI ^p₌ Summe aller beim Vergleich der Messpunktvektoren j und k fest-gestellten Koidentitäten (i … p = berücksic̍tǐte εerkmale)

∑ KOD ^p₌ Summe aller beim Vergleich der Messpunktvektoren j und k fest-gestellten Kodifferenzen (i … p = berücksic̍tǐte εerkmale) So ergibt etwa ein anhand der Merkmale 1 bis 4 durchgeführter Vergleich der Messpunktvek-toren 5 und 6 aus Abb. 7 bei drei insgesamt zu berücksichtigenden Merkmalspaaren zwei Koidentitäten (j/j, g/g) und eine Kodifferenz (c/d). Durch Einsetzen in obige Formel erhält man:

RIW5,6 = 100 ∙ ₊ = 66,67 (%)²⁷³

Die anhand der vorliegenden Datenbasis zu ermittelnde sprachliche Ähnlichkeit zwischen den Messpunkten 5 und 6 liegt demnach etwa bei vollen 66 % (vgl. Abb. 9).

271 In der taxonomischen Fachsprache werden Ähnlichkeitsmaße, bei denen alle Merkmale gleich gewichtet wer-den, als isokratische oder – nach Michel Adanson (vgl. Kap. 4.3.2) – als adansonistische Ähnlichkeitsmaße be-zeichnet (vgl. Goebl 1984: 83, Bauer 2009: 92).

272 Dabei handelt es sich um ein in der numerisc̍en Taxonomie ̌äňǐes Verfa̍renμ „Wenn in der εatrix (xki) einige Daten xki nicht bekannt oder verfügbar sind, müssen die genannten Ähnlichkeits- und Distanzmaße modi-fiziert werden. Man geht dann zweckmäßig von einem Maß sjk bzw. djk aus, bei dem jedes einzelne Merkmal ei-nen additiven Beitrag liefert und das bzgl. der Anzahl der Merkmale normiert ist (Division durch p): In der ent-sprechenden Summe berücksichtigt man dann nur jene Komponenten von xj und xk, die in beiden Vektoren be-kannt sind, und dividiert durch die Anzahl p̃ dieser Komponenten […]“ (ɒock 1λι4μ ιη).

273 Ergebnis auf die zweite Kommastelle gerundet.

Der paarweise Vergleich aller Messpunktvektoren im Hinblick auf Koidentitäten und Kodiffe-renzen generiert eine symmetrische Ähnlichkeitsmatrix vom Typ N (Messpunkte) mal N (Mess-punkte), die als solche (abzüglich der 100%igen Ähnlichkeit jedes Messpunktes zu sich selbst) σ/β ∙ (σ – 1) verwertbare Ähnlichkeitswerte enthält und deren Diagonale durch die Zellen mit reflexiven Ähnlichkeitswerten (RIWjj = 100) konstituiert wird (vgl. Abb. 9). Heuristisch

gese-̍en stellt sie „ein nac̍ bestimmten Kriterien erstelltes quantitatives Abbild der qualitativen Information (bzw. der darin enthaltenen Variation) der Datenmatrix“ dar (Goebl β00ιμ 1λθ).

Abbildung 9. Generierung einer (metrischen) Ähnlichkeitsmatrix aus einer (nominalen) Datenmatrix mittels des Relativen Identitätswertes (RIWjk,Goebl 2007: 196).

Obgleich in der S-DM die sprachlichen Ähnlichkeiten zwischen den Messpunkten im Zentrum des Forschungsinteresses stehen (vgl. Kap. 4.3.1), lassen sich hier auch die sprachlichen Ab-stände bzw. Distanzen zwischen diesen auf einfache Weise (und mittels VDM automatisch) ermitteln. Die Relativen Distanzwerte (RDWjk), die die Messpunkte zueinander aufweisen, sind zu den entsprechen Relativen Ähnlichkeitswerten komplementär und werden über folgende Formel errechnet (Bauer 2009: 96):

RDWjk = 100 – RIWjk

Analog zu den Ähnlichkeitswerten werden die ermittelten Distanzwerte in einer (symmetri-schen) Distanzmatrix²⁷⁴ zusammengefasst, die (wie die Ähnlichkeitsmatrix) σ/β ∙ (σ – 1) dia-lektometrisch relevante Werte enthält und deren Diagonale durch die Zellen mit reflexiven Dis-tanzwerten (RDWjj = 0) konstituiert wird (s. Abb. 10).

274 Ein Teil der in der Distanzmatrix gespeicherten Werte wird in der S-DM zur Generierung von Schottenkarten verwendet (vgl. Kap. 4.3.7.6).

Abbildung 10. Erzeugung einer Distanzmatrix nach RDWjk (Bauer 2009: 97).

Im Dokument Struktur und Entwicklung der dialektalen Variation in der Campania (Seite 115-118)