• Keine Ergebnisse gefunden

Teil II Modellbasis und Modellaufstellung

6 MODELLIERUNG: KONZEPTE und METHODEN .1 Konzeption und Lösungsansatz .1 Konzeption und Lösungsansatz

6.2 Statistischer Ansatz – Diskriminanzanalyse

6.2.1 Prinzip, Voraussetzungen und Auswahl des Verfahrens

Die Diskriminanzanalyse (DA) ist eine Verfahrensweise, die über viele Disziplinen verbreitet ist und nicht nur dazu dient, geowissenschaftliche Fragen zu beantworten. Charakteristisch ist das Prinzip, als unabhängige Variablen i.d.R. metrisch skalierte Variablen zu nutzen und dem gegenüber als Zielgröße kategorielle, abhängige Variablen (Gruppen, Klassen) betrachten zu wollen. Die DA gehöre zu den strukturprüfenden Verfahren (BACKHAUS et al. 1989:XIII), die Überprüfung von Zusammenhängen zwischen Variablen sei das primäre Ziel und der Anwender habe bereits auf sachlogischen Überlegungen basierende Vorstellungen. Somit bestehe eine Verwandschaft zur Regressions- und Varianzanalyse. Dem gegenüber stehen z.B. die Cluster- und Faktorenanalyse, die dazu dienen, Strukturen „zu entdecken“.

Das GIS stellt eine Form einer Diskriminanzanalyse bereit, sofern man die maximum-likelihood-Methode (kurz ml) zu den diskriminanzanalytischen Verfahren stellt (KUNDERT 1988:24). Die Methode beruht auf Folgendem: „Die Wahrscheinlichkeit der Zugehörigkeit zu einer Klasse läßt sich aus der Dichtefunktion der Normalverteilung herleiten, ...“ (S. 36). Dies ist allerdings kein eigenständiges Verfahren, sondern nur die Formulierung und Anwendung eines bestimmten Entscheidungskriteriums. Hierbei macht man sich die Verteilung der Klassen im Merkmalsraum, eine Dichtefunktion, zu nutze. Ein integrativeres und damit besseres Vorgehen ist, einen Diskriminanzraum anstatt eines Merkmalraums zu analysieren. Die Achsen des Diskriminanzraumes werden durch Linearkombinationen der verwendeten Variablen definiert.

Andere Diskriminanzverfahren als die ml bietet das GIS z.Z. nicht, was bereits den Wechsel zu einer anderen Software bedingt. Ein weiterer Grund für den Wechsel ist das Fehlen einer automatisierten Variablenwahl. Beide Anforderungen erfüllt das Programm SAS® in Form der Prozeduren stepdisc und discrim. Dabei wird zuerst eine Diskriminanzfunktion im Zuge einer Variablenwahl formuliert und dann die Funktion auf andere Datensätze übertragen.

Eine Übersicht von vier nach Wertespektrum und Verteilung möglichen Verfahren geben KÜTING &

WEBER (1994:348) indem sie auf „verteilungsabhängige oder parametrische Verfahren mit den Unterformen der linearen und der quadratischen DA“ einerseits und auf „verteilungsfreie oder nicht-parametrische“ multivariate DA - Verfahren verweisen. „Lineare Diskriminanzanalyse bedeutet, dass die verwendeten -und entsprechend ihrer statistischen Bedeutung gewichteten- Kennzahlen lediglich additiv oder subtraktiv, also linear zu einer Gesamtkennzahl, dem Diskriminanzwert, verbunden werden.“

BACKHAUS et al. (1989:163) sagen, das Grundprinzip sei, „eine Mehrzahl von Variablen bei minimalem Informationsverlust durch eine Linearkombination zu einer einzigen Variable“ zusammenzufassen.

Zum Zweck und der Einsatzmöglichkeit der DA meinen BAHRENBERG et al. (1992:317), die DA könne

„zur Analyse und Erklärung von Gruppenunterschieden herangezogen werden“. Weitere Fragen sind:

„In welche Gruppe ist ein Objekt, dessen Gruppenzugehörigkeit nicht bekannt ist, aufgrund seiner Merkmalsausprägungen einzuordnen ?“ (BACKHAUS et al. 1989:162). „Ist die vorliegende Gruppierung die bestmögliche oder ist sie verbesserungswürdig?“ (BAHRENBERG et al. S. 316). „Wie kann optimal entschieden werden, zu welcher der g Stichproben eine Einheit vermutlich gehört, deren

Die Prozedur stepdisc basiert auf einer parametrischen, linearen Diskriminanzanalyse. Dieser liegt Normalverteilung und eine gemeinsame Kovarianzmatrix zugrunde (6.2.2). Andere statistische Verfahren sind wegen der nicht immer gegebenen Normalverteilung der erklärenden Variablen innerhalb der zu modellierenden Klassen in Betracht zu ziehen. „When a parametric classification criterion (linear or quadratic discriminant function) is derived from a non-normal population, the resulting error rate estimates may be biased.“ (SAS 1987:40). Für solche Fälle wird die logistische Regression empfohlen.

Allerdings würde die DA gegenüber der logistischen Regression in den Fällen effizienter sein, in denen Normalverteilung vorliegt. Zur Robustheit des Verfahrens bezogen auf die Datenbasis ergänzen sich BAHRENBERG et al. (1992:340), KLECKA (1980:61) und KÜTING & WEBER (S. 348). Letztere konstatieren bessere Trennergebnisse des linearen Ansatzes gegenüber der quadratischen DA auch bei Verletzung der Normalverteilungs- und Homogenitätsannahme, während der erstgenannte von

„zufriedenstellenden Ergebnissen“ spricht. Ebenso äußern sich FAHRMEIR & HAMERLE (1984:370):

„ ... oder die quadratische DA mit metrischen Merkmalen, sind ... wesentlich weniger robust als lineare Diskriminationsverfahren.“ Kritik an der DA in Bezug auf Voraussetzungen der Anwendung üben allerdings TURNER et al.(1991:42). Es wurde trotzdem entschieden, die lineare DA zu nutzen. Denn die quadratische DA ergab testweise sehr gute Ergebnisse bei Reklassifikation der Parametrisierungsdaten, aber sehr schlechte Ergebnisse bei Modellübertragung auf andere Datensätze.

Ein Test auf Signifikanz der Funktionen ist dann wichtig, wenn die Datensätze klein sind. Falls die Daten bei großem Datenvolumen die Ansprüche auf Normalverteilung und Streuung verletzen, können Signifikanztests vernachlässigt werden (KLECKA 1980:62). Werden einige hundert oder gar tausende von Datensätzen je Klasse herangezogen, wird Signifikanz ohnehin fast immer erreicht, wie sich in Programmtestläufen herausstellte. Diese Signifikanz darf aber nicht überbewertet werden, da eine zufriedenstellende Modellgüte nicht unbedingt damit einhergeht.

Klassen können nicht nur im „Merkmalsraum“ anhand der Verteilung der Merkmalswerte getrennt werden. Es ist stattdessen eine Trennung der Klassen im „Diskriminanzraum“ zu erreichen, wobei der Diskriminanzraum nicht von den Merkmalen loszulösen ist. Eine Linearkombination von Ausgangsmerkmalen ist notwendig. Dabei können die beteiligten Variablen gewissermaßen „gleichzeitig“

betrachtet werden (ERB 1990:11). Variablen, die univariat betrachtet keinen signifikanten Mittelwertsunterschied zwischen Klassen aufweisen, können in einer DA doch sinnvoll zu verwenden sein. Eine solche Variable kann mehrdimensional betrachtet, also in Kombination mit anderen Variablen, zur Trennung beitragen (FLURY & RIEDWYL 1983:91, ERB 1990:11).

Das Prinzip der Trennung ist für den Zwei-Gruppen-Zwei-Variablen-Fall bei ERB (S. 11-20) dargestellt.

Sind die beiden Merkmale X1 und X2 gegeben, so liegt eine Diskriminanzachse zur Trennung der Klassen A und B günstig, wenn sich die auf die im rechten Winkel zur „Trenngerade“ eingezeichnete Achse (Y) projezierten Verteilungen der Klassen A und B möglichst wenig überlappen. Die Achse ist die Linie, auf der Distanzen zwischen projezierten Merkmalswerten und Gruppenzentroiden abgegriffen werden können. Zentroide stellen den mittleren Wert des Merkmals in einer Klasse dar.

Abb. 34: Konstruktion einer Diskriminanzachse für eine Diskriminanzfunktion.

Y= -2 + 0,8X1 – 0,5X2 (links). Verteilung von zwei Gruppen (Klassen) und ihre Projektion auf zwei Diskriminanzachsen (rechts). Aus: BACKHAUS et al. 1989:173 und 175, verändert. Gestrichelt = Isoquanten.

Isoquanten verlaufen parallel zu der zuvor erwähnten „Trenngeraden“. Sie sind der geometrische Ort, an dem das Einsetzen von beliebigen Merkmalswerten X1 und X2 in die Funktion einen bestimmten, festen Wert Y hervorbringt. Sie sind ein graphisches Mittel, um die Distanzen zwischen X1- und X2-Werten und Gruppenzentroiden visualisieren zu können. Ebendiese Distanzen sind bei der eigentlichen Klassifizierung bedeutend, sofern ohne a-priori-Wahrscheinlichkeiten gearbeitet wird (vgl. 6.2.5).

Die Diskriminanzkoeffizienten stellen die Gewichtung der Merkmale in Hinblick auf die Trennung von Klassen dar (KÜTING & WEBER 1994:349). Koeffizienten werden so gewählt, dass „die Summe der Abweichungsquadrate zwischen den Stichproben im Verhältnis zur Summe der Abweichungsquadrate innerhalb der Stichproben möglichst groß ist“ (MARINELL 1977:55) oder wie bei BACKHAUS et al. (S.

171) ausgedrückt: „Wähle die Koeffizienten so, dass ... der Quotient ‘Streuung zwischen den Gruppen / Streuung in den Gruppen’ maximal wird.“ „Die zur Kombination der Merkmalsvariablen verwendete Funktion heisst Diskriminanzfunktion (Trennfunktion). Sie hat allgemein die Form:

Y = b0 + b1X1 + b2X2 + ... bJXJ (1)

mit Y = Diskriminanzvariable Xj = Merkmalsvariable j (j=1, 2..., J)

bj = Diskriminanzkoeffizient für Merkmalsvariable j b0 = Konstantes Glied“ (BACKHAUS et al. S. 164)

„Die Diskriminanzfunktion läßt sich geometrisch als eine Gerade darstellen, die als Diskriminanzachse bezeichnet wird.“ (Abb. 34). Die maximale Anzahl der unkorrelierten, d.h. rechtwinkelig zueinander stehenden Funktionen, die überhaupt verwendet werden, um in einem multivariaten Merkmalsraum mehr als zwei Klassen zu „diskriminieren“, ist durch die Anzahl dieser Merkmale und / oder Klassen gegeben.

Sie kann nicht größer sein als die Zahl der zur Verfügung stehenden Variablen J und nicht größer als die Klassenanzahl G - 1. So gilt (BACKHAUS et al. S. 180):

Maximale Anzahl der Funktionen = Min{G - 1, J} (2)

Oftmals genügen wenige Funktionen anstatt aller theoretisch möglichen, um Gruppen zu trennen, wie Versuche gezeigt haben (BAHRENBERG et al. S. 330). SAS bestimmt aber alle möglichen Funktionen; in der vorliegenden Arbeit ist es oft nur eine Funktion, weil meistens nur zwei Klassen getrennt werden.

Der Diskriminanzwert resultiert aus der Diskriminanzfunktion und basiert somit auf den Merkmalswerten und deren Gewichtung durch den Koeffizienten zuzüglich einer Konstanten. Nach ihm wird die Zuordnung in Klassen getroffen. Bei beispielsweise zwei verwendeten Merkmalsvariablen X1 und X2 ergibt sich durch Einsetzen in die Diskriminanzfunktion ein D-Wert, der bei graphischer Übertragung in die Werteskala der Isoquanten auf der D-Achse eingezeichnet wird (Abb. 34). Dort wird die Distanz zwischen den projezierten Punkten und den Zentroiden genutzt, um die Klassifizierung eines Objektes nach kürzester Distanz zu vollziehen (BACKHAUS et al. S. 189).

6.2.2 Kovarianz, Distanzkonzept und Gütemaße Kovarianz:

Die Merkmalswerte einer Variablen (z.B. Neigung) variieren innerhalb einer standörtlichen Klasse (z.B.

Hang) um den Mittelwert. Innerhalb dieser Klasse variieren auch die Werte anderer Variablen, wie z.B.

die Werte der Wölbung. Die mittlere Summe der Produkte der Abweichungen beider Variablen innerhalb einer Klasse von ihrem jeweiligen Klassenmittelwert ist die Kovarianz. Werden die Kovarianzen der Variablen in ein quadratisches Schema eingetragen, so erhält man die Kovarianzmatrix. Sie ist oft klassenspezifisch. Wenn man aber davon ausgeht, dass die Kovarianzen der Variablen in allen Klassen (Hang, Rücken, ...) gleich sind, können „gemeinsame“ Kovarianzen bzw. eine „gemeinsame“

Kovarianzmatrix erstellt werden. Die Kovarianz wird dabei mit Probanden aller Klassen erstellt. Eine solche zugrundegelegte gemeinsame bzw. „gepoolte“ Kovarianzmatrix hat den Vorteil, dass zur Trennung von Klassen eine Gerade (Isoquante in Abb. 34) im rechten Winkel zur Diskriminanzachse anstatt eine gekrümmten Linie angenommen werden kann. Dies vereinfacht die DA erheblich.

Distanzkonzept:

Eine Diskriminanzfunktion wird nun so gebildet, dass das Diskriminanzkriterium maximal wird (BAHRENBERG et al. S. 335, ERB S. 32). Ein hoher Wert des Kriteriums tritt auf, wenn Gruppen weit auseinander liegen und einzelne Gruppen dabei kompakt sind. Streuung zwischen den Gruppen wird

„erklärte“, diejenige in den Gruppen „nicht erklärte“ Streuung genannt. Distanzen zwischen den Fällen (Probanden) und den Zentroiden bzw. die Distanzen zwischen den Klassen werden durch Addition quadrierter Abstände ausgedrückt (BACKHAUS et al. 1989:184):

SSb = sum of squares between groups = Streuung zwischen den Gruppen SSw = sum of squares within groups = Streuung in den Gruppen und

SSb + SSw = Gesamtstreuung

Dabei ist die Unterscheidung nach sog. Euklidischer Distanz und Mahalanobis-Distanz zu treffen.

Letztere ist als Grundlage der Trennung notwendig, wenn nicht nur einfache Distanzen der Zentroide und einfache Distanzen der Probanden zu den Zentroiden, sondern auch die Verteilung der Daten im Merkmalsraum berücksichtigt werden soll, also die Ausformung einer „Punktwolke“ im Koordinatensystem. Die Verteilung der Werte kann graphisch in Form von Ellipsen verdeutlicht werden (Abb. 34). Würde man einfache Distanzen zugrunde legen, so könnte ein Proband bildlich gesprochen

einer Klasse zugeordnet werden, deren Ellipse er nicht berührt. Deshalb wird als Diskriminanzkriterium zuerst die Distanz nach Mahalanobis maximiert, eine Diskriminanzachse liegt dementsprechend. Am Rand einer Ellipse sind alle Mahalanobisdistanzen zum Zentroid gleich, bei euklidischen Distanzen nicht.

Ist die Funktion und somit die Achse nach Mahalanobis-Distanzen berechnet, so ist auch gleichzeitig die Distanz im Diskriminanzraum bekannt, nach der letztendlich klassifiziert wird: „Die Klassifizierung der Elemente nach euklidischen Distanzen im Diskriminanzraum entspricht der Klassifizierung nach Mahalanobis-Distanzen im Merkmalsraum“ (BAHRENBERG et al. S. 338). Nach BURROUGH (1986:141) hat die Mahalanobis-Distanz den Vorteil, dass sie Korrelationen der Variablen berücksichtigt. Die Korrelation erschließt sich durch die Form einer Punktwolke der Probanden.

Gütemaße: Wilks’ Lambda, ASCC und Reklassifikation

Die Gütemaße Wilks’ Lambda (L oder Λ) und ASCC („averaged squared canonical correlation“) und die error rates bei Reklassifikation der Parametrisierungsdaten und bei Klassifikation der Validierungsdaten werden in Kapitel 7 zur Modellwertung benutzt. Sie sind aber nicht in allen Situationen vergleichbar bzw. aussagekräftig:

Gütemaße sind nur dann aussagekräftig, wenn es sich um eine wirklich repräsentative Stichprobe handelt.

In der vorliegenden Arbeit wird allenfalls eine geklumpte „Stichprobe“ der Standorte im Niedersächsischen Bergland verwendet. Dies ist dadurch begründet, dass von dem Gesamtraum

„Bergland“ nur einige Flächen aktuell standortkartiert digital vorliegen; diese Flächen liegen aber gewissermaßen „geklumpt“ im Raum. Klumpung ist durch die Aufnahme von Revieren bzw. Forstämtern bedingt. Eine wirkliche Stichprobe bestände aus etwa gleichmäßig über das Bergland gestreuten Standortaufnahmen (Punkten, ~ Zellen) (vgl. BAHRENBERG et al. 1985:20). Deswegen ist die Bewertung eines Modells über Gütemaße im vorliegenden Fall nur ein Hinweis auf Modellqualität, der zu Vergleichen von Modellvarianten, z.B. auf Grundlage unterschiedlicher Variablen, geeignet ist. Sie werden auch benutzt, um zu klären, ob sich bestimmte Klassen mit den verfügbaren Variablen überhaupt akzeptabel trennen lassen.

Die klassenübergreifende, ausgemittelte Reklassifikationsgüte der Parametrisierungsdaten (hit rate, error rate, ~ Trefferquote, Fehlquote), die von SAS bereitgestellt wird, korrespondiert nicht immer mit den Gütemaßen. Denn sie sind nur in dem „Sonderfall“ von nur zwei zu trennenden Klassen proportional zur Reklassifikationsgüte und auch nur dann, wenn die vorgegebenen Klassengrößen reproduziert werden.

Zumindest in einer Hinsicht ist der Sonderfall in dieser Arbeit der Normalfall: Meistens werden nur zwei Klassen getrennt, nämlich eine eigentliche Zielklasse von einer zusammengesetzten Klasse (6.1.5).

Hit rates für den Parametrisierungsdatensatz sagen also wegen des fehlenden Charakters einer berglandrepräsentativen Stichprobe wenig über die Güte einer Modellübertragung aus. Deshalb wird eine Übertragung auf ein Validierungsgebiet durchgeführt (1.2.2). Zumindest kann anhand dieser hit rate geschlossen werden, ob ein Modell im Übertragungsfall auf einen unbekannten Raum zu ausreichenden Ergebnissen führen könnte. Ein erfolgreicher Test ist aber keine Garantie für allgemeine Übertragbarkeit.

Wilks’ Lambda wird auch „likelihood ratio statistic“ genannt (SAS 1987:917). Es sei das wohl am

Lambda“ wird zur Prüfung der Unterschiedlichkeit mehrerer Gruppen herangezogen (BACKHAUS et al.

1989:186). Im Gegensatz dazu steht das univariate Lambda, bei dem der gesamte Diskriminationsvorgang nur auf einer Diskriminanzfunktion beruht (BAHRENBERG et al. S. 336):

Lk = 1 / (1 + γk) = nicht erklärte Streuung / Gesamtstreuung (3)

mit γk = Eigenwert der Funktion

γ = SSb / SSw = erklärte Streuung / nicht erklärte Streuung = Eigenwert (4)

Der sog. Eigenwert γ ist hoch, wenn die „Trennkraft“ der Funktion bezogen auf die Klassen hoch ist.

Eigenwerte hängen von der Trennkraft einer Funktion ab, die wiederum von der (Mahalanobis-)Distanz im Merkmalsraum und somit der Distanz im Diskriminanzraum abhängt. Wilks’ Lambda L ist ein inverses Gütemaß, normiert auf 0 bis 1. Im Zwei-Gruppen Fall kann maximal eine Diskriminanzfunktion definiert werden; es handelt sich um ein univariates Wilks’ Lambda. Dies ist nicht mit dem multivariaten L vergleichbar, da das auf einer Multiplikation der univariaten L beruht:

L = Π 1 / (1 + γk) BACKHAUS et al. (S. 186) (5)

mit γk = Eigenwert der jeweiligen Diskriminanzfunktion Yk

Bei der Multiplikation zweier etwa „gleich guter“ univariater Lambda, deren Werte zwischen 0 und 1 liegen müssen, wird der Ergebniswert deutlich kleiner (Bsp.: 0.45 * 0.50 = 0.225). Der Wert suggeriert eine viel bessere Trennbarkeit der Klassen. Deshalb ist bei der Beurteilung von L auf die Funktionsanzahl zu achten. Dagegen wird bei der avaraged squared canonical correlation, ASCC, (SAS 1987:17 und 917f) der Einfluß der Funktionsanzahl berücksichtigt (γk ~ λi ):

V = Σ λi / (1 + λi) = Σ Erklärte Streuung / Gesamtstreuung (6)

ASCC = V / (G - 1) (7)

Es wird die Summe V durch die „Anzahl der Gruppen - 1“ (G - 1) dividiert. Diese Anzahl ist meist gleich der Funktionsanzahl, jedenfalls dann, wenn Gruppenanzahl <= Merkmalsanzahl ist. Denn für die maximale Anzahl der Funktionen galt nach (2): Maximale Anzahl = Min{G - 1, J}. Sollte es aber weniger Merkmale J als „Gruppen - 1“ geben, so ist ebenfalls die Division durch G - 1 gerechtfertigt, denn die Güte des Gesamtdiskriminanzvorgangs muss ausgedrückt werden, indem man die addierte Güte aller Einzelfunktionen zu der Gruppenanzahl in Relation setzt; diese Gruppen sollen schließlich diskriminiert werden. ASCC wird also klein, wenn viele Gruppen nur mit Hilfe von wenigen Variablen und somit wenigen Funktionen diskriminiert werden.

Das univariate Wilks’ Lambda und ASCC addieren sich im Zwei-Gruppen-Fall zu 1, da es dann nur eine Funktion bzw. einen Eigenwert geben kann. Im Beispiel ergeben sich mit dem Eigenwert γ = 1.8:

L = 1 / (1 + γ) = 0.357 (8)

ASCC = γ / (1 + γ) = 0.643 (9)

Im Fall von drei Gruppen ergeben sich bei Eigenwerten zweier Funktionen von z.B. γ1 = 1.8 und γ2 = 1.3 :

L = 1 / (1 + γ1) * 1 / (1 + γ2) = 0.155 (10)

ASCC = (γ / (1 + γ1) + γ / (1 + γ2)) / G - 1 = 0.604 (11)

Die ASCC kann Werte größer 1 erreichen, wenn mehrere hohe Werte des Quotienten γ / (1 + γ) addiert werden. Dies ist allerdings in der Praxis selten, da bei der Diskrimination realer Daten kaum mehrere Funktionen hohe Eigenwerte und somit „Trennkraft“ haben. Vergleicht man die ASCC und das multivariate Wilks’ Lambda so ergibt sich: L geht schneller gegen ‘0’ als ASCC gegen ‘1’ (~hohe Trennbarkeit). L gibt also den Anschein einer besseren Trennung der Klassen als ASCC.

Bei CONGALTON & GREEN (1999:46f) wird die Bewertung von Klassifikationen in der Satellitenbildanalyse besprochen. Die bei Reklassifikation von SAS bereitgestellte klassenspezifische hit rate (bzw. error rate) entspricht der producer’s accuracy:

producer’s accuracy: Richtig klassifizierte Zellen der Klasse k / Anzahl kartierter Zellen der Klasse k hit rate: desgl.

user’s accuracy: Richtig klassifizierte Zellen der Klasse k / Anzahl modellierte Zellen der Klasse k Producer’s accuracy und user’s accuracy stellen den gleichen Sachverhalt also aus verschiedener Perspektive dar: Der producer ist der Produzent einer Karte, in der Klassen abgebildet sind, also derjenige, der das Modell aufstellt. Der user ist der Nutzer der Karte. Der Produzent kann für sich in Anspruch nehmen, dass x % der Referenzdaten einer Klasse in der Modellklassifikation richtig wiedergegeben werden. Der Benutzer kann aber feststellen, dass y % der Modelldaten einer Klasse mit den Verhältnissen im Gelände übereinstimmen. Da die absolute Anzahl der Referenzzellen und der modellierten Zellen nicht unbedingt gleich ist, sind die beiden accuracies ggf. ungleich. Das Gesamtproblem muss vor dem Hintergrund gesehen werden, dass die Summe aller Referenzzellen und die Summe aller modellierten Zellen gleich ist, die Anteile je Klasse aber unterschiedlich sind; weit ausgedehnte Modellierung einer Klasse muss zwangsläufig zu geringer Ausdehnung einer anderen Klasse führen und umgekehrt.

Die overall accuracy errechnet sich aus der Summe aller richtig klassifizierten Zellen / Summe der Zellen. Da die Modellaufstellung mit etwa gleich großen Klassen erfolgte (6.1.2) kann bei etwa gleich großen Klassen nach Reklassifikation auch die overall accuracy aussagekräftig sein. Eine aus klassenspezifischen error rates übergreifend gemittelte rate, wie sie von SAS vorgegeben wird, entspricht dem. Wenn die modellierten Klassen aber ungleich groß sind, wurde dies bei den Modellen gesondert vermerkt, weil dann die error rate weniger aussagekräftig ist.

Die Akzeptanz von Modellen richtet sich in dieser Arbeit also je nach zuvor beschriebenen Situationen nach Gütemaß, klassenspezifischen oder übergreifenden Reklassifikationsgüten, Klassenausdehnungen im Vergleich Modell und Vorgabe, Plausibilität der gewählten Variablen (6.2.3) und den Übertragungsergebnissen im Validierungsgebiet. Stärker verallgemeinernde Indizes wie etwa der Kappa Index (CONGALTON & GREEN 1999, RICHARDS 1993) wurden nicht verwendet, da Ergebnisse klassen- und themenbezogen, also standörtlich, beurteilt werden sollten.

Die Modellgüte im Validierungsgebiet ist wegen des verschachtelten Vorgehens in dieser Arbeit mit den genannten accuracies (hit rates) allerdings schwer zu interpretieren: Vorgeschaltete Schritte bestimmen immer auch die Güte der nachgeschalteten. Trotzdem werden diese Werte zumeist berechnet und besprochen. Weiteres dazu findet sich in Abschnitt 7.1.2.1.

6.2.3 Aufstellung des Modells, Prinzip der Variablenwahl, Bedeutung der Variablen

Bei der Variablenwahl der Prozedur stepdisc wird Wilks’ Lambda minimiert. Es werden diejenigen Variablen aus dem Modell verbannt, die gemessen an Lambda am wenigsten zur Trennkraft beitragen (SAS 1987:910). Lambda ist klein, wenn irgendwelche zwei Klassen (any two groups) gut separiert werden (S. 917).

Ein multipler partieller Korrelationskoeffizient, der den Zusammenhang zwischen einer Variablen und der Zielgröße unter Berücksichtigung anderer im Modell vorhandener Variablen beschreibt, wird bei SAS zur Variablenwahl und Wertung bereitgestellt (dort R**2, hier pR²). HUBERTY (1994:232) meint mit Bezug auf die stepdisc-Prozedur, R**2 könne als squared partial correlation angesehen werden. Der Wert kann zur Ordnung der Variablen im Sinn ihrer relativen Beiträge zur Trennung von Gruppen dienen (S. 302).

Er warnt allerdings davor, eine einfache Reihenfolge (naive rank bei dem rank-ordering) nach pR² vorzunehmen und empfiehlt judgment ranks anzusetzen (S. 233). Aus dreizehn Variablen sind z.B. nur fünf ranks (1, 2, 3, 4 und 9) zu bilden, wobei neun Variablen mit dem rank 9 belegt werden, da ihre partiellen R² im Verhältnis zu den anderen vier Variablen klein sind. Der Anwender sollte die Ergebnisse von statistischen Prozeduren gutachterlich und nicht streng kennzahlenabhängig beurteilen.

Drei Verfahrensoptionen sind bei der Variablenwahl möglich: backward, forward und stepwise.

Um die Stabilität der Verfahren zu testen und um sich für eines der Verfahren zu entscheiden, wurden Modelle zur Trennung von drei Klassen K1, K2 und K3 erstellt. Zehn Variablen AAX - JJJ wurden dafür bereitgestellt. Da es um prinzipielle Verfahrensschritte geht, wird auf inhaltliche Interpretation verzichtet;

daher diese abstrakten Benennungen. Für das Eintreten (entry) in ein Modell und das Verbleiben (stay) in einem Modell wird die Schwelle pR²entry bzw. pR²stay 0.02 angesetzt, da dies erfahrungsgemäß zu einer deutlichen aber nicht übermäßigen Verringerung von Variablen führt.

Option stepwise: In jedem Schritt wird das Modell danach untersucht, dass die Variable, die gemessen an Lambda am wenigsten Bedeutung hat und die das Kriterium zum Verbleib verfehlt, wieder ausgegrenzt wird. Dem entgegen wird die bedeutsamste noch nicht enthaltene Variable aufgenommen. Wenn alle

Option stepwise: In jedem Schritt wird das Modell danach untersucht, dass die Variable, die gemessen an Lambda am wenigsten Bedeutung hat und die das Kriterium zum Verbleib verfehlt, wieder ausgegrenzt wird. Dem entgegen wird die bedeutsamste noch nicht enthaltene Variable aufgenommen. Wenn alle