2.4.1 Statistische Tests und weitere Formeln
Die Differenz der Mittelwerte wurde bei normalverteilten Daten mittels t-Test f¨ur zwei unabh¨angige Stichproben getestet und zuvor eine Varianzanalyse durchgef¨uhrt.
. Variationskoeffizient
V = s
x alle x >0 (2.1)
. relativer Variationskoeffizient
Vr[%] = s / x
√n ·100 alle x >0 (2.2)
. Maßkorrelationskoeffizient nach Pearson
r =
P(x1−x)(yi−y) pP(x1−x)2·P
(yi−y)2 (2.3)
worin
xi = Messwert des Merkmals X1 am i-ten Individuum yi = Messwert des Merkmals X2 am i-ten Individuum x / y = arithmetisches Mittel vonX1 bzw. X2
n = Anzahl aller Wertepaare i= Laufindex von 1 bisn
. Bestimmtheitsmaß
28
2.4. Instrumente der statistischen Analyse
B = r2 =
P
xiyi− (Pxi)·(nPyi)2
P
x2i − (Pnxi)2
·
Pyi2− (Pnyi)2 (2.4) worin
xi = Messwert des Merkmals X1 am i-ten Individuum yi = Messwert des Merkmals X2 am i-ten Individuum
n = Anzahl aller Wertepaare i= Laufindex von 1 bisn r = Maßkorrelationskoeffizient
. Steigung
m = y2−y1
x2−x1 = ∆y
∆x (2.5)
. Umrechnung Steigungsprozent in Grad Neigungswinkel
N eigungswinkel = arctan(100m )·180
π (2.6)
worin
m= Steigung in Prozent arctan= Arcustangens
2.4.2 Logistisches Regressionsmodell
Zur Analyse der Daten wird die Methode der bin¨ar logistischen, schrittweise r¨uckw¨arts gerichteten Regression angewandt. Die abh¨angige Variable ist dichotom codiert (0,1), wobei 1 f¨ur das Eintreten eines Neusch¨alschadens steht. Die Sch¨atzung der Modellpa-rameter (Gl. 2.7) erfolgt mittels Maximum-Likelihood-Methode, bei der jene Koeffi-zienten gew¨ahlt werden, welche die Wahrscheinlichkeit einer korrekten Klassifizierung der Stichprobenpunkte im logistischen Modell maximieren.
29
2. Material und Methoden
p = 1
1 +e−(ß0+ ß1x1+ ß2x2+...+ ßjxj+a) (2.7) worin
p= Wahrscheinlichkeit der Neusch¨ale (bei p <0.05 wird kein neuer Schaden angenommen; Spanne: 0-1)
e= Basis des nat¨urlichen Logarithmus x1-xi= erkl¨arende Variablen
ß0 = Konstante
ß1-ßi= vom Modell gesch¨atzte Koeffizienten f¨ur die i-ten erkl¨arenden Variablen
Die Auswahl der Pr¨adiktoren wird vom jeweils errechneten Wert des Wald-Test (Gl. 2.8) abh¨angig gemacht (Rudolf und M¨uller 2004). Hiernach werden schrittweise sol-che Variablen ausgesondert, deren Entnahme zu keiner signifikanten Ver¨anderung der Schadenswahrscheinlichkeit f¨uhrt und die somit keinen signifikanten Beitrag zur Op-timierung des Modells liefert. Von den ¨ubrigen Einflussfaktoren verbleiben im letzten Schritt der Anpassung nur jene im Modell, die mit P < 0.05 signifikant sind.
w= sß = Standardfehler von ß
Auf Basis der Regressionskoeffizienten ß werden die odds (Gl. 2.9) der im Modell ver-wendeten Pr¨adiktoren berechnet. Die Ergebnisse lassen Aussagen dar¨uber zu, um wel-chen Faktor sich die Wahrscheinlichkeit eines Sch¨alschadeneintritts im Probepunkt
30
2.4. Instrumente der statistischen Analyse
erh¨oht, wenn der Wert der erkl¨arenden Variable um eine Einheit zunimmt. Bei ordinal skalierten Pr¨adiktoren wird als Referenz stets die erste Klasse gew¨ahlt.
ORi = eßi(xi2−xi1) (2.9)
worin
OR= Chancenverh¨altnis f¨ur die i-te Variable ßi= gesch¨atzter Koeffizient der i-ten Variable
xi2-xi1= Ver¨anderung der i-ten Variable bei Erh¨ohung um eine Einheit
Die G¨ute der Modellanpassung wird ¨uber den Chi-Quadrat-Test von Hosmer und Lemeshow (2000)bewertet. Pseudo-R2-Werte werden auf Basis von Nagelkerkes R2 (Rudolf und M¨uller 2004) berechnet, wobei in Anlehnung anLitz (2000) pseudo-R2-Werte von>0.2 als gut bewertet werden. Anhand einer Klassifizierungstabelle kann die Anzahl korrekt zugeordneter F¨alle wiedergegeben werden.
2.4.3 Berechnung der Chancenverh¨ altnisse
Die Ergebnistabellen der bin¨aren logistischen Regressionsmodelle bieten den Regres-sionskoeffizienten ß und das so genannte odds ratio, um den Effekt der einzelnen Va-riablen im Modell zu bewerten (vgl. 2.4.2). Um die Aussage dieser Werte im recht komplexen Regressionsmodell nachvollziehen zu k¨onnen, soll deren Entstehung im Fol-genden aufgezeigt werden. Das hierzu verwendete fiktive Beispiel soll dar¨uber hinaus verdeutlichen, wie die einzelnen Werte der Variablen in Kapitel 5 auf Seite 73 manuell in MS Excel hergeleitet wurden.
Zun¨achst einmal gilt die Betrachtung den Summen der gesch¨alten und ungesch¨alten Beobachtungen im Gesamtdatenpool. Im bin¨aren logistischen Regressionsmodell wer-den diese Einheiten aus wer-den erfassten Stichprobenpunkten generiert, welche wer-den Wert 1 (gesch¨alt) oder 0 (ungesch¨alt) annehmen k¨onnen. In den in Kapitel 5 vorab durch-gef¨uhrten Einzelanalysen der zu testenden Parameter bestehen diese Beobachtungen oder Einheiten hingegen aus den Auspr¨agungen der jeweiligen Fichten eines Stichpro-benpunktes. Dort wird also die Information gesch¨alt/ungesch¨alt am Baum selbst und damit in absoluter und tats¨achlicher Anzahl ber¨ucksichtigt.
31
2. Material und Methoden
Entsprechend sei nun folgendes Szenario angenommen: Der Datenpool beinhalte 2.000 Beobachtungen. Hiervon seien 400 als gesch¨alt protokolliert worden und 1.600 als ungesch¨alt. Die Wahrscheinlichkeit einer Einheit, als gesch¨alt klassifiziert zu sein, betr¨agt damit im Datenpool 20 % (400/2.000). Die Chance einer beliebigen Beobach-tung, gesch¨alt zu sein, ist demnach 0,25 mal so groß (also viermal geringer), wie die, nicht gesch¨alt zu sein (400/1.600). Im Modell wird f¨ur diese Chance der englische Be-griff odds verwendet. Logarithmiert man diesen Wert von 0,25 zur nat¨urlichen Basis e (2,71828), erh¨alt man den Regressionskoeffizienten ß= -1,386 f¨ur das Gesamtmodell.
Beide, einander entsprechenden, Werte werden dann bei allen folgenden Berechnungen als Referenz verwendet. Im Modell werden sie als Konstante ausgegeben.
Angenommen, die 2.000 Beobachtungen verteilten sich im Gel¨ande auf zwei ver-schiedene H¨ohenklassen und jeweils zur H¨alfte l¨agen die Einheiten unter und ¨uber 500 Metern H¨ohe. Unter 500 Metern w¨urden 100 Einheiten als gesch¨alt und 900 als un-gesch¨alt erfasst werden. ¨Uber 500 Metern seien es 300 gesch¨alte und 700 ungesch¨alte.
Die oddsder beiden Datengruppen liegen dann bei 0,11 (10 % zu 90 %) unterhalb und bei 0,42 (30 % zu 70 %) oberhalb der Klassengrenze von 500 Metern.
An dieser Stelle k¨onnte man zun¨achst das Wahrscheinlichkeitsverh¨altnis zwischen diesen beiden Klassen bilden. Mit einem Verh¨altnis von 0,43 zu 0,11 ist die Wahr-scheinlichkeit, dass eine beliebige Einheit als gesch¨alt klassifiziert ist, in der oberen H¨ohenklasse faktisch 3,9 mal h¨oher als in der unteren H¨ohenklasse. Diesen Wert um-schreibt das odds ratio.
Was im Modell ausgegeben wird und gleichsam Grundlage der Einzelbetrachtungen ist, ist jedoch das Verh¨altnis der jeweiligen Klassen zumReferenzwert. Im vorliegenden Beispiel werden dieoddsbeider H¨ohenklassen also jeweils in Relation zum Gesamtwert von 0,25 gesetzt. Es ergeben sich odds ratios von 1,71 (hohe Lagen) und 0,44 (tiefe Lagen). Somit wird das Sch¨alrisiko (die Chance) innerhalb der oberen H¨ohenklasse 1,7 mal h¨oher eingestuft als dies ¨uber alle H¨ohenlagen der Fall ist. Dagegen gilt f¨ur Einhei-ten innerhalb der unteren H¨ohenklasse ein um den Faktor 0,4 vermindertes Sch¨alrisiko.
Das Chancenverh¨altnis oder odds ratio(nicht aber das Sch¨alprozent!) erh¨oht sich also in der einen Klasse um 71 % und verringert sich in der anderen um 56 % (negatives Vorzeichen beim Regressionskoeffizienten). Ist die Variable nicht klassifiziert, bezieht sich der ausgegebene Wert auf jede weitere Einheit, um die der Faktor erh¨oht wird. Lo-garithmiert man die einzelnen odds ratios, lassen sich nun wieder die entsprechenden Regressionskoeffizienten der Klassen bilden. Durch das Aufsummieren der absoluten
32
2.4. Instrumente der statistischen Analyse
Betr¨age zeigt sich dann - als Gesamtabweichung - der Regressionskoeffizient f¨ur den Faktor insgesamt.
2.4.4 Generalisierte lineare Modelle
Generalisierte lineare Modelle sind allgemein bekannt. R-Statistics bietet jedoch eine Besonderheit bei der Analyse im GLM. Die abh¨angige Variable im GLM kann auch bei der logistischen Regression, also wenn die Kategorie
”family“ auf
”binomial“ gesetzt ist, mit Werten außerhalb der 0-1-Codierung arbeiten:
”If a binomial glm model was specified by giving a two-column response, the weights returned by prior.weights are the total numbers of cases (factored by the supplied case weights) and the component y of the result is the proportion of successes.“7 Von dieser M¨oglichkeit wird im Rahmen dieser Arbeit Gebrauch gemacht, um die relativen Anteile innerhalb der abh¨angigen Variablen zu ber¨ucksichtigen.
2.4.5 Verwendete Software
F¨ur das Datenmanagement, also die Anlage von Datenbanken und die Verschneidung aller eingehender Informationen, wurde Microsoft Access benutzt. Kleinere Berechnun-gen fanden in Microsoft Excel statt. Zur georeferenzierten Bearbeitung und Darstellung der Daten wurde Arc GIS von ESRI verwendet. F¨ur die statistische Analyse wurde R-Statistics benutzt, wobei logistische Regressionen daneben auch in SPSS 16.0.1 gerech-net wurden. Die Diagramme wurden in Origin erstellt. Der Textsatz erfolgte mittels LaTeX.
7The R Development Core Team (1999)
33
3 Charakterisierung der Stichprobenpunkte
Um zun¨achst einen Eindruck von den r¨aumlichen Bedingungen der Stichprobenpunkte zu bekommen, werden die Standorte im Folgenden charakterisiert. Entsprechend der Trennung homogen mit Fichten besetzter Stichprobenpunkte von solchen mit heteroge-ner Baumartenausstattung, was f¨ur den Eingang in bin¨are logistische Regressionsmo-delle sp¨ater von Bedeutung ist, werden auch hier f¨ur jedes Gebiet jeweils zwei Datensets betrachtet.