• Keine Ergebnisse gefunden

2 Datenmaterial, Datenaufbereitung und Organisation der D esig n-M atrix

2.3 Die Elimination von Missing V alues

In Tab. 3 sind die Stationen aufgefuhrt, bei denen überhaupt keine Fangtätigkeit stattgefunden hat (komplette Fehlstationen). Die Anzahlen schwanken zwischen 6 und 17 pro Jahr. Diese Stationen wurden vor weiteren statistischen Untersuchungen aus dem Datensatz entfernt.

Das Fanggewicht pro Jahr und Art weist im Durchschnitt wesentlich mehr als 5% Fehlwerte ("Missing Values") auf. Nach Steinhausen & Langer [1977] bzw. Hand [1989] ist eine Fehlzahl von mehr als 5-10% Werten aus statistischer Sicht nicht mehr in vernünftiger Weise rekon­

struierbar. Aus diesem Grunde wird bei sämtlichen Analysen ausschließlich auf die Information Tab. 2 Datenmatrix mit den Fangzahlen der 14

selektierten Arten (IYFS, 1983, skizzier­

ter Ausschnitt).

Art 1 Art 2 A lt 14

Station 1 186 0 0

Station 2 90 0 0

Station 449 8220 3 . .. 3

Tab. 3 Anzahl befischter und nichtbefischter Statio­

nen.

aus den Fangzahlen (Abundanzen, Individuenzahlen) zu­

rückgegriffen; um dabei Probleme der Interpretierbarkeit von Ergebnissen bzw. Probleme mit Rücktransformationen zu vermeiden, werden in dieser Arbeit ausschließlich die untransformierten (original belassenen) Abundanzen ver­

arbeitet. Allerdings weisen auch die Individuenzahlen einige Fehlwerte auf. Man ersieht aus Tab. 4 jedoch, daß ihr An­

teil weit unter 5% bleibt. Sie sind damit rekonstruierbar.

Ähnliche Missing-Value-Probleme gelten auch für die bei­

den Variablen "Temperatur" und "Salzgehalt", die mit weit mehr als 30% entweder überhaupt nicht gemessen worden sind (Statuscode - "9999") oder nicht im vorliegenden Da­

tensatz erscheinen (Statuscode = "8888"). Aus diesem Grunde stehen beide Größen für eine unmittelbare Einbe­

ziehung in statistische Analysen im Zuge der

Re-Stratifizie-rung nicht zur Verfügung. Allerdings lassen sie sich nach geeigneter Informations-Bündelung für statistische Untersuchungen auf der Basis von ANOVAs verwenden (Kap. 3).

Jahr nicht entweder mindestens 14 als rele­

vant identifizierte Fangzahlen im Falle einer Stationselimination oder aber z.B. für das Jahr 1988 mindestens 425 Werte im Falle einer Artenelimination), ist es notwendig, eine D aten-Restaura- tion vorzunehmen.

A rtfm = berechnete Fangtahl der betroffenen Art

ein iterationsschritt vor der Schätzung von Arttmck Artf** - berechnete Fangzahl der betroffenen Art

ein beratkmnchritt nach der Schätzung von Art"

(2) Das Fanggewicht als Anhaltspunkt für die Anzahlhöhe in die Daten- rekonstruktion einzubeziehen, ist

deshalb nicht möglich, weil auf den Stationen mit fehlenden Abundanzen auch gleichzeitig die Fangewichte der betreffenden Art fehlen. Aus diesem Grunde folgt das hier verwendete Rekon­

struktionsverfahren der Prozedur nach Hand [1989] bzw. nach Steinhausen & Langer [1977].

Dabei wird für die betroffene Fischart zunächst eine relativ hohe Korrelation (größer als 0.5 absolut) zu einer anderen der 14 selektierten Arten oder der Variablen "Fangtiefe" (im folgen­

den immer als Tiefe bezeichnet) gesucht. Dann wird das arithmetische Mittel aller Fangzahlen der betroffenen Fischart für das entsprechende Jahr in die "Missing value"-Station(en)

Tab. 4 %-Anteil (Absolut-Anteil) Missing Values im Bereich der Stückzahlen. Die %-An- teile sind auf die jeweiligen Gesamtzahlen der Fang-Stationen pro Jahr bezogen, die in () unter den korrespondierenden Jahreszahlen stehen.

Art 1983 1984 1985 1986 1987 1988

(449) (472) (536) (550) (559) (425)

-eingesetzt, und anschließend eine Regressionsschätzung mit der hochkorrelierten anderen Varia­

blen, Art oder Tiefe, gemacht. Danach wird (werden) für die "Missing value"-Station(en) eine Prognose-Schätzung (Ex-Post-Prognose) durchgeführt, deren Werte nun wiederum in die be­

treff ene(n) Station(en) der entsprechenden Fischart eingesetzt werden. Diese Iteration wird solange wiederholt, bis die Prognose-Schätzung einen vemachlässigbar kleinen Fehler aufweist.

In der Regel wird dieser Fall schon nach drei Iterationsdurchgängen erreicht: die Modellab­

weichung in Formel (2) liegt dann an den entsprechenden Stellen, sprich Stationen der betroffe­

nen Art, schon recht nahe bei Null. Tab. 5 zeigt die auf diese Weise ersetzten Missing Values.

Alle dort angegebenen Werte für J?2 sind signifikant, da sämtliche Nullhypothesen (R 1- 0) bei sehr hohen Freiheitsgraden ( N ~ 500) sowohl auf dem 5%- als auch auf dem 1%-Signifikanzni- veau abgelehnt werden.

Tab. 5 Tabelle der auf der Basis von nichtparametrischen Korrelations- und Regressions­

schätzungen rekonstruierten Missing Values (IYFS, 1983 - 1988). Artennamen siehe

"Extrablatt".

Jahr Art Miss. Val.

Station

korrelierte Variable

R* (Spearman)

geschätzte

Fangzahl V

1983 5 54 Art 10 0.75352 194 0.00000

12 56 Art 1 0.68542 839 0.00001

1984 1 48 Art 12 0.59676 1546 0.00000

6 48 Art 13 0.76701 720 0.00001

6 79 n _ n _ 720 0.00001

1985 1 53 Art 12 0.56203 2817 0.00000

6 53 Tiefe 0.80897 605 0.00000

1986 7 42 Art 4 0.57180 690 0.00003

7 90 n H 690 0.00003

1987 6 62 Tiefe 0.83352 869 0.00010

6 285 _ f» __ _ n _ 1638 -0.00020

9 128 Art 10 0.60015 13 0.00000

12 109 Tiefe -0.59684 3001 0.00002

13 168 Tiefe 0.79275 2482 -0.00008

1988 6 22 Tiefe 0.78923 500 0.00000

Für die Berechnung der Korrelation dient das nicht-parametrische Rang-Korrelations-Ver­

fahren nach Spearman [Büning & Trenkler, 1978], da dieses keinerlei Verteüungs-Restriktionen impliziert. Grundsätzlich besteht in der vorliegenden Arbeit das Bestreben, möglichst solche statistischen Analysemethoden zu verwenden, die nur wenige Voraussetzungen bezüglich Fang­

verteilungen implizieren, da man diese erstens nicht kennt und zweitens erst nach Abschluß der Re-Stratifizierung bzw. Clusterung dazu übergehen darf, solche Fangverteilungen für homogene Bereiche zu bestimmen. Das läßt sich jedoch nicht immer bis zur letzten Konsequenz realisieren und wird dann an den entsprechenden Stellen angemerkt.

In diesem Zusammenhang sei auch darauf hingewiesen, daß in dem oben geschilderten iterativen Regressions- Verfahren die sonst üblichen Restriktionen des linearen Modells nicht überprüft werden müssen, da hier keinerlei statistische Signifikanztests gemacht werden. Das hängt damit zusammen, daß immer nur jeweils eine höher-kor- relierte Art oder die Tiefe als unabhängige Variable in die Regression einbezogen wird, sodaß keine Variablen­

selektion wie im multiplen Fall mit all ihren statistischen Tests durchgeführt werden muß [Neter et al., 1985;

Dhiymes, 1985; Hansen, 1989a],

Varianz-ReduititMS-■= Grad der Verzerrung (3) UfidB

N = Anzahl sämtlicher Stationen M - Anzahl Missmg-Vabie-äatkmen

Konnten jedoch keine hohen Korrelationen, d.h. Werte des Spearman'sehen Korrelationskoeffizienten mit mehr als absolut 0.5, festgestellt werden, so ist einfach nur das arithmetische Mittel der jeweiligen Art als Wert für die fehlende Fangzahl an den entsprechenden Fehlstationen eingesetzt worden. Das Verfahren ist aus statistischer Sicht zwar nicht so günstig wie die iterative Regression, verändert aber wenigstens nicht das arithmetische Ge­

samt-Mittel der betroffenen Fischart pro Jahr. Es hat allerdings eine künstliche Reduktion der Stichprobenvarianz um den Faktor zur Folge, wie er sich in Gleichung (3) darstellt.

Da die Stichprobenfänge in der Regel aber recht groß sind, die Anzahl der Missing Values hin­

gegen sehr klein, wird der Verzemmgsfaktor in Formel (3) nahe bei 1 liegen und die Verzerrung deshalb nur eine untergeordnete Rolle spielen. Tab. 6 zeigt die auf der Mittelwert-Substitution beruhende Rekonstruktion von Missing Values.

DATENMATERIAL