• Keine Ergebnisse gefunden

Gütekriterien der quantitativen Forschung

Im Dokument 3 17.Jg Quartal (Seite 36-39)

Innerhalb des quantitativ arbeitenden Paradigmas werden außer einigen Ne­

bengütekriterien vor allem die aus der klassischen Testtheorie und den Metho­

denlehren der Sozialwissenschaften (z. B. American Psychological Association, 1998, 1999; Bortz, 1999; Lienert & Raatz, 1998) etablierten Hauptgütekriterien Objektivität, Reliabilität und Validität geltend gemacht.

Objektivität

Unter Objektivität ist nach Lienert und Raatz (1998, S. 7) der Grad zu verste­

hen, ,,in dem die Ergebnisse eines Tests unabhängig vom Untersucher sind". Mit anderen Worten: Wer auch immer ein Datenerhebungsverfahren durchführt - ein anderer Untersuchender muss bei sonst gleichen Voraussetzungen zu denselben Ergebnissen kommen. Besonders objektive Verfahren wie z. B. Computerexpe­

rimente minimieren bzw. standardisieren darum die Interaktion zwischen Unter­

suchern und Untersuchten. Mit dem Ruf nach Objektivität liegt eine Minimalfor­

derung an Datenerhebungsverfahren vor, denn ansonsten wären diese vollkom­

men willkürlich. Für die einzelnen Phasen einer Untersuchung lässt sich die Ob­

jektivität jeweils getrennt bestimmen. Zu unterscheiden sind in dieser Hinsicht Durchführungsobjektivität, Auswertungsobjektivität und Interpretationsobjekti­

vität (Lienert & Raatz, 1998, S. 8).

Reliabilität

Das Gütekriterium der Reliabilität oder Zuverlässigkeit bezieht sich auf „die Genauigkeit, mit der Testergebnisse eine Eigenschaft erfassen, unabhängig da­

von, ob der Test wirklich die Eigenschaft misst, die gemessen werden sollte"

(Grotjahn, 2000, S. 310). Folglich muss, um eine Vorstellung über die Reliabilität eines Verfahrens zu erhalten, insbesondere nach Messfehlern und anderen Fakto­

ren, die das Messergebnis beeinflussen und die nicht mit der zu messenden Ei­

genschaft identisch sind, gefahndet werden (Bachman, 1990, S. 160). Die Ge­

samtreliabilität kann empirisch u. a. bestimmt werden, indem dieselbe Proban­

dengruppe dasselbe Verfahren mindestens zweimal durchläuft (Retest-Reliabili­

tät; vgl. z.B. Lienert & Raatz, 1998, S. 9), oder indem das Verfahren auf eine an­

dere Probandengruppe mit denselben soziologischen Parametern angewendet wird (Paralleltest-Reliabilität; vgl. z.B. Lienert & Raatz, 1998, S. 9). In Zusam­

menhang mit der Datenauswertung und -interpretation spricht man dann von In­

terrater-Reliabilität, wenn mindestens zwei unterschiedliche Auswerter zu ver­

gleichbaren Ergebnissen kommen (vgl. dazu ausführlich Wirtz & Caspar 2002).

Ansonsten lässt sich die Reliabilität wiederum getrennt für die Phasen der Daten­

erhebung, der Auswertung und der Interpretation ermitteln. Reliable Verfahren zeichnen sich im Allgemeinen durch standardisierte Abläufe aus, wie z. B. die Sprachtests TOEFL oder TestDaF sowie durch den Einsatz einer präzisen Appa­

ratur.

316 Empirische Pädagogik 2003, 17 (3), 312-331

Validität

Bei dem Gütekriterium der Validität werden in der einschlägigen Literatur un­

terschiedliche Teilsaspekte differenziert. Unter interner Validität lässt sich mit Schnell, Hili und Esser (1995, S. 144) das Ausmaß verstehen, ,,in dem ein Unter­

suchungsverfahren tatsächlich dasjenige misst, was es zu messen vorgibt" (siehe auch Bortz, 1999, S. 9). Die Eindeutigkeit der Ergebnisse ist dabei umso höher, je mehr Alternativerklärungen für einen beobachteten Messwert ausgeschlossen werden können. In der Praxis sind es vor allem Laborexperimente, die durch eine konsequente Kontrolle der potenziell wirksamen Variablen Alternativerklärungen ausschließen und so eine hohe interne Validität gewährleisten. Im Unterschied dazu intendiert das Kriterium der externen Validität die Verallgemeinerbarkeit der Ergebnisse. Diese fällt umso geringer aus, je spezieller die Untersuchungssi­

tuation ist, d. h. je mehr potenziell wirksame Einflussfaktoren kontrolliert werden.

Den von den meisten Autoren als am wichtigsten angesehenen Aspekt stellt die Konstruktvalidität dar. Grotjahn (2000, S. 315) bestimmt sie als den Grad, in dem

„die beobachteten Testergebnisse gültige Indikatoren von zugrunde liegenden theoretischen Konstrukten sind" (vgl. dazu auch ausführlicher Finkbeiner, im Druck). Für die Konstruktvalidität eines Verfahrens ist es vor allem ausschlagge­

bend, dass seine (häufig lediglich impliziten) theoretischen Voraussetzungen zu­

treffend sind, d. h. logisch konsistent und empirisch plausibel. Um die Konstrukt­

validität eines empirischen Verfahrens zu steigern, muss demzufolge eine starke Anbindung an als gültig anerkannte, empirisch nicht falsifizierte Theorien erfol­

gen. Auf einer rein empirischen Ebene zielt die Übereinstimmungsvalidität (vgl.

z. B. Lienert & Raatz, 1998, S. 224) auf die Vereinbarkeit der Ergebnisse eines Verfahrens mit Ergebnissen aus einem anderen Verfahren. Ein Beispiel hierfür ist die weitreichende Entsprechung zwischen den Ergebnissen, die Probanden bei Sprachproduktionsaufgaben erzielen, und ihren Ergebnissen beim Ausfüllen von Lückentexten (z. B. eines C-Tests; vgl. hierzu Arras, Eckes & Grotjahn, 2002).

Eher von marginaler Bedeutung ist der Aspekt der Augenscheinvalidität (vgl.

z. B. Lienert & Raatz, 1998, S. 103). Er stellt eine Antwort auf die Frage dar, in­

wieweit die Benutzer eines Verfahrens oder die Getesteten selbst meinen, dass dieses die zu erhebende Eigenschaft misst. Gemeinhin dürfte die Testform Auf­

satz als Verfahren mit hoher Augenscheinvalidität gelten, insofern sie die Fähig­

keit eines Probanden „misst", zu einem vorgegebenen Thema zusammenhän­

gende, inhaltlich und pragmatisch angemessene sowie grammatisch akzeptable Texte zu verfassen - daher auch die weite Verbreitung dieser Testform.

Wie die kurze Vorstellung der drei Hauptgütekriterien zeigt, untergliedern sich diese in mehrere Unterkriterien und lassen allein deshalb die Einschätzung der

Güte eines Verfahrens als nicht-triviales Unterfangen erscheinen. Darüber hinaus müssen zusätzlich Abhängigkeiten zwischen den Gütekriterien berücksichtigt werden. So liegt es auf der Hand, dass nur ein objektives Verfahren zuverlässig, d. h. reliabel arbeiten kann. Wäre das Verfahren von der Person des Untersuchers abhängig, könnte man schwerlich von einem zuverlässigen V erfahren sprechen.

In analoger Weise ist ein Verfahren nur dann valide, wenn es zugleich reliabel ist.

Bei einem unzuverlässigen Verfahren ist es unmöglich zu erwarten, dass es die eigentlich zu erfassende Eigenschaft tatsächlich misst. Umgekehrt führt jedoch ein äußerst objektives Verfahren nicht zwangsläufig zu einer maximalen Reliabi­

lität und ein äußerst reliables Verfahren nicht zwangsläufig zu einem Maximum an Validität. Vor allem sehr objektive und reliable Laboruntersuchungen bewir­

ken durch die starke Kontrolle der Untersuchungssituation eine geringe Verall­

gemeinerbarkeit der Ergebnisse und große Künstlichkeit. Beide sind der Gesamt­

validität abträglich.

Weitere Aspekte von Gütekonzeptionen quantitativer Forschung

In Ergänzung zu den Hauptgütekriterien kommen noch Nebengütekriterien wie die Ökonomie eines Verfahrens, seine Praktikabilität oder seine Nützlichkeit in Betracht (vgl. z. B. Bachman & Palmer, 1996; Lienert & Raatz, 1998, S. 7-14).

Die drei letztgenannten Kriterien resultieren vorwiegend aus praktischen Erwä­

gungen, etwa der Frage, welche Ressourcen für die Durchführung eines Verfah­

rens eingesetzt werden müssen bzw. ob der Erkenntnisgewinn überhaupt in einem adäquaten Verhältnis zu den entstehenden Kosten steht (z. B. Personalkosten, Anschaffungskosten für Geräte und Materialien, Raummiete, Ausbildungskosten für Versuchsleiter, Kosten für die Design- und Materialentwicklung, Arbeitszeit usw.).

Angesichts der zahlreichen Aspekte, die bei der Bestimmung der Güte quanti­

tativer Datenerhebungsverfahren Berücksichtigung finden können oder sogar müssen, haben Bachman und Palmer ein einheitliches Superkriterium vorge­

schlagen, Nützlichkeit (usefulness). Dieses Kriterium integriert mehrere Einzel­

kriterien und soll eine pauschale Einschätzung von Sprachtests ermöglichen. Als Einzelaspekte nennen die beiden Autoren Reliabilität, Konstruktvalidität, Au­

thentizität, Interaktivität, ,,impact" sowie Praktikabilität (Bachman & Palmer, 1996,

s.

17-42).

Im Dokument 3 17.Jg Quartal (Seite 36-39)