Gütekriterien der quantitativen Forschung

Innerhalb des quantitativ arbeitenden Paradigmas werden außer einigen Ne

bengütekriterien vor allem die aus der klassischen Testtheorie und den Metho

denlehren der Sozialwissenschaften (z. B. American Psychological Association, 1998, 1999; Bortz, 1999; Lienert & Raatz, 1998) etablierten Hauptgütekriterien Objektivität, Reliabilität und Validität geltend gemacht.

Objektivität

Unter Objektivität ist nach Lienert und Raatz (1998, S. 7) der Grad zu verste

hen, ,,in dem die Ergebnisse eines Tests unabhängig vom Untersucher sind". Mit anderen Worten: Wer auch immer ein Datenerhebungsverfahren durchführt - ein anderer Untersuchender muss bei sonst gleichen Voraussetzungen zu denselben Ergebnissen kommen. Besonders objektive Verfahren wie z. B. Computerexpe

rimente minimieren bzw. standardisieren darum die Interaktion zwischen Unter

suchern und Untersuchten. Mit dem Ruf nach Objektivität liegt eine Minimalfor

derung an Datenerhebungsverfahren vor, denn ansonsten wären diese vollkom

men willkürlich. Für die einzelnen Phasen einer Untersuchung lässt sich die Ob

jektivität jeweils getrennt bestimmen. Zu unterscheiden sind in dieser Hinsicht Durchführungsobjektivität, Auswertungsobjektivität und Interpretationsobjekti

vität (Lienert & Raatz, 1998, S. 8).

Reliabilität

Das Gütekriterium der Reliabilität oder Zuverlässigkeit bezieht sich auf „die Genauigkeit, mit der Testergebnisse eine Eigenschaft erfassen, unabhängig da

von, ob der Test wirklich die Eigenschaft misst, die gemessen werden sollte"

(Grotjahn, 2000, S. 310). Folglich muss, um eine Vorstellung über die Reliabilität eines Verfahrens zu erhalten, insbesondere nach Messfehlern und anderen Fakto

ren, die das Messergebnis beeinflussen und die nicht mit der zu messenden Ei

genschaft identisch sind, gefahndet werden (Bachman, 1990, S. 160). Die Ge

samtreliabilität kann empirisch u. a. bestimmt werden, indem dieselbe Proban

dengruppe dasselbe Verfahren mindestens zweimal durchläuft (Retest-Reliabili

tät; vgl. z.B. Lienert & Raatz, 1998, S. 9), oder indem das Verfahren auf eine an

dere Probandengruppe mit denselben soziologischen Parametern angewendet wird (Paralleltest-Reliabilität; vgl. z.B. Lienert & Raatz, 1998, S. 9). In Zusam

menhang mit der Datenauswertung und -interpretation spricht man dann von In

terrater-Reliabilität, wenn mindestens zwei unterschiedliche Auswerter zu ver

gleichbaren Ergebnissen kommen (vgl. dazu ausführlich Wirtz & Caspar 2002).

Ansonsten lässt sich die Reliabilität wiederum getrennt für die Phasen der Daten

erhebung, der Auswertung und der Interpretation ermitteln. Reliable Verfahren zeichnen sich im Allgemeinen durch standardisierte Abläufe aus, wie z. B. die Sprachtests TOEFL oder TestDaF sowie durch den Einsatz einer präzisen Appa

ratur.

316 Empirische Pädagogik 2003, 17 (3), 312-331

Validität

Bei dem Gütekriterium der Validität werden in der einschlägigen Literatur un

terschiedliche Teilsaspekte differenziert. Unter interner Validität lässt sich mit Schnell, Hili und Esser (1995, S. 144) das Ausmaß verstehen, ,,in dem ein Unter

suchungsverfahren tatsächlich dasjenige misst, was es zu messen vorgibt" (siehe auch Bortz, 1999, S. 9). Die Eindeutigkeit der Ergebnisse ist dabei umso höher, je mehr Alternativerklärungen für einen beobachteten Messwert ausgeschlossen werden können. In der Praxis sind es vor allem Laborexperimente, die durch eine konsequente Kontrolle der potenziell wirksamen Variablen Alternativerklärungen ausschließen und so eine hohe interne Validität gewährleisten. Im Unterschied dazu intendiert das Kriterium der externen Validität die Verallgemeinerbarkeit der Ergebnisse. Diese fällt umso geringer aus, je spezieller die Untersuchungssi

tuation ist, d. h. je mehr potenziell wirksame Einflussfaktoren kontrolliert werden.

Den von den meisten Autoren als am wichtigsten angesehenen Aspekt stellt die Konstruktvalidität dar. Grotjahn (2000, S. 315) bestimmt sie als den Grad, in dem

„die beobachteten Testergebnisse gültige Indikatoren von zugrunde liegenden theoretischen Konstrukten sind" (vgl. dazu auch ausführlicher Finkbeiner, im Druck). Für die Konstruktvalidität eines Verfahrens ist es vor allem ausschlagge

bend, dass seine (häufig lediglich impliziten) theoretischen Voraussetzungen zu

treffend sind, d. h. logisch konsistent und empirisch plausibel. Um die Konstrukt

validität eines empirischen Verfahrens zu steigern, muss demzufolge eine starke Anbindung an als gültig anerkannte, empirisch nicht falsifizierte Theorien erfol

gen. Auf einer rein empirischen Ebene zielt die Übereinstimmungsvalidität (vgl.

z. B. Lienert & Raatz, 1998, S. 224) auf die Vereinbarkeit der Ergebnisse eines Verfahrens mit Ergebnissen aus einem anderen Verfahren. Ein Beispiel hierfür ist die weitreichende Entsprechung zwischen den Ergebnissen, die Probanden bei Sprachproduktionsaufgaben erzielen, und ihren Ergebnissen beim Ausfüllen von Lückentexten (z. B. eines C-Tests; vgl. hierzu Arras, Eckes & Grotjahn, 2002).

Eher von marginaler Bedeutung ist der Aspekt der Augenscheinvalidität (vgl.

z. B. Lienert & Raatz, 1998, S. 103). Er stellt eine Antwort auf die Frage dar, in

wieweit die Benutzer eines Verfahrens oder die Getesteten selbst meinen, dass dieses die zu erhebende Eigenschaft misst. Gemeinhin dürfte die Testform Auf

satz als Verfahren mit hoher Augenscheinvalidität gelten, insofern sie die Fähig

keit eines Probanden „misst", zu einem vorgegebenen Thema zusammenhän

gende, inhaltlich und pragmatisch angemessene sowie grammatisch akzeptable Texte zu verfassen - daher auch die weite Verbreitung dieser Testform.

Wie die kurze Vorstellung der drei Hauptgütekriterien zeigt, untergliedern sich diese in mehrere Unterkriterien und lassen allein deshalb die Einschätzung der

Güte eines Verfahrens als nicht-triviales Unterfangen erscheinen. Darüber hinaus müssen zusätzlich Abhängigkeiten zwischen den Gütekriterien berücksichtigt werden. So liegt es auf der Hand, dass nur ein objektives Verfahren zuverlässig, d. h. reliabel arbeiten kann. Wäre das Verfahren von der Person des Untersuchers abhängig, könnte man schwerlich von einem zuverlässigen V erfahren sprechen.

In analoger Weise ist ein Verfahren nur dann valide, wenn es zugleich reliabel ist.

Bei einem unzuverlässigen Verfahren ist es unmöglich zu erwarten, dass es die eigentlich zu erfassende Eigenschaft tatsächlich misst. Umgekehrt führt jedoch ein äußerst objektives Verfahren nicht zwangsläufig zu einer maximalen Reliabi

lität und ein äußerst reliables Verfahren nicht zwangsläufig zu einem Maximum an Validität. Vor allem sehr objektive und reliable Laboruntersuchungen bewir

ken durch die starke Kontrolle der Untersuchungssituation eine geringe Verall

gemeinerbarkeit der Ergebnisse und große Künstlichkeit. Beide sind der Gesamt

validität abträglich.

Weitere Aspekte von Gütekonzeptionen quantitativer Forschung

In Ergänzung zu den Hauptgütekriterien kommen noch Nebengütekriterien wie die Ökonomie eines Verfahrens, seine Praktikabilität oder seine Nützlichkeit in Betracht (vgl. z. B. Bachman & Palmer, 1996; Lienert & Raatz, 1998, S. 7-14).

Die drei letztgenannten Kriterien resultieren vorwiegend aus praktischen Erwä

gungen, etwa der Frage, welche Ressourcen für die Durchführung eines Verfah

rens eingesetzt werden müssen bzw. ob der Erkenntnisgewinn überhaupt in einem adäquaten Verhältnis zu den entstehenden Kosten steht (z. B. Personalkosten, Anschaffungskosten für Geräte und Materialien, Raummiete, Ausbildungskosten für Versuchsleiter, Kosten für die Design- und Materialentwicklung, Arbeitszeit usw.).

Angesichts der zahlreichen Aspekte, die bei der Bestimmung der Güte quanti

tativer Datenerhebungsverfahren Berücksichtigung finden können oder sogar müssen, haben Bachman und Palmer ein einheitliches Superkriterium vorge

schlagen, Nützlichkeit (usefulness). Dieses Kriterium integriert mehrere Einzel

kriterien und soll eine pauschale Einschätzung von Sprachtests ermöglichen. Als Einzelaspekte nennen die beiden Autoren Reliabilität, Konstruktvalidität, Au

thentizität, Interaktivität, ,,impact" sowie Praktikabilität (Bachman & Palmer, 1996,

s.

^17-42).

Im Dokument 3 17.Jg Quartal (Seite 36-39)