Innerhalb des quantitativ arbeitenden Paradigmas werden außer einigen Ne
bengütekriterien vor allem die aus der klassischen Testtheorie und den Metho
denlehren der Sozialwissenschaften (z. B. American Psychological Association, 1998, 1999; Bortz, 1999; Lienert & Raatz, 1998) etablierten Hauptgütekriterien Objektivität, Reliabilität und Validität geltend gemacht.
Objektivität
Unter Objektivität ist nach Lienert und Raatz (1998, S. 7) der Grad zu verste
hen, ,,in dem die Ergebnisse eines Tests unabhängig vom Untersucher sind". Mit anderen Worten: Wer auch immer ein Datenerhebungsverfahren durchführt - ein anderer Untersuchender muss bei sonst gleichen Voraussetzungen zu denselben Ergebnissen kommen. Besonders objektive Verfahren wie z. B. Computerexpe
rimente minimieren bzw. standardisieren darum die Interaktion zwischen Unter
suchern und Untersuchten. Mit dem Ruf nach Objektivität liegt eine Minimalfor
derung an Datenerhebungsverfahren vor, denn ansonsten wären diese vollkom
men willkürlich. Für die einzelnen Phasen einer Untersuchung lässt sich die Ob
jektivität jeweils getrennt bestimmen. Zu unterscheiden sind in dieser Hinsicht Durchführungsobjektivität, Auswertungsobjektivität und Interpretationsobjekti
vität (Lienert & Raatz, 1998, S. 8).
Reliabilität
Das Gütekriterium der Reliabilität oder Zuverlässigkeit bezieht sich auf „die Genauigkeit, mit der Testergebnisse eine Eigenschaft erfassen, unabhängig da
von, ob der Test wirklich die Eigenschaft misst, die gemessen werden sollte"
(Grotjahn, 2000, S. 310). Folglich muss, um eine Vorstellung über die Reliabilität eines Verfahrens zu erhalten, insbesondere nach Messfehlern und anderen Fakto
ren, die das Messergebnis beeinflussen und die nicht mit der zu messenden Ei
genschaft identisch sind, gefahndet werden (Bachman, 1990, S. 160). Die Ge
samtreliabilität kann empirisch u. a. bestimmt werden, indem dieselbe Proban
dengruppe dasselbe Verfahren mindestens zweimal durchläuft (Retest-Reliabili
tät; vgl. z.B. Lienert & Raatz, 1998, S. 9), oder indem das Verfahren auf eine an
dere Probandengruppe mit denselben soziologischen Parametern angewendet wird (Paralleltest-Reliabilität; vgl. z.B. Lienert & Raatz, 1998, S. 9). In Zusam
menhang mit der Datenauswertung und -interpretation spricht man dann von In
terrater-Reliabilität, wenn mindestens zwei unterschiedliche Auswerter zu ver
gleichbaren Ergebnissen kommen (vgl. dazu ausführlich Wirtz & Caspar 2002).
Ansonsten lässt sich die Reliabilität wiederum getrennt für die Phasen der Daten
erhebung, der Auswertung und der Interpretation ermitteln. Reliable Verfahren zeichnen sich im Allgemeinen durch standardisierte Abläufe aus, wie z. B. die Sprachtests TOEFL oder TestDaF sowie durch den Einsatz einer präzisen Appa
ratur.
316 Empirische Pädagogik 2003, 17 (3), 312-331
Validität
Bei dem Gütekriterium der Validität werden in der einschlägigen Literatur un
terschiedliche Teilsaspekte differenziert. Unter interner Validität lässt sich mit Schnell, Hili und Esser (1995, S. 144) das Ausmaß verstehen, ,,in dem ein Unter
suchungsverfahren tatsächlich dasjenige misst, was es zu messen vorgibt" (siehe auch Bortz, 1999, S. 9). Die Eindeutigkeit der Ergebnisse ist dabei umso höher, je mehr Alternativerklärungen für einen beobachteten Messwert ausgeschlossen werden können. In der Praxis sind es vor allem Laborexperimente, die durch eine konsequente Kontrolle der potenziell wirksamen Variablen Alternativerklärungen ausschließen und so eine hohe interne Validität gewährleisten. Im Unterschied dazu intendiert das Kriterium der externen Validität die Verallgemeinerbarkeit der Ergebnisse. Diese fällt umso geringer aus, je spezieller die Untersuchungssi
tuation ist, d. h. je mehr potenziell wirksame Einflussfaktoren kontrolliert werden.
Den von den meisten Autoren als am wichtigsten angesehenen Aspekt stellt die Konstruktvalidität dar. Grotjahn (2000, S. 315) bestimmt sie als den Grad, in dem
„die beobachteten Testergebnisse gültige Indikatoren von zugrunde liegenden theoretischen Konstrukten sind" (vgl. dazu auch ausführlicher Finkbeiner, im Druck). Für die Konstruktvalidität eines Verfahrens ist es vor allem ausschlagge
bend, dass seine (häufig lediglich impliziten) theoretischen Voraussetzungen zu
treffend sind, d. h. logisch konsistent und empirisch plausibel. Um die Konstrukt
validität eines empirischen Verfahrens zu steigern, muss demzufolge eine starke Anbindung an als gültig anerkannte, empirisch nicht falsifizierte Theorien erfol
gen. Auf einer rein empirischen Ebene zielt die Übereinstimmungsvalidität (vgl.
z. B. Lienert & Raatz, 1998, S. 224) auf die Vereinbarkeit der Ergebnisse eines Verfahrens mit Ergebnissen aus einem anderen Verfahren. Ein Beispiel hierfür ist die weitreichende Entsprechung zwischen den Ergebnissen, die Probanden bei Sprachproduktionsaufgaben erzielen, und ihren Ergebnissen beim Ausfüllen von Lückentexten (z. B. eines C-Tests; vgl. hierzu Arras, Eckes & Grotjahn, 2002).
Eher von marginaler Bedeutung ist der Aspekt der Augenscheinvalidität (vgl.
z. B. Lienert & Raatz, 1998, S. 103). Er stellt eine Antwort auf die Frage dar, in
wieweit die Benutzer eines Verfahrens oder die Getesteten selbst meinen, dass dieses die zu erhebende Eigenschaft misst. Gemeinhin dürfte die Testform Auf
satz als Verfahren mit hoher Augenscheinvalidität gelten, insofern sie die Fähig
keit eines Probanden „misst", zu einem vorgegebenen Thema zusammenhän
gende, inhaltlich und pragmatisch angemessene sowie grammatisch akzeptable Texte zu verfassen - daher auch die weite Verbreitung dieser Testform.
Wie die kurze Vorstellung der drei Hauptgütekriterien zeigt, untergliedern sich diese in mehrere Unterkriterien und lassen allein deshalb die Einschätzung der
Güte eines Verfahrens als nicht-triviales Unterfangen erscheinen. Darüber hinaus müssen zusätzlich Abhängigkeiten zwischen den Gütekriterien berücksichtigt werden. So liegt es auf der Hand, dass nur ein objektives Verfahren zuverlässig, d. h. reliabel arbeiten kann. Wäre das Verfahren von der Person des Untersuchers abhängig, könnte man schwerlich von einem zuverlässigen V erfahren sprechen.
In analoger Weise ist ein Verfahren nur dann valide, wenn es zugleich reliabel ist.
Bei einem unzuverlässigen Verfahren ist es unmöglich zu erwarten, dass es die eigentlich zu erfassende Eigenschaft tatsächlich misst. Umgekehrt führt jedoch ein äußerst objektives Verfahren nicht zwangsläufig zu einer maximalen Reliabi
lität und ein äußerst reliables Verfahren nicht zwangsläufig zu einem Maximum an Validität. Vor allem sehr objektive und reliable Laboruntersuchungen bewir
ken durch die starke Kontrolle der Untersuchungssituation eine geringe Verall
gemeinerbarkeit der Ergebnisse und große Künstlichkeit. Beide sind der Gesamt
validität abträglich.
Weitere Aspekte von Gütekonzeptionen quantitativer Forschung
In Ergänzung zu den Hauptgütekriterien kommen noch Nebengütekriterien wie die Ökonomie eines Verfahrens, seine Praktikabilität oder seine Nützlichkeit in Betracht (vgl. z. B. Bachman & Palmer, 1996; Lienert & Raatz, 1998, S. 7-14).
Die drei letztgenannten Kriterien resultieren vorwiegend aus praktischen Erwä
gungen, etwa der Frage, welche Ressourcen für die Durchführung eines Verfah
rens eingesetzt werden müssen bzw. ob der Erkenntnisgewinn überhaupt in einem adäquaten Verhältnis zu den entstehenden Kosten steht (z. B. Personalkosten, Anschaffungskosten für Geräte und Materialien, Raummiete, Ausbildungskosten für Versuchsleiter, Kosten für die Design- und Materialentwicklung, Arbeitszeit usw.).
Angesichts der zahlreichen Aspekte, die bei der Bestimmung der Güte quanti
tativer Datenerhebungsverfahren Berücksichtigung finden können oder sogar müssen, haben Bachman und Palmer ein einheitliches Superkriterium vorge
schlagen, Nützlichkeit (usefulness). Dieses Kriterium integriert mehrere Einzel
kriterien und soll eine pauschale Einschätzung von Sprachtests ermöglichen. Als Einzelaspekte nennen die beiden Autoren Reliabilität, Konstruktvalidität, Au
thentizität, Interaktivität, ,,impact" sowie Praktikabilität (Bachman & Palmer, 1996,