Die Reliabilität oder Zuverlässigkeit eines Datenerhebungsverfahrens hängt vor allem mit Messfehlern und anderen Faktoren zusammen, die ein Messergebnis verfälschen. Bei der Frage nach der Reliabilität muss demzufolge nach entspre
chenden Fehlerquellen gefragt werden. Folgende sind denkbar:
Zufallsfehler in der Messung entziehen sich der unmittelbaren Kontrolle der Durchführenden (Finkbeiner, 1996, S. 40). Sie können jedoch bei quantitativen Verfahren gegebenenfalls mit Hilfe statistischer Tests identifiziert resp. kompen
siert werden. Außerdem steigt mit der Anzahl von Einzeldurchführungen die Wahrscheinlichkeit, dass sich solcherlei Fehler gegenseitig neutralisieren (,,her
ausmitteln").
lntraindividuell bedingte Versuchsleitereffekte führen gleichfalls zu einer nied
rigen Reliabilität. Hierunter sind Verhaltensabweichungen desselben Versuchs
leiters gegenüber verschiedenen Versuchspersonen zu verstehen. Beispielsweise berichten männliche Versuchsleiter darüber, weiblichen Versuchspersonen bei der Instruktion mehr Zeit zu widmen als männlichen.2 Umgekehrt ist bei weibli
chen Versuchsleiterinnen das ähnliche Phänomen anzunehmen. Wiederum lässt sich dieses Problem lösen, indem die Interaktion zwischen Versuchsleiter und Probanden weitestgehend reduziert respektive standardisiert wird (siehe oben).
2 Persönliche Mitteilung von Priv.-Doz. Dr. Dr. Horst M. Müller, Leiter der Arbeitsgruppe experimen
telle Neurolinguistik an der Fakultät für Linguistik und Literaturwissenschaft der Universität Biele
feld.
Die Zuverlässigkeit eines Datenerhebungsverfahrens hängt auch von der Art des Designs ab. Durchlaufen alle Teilnehmer eines Experiments alle experimen
tellen Bedingungen in derselben Reihenfolge, so ist mit Reihenfolgeeffekten zu rechnen. Dem kann durch die Ausbalancierung der experimentellen Bedingungen auf unterschiedliche Probandengruppen (z.B. mit Hilfe des so genannten Lateini
schen Quadrats3) oder einer randomisierten Zuweisung der Versuchspersonen zu den experimentellen Bedingungen entgegengewirkt werden.
Ein weiterer sensibler Punkt ist die Zuverlässigkeit der verwendeten Geräte und Software. Bei der Sammlung akustischer Daten sind vor allem Aufnahmege
räte eine wesentliche Voraussetzung für qualitativ hochwertige Daten. Unter Um
ständen kann die Datenqualität so dürftig sein, dass sich nicht die gewünschten Auswertungen vornehmen lassen (zum Beispiel analoge Audio-Aufnahrnen ge
sprochener Sprache, die für phonetische und prosodische Analysen nur be
schränkt taugen). Ansonsten finden Geräte häufig Einsatz bei der Datenaufberei
tung (beispielsweise bei einer Übertragung von Daten von einem Medium in ein anderes, einer Änderung von Datenformaten, der Segmentierung von Audio- oder Videodaten, der Transkription, der Annotation resp. dem Labelling, der Eingabe schriftlicher Daten in Datenbanken) und der Datenauswertung (beispielsweise de
skriptiv- oder inferenzstatistischer Berechnungen, Darstellung der Ergebnisse in Tabellen und Grafiken, Publikation im World Wide Web). Grundsätzlich ist anzu
streben, maximal präzise Instrumente einzusetzen. Eine Einschränkung für diese Richtlinie stellen vor allem praktische Gründe wie zu hohe Anschaffungs- und Betriebskosten oder die zu aufwendige Bedienung dar.
Auch die heterogene Beschaffenheit des Stimulusmaterials (z. B. verschiedene Texte, die von Versuchspersonen mündlich wiedergegeben werden sollen) ist eine ernstzunehmende Quelle von Störeffekten. Zur Herstellung von Struktur
gleichheit empfiehlt sich daher die Aufstellung von Kriterien, nach denen die ein
zelnen Exemplare des Materials beschaffen sein müssen. Auch auf Formulierun
gen ist sorgfältig zu achten, beispielsweise in Instruktionen oder bei Fragebogen
items (zu der Bezeichnung „ltem" vgl. Grotjahn, 2000). Die Merkmale des Sti
mulusmaterials betreffend neigen Versuchspersonen weiterhin offenbar stärker dazu, bei Fragebögen positive Formulierungen zu bejahen als die äquivalente ne
gative Formulierung zu verneinen (Gniech, 1976, S. 27). So genannte Halo-Ef
fekte manifestieren sich, wenn Versuchspersonen auf Grund vorangegangener Antworten oder Handlungen bei der Bearbeitung eines Test-Items beeinflusst
3 Lateinische Quadrate sind eine besondere Variante unvollständiger Versuchspläne, bei denen drei Faktoren die gleiche Anzahl an Faktorstufen aufweisen. In Bezug auf ihre Haupteffekte sind Lateini
sche Quadrate vollständig ausbalanciert (vgl. Bortz, 1999, S. 382-388).
324 Empirische Pädagogik 2003, 17 (3), 312-331 werden. Ebenso bestehen empirische Evidenzen für Positionseffekte, bei denen das Verhalten der Informanten von der Position eines Test-Items in der Untersu
chung abhängt (Gniech, 1976, S. 27). Durch eine ausbalancierte oder randomi
sierte Darbietung der einzelnen Test-ltems lassen sich solche Item-Positionsef
fekte sowie die genannten Halo-Effekte neutralisieren (diese Möglichkeit scheidet freilich bei Sprachtests aus, da die Teilnehmer hier aus Faimessgründen alle die gleichen Bedingungen vorfinden sollen). Zu berücksichtigen ist schließlich auch die soziale Erwünschtheit eines bestimmten Verhaltens durch die Probanden. Bei
spielsweise sollte kein halbwegs realistischer Versuchsplaner mit einer wahr
heitsgemäßen Beantwortung des Fragebogen-Items rechnen, ob der Informant schon einmal Steuern hinterzogen hat. Fragen dieses Typs sind im Allgemeinen zu vermeiden.
Unterschiedliche Ausprägungen des gemessenen Merkmals auf Grund unter
schiedlicher körperlicher oder psychischer Dispositionen der Probanden können dann auftreten, wenn Daten zu mehreren Zeitpunkten erhoben werden (Finkbei
ner, 1996, S. 40). Zu nennen sind bei den körperlichen Dispositionen Variablen wie Stress, Krankheit, Müdigkeit usw. und bei den psychischen Dispositionen Entspanntheit, Affekte, Motiviertheit usw. Auch wenn Versuchsleiter höchstens auf den letzten Aspekt einen gewissen Einfluss besitzen (beispielsweise durch eine überzeugende Darlegung der Wichtigkeit, an der Datenerhebung teilzuneh
men, oder durch die Zahlung einer Aufwandsentschädigung an die Teilnehmer wissenschaftlicher Untersuchungen), lohnt es sich in jedem Fall, entsprechende Beobachtungen systematisch zu dokumentieren. Nicht-erwartungsgemäße auffäl
lige Abweichungen der Messergebnisse lassen sich dann ex post facto erklären.
Da bei fremdsprachenspezifischen Datenerhebungen in der Regel der Faktor Spracherwerb maßgeblich wirksam ist, sollte die Durchführung von Quer
schnittserhebungen möglichst innerhalb eines kurzen Zeitraums stattfinden.
Zu berücksichtigen sind weiterhin bei den Versuchspersonen Übungseffekte, die sich aus dem steigenden Grad an Perfektion infolge der häufigen Ausübung derselben Aufgabe ergeben. Insbesondere bei relativ einfachen Aufgaben kann die Ausführung weitgehend automatisiert stattfinden (zur Automatisierungsprob
lematik vgl. Bärenfänger, 2002). In diesem Zusammenhang ist auf Lernkurven zu verweisen, bei denen sich die Schnelligkeit der Aufgabenausführung nach einer Phase des steilen Anstiegs auf einem Plateau stabilisiert. Um Übungseffekte als Fehlerquelle ausschließen zu können, kann eine Erhebung nach einer hinreichend langen Übungsphase mit der eigentlichen Messung beginnen.
Nicht eigentlich einen Störfaktor, aber eine möglicherweise das Messergebnis verzerrende Größe stellt der Anwendungsbereich eines Datenerhebungsverfahrens
dar. Es liegt auf der Hand, dass nicht jedes Verfahren für jeden Informanten gleich gut geeignet ist. Infolgedessen können soziobiologische Variablen wie Al
ter und Geschlecht, aber auch soziokulturelle Variablen wie Nationalität, Reli
gion, Herkunftskultur, Muttersprache, Mentalität, soziale Schicht usw. die Mess
ergebnisse verfälschen. Es ist zu erwarten, dass den soziologischen Parametern umso größere Wirkungen zukommen, je mehr Interaktionen mit anderen Men
schen (Versuchsleiter und andere Versuchsteilnehmer) die Informanten ausge
setzt sind. Demgegenüber sollten Computerexperimente, wo solche Interaktionen höchstens bei der Instruktion stattfinden, in geringerem Umfang von soziologi
schen Variablen beeinflusst sein. Ausblenden lassen sich diese aber nie völlig.
Weiterhin arbeitet ein Verfahren umso reliabler, je homogener die Gruppe der In
formanten beschaffen ist. Deren Zusammensetzung lässt sich über die genannten soziologischen Variablen steuern; dabei ist freilich zu bedenken, dass die Verall
gemeinerbarkeit der Ergebnisse beträchtlich sinkt, je homogener die Probanden
gruppe beschaffen ist. In jedem Fall müssen die soziologischen Variablen doku
mentiert werden, damit sie bei einer Interpretation der Ergebnisse unter Umstän
den als Moderatorvariablen (Bortz, 1999, S. 448) fungieren können.
Ähnlich wie die soziologischen Variablen können auch Jndividuenvariablen der Versuchspersonen Messergebnisse erheblich verzerren. Hierunter sind alle sonstigen personenbezogenen Faktoren zu verstehen wie die Persönlichkeit, die individuelle Lernbiographie, der Lernertyp, der Grad der Anpassung an die Ziel
kultur, der Kommunikationstyp (introvertiert vs. extravertiert), die Intelligenz oder individuelle attitudinale Faktoren (vgl. dazu den Forschungsbericht von Vollmer, Henrici, Finkbeiner, Grotjahn, Schmid-Schönbein & Zydatiß, 2001 ), der aktuelle Sprachstand, Medienkompetenz (z. B. bei Computerexperimenten) oder die Ver
trautheit mit der Aufgabe. Um diesbezügliche Verzerrungen der Ergebnisse zu vermeiden, bietet sich die Durchführung der Datenerhebung mit einer großen und möglichst heterogenen Probandengruppe an, bei der sich entsprechende Unter
schiede herausmitteln. Als Alternative kann auf der Basis der genannten Variab
len eine homogene Probandengruppe zusammengestellt werden.
Die Reliabilität der Auswertung ist vor allem über den Einsatz zuverlässiger Geräte und Software sicherzustellen sowie durch die Herstellung von Intersub
jektivität. Letzteres gilt wohl besonders für die Phase der Interpretation, aber na
türlich auch in der Planungsphase etwa in der Form von Expertentreffen.
326 Empirische Pädagogik 2003, 17(3),312-331