Reliabilitätsprobleme - 3 17.Jg Quartal

Die Reliabilität oder Zuverlässigkeit eines Datenerhebungsverfahrens hängt vor allem mit Messfehlern und anderen Faktoren zusammen, die ein Messergebnis verfälschen. Bei der Frage nach der Reliabilität muss demzufolge nach entspre

chenden Fehlerquellen gefragt werden. Folgende sind denkbar:

Zufallsfehler in der Messung entziehen sich der unmittelbaren Kontrolle der Durchführenden (Finkbeiner, 1996, S. 40). Sie können jedoch bei quantitativen Verfahren gegebenenfalls mit Hilfe statistischer Tests identifiziert resp. kompen

siert werden. Außerdem steigt mit der Anzahl von Einzeldurchführungen die Wahrscheinlichkeit, dass sich solcherlei Fehler gegenseitig neutralisieren (,,her

ausmitteln").

lntraindividuell bedingte Versuchsleitereffekte führen gleichfalls zu einer nied

rigen Reliabilität. Hierunter sind Verhaltensabweichungen desselben Versuchs

leiters gegenüber verschiedenen Versuchspersonen zu verstehen. Beispielsweise berichten männliche Versuchsleiter darüber, weiblichen Versuchspersonen bei der Instruktion mehr Zeit zu widmen als männlichen.²Umgekehrt ist bei weibli

chen Versuchsleiterinnen das ähnliche Phänomen anzunehmen. Wiederum lässt sich dieses Problem lösen, indem die Interaktion zwischen Versuchsleiter und Probanden weitestgehend reduziert respektive standardisiert wird (siehe oben).

2 Persönliche Mitteilung von Priv.-Doz. Dr. Dr. Horst M. Müller, Leiter der Arbeitsgruppe experimen

telle Neurolinguistik an der Fakultät für Linguistik und Literaturwissenschaft der Universität Biele

feld.

Die Zuverlässigkeit eines Datenerhebungsverfahrens hängt auch von der Art des Designs ab. Durchlaufen alle Teilnehmer eines Experiments alle experimen

tellen Bedingungen in derselben Reihenfolge, so ist mit Reihenfolgeeffekten zu rechnen. Dem kann durch die Ausbalancierung der experimentellen Bedingungen auf unterschiedliche Probandengruppen (z.B. mit Hilfe des so genannten Lateini

schen Quadrats³) oder einer randomisierten Zuweisung der Versuchspersonen zu den experimentellen Bedingungen entgegengewirkt werden.

Ein weiterer sensibler Punkt ist die Zuverlässigkeit der verwendeten Geräte und Software. Bei der Sammlung akustischer Daten sind vor allem Aufnahmege

räte eine wesentliche Voraussetzung für qualitativ hochwertige Daten. Unter Um

ständen kann die Datenqualität so dürftig sein, dass sich nicht die gewünschten Auswertungen vornehmen lassen (zum Beispiel analoge Audio-Aufnahrnen ge

sprochener Sprache, die für phonetische und prosodische Analysen nur be

schränkt taugen). Ansonsten finden Geräte häufig Einsatz bei der Datenaufberei

tung (beispielsweise bei einer Übertragung von Daten von einem Medium in ein anderes, einer Änderung von Datenformaten, der Segmentierung von Audio- oder Videodaten, der Transkription, der Annotation resp. dem Labelling, der Eingabe schriftlicher Daten in Datenbanken) und der Datenauswertung (beispielsweise de

skriptiv- oder inferenzstatistischer Berechnungen, Darstellung der Ergebnisse in Tabellen und Grafiken, Publikation im World Wide Web). Grundsätzlich ist anzu

streben, maximal präzise Instrumente einzusetzen. Eine Einschränkung für diese Richtlinie stellen vor allem praktische Gründe wie zu hohe Anschaffungs- und Betriebskosten oder die zu aufwendige Bedienung dar.

Auch die heterogene Beschaffenheit des Stimulusmaterials (z. B. verschiedene Texte, die von Versuchspersonen mündlich wiedergegeben werden sollen) ist eine ernstzunehmende Quelle von Störeffekten. Zur Herstellung von Struktur

gleichheit empfiehlt sich daher die Aufstellung von Kriterien, nach denen die ein

zelnen Exemplare des Materials beschaffen sein müssen. Auch auf Formulierun

gen ist sorgfältig zu achten, beispielsweise in Instruktionen oder bei Fragebogen

items (zu der Bezeichnung „ltem" vgl. Grotjahn, 2000). Die Merkmale des Sti

mulusmaterials betreffend neigen Versuchspersonen weiterhin offenbar stärker dazu, bei Fragebögen positive Formulierungen zu bejahen als die äquivalente ne

gative Formulierung zu verneinen (Gniech, 1976, S. 27). So genannte Halo-Ef

fekte manifestieren sich, wenn Versuchspersonen auf Grund vorangegangener Antworten oder Handlungen bei der Bearbeitung eines Test-Items beeinflusst

3 Lateinische Quadrate sind eine besondere Variante unvollständiger Versuchspläne, bei denen drei Faktoren die gleiche Anzahl an Faktorstufen aufweisen. In Bezug auf ihre Haupteffekte sind Lateini

sche Quadrate vollständig ausbalanciert (vgl. Bortz, 1999, S. 382-388).

324 Empirische Pädagogik 2003, 17 (3), 312-331 werden. Ebenso bestehen empirische Evidenzen für Positionseffekte, bei denen das Verhalten der Informanten von der Position eines Test-Items in der Untersu

chung abhängt (Gniech, 1976, S. 27). Durch eine ausbalancierte oder randomi

sierte Darbietung der einzelnen Test-ltems lassen sich solche Item-Positionsef

fekte sowie die genannten Halo-Effekte neutralisieren (diese Möglichkeit scheidet freilich bei Sprachtests aus, da die Teilnehmer hier aus Faimessgründen alle die gleichen Bedingungen vorfinden sollen). Zu berücksichtigen ist schließlich auch die soziale Erwünschtheit eines bestimmten Verhaltens durch die Probanden. Bei

spielsweise sollte kein halbwegs realistischer Versuchsplaner mit einer wahr

heitsgemäßen Beantwortung des Fragebogen-Items rechnen, ob der Informant schon einmal Steuern hinterzogen hat. Fragen dieses Typs sind im Allgemeinen zu vermeiden.

Unterschiedliche Ausprägungen des gemessenen Merkmals auf Grund unter

schiedlicher körperlicher oder psychischer Dispositionen der Probanden können dann auftreten, wenn Daten zu mehreren Zeitpunkten erhoben werden (Finkbei

ner, 1996, S. 40). Zu nennen sind bei den körperlichen Dispositionen Variablen wie Stress, Krankheit, Müdigkeit usw. und bei den psychischen Dispositionen Entspanntheit, Affekte, Motiviertheit usw. Auch wenn Versuchsleiter höchstens auf den letzten Aspekt einen gewissen Einfluss besitzen (beispielsweise durch eine überzeugende Darlegung der Wichtigkeit, an der Datenerhebung teilzuneh

men, oder durch die Zahlung einer Aufwandsentschädigung an die Teilnehmer wissenschaftlicher Untersuchungen), lohnt es sich in jedem Fall, entsprechende Beobachtungen systematisch zu dokumentieren. Nicht-erwartungsgemäße auffäl

lige Abweichungen der Messergebnisse lassen sich dann ex post facto erklären.

Da bei fremdsprachenspezifischen Datenerhebungen in der Regel der Faktor Spracherwerb maßgeblich wirksam ist, sollte die Durchführung von Quer

schnittserhebungen möglichst innerhalb eines kurzen Zeitraums stattfinden.

Zu berücksichtigen sind weiterhin bei den Versuchspersonen Übungseffekte, die sich aus dem steigenden Grad an Perfektion infolge der häufigen Ausübung derselben Aufgabe ergeben. Insbesondere bei relativ einfachen Aufgaben kann die Ausführung weitgehend automatisiert stattfinden (zur Automatisierungsprob

lematik vgl. Bärenfänger, 2002). In diesem Zusammenhang ist auf Lernkurven zu verweisen, bei denen sich die Schnelligkeit der Aufgabenausführung nach einer Phase des steilen Anstiegs auf einem Plateau stabilisiert. Um Übungseffekte als Fehlerquelle ausschließen zu können, kann eine Erhebung nach einer hinreichend langen Übungsphase mit der eigentlichen Messung beginnen.

Nicht eigentlich einen Störfaktor, aber eine möglicherweise das Messergebnis verzerrende Größe stellt der Anwendungsbereich eines Datenerhebungsverfahrens

dar. Es liegt auf der Hand, dass nicht jedes Verfahren für jeden Informanten gleich gut geeignet ist. Infolgedessen können soziobiologische Variablen wie Al

ter und Geschlecht, aber auch soziokulturelle Variablen wie Nationalität, Reli

gion, Herkunftskultur, Muttersprache, Mentalität, soziale Schicht usw. die Mess

ergebnisse verfälschen. Es ist zu erwarten, dass den soziologischen Parametern umso größere Wirkungen zukommen, je mehr Interaktionen mit anderen Men

schen (Versuchsleiter und andere Versuchsteilnehmer) die Informanten ausge

setzt sind. Demgegenüber sollten Computerexperimente, wo solche Interaktionen höchstens bei der Instruktion stattfinden, in geringerem Umfang von soziologi

schen Variablen beeinflusst sein. Ausblenden lassen sich diese aber nie völlig.

Weiterhin arbeitet ein Verfahren umso reliabler, je homogener die Gruppe der In

formanten beschaffen ist. Deren Zusammensetzung lässt sich über die genannten soziologischen Variablen steuern; dabei ist freilich zu bedenken, dass die Verall

gemeinerbarkeit der Ergebnisse beträchtlich sinkt, je homogener die Probanden

gruppe beschaffen ist. In jedem Fall müssen die soziologischen Variablen doku

mentiert werden, damit sie bei einer Interpretation der Ergebnisse unter Umstän

den als Moderatorvariablen (Bortz, 1999, S. 448) fungieren können.

Ähnlich wie die soziologischen Variablen können auch Jndividuenvariablen der Versuchspersonen Messergebnisse erheblich verzerren. Hierunter sind alle sonstigen personenbezogenen Faktoren zu verstehen wie die Persönlichkeit, die individuelle Lernbiographie, der Lernertyp, der Grad der Anpassung an die Ziel

kultur, der Kommunikationstyp (introvertiert vs. extravertiert), die Intelligenz oder individuelle attitudinale Faktoren (vgl. dazu den Forschungsbericht von Vollmer, Henrici, Finkbeiner, Grotjahn, Schmid-Schönbein & Zydatiß, 2001 ), der aktuelle Sprachstand, Medienkompetenz (z. B. bei Computerexperimenten) oder die Ver

trautheit mit der Aufgabe. Um diesbezügliche Verzerrungen der Ergebnisse zu vermeiden, bietet sich die Durchführung der Datenerhebung mit einer großen und möglichst heterogenen Probandengruppe an, bei der sich entsprechende Unter

schiede herausmitteln. Als Alternative kann auf der Basis der genannten Variab

len eine homogene Probandengruppe zusammengestellt werden.

Die Reliabilität der Auswertung ist vor allem über den Einsatz zuverlässiger Geräte und Software sicherzustellen sowie durch die Herstellung von Intersub

jektivität. Letzteres gilt wohl besonders für die Phase der Interpretation, aber na

türlich auch in der Planungsphase etwa in der Form von Expertentreffen.

326 Empirische Pädagogik 2003, 17(3),312-331

Im Dokument 3 17.Jg Quartal (Seite 44-48)