• Keine Ergebnisse gefunden

Reliabilitätsprobleme

Im Dokument 3 17.Jg Quartal (Seite 44-48)

Die Reliabilität oder Zuverlässigkeit eines Datenerhebungsverfahrens hängt vor allem mit Messfehlern und anderen Faktoren zusammen, die ein Messergebnis verfälschen. Bei der Frage nach der Reliabilität muss demzufolge nach entspre­

chenden Fehlerquellen gefragt werden. Folgende sind denkbar:

Zufallsfehler in der Messung entziehen sich der unmittelbaren Kontrolle der Durchführenden (Finkbeiner, 1996, S. 40). Sie können jedoch bei quantitativen Verfahren gegebenenfalls mit Hilfe statistischer Tests identifiziert resp. kompen­

siert werden. Außerdem steigt mit der Anzahl von Einzeldurchführungen die Wahrscheinlichkeit, dass sich solcherlei Fehler gegenseitig neutralisieren (,,her­

ausmitteln").

lntraindividuell bedingte Versuchsleitereffekte führen gleichfalls zu einer nied­

rigen Reliabilität. Hierunter sind Verhaltensabweichungen desselben Versuchs­

leiters gegenüber verschiedenen Versuchspersonen zu verstehen. Beispielsweise berichten männliche Versuchsleiter darüber, weiblichen Versuchspersonen bei der Instruktion mehr Zeit zu widmen als männlichen.2 Umgekehrt ist bei weibli­

chen Versuchsleiterinnen das ähnliche Phänomen anzunehmen. Wiederum lässt sich dieses Problem lösen, indem die Interaktion zwischen Versuchsleiter und Probanden weitestgehend reduziert respektive standardisiert wird (siehe oben).

2 Persönliche Mitteilung von Priv.-Doz. Dr. Dr. Horst M. Müller, Leiter der Arbeitsgruppe experimen­

telle Neurolinguistik an der Fakultät für Linguistik und Literaturwissenschaft der Universität Biele­

feld.

Die Zuverlässigkeit eines Datenerhebungsverfahrens hängt auch von der Art des Designs ab. Durchlaufen alle Teilnehmer eines Experiments alle experimen­

tellen Bedingungen in derselben Reihenfolge, so ist mit Reihenfolgeeffekten zu rechnen. Dem kann durch die Ausbalancierung der experimentellen Bedingungen auf unterschiedliche Probandengruppen (z.B. mit Hilfe des so genannten Lateini­

schen Quadrats3) oder einer randomisierten Zuweisung der Versuchspersonen zu den experimentellen Bedingungen entgegengewirkt werden.

Ein weiterer sensibler Punkt ist die Zuverlässigkeit der verwendeten Geräte und Software. Bei der Sammlung akustischer Daten sind vor allem Aufnahmege­

räte eine wesentliche Voraussetzung für qualitativ hochwertige Daten. Unter Um­

ständen kann die Datenqualität so dürftig sein, dass sich nicht die gewünschten Auswertungen vornehmen lassen (zum Beispiel analoge Audio-Aufnahrnen ge­

sprochener Sprache, die für phonetische und prosodische Analysen nur be­

schränkt taugen). Ansonsten finden Geräte häufig Einsatz bei der Datenaufberei­

tung (beispielsweise bei einer Übertragung von Daten von einem Medium in ein anderes, einer Änderung von Datenformaten, der Segmentierung von Audio- oder Videodaten, der Transkription, der Annotation resp. dem Labelling, der Eingabe schriftlicher Daten in Datenbanken) und der Datenauswertung (beispielsweise de­

skriptiv- oder inferenzstatistischer Berechnungen, Darstellung der Ergebnisse in Tabellen und Grafiken, Publikation im World Wide Web). Grundsätzlich ist anzu­

streben, maximal präzise Instrumente einzusetzen. Eine Einschränkung für diese Richtlinie stellen vor allem praktische Gründe wie zu hohe Anschaffungs- und Betriebskosten oder die zu aufwendige Bedienung dar.

Auch die heterogene Beschaffenheit des Stimulusmaterials (z. B. verschiedene Texte, die von Versuchspersonen mündlich wiedergegeben werden sollen) ist eine ernstzunehmende Quelle von Störeffekten. Zur Herstellung von Struktur­

gleichheit empfiehlt sich daher die Aufstellung von Kriterien, nach denen die ein­

zelnen Exemplare des Materials beschaffen sein müssen. Auch auf Formulierun­

gen ist sorgfältig zu achten, beispielsweise in Instruktionen oder bei Fragebogen­

items (zu der Bezeichnung „ltem" vgl. Grotjahn, 2000). Die Merkmale des Sti­

mulusmaterials betreffend neigen Versuchspersonen weiterhin offenbar stärker dazu, bei Fragebögen positive Formulierungen zu bejahen als die äquivalente ne­

gative Formulierung zu verneinen (Gniech, 1976, S. 27). So genannte Halo-Ef­

fekte manifestieren sich, wenn Versuchspersonen auf Grund vorangegangener Antworten oder Handlungen bei der Bearbeitung eines Test-Items beeinflusst

3 Lateinische Quadrate sind eine besondere Variante unvollständiger Versuchspläne, bei denen drei Faktoren die gleiche Anzahl an Faktorstufen aufweisen. In Bezug auf ihre Haupteffekte sind Lateini­

sche Quadrate vollständig ausbalanciert (vgl. Bortz, 1999, S. 382-388).

324 Empirische Pädagogik 2003, 17 (3), 312-331 werden. Ebenso bestehen empirische Evidenzen für Positionseffekte, bei denen das Verhalten der Informanten von der Position eines Test-Items in der Untersu­

chung abhängt (Gniech, 1976, S. 27). Durch eine ausbalancierte oder randomi­

sierte Darbietung der einzelnen Test-ltems lassen sich solche Item-Positionsef­

fekte sowie die genannten Halo-Effekte neutralisieren (diese Möglichkeit scheidet freilich bei Sprachtests aus, da die Teilnehmer hier aus Faimessgründen alle die gleichen Bedingungen vorfinden sollen). Zu berücksichtigen ist schließlich auch die soziale Erwünschtheit eines bestimmten Verhaltens durch die Probanden. Bei­

spielsweise sollte kein halbwegs realistischer Versuchsplaner mit einer wahr­

heitsgemäßen Beantwortung des Fragebogen-Items rechnen, ob der Informant schon einmal Steuern hinterzogen hat. Fragen dieses Typs sind im Allgemeinen zu vermeiden.

Unterschiedliche Ausprägungen des gemessenen Merkmals auf Grund unter­

schiedlicher körperlicher oder psychischer Dispositionen der Probanden können dann auftreten, wenn Daten zu mehreren Zeitpunkten erhoben werden (Finkbei­

ner, 1996, S. 40). Zu nennen sind bei den körperlichen Dispositionen Variablen wie Stress, Krankheit, Müdigkeit usw. und bei den psychischen Dispositionen Entspanntheit, Affekte, Motiviertheit usw. Auch wenn Versuchsleiter höchstens auf den letzten Aspekt einen gewissen Einfluss besitzen (beispielsweise durch eine überzeugende Darlegung der Wichtigkeit, an der Datenerhebung teilzuneh­

men, oder durch die Zahlung einer Aufwandsentschädigung an die Teilnehmer wissenschaftlicher Untersuchungen), lohnt es sich in jedem Fall, entsprechende Beobachtungen systematisch zu dokumentieren. Nicht-erwartungsgemäße auffäl­

lige Abweichungen der Messergebnisse lassen sich dann ex post facto erklären.

Da bei fremdsprachenspezifischen Datenerhebungen in der Regel der Faktor Spracherwerb maßgeblich wirksam ist, sollte die Durchführung von Quer­

schnittserhebungen möglichst innerhalb eines kurzen Zeitraums stattfinden.

Zu berücksichtigen sind weiterhin bei den Versuchspersonen Übungseffekte, die sich aus dem steigenden Grad an Perfektion infolge der häufigen Ausübung derselben Aufgabe ergeben. Insbesondere bei relativ einfachen Aufgaben kann die Ausführung weitgehend automatisiert stattfinden (zur Automatisierungsprob­

lematik vgl. Bärenfänger, 2002). In diesem Zusammenhang ist auf Lernkurven zu verweisen, bei denen sich die Schnelligkeit der Aufgabenausführung nach einer Phase des steilen Anstiegs auf einem Plateau stabilisiert. Um Übungseffekte als Fehlerquelle ausschließen zu können, kann eine Erhebung nach einer hinreichend langen Übungsphase mit der eigentlichen Messung beginnen.

Nicht eigentlich einen Störfaktor, aber eine möglicherweise das Messergebnis verzerrende Größe stellt der Anwendungsbereich eines Datenerhebungsverfahrens

dar. Es liegt auf der Hand, dass nicht jedes Verfahren für jeden Informanten gleich gut geeignet ist. Infolgedessen können soziobiologische Variablen wie Al­

ter und Geschlecht, aber auch soziokulturelle Variablen wie Nationalität, Reli­

gion, Herkunftskultur, Muttersprache, Mentalität, soziale Schicht usw. die Mess­

ergebnisse verfälschen. Es ist zu erwarten, dass den soziologischen Parametern umso größere Wirkungen zukommen, je mehr Interaktionen mit anderen Men­

schen (Versuchsleiter und andere Versuchsteilnehmer) die Informanten ausge­

setzt sind. Demgegenüber sollten Computerexperimente, wo solche Interaktionen höchstens bei der Instruktion stattfinden, in geringerem Umfang von soziologi­

schen Variablen beeinflusst sein. Ausblenden lassen sich diese aber nie völlig.

Weiterhin arbeitet ein Verfahren umso reliabler, je homogener die Gruppe der In­

formanten beschaffen ist. Deren Zusammensetzung lässt sich über die genannten soziologischen Variablen steuern; dabei ist freilich zu bedenken, dass die Verall­

gemeinerbarkeit der Ergebnisse beträchtlich sinkt, je homogener die Probanden­

gruppe beschaffen ist. In jedem Fall müssen die soziologischen Variablen doku­

mentiert werden, damit sie bei einer Interpretation der Ergebnisse unter Umstän­

den als Moderatorvariablen (Bortz, 1999, S. 448) fungieren können.

Ähnlich wie die soziologischen Variablen können auch Jndividuenvariablen der Versuchspersonen Messergebnisse erheblich verzerren. Hierunter sind alle sonstigen personenbezogenen Faktoren zu verstehen wie die Persönlichkeit, die individuelle Lernbiographie, der Lernertyp, der Grad der Anpassung an die Ziel­

kultur, der Kommunikationstyp (introvertiert vs. extravertiert), die Intelligenz oder individuelle attitudinale Faktoren (vgl. dazu den Forschungsbericht von Vollmer, Henrici, Finkbeiner, Grotjahn, Schmid-Schönbein & Zydatiß, 2001 ), der aktuelle Sprachstand, Medienkompetenz (z. B. bei Computerexperimenten) oder die Ver­

trautheit mit der Aufgabe. Um diesbezügliche Verzerrungen der Ergebnisse zu vermeiden, bietet sich die Durchführung der Datenerhebung mit einer großen und möglichst heterogenen Probandengruppe an, bei der sich entsprechende Unter­

schiede herausmitteln. Als Alternative kann auf der Basis der genannten Variab­

len eine homogene Probandengruppe zusammengestellt werden.

Die Reliabilität der Auswertung ist vor allem über den Einsatz zuverlässiger Geräte und Software sicherzustellen sowie durch die Herstellung von Intersub­

jektivität. Letzteres gilt wohl besonders für die Phase der Interpretation, aber na­

türlich auch in der Planungsphase etwa in der Form von Expertentreffen.

326 Empirische Pädagogik 2003, 17(3),312-331

Im Dokument 3 17.Jg Quartal (Seite 44-48)