• Keine Ergebnisse gefunden

Archiv "Fehlerhafte Multiple-choice-Fragen im Kreuzfeuer der Kritik (II)" (12.02.1981)

N/A
N/A
Protected

Academic year: 2022

Aktie "Archiv "Fehlerhafte Multiple-choice-Fragen im Kreuzfeuer der Kritik (II)" (12.02.1981)"

Copied!
5
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Spektrum der Woche Aufsätze • Notizen

FORUM

Fehlerhafte

Multiple-choice-Fragen

im Kreuzfeuer der Kritik (II)

Geht man den typischen Weg erstell- ter Rohfragen bis hin zu ihrer Ver- wendung in einem Examen nach, so bleiben nach einhelliger Erfahrung laut Testliteratur zwei Drittel aller ur- sprünglich erstellten Fragen in ei- nem der Kontrollfilter als in dieser Form ungeeignet hängen. Das IMPP spricht sogar von bis zu 80 Prozent (Michaelis als Vertreter des IMPP auf der Titisee-Konferenz 1976 in: Med.

Welt 1976, S. 2194). Zum einen macht dies deutlich, daß bei so viel anfänglichen Fehlern auch mal der eine oder andere schlichtweg bis in die Prüfung hinein „durch die Lap- pen" gehen kann, da es zunächst ja nur so an Fehlern wimmelt. Zum an- deren wird schlaglichtartig deutlich, wie unerhört anfällig für sich ein- schleichende Fehler das Konstru- ieren von MC-Fragen ist. Um den wesentlichen Quellen dafür auf die Schliche zu kommen, ist eine nähere Auseinandersetzung mit den Kon- struktionsprinzipien von MC-Fragen unerläßlich.

Ganz abgesehen davon, daß „es ei- nen erheblichen Zeitaufwand und beträchtliche Mühe erfordert, sich in diese Problematik einzuarbeiten"

(so Flörkemeier in einer Serie über die damals neuen MC-Prüfungen, DÄ 1974, S. 2136), ist die Literatur über das Erstellen guter MC-Fragen auch unter Heranziehung entspre- chender Arbeiten aus dem pädago- gisch-psychologischen Bereich ins- gesamt magerer als der Wichtigkeit angemessen.

Resümierend stellte F. Lötsch bei den Paderborner pädagogischen Werkstattgesprächen 1976 fest:

„Für die Konstruktion guter Aus- wahlantwortaufgaben gibt es bis heute im deutschsprachigen Raum keine vorbildlichen Hilfen. Die Lite- ratur ist mager, die Anweisungen er- schöpfen sich meistens in einer Auf- zählung von vorkommenden Feh- lern bei bestehenden Aufgaben"

(Paderborner Werkstattgespräche Bd. 8, 1976, S. 182).

Hand in Hand damit geht eine leicht- fertige Unterschätzung der Wichtig- keit dieses Teilbereichs der MC- Theorie. So heißt es in dem Buch von Hubbard über die Medizinerprü- fungen in USA: „Es ist nicht nötig, daß das neuernannte Komitee-Mit- glied Fachkenntnisse auf dem Ge- biet der Test-Konstruktion mitbringt.

Spezialist muß er nur auf seinem Fachgebiet sein. Die einzelnen Ge- bote und Verbote der Testkonstruk- tion wird er schnell lernen, wenn er seine Fragen zur Begutachtung vor- legt und die Kollegen sie freimütig kommentieren" (J. Hubbard: Er- folgsmessung der medizinischen Ausbildung, Bern 1974). Ob solches

„Auf-die-leichte-Schulter-Nehmen"

einen guten Anteil daran hat, daß zunächst einmal bis zu 80 Prozent der Fragen voller Fehler stecken?

Und ein Fehler, der einmal drin ist . . .

Auch das IMPP hat lediglich ein internes Papier erarbeitet, das den mit Fragenerstellung beauftragten Sachverständigen jeweils als Hand- reichung zugänglich gemacht wird.

Aber gerade hier wäre eine Veröf- fentlichung meines Erachtens drin- gend nötig, damit für diesen—wie im folgenden näher zu zeigen sein wird

— äußerst heiklen Bereich von mög- lichst vielen Seiten konstruktive und verbessernde Beiträge zu einer sol- chen Konstruktionsanleitung er- bracht und berücksichtigt werden können.

Die wenigen Ausführungen in der Buchveröffentlichung des IMPP (S.

63 ff.) sind, gemessen an der Bedeu- tung einer „Konstruktionstheorie"

für qualitativ gute Fragen, nun wirk- lich ebenfalls äußerst mager — auch wenn anderswo verstreute diesbe- zügliche Einzelaussagen zusätzlich mühsam zusammengetragen wer- den. Mit welcher Akribie das IMPP in seiner Selbstdarstellung ansonsten seine Arbeit in unwesentlichen Teil- aspekten zu schildern vermag, wird in überspitzter Form an den Ausfüh- rungen über Druck und Verpackung der Prüfungshefte deutlich: „Die Druckbogen werden gefalzt, ma- schinell zusammengetragen und ge- heftet . .." (IMPP 1976 a. a. 0. S. 44/

45). Eine ähnliche Akribie wäre wün- schenswert gewesen beim Erarbei- ten von Konstruktionskriterien und deren möglichst ausführlicher Be- gründung.

Dies ist meines Erachtens um so ver- wunderlicher, als das IMPP vom Ge- setzgeber einen ausdrücklichen Auf- trag zur Ausbildungs- und Examens- forschung hat und dementspre- chend eine eigene Abteilung dafür am IMPP eingerichtet ist. Es wird zwar vom Institut „eingeräumt, daß das IMPP aufgrund der notwendigen Aufbauarbeiten und im Hinblick auf einen empfindlichen medizinischen Personalmangel seinen ihm im Staatsvertrag gestellten Au sb i I- d u ngsforschungsauftrag nur in sehr bescheidenen Ansätzen aufgreifen konnte" (Kraemer in: DÄ 1978, S.

258).

Es ist aber unverständlich, daß vom vorrangigen Aufgabenbereich der Erstellung und Qualitätssicherung von Examensfragen die sicher not- wendige Weiterarbeit an guten Kon- struktionsprinzipien in den Veröf- Erste Fortsetzung von Heft 6/1981, Seite 239 ff.

Rolf Buhl

Typische Fehlerquellen und ihre Ursachen

(2)

Multiple-choice-Fragen

fentlichungen des IMPP so spärlich repräsentiert ist. Dies um so mehr, als die MC-Prüfungen des IMPP ja für die universitätsinternen Lei- stungsnachweise der Kurse Schritt- macherfunktion gehabt haben und nun überall in den medizinischen In- stituten handgestrickte MC-Fragen- Prüfungen durchgeführt werden.

Wer von denen, die dort MC-Fragen oft mehr schlecht als recht zusam- menfummeln, unterzieht sich schon der Mühe, sich um geeignete Kon- struktionsanleitungen zu bemühen, wenn schon das IMPP in den öffent- lich zugänglichen Arbeiten hier we- nig anbietet und damit doch wohl indirekt dazu beiträgt, daß dies von vielen vorschnell als ohne weiteres bewältigbar verkannt wird.

Ganz anderes ist hier von dem Schweizer Institut für Ausbildungs- und Examensforschung (IAE) in Bern zu berichten. Es hat 1975 eine

„Anleitung zur Herstellung von Wahlantwortfragen" (U. Klein/ P.

Keel) herausgebracht, zudem ist 1976 von denselben Verfassern eine zweiteilige Tonbildschau mit 160 Dias und Begleitmaterial herausge- bracht worden: „Wie formuliert man gute Wahlantwortfragen?" Allein das Vorhandensein signalisiert je- dem, welch hoher Stellenwert die- sem Bereich einzuräumen ist. Der Leiter des IAE, Prof. Pauli, erklärt lapidar: „Qualitativ anspruchsvolle

‚objektive' Tests herzustellen, kön- nen sich einzelne Fakultäten kaum leisten" (Pauli in: Neue Verfahren der Medizinerausbildung. Separat- druck der Schweizerischen Ärztezei- tung Nr. 6-13, 1975, S. 4).

Insgesamt ist zur Arbeit dieses in Deutschland viel zuwenig bekann- ten Instituts zu sagen, daß es eine wesentlich forschungsintensivere Infrastruktur hat. Das wird schon daran deutlich, daß neben regulären und externen Mitarbeitern regelmä- ßig Planungsstudenten, Wahljahrs- studenten und eine beträchtliche Anzahl von Dissertanten an diesem Institut arbeiten (vgl. Das IAE, Bern, 2. Aufl., 1979). Zudem ist es einer Universität (Bern) angeschlossen mit den sich daraus ergebenden

Chancen, eine Möglichkeit, die man in Deutschland für das IMPP ver- säumt hat. Demgegenüber mußte Dr. Kraemer schon 1974 in einem Interview des DÄ (dort S. 1670) auf die Frage „Sind die Studenten im Sinne einer Mitbestimmung betei- ligt?" antworten: „Das Gesetz sieht eine Mitbestimmung insoweit nicht vor ... Andererseits haben die an- gesprochenen Hochschullehrer viel- fältige Gelegenheit, an den Universi- täten mit den Studenten die Katalo- ge zu diskutieren, so daß von dort her auf die Dauer durchaus eine Ein- flußnahme der Studenten denkbar ist." Wie Ausbildungs- und Prü- fungsforschung ohne direkte Kom- munikation mit den doch wohl aller- erst Betroffenen in effektiver Weise und auf Dauer ohne Entfremdung möglich sein soll, mag als Anfrage vor allem an die, denen die Struktur des 1MPP zu verdanken ist, gerichtet sein.

Die systemimmanente Gefahr unentscheidbarer Antwortalternativen

Ohne das soeben beschriebene De- fizit nun im einzelnen angehen zu wollen, sei ein Grundprinzip der Fra- genkonstruktion angesichts der dar- auf beruhenden Fehlerhäufigkeit und ihrer Konsequenzen für den Prüfungsablauf genauer analysiert.

Der besseren Überschaubarkeit we- gen soll dies an dem Fragetyp erfol- gen, bei dem neben der „einzig rich- tigen", „besten" oder „am ehesten zutreffenden" Antwort vier Falsch- antwortalternativen angeboten wer- den.

Da die richtige Antwort vorgegeben ist, müssen zusätzlich Alternativen angeboten werden, um die anson- sten 100prozentige Ratewahrschein- lichkeit auf ein testtheoretisch ver- tretbares Maß zu „drücken". Mit vier Falschantwortalternativen läßt sich bei einer richtig angekreuzten Ant- wort die Testaussage machen: Der Examenskandidat hat mit 80prozen- tiger Wahrscheinlichkeit die richtige Antwort nicht geraten, sondern ge- wußt. Die vier Falschantworten zie- hen 80 Prozent der Ratewahrschein- lichkeit von der richtigen Antwort ab

und heißen deshalb in der Fachspra- che „Ablenker", Distraktoren. Diese

„Ablenkfunktion" erfüllen sie nun aber nur, wenn sie „attraktiv", plau- sibel" genug sind, um überhaupt in Erwägung gezogen zu werden. Je- der Ablenker, der offensichtlich un- sinnig erscheint, zu weit weg von einer richtigen Lösung ist, erhöht die Ratewahrscheinlichkeit wieder um 20 Prozent.

Das Ziel des Fragenerstellers ist es also, alle vier Ablenker so attraktiv wie möglich zu machen, das heißt sie so dicht wie möglich an eine richtige Lösung heranzuformulie- ren. Es sollen, bildlich gesprochen,

„Wölfe im Schafspelz" sein. Löcher im Schafspelz, die den Wolf erken- nen lassen, müssen peinlichst ver- mieden werden und werden in der Testtheorie als „Winke", clues, be- zeichnet, die das Auffinden der rich- tigen Lösung durch leichteres Aus- schließen von Wölfen unabhängig vom Wissen eben auf Grund eines Winkes vereinfachen. Da es auch in der Medizin fast nichts ohne Aus- nahme gibt, stellen Worte wie „im- mer", „nie", „stets" fast regelmäßig solche Winke dar und lassen den

„Wolf im Schafspelz" erkennen.

Stimmt aber einmal das „nie" oder

„stets", so stellt dies eine hervorra- gende Tarnung einer richtigen Lö- sung dar, da jeder zunächst denkt, daß dies wohl wegen des absoluten Prädikats falsch ist.

Beispiel aus dem II. Teil Herbst 79, 1.

Tag, Aufl. B, Frage 102: Bei einem verkalkten Rundherd im Bereich des rechten Lungenoberfeldes ist die Diagnose eines Tuberkuloms gesi- chert, weil ein peripheres Bron- chialkarzinom nicht verkalkt. Diese Tarnung wird leider dadurch ge- trübt, daß jeder, der ein Narbenkarzi- nom in die Erwägungen mit einbe- zieht, die Gesichertheit der Diagno- se nicht so ohne weiteres gegeben sieht.

In der Testliteratur wird nun gerade die Formulierung der Ablenker ein- hellig als schwierigste Aufgabe an- gesehen, an der sich zugleich die Qualität der Frage im wesentlichen entscheidet: „Die Kunst der Anlage

DEUTSCHES ÄRZTEBLATT Heft 7 vom 12. Februar 1981 303

(3)

Spektrum der Woche Aufsätze • Notizen Multiple-choice-Fragen

guter Mehrfachwahlaufgaben be- ruht weitgehend auf der geschickten Abfassung der Distraktoren" (N.

Gronlund: Die Anlage von Lei- stungstests, 1974, S. 50). Zugleich gilt, daß eine Frage, bei der die Ab- lenker eine hohe Attraktivität haben und deshalb bei der Lösungssuche ausgiebig in Betracht gezogen wer- den, schwieriger zu beantworten ist als eine Frage, für die derselbe Sachverhalt zugrunde gelegt, aber mit weniger attraktiven Ablenkern

„umgeben" wird. Das heißt aber, daß der Schwierigkeitsgrad einer Frage zu einem beträchtlichen Teil nicht vom Sachverhalt selbst, son- dern von den dazu formulierten Ab- lenkern abhängt. „Als allgemeines Prinzip läßt sich formulieren, daß ein Item um so schwieriger ist, je ähnli- cher sich die Antworten sind" (D. P.

Scannell/D. B. Tracy: Testen und Messen im Unterricht, Weinheim 1977, S. 133). So wird es in der Test- literatur gemeinhin als ein Vorteil gerade von MC-Aufgaben angese- hen, „daß man durch die geeignete Auswahl der Alternativen die Schwierigkeit der Aufgabe beliebig variieren kann" (M. Herbig in: K.

Klauer u. a.: Lehrzielorientierte Tests. Beiträge zur Theorie, Kon- struktion und Anwendung, Düssel- dorf 1972, S. 87).

Es dürfte deutlich sein, daß es im Gefälle dieses unumgänglichen Konstruktionsprinzips liegt, beim Fragenerstellen möglichst reizvolle, verlockende, sich anbietende Alter- nativen (alles Adjektive aus der Test- literatur) zu formulieren.

Dieser durch das System geschürte Ehrgeiz, möglichst keine leicht und gut durchschaubaren Fragen zu for- mulieren, stellt sich nun in der Pra- xis als heikle Gratwanderung zwi- schen testtheoretischer Notwendig- keit und unzulässiger „Irreführung"

heraus. Die Gefahr des Abgleitens ist in Form „zu guter Ablenker"

schon als Keim in diesem grundle- genden Konstruktionsprinzip ange- legt. Es wird zwar hie und da vor einer solchen „Fehlleitung" (H. Pau- li in: Neue Verfahren in der Medizi- nerausbildung, Separatdruck der Schweiz. Ärztezeitung 1975, S. 6) ge-

Titel-Illustration von Heft 6/1981: Der Me- dizinstudent und das Prüfungs-Labyrinth warnt, aber insgesamt überwiegen die Ratschläge zur Attraktivitätser- höhung, also zur Tarnung der Wölfe.

Als Beispiel, in dem zugleich

„Grenzüberschreitungen" deutlich werden, seien die relativ ausführli- chen Anweisungen bei Gronlund zi- tiert:

„Wenn die Aufgaben ihre Funktion erfül- len sollen, müssen äußere Anhaltspunkte für die richtige Lösung vermieden wer- den. Häufig empfiehlt es sich jedoch, die unwissenden Schüler mit Hilfe solcher Anhaltspunkte von der richtigen Lösung abzulenken. Wenn man es nicht über- treibt, können die falschen Lösungen da- durch plausibler erscheinen. Es gibt mehrere Möglichkeiten, die Plausibilität und Überzeugungskraft der Distraktoren zu erhöhen.

Wir fasssen im folgenden zusammen:

a) Verwenden Sie ... verbreitete fal- sche Vorstellungen oder Fehler als Di- straktoren!

b) Verwenden Sie nicht nur in der richti- gen Lösung, sondern auch in den Di- straktoren richtig klingende Wörter (z. B.

genau, wichtig usw.)! (Anm.: die „Kreide des Wolfs"!)

c) .

d) Geben Sie den Distraktoren ungefähr die gleiche Länge wie der richtigen Ant- wort und verwenden Sie Wörter gleicher Schwierigkeit!

e) Verwenden Sie in den Distraktoren äußere Anhaltspunkte wie z. B. formel- hafte Wendungen, wissenschaftlich klin- gende Antworten und sprachliche An- klänge an den Stamm der Aufgabe! Doch machen Sie nicht zuviel Gebrauch da- von, und hüten Sie sich vor Fangfragen!"

(Gronlund a. a.0. S. 51).

Ob solch eine Konstruktionsanlei- tung einen guten Beitrag zum Gelin- gen der Gratwanderung leistet, er- scheint mir sehr fraglich. Deutlich wird daran, daß eine Fragekonstruk- tion nach solchen Prinzipien den ei- gentlich erfragten Sachverhalt aus seinem ihm eigenen Schwierigkeits- zusammenhang reißt und doch wohl im Regelfall sachfremd nach oben hin verzerrt. Zutreffend wird meines Erachtens von T. Wehner und P.

Kruse von einer Verzerrung des Pro- blemlösesuchraums gesprochen (DÄ 1979, S. 2836).

In Konkurrenz zu dieser Attraktivi- tätsmaximierung falscher Alternati- ven um fast jeden Preis steht das Konzept, die testtheoretisch vorge- gebene MC-Frage-Struktur zur mög- lichst realitätsnahen Simulation kli- nischer Entscheidungsprozesse zu nutzen. Dazu beispielhaft aus dem Beitrag des IAE: „Es soll . . . ein Ab- wägen auf höherem intellektuellen Niveau notwendig werden. Die MC- Methode hat insofern Realitätswert, als der Arzt relativ häufig zwischen korrekten und unkorrekten, aber auch optimalen und (zwar ebenfalls korrekten) nicht optimalen Alternati- ven wählen muß" (P. Keel u. a.: Wer- degang einer Multiple-Choice-Prü- fung . im Separatdruck der Schweizerischen Ärztezeitung a. a. 0. S. 7).

Der Versuch des IMPP, die Konkur- renz zwischen Konstruktionsnot- wendigkeiten und einer realitätsna- hen Simulation klinischer Entschei- dungsprozesse zu meistern, ist in den Herbstprüfungen 1979 in erheb- lichem Umfang fehlgeschlagen. Dies ist wohl nur durch eine wesentlich gründlichere Beschäftigung mit ei- ner Konstruktionstheorie, die aller- erst noch zu leisten wäre, zu be- werkstelligen.

Neben dem Abgleiten in irreführen- de Tarnmanöver steht eine weitere Gefahr ins Haus. Dem Fragenautor kann es nur allzuleicht passieren, daß eine von ihm als Ablenker ge- meinte Alternative eben nicht mehr als „gerade noch falsch" und damit optimal ablenkend gerät, sondern schon „zu dicht" an eine richtige

(4)

Multiple-choice-Fragen

Lösung heranformuliert ist und sich bei näherem Hinsehen als „eben schon richtig" erweist.

Im Trimmen auf möglichst gute Ab- lenker hat die Frage dann unverse- hens zwei oder mehr richtige Lösun- gen und wird damit unbeantwortbar.

Aus dieser ständig drohenden Feh- lerquelle rekrutieren denn auch je- weils wohl die meisten bis in die Prüfung hinein nicht ausgemerzten Fehler. Kugelzellen treten eben nicht nur bei „ABO-Unverträglich- keit" auf, sondern bei dem zu gut gemeinten Ablenker „toxisch-hämo- lytische Anämie" ebenfalls.

Deshalb resultiert aus langjähriger Erfahrung der Amerikaner mit MC- Prüfungen: „auch bei gewissenhaf- tester Aufmerksamkeit der Prüfer kann übersehen worden sein, daß sie mehr als eine richtige Antwort hat" (Hubbard, a. a. 0. S. 93).

Eine solche Frage hat nun nicht nur die negative Konsequenz, daß sie in der Prüfung die Bestehenschancen mindert, weil eine eindeutige Beant- wortung durch Wissen nicht mehr gegeben ist. Eine solche unlösbar gewordene Frage hat auch unmittel- bare Auswirkungen auf die Prü- fungssituation selbst. Weil dem als typischer Gefahr der MC-Prüfungen so gut wie keine Aufmerksamkeit ge- widmet wird, sei dies im folgenden näher analysiert.

Das Konzept

induzierter Hilflosigkeit

Ist eine Frage in dieser Weise unlös- bar geworden, ergibt sich für den in der Prüfung Stehenden eine höchst unangenehme Situation. Um dies anschaulich zu machen und ins Be- wußtsein zu heben, greife ich . auf einen heute weitgehend in Verges- senheit geratenen Pawlowschen Versuch zurück, der dem bekannten klassischen Versuch durchaus ebenbürtig ist und dessen Aktualität weit über das hier zur Diskussion Anstehende hinausreicht.

Der Versuch baut auf dem bekann- ten Prinzip des bedingten Reflexes

auf und wurde in den 20er Jahren von Pawlows Mitarbeiter N. R.

Schenger-Krestownikowa ausgear- beitet. Dabei wird einem Hund auf eine Leinwand ein Kreis projiziert, in dessen unmittelbarem Zusammen- hang jeweils zunächst Futter ge- reicht wird, so daß schließlich in be- kannter Weise, schon auf das Auf- leuchten des Kreises hin beim Hund Speichelfluß gemessen werden kann. In einem zweiten Schritt wird auf die Leinwand eine vom Kreis gut unterscheidbare Ellipse mit einem Achsverhältnis von 2:1 projiziert, oh- ne daß hierbei Futter gereicht wird.

Der Hund lernt zwischen Kreis und Ellipse zu unterscheiden, zu diskri- minieren, meßbar am Speichelfluß, der sich nur beim Aufleuchten des Kreises einstellt.

Im dritten entscheidenden Teil des Versuchs wird nun die Ellipse durch Änderung des Achsenverhältnisses mehr und mehr einem Kreis angenä- hert, so daß die Unterscheidbarkeit immer schwieriger wird. Zunächst macht der Hund die Anhebung der Unterscheidungsschwierigkeit ohne weiteres mit.

Bei einem Achsverhältnis der Ellipse von 8:9 ist nun aber das Aussehen der Ellipse so dicht an das Aussehen des Kreises gebracht worden, daß die Diskriminationsfähigkeit des Hundes zusammenbricht. Man sollte nun meinen, der Hund würde nun auf Kreis und diese „Fast-Kreis-El- lipse" in gleicher Weise mit Spei- chelfluß reagieren.

Überraschenderweise aber ändert sich das Verhalten des Hundes, der auf Unterscheiden-Können und Un- terscheiden-Müssen getrimmt war, angesichts des erfolgten Zusam- menbruchs dieser Möglichkeit in ra- dikaler Weise: „Der Hund, der früher ruhig im Gestell stand, war jetzt in ständiger motorischer Erregung und winselte" (I. Pawlow, Ausgewählte Werke, Berlin 1955, S. 176). Er „bell- te, jaulte, riß an der Apparatur her- um, zeigte Furcht vor dem Zimmer und eine generalisierte Hemmung, die zu Schläfrigkeit oder Schlaf führ- te" (Ruch-Zimbardo: Lehrbuch der Psychologie 1975, 2. Aufl., S. 137).

Die Folgen blieben nicht auf den Versuch selbst beschränkt, sondern

zeigten eine Tendenz zur Generali- sierung, so daß später bereits das Betreten des Versuchsraumes noch vor dem eigentlichen Experiment das neurotische Verhalten auslöste"

(Knaurs moderne Psychologie 1972, S. 211). „Viele Tiere... entwickel- ten dem Experimentator gegenüber Feindseligkeit" (A. F. Neel, Hand- buch der psychologischen Theorie, München 1974, S. 133).

Da diese Symptome auffallende Ähnlichkeit mit Humanneurosen aufwiesen, subsumierte Pawlow die Folgen eines solchen Zusammen- bruchs erlernter Unterscheidungsfä- higkeit unter dem Begriff der „expe- rimentellen Neurose". Liddell, der Anfang der 30er Jahre an diesen Versuchen weiterarbeitete, mußte feststellen, daß dieses neurotische Verhalten, einmal induziert, über viele Jahre hindurch keine Abschwä- chung zeigte, sondern die „Sympto- me über 13 oder mehr Jahre erhal- ten blieben; ferner starben viele der Versuchstiere mit experimenteller Neurose frühzeitig" (Ruch-Zimbar- do, a. a. 0. S. 137 f.). Nicht einmal zur Unterscheidung der ursprüng- lich gezeigten Ellipse vom Kreis wa- ren in dieser Weise in die Irritation getriebene Tiere mehr fähig.

Neben der unerwartet radikalen Ver- haltensänderung der Versuchstiere ist vor allem auch dies überra- schend: Das völlig veränderte Ver- halten der Versuchstiere erfolgt, oh- ne daß die Tiere durch den Zusam- menbruch des erlernten Diskrimina- tionsvermögens nun etwas für sie Unangenehmes, etwa in Form von jetzt für sie nicht mehr vermeidbaren elektrischen Schlägen, über sich er- gehen lassen mußten und deshalb

„närrisch" wurden. Allein der Zu- sammenbruch gelernten Diskrimina- tionsverhaltens reichte für die mas- sive Verhaltensänderung aus.

Ich denke, vor allen Einwendungen gegen die Übertragung solcher Ver- suchsergebnisse auf die Folgen von unentscheidbar gewordenen MC- Aufgaben durch „zu dichte Distrak- toren" oder ebenfalls richtige Alter- DEUTSCHES ÄRZTEBLATT

306 Heft 7 vom 12. Februar 1981

(5)

Spektrum der Woche Aufsätze • Notizen Multiple-choice-Fragen

nativen ist eine unmittelbare Evi- denz der Parallelität kaum abzuwei- sen. Die Bedeutung dieses Ver- suchsansatzes auch für konstruk- tionsimmanente Folgen von MC- Aufgaben wird noch wesentlich deutlicher, wenn man verfolgt, wie dieser Ansatz in der Psychologie weiterentwickelt worden ist.

An herausragender Stelle ist dabei vor allem E. P. Seligman zu nennen, der im Zusammenhang seiner grundlegenden Depressionsfor- schungen auf diese experimentellen Ansätze zurückgegriffen hat und analoge Experimente mit Versuchs- personen durchgeführt hat. Sein Konzept, das im angelsächsischen Sprachraum längst Aufmerksamkeit und weitgehende Anerkennung ge- funden hat, ist jetzt auch in deut- scher Übersetzung unter dem Titel:

„Erlernte Hilflosigkeit" (Urban u.

Schwarzenberg 1979) zugänglich.

Seligman analysierte die verschiede- nen Versuchsabläufe auf. ihre Kern- struktur und schälte als Grundmerk- male, die zu der auffälligen Verhal- tensänderung führen, heraus: Un- kontrollierbarkeit, Unvermeidbar- keit, Unlösbarkeit — in deren Gefolge sich jeweils Hilflosigkeit einstellt.

Daraufhin begann er analoge Ver- suche mit Personen durchzuführen, und zwar mit Hilfe von Diskrimina- tionsaufgaben: „Die formale Ähn- lichkeit von Unlösbarkeit und Unver- meidbarkeit vor Augen, legten D. Hi- ronto und ich Gruppen von Studen- ten Serien lösbarer und unlösba- rer Diskriminationsaufgaben vor"

(a. a. 0. S. 32). Sie „wurden an- schließend in einen zweiten Raum geführt, wo eine weitere Serie von Aufgaben, die nun alle lösbar waren, auf dem Bildschirm erschien". Die Studenten, die sich vorher nur mit unlösbaren Aufgaben herumge- schlagen hatten, „schnitten . . . ten- denziell bei den neuen, über den Bildschirm dargebotenen Aufgaben schlechter ab" (a. a. 0. S. 51).

Ich denke, die zuletzt skizzierten Un- tersuchungen zeigen sehr deutlich, daß in ihnen die Auswirkung unlös- bar gewordener MC-Aufgaben auf

das weitere Leistungsverhalten im Prüfungsablauf aufgedeckt wird.

Die Situation unlösbarer Fragen, die Bestehenschancen mindern, weil das Erreichen eines Punktes nicht mehr durch Gewußtes kontrollierbar bleibt für den Prüfungskandidaten, induziert eine deutliche Leistungs- minderung, die die Beantwortungs- fähigkeit auch eindeutig lösbarer Aufgaben einschränkt. Eine Vielzahl studentischer Erfahrungen mit den Mainzer MC-Prüfungen lassen sich in dieser Weise „auf den Begriff bringen".

Nun müßte man meinen, dieser in- duzierte Leistungsschwund ließe sich leicht wieder rückgängig ma- chen. Aber schon die Tierversuche machten deutlich, daß sich die indu- zierte Hilflosigkeit als äußerst resi- stent gegen Extinktion erwies. Und so berichtet Seligman, daß es C. S.

Dweck (1973) erst auf folgende Wei- se gelang, bei Schülern durch unlös- bare Aufgaben erzeugte Leistungs- minderung abzubauen:

Er streute in eine zweite Serie nun lösbarer Aufgaben ebenfalls einige unlösbare Aufgaben und wies eine Gruppe von Kindern jeweils darauf hin, die Aufgaben seien lösbar, sie müßten sich nur mehr anstrengen.

Gegenüber einer Gruppe, die zu die- sen eingestreuten unlösbaren Auf- gaben nichts dergleichen indoktri- niert bekamen, verbesserte sich all- mählich die verlorengegangene Lei- stungsfähigkeit. „Die entscheidende Manipulation bestand darin, den Schulkindern beizubringen, Mißer- folg dadurch zu bewältigen, daß sie ihn der eigenen unzureichenden Anstrengung zuschrieben" (a. a. 0.

S. 149).

Von diesem, ich denke aufschlußrei- chen Blick in die Werkstatt lern- und verhaltenspsychologischer Untersu- chungen ist für die Prüfungssitua- tion mit MC-Fragen festzuhalten:

Fragen, die so „dichte" Ablenker ha- ben, daß auch der gut vorbereitete Kandidat einzelne Alternativen nicht sicher ausschließen kann oder die sich als zusätzlich richtige Lösun- gen erweisen, haben eine bedenkli-

che Potenz, die Leistungsfähigkeit insgesamt zu beeinträchtigen. Hier hilft einzig und allein eine drastische Reduzierung fehlerhafter Fragen — oder eben die in der Prüfungssitua- tion wirksame Zusage, daß bis in die Prüfung hinein unentdeckt geblie- bene Fehler sich nicht auf das Prü- fungsergebnis auswirken, indem sie vor Ermittlung der Prüfungsergeb- nisse eliminiert werden (dazu mehr in Teil III).

Statt dessen aber gilt zur Zeit, was Prof. Gebert als Abteilungsleiter am IMPP in einem Brief schreibt, der zur Kenntnisgabe auch dem Bundes- gesundheitsministerium zugeleitet wurde: „Bei der Diskussion einzel- ner Fragen bitten wir Sie, darüber hinaus zu bedenken, daß auch bei der derzeitigen Bestehensgrenze von 60 Prozent unter Zugrundele- gung minimaler Ratewahrschein- lichkeit ein Wissen von 50 Prozent real sicher von 40 bis 45 Prozent der richtigen Lösungen zum Bestehen der Prüfung ausreicht und daß des- halb auch einzelne, in den Anforde- rungen möglicherweise als zu spe- ziell empfundene Fragen toleriert werden können" (Brief vom 15. 11. 1979 Az. 33-08-01).

Was die Chiffre „möglicherweise als zu speziell empfundene Fragen"

meint, erhellt durchaus aus einem Urteil des OVG Münster zu ange- fochtenen fehlerhaften Fragen vom November 1979: „Durch die hohe Anzahl der ... Prüfungsfragen ist hinreichend sichergestellt, daß Un- zulänglichkeiten der Fragestel- lung ... für das Prüfungsergebnis keine Bedeutung erlangen können."

„Keine Bedeutung" hieß in dem be- treffenden Gerichtsverfahren, daß eine Medizinstudentin mit einem Punkt unter der Bestehensschwelle das Physikum rechtskräftig nicht be- standen hatte und damit endgültig vorn weiteren Medizinstudium aus- geschlossen wurde.

• Wird fortgesetzt Anschrift des Verfassers:

cand. med. Rolf Buhl Kronenstraße 2 5600 Wuppertal 2

Referenzen

ÄHNLICHE DOKUMENTE

sowohl an alle ärztlichen Verbände als auch an den einzelnen Arzt, durchaus Kritik zu üben, dies aber in sachlicher Form zu tun und nicht polemisch Ein- zelpersonen

Die zuständigen Stellen haben diese katastrophale Ent- wicklung mitverursacht, indem sie durch neue Approbationsordnung für Ärzte notwendige, integrierende Vorlesungen als

Wenn Sie schon immer wissen wollten, was Sie für ein Arzt sind und wie der weitere Werdegang aussehen wird, dann machen Sie diesen Test.. Mit Ga- rantie, Sie werden

Die Deutung der Autoren, die durchschnittlich besseren Ergebnisse der mündlichen Prüfungen seien eine "positi- ve Uberschätzung", verschlei- ert einmal mehr

„nur im Rahmen der späteren Auf- gabenanalyse entschieden werden kann, ob die Fragen die Grundbe- dingungen für ihre Testgeeignetheit erfüllen" (Lienert, Testaufbau und

Typischerweise sind in frühe- ren Prüfungen Fragen ähnlichen Ka- libers aus dem Bereich heilprakti- scher Behandlungsmethoden ge- stellt worden (vergleiche DEUT- SCHES

Man muß ja nicht bemüht sein, in jeder Prüfung zu 70 oder 80 Prozent oder mehr heute Fragen zu basteln, in mündlichen Examina wird auch das Relevante immer wieder gefragt,

Für die- se Betriebe müßte der Staat, der sich durch die Einführung der 35-Stunden- woche bei vollem Lohnausgleich be- trächtliche finanzielle Mittel er- spart, (1 % Arbeitslose