1. Einleitung
Alles, was man messen, zählen und wie- gen kann, wird in der Inventur aufgenom- men und bestimmt den Erfolg eines Kauf- manns am Ende eines Geschäfts jahres in Form des Vermögenszuwachses gegen- über dem Stand bei Jahresbeginn . Dieses Prinzip leitet inzwischen auch Forschung und Bildung: Es werden Publika tionen gerated (aber kaum noch gründlich gele- sen), Leistungen bepunktet, Absolventen gezählt, Drittmittel aufsummiert und die Qualität der Lehre benotet . So entsteht eine Maßzahl für den Erfolg des Lehrers und Wissenschaftlers . Alles, was nicht in dieser Form quantifiziert werden kann, besitzt keine Existenzberechtigung mehr („if you can’t bill it, kill it“) .
Was aber ist Qualität der Lehre, spe- ziell mit E-Learning-Methoden, und wie misst man sie? Hier besteht eine verblüf- fende Diskrepanz zwischen den Ansprü- chen, die besonders bei den formaleren Wissenschaften, zu denen auch die Infor- matik gehört, erhoben werden und der realen Praxis in der Lehre: Wissenschaft- lerinnen und Wissenschaftler legen inner- halb ihres Forschungsgebiets besonders hohen Wert auf substantielle Belege oder Beweise für Behauptungen und lehnen Ergebnisse ab, die nicht nach gängigen und akzeptierten wissenschaftlichen Me- thoden gewonnen und verifiziert wurden .
Im Bereich ihrer Lehre jedoch verwenden oder propagieren sie Lehrmethoden, für die kein auch nur annähernd so stren- ger Nachweis der Wirksamkeit vorliegt und eher Intuition und Gefühl den Weg vorgeben . Man vergleiche diese Haltung zum Beispiel mit den Anforderungen hin- sichtlich Korrektheit und Komplexität, die man üblicherweise an einen neuen Algo- rithmus stellt, ehe man ihn in einer Lehr- veranstaltung präsentiert . Rey (2012) hat zur Wirksamkeit von E-Learning eine Rei- he von zweifelhaften Forschungsfragen und methodischen Problemen systema- tisch zusammengestellt .
2. Begriffliches Spektrum von Evaluation
Es gibt unterschiedliche Vorstellungen über den Begriff der Evaluation . Bezeich- net man als „Produkt“ die Einheit von ge- nutzter Plattform, Medien, Lerninhalten und didaktischem Konzept, so wird häu- fig viel Wert auf eine Bewertung dieses Produkts gelegt, wobei vier Kriterien ver- breitet sind, die üblicherweise Bestandteil einer produktbezogenen (summativen) Evaluation sind (Stockmann, 2006):
• Inhalt/Korrektheit
• Didaktische Gestaltung
• Usability
• Mediendesign
Steht die laufende Verbesserung die- ses Produkts während seiner Erstellung und in der Nutzungspraxis im Vorder- grund, so spricht man von prozessbezo- gener oder prozessbegleitender (formati- ver) Evaluation . Auch hier eignen sich die o .g . Kriterien, die dann im Prozess erho- ben und zur Verbesserung des Produkts genutzt werden .
Um verwendet werden zu können, müssen die Kriterien standardisiert, ope- rationalisiert und dimensioniert werden, und es muss eine genaue Beschreibung geben, welche Merkmale eines Kriteriums erfüllt sein müssen, damit dem Produkt ein bestimmter Wert der Dimension zu- geordnet werden kann .
Die genannten Kriterien vertreten al- lerdings eine relativ technische Sichtwei- se in dem Sinne, als sei bereits die Erfül- lung dieser produktbezogenen Kriterien ausreichend, um einen E-Learning-An- satz zum Erfolg zu führen . Tatsächlich handelt es sich aus neuerer Sicht um „In- put-orientierte“ Kriterien, bestenfalls um gewisse Voraussetzungen, die aber kei- nerlei Garantie für einen entsprechenden
„Outcome“ beim Lernenden im Sinne ei- nes Wissens-, Fertigkeits- oder Kompe- tenzzuwachses bieten . Ähnlicher Ansicht sind Zimmer und Psaralidis (2000), die den häufigen Schluss kritisieren, dass ein hin- sichtlich gewisser Kriterien hochwertiges Produkt automatisch zu höherem Lern- erfolg führe .
Johannes Magenheim, Andreas Schwill
Evaluation von E-Learning
Evaluation of e-learning
Evaluation_Lernerfolgsmessung_Qualität der Lehre_Wirksamkeit von E-Learning_Evaluationsmethodik_Vergleichsstudie_
Testmethoden
DOI 10 .1524/icom .2012 .0012
Zusammenfassung. Wir resümieren bisherige Vorgehenswei- sen und ihre Defizite bei der Qualitätsanalyse von E-Learning- Ansätzen und stellen mögliche Forschungsherausforderungen zusammen .
Summary. We summarize current methods and their lacks in analyzing e-learning approaches with respect to quality and present possible research challenges .
42 i-com
1/2012Evaluation
Aus Outcome-orientierter Sicht – und diese Sicht wird heute in der Bildung all- gemein vertreten – kann daher die Eva- luation eines E-Learning-Ansatzes allein durch Bilanzierung nach Maßgabe folgen- der Kernfrage erfolgen:
Wie wirksam ist der E-Learning-Ansatz für den Lernerfolg?
Preussler und Baumgartner (2006) kri- tisieren diesen Ansatz der Lernerfolgsmes- sung recht vehement, weil sie der Ansicht sind, Lernerfolg lasse sich kaum zuverläs- sig und aussagekräftig messen . Allerdings wird damit dann zugleich ein großer Teil psychologischer und pädagogischer For- schungstradition disqualifiziert . Sicher ist aber, dass Lernwirksamkeitsstudien mit nachfolgenden großräumigen Aussagen über die Qualitätsvorteile von E-Learning und Verallgemeinerungen etwa auf die generelle Lernwirksamkeit oder -unwirk- samkeit gewisser Medien oder Szenarien, wie man sie häufig findet, kaum wissen- schaftlichen Ansprüchen genügen, wie schon Hasebrock (1995) feststellt: „Nach dem heutigen Erkenntnisstand ist es nicht möglich, prinzipielle Aussagen über die Lernwirkungen von Multimedia zu ma- chen“ . Anschließen muss man sich auch der Kritik an einer vorschnellen Übertra- gung erzielter Ergebnisse auf ähnlich ge- lagerte, aber nicht identische Lernsitua- tionen .
3. Leitfragen zur Evaluation
Begleitend sind mehrere Fragen zu klären, die sowohl in der Domäne E-Learning als auch in den Bezugswissenschaften noch vielfach offen sind . Zu Beginn steht zu- nächst ganz allgemein die Frage:
• Wie lässt sich Lernerfolg in Abhängig- keit von der Produktnutzung erfassen und quantifizieren?
Dieses Problem ist im Wesentlichen pädagogischer und psychologischer Na- tur . In diesen Wissenschaften liegt dazu eine Reihe von Forschungsergebnissen vor (Bransford/Brown/Cocking, 2001) .
Bezieht man sich auf E-Learning-An- sätze, treten weitere Leitfragen hinzu .
• Welchen Beitrag zum Lernerfolg lie- fern E-Learning-Szenarien?
• Thematisch: Welche Lerninhalte eig- nen sich besonders für E-Learning?
• Personenbezogen: Welche Lerner profitieren von welchen E-Learning- Ansätzen?
• Methodisch: Wie wirkungsvoll sind spezifische Formen des E-Learning?
• Blending: Wie kann E-Learning in traditionelle wohldurchdachte Lern- arrangements eingebunden werden?
Welchen Stellenwert erhalten hierbei die Lehrenden?
• Kosten-/Nutzenanalyse: Wie stellt sich eine ggf . gesteigerte Lernwirksamkeit in Relation zu den Kosten für Ent- wicklung und Durchführung eines E- Learning-Szenarios und notwendiger Materialien dar?
4. Forschungsheraus- forderungen
Viele Studien der Vergangenheit (z . B . im DeLFI-Tagungsband 2010: Studie zur Er- probung von Webkonferenz Tools, Studie zur Podcastproduktion und kollaborati- vem Lernen in der Informatik, …) krank- ten daran, dass die untersuchten Szena- rien eher erfahrungsbildend waren und weniger konkrete Forschungsfragen be- handelten . Wiederholbarkeit der Ergeb- nisse war nahezu ausgeschlossen, in den Szenarien wirkten viele schwer erfassbare Einflussgrößen, die kaum noch erkennen ließen, welche Parameter schließlich wel- chen Einfluss auf den Lernprozess hatten . Oftmals blieb dann im Ergebnis nicht viel mehr übrig als die Information „Ich habe Lehrveranstaltung X durchgeführt, und alle waren begeistert .“ Wertvoll wären auch Informationen zu Misserfolgen bei der Nutzung von E-Learning-Ansätzen, Negativ-Beispiele werden aber kaum pub liziert .
Auch überzeugende Vergleichsstudi- en sind eher selten . Das liegt u . a . an den erforderlichen umfangreichen Rahmen- bedingungen, die oftmals nicht vollstän- dig gegeben sind . Damit Vergleichsstudi- en als valide betrachtet werden können, müssen die unterschiedlichen Vorgehens- weisen an statistisch vergleichbaren Pro- bandengruppen gleichzeitig erfolgen . Die beiden zu vergleichenden Vorgehenswei- sen, z . B . mit und ohne E-Learning-Szena- rio, sind exakt zu definieren und zu opera- tionalisieren, wobei unter den möglichen Einflussgrößen Lehrkraft, methodisches
Vorgehen, eingesetzte Technik, benutzte Materialien, Aufbereitung und Reihenfol- ge der Inhalte möglichst viele ausgeblen- det oder für beide Probandengruppen konstant gehalten werden müssen, es sei denn, aus vorherigen Studien ist die Wir- kung gewisser Größen bereits genau be- kannt .
Hier muss die E-Learning-Forschung Bedingungen anstreben, wie sie andere Wissenschaften seit langem etabliert ha- ben:
• deutliche Nennung der behandelten Forschungsfragen und Hypothesen
• exakte Beschreibung des Untersu- chungsgegenstands, z . B . der Un- tersuchungsgruppe, ggf . einer Ver- gleichsgruppe, mit Erhebung der Fachvorkenntnisse und Computer- erfahrungen, Bildungshintergrund, Motivation, Lernstil, Einstellung . Auch sächliche Untersuchungsgegenstände sind möglich, z . B . Lernsoftware, Lern- umgebung, Rolle der Lehrenden oder Interaktion
• verwendete Untersuchungsmetho- den, z . B . Befragungen, Experten- begutachtung, Tests, Tagebücher, Videos, Eye-tracking, Logdateien
• Ermittlung aller den Untersuchungs- prozess beeinflussenden Größen und Beschränkung auf wenige Parameter, die von außen kontrolliert verändert werden können, z . B . Gruppengrö- ße, erhobene Vorkenntnisse, Zeitvor- gaben, inhaltliche Aufbereitung des Lerngegenstands
• präzise Bestimmung der beobachte- ten Größenveränderung in Abhän- gigkeit der Einflussgrößen mit Signifi- kanzanalyse
• Interpretation der Ergebnisse und Be- zug zu den Forschungsfragen . Insgesamt bedeutet dies einen Rück- zug auf relativ kleinteilige Forschung un- ter Laborbedingungen, bei der kleinere gut überschaubare Gruppen in exakt de- finierten und penibel durchgeführten E- Learning-Szenarien beobachtet werden, wobei wenige beherrschbare Einflussgrö- ßen existieren .
Der bisher oft verwendete Unter- suchungsgegenstand „universitäre Lehr- veranstaltung“ erscheint in diesem Sinne nahezu ungeeignet, um valide, reprodu- zierbare und übertragbare Ergebnisse zu
43
1/2012
i-com
liefern .
Andererseits werden die Ergebnisse der kleinteiligen Forschung von außen oftmals den Eindruck von Praxisfremd- heit oder gar Nutzlosigkeit erwecken . Erst in der Gesamtschau vieler kleiner mo- saikartiger Resultate, die jedoch im Ge- gensatz zu vielen bisherigen Ergebnissen bestandskräftig sind, werden sich tenden- ziell allgemeinere Aussagen über die Wir- kungen von E-Learning-Ansätzen treffen lassen .
5. Beispiel
Das folgende Beispiel beschreibt in grober zeitlicher Reihenfolge einige ausgewählte bedeutsame Schritte und Überlegungen, die für eine empirische Studie durchge- führt werden müssen . Das Beispiel ist ins- piriert von Ehlert (2011) .
• Definition von Forschungsfragen:
Beispiel: „Gibt es Unterschiede im Lernerfolg von Studierenden bei der Thematik ‚Datentypen’ im Vergleich einer traditionellen Vorlesung mit ei- ner Blended-Learning-Veranstaltung?
Wenn ja, welche?“
• Entwurf eines Testszenarios mit klassi- schen Lernzieltests: Vortest (Pre-Test) zur Erfassung der Vorkenntnisse, Vergleichstest (Post-Test), Nachhal- tigkeitstest (Follow-up-Test) acht Wo- chen später . Der Vortest ist an einer nicht an der Untersuchung teilneh- menden Gruppe vorzunehmen, um Veränderungen auszuschließen, die allein durch den Vortest ausgelöst werden . Die Vortest-Gruppe muss die gleichen Eigenschaften besitzen wie die Experimentgruppen .
• Entwicklung von Forschungshypothe- sen und Nullhypothesen aus den For- schungsfragen .
• Verteilung der Probanden auf Unter- suchungs- und Kontrollgruppe, die hinsichtlich möglichst vieler relevan- ter Merkmale, wie Alter, Geschlecht, Studienfach, Vorkenntnisse (z . B . Abi- turnote), Migration, Semesterzahl, Computerzugang, Internetzugang usw . homogen und zufällig ist . Un- tersuchungs- und Kontrollgruppe sollen in ihrer Zusammensetzung also ununterscheidbar sein . Teilnehmer sollten nicht erkennen, welcher der beiden Gruppen sie angehören (Blind-
versuch) . Gelingt das für die Experi- mentatoren ebenfalls, liegt ein Dop- pelblindversuch vor .
• Analyse der Variablen, insbesondere der Störvariablen: Unabhängige Va- riable ist die didaktische Vorgehens- weise, abhängige Variable ist der Lernerfolg . Störvariablen sind alle am Versuch beteiligten sonstigen Vari- ablen, wie Lehrkraft, ausgewählte Themen, Übungen, Aufgaben, Dar- stellungsformen, sofern sie durch die verwendeten Medien beeinflusst wer- den . Diese Störvariablen müssen weit- gehend kontrolliert, ihr Einfluss auf die abhängige Variable ausgeschaltet oder so kontrolliert werden, dass er für beide Probandengruppen gleich- artig ist .
• Bestimmung der zu vermittelnden Gegenstände und ihrer zeitliche Rei- henfolge in der traditionellen und der E-Learning-Gruppe; ggf . Analyse des Einflusses der Variation bei un- terschiedlichen Abfolgen in beiden Gruppen .
• Gestaltung der Lehrmethoden, Ar- beitsmittel und Medien für beide Varianten . Detaillierte Analyse der (zwangsläufigen) Unterschiede und ihrer möglichen Einflüsse auf das Ver- suchsergebnis .
• Auswahl der Dozenten für Unter- suchungs- und Kontrollgruppe: Das Spektrum reicht von „zwei nicht am Versuch beteiligte Dozenten unter- richten“ (Nachteil u . a .: starke Un- terordnung des Dozenten unter die Randbedingungen des Versuchs) bis
„Versuchsleiter unterrichtet beide Gruppen“ (Nachteil u . a .: Vorwurf, ge- wünschte Versuchsergebnisse durch eigenes Verhalten vorwegzunehmen) . Ein Ausweg: Man wählt Dozenten (darunter der Versuchsleiter), die von dem jeweils unterrichteten Ansatz positiv überzeugt sind . Kompetenz und Erfahrung der Dozenten sind zu überprüfen . Durch Fragebögen an die Probanden der beiden Gruppen ist zu klären, ob beide Dozenten ähnlich subjektiv wahrgenommen werden, z . B . Arten der Veranschaulichung, sprachlicher Ausdruck, fachliche Kom- petenz, Erklärungsbereitschaft usw .
• Die gesamte Studie wird unterteilt in Vor- und Hauptstudie . Die Vorstudie
dauert in etwa solange wie die Haupt- studie . Sie dient dazu, Erfahrungen zu sammeln, Fehlerquellen zu erkennen, die Dozenten anzugleichen, wenn Wahrnehmungsunterschiede bei den Probanden bestehen, Testmethoden zu erproben usw .
• Entscheidung über Probanden und deren Testergebnisse, die während Teilen des Unterrichts oder der Tests fehlen .
• Bei der Entwicklung von Fragebögen sind für die erwarteten Lernerfolge jeweils Indikatoren und passende Di- mensionen zu erarbeiten, mit denen die Lernerfolge exakt gemessen wer- den können .
• Für die Tests ist eine Reihe von Gü- teüberprüfungen vorzunehmen hin- sichtlich Validität, Objektivität, Reli- abilität, Unabhängigkeit der Fragen voneinander, Itemschwierigkeit und -trennschärfe,
• Bei der Auswertung der Daten sind anerkannte statistische Verfahren zu verwenden . Sind hierfür alle Bedin- gungen erfüllt? Ein Signifikanzniveau wird festgelegt, und es werden Effekt- stärken und Irrtumswahrscheinlichkei- ten ermittelt .
• Bei der Diskussion der Ergebnisse wird den möglichen nicht kontrollierbaren Einflussgrößen besondere Aufmerk- samkeit gewidmet . Waren die Dozen- ten gleichartig? Wurden sie von den Probanden als gleichartig empfun- den?
• Bezug der Ergebnisse zu den For- schungsfragen und -hypothesen: Gibt es Einschränkungen? Gibt es weitere Fragen?
Literatur
Bransford, J .D .; Brown, A .L .; Cocking, R .R .: How people learn: Brain, Mind, Experience, and School . National Academic Press 1999 . DeLFI 2010: 8 . Tagung der Fachgruppe E-Lear-
ning der GI e .V ., LNI, Springer Berlin/Heidel- berg 2010 .
Ehlers, U .; Pawlowski, J .M .: Quality in European e-learning: An introduction . In Handbook on Quality and Standardisation in E-Learning, Springer (2006) 1–13 .
Ehlert, A .: Empirische Studie: Unterschiede im Lernerfolg und Unterschiede im subjekti- ven Erleben des Unterrichts von Schülerin- nen und Schülern im Informatik-Anfangsun-
44 i-com
1/2012Evaluation
terricht . Dissertation an der FU Berlin 2011 . Hasebrook, J . P .: Lernen mit Multimedia . Zeit-
schrift für pädagogische Psychologie 9,2 (1995) 95–103 .
Marques, C .G .; Novio, J .; Verissimo, M .: e-Qual:
e-Learning with Quality . Proposal for an Eva- luation Model on the Quality of e-Learning Courses . In A .J . Mendes, I . Pereira, R .Costa (Eds .): Computers and Education – Towards Educational Change and Innovation . Sprin- ger (2008) 3–90 . .
Preussler, A .; Baumgartner, P .: Qualitätssiche- rung in mediengestützten Lernprozessen
– zur Messproblematik von theoretischen Konstrukten . In: Qualitätssicherung im E- Learning . A . Sindler et al . (Hrsg .), Waxmann (2006) 73–85 .
Rey, G .D .: Theorien, Gestaltungsempfehlungen und Forschung, Abschnitt „Pauschale Ver- gleiche“ . http://www .elearning-psycholo- gie .de/pauschale_vergleiche .html (geprüft:
11 .01 .2012) .
Sindler, A .; Bremer, C .; Dittler, U . et al . (Hrsg .): Qua- litätssicherung im E-Learning . Waxmann 2006 . Stockmann, R . (Hrsg .): Evaluationsforschung:
Grundlagen und ausgewählte Forschungs-
felder . Waxmann 2006 .
Zimmer, G .; Psaralidis, E .: Der Lernerfolg be- stimmt die Qualität einer Lernsoftware! Eva- luation von Lernerfolg als logische Rekon- struktion von Handlungen . In P . Schenkel, S .-O . Tergan, A . Lottmann (Hrsg .) . Qualitäts- beurteilung multimedialer Lern- und Infor- mationssysteme . Evaluationsmethoden auf dem Prüfstand (2000) 22 .51 .
1 2
1 Prof. Dr. Johannes Magenheim ist seit 1998 Professor für Didaktik der Informatik an der Uni- versität Paderborn . Seine aktuellen Schwerpunkte in Forschung und Lehre sind neben der Didaktik der Informatik, E-Learning und Wissensmanage- ment . Er war und ist in diesen Bereichen an diver- sen nationalen und internationalen Forschungs- projekten beteiligt und Mitglied einschlägiger Gremien z . B . GI, IFIP, Experte der Schweizerischen Akademie der Technischen Wissenschaften . jsm@uni-paderborn .de
2 Prof. Dr. Andreas Schwill leitet seit 1996 den Lehrstuhl für Didaktik der Informatik an der Uni- versität Potsdam . Er hat Informatik studiert und wurde 1991 an der Universität Oldenburg in The- oretischer Informatik promoviert . Von 1991 bis 1996 forschte und lehrte er am Fachbereich Infor- matik der Universität Paderborn . Er ist Mitverfas- ser des Schülerduden Informatik und des Duden Informatik und ein Hauptherausgeber der elekt- ronischen Fachzeitschrift „Informatica Didactica – Zeitschrift für fachdidaktische Grundlagen der Informatik“ .
schwill@cs .uni-potsdam .de
45
1/2012