Institut für die Pädagogik der Naturwissenschaften an der Universität Kiel (IPN) Rolf Langeheine

(1)

Rolf Langeheine^* 27. Juli 1998 BLK-Programmförderung

„Steigerung der Effizienz des mathematisch-naturwissenschaftlichen Unterrichts“

Evaluation

Wenn sich jemand einen Plan für eine Handlung macht und ihn dann ausführt, ist es sinnvoll, sich schließlich zu fragen, was denn dabei herausgekommen ist. Bin ich zufrieden mit dem Ergebnis? Ist es gut gegangen? Wo gab es Schwierigkeiten? Was hab’ ich nicht bedacht?

Was hätte ich anders/besser machen können?

Neudeutsch wird so etwas in den (Sozial-)Wissenschaften „Evaluation“ genannt. Das ist nichts anderes, als sich und anderen Rechenschaft darüber abzulegen, was man denn gemacht hat. Etwas anders ausgedrückt: Man bewertet Handlungsalternativen im Hinblick auf einen Plan bzw. ein Ziel. Dies erfolgt in der Regel rückblickend, indem man fragt/bewertet, ob die Handlungen geeignet waren, das Ziel zu erreichen. Evalution betreibt jeder von uns tagtäg- lich. Schmecken die Eier, die ich gestern mit Bedacht (nach Überlegung, Plan) gekauft habe, besser als die von meinem alten Marktstand? Das ist ein Beispiel für einen Prozeß, der sich zeitlich nur auf einen kurzen Zeitraum von ein paar Tagen bezieht. Natürlich können Zeit- räume viel länger sein. Beispiel: Jemand stellt sich eine Liste von Eigenschaften zusammen, die für ihn/sie die/der optimale Lebenspartner/in haben sollte. Die Prüfung/Abarbeitung dieser Liste kann Monate, vielleicht Jahre dauern. Die beiden Beispiele haben außerdem sach- lich/inhaltlich große Unterschiede in der Vielfalt/Komplexität dessen, worauf zu achten ist.

Wenn es also sinnvoll erscheint, sein Tun zu evaluieren, und wir das ohnehin schon dauernd tun, so ist Evaluation um so mehr geboten/erforderlich, wenn der Plan, um den es wie im

* Dieser Text basiert auf Theorien und Ergebnissen der Evaluationsforschung. Zur Erleichterung der Lesbarkeit wurde auf Literaturangaben verzichtet. Die wichtigsten der benutzten Quellen sind jedoch am Schluß aufgelistet. Der Autor ist Mitherausgeber der Zeitschrift Studies in Educational Evaluation (SEE) und würde sich freuen, wenn Ergebnisse dieses Modellprogramms, sei es in Form formativer oder summativer Evaluation, zur Publikation bei SEE eingereicht werden.

(2)

BLK-Modellversuch geht, mit (externen) Gratifikationen (wie z.B. Geld, Stundenerlaß etc.) versehen ist.

Das Eier- und das Partnerschaftsbeispiel mögen als Beispiele aus der Alltagsevaluation er- scheinen. Alltagsevaluation und wissenschaftliche Evaluation könnte man versucht sein da- durch zu unterscheiden, daß letztere systematischer als erstere durchgeführt wird. Zumindest das Partnerschaftsbeispiel zeigt jedoch, daß die Grenzen fließend sind. Die Aufstellung und Überprüfung einer Checkliste von Eigenschaften, die mein/e Partner/in haben sollte, zeugt bereits von erheblicher Systematik.

Sinn und Zweck dieses Beitrags ist es, den am Modellversuch beteiligten Schulen Anregun- gen dafür zu geben, wie sie ihre Arbeit selbst evaluieren können.

Formen der Evaluation

Zu einem Programm sollte gehören, daß es bewertet/evaluiert wird. In der Literatur zur Eva- luationsforschung gibt es eine ganze Reihe von Definitionen/Unterscheidungen darüber, was genau unter Evaluation zu verstehen ist. Mit einer dieser Unterscheidungen wird die formative Evaluation von der summativen Evaluation abgesetzt.

Die formative Evaluation bezieht sich auf die Beurteilung eines Programms während dessen Entwicklung/Formung mit dem Zweck der Verbesserung. Sie liegt in den Händen der Perso- nen, die das Programm planen, entwickeln und durchführen, und wird deshalb auch als in- terne oder Selbstevaluation bezeichnet. Sie ist nichts anderes als Reflexion der eigenen Arbeit mit dem Ziel, das Ergebnis dieser Arbeit zu optimieren. Wenn der Koch seine Suppe probiert, dann ist das formative Evaluation. Wenn eine Lehrerin sich fragt, ob die Methode X oder Y besser zur Einführung in den Stoff der nächsten Stunde geeignet ist, dann ist das formativ. Nur auf formative oder Selbstevaluation wird im weiteren detaillierter eingegangen.

Summative Evaluation im Fall des Suppenbeispiels könnte darin bestehen, die Gäste zu be- fragen, wie ihnen die Suppe gefallen hat. Es erfolgt also eine personelle Trennung derjenigen, die das Programm entwickeln, und derjenigen, die es bewerten. Das Ziel der summativen Evaluation besteht darin, die Qualität und den Einfluß eines bereits stattgefundenen Programms festzustellen und abschließend zu bewerten. Es gilt also zu entscheiden, ob das Programm effektiv ist und weitergeführt oder beendet werden soll. Für das BLK-Modellprogramm wäre dies eine Evaluation der Effizienz des gesamten Programms. Es ist üblich, eine solche Evaluation in die Hände eines externen Evaluationsteams zu legen. Diese externe Evaluation wird durch den wissenschaftlichen Beirat des Modellprogramms initiiert werden.

(3)

Selbstevaluation: Warum, wozu, wer?

Ein paar Gründe wurden bereits genannt: Wir machen es ohnehin laufend; in einem Pro- gramm wie dem BLK-Modellprogramm ist die Forderung danach legitim. Zu dieser Alltags- bzw. formalen Begründung kommt eine sachliche hinzu: Formative oder Selbstevaluation zwingt dazu, die einzelnen Schritte von der Planung des Vorhabens bis zu deren Umsetzung und eventuellen Revision genau zu dokumentieren und zu überdenken, Fehler rechtzeitig zu identifizieren und zu korrigieren. Sie soll dabei helfen, das zu verbessern was man tun will.

Im Gegensatz zu einer summativen Evaluation am Ende eines Programms ist die Selbsteva- luation daher prozeßorientiert und setzt sehr früh ein.

Evaluation bedeutet also, daß einzelne Teile eines Programms oder deren Kombinationen im Hinblick auf ein vorher festgesetztes Ziel bzw. hinsichtlich Wirkung und Nutzen bewertet werden. Durch die Ergebnisse dieser Beurteilung soll die Qualität des Programms gesichert, verbessert oder neuen Anforderungen angepaßt werden. Evaluation dient also der Qualitätssi- cherung (vgl. Modul 11). Qualitätssicherung dient den Lernenden (sie lernen das richtige leichter und dauerhafter). Sie dient den Lehrenden (sie müssen nicht mit fehlerhaften, über- holten, widersprüchlichen, langweiligen oder unverständlichen Lehr- und Lernmaterialien arbeiten). Sie dient allen anderen, die ein Interesse daran haben, das die Investition „Bildung“

einen Nutzen bringt.

Damit dieses Unternehmen gut funktioniert, ist es wichtig, daß alle Beteiligten wissen, was wozu beurteilt bzw. bewertet werden soll. Man kann dazu die Beteiligten in einer kleinen Veranstaltung darüber informieren, daß Evaluation nicht zum Ziel hat, die Lernenden in ihren Leistungen zu bewerten bzw. zu kontrollieren. Im Gegenteil: Alle Beteiligten sollen aktiv dazu beitragen, durch die Evaluation die Wirksamkeit und Qualität des Programms zu sichern. Es gibt also nicht nur einen Evaluator, der die Evaluation von oben herab lenkt und kontrolliert - alle sind beteiligt.

Selbstevaluation: Wie?

Die Selbstevaluation sollte sich als Richtschnur setzen, daß Antworten auf folgende vier Hauptfragen gegeben werden:

1. Welche (Lern-)Ziele sollen durch das Programm erreicht werden?

2. Welcher Plan soll zur Erreichung dieser Ziele führen?

3. Funktioniert das Programm nach Plan?

4. Erreicht das funktionierende Programm die erwünschten Ziele?

(4)

Diese vier interdependenten Fragen entsprechen vier aufeinander aufbauenden Schritten bei der Entwicklung eines Programms. Sie bieten zugleich ein nützliches Schema für die prakti- sche Evaluationsfähigkeit.

In Schritt 1 geht es um die Formulierung und Bewertung von Zielen. Sobald Ziele formuliert worden sind, gilt es zunächst zu fragen, ob diese Ziele überhaupt als erstrebenswert anzuse- hen sind. Zum anderen geht es um die Frage, ob die Ziele hinreichend genau angegeben werden können, z.B. in Form beobachtbarer und meßbarer Verhaltensweisen. Schließlich sollte geprüft werden, ob die Zielspezifikation wirklich den intendierten Zielen entspricht und ob die Ziele überhaupt erreichbar sind.

Im Vordergrund von Schritt 2 steht die Entwicklung eines Plans, mit dessen Hilfe die Ziele erreicht werden sollen, sowie um Fragen der Bewertung dieses Plans, wie z.B.: Ist der Plan detailliert genug entwickelt, damit die Ziele erreicht werden können? Wie wahrscheinlich ist es, daß sich der Plan verwirklichen läßt? Wird der Plan auch von Personen verstanden, die ihn später vielleicht einmal verwirklichen sollen/möchten?

Während die Bewertung von Schritt 1 und 2 sowie die Beurteilung ihrer Relation (entspricht der Plan den Zielen) vorwiegend eine nicht-empirische Tätigkeit ist, können im dritten Schritt wenigstens partiell empirische Verfahren zur Evaluation zum Einsatz kommen.

Schritt 3 bezieht sich auf die Frage, ob das Programm wirklich dem Plan zur Erreichung der Ziele entspricht. Es muß also untersucht werden, ob das Programm so funktioniert, wie es der Plan vorsieht, ob Aktivitäten plangemäß durchgeführt werden. Ist dies nicht der Fall, so muß geklärt werden, was getan werden muß, damit Plan und Durchführung sich entsprechen.

In Schritt 4 geht es schließlich um die Bewertung der Ergebnisse des durchgeführten Pro- gramms in Hinsicht auf die eingangs formulierten Ziele. Dabei ist zu beachten, daß wirklich alle Ziele evaluiert werden. Darüber hinaus ist die Frage von Interesse, welche nicht geplanten Veränderungen außer den explizit geplanten evaluiert werden sollen. Oft werden z.B.

Veränderungen affektiver Verhaltenskomponenten nicht planmäßig verfolgt, obwohl es wün- schenswert ist, daß positive Einstellungen zu einem Lernstoff zusätzlich zu kognitiver Be- wältigung des Stoffs entwickelt werden. Und schließlich wird man sich fragen müssen, welche Folgerungen sich aus den Ergebnissen der Evaluation möglicherweise für eine Modifika- tion des Programms ableiten lassen.

(5)

Dokumentation, Messung ...

Die oberste Regel lautet:

Die Programmentwicklung muß von Anfang bis Ende detailliert dokumen- tiert und beschrieben werden.

Der Schlüssel zu einer effektiven (Selbst-)Evaluation besteht in einer guten Kommunikation.

Information darüber, wo das Pogramm funktioniert oder nicht, muß deshalb rechtzeitig und klar festgehalten werden. Dabei können kritische Bewertungen des gesamten Programms oder von Teilen davon durch Mitglieder betroffener Gruppen (z.B. Schüler, Kollegen, Eltern, Experten) wertvoll sein.

Schritt 1 (Zielspezifikation) und Schritt 2 (Plan zur Zielerreichung) sind primär konzeptueller Art. Ab Schritt 3 wird es eher möglich sein, zu „messen“ oder zu messen. Mit „messen“ sind eher „weiche“ Meßverfahren gemeint, deren Verwendung jedoch in der formativen Evalua- tion ihre volle Berechtigung hat. Dies schließt nicht aus, daß auch „harte“ Meßinstrumente eingesetzt werden, die den in den Sozialwissenschaften üblichen Kriterien genügen: Objek- tivität (kommen verschiedene Auswerter zum gleichen Ergebnis?); Reliabilität (wie zuver- lässig mißt ein Test ein bestimmtes Merkmal, eine Eigenschaft oder ein Verhalten?);

Validität (wie genau mißt ein Test tatsächlich, was er messen soll oder zu messen vorgibt?).

Auf eine Reihe von Meßinstrumenten/Tests letzterer Art wird in den Modulen 10 (Prüfen ...) und 11 (Qualitätssicherung ...) näher eingegangen. Prinzipiell gilt jedoch: Zur Selbstevaluation der Entwicklung eines Programms können alle Instrumente eingesetzt werden, egal ob sie eher in die Kategorie “weich“ oder „hart“ fallen. Der Phantasie der Evaluatoren sind also keine Grenzen gesetzt. Jedes Instrument sollte aber daraufhin geprüft werden, ob es geeignet ist, die Antwort zu geben, die erwartet wird.

Im folgenden wird beispielhaft versucht, Anregungen für die maßgeschneiderte Eigenent- wicklung von Meßinstrumenten zur Evaluation des spezifischen Programms zu geben. Ziel jedes Programms wird es sein, in der Schule etwas zu verändern. Solche Veränderungen kön- nen quantitativer und/oder qualitativer Natur sein.

Im Anhang befindet sich darüber hinaus eine Kopie des Kapitels “3.4 Erhebungsmethoden für Evalutionen“ aus Reinmann-Rothmeier et al. Diesem Kapitel liegt eine andere Strukturie- rung zugrunde als den folgenden Seiten. Der Leser wird teilweise „hier“ wiederfinden was er

„dort“ schon gesehen hat, und - hoffentlich - in jedem Teil spezifische Anregungen erhalten.

Quantitative Messungen

Relativ einfach läßt sich die Häufigkeit oder Anzahl bestimmter Tätigkeiten oder Verhal- tensweisen feststellen, z.B.:

(6)

- Die Anzahl derjenigen, die angeben, daß sie mit dem Programm zufrieden sind oder Kritik und Wünsche äußern.

- Die Anzahl derjenigen, die einen konkreten Nutzen von dem Programm haben oder es so sagen.

- Die Anzahl derjenigen, die das Programm übernehmen oder es verlassen.

- Die Anzahl von Interaktionen mit anderen Schülern oder Lehrern.

- Die Anzahl richtiger Lösungen in einem Test.

- Die Anzahl gelesener Bücher.

Zur quantitativen Messung können denjenigen, von denen man Rückmeldung über die Wirk- samkeit eines Programms Information erwartet, ebenfalls Skalen vorgegeben werden, z.B.

- Wie zufrieden bist Du/sind Sie mit ...? (und hier ist es ratsam, nicht das Programm global beurteilen zu lassen, sondern besser konkrete Einzelaspekte).

- Wie effektiv war die Chemie-Einheit, Schülerinnen in der selbständigen Planung von Ex- perimenten zu unterstützen?

- Die stärkere Kombination von dem Physik-Kurs X mit der notwendigen Mathematik hat die Fähigkeit der Dateninterpretation bei Schülern verbessert.

- Die Kooperation und Interaktion zwischen Paaren von Schülern und Kleingruppen hat zugenommen.

- Die Schülerinnen sind engagierter und konzentrierter bei der Arbeit.

1 2 3 4

voll und ganz ziemlich weniger überhaupt nicht

Bislang wurde nach Mengen (Anzahl) und bei den Skalenbeispielen u.a. nach Veränderungen gefragt. Methodisch erscheint es aber oft sinnvoller, Veränderungen auf der Basis wiederhol- ter Messungen zu beurteilen. Besteht das Ziel eines Programms z.B. auch in der Veränderung der Lehrer-Schüler-Interaktion, so könnte man an zwei oder mehr Zeitpunkten (Schulstun- den) dokumentieren lassen (durch Kollegen, Schüler, Eltern), wie oft eine Initiative vom Lehrer oder den Schülern ausgegangen ist, und die resultierenden Häufigkeiten über die Zeit vergleichen. Differenzierter wäre die Aufzeichnung von Sequenzen wie z.B.

L L L S L L S S L L L L S L S

(L = Lehrer, S = Schüler) für mehrere Schulstunden. Eine solche Sequenz kann sehr lang werden. Sie läßt sich aber übersichtlich in einer Veränderungsmatrix darstellen:

(7)

L S L ½½½½

½½ ½½½½

S ½½½ ½

10 5

Man sieht daraus: Der Lehrer dominiert über die Schüler mit 10 zu 5 Initiativen. Wechsel vom Lehrer zu Schüler gibt es 4mal, von Schüler zu Schüler gar nur 1mal. Dabei ist offen gelassen, ob es dieselbe oder eine andere Schülerin war. Man könnte also eine dritte Katego- rie einführen (^S^s = dieselbe, ^S^a = eine andere Schülerin). Macht man dies für mehrere Schulstunden, so kann man die Matrizen auf Veränderungen vergleichen.

Bei der Messung von Lernerfolgen bei Schülern werden zuweilen sog. lernzielorientierte oder kriteriumsorientierte Tests verwendet, die speziell für eine Unterrichtseinheit entworfen werden. Die Einheit wird in kleinere Teile zerlegt, für die jeweils Testaufgaben entwickelt werden. Die Rückmeldung an die Lernenden besteht nicht in einer globalen (summativen) Zensur, sondern in Bezeichnungen wie „gemeistert“ oder „mehr Arbeit notwendig“. Die wesentliche Information liegt nicht im Gesamttestwert, sondern im individuellen Muster der Aufgabenlösungen. Zweck solcher Tests ist es somit zu klären, an welcher Stelle einer hierarchisch aufgebauten Einheit Schüler Schwierigkeiten haben. Solche Tests sollen dabei helfen, den Lernprozeß zu steuern. „Mastery Learning“ oder individuenbezogene Rückmeldung hatte um 1970 eine relative große Konjunktur und spielt in neueren Publikationen zu „class room assessment“ (vgl. Modul 10: Prüfen ...) eine große Rolle.

Qualitative Messungen

Quantität hat korrespondierende Qualität. Qualität hat etwas zu tun mit Nuancen, mit Details, mit subtilen, einzigartigen Aspekten jenseits von Punkten auf einer Skala. Qualität fällt eher zwischen die Punkte einer Skala. Über die Punkte auf einer Skala hinaus gibt Qualität Ant- wort auf Fragen wie: Was bedeutet das Programm für mich? Was ist die Qualität meiner Er- fahrungen? z.B.:

- Was bedeutet es für einen Schüler, wenn er eine bestimmte Anzahl Bücher gelesen hat?

Wie berührt ihn das persönlich und intellektuell?

- Was bedeutet einer Schülerin Rechtschreibung? Was denkt sie über Rechtschreibung, wie geht sie das an, wie fühlt sie darüber?

Antworten auf solche Fragen beschreiben die Sichtweise und Situation des Schülers/der Schülerin, so daß Bedeutungen von Erfahrungen festgehalten werden.

(8)

Ein weiterer Grund für qualitative Messungen besteht darin, daß quantitative Meßinstrumente oft nicht vorhanden oder nicht direkt brauchbar sind, z.B.:

- Kreativität: Ein Progrmm, das darauf zielt, Schüler/innen kreativer zu machen, ist besser beraten, im Detail Aktivitäten, Verhalten, Gedanken, Gefühle der Schüler zu dokumentieren.

- Selbstwertgefühl: Skalen messen oft nicht sensibel genug. Für jemanden, dessen Selbstwertgefühl schon relativ hoch ist, mag eine Skala nicht sensibel genug sein, um den Zuwachs in einer Veränderung zu messen, die bedeutend für sie/ihn ist. Es kann deshalb sinnvoller sein, einfach zu fragen, ob sich etwas verändert hat (und, wenn ja, wie das aus- sieht).

- Universelle, standardisierte Tests oder Fragebögen sind oft für lokale Programme nicht relevant. Genauere Evaluations-Ergebnisse können durch Dokumentation der tatsächlichen Arbeit von Schülern gegeben werden: Was können Schüler tun, was haben sie getan?

Daten zu diesem Typ von Messung wird man am ehesten durch Befragung oder Dokumenta- tion von Beobachtungen erhalten.

(9)

Literatur

Black, P. & Atkin, J.M. (1996). Changing the subject: Innovation in science, mathematics and technology education. London: Routledge for OECD.

Block, J.H. (1971). Mastery learning. Theory and practice. New York: Holt, Rinehart &

Winston.

Bloom, B.S., Hastings, J.T. & Madaus, G.F. (1971). Handbook of formtive and summative evaluation of student learning. New York: McGraw-Hill.

Bortz, J. & Döring, N. (1995). Forschungsmethoden und Evaluation. Berlin: Springer.

Kleber, E.W. (1992). Diagnostik in pädagogischen Handlungsfeldern. Einführung in Bewertung, Beurteilung, Diagnose und Evaluation. Weinheim: Juventa.

Lindvall, C.M. & Cox, R.C. (1970). Evaluation as a tool in curriculum development. The IPI Evaluation Program. AERA Monograph Series on Curriculum Evaluation, No. 5.

Chicago: Rand McNally.

Patton, M.Q (1990). Qualitative evaluation methods . Beverly Hills: Sage.

Reinmann-Rothmeier, G., Mandl, H. & Prenzel, M. Computerunterstützte Lernumgebungen, Planung, Gestaltung und Bewertung. Publicis MCD Verlag.

Sriven, M. (1981). Evaluation third edition thesaurus. Inverness: Edgepress.

Wottawa, H. & Thierau, H. (1990). Lehrbuch Evaluation. Bern: Huber.

Wulf, C. (1971). Curriculumevaluation. Zeitschrift für Pädagogik, 17, 175-201.

Wulf, C. (1972). Evaluation. Beschreibung und Bewertung von Unterricht, Curricula und Schulversuchen. München: Piper.