Methodische Vorgehensweise - Quantitative Erhebung zur Durchführung von Diskussionen im Geo- Ge

5 Quantitative Erhebung zur Durchführung von Diskussionen im Geo- Geo-graphieunterricht an Schulen in Berlin und Brandenburg

5.1 Methodische Vorgehensweise

Um einen ersten Eindruck über die Häufigkeit und die Gestaltung geographierelevanter Diskussionen im Unterricht zu bekommen, sollte eine möglichst große Anzahl unterschiedlicher Geographiestunden beobachtet werden. Da die Möglichkeiten eines einzelnen Beobachters be-grenzt sind, protokollieren mehrere Beobachter mithilfe desselben Beobachtungssystems den Geographieunterricht an verschiedenen Schulen systematisch. Beobachter sind 38 Lehramtsstu-denten der Universität Potsdam, die im Rahmen ihrer Ausbildung im Master Studiengang im Wintersemester 2009-2010 und Sommersemester 2010 ihr Praxissemester absolvieren. Die Beo-bachtungen finden während der Hospitationsstunden statt. So können 1414 Geographiestunden an Schulen unterschiedlicher Schulformen in Berlin und Brandenburg erfasst werden. Die den-noch starke Konzentration auf den Geographieunterricht an Gymnasien begründet sich durch die vermehrte Studienrichtung der teilnehmenden Beobachter, welche größtenteils das Lehramt an Gymnasien anstreben und deshalb auch an einem solchen ihr Praktikum ableisten. Trotz der rela-tiv großen Zahl beobachteter Stunden ist diese Stichprobe weder für den Unterricht der beiden Bundesländer noch für Gesamtdeutschland repräsentativ. Letzteres insbesondere deswegen nicht, weil der Unterricht bundesweit durch verschiedene RLP und daraus abgeleitete schulinterne Cur-ricula geprägt wird. Hinzu kommen allgemeine Aspekte wie die unterschiedlichen Lehrerpersön-lichkeiten und Klassenkonstellationen sowie individuelle Schülerleistungen.

Generell ist die Frage der Repräsentativität von Stichprobenumfängen unter Statistikern viel diskutiert und bislang bezüglich eines festen Richtwerts ergebnislos (Bortz / Döring 2006, S.

604). Von der Lippe (2011) sowie Prein / Kluge / Kelle (1994) befassen sich mit der Problematik und Repräsentativität kleiner Stichproben. Eines der von ihnen betrachteten Probleme ist der von einigen Statistikern als unzulässig erachtete, für die Überprüfung der Forschungsannahmen die-ser Arbeit dennoch in einigen Fällen genutzte Chi-Quadrat-Anpassungstest für kleine Stichpro-ben (ebd., S. 8), obgleich auch hier konkrete AngaStichpro-ben für MindeststichproStichpro-bengrößen offen blei-ben. Trotz der Kritik rechtfertigen Prein / Kluge / Kelle (ebd., S. 27) die Nutzung des Chi-Quadrat-Tests in kleinen Stichproben:

„Angesichts des Fehlens methodologischer Alternativen ist also beim Einsatz von Daten-vergleichen und Anpassungstests zwar extreme Vorsicht geboten, wenn hieraus die gene-relle Unverzerrtheit von Datensätzen abgeleitet werden soll; es erscheint jedoch

uneinsich-tig, warum ein Verfahren, das in bestimmten Situationen in der Lage ist, Verzerrungen aufzudecken, in der Forschungspraxis keine Anwendung finden sollte.“

Insofern scheint die Anwendung dieses Verfahrens zumindest für stärker besetzte Zellen dieser Untersuchung legitim. Der Chi-Quadrat-Test gibt Auskunft darüber, ob ein beobachtetes Vertei-lungsmuster zufällig entsteht. Er besagt, dass, falls eine Prüfgröße größer ist als der tabellierte Wert x², eine entsprechende Hypothese H, die beispielsweise von keinen Unterschieden bezüg-lich der Häufigkeiten von Diskussionen in verschiedenen Schulformen oder Klassenstufen aus-geht, abgelehnt werden muss und ihre Alternative A, die diesbezüglich signifikante Unterschiede annimmt, dagegen als bewiesen gilt. Ist die Prüfgröße jedoch kleiner als der tabellierte Wert, muss die Hypothese beibehalten werden, obgleich sie nicht bewiesen ist. Dies drückt sich in ma-thematischen Formeln wie folgt aus, wobei Chi mit dem Dach der geschätzte Chi-Wert ist:

 A bewiesen, H ablehnen /  H beibehalten

Die Bestimmung der Prüfgröße erfolgt mit folgender Formel, wobei i der jeweilige Beobach-tungswert, B ein beobachtetes Ereignis und E ein zu erwartendes Ereignis entsprechend der Ver-teilungsannahme ist:

Für die Festlegung des Signifikanzniveaus α, das die Wahrscheinlichkeit beschreibt, dass irrtüm-lich die Alternative angenommen und die Hypothese abgelehnt wird, werden 5 Prozent also α = 0,05 angelegt, um die Irrtumswahrscheinlichkeit möglichst klein zu halten. Ein abschließender Vergleich der Prüfgröße mit dem tabellierten Wert der Chi-Quadrat-Verteilung (1-α = 1-0,05 = 0,95) gibt nun beispielsweise Auskunft darüber, ob die Verteilungsart zwischen der Häufigkeit von Diskussionen im Geographieunterricht und der Schulform bzw. Klassenstufe hinsichtlich dieser Merkmale signifikante Unterschiede zeigt.

Zur Einhaltung der Gütekriterien bei der Datenerhebung und -auswertung richtet sich die Gestaltung des Beobachtungsschemas nach den Anforderungen für ein derartiges wissenschaftli-ches Forschungsinstrument (stellvertretend Martin / Wawrinowski 2003, S. 60 ff., Grümer 1974, S. 43). Es beabsichtigt Grundlage für eine vergleichbare Erhebung und Auswertung quantitativer und qualitativer Daten mehrerer Beobachter zu schaffen, durch die Einblicke in den Stand der Nutzung und Durchführung von Diskussionen im Geographieunterricht gewonnen werden kön-nen. In der Gestaltung zu berücksichtigende Punkte sind daher:

 eine einfache Handhabung,

 eine übersichtliche Darstellung der Beobachtungsergebnisse,

 eine einfache Unterscheidung zwischen einzelnen Beobachtern und Schulformen,

 eine vorausgegangene theoretische Konzeption der Beobachtungsvariablen,

 eine an die Wahrnehmungsfähigkeit angepasste überschaubare Anzahl an Beobach-tungsvariablen,

 eine Unterteilung in konkrete Beobachtungsvariablen, deren Merkmalsausprägungen ei-ner inhaltlichen Diskussionsform bzw. Niveaustufe zugeordnet werden können,

 durch klare Definitionen festgelegte beobachtbare Merkmalsausprägungen der einzelnen Beobachtungsvariablen,

 die Möglichkeit zur eigenständigen Erweiterung der Beobachtungsvariablen durch ein-zelne Beobachter,

 der Einsatz einer neutralen Bewertungsmöglichkeit bei schwierig einzuordnenden Beo-bachtungen, um verzerrte Beobachtungsergebnisse durch Zwang zur Entscheidung zu verhindern,

 zwischenstufige Ratingskalen, die trotz uneindeutiger Beobachtung die Zuordnung zu einer überwiegenden Merkmalsausprägung ermöglichen.

Unter Berücksichtigung dieser Anforderungen an das Forschungsinstrument entsteht ein zweigliedriges Beobachtungssystem (siehe Anhang), welches im ersten Teil eine allgemeine Einschätzung des Geographieunterrichts bezüglich des Vorkommens von mündlichen und schriftlichen Argumentationssequenzen im Sinne eines „niedrig-inferenten“ Beobachtungsbogen bzw. Ereignisstichprobenverfahrens nach Helmke (2010, S. 288 ff.) mit geringem Entschei-dungs- und Ermessungsspielraum zulässt. Dabei beschränkt sich die Vorgabe nur auf Basisdi-mensionen und Leitbegriffe. Im Vergleich dazu stellt die Beurteilung der Beschaffenheit der beobachteten Diskussionen mittels Ratingbogen im zweiten Teil ein „hoch-inferentes“ Verfahren dar. Dementsprechend werden für die Beobachtungsvariablen Bewertungskriterien und Quali-tätsdimensionen formuliert, deren Einzelratings den Niveaustufen nach Polzius (1992, S. 108 ff.) und inhaltlichen Diskussionsformen nach Spiegel (2006a, S. 67) zugeordnet werden können. Die Bewertung der einzelnen Variablen bezieht sich auf die gesamte beobachtete Diskussionsse-quenz. Die Anzahl der Abstufungen in den Ratingskalen beträgt jeweils fünf, von denen jeweils zwei Ratings Zwischenstufen darstellen.

Tab. 5: Beschreibung der Niveaustufen mithilfe der Beobachtungsvariablen Niveaustufe 1 Niveaustufe 2 Niveaustufe 3

Diskussionsführung (eher) lehrerzent-riert

trifft beides zu (eher) schülerzent-riert

Argumentationsformulierung für Einschätzung zweitrangig

(eher) einfach bezugnehmend – komplex

Gesprächsverhalten für Einschätzung zweitrangig

(eher) unkoopera-tiv

(eher) kooperativ

Gesprächsstil für Einschätzung zweitrangig

(eher) unsachlich (eher) sachlich

Quelle: Eigene Darstellung

In Tab. 5 und 6 sind die Merkmalsausprägungen für die Unterscheidung der beobachteten Dis-kussionen nach Niveaustufen (siehe 2.3.2) und inhaltlichen Diskussionsformen (siehe 2.3.4) auf-geführt. In Fällen, in denen die Diskussionseinschätzungen nicht stringent den beschriebenen Definitionskriterien folgen, wird eine abschließende Einordnung einer Diskussion entweder an-hand eines besonders prägnanten Kriteriums getroffen oder gänzlich aus der Wertung ausge-schlossen.

Tab. 6: Beschreibung inhaltlicher Diskussionsformen mithilfe der Beobachtungsvariablen Gesprächsstil (eher) sachlich (eher) sachlich (eher) unsachlich Gesprächsverhalten (eher) kooperativ (eher) kooperativ (eher) unkooperativ Diskussionsergebnis Klärung (eher) Entscheidung

bzw. Kompromiss

Entscheidung oder Klärung

Gruppen-positionierung

(eher) beweglich trifft beides zu (eher) starr

Diskussionsfrage offen konstant /

geschlossen

beides möglich Quelle: Eigene Darstellung

Mithilfe des Beobachtungssystems beobachten die Studenten den Geographieunterricht als Fremdbeobachtung semi-strukturiert und verdeckt, als nicht-teilnehmende Beobachter in einer natürlichen Situation direkt. Damit werden in Form einer reduktiven Deskription und Einschät-zung die Aufgaben wissenschaftlicher Beobachtungen, also „[das] systematische Erfassen, Fest-halten und Deuten sinnlich wahrnehmbaren VerFest-haltens zum Zeitpunkt seines Geschehens“ (At-teslander 1995, S. 87) erfüllt. Die anschließende primär als Häufigkeitsanalyse angelegte Auswertung der studentischen Beobachtungen erfolgt mit SPSS (Version 21) und nutzt vorran-gig die Funktionen des Programms zur deskriptiven Statistik. Die statistische Auswertung ver-stärkt die oben diskutierte eingeschränkte Repräsentativität der Aussagen zusätzlich, indem eine nähere Beschreibung der Gestaltung von Diskussionen nur für knapp ein Drittel der beobachte-ten Diskussionen vorliegt. Unklar bleibt, ob und inwieweit die nicht erfolgte Nutzung des zwei-ten Teils des Beobachtungssystems auf eine zu hohe Komplexität der Beobachtungsvariablen und ihrer Merkmalsausprägungen zurückzuführen ist. Aufgrund der fehlenden Möglichkeit den Verlauf der Beobachtung und die Schwierigkeiten bei der Einschätzung des Unterrichts gemäß der Diskussionskriterien nachbereitend mit den Studenten zu besprechen, können hierzu nur Vermutungen geäußert werden. Einerseits mögen Erinnerungslücken bzw. -verzerrungen die komplexe Beschreibung einer beobachteten Diskussion in ihrem direkten Anschluss erschweren.

Anderseits könnte die Erfüllung der anderen Anforderungen des Praxissemesters die Studenten so beschäftigen, dass ihre Konzentrationsfähigkeit eine nähere Beschreibung der Diskussionen nicht zulässt.

Grundsätzlich sollen im Rahmen einer Beobachtungsinstruktion die Beobachterfähigkeiten geschult und gleichzeitig die Zuverlässigkeit der Vergleichsdaten bei mehreren Beobachtern im Sinne der Interrater- bzw. Intercoder-Reliabilität⁶⁵ sichergestellt werden. Dabei richtet sich das Vorgehen soweit möglich nach den empfohlenen Trainingsschritten bei Schnell / Hill / Esser (2011, S. 372). Nach anfänglicher Vorstellung des Beobachtungsvorhabens erhalten die Studen-ten im Vorfeld der Stundenhospitationen das Beobachtungssystem mit den dazugehörigen schriftlich fixierten Definitionen der einzelnen Beobachtungsvariablen und ihren Merkmalsaus-prägungen sowie eine Einweisung in das Argumentationsmodell von Toulmin (siehe 2.3.1.1), um Argumentationsinstanzen im Unterricht erkennen zu können. Die wichtigste Definition für die Überprüfung der Hypothesen, die allen Beobachtungen zu Grunde liegt, ist jedoch die eines Ge-sprächsereignisses, welches als Diskussion bezeichnet werden kann. Dafür werden aus der Viel-zahl der in den theoretischen Ausführungen genannten Kriterien, folgende Merkmale einer geo-graphierelevanten Unterrichtsdiskussion als konstituierend betrachtet:

 Es nehmen mindestens zwei Schüler an der Diskussion teil. Diese Voraussetzung muss gegeben sein, da Diskussionen dialogisch angelegt sind.

 Die Redezeit der Lehrkraft beträgt maximal 50 Prozent, da sonst die Gefahr besteht, dass fragend-entwickelnder Unterricht bereits als Diskussion angesehen wird. In dieser Form des Unterrichts wird der inhaltliche Verlauf des Gesprächs aber zu stark vom Lehrer be-einflusst und die Freiräume für Schülergedanken zu sehr eingeengt.

 Es ist eine These zu einem geographischen Thema vorhanden, da es ansonsten keine für das Vorankommen des fachlichen Unterrichts relevante Diskussion geben kann.

 Die Diskutanten bringen mehrere Argumente für oder gegen die These ein, denn nur so können Argumentationsketten entstehen, die für eine Diskussion konstituierend sind.

 Es wird mindestens fünf Minuten lang diskutiert. Diese Setzung verdankt sich der Tatsa-che, dass die Diskussion einer These Zeit braucht, wenn dabei Argumentationsketten entwickelt werden sollen. Die Festlegung der fünf Minuten selbst ist arbiträr, erscheint aber im Rahmen der 45 Minuten, die eine Unterrichtstunde umfasst, gerechtfertigt.

Nach gemeinsamer Besprechung der Definitionen und Beobachtungsvariablen und der Klärung offener Fragen wird den Studenten ein fünfminütiger Ausschnitt aus der videographier-ten Diskussion in einer zehnvideographier-ten Klasse zum geplanvideographier-ten Bau des Großflughafen Berlin Branden-burg „Willy Brandt“ (BER) gezeigt. Die Studenten sollen die gezeigte Diskussion gemäß der Beobachtungsvariablen einschätzen und ihre Einschätzungen im Beobachtungssystem protokol-lieren. Im Anschluss werden die Beobachtungsergebnisse aller Studenten zusammengetragen und miteinander verglichen. Ziel ist es Übereinstimmung zwischen den unterschiedlichen

Dis-65 Hierzu ausführlicher unter Bortz / Döring 2006, S. 263 ff.

kussionseinschätzungen zu erreichen. Dazu wird in jedem Fall, in dem ein Student zu einer ande-ren Bestimmung der Merkmalsausprägung einer Beobachtungsvariable als die andeande-ren kommt, solange in der Gruppe diskutiert bis sich alle Studenten aufgrund schlüssiger Argumentation auf eine gemeinsame Bewertung einigen können. Für die Diskussion dienen die einzelnen Definitio-nen der Beobachtungsvariablen und ihrer Merkmalsausprägungen als Argumentationsgrundlage (siehe Anhang). Da die Beobachtung als Teil eines Begleitseminars zum Praxissemester durch-geführt wird, können nicht alle wünschenswerten Untersuchungsschritte eingehalten werden. So entfällt beispielsweise eine Probebeobachtung mit anschließender gemeinsamer Variablenerar-beitung und deren ÜberarVariablenerar-beitung nach erneuter Testung mit den Studenten. Zudem ist eine ab-schließende Überprüfung der Interrater-Reliabilität in der tatsächlichen Beobachtung der einzel-nen Geographiestunden, wie in Bortz / Döring (2006, S. 275 ff.) beschrieben, nicht möglich.

Schließlich wird keine der 1414 jeweils nur von einem Studenten beobachteten Geographiestun-den medial aufgezeichnet, um sie einer erneuten Beobachtung durch andere zu unterziehen und die Beobachterübereinstimmung zu testen. Insofern ist eine hundertprozentige

Interrater-Reliabilität trotz intensiver Bemühungen nicht garantiert. Auch die Einhaltung der Kriterien für die Arbeitsdefinition zur Bewertung von Diskussionen lässt sich nicht immer prüfen, da die Stu-denten entgegen der Aufforderung dazu in ihrer Beobachtung beispielsweise selten Gebrauch von der Möglichkeit machen, die eigentliche Diskussionsdauer im Feld „Bemerkung“ zu notie-ren. Trotz des allgemeinen Vertrauens in das Urteilsvermögen der teilnehmenden Studenten, werden daher in sich widersprüchliche oder uneindeutige Beobachtungen von der Analyse des gesamten Datenmaterials ausgeschlossen. Weitere Probleme in der Auswertung der Beobach-tungsschemata ergeben sich durch Schwierigkeiten bei der Entzifferung schwer leserlicher Handschriften für die Feststellung des Diskussions- oder Stundenthemas.

Im Dokument Diskussionen im Geographieunterricht (Seite 168-173)