• Keine Ergebnisse gefunden

K RITISCHE W ÜRDIGUNG DER EIGENEN V ORGEHENSWEISE

7. SCHLUSSFOLGERUNGEN

7.2 K RITISCHE W ÜRDIGUNG DER EIGENEN V ORGEHENSWEISE

Beim politikwissenschaftlichen Vergleich hat die Theoriebildung und die Wahl der For-schungsstrategie eine zentrale Rolle zu spielen, sonst befindet man sich „auf offener See ohne Karte und Kompass“ (Lauth und Winkler 2002: S.74). Diese Anweisung wurde bei der Ge-genüberstellung der 12 WM Verwaltungen strikt befolgt, um eine allgemeine Vergleichbar-keit zu gewährleisten. Dennoch stellt sich die grundlegende Frage inwiefern es Sinn macht, diese zwölf doch sehr unterschiedlichen Städte miteinander zu vergleichen. Die Bundeshaupt-stadt und WeltBundeshaupt-stadt Berlin wird mit einer Stadt wie Kaiserslautern verglichen, die nicht

41 Zu diesem Ergebnis kommt auch eine von AIESEC durchgeführte Studie, bei der 4000 WM Gäste während der WM interviewt wurden. Die Leute wurden u. a. danach gefragt, wie sie die Organisation der Spiele in den zwölf Städten einschätzen. Als Ergebnis kam heraus, dass sie überall als erfolgreich organisiert wahrgenommen wurde und Unterschiede zwischen den Städten statistisch nicht nachweisbar sind (AISEC 2006: S.18).

7. Schlussfolgerungen mal ganz hunderttausend Einwohner hat. Die europäische Finanzmetropole Frankfurt am Main wird mit Gelsenkirchen verglichen, einer Stadt, die außerhalb Deutschlands wohl eher wenigen Menschen bekannt sein dürfte. Jede dieser 12 an der WM beteiligten Städte hat seine typischen Eigenheiten, die sich aber nur schwer miteinander vergleichen lassen. Gerade Groß-städte haben ein eigenes in sich differenziertes Politikfeld und Ständesystem, dass organisato-rische Abläufe beeinflusst (Prigge und Schwarzer 2006: S.16). Für kleinere Städte wie Kai-serslautern, Gelsenkirchen oder Leipzig war die WM ein Jahrhundertereignis. Für eine Stadt wie Berlin oder Hamburg war sie zwar eine außergewöhnliche Veranstaltung, aber trotzdem eine von vielen. Eine erfolgreiche Verwaltungsperformanz in einem rückwärts gerichteten Forschungsdesign (Ganghof 2005: S.76) für so unterschiedliche Städte zu erklären stellt sich im Nachhinein als äußerst schwierig heraus. Unter dem Punkt Besonderheiten wurde bei der Operationalisierung versucht, diese zu berücksichtigen. Dennoch sind die Städte in vielen Aspekten so vielschichtig, dass nicht alles erfasst werden konnte. Beispielsweise wurde bei der Vergleichbarkeit der Städte nicht darauf eingegangenen inwiefern es eine Rolle gespielt hat, ob dort die Süddeutsche Ratsverfassung oder die Norddeutsche vorherrschend war (Bo-gumil 2006: S.61-66). Außerdem wurde nicht mit einbezogen, dass für manche Städte nach dem Viertelfinale bereits Schluss mit der WM war und Städte, die weitere Spiele ausführen konnten dadurch im Vorteil waren (Linke-Lorenz 2007: S.7; Murrmann 2007: S.8). Es wurde ein Modell entwickelt, dass die Fragestellung bestmöglich beantworten soll, aber bestimmt nicht kritikresistent ist.

In Abschnitt 4.4 wurde ausführlich dargestellt, wie die einzelnen theoretischen Konstrukte dieser Arbeit gemessen werden. Ein Problem bei der Operationalisierung könnte gewesen sein, dass beispielsweise manche Fragen zu allgemein gehalten worden sind. Bei der Frage, ob die gewünschten Ergebnisse erreicht werden konnten, hat man keine Garantie dafür, dass sie überall dasselbe misst. Je nachdem wie hoch oder niedrig das Erwartungsniveau des ein-zelnen Stadtexperten war, kann die Antwort hierauf sehr unterschiedlich ausfallen und infol-gedessen vom Forscher falsch bewertet werden. Die Frage nach der erfolgreichen Zusammen-arbeit mit dem OK ist ebenfalls kritisch zu bewerten, da diese personenbezogen ist und sich die Städte diesbezüglich ziemlich schwer miteinander vergleichen lassen. Obwohl die Opera-tionalisierung der abhängigen Variable sehr komplex angelegt ist, indem sie sich aus einem externen Indikator, den Antworten der Stadtexperten und des Experten für Städte und Stadien

7. Schlussfolgerungen des OK zusammensetzt, hätte man zum Beispiel noch eine zusätzliche Expertenmeinung42 hinzuziehen können, um eine weitere Außenperspektive zu gewinnen.

In Kapitel 2 wurden die Vorteile der fsQCA Analyse dargestellt. Diese waren ausschlagge-bend dafür, dass sich für dieses Verfahren entschieden wurde. Die Probleme der fsQCA blie-ben bislang unerwähnt. Ein grundlegendes Problem bei der fsQCA ist vor allem die Codie-rung (Jahn 2006: S.434). Den vier Bedingungen und dem Outcome mussten vom Forscher ein Zugehörigkeitswert43 zugewiesen werden. Hierbei ist eine „intersubjektive Überprüfbarkeit von Klassifikationen anhand von statistischen oder anderer objektiver Kennzahlen nicht mög-lich“ (Jacobs 2003: S.144). Der Forscher hat einen großen Spielraum, die ermittelten Informa-tionen ad hoc zu interpretieren und zu klassifizieren (Blatter et al. 2007: S.233). Das kann man als Vorteil werten (Ragin 2000: S.154/155) oder so wie Jacobs als Nachteil: „Ich werte diese Flexibilität und Unschärfe keineswegs als die Stärke der Methode, sondern eher als die Schwachstelle (…)“ (2003: S.144). Die beiden gängigen Strategien, um den Zugehörigkeits-grad eines Elements zu einer Fuzzy-Menge festzulegen sind die direkte und die indirekte Zu-weisung. Bei ersterer bestimmt ein Sachverständiger aufgrund seines Wissens einen Wert. Bei der indirekten Zuweisung wird ein weiterer Sachverständiger zur Codierung hinzugezogen (Verkuilen 2005: S.470-478). In vorliegender Arbeit wurde zunächst die Strategie der indirek-ten Zuweisung gewählt. Diese ließ sich jedoch nicht in die Praxis umsetzen44, so dass darauf-hin die direkte Zuweisung angewendet wurde. Schneider und Wagemann zufolge ist die Ü-berprüfung der Intercoder-Reliabilität sowieso eher fraglich, da Kontrollpersonen üblicher-weise nicht das Fachwissen des ersten Coders haben (2007: S.182). Verbunden mit der Me-thode der direkten Zuweisung sind Probleme bezüglich Interpretation, Zuverlässigkeit, Bias und des Ignorierens von eventuell fehlerhaften Zuweisungen (Verkuilen 2005: S.471-473).

Das Problem der empirischen Vielfalt wird von der fsQCA erkannt und berücksichtigt, aber nicht gelöst (Blatter et al. 2007: S.233). Durch die QCA Methode werden Idealtypen aller möglichen Kombinationen von Bedingungen erstellt. In der Wahrheitstafel tauchen aber im Normalfall immer Konstellationen auf, für die keine Fälle innerhalb des Datensatzes

42 Beispielsweise mit einem Experten vom deutschen Städtetag oder dem Vorsitzenden des WM Stabes 2006 der Bundesregierung.

43 Die Bestimmung des Zugehörigkeitsgrades ist recht komplex. Er gibt an, inwieweit ein betrachtetes Element die Eigenschaft einer unscharfen Menge erfüllt (Traeger 1994: S.7-15). Der Zugehörigkeitsgrad lässt sich nicht in eines der typischen Skalenniveaus einordnen und bei ihm handelt es sich um keine Wahrscheinlichkeit (Ver-kuilen 2005: S.468).

44 Sich in die Fülle an empirischen Informationen einzuarbeiten war für einen zweiten Sachverständigen leider nicht möglich. Von daher wurde dieser Versuch aufgegeben.

7. Schlussfolgerungen ren45. Es gibt zwar Möglichkeiten, diese Zeilen, für die es keine empirische Evidenz gibt, trotzdem in die Analyse mit einzubeziehen (z. B. mit dem Gebot der absoluten Sparsamkeit oder der blanket assumption), aber eine perfekte Lösung für das Problem begrenzter empiri-scher Vielfalt kennt auch die QCA nicht (Schneider und Wagemann 2007: S.101-107). Die fehlende empirische Information für manche Konstellationen in der Wahrheitstafel lässt sich

„eben nicht herbeizaubern“ (Schneider und Wagemann 2007: S.108).

Eine weitere fundamentale Kritik an dem Analyseverfahren ist die fehlende Generalisierbar-keit (Goldthorpe 1997: S.5-9). QCA baut auf den Millschen Methoden auf (Berg-Schlosser 2003: S.113) und von daher gelten für sie die gleichen Beschränkungen:

“The formal procedures used in the small-N comparative, historical, and organ-izational analyses under consideration are all deterministic in their conception.

Indeed, small-N studies cannot operate effectively under probabilistic assump-tions because they would require much larger N’s to have any meaningful results.

This ineffectiveness becomes clear when we analyze the reasoning used in small-N studies based on Mill’s methods” (Lieberson 1991: S.312).

Nur bei echten Zufallsstichproben ist eine Verallgemeinerung durch Anwendung der so ge-nannten Inferenzstatistik möglich (Schnell 1999: S.411-418). Aufgrund der deterministischen Vorgehensweise von QCA sind die Ergebnisse nicht verallgemeinerbar (Lieberson 1991:

S.310). Die Aussagekraft bleibt begrenzt. Da es sich bei vorliegender Arbeit jedoch um eine (Small-N) Vollerhebung handelt, steht die Generalisierbarkeit hier nicht zur Diskussion.