• Keine Ergebnisse gefunden

3.3.1 Flussdiagramm

Das Flussdiagramm (Abbildung 3.1) zeigt die Anzahl der eingeschlossenen und aus-geschlossenen Studien in jedem Schritt der Literatursuche. Die Ergebnisse der Lite-ratursuche haben 4.426 Treffer ergeben, wovon 2.190 aus der Medline-Suche resul-tierten und 2.236 in der PsycInfo-Suche identifiziert wurden. Von diesen 4.426 Tref-fern wurden 774 Studien wegen ungeeigneten Publikationstyps sofort ausgeschlos-sen. Die Evaluierung von Duplikaten beider Datenbanken zeigt nur eine geringe An-zahl überlappender Ergebnisse (n = 36). Dadurch wird deutlich erkennbar, dass die Interessen zwischen den medizinischen und psychologischen Datenbanken in Bezug auf die Fragestellung sehr unterschiedlich sind.

3.616 Studien wurden in die Titel-Abstract-Sichtung eingeschlossen. Von diesen Ar-tikeln haben lediglich 166 die Einschlusskriterien für Titel bzw. Abstract erfüllt. Diese wurden in der Volltextsichtung eingehender geprüft. In Bezug auf die Frage, ob die Studien von einer weiteren Evaluierung ausgeschlossen oder eingeschlossen wer-den sollten, wurde für die Sichtung der Datenbanksuchergebnisse ein Konsensus von 97,4 % zwischen den beiden Reviewern erreicht. Die Inter-Beurteiler-Reliabilität ist als „fast gut“ einzustufen (Cohen’s Kappa = 0,49). Es gibt verschiedene Gründe für die Unstimmigkeiten zwischen den Reviewern. Eine große Schwierigkeit war, dass die Abstracts oft nicht genug Informationen hergaben, um ein angemessenes Urteil fällen zu können. Kontrovers war besonders der Begriff „psychosozial“: Exposi-tionsvariablen, welche von dem einen Reviewer als psychosozial interpretiert wur-den, stimmten nicht mit dem Konzept von psychosozial des anderen Reviewers überein. Unterschiede gab es auch bei der Definition von Arbeitsbelastung. Deshalb wurden alle Studien, welche zumindest ein Ja-Urteil von einem Reviewer erhalten hatten, in die Volltextsichtung eingeschlossen.

Die Volltextsichtung endete im Ausschluss von 140 Studien (Abbildung 3.1). Gründe für diesen Ausschluss waren, dass

 sie Laborstudien waren (n = 46);

 sie ein unangemessenes Studiendesign verwendeten, wie zum Beispiel keine Kontrollgruppe, keine klare Definition der Fälle oder fehlende Randomisierung (n = 36);

 sie eine irrelevante Population untersuchten, wie zum Beispiel Studierende oder Arbeitslose (n = 6);

 die Expositionsvariablen nicht mit unserer Forschungsfragestellung in Bezug standen wie zum Beispiel helles Licht, Lärm von Maschinen, Persönlichkeits-charakteristika und Familien-Arbeits-Konflikt (n = 31);

 das untersuchte Outcome entweder schlecht definiert oder unzureichend er-fasst wurde (n = 20).

Die verbleibenden 34 Artikel wurden unter Einsatz der standardisierten Checklisten hinsichtlich ihrer Qualität evaluiert.

In der Qualitätsbewertung haben 17 Studien einen inadäquaten Qualitätsscore erhal-ten („-„). Eine detaillierte Auflistung der beobachteerhal-ten Limitationen kann im Anhang 1 nachgelesen werden. Bei den RCTs gab es große Mängel im Bereich Randomisie-rung, welche entweder unzuverlässig oder gar nicht durchgeführt wurde, sowie bei der Prozedur der Gruppeneinteilung; weiterhin waren die Stichprobengrößen oft viel zu klein. Häufig fehlte die Beschreibung der Stichprobe auch komplett. Generell un-tersuchten nur wenige Studien die Unterschiede zwischen den beiden Gruppen, be-vor die Intervention gestartet wurde. In solchen Fällen ist es nicht möglich, die Größe des berichteten Effektes zu interpretieren. Weiterhin waren unzureichende Verblin-dung (das Verblinden der Teilnehmer zur Fragestellung) sowie der Einschluss von freiwilligen, durch Werbung rekrutierten Teilnehmern Methoden, welche nachteilige Einflüsse auf die berichteten Ergebnisse bewirkt haben können.

Es gab keine Fallkontrollstudie, welche mit einem inadäquaten Qualitätsscore bewer-tet wurde („-„). Dies war jedoch bei zehn Kohortenstudien der Fall. Alle Kohortenstu-dien, welche einen inadäquaten Qualitätsscore erhielten, hatten Schwächen bezüg-lich der Stichprobe: Entweder war die prozentuale Teilnehmer-Rate so gering oder die Abbrecher-Rate so hoch, dass die Repräsentativität der Kohorte ernsthaft ge-schwächt war. Oder es gab einen Mangel in der Analyse bei der Kontrolle durch Confounder. Zusätzlich wurden in vielen Kohortenstudien Fälle aus der Baseline-Erhebung in den Analysen nicht ausgeschlossen oder das Outcome wurde nicht auf Baseline-Werte kontrolliert. Daher konnten die Vorher-Nachher-Effekte der Studie nicht zuverlässig unterschieden werden. Andere Gründe für eine Einschätzung als inadäquate Studie bei den Kohortenstudien waren (1) eine unzureichende Operatio-nalisierung der Exposition oder des Outcomes bzw. die Verwendung eines nicht standardisierten Instrumentes, (2) eine unangemessene statistische Analyse oder (3) eine nicht spezifische Forschungsfrage.

Insgesamt wurden 17 Studien mit einem adäquaten Qualitätslabel („+„) bewertet.

Eine detaillierte Beschreibung dieser Studien befindet sich in Anhang 2. Im folgenden Abschnitt werden die Ergebnisse dieser Studien einzeln diskutiert, geordnet nach dem untersuchten Effekt.

Abb. 3.1 Flussdiagramm der einzelnen Schritte der Studienselektion

Gesamtanzahl der Treffer nach Ausschluss irrelevanter Publikationstypen (n = 3.652) Einschluss-kriterien (P, E, O, D) und Methodik

Qualitätsbewertung

3.3.2 Zusammenfassung der Literaturrecherche

Nach sorgfältiger Evaluierung der ursprünglich 4.426 Suchergebnisse erfüllten nur 34 Publikationen die Einschluss- und Ausschlusskriterien. Weniger als 1 % aller Studien wurden als geeignet beurteilt, um die Fragestellung zu beantworten. Dennoch hat die intensive Sichtung und Dokumentation der Evaluierungsprozesse durch zwei unab-hängige Reviewer garantiert, dass ein hoher Level an Transparenz in dem Bearbei-tungsprozess sichergestellt war. Schließlich haben die Reviewer die Qualität der 34 Artikel, welche als relevant identifiziert wurden, bewertet. Nur Studien mit einem ge-ringen Risiko für systematische Fehler wurden in die Ergebnisse eingeschlossen und dann basierend auf dem untersuchten Effekt in Unterkategorien eingeteilt. Lediglich 17 Studien haben diese Kriterien erfüllt.

Die verbleibenden Studien weisen in sämtlichen Aspekten eine große Heterogenität auf. Die untersuchte Population variiert von der Allgemeinbevölkerung bis zu hoch-spezifischen Berufsgruppen wie Ärzten in der Notaufnahme und Beschäftigten in der Flugzeuginstandhaltung. Die Studiendesigns schließen sowohl randomisiert-kontrollierte Experimente als auch große Langzeit-Kohortenstudien ein. Publikatio-nen, welche Kurzzeiteffekte untersuchten, verwendeten am häufigsten experimentel-le Studiendesigns, während Forschung zu Demenz und kognitiver Verschexperimentel-lechterung im Alter meistens Kohortenstudien oder Fallkontrollstudien anwendeten. Die Exposi-tionen in den als relevant betrachteten Ergebnissen adressierten vielfältige Aspekte von psychosozialen Arbeitsbedingungen: job strain, arbeitsbezogener Stress, Schichtsysteme, die Dauer einer Schicht, kurzer Schlaf am Arbeitsplatz, psychische Beanspruchung am Arbeitsplatz, kognitive Stimulation, die Komplexität der Ar-beitsaufgaben, soziales Klima, Unterstützung durch den Vorgesetzten, Kontrollmög-lichkeiten und Arbeitszeit. Das Problem dieser großen Vielfalt ist, dass die meisten Expositionsvariablen nur in ein oder zwei Publikationen untersucht wurden, wodurch es praktisch unmöglich ist, zu stabilen Schlussfolgerungen über die Stärke des Effek-tes zu kommen. Des Weiteren ist die Interpretation der Ergebnisse sehr abhängig von der Qualität der Studien. Basierend auf dieser Heterogenität der identifizierten Studien ist das Durchführen einer Metaanalyse nicht möglich (siehe Kriterien für eine Zusammenfassen der existierenden Literatur im Rahmen einer Meta-Analyse von BERMAN et al., 2002).