• Keine Ergebnisse gefunden

Als Stärke unserer Studie kann das Studiendesign hervorgehoben werden. Beim Messwiederholungs- bzw. Crossoverdesign führt jeder Proband in randomisierter Reihenfolge alle Interventionen aus. Dieses Design erlaubt es, die Messwerte der Interventionen intraindividuell statt interindividuell zu analysieren. So wird jeder Proband mit sich selbst statt mit anderen Probanden verglichen und die unsystematische Varianz aus interindividuellen Unterschieden entfällt. Dies erhöht die statistische Power und lässt weitaus kleinere, systematische Effekte sichtbar werden. Dieses Design ermöglicht die statistische Auswertung von physiologischen Studien mit teilweise weniger als zehn Probanden.

Diese Vorteile zeigen sich auch in den Daten unserer Studie: Wollte man z.B. nur „L“ und

„B“ miteinander vergleichen und führte dazu einen verbundenen t-Test aus, welcher die messwiederholte Natur der Daten berücksichtigt, also intraindividuelle Unterschiede analysiert, ergibt sich bei Zweiseitigkeit der Datenverteilung, und auf 95%-Konfidenzniveau ein p-Wert von p = 0.008. Ein unverbundener t-Test an diesen Daten, welcher auch interindividuelle unsystematische Varianz mit einbezieht, erbringt bei gleichen Bedingungen p = 0.029.

Durch das Messwiederholungsdesign zusammen mit der dazugehörigen statistischen Analyse konnten wir in unserer Studie geringe absolute Temperaturunterschiede statistisch untersuchen. Bei nur 0.23°C absolutem mittlerem Unterschied im

58

Temperaturabfall zwischen den Eurythmie Therapie-Übungen „B“ und „L“ zeigte sich statistische Signifikanz trotz sechsfacher Bonferroni-Korrektur und einer großen Effektstärke.

4.4.2. Randomisierung

Bezüglich der Randomisierung der Interventionsreihenfolge jedes Probanden ist eine Einschränkung unserer Studie zu nennen. Bei vier Interventionen bestehen 24 mögliche Interventionsreihenfolgen, so dass es bei 24 Probanden möglich gewesen wäre, eine Stratifizierung vorzunehmen. Dadurch wären mit Sicherheit während jeder Studienphase alle Interventionen gleich häufig durchgeführt worden. Abgesehen davon stellt die von uns verwendete einfache Randomisierung (simple randomisation) jedoch die wirksamste Form der Randomisierung dar, welche wir daher als probates Mittel zur Vermeidung systematischer Verzerrungen durch die Interventionsreihenfolge werten.

4.4.3. Studiendurchführung, Datenerhebung und –aufbereitung

Vorruhe: Die von uns verwendet Vorruhedauer von 10 Minuten wurde bereits mehrfach als ausreichend zur Adaptation der Hauttemperatur an die Umgebungstemperatur bezeichnet. Ein solches Intervall wurde 2014 von Marins empfohlen76 und 2016 von Fernandes44 basierend auf eigenen Beobachtungen während einer Vorruhe von 60 Minuten bestätigt.

Umgebungsbedingungen: Die Vorteile der Infrarotthermographie als Messemethode wurden einleitend bereits genannt (vgl. Kapitel 1.4.1.) und werden in unserer Studie umfassend ausgenutzt. Um eine möglichst hohe Reproduzierbarkeit der Ergebnisse zu erzielen, standardisierten wir die Messprozedur und die Datenaufbereitung nach Empfehlungen des Glamorgan Protocols66 und verwendeten ausschließlich Messbereiche, welche im Rahmen des Glamorgan Protocols standardisiert worden sind (vgl. Kapitel 2.4.1.).

Einschränkend muss jedoch diskutiert werden, dass während unserer Studienexperimente kein temperaturkontrollierter Raum zur Verfügung stand, wodurch die Umgebungstemperatur zwischen den Studienphasen witterungsbedingt schwankte.

So kam es zu Temperaturschwankungen über eine Spanne von 4,4°C sowie zu Schwankungen der Luftfeuchtigkeit während der Studienexperimente. Für eine physiologische Studie mit Hauttemperaturmessungen sind dies ausgeprägte Schwankungen. Eine konstante Umgebungstemperatur wurde zuvor in der Literatur mehrfach als relevanter Faktor für die Reproduzierbarkeit thermographischer Messungen genannt66, 77, 78. In den meisten Studien mit infrarotthermographischen Messungen wird die Umgebungstemperatur daher innerhalb von 1°C kontrolliert.

Für unsere Forschungsfrage waren jedoch weniger die absoluten Hauttemperaturwerte als vielmehr die Änderung der Hauttemperatur nach 6 Minuten relevant, also nach Durchführung der Interventionen. Unsere stündlichen Messungen der Umgebungstemperatur und der Luftfeuchtigkeit zeigen für diese Intervalle keine relevante, plötzliche Änderung der Umgebungstemperatur. Daher dürfte sich die Schwankungen der Umgebungstemperatur auf die einzelnen prä-post-Differenzen im Intervall von 6 Minuten nicht relevant ausgewirkt haben (Fig. 6, HT). Aber selbst wenn die Umgebungsbedingungen die Messungen zwischen zwei Messzeitpunkten eines Probanden beeinflusst hätten, würde dies durch die Randomisierung der Interventionsreihenfolgen am ehesten als unsystematischer Effekt die statistische Power unserer Studie schwächen und nicht die Ergebnisse systematisch verändern. Sollte eine zukünftige Studie die Experimente in temperatur-kontrollierter Umgebung durchführen, könnten daher eventuell noch größere Effektstärken erwartet werden, als sie in unseren Daten zu finden sind.

4.4.4. Statistische Auswertung

Multiplizität: Bei Auswertungen im Rahmen der inferenzstatistischen Analyse erhielten wir den Fehler 1. Art bei 5% bzw. unsere Studienergebnisse auf 95% Konfidenzniveau. Dazu wendeten wir stets das Bonferroni-Korrekturverfahren an, wenn Daten mehrfach getestet wurden. Dies ist hervorzuheben, da es unserer explorativen Studie Charakterzügen einer konfirmatorischen Studie verleiht und zur Robustheit unserer Ergebnisse beiträgt.

60

Äquivalenzanalyse und TOST: Eine Schwierigkeit bei der statistischen Auswertung unserer Studie stellt die Berücksichtigung der Bewegungsintensität im Sinne des Energieverbrauchs dar. Einleitend (vgl. Kapitel 1.3.2, 1.4 und 1.5) wurde bereits darauf hingewiesen, dass es wichtig ist, die Bewegungsintensität zu kontrollieren, wenn qualitative Eigenschaften von Bewegungen untersucht werden sollen. Bereits in früheren Studien stellte dies methodisch eine Herausforderung dar (vgl. Kapitel 1.3.2. und 4.2.2.).

Für unsere Studie war es uns wichtig, die Bewegungsintensität bestmöglich zu kontrollieren. Gerne hätten wir die Bewegungsintensität dazu als Kovariable in die primäre statistische Auswertung (Messwiederholungs-ANOVA) mit einbezogen. Dieses statistische Modell erlaubt jedoch nur, konstante, zeit- bzw. interventionsunabhängige Kovariablen mit einzubeziehen (ANCOVA, Analysis of Covariance), wie dies z.B. für Alter, Geschlecht, BMI o.ä. zutrifft. Die Bewegungsintensität stellt jedoch eine zeitabhängige (time-dependent) Kovariable dar, da sie für einen Probanden zwischen den Interventionen variiert. Eine Analyse zeitabhängiger Kovariablen ist nur in für unsere Studie unverhältnismäßig komplexen statistischen Designs möglich79.

Wir entschieden uns daher, Äquivalenz der Bewegungsintensität zu definieren, mittels TOST (Two One-Sided Test) zu analysieren und als Vorbedingung der Analyse der Hauttemperaturmessungen voranzustellen. Dafür wählten wir eine Äquivalenzmarke von ẟ = 0.5 kcal/min. Unser sekundäres Studienergebnis rechtfertigt diese Äquivalenzmarke.

Trotz einem mehr als dreifach größeren Unterschied im Energieverbrauch zeigen sich zwischen „B“ und der Referenzbewegung keine statistisch signifikanten Unterschiede in den Hauttemperaturmessungen. Wir betrachten die Äquivalenzanalyse daher als probates Verfahren, die Bewegungsintensität zu kontrollieren und Robustheit unserer Ergebnisse zu gewährleisten.

Analyse von Phaseneffekten: Es bestehen verschiedene Ansätze zur Analyse von Phaseneffekten in Messwiederholungsstudien. Lange Zeit war es gängig, Phaseneffekte statistisch auszuwerten. Jedoch weisen statistische Tests auf Phaseneffekte in Messwiederholungs- und Crossover-Studien eine im Vergleich zu den Hauptanalysen niedrigere statistische Power auf. Deshalb wurde mehrfach empfohlen, Messwiederholungsstudien so zu planen, dass anhand des medizinischen Wissens über die zu untersuchenden Substanzen oder Interventionen ein zeitlicher Abstand zwischen den Phasen gewählt wird, der groß genug ist, um Phaseneffekte mit Mitteln der Vernunft

anstatt von statistischen Tests auszuschließen80. Senn brachte es 1988 so auf den Punkt:

„Wie unschmackhaft auch immer diese Erkenntnis für den Statistiker sein mag, der Verlass auf die medizinische Meinung kann nicht durch Signifikanztests ersetzt werden, bis die Patientenzahl in der Studie so groß ist, dass die Anwendung eines Crossover-Designs überflüssig wird.“81 Wir entschieden deshalb, statistisch nicht auf Phasenunterschiede zu testen. Zwischen Ende der vorhergehenden- und Beginn der nachfolgenden Phase eines Probanden bestand im kürzesten Fall ein zeitlicher Abstand von 100 Minuten. Diesen Abstand betrachten wir als ausreichend lange, um Auswirkungen der vorherigen Übung auf die nachfolgende auszuschließen.

4.4.5. Referenzbewegung

In unserer Studie entschieden wir uns für eine Referenzbewegung an Stelle einer Kontrollbewegung, weil wir uns davon einen höheren Erkenntnisgewinn erhofften, als von einer nicht-Eurythmie-therapeutischen Kontrollbewegung äquivalenter Bewegungsintensität. Wie bereits erwähnt, erachten wir unsere Studienergebnisse nicht als spezifisch für die Eurythmie Therapie. Von einer Kontrollbewegung äquivalenter Bewegungsintensität, aber anderem Konzept, z.B. aus dem Qigong, hätten wir erwartet, dass der Temperaturabfall während der Bewegung ebenfalls die geometrischen, qualitativen Eigenschaften der betreffenden Bewegung widergespiegelt hätte.

Die Referenzbewegung ermöglicht jedoch, zu evaluieren, in welchem Ausmaß Unterschiede der insgesamt geringen Bewegungsintensität den Hauttemperaturabfall beeinflussen. Für Bewegungen höherer Intensität wurde dieser Zusammenhang mehrfach untersucht (vgl. Kapitel 4.3.2.). Wir konnten jedoch keine Studien finden, die Interventionen untersuchten, deren Bewegungsintensität geringer war als während der Eurythmie Therapie-Bewegungen unserer Studie. Unsere Referenzbewegung ermöglicht es, die Eurythmie Therapie-Übungen mit anderen, dynamischen Körperbewegungen von geringerer bzw. geringster Intensität zu vergleichen.

Dank unserer Referenzbewegung erhielten wir unser sekundäres Studienergebnis, welches besagt, dass die Referenzbewegung im Vergleich zu „B“ trotz weitaus geringerer Bewegungsintensität zu vergleichbar starkem Hauttemperaturabfall führt.

62

Durch das sekundäre Studienergebnis wiederum stützt die Referenzbewegung unsere Wahl der Äquivalenzmarke ẟ der TOST-Analyse und stellt ein relevantes Element unseres Studiendesigns dar.