• Keine Ergebnisse gefunden

Interpretation der Ergebnisse des direkten Vergleichs der Kontrollgruppen

4.1.1

Erklärungen der Unterschiede der Messwerte

Viele der durch den Kruskal-Wallis-Test produzierten Ergebnisse lassen sich in den graphischen Darstellungen der Vergleiche deutlich erkennen. Der größte Teil der Messparameter, nämlich 171 der 216 Messgrößen der beiden Kontrollgruppen, weist im Vergleich der Ergebnisverteilungen signifikante Unterschiede auf. Im Fol-genden werden mögliche Ursachen für diese signifikanten Unterschiede diskutiert.

Im Laufe der Jahre kam es aus verschiedenen Gründen, etwa aufgrund von Defek-ten oder Aktualisierungen von GeräDefek-ten, zum Austausch oder zur Erneuerung einiger Untersuchungsgeräte. Betroffen davon waren die Serumuntersuchungen im August 2012 und die Muskeluntersuchungen, die seit dem Jahr 2011 mit einer neuen Ka-mera und neuer Software sowie einem neuen Photometer durchgeführt wurden. Im Juli 2011 wurde außerdem auch das Dichtephantom für die µ-CT-Untersuchungen durch eine verbesserte Version ersetzt. Das neue Phantom enthält 5 statt 3 Ein-schlüsse und erlaubt dadurch eine noch genauere und detailliertere Dichtebestim-mung der verschiedenen Knochenanteile.

Tabelle 18: Übersicht über die ausgetauschten Geräte mit Angebe der jeweilig dazugehörigen Un-tersuchung, des Jahres und des betroffenen Versuchs.

Jahr getauschtes Gerät Untersuchung Versuche mit neu-em Gerät

2011 Dichte-Phantom µ-CT Vib4, Vib5, SR1,

Vib6, Vib7, SARMs

2011 Kamera und

Soft-ware

histologische Muskelun-tersuchungen

Vib5, SR1, Vib6, Vib7, SARMs

2011 Photometer Muskelenzyme Vib7, SARMs

2012 Serum-Analysen AP und CK Vib6, Vib7, SARMs

Außerdem wurde der Großteil der Untersuchungen von unterschiedlichen medizini-schen Doktoranden durchgeführt. Für jeden der „Unterversuche“ (Tibia, LWK, Femur und Muskulatur) gab es einen anderen Doktoranden, der die Messungen der

 Biomechanik,

 Mikroradiographie,

 µ-CT, Veraschung und die

 histologischen Untersuchungen der Muskulatur

durchgeführt hat (Tabelle 5-9). Wie bereits in den jeweiligen Unterkapiteln der Da-tenerhebung beschrieben, erfolgte für den Großteil dieser Untersuchungen eine Va-lidierung der Untersucher. Von den Doktoranden wurden zunächst Probemessun-gen durchgeführt. Erst als die Messergebnisse nicht mehr als 10% voneinander ab-wichen, durften die tatsächlichen Messungen durchgeführt werden. Allerdings er-folgte die Validierung nicht zwischen den einzelnen Doktoranden, sondern nur in-nerhalb eines Untersuchers.

Daneben gab es aber auch Untersuchungen bei denen die Untersucher bei allen Versuchen dieselben geblieben sind. So wurden folgende Messungen immer von den gleichen Mitarbeitern der Forschungsabteilung durchgeführt:

 Serumparameter

 Gewichte

 Frakturheilungskinetik

 Polychrome Sequenzmarkierung

 Molekularbiologie der Tibia und LWK

 Enzymaktivitätsmessungen der Muskulatur

Die Bezugsquelle der Versuchstiere war nicht immer die gleiche. Für die Versuche Vib2 und Vib3 wurden die Tiere von einer anderen Firma bezogen als die Tiere für die Versuche Vib4, Vib5, Vib6 und Vib7. Die jeweiligen Aufzuchtorte könnten durch unterschiedlichen Mineraliengehalt des Trinkwassers zu Auswirkungen auf die Kno-chenqualität der Tiere geführt haben. Es ist denkbar, dass dies signifikanten Ein-fluss auf die Ergebnisse gehabt haben könnte. Eine Übersicht zeigt Tabelle 19.

Tabelle 19: Übersicht über die verschiedenen Bezugsquellen der Versuchstiere für die einzelnen Versuche.

Versuch Bezugsquelle der Versuchstiere

Vib2 und Vib3 Firma Harlan Laboratories; Itingen, Schweiz Vib4, Vib5, SR1, Vib6, Vib7 und SARMs Firma Charles River Laboratories, Research

Models and Services, Germany GmbH;

Sulzfeld, Deutschland

Auch die Versuchsdauer war nicht bei allen Versuchen gleich. So waren die Versu-che Vib5, Vib6 und Vib7 mit 14 WoVersu-chen eine WoVersu-che länger als für die VersuVersu-che Vib2, Vib3, Vib4, SR1 und SARMs (siehe Tabelle 20, Kapitel 2.1.4 und Tabelle 4).

Eine dadurch bedingte unterschiedlich lange Zeit des Östrogenmangels der ova-riektomierten Tiere sowie das unterschiedliche Alter der intakten Tiere könnte Aus-wirkungen auf die Unterschiede der Messergebnisse gehabt haben.

Tabelle 20: Übersicht über die Versuchsdauer der einzelnen Versuche.

Versuch Versuchsdauer

Vib2, Vib3, Vib4, SR1 und SARMs 13 Wochen

Vib5, Vib6 und Vib7 14 Wochen

Mit weiteren Analysen mittels Post-hoc-Tests könnte ermittelt werden zwischen wel-chen Versuwel-chen die signifikanten Unterschiede liegen. Um zum Beispiel Hinweise auf Einflüsse durch das neue Dichtephantom der µ-CT-Untersuchungen erhalten zu können, sollten diese Parameter in Hinblick auf signifikante Unterschiede im Ver-gleich der Versuche mit der alten (Vib2, Vib3) und der neuen (Vib4, Vib5, SR1, Vib6, Vib7, SARMs) Methode betrachtet werden. Sollte sich hier kein signifikanter Unterschied zeigen, könnten die Ursachen dafür in anderen Störfaktoren liegen, wie zum Beispiel die wechselnden Versuchstierbezugsquellen oder die bei jedem Ver-such wechselnden Doktoranden.

Aufgrund vieler wechselnder Bedingungen kommen mehrere Ursachen als Störfak-toren in Betracht. Angefangen bei den unterschiedlichen Bezugsquellen der Ver-suchstiere, die wechselnden Untersucher bis hin zu den Gerätewechseln beeinflus-sen gleich mehrere Faktoren zum Teil parallel die einzelnen Untersuchungen.

Dennoch wäre es denkbar, dass ein Abgleich der Ergebnisse weiterer Post-hoc-Tests mit den hier genannten vermuteten Störfaktoren dazu beitragen könnte, die Ursachen der Schwankungen ausfindig machen zu können. Wäre es möglich, diese Faktoren auf Dauer zu vermeiden, ließe sich eventuell erreichen, dass bei weiteren Parametern die Versuchsergebnisse einen nicht signifikanten Unterschied im Ver-gleich aufweisen. Damit könnte es eventuell möglich werden, die Kontrollgruppen von kompletten Untersuchungen durch Referenzwerte zu ersetzen. Bevor dies mög-lich ist, müssen jedoch die Versuchsergebnisse der Parameter erneut auf eine Nicht-Signifikanz überprüft werden. Bestätigt diese Analyse die Nicht-Signifikanz, kann über die Verwendung der Daten als historische Kontrollgruppen diskutiert wer-den.

4.1.2 Deutung der Ergebnisse des Kruskal-Wallis-Tests

Die Ergebnisse des Kruskal-Wallis-Tests zeigen, dass nur für 44 der 216 Messpa-rameter die Verteilungen nicht signifikant voneinander abweichen. Um die Kontroll-gruppen für Untersuchungen weglassen und durch Referenzwerte ersetzen zu kön-nen, müssen bei dem jeweiligen Messwert die Daten in beiden Kontrollgruppen (ovx und intakt) einen nicht signifikanten Unterschied aufweisen. Dies trifft für 14 Mess-größen der 45 Parameter zu. Die weiteren 17 Parameter betreffen lediglich einzelne Kontrollgruppen einiger Messparameter (siehe Tabelle 13).

Der Kruskal-Wallis-Test gibt nur Auskunft darüber, ob signifikante Unterschiede in den Vergleichen der Versuchsergebnisse vorliegen, sagt aber nichts darüber aus, zwischen welchen Versuchen die Unterschiede bestehen. Um mögliche Störfakto-ren, die zu einer signifikanten Abweichung der Messwerte fühStörfakto-ren, erkennen zu kön-nen, wären, wie oben genannt, weitere Analyse notwendig.

4.2 Eine retrospektive Analyse: Vergleich von behandelten