Wertung und Verwendbarkeit der Referenzwerte

Für die in Tabelle 14 dargestellten Messgrößen, bei denen im Vergleich der Ver-suchsergebnisse keine signifikanten Unterschiede festgestellt werden konnten wur-den mittels Metaanalyse Referenzintervalle erstellt. Diese Referenzintervalle könn-ten bei künftigen Versuchen als Kontrollgruppenwerte verwendet werden. Dabei können zwei Parameter bereits vorab aus der Diskussion genommen werden. Die der mikroradiographischen Untersuchungen der Wirbelkörper wurden nach Versuch Vib3 nicht mehr durchgeführt und sind daher für zukünftige Versuche nicht mehr von Bedeutung. Daher werden die beiden Parameter Kortikalisdicke und Anzahl der Tabekelkreuzungen im Folgenden nicht weiter berücksichtigt. So bleiben 12 Mess-größen übrig für welche die Verwendung von Referenzwerten möglich scheint. Es sollte allerdings kritisch hinterfragt werden, ob die Verwendung dieser historischen Referenzwerte tatsächlich für alle angegebenen Werte möglich und nötig ist.

4.3.1 Limitationen für die Verwendung der Referenzwerte

Vor der Verwendung von Referenzwerten gibt es einige Punkte, die beachten wer-den müssen, damit die Werte überhaupt verwendet werwer-den können. Im Folgenwer-den wird auf drei der wichtigsten limitierenden Faktoren eingegangen.

Zunächst sollten die in die Referenzwertbildung eingeschlossenen Studien auf ihre Homogenität überprüft werden. Unterschiedliche Einschlusskriterien für die zu un-tersuchenden Objekte (Tier oder Mensch) können die Ergebnisse beeinflussen (Thijs et al. 1998). Auf die Daten der hier durchgeführten Metaanalyse bezogen könnte dies bedeuten, dass die unterschiedliche Herkunft der Tiere einen Einfluss auf die Ergebnisse haben könnte. Das Geschlecht, Alter und der Stamm der Ver-suchstiere waren bei allen Versuchen immer gleich. Einzig die Bezugsquelle der Tiere unterschied sich bei einigen Versuchen. Durch die Aufzucht der Tiere bei ver-schiedenen Züchtern könnte es durch unterschiedliche Nahrungs- und Umgebungs-faktoren während dieser Zeit zu einem nachhaltigen Einfluss auf den Knochenstoff-wechsel bzw. die ursprüngliche Knochenqualität gekommen sein. Es ist vorstellbar, dass diese Einflüsse Auswirkungen auf die Ergebnisse der Untersuchungen gehabt haben könnten.

Ein weiterer limitierender Faktor für die Verwendung der Referenzwerte liegt in den methodischen Unterschieden einiger Versuche (Thijs et al. 1998, Buccheri et al.

2015). In dem Zeitraum, in dem die in diese Analyse eingeschlossenen Versuche durchgeführt wurden, kam es zum Austausch einiger Messgeräte (siehe auch Kapi-tel 4.1.1 Erklärungen der Unterschiede der Messwerte). Durch die Verwendung des neuen Dichtephantoms wurde bei den µ-CT-Messungen die Methode verändert und auch die unterschiedlichen Fähigkeiten der wechselnden Untersucher können zu einem Einfluss auf die Messergebnisse geführt haben (Bohannon 2006).

Als dritter wichtiger Faktor sollte der Stichprobenumfang der untersuchten Daten berücksichtigt werden (Bohannon 2006). Je größer der Stichprobenumfang, desto mehr Aussagekraft hat die Studie. Bei einzelnen Messgrößen, wie zum Beispiel der Muskelanalyse oder der Molekulargenetik der Tibia, insbesondere IGF-1, blieb der Stichprobenumfang trotz Zusammenfassens mehrerer Versuche vergleichsweise gering. Die Wahrscheinlichkeitsvorhersage ist demnach für die Referenzwerte der einzelnen Messgrößen variabel. Gründe für die kleinen Stichprobenumfänge könn-ten im Allgemeinen das vorzeitige Ableben einiger Tiere, z.B. bei den Operationen sein. Bei den Muskelanalysen sind aufgrund der sehr aufwendigen Untersuchungs-methode der Enzymaktivität von vornherein meist nur 5-7 Proben pro Gruppe unter-sucht worden. Hierzu kam noch der zusätzliche Verlust von Untersuchungsmateria-le wie z.B. durch Gefrierschäden.

Ein weiterer Punkt, der kritisch hinterfragt werden sollte ist, ob die Verwendung von Referenzwerten bei allen der angegebenen Messgrößen überhaupt sinnvoll ist bzw.

ob die Auswertung der Daten damit statistisch korrekt bleibt.

Zehn der Messgrößen, bei denen kein signifikanter Unterschied zwischen den Ver-suchen vorlag, sind lediglich einzelne Parameter von größeren Untersuchungen mit weiteren untersuchten Parametern. Nur bei den zwei Messgrößen, „Uterusgewicht“

und „Tag der frühesten Überbrückung“, handelt es sich um zwei komplette Untersu-chungen.

Um verwertbare Ergebnisse bei der Auswertung der Untersuchungen zu erhalten, sollten alle Messungen einer Untersuchung auf die gleiche Weise ausgewertet wer-den. Bezogen auf die Untersuchungen der Daten dieser Osteoporoseversuche könnte dies bedeuten, dass nur die Kontrollgruppen durch Referenzwerte ersetzt werden könnten, bei denen bei allen untersuchten Parametern einer Untersuchung kein signifikanter Unterschied zwischen den Ergebnissen der Messungen der

Ver-suche vorliegt. Somit scheint eine Eliminierung der Kontrollgruppen nur für die Ute-rusgewichte und die Frakturheilungskinetik möglich.

Bei der Messgröße „Uterusgewicht“ handelt es sich jedoch um eine Art Kontroll-Untersuchung, welche zur Überprüfung der korrekt durchgeführten Ovariektomie der Tiere dient. Durch den Entzug der Östrogene kommt es neben der Entwicklung einer Osteoporose unter anderem auch zur Atrophie der Uterusmuskulatur (Hsueh et al. 1979). Anhand des Vergleichs der Uterusgewichte der intakten und der ova-riektomierten Kontrolltiere kann somit die korrekte Ovariektomie festgestellt werden.

Tiere mit einem zu hohen Uterusgewicht, die demnach nicht korrekt ovariektomiert wurden, können so ausfindig gemacht und aus der weiteren Untersuchung der be-handelten Tiere ausgeschlossen werden, um die Messergebnisse nicht zu verfäl-schen.

Bei den Frakturheilungskinetikergebnissen (Tag der frühesten Knochenüberbrü-ckung) ist der Wechsel zwischen den Versuchstierbezugquellen als einziger Stör-faktor zu benennen. Daher ist auch hier das Verwenden der historischen Kontrollda-ten derzeit nicht möglich.

4.3.2 Möglichkeiten der Verwendung historischer Kontrolldaten

Die Verwendung von historischen Kontrolldaten findet hauptsächlich in der klini-schen Forschung Anwendung. Ihr Einsatzgebiet liegt vor allem in Studien von Krankheiten, für die es noch keine Heilungsmethode gibt, wie zum Beispiel in der onkologischen Forschung oder im Rahmen von AIDS-Therapie-Studien (Dawson und Trapp 2003). Aus ethischen Gründen werden in diesen Forschungsbereichen die neuen Therapiekonzepte mit den Ergebnissen der bis dahin verwendeten The-rapien aus älteren Studien verglichen.

Die größte multizentrische Datensammlung von historischen Daten in der tierexpe-rimentellen Forschung liegt für das US National Toxicology Program (NTP) vor.

Hierbei handelt es sich um US-weite Kanzerogenitätsstudien an F344-Ratten und B63CF-Mäusen. In Langzeitstudien von 18-24 Monaten werden den Nagern in zwei Behandlungsgruppen Kanzerogene entweder in hohen oder niedrigen Dosen durch Nahrung oder Umwelteinflüsse zugeführt. Eine dritte Gruppe, die unbehandelt bleibt, dient als Kontrollgruppe. Am Versuchsende werden alle Tiere getötet und

obduziert. Die Gewebe werden mikroskopisch analysiert, und „alle Neoplasmen mit einer Frequenz von 0,5% oder mehr werden dokumentiert“ (Hasemann et al. 1984).

Im Laufe der Jahre hat sich herausgestellt, dass für bestimmte Fragestellungen his-torische Kontrolldaten von Nutzen sein können. Bevor die hishis-torischen Kontrolldaten allerdings Anwendung finden konnten, mussten bestimmte Einschlusskriterien fest-gelegt werden, um die ausgewählten Studien so homogen wie möglich zu halten (Hasemann et al. 1984).

„Unter der Leitung des Scientific and Regulatory Policy Committees der Society of Toxicologic Pathology“ wurde eine Arbeitsgruppe gebildet, die sich mit der Überar-beitung der verschiedenen Kriterien der Nutzung von historischen Kontrolldaten be-fasst hat und eine Empfehlung im Umgang mit historischen Kontrolldaten herausge-geben hat (Keenan et al. 2009). Da es sich bei den NTP-Studien um nationalweit durchgeführte und demnach multizentrische Studien handelt, beziehen sich die von der Arbeitsgruppe erarbeiteten Faktoren darauf die eingeschlossenen Studien so homogen wie möglich zu halten. Diese Faktoren lassen sich in zwei Gruppen teilen:

in-life- und post-mortem-Faktoren. Die in-life-Faktoren beziehen sich auf Bereiche, die zu Lebzeiten der Versuchstiere Einfluss auf die Studienergebnisse nehmen könnten. Dazu zählen neben Abstammung, Herkunft, Alter und Geschlecht auch die Haltungsbedingungen der Tiere sowie die Ernährung. Zu den post-mortem-Faktoren zählen die unterschiedlichen Voraussetzungen und angewandten Methoden der Gewebeuntersuchungen. Neben der Obduktion der Tiere und der Präparation der Gewebe gehören auch Diagnosekriterien und Nomenklatur. Mithilfe dieser Faktoren hat die Arbeitsgruppe Empfehlungen entwickelt, welche für die Nutzung von histori-schen Kontrolldaten im Rahmen der Kanzerogenitätsstudien gelten sollten. Im Fol-genden werden die wichtigsten Aussagen zusammengefasst:

 Die aktuelle Kontrollgruppe ist immer die wichtigste und bedeutendste Kon-trollgruppe, um Behandlungseffekte finden zu können.

 Die historischen Kontrollgruppendaten sind nur in bestimmten Situationen zum Vergleich geeignet.

 Historische Kontrollgruppen haben nur eine begrenzte Zeit Gültigkeit.

 Verschiedene das Studiendesign betreffende in-life-Faktoren sollten in den verschiedenen Studien homogen gehalten werden.

 Die Fähigkeiten und Fertigkeiten des untersuchenden Pathologen sowie die Diagnosekriterien und die Nomenklatur sollten in allen teilnehmenden Labo-ren standardisiert sein.

 Die historischen Kontrollgruppendaten aus dem gleichen Labor wie die be-handelten Gruppen sind am besten zum Vergleich miteinander geeignet.

 Historische Kontrolldaten dienen der Qualitätskontrolle.

4.4 Schlussfolgerung und Ausblick in die Zukunft der

Im Dokument Retrospektive Analyse historischer Effekte in Kontrollgruppen bei Tierversuchen im Rahmen der Osteoporoseforschung (Seite 100-104)