• Keine Ergebnisse gefunden

Vorhersagekraft des Draize Tests

Kategorie 2: Reversible Effekte am Auge

5. Evaluierung bestehender Studien

5.4 Vorhersagekraft des Draize Tests

Die Vorhersagekraft sagt etwas darüber aus, wie gut ein Test die in vivo Situation beim Menschen vorhersagen kann und macht somit Angaben über die

Leistungsfähigkeit und die Relevanz eines in vivo oder in vitro Tests. Die Vorhersagekraft wird beeinflusst durch die Anzahl und den Reizbereich der gewählten Testsubstanzen und der Qualität der in vivo Daten.

Die älteste in der Literatur gefundene Studie, die Ergebnisse aus Sicherheitstests am Kaninchen und Menschen vergleicht, ist diejenige von Rieger und Battista (1964), wo die Autoren am Beispiel eines Neutralizers, der Detergens enthält, aufzeigten, dass es problematisch ist, sich ausschliesslich auf Ergebnisse aus dem Draize Test zu stützen (Tab. 26). Obwohl im Tierversuch als sicher eingestuft, erwies sich dieser Neutralizer bei der Anwendung am Menschen in verschiedenen Fällen als reizend . Beckley et al. (1969) widmeten sich vorwiegend dem Einsatz von Rhesus Affen für die Vorhersage von Reaktionen beim Menschen, die durch Augenreizstoffe

ausgelöst werden. Im Zuge ihrer Untersuchungen integrierten sie zu Vergleichs -zwecken auch Resultate aus dem Draize Test in ihre Arbeit. Der Test einer 5%igen Seifenlösung zeigte in den Kaninchen praktisch keinen kornealen epithelialen Effekt, wohingegen die gleiche Substanz beim Menschen und Affen kornealen epithelialen Schaden verursachte . Diese Verletzungen konnten aber nur mit Spaltlampe und Biomikroskopie und/oder Fluorescein sichtbar gemacht werden. Die Autoren

wandten ein Kriterienschema für die Einteilung von getesteten Substanzen an (Tab.

21). Gemäss den Ergebnissen aus dem Draize Test würde die 5%ige Seifenlösung in die Kategorie „Akzeptiert“ fallen, wohingegen die Resultate beim Menschen der Kategorie „Unter Vorbehalt akzeptiert“ zugeordnet werden müssen.

Tab. 21: Vorgeschlagenes Wertesystem fürs Auge basierend auf dem Einsatz von Spaltlampe und Biomikroskopie und Fluorescein (Beckley et al., 1969).

Ort “Akzeptiert” “Unter Vorbehalt

akzeptiert”

“Möglicherweise schädlich fürs Auge”

Bindehaut Hyperemia ohne Chemosis

Chemosis, weniger als 1 mm am Limbus

Chemosis, mehr als 1 mm am Limbus Hornhaut Korneale Tüpfelunga

ohne

Zusammenfluss bei Zeitpunkt 24 Std.

Zusammenflussb der Färbung bei

Zeitpunkt 24-48 Std.

Färbung mit Infiltration oder Ödem

Vorderkammer 0 0 Aufhellungc (Strahl

sichtbar), Rötung der Iris

aKorneale Tüpfelung: mehrere diskrete unterbrochene Unregelmässigkeiten in der kornealen Epithelschicht, die Fluorescein zurückhalten.

bZusammenfluss: gleichmässige Zonen mit Fluorescein Stauung grösser als 1 mm Durchmesser.

cAufhellung: Tyndall Effekt in einem Strahl, der das Kammerwasser durchquert.

Da viele Studien und Reports von Pharmafirmen aufzeigten, dass der Draize Test in seiner ursprünglichen Form, mit der Applikation von 0,1 ml Testsubstanz in den Bindehautsack, viel stärkere Effekte hatte, als dies beim Menschen beobachtet werden konnte, wurde der Ruf nach der Testung einer geringeren Dosis laut. Es sind hier vor allem die Studien von Griffith und Freeberg et al. (Griffith et al., 1980;

Freeberg et al., 1984; Freeberg et al., 1986a, b) zu erwähnen, die sich intensiv mit dem Vergleich verschiedener Dosen und deren Auswirkungen auf die Vorhersage beim Menschen beschäftigten. Die wohl umfassendste Studie ist diejenige von Griffith et al. (1980). In ihrer Studie untersuchten die Autoren an 27 Substanzen mit bekanntem Reizgrad beim Menschen, mit welcher Dosis im Kaninchentest die grösste Genauigkeit in der Vorhersage der Gefährdung des menschlichen Auges erzielt werden kann. Für die Klassifizierung der Kaninchendaten wurden das FHSA und das NAS System eingesetzt. Die Einteilung der menschlichen Daten wurden der Literatur, beruflichen Vorfälle n und internen Reports entnommen. Aus Tabelle 22 wird deutlich, dass bei der Klassifizierung mit der FHSA Methode im mässig und erheblich reizenden Bereich keine Übereinstimmung in der Einteilung der

Substanzen vorliegt. Auch beim Vergleich mit der NAS Methode und Dosis 0,1 ml gibt es nur geringe Übereinstimmung zwischen Mensch und Kaninchen (erheblich reizende Substanzen: 0%, mässig reizende Substanzen: 37.5%). Eine gute

Übereinstimmung liegt für die NAS Methode und eine Dosis von 0,01 ml vor. Hier gibt es eine Abweichung in der Klassifizierung im Bereich erheblich reizend . Tab. 22: Prozentsatz inkonsistenter Klassifizierungen von Substanzen zwischen Mensch und Kaninchen (Zahl in Klammer = Anzahl getesteter Substanzen).

Kaninchen:

FHSA1

Kaninchen: NAS2 Klassifizierung

(Basis menschliche Daten)

0,1 ml 0,01 ml 0,03 ml 0,1 ml

Schwach reizend (5) 0 0 0 0

Mässig reizend (16) 100 0 31,25 62,5

Erheblich reizend (2) 100 50 100 100

Stark reizend oder korrosiv (4)

0 0 0 0

1Code of Federal Regulations (1979)

2NAS criteria (see Griffith et al. (1980))

Freeberg et al. (1984) führten die vergleiche nden Studien von Griffith et al. (1980) mit Haushaltsprodukten weiter. Als Grundlage der humanen Datenbasis dienten

unfallbedingte Augenverletzungen, die bei der Herstellung und beim Konsum von 10 Produkten (resp. 29) entstanden, bei denen der Endpunkt „days to clear“ bekannt war. Diese Produkte wurden sowohl am Kaninchen (FHSA Test: 0,1 ml und Griffith LowVolume Test: 0,01 ml) als auch am Affen (FHSA Test) getestet. Als Endpunkt für den Tierversuch wurde der „average and median days to clear“ gewählt. Alle drei Methoden des Tierversuchs überschätzten die Zeitdauer des menschlichen Auges, klar zu werden. Am meisten überschätzt wurden die Ergebnisse beim Menschen mit dem FHSA Kaninchentest, was aus Tabelle 23 ersichtlich wird (Korrelation Mensch vs. FHSA: 0,52, resp. 0,58). Tabelle 23 beschreibt die Ergebnisse aus der

statistischen Analyse für 10 Produkte, bei denen die vollständige Information aus den Tierversuchen vorlag. Es wurde zudem eine statistische Analyse mit 29 Produkten durchgeführt, wo Daten aus mi ndestens zwei Tierversuchsmethoden vorlagen. Bei dieser Analyse lag der Korrelationskoeffizient für den Vergleich Mensch – FHSA bei

0,33 (Mittelwert) und 0,28 (Median). In beiden Analysen konnten nur zwischen Mensch und LVET signifikante Korrelationen nachgewiesen werden.

Tab. 23: Korrelationkoeffizient und Varianz zwischen Mensch und Tier für den Endpunkt “time to clear” (Basis: Mittelwert).

Vergleich Mensch - Tier

Korrelations Koeffizient (Mittelwert)

Varianz (%) (Mittelwert)

Korrelations Koeffizient (Median)

Varianz (%) (Median)

Mensch vs. Low Volume 0,82 67 0,97 94

Mensch vs. Affe 0,74 54 0,71 51

Mensch vs. FHSA 0,52 27 0,58 34

Sowohl Freeberg et al. (1986a, 1986b) wie auch Allgood (1989) führten Experimente zur Vorhersagbarkeit von Draize Daten a uf die menschliche Situation durch. In allen drei Studien wurden für den Low Volume Augentest die Griffith Methode und für den Draize Test die FHSA Methode angewandt. Die menschlichen Daten stammen von gemeldeten Augenunfällen. Als Endpunkt diente in allen Studien der „mean time to clear“. Unter diesen Voraussetzungen konnten die Daten der 3 Studien

zusammengefasst werden. Abbildung 13 zeigt den gemessenen Endpunkt „mean time to clear“ (Tage) für 20 Haushaltsprodukte für den LVET, den Draize Test und die Situation beim Menschen. Die ersten vier Substanzen (Allgood, 1989) wurden nicht im Draize Test getestet. Die Substanzen 17-20 wurden in drei verschiedenen Konzentrationen getestet (a: geringste Konzentration, c: höchste Konzentration).

Eine Auswertung der Daten der Studien ergeben, dass der Draize Test die Situation beim Menschen um bis zu Faktor 18 überschätzt (Substanz 5) (Abb. 13), beim LVET beträgt dieser Faktor im schlimmsten Fall 13 (Substanz 5). Auch bei den Studien von Freeberg et al. konnten nur für den Vergleich Mensch – LVET signifikante

Korrelationen nachgewiesen werden (12 Produkte : Mensch – LVET: 0,89, Mensch – FHSA: 0,48).

Abb. 13: Endpunkt “Mean time to clear” für 20 Substanzen aus 3 Studien (Freeberg, 1986a, 1986b; Allgood, 1989).

0 5 10 15 20 25 30 35 40

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17a 17b 17c 18a 18b 18c 19a 19b 19c 20a 20b 20c Substanzen

"Mean time to clear" (Tage)

Mensch (0.1 ml) Mensch (0.01 ml) LVET

Draize (FHSA)

Die Studie von Roggeband et al. (2000) hatte zum Ziel, zu prüfen, ob unter

identischen Testbedingungen, die Effekte beim Kaninchen gleich oder gravierender sind als beim Menschen. Da die Studie Untersuchungen am Menschen beinhaltete, wurden bei der Prüfung der zwei flüssigen Reinigungsmittel geringe Volumina (Flüssigwaschmittel: 3 µl, Geschirrspülmittel: 1 µl) eingesetzt. Diese Dosen waren in einer vorgängigen Studie am Menschen als die maximal tolerierbaren Dosen eruiert worden. Beim Kaninchentest wurden zwei Applikationsorte getestet (Bindehautsack, Hornhautoberfläche), beim Menschen wurde die Testsubstanz in den oberen

Bindehautsack des Testauges gegeben. Als Endpunkt diente die Fluorescein

Färbung nach 1 und 24 Stunden, basierend auf einer Fluoresceinfärbungs-Skala von 0-13. Grad 0-10 zeigt aufsteigend eine zunehmende Färbung der kornealen

Oberfläche an (0: keine Färbung, 10: 100% Färbung). Grad 11-13 zeigt eine Zunahme in der Ausgeprägtheit der Effekte an. Bei beiden Substanzen konnte im Tierversuch bei 83,3% der Tiere (n=183) nach 24 Stunden ein Grad >12

nachgewiesen werden, wohingegen die menschlichen Probanden (n=10) nach 24 Stunden in 70% (Flüssigwaschmittel) resp. 40% (Geschirrspülmittel) der Fälle Grad 0 aufwiesen. Leichte Opazität konnte bei 1 resp. 2 Probanden nach 1 Stunde

festgestellt werden. Nach 24 Stunden konnte keine Opazität mehr nachgewiesen werden. Der Bindehautscore hatte nach 24 Stunden bei 80 resp. 100% der

Probanden den Wert 0. Im Gegensatz dazu wurde im Tierversuch auch nach 24 Stunden bei 83,3% der Tiere eine Hornhauttrübung Grad 1 und bei 100% resp.

83,3% ein Bindehautscore Grad 2 beobachtet.

Tab. 24: Studien zur Intra-Labor Variabilität

MAS: Maximum Average Score; CV: Coefficient of Variation Studie Anzahl

Labors

Anzahl getesteter Substanzen

Reizbereich Qualität der Information der

Resultate (e.g. CV %) Kodierung der

Alle kodiert Keine GLP ergeben sich aus unterschiedlicher Bewertung der Reaktionen

Alle kodiert Keine GLP

1 7 Grenzwertig

oder nicht reizend

3 Signifikante

Unterschiede im Scoring nach Draize et al. (1944)

Inkonsistenz in Reaktionen bei den verschiedenen Kaninchen

Alle kodiert Keine GLP einzelne Gewebe

Keine Variabilität innerhalb

Testgruppen, Tier zu Tier Unterschiede: CV:

21,4-97,2, Basis Mittlerer Score

Alle kodiert Kein GLP System nach Draize et al. (1944)

Grösserer CV bei geringeren Reizwerten, Basis MAS

Nicht kodiert Kein Hinweis auf GLP

Blein et

CV: 38%, Basis MAS Historische Daten

Methode von Draize (1959),

Klassifizierung nach Kay und Calandra (1962) und FHSA

Variabilität in MAS Werten nimmt ab, je näher die MAS Werte den Grenzen 0 und 45

OECD (1987) Sehr grosse Variabilität bei den Draize Scores, besonders um den kritischen Bereich (MAS: 15-50) CV 46-70%

Alle kodiert GLP

*Intratest Variabilität, Variabilität zwischen verschiedenen Tiergruppen

Tab. 25: Studien zur Inter-Labor Variabilität

MAS: Maximum Average Score; CV: Coefficient of Variation

Study Anzahl

Labors

Anzahl getesteter Substanzen

Reizbereich Qualität der Information der Substanzen

Testmethode/

Klassifizierungs System

Resultate (bspw. CV %) Kodierung der Substanzen

Qualität der Studie Rieger and

Battista (1964)

3 3 mild bis leicht reizend Kosmetische

Produkte, keine weitere Information

Methode von Draize, Scoring System nach Draize et al. (1944)

-Sehr mildes Produkt:

reproduzierbare Daten -reizendere Lösung / Shampoo: Unterschiede in der Klassifikation zwischen den Labors, Basis mittlerer Gewebescore

Nein Keine GLP

Weil and Scala (1971)

24 9 Keine nicht reizenden

Substanzen

Chemischer Name Referenzmethode Scoring System nach Draize et al. (1944)

CV: 42-59% (für jede Chemikalie zwischen den Labors )

CV: 17-117% (zwischen Chemikalien für jedes Labor)

Basis: MAS

Alle kodiert Keine GLP

Marzulli and Ruggles (1973)

10 7 Grenzwertig oder nicht

reizend

Chemischer Name Methode von Friedenwald/Draize, Scoring System nach Draize et al. (1944)

Beobachtungs -Zeitpunkt 24 Std, Labors fähig, zwischen reizenden und nicht reizenden

Substanzen zu unterscheiden (alle Parameter berücksichtigt)

Alle kodiert Keine GLP

Blein et al.

(1991)

2 4 Mild bis stark reizend Methode von Griffith et al.

(1980), Scoring System nach Draize et al. (1944)

Resultate zwischen 2 Labors für 2 Produkte signifikant unterschiedlich

Keine

Scoring System nach Draize et al. (1944)

Scoring System nach Draize et al. (1944)

Tab. 26: Bewertung der Vorhersagekraft des Draize Tests in verschiedenen Studien (* Endpunkt: „eye to return to normal after exposure“

**Referenzdaten: Daten aus Versuchen an Menschen)

Studie Anzahl Labors

Anzahl getesteter Substanzen

Reizbereich Qualität der Information der

1 1 Nicht reizend Neutralizer (enthält Reinigungsmittel)

keine Mensch Methode von Draize, Scoring System nach Draize et al. (1944)

Nicht reizend in Kaninchen, reizend beim Menschen (in einigen Fällen)

keine Mensch Methode von Draize, Scoring System nach Draize et al. (1959)

Unterschiedliche Klassifizierung bei Kaninchen und Mensch basierend auf Kriterien definiert durch Beckely et al.

(1969)

Nein Keine GLP

Griffith et al.

(1980)

(1944), Gabe direkt auf die Hornhaut

FHSA: Mässig reizende Substanzen werden überschätzt NAS

0,01 ml: Inkonsistenz mit nur 1 Substanz 0,1 ml: überschätzen von 10 der 16 mässig

Scoring nach Draize et al. (1944)

*Korrelation Mensch – FHSA: 0,52

Korrelation Mensch – LVET: 0,82

Nein Keine GLP

Freeberg et al. (1986)

1 12 Produktname keine Mensch FHSA (1982),

Scoring nach Draize et al. (1944)

*Korrelation Mensch – FHSA: 0,48

Korrelation Mensch – LVET: 0,89

Nein Keine GLP

Freeberg et al. (1986)

1 4 Produktname, keine

vollständige Information zu den Inhaltsstoffen

keine Mensch FHSA (1986), Scoring nach Draize et al. (1944)

Korrelation Mensch – FHSA: 0,35

Korrelation Mensch – LVET: 0,72

Nein Keine GLP

Allgood (1989)

1 4 Produktekategorie

(Shampoo)

keine Mensch Methode nach Griffith et al. (1981), Scoring nach Draize et al. (1944)

Daten von Kaninchen überschätzen Daten von Menschen um das vier- bis fünffache

Nein Keine GLP

Roggeband et al. (2000)

1 2 Produktname, % der

Inhaltsstoffe

keine Mensch Fluorescein Färbung der Hornhaut zum Zeitpunkt 1 und 24 Stunden,

Scoring nach Draize et al. (1944)

Stärkere Reizreaktion bei Kaninchen mit beiden

Applikationsmethoden (Bindehautsack, Oberfläche Hornhaut)

Nein Keine GLP

6. Diskussion

Seit über 40 Jahren spaltet der Draize Test die Geister und ist sowohl in

Wissenschafts- als auch Tierschutzkreisen aufs Heftigste umstritten. Obwohl diverse Studien gezeigt haben, dass die Resultate aus dem Draize Test nicht befriedigend reproduziert werden können und die Tiere in diesem Versuch zum Teil sehr stark belastet sind und leiden, wird er bis heute mangels Alternativen als

Standardmethode für die Prüfung von Substanzen auf ihr reizendes Potenzial am Auge in den verschiedenen internationalen und nationalen Richtlinien gefordert.