Entwicklung eines speziellen Verhaltenstests zur Evaluierung der Auswirkungen der Hund-Halter-Beziehung und Hund-Halter-Bindung auf das Verhalten des Hundes

(1)

(2)

(3)

(4)

Nationalbibliografie;

Detaillierte bibliografische Daten sind im Internet über http://dnb.ddb.de abrufbar.

1. Auflage 2010

Printed in Germany

ISBN 978-3-941703-

Verlag: DVG Service GmbH Friedrichstraße 17

35392 Gießen 0641/24466 geschaeftsstelle@dvg.net

www.dvg.net 95-7

(5)

Tierärztliche Hochschule Hannover

Entwicklung eines speziellen Verhaltenstests

zur Evaluierung der Auswirkungen der Hund-Halter-Beziehung und Hund-Halter-Bindung auf das Verhalten des Hundes

INAUGURAL – DISSERTATION zur Erlangung des Grades einer Doktorin der Veterinärmedizin – Doctor medicinae veterinariae –

(Dr. med. vet.)

vorgelegt von Stefanie Ott

Erlangen

Hannover 2010

(6)

Wissenschaftliche Betreuung: Univ.-Prof. Dr. H. Hackbarth Institut für Tierschutz und Verhalten (Heim-, Labortiere und Pferde)

1. Gutachter: Univ.-Prof. Dr. H. Hackbarth

2. Gutachter: PD Dr. K.-H. Esser

Tag der mündlichen Prüfung: 22. September 2010

(7)

Meinen Eltern

Meiner Schwester

(8)

(9)

Die höchste Form des Glücks

ist ein Leben mit einem gewissen Grad an Verrücktheit.

Erasmus von Rotterdam

(10)

(11)

Inhaltsverzeichnis

1 Einleitung 1

2 Literatur 5

2 2.1 Untersuchungen zum Verhalten von Hunden 6

2 2.1 2.1.1 Untersuchungsmethoden 7

2 2.1 2.1.2 Zielsetzung der Untersuchungen 10

2 2.1 2.1.3 Charakteristika der Hunde 11

2 2.1 2.1.4 Charakteristika der Stimuli 17

2 2.2 Qualitative Anforderungen an Verhaltenstests 21

2 2.1 2.2.1 Objektivität 24

2 2.1 2.2.2 Reliabilität 26

2 2.1 2.2.3 Validität 36

2 2.3 Ausdrucksverhalten des Hundes 44

2 2.1 2.3.1 Kommunikation über optische Signale 47

2 2.1 2.3.2 Kommunikation über akustische Signale 64 2 2.1 2.3.3 Kommunikation über olfaktorische Signale 65

2 2.1 2.3.4 Kommunikation über taktile Signale 65

2 2.4 Der Deutsche Schäferhund 67

2 2.1 2.4.1 Allgemeines 67

2 2.1 2.4.2 Name und Klassifizierung 67

2 2.1 2.4.3 Herkunft und Entstehung 68

2 2.1 2.4.4 Eigenschaften und Verwendung 72

3 Tiere, Material und Methode 75

2 3.1 Die Hunde 75

2 3.2 Der Testraum und das Testgelände 77

2 2.1 3.2.1 Der Testraum 77

2 2.1 3.2.2 Das Testgelände 78

(12)

2 3.4 Die Testhilfsmittel 81

2 3.5 Der Verhaltenstest 82

2 2.1 3.5.1 Der Testabschnitt „Bewegungsintensität“ 82 2 2.1 3.5.2 Der Testabschnitt „Kontaktaufnahmehäufigkeit“ 84 2 2.1 3.5.3 Der Testabschnitt „Hund-Mensch- und Hund-Umwelt-Kontakt“ 86

2 3.6 Datenaufnahme und Auswertung 103

2 2.1 3.6.1 Datenaufnahme und Auswertung der Testabschnitte

2 2.1 3.6.1 „Bewegungsintensität“ und „Kontaktaufnahmehäufigkeit“ 103 2 2.1 3.6.2 Datenaufnahme und Auswertung des Testabschnittes

2 2.1 3.6.1 „Hund-Mensch- und Hund-Umwelt-Kontakt“ 104

2 3.7 Bewertungssystematik 105

2 2.1 3.7.1 Die Bewertungssystematik im Testabschnitt

2 2.1 3.6.1 „Bewegungsintensität“ 105

2 2.1 3.6.1 „Kontaktaufnahmehäufigkeit“ 105

2 2.1 3.6.1 „Hund-Mensch- und Hund-Umwelt-Kontakt“ 106

2 3.8 Die Fragebögen 109

2 3.9 Statistische Methoden 110

4 Ergebnisse 113

2 4.1 Die Hunde 113

2 4.2 Die Testpersonen 117

2 4.3 Der Verhaltenstest 118

2 2.1 4.3.1 Der Testabschnitt „Bewegungsintensität“ 118 2 2.1 4.3.2 Der Testabschnitt „Kontaktaufnahmehäufigkeit“ 122 2 2.1 4.3.3 Der Testabschnitt „Hund-Mensch- und Hund-Umwelt-

2 2.1 4.3.3 Kontakt“ 122

2 2.1 4.3.4 Qualitätskriterien des Verhaltenstests 142

5 Diskussion 171

2 5.1 Tiere, Material und Methode 171

2 2.1 5.1.1 Die Hunde 171

(13)

2 2.1 5.1.2 Die Hundehalter 176

2 2.1 5.1.3 Der Verhaltenstest 178

2 2.1 5.1.4 Die Datenaufnahme und Auswertung 186

2 5.2 Ergebnisse 195

2 2.1 5.2.1 Der Testabschnitt „Bewegungsintensität“ 195 2 2.1 5.2.2 Der Testabschnitt „Kontaktaufnahmehäufigkeit“ 196 2 2.1 5.2.3 Der Testabschnitt „Hund-Mensch- und Hund-Umwelt-

2 2.1 5.2.3 Kontakt“ 197

2 2.1 5.2.4 Qualitätskriterien des Verhaltenstests 210

2 5.3 Schlussfolgerung und Ausblick 217

6 Zusammenfassung 219

7 Summary 223

8 Literaturverzeichnis 227

9 Anhang 263

2 9.1 Tabellarische Übersichten zu den Untersuchungen zum Verhalten

2 9.1 von Hunden 263

2 9.2 FCI-Standard Nr. 166 / 30.08.1991 / D – Deutscher Schäferhund 286

2 9.3 Bewertungsbogen zum Verhaltenstest 293

10 Danksagung 299

(14)

(15)

1 Einleitung

Hunde zählen, neben Ziegen und Schafen, zu den seit der längsten Zeit domesti- zierten Haustieren des Menschen (JENSEN 2009). Die Forschung der letzten Jahre hat durchaus Aufklärung in die Diskussion um den Stammvater des Haushundes ge- bracht, und auch über den genauen Zeitpunkt der Domestikation dieser Tierart besteht inzwischen mehr Klarheit; über die Gründe für die Haustierwerdung von Canis lupus f. familaris wird hingegen weiterhin spekuliert (WELLS 2009).

Mittlerweile existieren weltweit circa 400 verschiedene Hunderassen (RÄBER 2001), die vom Menschen für die unterschiedlichsten Aufgaben gezüchtet werden, wie etwa für den Arbeitseinsatz als Schäfer- und Hütehunde, als Herdenschutzhunde oder als Jagdhunde. Darüber hinaus erfüllen auch so genannte Gesellschaftshunde zahlreiche, wenn auch weniger offensichtliche Funktionen (VEEVERS 1985). Die Aus- wirkungen, die Hunde, neben den Vertretern anderer Tierarten, auf Menschen

(16)

Menschen, Individuen oder soziale Gruppen, sind bereits in verschiedenen Studien nachgewiesen worden (FRIEDMANN u. THOMAS 1985; GARRITY u. STALLONES 1998). Umgekehrt kann auch der Mensch, direkt durch sein aktuelles Verhalten gegenüber dem Hund oder indirekt durch Zucht, Aufzucht, Haltung und Training des Hundes, einen Einfluss auf das Verhalten des Hundes nehmen (SCOTT u. FULLER 1965; JAGOE 1994; APPLEBY et al. 2002; STERRY et al. 2005).

Trotz der bereits bestehenden Publikationen zur wechselseitigen Beeinflussung von Mensch und Hund bestehen noch zahlreiche offene Fragen zu diesem Thema. Das Ziel eines größeren Projektes in Zusammenarbeit zwischen dem Institut für Tier- schutz und Verhalten (Heim-, Labortiere und Pferde) der Tierärztlichen Hochschule Hannover und dem Istituto Zooprofilattico Sperimentale dell'Abruzzo e del Molise „G.

Caporale" in Teramo, Italien, war es daher, die Auswirkungen der Hund-Halter-Be- ziehung und der Hund-Halter-Bindung auf das Verhalten des Hundes näher zu be- leuchten. Im Hinblick auf dieses Ziel kann das Verhalten von Hunden mit Hilfe verschiedener Methoden untersucht werden: neben Verhaltenstests bzw. Testbatterien, die unter vereinheitlichten Bedingungen stattfinden, oder Observationen der Hunde in nicht-standardisierten Umgebungen kommt auch die Beurteilung einzelner Hunde- individuen durch die Besitzer oder bekannte Personen in Frage. Im Rahmen des genannten Projektes war die Entscheidung dabei auf ersteres, d. h. den Verhaltenstest bzw. die Testbatterie, als Untersuchungsmethode gefallen.

In der hier vorliegenden Arbeit wurden ein spezieller Verhaltenstest zur Evaluierung der Auswirkungen der Hund-Halter-Beziehung und Hund-Halter-Bindung auf das Verhalten des Hundes und ein zugehöriges Ethogramm entwickelt und die Be- wegungsintensität, die Kontaktaufnahmehäufigkeit und das Verhalten in Situationen des Hund-Mensch- und Hund-Umwelt-Kontakts bei Hunden der Rasse „Deutscher Schäferhund“ untersucht. Für Verhaltenstests bzw. Testbatterien wird die Einhaltung bestimmter qualitativer Anforderungen gefordert (ATKINSON et al. 2001), so genannter „Gütekriterien“, die jeder Test zu einem gewissen Mindestmaß erfüllen sollte und zu denen man klassischerweise Objektivität, Reliabilität und Validität zählt

(17)

(LIENERT 1961; ROST 2004). Die Fragestellungen dieser Arbeit waren deshalb die folgenden:

• Ist der Verhaltenstest in der Lage, bei Hunden der Rasse „Deutscher Schäfer- hund“ verschiedene Verhaltensweisen der inter- und intraspezifischen Kommunikation hervorzurufen?

• Ist das Ethogramm geeignet, die verschiedenen, von den Hunden gezeigten Verhaltensweisen in objektiver Art und Weise zu protokollieren?

• Erfüllen Verhaltenstest und Ethogramm bestimmte Mindestanforderungen hinsichtlich der Objektivität und Reliabilität, insbesondere bezüglich der Test-Re- test-Reliabilität, der Inter-Observer-Reliabilität und der Intra-Observer-Relia- bilität?

(18)

(19)

2 Literatur

In den folgenden Abschnitten werden zunächst Untersuchungen zum Verhalten von Hunden vorgestellt (Kapitel 2.1); hiervon ausgenommen sind Studien zur Kommunikation bei Caniden. Im Anschluss daran werden Qualitätskriterien von Ver- haltenstests abgehandelt (Kapitel 2.2), weil das Thema der vorliegenden Arbeit die Entwicklung eines speziellen Verhaltenstests ist. Untersuchungen zur Kommunika- tion bei Hunden bilden, als ethologische Grundlagenforschung, die Basis für jede Art von Verhaltenstest und werden daher in ein eigenständiges Kapitel ausgegliedert (Kapitel 2.3). Den Abschluss dieser Literaturübersicht bildet ein kurzes Porträt der Rasse „Deutscher Schäferhund“, da die hier vorgestellte Arbeit eine Untersuchung der Bewegungsintensität, der Kontaktaufnahmehäufigkeit zum Besitzer und des Ver- haltens in Situationen des Hund-Mensch- und Hund-Umwelt-Kontakts bei Hunden der Rasse „Deutscher Schäferhund“ ist (Kapitel 2.4).

(20)

2.1 Untersuchungen zum Verhalten von Hunden

Das Verhalten von Hunden steht im Mittelpunkt einer mittlerweile unüberschaubaren Anzahl von wissenschaftlichen Veröffentlichungen. Eine Literatursuche im Internet mit den Wörtern „dog“ und „behavio(u)r*“ – der Stern hält bei der Suche die Wort- endigung offen, d. h. die Suchmaschine sucht nach behavio(u)r wie auch nach behavio(u)ral – oder „temperament“ oder „personality“ und / oder „test“ oder

„assessment“ als „topic“ mittels http://www.isiknowledge.com ergibt zahlreiche Publikationen (siehe Tabelle 1). Gelistet sind dabei neben Artikeln in wissenschaftlichen Zeitschriften u. a. auch Beiträge in Kongressberichten oder Büchern sowie Dissertationen oder Masterarbeiten. Nicht nur die Anzahl der Veröffentlichungen ist enorm; ebenso erstaunlich ist die Anzahl der Fachrichtungen, die sich mit diesem Thema beschäftigen und zu denen neben Biologie, Zoologie, Tiermedizin und Land- wirtschaft auch die Psychologie zählt.

Tabelle 1: Anzahl der Publikationen, die sich bei einer Literatursuche nach dem Wort „dog“

sowie den in der Tabelle genannten Begriffen mittels http://www.isiknowledge.com derzeit [Stand: August 2009] ergibt.

--- test assessment

behavior* / behaviour* 3.855 / 1.201 303 / 120 132 / 60

temperament 91 36 18

personality 112 28 16

Alle Studien, die sich durch diese Literatursuche finden lassen, hier nun vorzustellen, würde den Rahmen dieser Dissertation mit an Sicherheit grenzender Wahrschein- lichkeit sprengen. Daher wurden folgende Auswahlkriterien für die Aufnahme in den Literaturteil festgelegt:

a) Die Studie gehört zu den Untersuchungen, auf denen der in Kapitel 3 erläuterte Verhaltenstest beruht (GODDARD u. BEILHARZ 1984a, 1986; NMELF 2000;

PLUTCHIK 1971; SVARTBERG 2002, 2005, 2006; SVARTBERG u. FORKMAN 2002; SVARTBERG et al. 2005), oder die Veröffentlichung zitiert eine der ge-

(21)

nannten Studien oder wird von dieser zitiert (Literatursuche (vorwärts und rück- wärts) mittels http://www.isiknowledge.com im August 2009).

b) Die Veröffentlichung fällt in Kategorie a) und bereits Titel und / oder Abstract der Veröffentlichung deuten an, dass sich die Veröffentlichung mit dem Thema der Untersuchung des Verhaltens von Hunden befasst.

c) Die Veröffentlichung stellt einen Artikel in einer wissenschaftlichen Fachzeit- schrift oder eine Dissertation dar; Buchbeiträge und Kongressberichte werden nicht berücksichtigt.

Untersuchungen zum Verhalten von Hunden können an Hand verschiedener Ge- sichtspunkte eingeteilt werden. Die hier gewählten Aspekte sind die verwendeten Untersuchungsmethoden (Kapitel 2.1.1), die Ziele der Untersuchungen (Kapitel 2.1.2), die Charakteristika der Hunde (Kapitel 2.1.3) und die Charakteristika der Sti- muli (Kapitel 2.1.4).

2.1.1 Untersuchungsmethoden

Das Verhalten von Hunden kann mit Hilfe verschiedener Methoden untersucht werden. Diese lassen sich im Wesentlichen in vier Gruppen einteilen (JONES u.

GOSLING 2005):

1) Verhaltenstests bzw. Testbatterien, die unter standardisierten Bedingungen stattfinden,

2) Beurteilung einzelner Hundeindividuen durch die Besitzer oder bekannte Perso- nen,

3) Einstufung von Rasseprototypen durch fachkundige Personen und 4) Observationen der Hunde in nicht standardisierten Umgebungen.

Die fünfte Kategorie stellt eine Kombination der vier genannten Untersuchungsme- thoden dar.

Eine häufig genutzte Untersuchungsmethode ist der so genannte Verhaltenstest bzw. die so genannte Testbatterie (JONES u. GOSLING 2005). Der Begriff „Ver- haltenstest“ wird definiert als „standardisierte experimentelle Situationen, in denen

(22)

den Verhaltensweisen anderer Individuen, die der gleichen Situation ausgesetzt wurden, verglichen werden mit dem Ziel, das getestete Individuum zu klassifizieren“

(SERPELL u. HSU 2001). Das Verhalten der Hunde wird dabei entweder in be- kannter Umgebung oder unter standardisierten Bedingungen in unbekannter Um- gebung wie etwa einem Forschungslabor untersucht (DIEDERICH u. GIFFROY 2006). Das Ziel von Studien, die diese Methode nutzen, ist es, die Reaktionen eines Hundes auf bestimmte Stimuli zu erfassen: Im Rahmen eines Verhaltenstests bzw.

einer Testbatterie wird ein Hund mit verschiedenen, einzeln dargebotenen und meist unbekannten Stimuli konfrontiert; alle durch den jeweiligen Stimulus hervorgerufenen Reaktionen des Hundes werden dabei festgehalten. Verhaltenstests bzw. Testbatte- rien bestehen somit aus zwei Anteilen: den einzelnen Testsituationen und dem Be- wertungssystem, mit dessen Hilfe die Reaktionen des Hundes notiert werden (JONES u. GOSLING 2005).

Theoretisch stellen Verhaltenstests bzw. Testbatterien diejenige Untersuchungsme- thode dar, mit welcher die größte Objektivität erreicht werden kann. In der Praxis variiert der Grad der Objektivität, der tatsächlich erzielt wird, jedoch erheblich (JONES u. GOSLING 2005).

Eine ebenfalls sehr häufig genutzte Untersuchungsmethode ist die Beurteilung einzelner Hundeindividuen (JONES u. GOSLING 2005). Das Ziel von Studien, die diese Untersuchungsmethode nutzen, ist es, Informationen über das Verhalten bestimmter Hunde oder aber Informationen über deren Vorgeschichte zu sammeln. Um diesen Zweck zu erreichen, werden Informanten wie z. B. Hundebesitzer (GOODLOE u.

BORCHELT 1998; SERPELL u. HSU 2001; LEFEBVRE et al. 2007), Hundetrainer oder Betreuungspersonal von Hunden im Tierheim, d. h. Personen, die gut mit dem jeweiligen Tier vertraut sind, um Angaben darüber gebeten, ob oder ob nicht, wie oft, wann und wo der jeweilige Hund bestimmte Verhaltensweisen zeigt.

Eine weitere Untersuchungsmethode ist die Einstufung von Rasseprototypen durch fachkundige Personen (JONES u. GOSLING 2005). Hierbei werden Personen, die von den jeweiligen Wissenschaftlern als fachkundig erachtet werden, um eine Be- schreibung, um ein Ranking oder um eine Beurteilung von Hunden gebeten. Das Augenmerk liegt dabei auf der Einschätzung der Hunderasse allgemein und nicht auf

(23)

der Einstufung einzelner Hundeindividuen. Bei den befragten Personen handelt es dabei z. B. um Hundetrainer, Prüfungsrichter oder Tierärzte (HART u. HART 1985;

DRAPER 1995; BRADSHAW u. GOODWIN 1996).

Eine dritte Untersuchungsmethode sind so genannte Observationen („observational tests“) (JONES u. GOSLING 2005). Auch diese Untersuchungsmethode besteht aus einem Verhaltenstest und einem zugehörigen Bewertungssystem. Im Gegensatz zu einem reinen Verhaltenstest werden Observationen in sorgfältig ausgewählten, jedoch nicht ganz so stark kontrollierten Umgebungen durchgeführt; sie sind deshalb mit einer eher zufälligen Begegnung des Tieres mit natürlich vorkommenden Stimuli verbunden. Manche Observationen beinhalten auch die Präsentation von Stimuli, wie sie in Verhaltenstests genutzt werden.

Einige Studien, die das Verhalten von Hunden untersuchen, können nicht aus- schließlich nur einer der oben genannten Kategorien zugeordnet werden. Das ist immer dann der Fall, wenn eine Kombination von mehreren der genannten Unter- suchungsmethoden zum Einsatz kommt.

Schließlich finden sich auch Untersuchungen, die nicht um des Verhaltens der Hunde wegen an sich durchgeführt werden und die sich somit keiner der oben genannten Gruppen zuordnen lassen. Dabei handelt es sich z. B. um Studien, in denen zwar das Verhalten der Hunde durchaus als ein Parameter bewertet wird. Allerdings sollen mit den so gewonnenen Daten Aussagen getroffen werden über die Wirkung von Medikamenten oder Pheromonen, über die Auswirkungen des Einsatzes von Er- ziehungshilfsmitteln oder der Veränderung der Haltungsbedingungen, über Faktoren, die das Lernverhalten oder das Problemlöseverhalten bei Hunden beeinflussen, oder um die „psychologischen“ Daten mit diversen „physiologischen“ Werten zu vergleichen. Dies sind also Studien, in denen letztlich durchaus das Verhalten gegenüber verschiedenen Stimuli beobachtet und ausgewertet wird, die aber nicht allein um des Verhaltens wegen durchgeführt werden und somit auch nicht den Kate- gorien „Verhaltenstest“ oder „Verhaltensobservation“ zusgeordnet werden können.

Der Übergang von einer Kategorie zur anderen Kategorie ist dabei manchmal flie- ßend.

(24)

Eine Übersicht über verschiedene Studien, die das Verhalten von Hunden untersuchen, sowie deren Zuordnung zu den oben erläuterten Kategorien, ist in Tabelle 12 in Anhang 9 dargestellt. Von den dort aufgelisteten Studien sollen in den weiteren Abschnitten dieses Kapitels nur noch diejenigen erwähnt werden, in denen Ver- haltenstests bzw. Testbatterien zum Einsatz kommen, da in der hier vorgestellten Arbeit eben diese Untersuchungsmethode zum Einsatz kommt.

2.1.2 Zielsetzung der Untersuchungen

Die Ziele von Studien, die sich eines Verhaltenstests bedienen, sind fast so zahlreich wie die Studien selbst.

Während sich einige Wissenschaftler auf spezifische Verhaltensweisen konzent- rieren, wie etwa Aggressionsverhalten (NETTO u. PLANTA 1997; MITTMANN 2002;

BÖTTJER 2003; BRUNS 2003; JOHANN 2004; OTT et al. 2008; SCHALKE et al.

2008; HAVERBEKE et al. 2009), Angstverhalten (MELZACK 1952; PLUTCHIK 1971;

GODDARD u. BEILHARZ 1982/1983, 1984a, 1985a, b; KING et al. 2003; DE MEESTER et al. 2008), Spielverhalten (ROONEY et al. 2001; TÓTH et al. 2008) oder Jagdverhalten (CHRISTIANSEN et al. 2001), wollen andere Wissenschaftler Aussagen über weitreichendere theoretische Konstrukte wie „Wesen“ oder „Per- sönlichkeit“ (CATTELL u. KORTH 1973; CATTELL et al. 1973; SVARTBERG 2002, 2005, 2006; SVARTBERG u. FORKMAN 2002; GOSLING et al. 2003; SVARTBERG et al. 2005; DE PALMA et al. 2008), „Emotionalität“ (ROYCE 1955) oder „Reaktivität“

(SFORZINI et al. 2009) machen.

In vielen weiteren Studien soll mit Hilfe eines Verhaltenstests eine Auswahl ge- eigneter Tiere für den Einsatz als Polizei- oder Militärdiensthunde (SLABBERT u.

ODENDAAL 1999; SVOBODOVÁ et al. 2008), Blindenführhunde (GODDARD u.

BEILHARZ 1984a; LEOTTA et al. 2003; BATT et al. 2008a), als eine von verschiedenen, teilweise nicht näher differenzierten Arten so genannter „service dogs“

(WILSSON u. SUNDGREN 1997a; WEISS u. GREENBERG 1997) oder als Begleit- hund (BEAUDET et al. 1994) getroffen werden.

(25)

Wieder andere Autoren untersuchen den Zusammenhang zwischen externen Fak- toren wie Herkunft, Aufzucht oder Haltung (MAHUT 1955; WRIGHT 1983; FUCHS et al. 2005) oder Persönlichkeit und Geschlecht des Hundehalter sowie Hund-Halter- Beziehung (TOPÁL et al. 2008; KOTRSCHAL et al. 2009) bzw. internen Faktoren wie der individuellen genetischen Basis (SCOTT u. CHARLES 1954; WILSSON u.

SUNGREN 1997b; LINDBERG et al. 2004; STRANDBERG et al. 2005; VAN DER WAAIJ et al. 2008; HEJJAS et al. 2009) oder physiologischen Parametern (HORVÁTH et al. 2007) und dem Verhalten von Hunden.

Eine Reihe weiterer Publikationen zielt darauf ab, die Reliabilität und / oder Validität von Verhaltenstests zu ermitteln (GODDARD u. BEILHARZ 1986; WILSSON u.

SUNDGREN 1998; BRÄM et al. 2008; DIESEL et al. 2008; PAROZ et al. 2008; VAS et al. 2008), die Vorhersagbarkeit von Verhaltensproblemen nach Vermittlung von Tierheimhunden in ein neues Zuhause zu bestimmen (VAN DER BORG et al. 1991;

HENNESSY et al. 2001; BOLLEN u. HOROWITZ 2008) oder das Verhalten von Hunden gegenüber spezifischen Merkmalen von Menschen zu untersuchen (unter- schiedliches Geschlecht – LORE u. EISENBERG 1986; verschiedenartige Kleidung – CHAMOVE 1997; freundliche / bedrohliche Körperhaltung – VAS et al. 2005).

2.1.3 Charakteristika der Hunde

In der Literatur zum Thema „Verhaltenstests bei Hunden“ werden in der Regel vier Variablen genannt, welche die untersuchten Hunde betreffen, und in die statistischen Analysen mit einbezogen. Bei diesen Variablen handelt es sich um Rasse, Alter, Ge- schlecht und Herkunft der Hunde (DIEDERICH u. GIFFROY 2006), auf welche in den folgenden Abschnitten näher eingegangen wird.

2.1.3.1 Rasseverteilung der untersuchten Hunde

Eine Möglichkeit, die bestehende Literatur zum Thema „Verhaltenstests bei Hunden“

zu analysieren, orientiert sich an den Hunderassen, die in den Studien zum Einsatz

(26)

wendeten Tiere, insbesondere die Anzahl der untersuchten Hunde, die Anzahl reinrassiger Hunde und die Anzahl der „Deutschen Schäferhunde“, stellt Tabelle 13 in Anhang 9 dar. Der „Deutsche Schäferhund“ ist in dieser Tabelle explizit genannt, da in der hier vorliegenden Studie ausschließlich Hunde dieser Rasse getestet wurden (siehe Kapitel 3.1). Auf eine darüber hinausgehende Darstellung der in den genannten Studien getesteten Hundepopulationen hinsichtlich ihrer genauen Rasse- zusammensetzung wurde an dieser Stelle verzichtet, da dies den Rahmen dieser Dissertation gesprengt hätte.

Eine Übersicht, welche Rassen allgemein in den diversen Studien häufig vertreten sind, bietet Tabelle 2.

Tabelle 2: Hunderassen, die in Untersuchungen zum Verhalten von Hunden häufig vertreten sind. Die Hunderassen sind entsprechend der Klassifizierung der F. C. I.

gruppiert. Die Zahlen hinter den Rassegruppen geben an, wie viele Hunde ins- gesamt zu der jeweiligen Gruppe gezählt werden. Die am häufigsten vorkommenden Hunderassen in Verhaltenstests / Testbatterien sind kursiv gedruckt [Quelle: DIEDERICH u. GIFFROY 2006].

Schäfer-/Hütehunde, Treibhunde (40)

Deutscher Schäferhund Border Collie Australian Kelpie Welsh Corgi Shetland Sheepdog Bouvier des Flandres

Malinois Tervueren Altengl. Schäferhund

Langhaariger Schottischer Schäferhund

Pinscher, Schnauzer, Molossoide, Schweizer Sennenhunde (45)

Boxer Zwergschnauzer Dobermann

Dogo Argentino Deutscher Pinscher Shar Pei Rottweiler Fila Brasileiro

Terrier (30)

Fox Terrier Am. Staff. Terrier Welsh Terrier Staffordshire Bull Terrier Bedlington Terrier Bull Terrier Australian Terrier West Highland White Terrier

Dachshunde (3) Dachshund

Spitze und Hunde vom Urtyp (44)

Basenji Sibirian Husky Samojede

Shiba Inu

(27)

Lauf-, Schweisshunde (76)

Beagle Dalmatiner

Vorstehhunde (37)

English Pointer Weimaraner Deutsch Langhaar Irischer Roter Setter Englischer Setter Deutsch Kurzhaar Deutsch Drahthaar Griffon Großer Münsterländer Apportier-, Stöber-, Wasserhunde (19)

Golden Retriever Labrador Retriever English Cocker Spaniel English Springer Spaniel

Gesellschafts-, Begleithunde (27)

Zwergpudel Pudel Lhasa Apso

Chihuahua Boston Terrier Windhunde (12)

Greyhound Barzoi Whippet

Irischer Wolfshund

In Tabelle 13 in Anhang 9 fallen einige Besonderheiten auf. Die Gesamtzahl der in den verschiedenen Studien untersuchten Hunde variiert beträchtlich. Das Minimum liegt bei weniger als zehn Hunden; das Maximum reicht bis zu mehreren tausend Hunden. In manchen Studien ist hingegen gar keine Gesamtzahl untersuchter Hunde oder nur eine ungefähre Angabe genannt.

Auch die Anzahl reinrassiger Hunde, von denen im Rahmen einer Studie Daten ge- sammelt werden, ist sehr verschieden. Zum Teil entspricht sie der Gesamtzahl der untersuchten Hunde, zum Teil unterscheiden sich die Gesamtzahl der getesteten Hunde und die Anzahl reinrassiger Hunde voneinander, d. h. es werden auch Misch- linge in die Untersuchung mit einbezogen. Bei manchen Studien werden Mischlinge eingesetzt, die speziell für die jeweilige Fragestellung gezüchtet worden sind und die damit den genau geplanten Nachwuchs zweier bestimmter Elterntiere darstellen. In anderen Studien hingegen kommen Mischlinge zum Einsatz, deren genaue Rasse- zusammensetzung nicht bekannt ist. Schließlich gibt es auch Publikationen, in denen die Anzahl der reinrassigen Hunde nur ungenau oder gar nicht erwähnt wird. Gene-

(28)

rell zeigt sich jedoch, dass in den Studien, in denen die Rassezugehörigkeit der Hunde genannt wird, der Großteil reinrassig ist.

Im Rahmen von Literaturrecherchen finden sich durchaus auch Untersuchungen, in denen ein einzelner Hund einer bestimmten Hunderasse vertreten ist; dieses Einzel- tier kann jedoch definitiv nicht als Vertreter seiner Rasse angesehen werden (DIEDERICH u. GIFFROY 2006).

Wie Tabelle 2 und Tabelle 13 (Anhang 9) zu entnehmen ist, gehört die Rasse „Deut- scher Schäferhund“ zu den am meisten verwendeten Hunderassen in Verhaltens- tests bzw. Testbatterien bei Hunden. In Kombination mit der Rasse „Labrador Re- triever“ dominiert diese Rasse die Literatur zum Thema Verhaltenstest bei Hunden (JONES u. GOSLING 2005). Für die Anzahl der Deutschen Schäferhunde, die diesen Untersuchungen unterzogen wurde, gilt das, was oben bereits für die Ge- sichtspunkte „Gesamtzahl der Hunde“ und „Anzahl reinrassiger Hunde“ gesagt wurde: Die Gesamtzahl getesteter Deutscher Schäferhunde schwankt von Studie zu Studie sehr stark. Daneben gibt es Untersuchungen, in denen gar keine „Deutschen Schäferhunde“ getestet wurden. Schließlich wird in manchen Publikationen gar nicht genannt, ob überhaupt, und wenn ja, wie viele der Hunde dieser Rasse angehörten.

Die Anzahl der Hunde, die im Rahmen von Verhaltestest bzw. Testbatterien getestet werden, variiert also hinsichtlich der Gesamtzahl der Hunde und der Anzahl der Hunde je Rasse von Studie zu Studie sehr stark. Zum einen hängt dies natürlich von der Verfügbarkeit der Hunde ab. Zum anderen beruht dies auf dem jeweiligen Ziel, welches die Experimentatoren mit ihrer Untersuchung verfolgen. Einige Autoren mögen eher Wert darauf legen, ausschließlich Hunde einer Rasse in ihre Unter- suchung aufzunehmen, da sie Erkenntnisse zu den Charakteristika einer spezifischen Rasse gewinnen möchten. Bei manchen Wissenschaftlern mag hingegen das Hauptaugenmerk ihrer Studie nicht die Rassezugehörigkeit, sondern z. B. die Hal- tungsform der Hunde sein. Wieder andere Forscher möchten Aussagen zu Hunden generell und nicht zu einer bestimmten Rasse machen und nehmen dann sowohl reinrassige als auch gemischtrassige Hunde in ihr Forschungsprojekt auf (DIEDERICH u. GIFFROY 2006).

(29)

2.1.3.2 Altersverteilung der untersuchten Hunde

Eine zweite Möglichkeit, die Literatur zum Thema „Verhaltenstests bei Hunden“ zu analysieren, beruht auf der Altersverteilung der untersuchten Hunde. Die überwie- gende Mehrheit der Studien gibt das Alter der Hunde an; die Art und Weise, wie die Angaben gemacht werden, variiert jedoch zum Teil erheblich. Eine Übersicht über die Informationen, die über das Alter der getesteten Hundepopulationen in den Stu- dien erhältlich sind, präsentiert Tabelle 14 in Anhang 9.

In den Veröffentlichungen wird entweder das Durchschnittsalter, das Durchschnitts- alter und die mittlere Standardabweichung oder die Spannweite, d. h. Minimum und Maximum des Alters angegeben. Manche Autoren nennen sowohl Durchschnittsalter als auch Mindestalter, andere Durchschnittsalter und Spannweite des Alters, und wieder andere Durchschnittsalter, Standardabweichung und Spannweite. Zudem kommt vor, dass die Altersangaben differenziert nach dem Geschlecht der Tiere gemacht werden.

Demgegenüber steht eine Reihe von Publikationen, in denen das Alter der Hunde entweder gar nicht genannt wird oder nur sehr ungenaue Angaben gemacht werden.

Bei den Veröffentlichungen, die Angaben zum Alter der getesteten Hunde machen, lässt sich erkennen, dass es zwei vorherrschende Altersabschnitte gibt, in denen Hunde hauptsächlich getestet werden (DIEDERICH u. GIFFROY 2006): Ein Alters- abschnitt reicht von der ersten bis zur elften Lebenswoche der Hunde, der zweite Altersabschnitt beginnt bei einem Alter von einem Jahr und endet bei einem Alter von zehn Jahren. In dem Zeitabschnitt zwischen diesen beiden Intervallen, d. h. in einem Alter von drei bis elf Monaten, werden Hunde eher selten zu den entsprechenden Studien herangezogen.

Die Ursache für dieses Merkmal liegt in den Zielen begründet, die mit den Unter- suchungen verfolgt werden (DIEDERICH u. GIFFROY 2006): in Untersuchungen zur Verhaltensontogenese und zu Faktoren, die während der Sozialisations- und Habi- tuationsphase auftreten und das spätere Verhalten der Hunde beeinflussen, werden junge Hunde verwendet; in Studien, mit denen Aussagen zum Verhalten von Hunden allgemein gemacht werden sollen oder in denen Alterungsprozesse bei Hunden un-

(30)

Alter von drei Monaten bis elf Monaten werden am seltensten zu Verhaltensunter- suchungen herangezogen, da sie in dieser Zeit zum erwachsenen Tier heranreifen und weder physisch noch psychisch voll entwickelt sind.

2.1.3.3 Geschlechtsverteilung der untersuchten Hunde

Eine dritte Möglichkeit, die Literatur zum Thema „Verhaltenstests bei Hunden“ zu analysieren, orientiert sich am Geschlecht der Hunde und dem Anteil kastrierter und nicht-kastrierter Tiere. Auch hier gibt es hinsichtlich der Angaben, die in den Ver- öffentlichungen gemacht werden, Unterschiede, wie Tabelle 15 in Anhang 9 zu entnehmen ist.

Einige Autoren erläutern ausführlich, wie viele Hunde männlich bzw. weiblich und wie viele hiervon kastriert bzw. nicht-kastriert sind. Andere Autoren nennen die Anzahl der männlichen und der weiblichen Hunde, geben jedoch keinen Hinweis auf das mögliche Vorliegen einer Kastration. In manchen Studien findet sich der Hinweis, dass eine bestimmte Anzahl der Hunde bzw. ein bestimmter Anteil an der Gesamt- zahl der Hunde kastriert war, es fehlt jedoch der Hinweis, wie viele männliche bzw.

weibliche Tiere dies betraf. Wieder andere Autoren erwähnen weder das Geschlecht der Hunde noch eine eventuell vorliegende Kastration.

Hinsichtlich der Ausgewogenheit beider Geschlechter finden sich zum einen Studien, in denen die Anzahl männlicher und weiblicher Hunde genau oder annähernd gleich war. Zum anderen liegen Studien vor, in denen das Geschlechterverhältnis stark unterschiedlich war. Wissenschaftliche Untersuchungen zu den Auswirkungen einer Kastration auf das Verhalten von Hunden sind ausgesprochen selten, und noch weniger Informationen sind darüber bekannt, inwieweit das Alter von Hunden zum Zeit- punkt der Kastration ihr späteres Verhalten beeinflusst (JONES u. GOSLING 2005).

2.1.3.4 Herkunft der Hunde

Schließlich besteht die Möglichkeit, Studien zum Thema „Verhaltenstests bei Hun- den“ an Hand der Herkunft bzw. Haltung der untersuchten Hunde zu kategorisieren.

(31)

Eine Übersicht über Herkunft bzw. Haltung der Hunde, die für Untersuchungen zum Verhalten von Hunden eingesetzt werden, bietet Tabelle 16 in Anhang 9.

Wissenschaftler greifen für ihre Forschung zum Wesen und Verhalten von Hunden im Wesentlichen auf verschiedene Quellen zurück, aus denen sie Hunde rekrutieren.

Seit den 60er Jahren des 20. Jahrhunderts und auch heute noch werden Hunde aus Labortierhaltungen für Verhaltensstudien verwendet. In der letzten Zeit ist hier eine andere Entwicklung zu beobachten (DIEDERICH u. GIFFROY 2006). So werden vermehrt Hunde, die sich im Privatbesitz befinden, für die Studien herangezogen. Die Hundehalter werden dabei über private oder universitäre tierärztliche Kliniken, Hundeschulen oder Tierheime rekrutiert. Hundehalter werden auch mit Hilfe von bestimmten Organisationen für die Teilnahme an Forschungsprojekten gewonnen, wie etwa über das „Swedish Dog Training Centre“, das „South African Service Dog Breeding Centre“, oder die „Swedish Working Dog Association“. Über diese und weitere Organisationen lässt sich auf einfache Art und Weise eine sehr große Anzahl an Hunden für eine Studie gewinnen (DIEDERICH u. GIFFROY 2006).

Die kontaktierten Hundehalter werden gebeten, mit ihrem Hund an einem Ver- haltenstest unter standardisierten Bedingungen teilzunehmen oder ihren Hund in seiner gewohnten Umgebung testen zu lassen.

Als weitere Quellen, aus denen Hunde für die verschiedenen Untersuchungen rekrutiert werden, dienen Tierheime sowie diensthundführende Einrichtungen wie etwa Militär oder Polizei.

2.1.4 Charakteristika der Stimuli

Im Rahmen eines Verhaltenstests werden Hunde mit verschiedenen Stimuli konfrontiert. Bei diesen Stimuli lassen sich belebte Reize und unbelebte Reize unterscheiden. Beide Gruppen können in sich wiederum in verschiedene Kategorien unterteilt werden, wie in den folgenden beiden Abschnitten erläutert wird.

(32)

2.1.4.1 Charakteristika der belebten Stimuli

Belebte Stimuli werden in Verhaltenstests eingesetzt, um das intra- oder interspezifische Verhalten von Hunden, d. h. ihr Verhalten gegenüber Artgenossen oder gegenüber Vertretern anderer als der eigenen Spezies zu testen (DIEDERICH u.

GIFFROY 2006).

Um eine Aussage über das intraspezifische Verhalten von Hunden machen zu kön- nen, sind andere Hunde als Stimuli notwendig. Es kann sich bei ihnen um junge Hunde oder um adulte Hunde handeln, die dem zu testenden Hund angeleint, im Freilauf, d. h. nicht angeleint und mit viel Bewegungsspielraum, oder in einem Käfig, d. h. nicht angeleint und mit wenig Bewegungsspielraum, präsentiert werden.

Als Alternativen zu lebenden Hunden können Bilder von Hunden, Reflektionen von Hunden im Spiegel oder ausgestopfte Figuren von Hunden benutzt werden. Letztere, also die Hundemodelle, sollen soziale Interaktionen bei den zu testenden Hunden hervorrufen, sie tragen jedoch weniger soziale Informationen als „echte“, d. h. le- bende Hunde (DIEDERICH u. GIFFROY 2006). Schließlich gibt es auch noch die Möglichkeit, dass ein Zwingergenosse des zu testenden Hundes oder der zu testen- de Hund selbst aus dem gemeinsamen Zwinger entfernt wird und somit die Aus- wirkungen von dessen Abwesenheit auf den verbleibenden Hund beobachtet wird.

Um das intraspezifische Verhalten bei Hunden abzutesten, werden vor allem Men- schen als Stimuli eingesetzt. Bei den Menschen handelt es sich entweder um fremde Personen oder um den Besitzer selbst. Die menschlichen Stimuli verhalten sich, je nach Vorgaben des Verhaltenstests, auf ganz unterschiedliche Art. Sie verharren be- wegungslos, wobei sie stehen, sitzen oder liegen, oder sie bewegen sich auf den Hund zu, am Hund vorbei, vom Hund weg oder, unabhängig vom Standort des Hundes, nach einem bestimmten Muster. Sie sehen den Hund an, sprechen mit ihm, fordern ihn, auf ein Kommando auszuführen, berühren ihn oder schlagen ihn, oder sie ignorieren den Hund. Sie kommunizieren freundlich mit dem Hund oder bedrohen ihn. Letzteres baut jeweils auf der Sicht des Menschen auf; inwieweit der Hund die menschliche Kommunikation als „freundlich“ oder „bedrohlich“ empfindet, wird erst aus der Reaktion des jeweiligen Hundes ersichtlich.

(33)

An Stelle von lebenden Menschen werden, wenn auch weniger häufig, Stimuli verwendet, die Menschen oder Teile von Menschen darstellen sollen, wie etwa der Schädel eines Menschen, die Maske eines Menschen oder mehr oder weniger le- bensgroße Figuren aus Papier bzw. Pappe, Stoff, Metall oder anderen Materialien.

Außer dem Menschen werden auch andere Spezies – künstlich oder natürlich – als Stimuli verwendet, um das interspezifische Verhalten von Hunden zu testen. Zu diesen Spezies gehören Katzen, Hühner, Wachteln, Ratten, Nerze, Echsen, Schlangen, Rehwild, Pferde oder Ziegen.

Eine Übersicht, welche belebten Stimuli in Verhaltenstests bzw. Testbatterien zum Einsatz kommen, aufgeschlüsselt nach „Artgenosse“, „Artfremder – Mensch“ und

„Artfremder – Tier“, gibt Tabelle 17 in Anhang 9

2.1.4.2 Charakteristika der unbelebten Stimuli

Die Liste der unbelebten Stimuli, die in Verhaltenstests verwendet werden, ist ähnlich lang und variantenreich wie die Liste der oben besprochenen belebten Stimuli.

Auch in der Gruppe der unbelebten Stimuli ist eine Einteilung in verschiedene Kategorien möglich. So unterteilen DIEDERICH u. GIFFROY (2006) in Orte und Objekte. Bei ersteren unterscheiden die Autoren hauptsächlich Umgebungen innerhalb und außerhalb geschlossener Räume bzw. Gebäude. Welche Größe das zur Verfügung stehende Areal dabei hat, ist von Untersuchung zu Untersuchung sehr unterschiedlich. Bei den Objekten nehmen beide Autoren noch eine feinere Differen- zierung in mobile oder immobile sowie in optische, akustische und olfaktorische Sti- muli vor, wobei auch Kombinationen möglich sind (mobil und akustisch, mobil und optisch etc.).

Eine eindeutige Klassifizierung der Stimuli ist oftmals nicht möglich, da hierfür detaillierte Angaben der Autoren fehlen. So können Objekte, die bewegt werden und damit einen optischen Reiz darstellen, durch die Bewegung Geräusche auslösen und dementsprechend auch als akustischer Reiz gelten. Zudem gehen von nahezu allen Rei- zen – Ausnahmen sind hier eventuell Geräusche, die über Tonband erzeugt und per Lautsprecher eingespielt werden oder der Wechsel der Lichtverhältnisse über An-

(34)

und Ausschalten von Lampen, wenn die Reizquellen (Tonband / Lautsprecher / Lampen) weit entfernt liegen – stets ein Geruch aus, der gerade von Hunden sicher- lich wahrgenommen werden kann. Aus diesem Grund wird eine Übersicht, in wel- chen Studien mit Verhaltenstests bzw. Testbatterien unbelebte Stimuli, insbesondere Objekte, verwendet werden, hier nicht zusammengestellt; stattdessen soll an dieser Stelle, über die in Anhang 9 genannten Stimuli hinausgehend, auf die jeweiligen Originalquellen verwiesen werden.

(35)

2.2 Qualitative Anforderungen an Verhaltenstests

Verhaltenstests und andere Beurteilungsinstrumente sind mittlerweile von großer wissenschaftlicher Bedeutung. Es ist deswegen wichtig, dass sie bestimmte qualitative Anforderungen erfüllen (ATKINSON et al. 2001). Man spricht bei diesen Anfor- derungen von „Gütekriterien“ und zählt hierzu klassischerweise die folgenden drei, die jeder Test zu einem gewissen Mindestmaß erfüllen sollte: Objektivität, Reliabilität und Validität (LIENERT 1961; ROST 2004).

Zwischen den drei Gütekriterien, die sich in jeweils drei oder vier Aspekte unter- gliedern lassen (RAMMSTEDT 2004), bestehen logische Beziehungen, die wie folgt zu formulieren sind (ROST 2004): Objektivität ist die logische Voraussetzung für Re- liabilität, und Reliabilität ist wiederum die logische Voraussetzung für Validität (Ob- jektivität Reliabilität Validität). Dementsprechend ist die Validität ein stärkeres Gütekriterium als die Reliabilität, und die Reliabilität ist wiederum ein stärkeres Güte- kriterium als die Objektivität (RAMMSTEDT 2004). Ein Test, der nicht objektiv ist, kann auch nicht reliabel sein; ein Test, der wiederum nur eine sehr geringe Relia- bilität aufweist, kann auch keine sehr hohe Validität erreichen (ROST 2004). Relia- bilität und Validität lassen sich graphisch darstellen, wie Abbildung 1 zeigt.

(36)

Reliabel – nicht valide. Nicht reliabel – valide.

Nicht reliabel – nicht valide. Reliabel – valide.

Abbildung 1: Reliabilität und Validität.

[Quelle: http://www.ecommerce.wiwi.uni-frankfurt.de/lehre/99ws/seminarws9900/Se- minararbeiten/zilz_reliabilitaet_praes.pdf]

(37)

Neben diesen Qualitätsanforderungen sollten Wissenschaftler, die einen Verhaltens- test entwickeln, die folgenden zwei wesentlichen Punkte beachten, wie TAYLOR u.

MILLS (2006) ausführen:

Zum einen, und dies ist der erste Schritt in der Entwicklung eines Verhaltenstests, müssen sorgfältige Überlegungen über Ziel und Zweck des Verhaltenstests ange- stellt werden, d. h. darüber, warum der Verhaltentest entwickelt wird, welche Ver- haltensweisen durch die Tiere gezeigt und welche Verhaltensweisen gerade nicht abgetestet werden sollen. Die Festlegung von Ziel und Zweck eines Verhaltenstests ist der Schlüssel für die Auswahl der eigentlichen Methode, z. B. der Zusammen- stellung bestimmter Testsituationen. Dementsprechend ist es möglich, wenn nicht sogar wahrscheinlich, dass sich verschiedene Verhaltenstests – für Polizei- bzw. Mi- litärdiensthunde, Therapiehunde, Familienhunde u. a. – in Struktur und Inhalt erheblich voneinander unterscheiden.

Zum anderen sind Fragen der Durchführbarkeit sowie der Eignung für einen u. U.

weit verbreiteten oder sogar kommerziellen Gebrauch des Verhaltenstests zu be- denken. Verhaltenstests, die unpraktisch in ihrer Anwendung sind oder extrem lang dauern oder bei denen ein kompliziertes Auswertungsschema verwendet wird, werden höchstwahrscheinlich nicht akkurat und zuverlässig durchgeführt (wenn sie überhaupt zum Einsatz kommen). Im Sinne der Umsetzbarkeit in die Praxis kann es daher sein, dass ein wissenschaftlich entwickelter und evaluierter Verhaltenstest später abgeändert werden muss, indem z. B. die Anzahl der Testsituationen ver- ringert wird, die Testsituationen gekürzt werden oder das Bewertungssystem verein- facht wird. Diese Veränderungen sollten dann auf der Basis der Ergebnisse von Intraobserver-Reliabilität, Interobserver-Reliabilität und Test-Retest-Reliabilität (in dieser Reihenfolge) vorgenommen werden.

Die weiteren oben genannten qualitativen Anforderungen an Verhaltenstests – Ob- jektivität, Reliabilität und Validität – werden in den folgenden Abschnitten eingehen- der erläutert.

(38)

2.2.1 Objektivität

Die Objektivität gibt das Ausmaß an, in dem ein Untersuchungsergebnis unabhängig von jeglichen Einflüssen außerhalb des untersuchten Objekts ist, also z. B. von Si- tuationsmerkmalen, Testleiter, Testauswerter oder Testpersonen (ROST 2004). Die Objektivität einer Untersuchungsmethode stellt somit sicher, dass unterschiedliche Anwender des Verfahrens zu denselben Ergebnissen kommen, weil für Durch- führung, Auswertung und Interpretation eindeutige Regeln existieren (ATKINSON et al. 1996).

Objektivität wird durch Standardisierung des Untersuchungsverfahrens erreicht, d. h.

dadurch, dass die Bedingungen der Testanwendung für alle, die sich dem Test unter- ziehen, gleich (ATKINSON et al. 2001) oder zumindest so ähnlich wie möglich (WESTEN 2002) sind. Ziel ist, dass die einzige Variable das Verhalten der getesteten Person oder des getesteten Tieres in einer gegebenen Situation ist (DIEDERICH u. GIFFROY 2006). Die Ursachen für Variationen, die außerhalb des Testobjekts liegen, reichen von der spezifischen Lokalisation des Verhaltenstests über den genauen Zeitpunkt der Durchführung des Verhaltenstests bis hin zu den einzelnen verwendeten belebten wie auch unbelebten Stimuli (TAYLOR u. MILLS 2006).

Aus den ersten Ausführungen zur Objektivität geht bereits hervor, dass man drei Ar- ten der Objektivität unterscheiden kann: die Durchführungsobjektivität, die Auswer- tungsobjektivität und die Interpretationsobjektivität (LIENERT 1961; RAMMSTEDT 2004; ROST 2004).

2.2.1.1 Durchführungsobjektivität

Die Durchführungsobjektivität bezeichnet die Konstanz der Untersuchungsbe- dingungen. Diese wird beeinträchtigt, wenn die verwendete Untersuchungsmethode anfällig für Störfaktoren ist und es daher schwierig wird, alle Testobjekte unter ver- gleichbaren Bedingungen zu untersuchen (RAMMSTEDT 2004). Die Störfaktoren können dabei zufällig wie auch systematisch bedingt sein (LIENERT 1961).

(39)

Eine hohe Durchführungsobjektivität erreicht man somit durch maximale Standardi- sierung der Untersuchungssituation, was genaue Festlegungen hinsichtlich der Um- weltbedingungen wie auch hinsichtlich der Interaktionen zu belebten und unbelebten Stimuli erfordert (LIENERT 1961; RAMMSTEDT 2004).

2.2.1.2 Auswertungsobjektivität

Der Begriff der Auswertungsobjektivität bezieht sich auf die numerische oder kate- goriale Auswertung, d. h. die Umsetzung der beobachteten Verhaltensweisen nach den vorgeschriebenen Regeln in Zahlenwerte (LIENERT 1961; RAMMSTEDT 2004).

Die Auswertungsobjektivität kann durch Korrelation der von zwei verschiedenen Auswertern gewonnenen Ergebnisse ermittelt werden (RAMMSTEDT 2004).

Fehler können sowohl unmittelbar beim Codieren wie auch später beim Abtippen bzw. Einscannen der Ergebnisse oder beim Transformieren der Daten entstehen (RAMMSTEDT 2004). Ebenso ist es möglich, dass durch fehlende Standardisierung hinsichtlich der Art und Weise der Auswertung Unterschiede in den Ergebnissen entstehen (TAYLOR u. MILLS 2006). Mögliche Fehlerquellen sind z. B. der genaue Zeitpunkt der Beurteilung, die Dauer der Beobachtung und Bewertung oder die An- zahl der beurteilten Verhaltensweisen, sofern ein oder mehrere Wechsel der Ver- haltensweisen auftreten.

2.2.1.3 Interpretationsobjektivität

Die Interpretationsobjektivität bezeichnet das Ausmaß, in dem die durch eine Unter- suchungsmethode gewonnenen Daten durch verschiedene Personen in der gleichen Art und Weise interpretiert werden (LIENERT 1961; RAMMSTEDT 2004). Dabei sollte im Idealfall bei den Interpretatoren ein gleicher Wissensstand hinsichtlich Untersuchungsverfahren und Interpretationsregeln bestehen (RAMMSTEDT 2004).

Die Interpretationsobjektivität kann durch Vergleich der Ergebnisse von zwei verschiedenen Interpretatoren überprüft werden (LIENERT 1961; RAMMSTEDT 2004).

(40)

2.2.2 Reliabilität

Als Reliabilität bezeichnet man die Genauigkeit und Zuverlässigkeit einer Unter- suchungsmethode (BROCKHAUS 1992a; ATKINSON et al. 1996; WIKIPEDIA 2009).

In der psychologischen Forschung wird dies etwas spezifischer ausgedrückt; hier wird unter Reliabilität der Grad der Genauigkeit verstanden, mit dem ein Test ein bestimmtes Persönlichkeits- oder Verhaltensmerkmal misst, unabhängig davon, ob der Test dieses Merkmal auch messen soll (LIENERT 1961; ROST 1992). Letzteres ist eine Frage der Validität und wird in Kapitel 2.2.3 erläutert. Die Reliabilität betrifft damit das Ausmaß, mit dem die Ergebnisse eines Tests frei von Zufallsfehlern sind (MARTIN u. BATESON 1993).

Eine Test wird als reliabel bezeichnet, wenn die durch diesen Test erzielten Ergeb- nisse ein Testobjekt genau, d. h. fehlerfrei beschreiben bzw. auf der Testskala ab- bilden; der Test ist hingegen unreliabel, wenn er sich hinsichtlich der Beschreibung des Testobjekts bzw. dessen Lokalisation auf der Testskala als ungenau und damit fehlerhaft erweist (LIENERT 1961).

Die Berechnung der Reliabilität wird in der Regel durch Korrelation zweier Daten- sätze von Testergebnissen durchgeführt (ATKINSON et al. 1996, 2001). Es ist also erforderlich, die Konsistenz der Ergebnisse durch Vergleich verschiedener Tests, Subtests, Beobachter, Assessment-Center usw. zu bestimmen. Zu den Reliabilitäts- maßen zählen die Konsistenz eines einzelnen Beobachters mit sich selbst (Intra- observer-Reliabilität), zwischen zwei oder mehr Beobachtern (Interobserver-Relia- bilität), innerhalb eines Hundes (Test-Retest-Reliabilität) sowie zwischen den einzelnen Komponenten des Verhaltenstests, die dazu bestimmt sind, dieselben Ver- haltensweisen abzutesten (Interne Konsistenz) (TAYLOR u. MILLS 2006). Abbildung 2 veranschaulicht dies graphisch.

(41)

Abbildung 2: Schematische Darstellung des theoretischen Modells der Reliabilitätsbestimmung:

zwei Datensätze, die sich in möglichst nur einem einzigen Kriterium (Beobachter oder Messzeitpunkt oder Testverfahren) unterscheiden, werden hinsichtlich ihres statistischen Zusammenhangs überprüft [in Anlehnung an RAMMSTEDT (2004)].

Anhand eines so gewonnenen Reliabilitätskoeffizienten, der angibt, in welchem Ausmaß die unter gleichen Bedingungen gewonnenen Testergebnisse bei dem gleichen Testobjekt übereinstimmen, kann eine Aussage über den Grad der Reliabilität gemacht werden (LIENERT 1961). Die Reliabilität einer Untersuchungsmethode kann deshalb als die Replizierbarkeit der Untersuchungsergebnisse verstanden werden (WESTEN 2002; RAMMSTEDT 2004).

Aus diesen Ausführungen geht hervor, dass ein Test dann als reliabel gilt, wenn die durch diesen Test erzielten Ergebnisse zuverlässig, d. h. reproduzierbar und konsistent sind; als unreliabel hingegen wird ein Test bezeichnet, der unterschiedliche Ergebnisse liefert, wenn er zu verschiedenen Zeitpunkten oder durch verschiedene Personen angewendet wird (ATKINSON et al. 1996, 2001; WESTEN 2002).

Es gilt hierbei jedoch keinesfalls ein Alles-oder-Nichts-Gesetz; vielmehr ist die Relia- bilität als ein Kontinuum anzusehen, das von minimaler Konsistenz der Ergebnisse bis hin zu maximaler Konsistenz, also zu ihrer nahezu perfekten Reproduzierbarkeit reicht. Nur wenige Untersuchungsmethoden – egal, ob physische oder psychische

Datensatz 1 Datensatz 2

Beobachter 1 Beobachter 1

Messzeitpunkt 1 Messzeitpunkt 1

Testverfahren 1 Testverfahren 1

(42)

Größen gemessen werden – sind vollkommen konsistent; sie liegen bei einer Relia- bilitätsbestimmung zwischen diesen beiden Extremen (GREGORY 1992).

Sofern Verhaltenstests von Wert sein sollen, müssen sie sich sowohl als reliabel wie auch als valide erweisen (JONES u. GOSLING 2005). Weiterführende Entscheidun- gen auf der Basis einer unreliablen Untersuchungsmethode zu fällen, bei der also nachgewiesenerweise keine Reproduzierbarkeit der Ergebnisse gegeben ist, wäre nicht nur „töricht“ sondern auch „unethisch“ (GREGORY 1992). Darüber hinaus werden Verhaltenstests, für die keine Reliabilität nachgewiesen werden kann, auch keine Validität erreichen (DIEDERICH u. GIFFROY 2006) oder, anders ausgedrückt, Reliabilität ist eine Grundvoraussetzung für Validität (GREGORY 1992; JONES u.

GOSLING 2005).

Die Reliabilität kann mit Hilfe verschiedener Methoden bestimmt werden (BROCKHAUS 1992), die als „Reliabilitäts-Typen“ bezeichnet werden (WIKIPEDIA 2009). Die Reliabilität eines Tests existiert somit nicht, sondern lediglich verschiedene methodische Zugänge zur Reliabilität (LIENERT 1961). Die Reliabilitäts-Typen werden in den folgenden Abschnitten näher erläutert.

2.2.2.1 Interobserver-Reliabilität

Viele Tests und Beurteilungsinstrumente werden auf objektive Art und Weise ausgewertet; es gibt jedoch auch Situationen, in denen subjektive Bewertungen vorgenommen werden (ATKINSON et al. 1996, 2001). Hierbei kann die beurteilende Per- son einen wesentlichen Faktor darstellen, der zu Unterschieden in den Ergebnissen führt, weshalb eine Untersuchung der sogenannten Interobserver-Reliabilität zwin- gend erforderlich ist (GREGORY 1992). Die Interobserver-Reliabilität gibt also das Ausmaß an, mit dem zwei oder mehr Beobachter ein Tier zum selben Zeitpunkt auf die gleiche oder zumindest ähnliche Art und Weise beurteilen (MARTIN u. BATESON 1993; WESTEN 2002).

Die Interobserver-Reliabilität, insbesondere von subjektiven Beurteilungen, kann untersucht werden, indem zwei oder mehr Datensätze an Beurteilungen eines Unter- suchungsobjekts, die von unabhängigen Personen stammen, miteinander korreliert

(43)

werden (GREGORY 1992; ATKINSON et al. 1996, 2001). Unterschiede können sich durch den Aufbau des Tests oder des Beurteilungsschemas sowie durch die Erfah- rung, die Wahrnehmung und die Umsetzung der Beobachtungen in das Be- urteilungsschema ergeben (MURPHY 1998). Die Interobserver-Reliabilität sollte daher nicht nur unter den Personen, die den Verhaltenstest entwickeln, sondern auch unter den Personen, die ihn später weiter verbreitet anwenden, ermittelt werden (TAYLOR u. MILLS 2006). Beide Personengruppen müssen nicht zwangsläufig, können aber durchaus verschieden hinsichtlich Erfahrung, Wahrnehmung und Be- urteilung sein.

Abbildung 3: Schematische Darstellung der Interobserver-Reliabilität [in Anlehnung an RAMMSTEDT (2004); zur Erläuterung siehe Abbildung 2 auf Seite 27].

2.2.2.2 Intraobserver-Reliabilität

Die so genannte Intraobserver-Reliabilität misst die Konsistenz der Ergebnisse eines einzelnen Bebachters (MARTIN u. BATESON 1993). Dies bedeutet, dass die Be- urteilung eines Beobachters gleich oder zumindest sehr ähnlich ausfallen sollte, wenn er das Verhalten eines einzigen Hundes mit Hilfe eines Verhaltenstests zu zwei

Beobachter 1 Beobachter 2

(44)

Um den Einfluss von Veränderungen im Verhalten des Hundes zu kontrollieren, die auf die Bewertung des Beobachters und / oder die Umstände des Verhaltenstests wie z. B. Ort, Zeit, Testpersonen, Testmaterialien zurückzuführen sind, sollte die Intraobserver-Reliabilität mit Hilfe von Video-Aufzeichnungen analysiert werden (MARTIN u. BATESON 1993). Auf diese Art und Weise ist es möglich, die Ergeb- nisse exakt desselben Verhaltenstests zu zwei oder mehr Zeitpunkten miteinander zu vergleichen (TAYLOR u. MILLS 2006). Idealerweise sollte die Intraobserver-Relia- bilität dabei nicht nur zu Beginn einer Studie, sondern in regelmäßigen Zeitintervallen während des gesamten Studienverlaufs überprüft werden (MARTIN u. BATESON 1993).

2.2.2.3 (Test-)Retest-Reliabilität

Die Testwiederholungsmethode ermittelt, ob bei einer wiederholten Durchführung des gleichen Tests dieselben Ergebnisse erzielt werden (BROCKHAUS 1992;

TAYLOR u. MILLS 2006). Der gleiche Test wird also mit den gleichen Testobjekten nach einer bestimmten Zwischentestzeit noch ein weiteres Mal durchgeführt, und aus der Beurteilung des Verhaltens hinsichtlich Frequenz, Dauer, Intensität etc. werden dann die entsprechenden Korrelationen von erstem Testdurchlauf und zweitem Test- durchlauf berechnet (ATKINSON et al. 1996; DIEDERICH u. GIFFROY 2006). Diese Form der Reliabilität stellt Abbildung 3 graphisch dar.

(45)

Abbildung 4: Schematische Darstellung der (Test-)Retest-Reliabilität [in Anlehnung an RAMMSTEDT (2004); zur Erläuterung siehe Abbildung 2 auf Seite 27].

Die (Test-)Retest-Reliabilität gibt den Grad der Übereinstimmung zwischen den Er- gebnissen aus dem ersten Testdurchlauf und den Ergebnissen aus dem zweiten Testdurchlauf an (LIENERT 1961) und erfasst somit die zeitliche Stabilität der Test- ergebnisse (WIRTZ u. CASPAR 2002). Nur wenn in derselben Testsituation bei einem Testobjekt das gleiche Verhalten beobachtet werden kann, ist eine Vorher- sage über das Verhalten des Testobjekts in ähnlichen Situationen möglich (TAYLOR u. MILLS 2006).

Voraussetzung für dieses Verfahren ist die Konstanz der zu messenden Eigen- schaften; weiterhin muss bedacht werden, dass Erinnerungseffekte, Lernerfah- rungen, basierend z. B. auf der klassischen Konditionierung (PAVLOV 1960) oder der instrumentellen Konditionierung (THORNDIKE 1965; SKINNER 1991), oder Rei- fungsvorgänge auftreten können, die das Ergebnis der wiederholten Untersuchung möglicherweise beeinflussen (GREGORY 1992; WIKIPEDIA 2009). Hierbei ist nicht nur an die Stimuli zu denken, mit denen ein Testobjekt konfrontiert wird, sondern auch an Faktoren wie Testleiter, Testpersonen oder Ort des Tests (TAYLOR u.

MILLS 2006). Weiterhin können temporäre Einflüsse – Hunger, Durst, Ge-

Messzeitpunkt 1 Messzeitpunkt 2

(46)

Der Sinn einer Interpretation der (Test-)Retest-Reliabilität wird daher kontrovers dis- kutiert: DIEDERICH u. GIFFROY (2006) auf der einen Seite vertreten die Ansicht, dass auf Grund dieser Faktoren die Ergebnisse, die für die (Test-)Retest-Reliabilität gewonnen werden, keinen Einfluss auf die wahre Reliabilität eines Tests haben.

GREGORY (1992) ist auf der anderen Seite der Meinung, dass, so lange die Ergeb- nisse aus erstem Testdurchlauf und zweitem Testdurchlauf stark miteinander korreliert sind, die Existenz der oben genannten Faktoren die Reliabilität eines Tests nicht in Zweifel zieht.

Auch hinsichtlich der Länge der Zwischentestzeit gibt es derzeit keine Empfehlungen in der wissenschaftlichen Literatur (TAYLOR u. MILLS 2006). Allgemein gilt, dass das Ausmaß der Stabilität eines Merkmals die Länge des Intervalls zwischen den beiden Testdurchläufen bestimmen sollte: je stabiler das Merkmal ist, desto länger darf das Zeitintervall sein (RAMMSTEDT 2004).

2.2.2.4 Paralleltest-Reliabilität

Die Paralleltestmethode überprüft, ob bei Verwendung verschiedener, aber äqui- valenter Testverfahren zum gleichen Zeitpunkt bzw. im gleichen Zeitraum an den gleichen Untersuchungsobjekten dieselben Ergebnisse erlangt werden (BROCKHAUS 1992; ATKINSON et al. 1996). Die zwei Versionen des Testverfah- rens werden dabei unabhängig voneinander entwickelt (GREGORY 1992), müssen aber miteinander streng vergleichbar sein (LIENERT 1961). Die Ergebnisse aus beiden Testverfahren werden anschließend miteinander korreliert (LIENERT 1961;

GREGORY 1992), und die so genannte Paralleltest-Reliabilität gibt dann den Grad der Übereinstimmung zwischen den Ergebnissen beider Testverfahren an (WIKIPEDIA 2009).

Testwiederholungsmethode und Paralleltestmethode ähneln sich insofern, als bei beiden Verfahren bei denselben Untersuchungsobjekten nach einem bestimmten Zeitintervall erneut ein Test durchgeführt wird und die Ergebnisse beider Tests miteinander verglichen werden. Die beiden genannten Methoden unterscheiden sich allerdings in der Hinsicht, dass bei der Testwiederholungsmethode dieselben „Items“,

(47)

bei der Paralleltestmethode jedoch verschiedene „Items“ zum Einsatz kommen (GREGORY 1992). Dies führt dazu, dass bei der Paralleltestmethode im Gegensatz zur Testwiederholungsmethode Erinnerungseffekte und tatsächliche Veränderungen des Merkmals weitestgehend vermieden werden (RAMMSTEDT 2004). Diese Form der Reliabilität stellt Abbildung 4 graphisch dar.

Abbildung 5: Schematische Darstellung der Paralleltest-Reliabilität [in Anlehnung an RAMMSTEDT (2004); zur Erläuterung siehe Abbildung 2 auf Seite 27].

2.2.2.5 Split-Half-Reliabilität

Die Testhalbierungsmethode teilt einen aus mehreren Untereinheiten, so genannten Items, bestehenden, einmalig durchgeführten Test in gleiche, d. h. äquivalente Hälf- ten und überprüft die Übereinstimmung dieser beiden Testhälften (BROCKHAUS 1992a; GREGORY 1992). Die Aufteilung kann dabei in erste und zweite Testhälfte, nach gradzahligen und ungradzahligen Itemnummern, nach Itemkennwerten (Mittel- wert, Streuung, Korrelation mit dem Gesamtindex) oder nach dem Zufallsprinzip vorgenommen werden (RAMMSTEDT 2004). Diese Form der Reliabilität wird durch Ab- bildung 5 graphisch veranschaulicht.

Testverfahren 1 Testverfahren 2

(48)

Abbildung 6: Schematische Darstellung der Paralleltest-Reliabilität [in Anlehnung an RAMMSTEDT (2004); zur Erläuterung siehe Abbildung 2 auf Seite 27].

Der Grad der Übereinstimmung zwischen den beiden Testhälften wird als „Halbie- rungsreliabilität“ bezeichnet (LIENERT 1961). Die größte Herausforderung ist hierbei die Zuordnung der Items zu der einen oder anderen Testhälfte in solch einer Art und Weise, dass die Äquivalenz beider Teile gewährleistet ist (GREGORY 1992). Sollten die Items der beiden Testhälften hingegen unterschiedliche Aspekte des zu unter- suchenden Merkmals erfassen, wären nur geringe Korrelationen zwischen den beiden Teilen des Tests und somit eine geringe Split-Half-Reliabilität zu erwarten (RAMMSTEDT 2004).

Die Testhalbierungsmethode ist letztlich eine Vereinfachung der Paralleltestmethode:

anstatt einen zweiten Test zu erstellen, wird der bestehende Test einfach in zwei vergleichbare Hälften geteilt; dadurch werden zwei Verfahren mit jeweils der Hälfte der Items erstellt (RAMMSTEDT 2004).

Bei ausreichend großer Ergebnismenge sollten die statistischen Kennzahlen gleich sein. Da man jedoch – genau genommen – lediglich die Reliabilität zweier Test- hälften erhält, müssen statistische Korrekturen vorgenommen werden, um die eigent- liche, d. h. für den ganzen Test geltende Split-Half-Reliabilität berechnen zu können (LIENERT 1961; GREGORY 1992; WIKIPEDIA 2009). Problematisch ist weiterhin,

Testverfahren 1

Teil 1 Testverfahren 1,

Teil 2

(49)

dass sich in Abhängigkeit von der Art und Weise, wie man den Test halbiert, leicht unterschiedliche Reliabiitätskoeffizienten ergeben können (RAMMSTEDT 2004).

2.2.2.6 Konsistenzanalyse bzw. Interne Konsistenz

Die so genannte „Interne Konsistenz“ beschreibt das Ausmaß, mit dem verschiedene Items eines Tests ein- und dasselbe messen (ATKINSON et al. 1996, 2001), d. h. ob man, wenn man ein bestimmtes Kriterium messen möchte und dafür verschiedene Messmethoden anwendet, zu ähnlichen Ergebnissen gelangt (WESTEN 2002). Die Konsistenzanalyse ermittelt somit das Maß für die Konsistenz, also Homogenität der Items eines Tests (RAMMSTEDT 2004).

Eine Möglichkeit, die interne Konsistenz zu untersuchen, ist, für jedes einzelne Item des Tests die Testwerte einer Gruppe von Testobjekten mit dem jeweiligen Gesamt- ergebnis der Testobjekte zu korrelieren (ATKINSON et al. 1996, 2001). Die Items des Tests werden dabei als multipel halbierte Testteile aufgefasst (LIENERT 1961).

Die Bestimmung der internen Konsistenz stellt eine Erweiterung der Split-Half-Me- thode dar, da der gesamte Test in so viele Teile zerlegt wird, wie Items vorhanden sind (RAMMSTEDT 2004). Dies ist in Abbildung 6graphisch dargestellt.

(50)

Abbildung 7: Schematische Darstellung der Konsistenzanalyse [in Anlehnung an RAMMSTEDT (2004); zur Erläuterung siehe Abbildung 2 auf Seite 27].

Jedes Item, das nicht mit dem Gesamtergebnis korreliert, ist ein unreliables Item, d. h. es trägt nicht zu dem bei, was der Test eigentlich misst. Durch Entfernen von unreliablen Items aus dem Test wird die Interne Konsistenz erhöht und „bereinigt“ so den Test. Je höher die Anzahl an reliablen Items in einem Test ist, desto höher wird die gesamte Reliabilität des Tests (ATKINSON et al. 1996, 2001).

2.2.3 Validität

Als Validität bezeichnet man die Gültigkeit einer wissenschaftlichen Untersuchung (BROCKHAUS 1994). Die Validität gibt an, inwieweit ein Verfahren das misst, was es zu messen vorgibt (GREGORY 1992; BROCKHAUS 1994; ATKINSON et al. 1996, 2001; WESTEN 2002; ROST 2004, JONES u. GOSLING 2005), d. h. bei der Be-

Datensatz 1

Beobachter 1

Messzeitpunkt 1

Item 1 Item 2 Item 3 Item 4 Item 5

(51)

stimmung der Validität geht es um den Nachweis, dass ein Test dasjenige Per- sönlichkeitsmerkmal bzw. diejenige Verhaltensweise, das bzw. die er messen soll, auch tatsächlich misst (LIENERT 1961; RAMMSTEDT 2004).

Wie in Kapitel 2.2 beschrieben, ist Validität durch Reliabilität bedingt, und Reliabilität wiederum durch Objektivität; ein Test, der nicht reliabel ist, kann auch nicht valide sein (GREGORY 1992; DIEDERICH u. GIFFROY 2006). Andererseits muss ein Test, der sich bereits als objektiv und reliabel erwiesen hat, nicht zwangsläufig auch valide sein (RAMMSTEDT 2004). Von den drei genannten Gütekriterien wird die Validität als das wohl wichtigste Merkmal erachtet (GREGORY 1992; ROST 2004).

Die Feststellung der Validität einer Untersuchungsmethode wird allgemein als „Vali- dierung“ bezeichnet (BROCKHAUS 1994). Wissenschaftler, die einen neuen Test entwickeln und evaluieren, sollten für diesen sowohl Reliabilität als auch Validität nachweisen. Während die Reliabilität an Hand einiger weniger Berechnungen fest- gestellt werden kann (oder auch nicht), ist der Nachweis der Validität, d. h. die Vali- dierung, ein wesentlich komplexerer Vorgang, der zahlreiche Untersuchungen erfordert (GREGORY 1992).

Man unterscheidet drei Arten von Validität (GREGORY 1992; RAMMSTEDT 2004), die in den folgenden Abschnitten näher beleuchtet werden.

2.2.3.1 Kriteriumsvalidität / Empirische Validität

Die Feststellung der Kriteriumsvalidität erfolgt auf Grund der Übereinstimmung des Testergebnisses mit einem externen Kriterium, d. h. mit einem Kriterium, das außer- halb des Verhaltenstests gewonnen wird (BROCKHAUS 1994, ATKINSON et al.

1996, 2001; RAMMSTEDT 2004; TAYLOR u. MILLS 2006). Das Außenkriterium ist dabei von dem verwendeten Testverfahren unabhängig und repräsentiert in direkter oder indirekter Weise das zu erfassende Persönlichkeitsmerkmal bzw. die zu erfassende Verhaltensweise (LIENERT 1961; RAMMSTEDT 2004). In Abhängigkeit vom Zeitpunkt, zu dem das Außenkriterium erhoben wird, spricht man von retro- grader, konkurrenter oder prognostischer Kriteriumsvalidität (RAMMSTEDT 2004).