Validierung des Verhaltenstests - Entwicklung und Evaluierung eines speziellen Verhaltenstests

5 Diskussion

5.7 Validierung des Verhaltenstests

Es gibt viele Kriterien, die man prüfen muss, um einen Verhaltenstest zu evaluieren. Nach TEMBROCK (1987) sind die wichtigsten Gütekriterien eines Tests die Objektivität (Messgenauigkeit in Bezug auf die Durchführung und Auswertung), die Reliabilität (Messzuverlässigkeit) und die Validität (Ausmaß, in dem der Test misst, was er messen soll).

5.7.1 Objektivität

Ein objektiver Test braucht standardisierte Durchführungsbestimmungen, Auswertung und Interpretation (BÜHNER 2011). Nur auf diese Weise kann sichergestellt werden, dass die Resultate des Tests ausschließlich von dem getesteten Objekt abhängig sind (RAMMSTEDT 2004).

Die Objektivität dieses Verhaltenstests wurde gesichert, indem die Durchführungsbedingungen der einzelnen Situationen vorgeschrieben und einheitlich waren.

Die Testpersonen und die Hundeführer wurden genau eingewiesen, so dass möglichst keine Unterschiede in der Durchführung des Tests auftraten. Außerdem wurde das Ethogramm (Bewertungsbogen) mit dazugehörigem Skalierungssystem so entwickelt, dass es möglich ist, das gesehene Verhalten einzutragen, ohne es selber beschreiben zu müssen. Dies verhindert unnötige Fehler in der Beschreibung des Verhaltens. Im Gegensatz dazu gibt es auch viele Arbeiten, in denen die gesehenen Verhaltensweisen auf andere Weise zusammengetragen werden. Es wird ausschließlich eine Schätzung der Ausprägung angegeben (SVARTBERG u.

FORKMAN 2002) oder man trägt das gesehene Verhalten ohne dazugehörige Ausprägung ein (WISCHER 2008).

Dieser Verhaltenstest wurde einmal vor Ort und zwei Mal am Computer mit Hilfe von Videoaufnahmen beurteilt. Bei der Auswertung der Videos hatte der Gutachter keine Ablenkung, sah sich die Videos alleine in einem ruhigen Raum an.

Leider kann nicht auf alle Faktoren des Verhaltenstests Einfluss genommen werden (z.B.

Umweltreize und Verhalten des Hundeführers). Anhand der vorgegebenen Durchführung der Situationen, des Bewertungsbogens und der immer gleich gebliebenen Bewertungsart kann man trotzdem sagen, dass dieser Test objektiv ist.

5.7.2 Reliabilität

Ein anderer wichtiger Aspekt bei der Evaluierung von Verhaltenstests ist die Reliabilität.

Nach TAYLOR u. MILLS (2006) unterscheidet man zwischen der Übereinstimmung innerhalb eines Beobachters (Intraobserver-Reliabilität), zwischen mehreren Beobachtern (Interobserver-Reliabilität) und innerhalb der Hunde (Test-Retest-Reliabilität). Bei einer hohen Reliabilität enthält das Ergebnis keine bzw. wenige Zufallsfehler und ist reproduzierbar (KOLLBAUM 2009).

Die Beständigkeit eines Verhaltens in der Zukunft ist ein sehr wichtiger Punkt in der Verhaltensforschung (SVARTBERG 2005; VAS et al. 2008). Die Idee eines Verhaltenstest besteht darin, dass die getesteten Verhaltensmerkmale beständig sind. Dies würde auch bedeuten, dass sich die Hunde in ähnlichen Situationen, die im Stande sind das gleiche

Verhalten auszulösen, auch ähnlich verhalten. Nur so lässt sich von den Ergebnissen eines Tests eine Prognose für das Verhalten in der Zukunft machen. Um die Test-Retest-Reliabilität zu prüfen, kann man einen Test ein zweites Mal in einem gewissen Abstand wiederholen und die Ergebnisse vergleichen.

Auf diese Weise wurde auch in dieser Studie die Test-Retest-Reliabilität getestet. 30 Hunde wurden in einem Abstand von einem Monat ein zweites Mal getestet. Der zweite Test wurde genauso durchgeführt wie der erste. Beide Tests wurden auf demselben Gelände mit den gleichen Situationen, denselben Hundeführern und derselben Testleitung durchgeführt. Die Testpersonen konnten leider nicht dieselben bleiben, aber die Anzahl der Personen war gleich und während beider Tests wurden die gleichen Situationen durch Männer und die gleichen Situationen durch Frauen durchgeführt.

In vielen anderen Arbeiten wurde ebenfalls diese Methode gewählt, um die Test-Retest-Reliabilität zu testen (VAS et al. 2008; BÜHNER 2011; SVARTBERG 2005; OTT 2010;

Genaue Richtwerte dazu, welche Zeit ablaufen sollte, bevor man den zweiten Test durchführt, gibt es nicht. Trotzdem sollte man darauf achten, dass der Zeitabschnitt nicht zu kurz gewählt wird, da sich die Hunde an die einzelnen Situationen noch erinnern könnten.

Andere Unterschiede dieser Studien liegen in der Messung verschiedener Eigenschaften der Hunde. In dieser Studie wurden alle gezeigten Verhaltensweisen im Test untersucht. King et al. (2003) untersuchte 38 unterschiedliche Variablen, aber aus nur vier Situationen. OTT (2010) untersuchte alle gezeigten Verhaltensweisen in allen Situationen des Hund-Mensch und Hund-Umwelt Kontaktes. FUCHS et al. (2005) untersuchte die Merkmale:

Selbstsicherheit (self-confidense), Nervenstärke (nerve stability), Reaktion auf einen Schuss von einer Pistole/Schussfestigkeit, Härte (hardness), Temperament und Schärfe (sharpness).

SVARTBERG (2005) untersuchte die Merkmale Spielverhalten/Verspieltheit (Playfulness), Jagdverhalten (Chase-proneness), Sozialverhalten (Sociability), Mut/Unerschrockenheit

(Boldness), Neugier/Ängstlichkeit (Curiosity/Fearfulness) und Aggressionsverhalten (Aggression). NETTO u. PLANTA (1997) untersuchte wiederum nur das Aggressionsverhalten der Hunde.

Bei einer Untersuchung der Test-Retest-Reliabilität sollte darauf geachtet werden, dass nicht nur einzelne Verhaltensweisen oder Variablen (wie z.B. Schussfestigkeit) ausgesucht und untersucht werden, es sei denn in dem Test wird nur eine Verhaltensweise untersucht und alle anderen werden nicht beachtet. Nur so kann man eine Vollständigkeit der Ergebnisse garantieren und übersieht keine relevanten Merkmale. Es ist schwierig, die Ergebnisse dieser Studie mit den Ergebnissen der Studien anderer Autoren zu vergleichen, da unterschiedliche Methoden benutzt und unterschiedliche Merkmale miteinander verglichen wurden.

In dieser Studie wurde die Test-Retest-Reliabilität mittels gewichtetem Kappa bzw. Kappa Werten ermittelt. Anders als in anderen Studien wurde hier das gewichtete Kappa für jede gezeigte Verhaltensweise in allen Situationen einzeln ausgerechnet. Die Ergebnisse waren sehr unterschiedlich und variierten stark in den einzelnen Verhaltensweisen und Situationen.

Solche unterschiedlichen Ergebnisse fanden sich ebenfalls bei Fuchs et al. (2005) und OTT (2010). Die Ergebnisse dieser Arbeit hatten Werte von -0,15 bis 0,86. Basierend auf der Interpretation der Kappa Werte von LANDIS u. KOCH (1997) wurde festgestellt, dass Fluchtverhalten, Fernorientierung, Annäherungsdauer, Annäherungsentfernung und Jagdverhalten überwiegend schlechte und leichte Übereinstimmung gezeigt hatten (Werte unter 0,2). Die Verhaltensweisen aktive Submission, defensives Verhalten, Annäherungstempo und defensives Drohverhalten zeigten überwiegend eine ausreihendeund mittelmäßige Übereinstimmung (0,21-0,6). Werte von mindestens 0,41 zeigten die meisten Verhaltensweisen. Es gehören dazu aktive Submission, sonstiges Verhalten, Spieldauer, Spielintensität, Annäherungstempo und entspannt. Werte über 0,61 zeigten nur Spieldauer, Spielintensität und sonstiges Verhalten. Bei der Spielbereitschaft wurde am häufigsten eine leichte und ausreichende Übereinstimmung gefunden (Werte von über 0 bis 0,4).

Im Gegensatz dazu waren die Unterschiede zwischen der prozentualen Häufigkeit der meisten Verhaltensweisen gering. Zu solchen Ergebnissen kamen auch NETTO u. PLANTA (1997).

Nur in der Annäherung, Fernorientierung und im nicht reizbezogenem Verhalten waren die Unterschiede größer und traten verhältnismäßig häufiger vor. SVARTBERG (2004) fand gute

Übereinstimmungen für Spielverhalten, Jagdverhalten, Sozialverhalten und

„Unerschrockenheit“. Neugier/Ängstlichkeit und Aggressionsverhalten zeigten dagegen nur schlechte Übereinstimmungen. NETTO und PLANTA (1997) fand für die unterschiedlichen Stufen des Aggressionsveraltens Werte zwischen 0,52 und 0,77 (Rangkorrelationskoeffizient nach Spearman). KING et al. (2003) fand Übereinstimmungen von 0,6 bis 0,8 (Rangkorrelationskoeffizient nach Spearman).

Im Gegensatz zu den Studien von SVARTBERG (2004), KING (2003) und NETTO u.

PLANTA (1997) wurden in dieser Studie relativ niedrige Werte der Test-Retest-Reliabilität ermittelt. Ein Grund kann in der Verwendung unterschiedlicher statistischer Methoden liegen.

In keiner der hier aufgeführten Studien wurde das gewichtete Kappa berechnet. Trotzdem kann man Ähnlichkeiten in den Ergebnissen dieser Studie und der Studie von SVARTBERG (2004) erkennen. In beiden Arbeiten wurden für die Annäherung, Fernorientierung, defensives Verhalten, Fluchtverhalten und Drohverhalten eher niedrige Werte (unter 0,41) gefunden.

Ein anderer Grund für die verhältnismäßig schlechten Werte der Reliabilität könnte in der Genauigkeit der ausgewerteten Merkmale/Verhaltensweisen liegen. In diesem Vorhaben wurden zu den einzelnen Verhaltensweisen die dazugehörigen Ausprägungen verglichen.

Dafür sprechen würde, dass die Häufigkeit mit der die Verhaltensweisen gezeigten wurden (ohne dazugehörige Ausprägung) nur geringe Unterschiede aufzeigte.

Die Ergebnisse dieser Studie zeigen, dass die Verhaltensweisen Annäherung, Fernorientierung und Jagdverhalten in einem doppelt ausgeführten Test nicht wiederholbar sind. Daher sind es auch keine stabilen Merkmale.

Um die Reliabilität innerhalb eines Beobachters (Intraobserver Reliabilität) zu testen, wird der gleiche Test ein zweites Mal beurteilt. Um dies zu gewährleisten, ist es nötig, den Test auf Video aufzunehmen. Um die Unterschiede zwischen Livebeurteilung und der Videobeurteilung auszublenden, wurde die Videobeurteilung 1 mit der Videobeurteilung 2 verglichen. Diese Untersuchung ist wichtig, um zu sehen, inwieweit die Ergebnisse von dem Beobachter abhängig sind (TAYLOR u. MILLS 2006). Bei großen Unterschieden innerhalb eines Beobachters ist der Test nicht reliabel. Dann ist zu prüfen, ob die Ursache für die schlechten Werte bei dem Beobachter selber (zu wenig Erfahrung, Ablenkung), bei der

Einweisung des Beobachters oder bei dem Bewertungsbogen (Bewertungsbogen zu ungenau) liegen.

Unsere Ergebnisse zeigen, dass die Übereinstimmung zwischen den beiden Videobeurteilungen bei allen Verhaltensweisen sehr gut ist (gewichtetes Kappa). Das bedeutet, dass die Ergebnisse unabhängig von dem Videogutachter sind, das Ethogramm objektiv ist und die Videoaufnahmen genau genug sind, um das Verhalten der Hunde richtig beurteilen zu können. Zu ähnlichen Ergebnissen kamen auch KNIERIM et al. (2004) oder OTT (2010).

Im Dokument Entwicklung und Evaluierung eines speziellen Verhaltenstests zur Untersuchung der rassetypischen Verhaltensweisen von Hunden der Rasse Australian Shepherd (Seite 128-133)