Gütekriterien von Verhaltenstests - Entwicklung und Evaluierung eines speziellen Verhaltenstest

2 Literatur

2.3 Gütekriterien von Verhaltenstests

Gütekriterien erlauben eine Einschätzung der Qualität eines Tests (RENTZSCH u. SCHÜTZ 2009). Nach TEMBROCK (1987) gibt es drei wichtige Hauptgütekriterien, die ein guter Test erfüllen muss. Dazu gehören die Objektivität (Messgenauigkeit in Bezug auf die Durchführung und Auswertung), Reliabilität (Messzuverlässigkeit) und die Validität (Ausmaß, in dem der Test misst, was er messen soll). Alle Kriterien sind voneinander abhängig und beeinflussen sich gegenseitig. Das bedeutet, dass die Erfüllung der Objektivität Voraussetzung für die Überprüfung der Validität ist. Des Weiteren ist die Validität ein stärkeres Gütekriterium als die Messzuverlässigkeit (KOLLBAUM 2009; ROST 2004).

2.3.1 Objektivität

„Die Objektivität beschreibt die Genauigkeit einer Messung. Sie gibt an, inwieweit ein Verhalten oder eine Beobachtung eindeutig zu quantifizieren ist und wie weit diese Quantifizierung eindeutig zu interpretieren ist“ (KIRCHER u. SCHNEIDER 2003). Bei einem objektiven Test sind die Resultate ausschließlich von dem getesteten Objekt abhängig (RAMMSTEDT 2004). Dazu müssen die Durchführungsbestimmungen, Auswertung und Interpretation des Tests standardisiert sein (BÜHNER 2011). Bei der Durchführungsobjektivität müssen alle Testsituationen unter denselben Bedingungen stattfinden und dürfen von Test zu Test nicht variieren. Bei der Auswertungsobjektivität ist es wichtig, dass alle Personen, die den Test auswerten, präzise Anweisungen bekommen

(BÜHNER 2011). Sie ist gegeben, wenn das Ergebnis unabhängig vom Beurteiler ist. Der Grad der Objektivität ist von der Übereinstimmung zwischen verschiedenen Beurteilern bei der Auswertung einer bestimmten Testleistung abhängig (MOOSBRUGGER u. KELAVA 2008).

Wenn die Interpretationsobjektivität hoch sein soll, dürfen sich die Beurteiler nicht auf individuelle Deutungen verlassen. Die gleichen Testwerte müssen gleich interpretiert werden (KOLLBAUM 2009).

2.3.2 Reliabilität

Die Reliabilität zeigt die Reproduzierbarkeit der Ergebnisse eines Tests an. Sie wird durch die Stabilität der Messergebnisse charakterisiert. Diese Tests werden bei wiederholter Messung unter gleichen Bedingungen durchgeführt (KREIENBROCK u. SCHACH 2005). Hierbei kann es sich um die Übereinstimmung innerhalb eines Beobachters (Intraobserver-Reliabilität), zwischen mehreren Beobachtern (Interobserver-Reliabilität) und innerhalb der Hunde (Test-Retest-Reliabilität) handeln (TAYLOR u. MILLS 2006). Bei einer hohen Reliabilität enthält das Ergebnis keine bzw. wenige Zufallsfehler und ist reproduzierbar (KOLLBAUM 2009). Um die Reliabilität zu testen, werden zwei Tests erschaffen, die dasselbe messen sollen. Danach werden die Tests miteinander verglichen. Eine andere Möglichkeit besteht darin, den gleichen Test zwei Mal in einem gewissen Abstand durchzuführen und den Zusammenhang zwischen den Tests zu ermitteln (BÜHNER 2011).

Bei der Intraobserver-Reliabilität beurteilt der Beobachter das Verhalten der Hunde ein zweites Mal. Dies kann man erreichen, indem man den Test auf Video aufnimmt und sich den Test zwei Mal in bestimmten zeitlichen Abständen anschaut. Danach werden die Ergebnisse der ersten und zweiten Beobachtung miteinander verglichen. Je höher die Übereinstimmung zwischen den Beobachtungen, desto höher ist die Reliabilität.

Die Interobserver-Reliabilität beschäftigt sich mit verschiedenen Beobachtern. Hier werden die Ergebnisse von verschiedenen Beobachtern, die dasselbe beurteilt haben, miteinander verglichen. Um Fehler zu minimieren, sollten diese Beobachter regelmäßigen Kontrollen unterzogen werden und die Beobachtungen sowie Beurteilungen müssen einem standardisierten Schema folgen (REUTERWALL u. RYMAN 1973).

Bei der Test-Retest-Reliabilität wird der Test wiederholt und das Verhalten der Hunde zwischen erstem und zweitem Test miteinander verglichen (MOOSBRUGGER u. KELAVA 2008). Die beiden Tests dürfen sich bezüglich der Durchführung nicht unterscheiden. Der

Test wird mit denselben Hunden durchgeführt, die Situationen müssen gleich sein und sie sollten von denselben Personen beurteilt werden. In der Test-Retest-Reliabilität sollte im Idealfall nur die Zeit variabel sein (BÜHNER 2011). Hier ist es wichtig, auf das Alter der getesteten Tiere zu achten. Das Verhalten entwickelt sich mit dem Alter (FEDDERSEN-PETERSEN 2008). Wird der erste Test mit Jungtieren und der zweite Test mit ausgewachsenen Tieren durchgeführt, kann es passieren, dass sich das gezeigte Verhalten in beiden Tests stark unterscheidet. Um die Reliabilität zu sichern, sollten beide Tests entweder mit Jungtieren oder mit ausgewachsenen Hunden durchgeführt werden.

2.3.3 Validität

Wenn die Reliabilität eines Tests sichergestellt ist, kann man die Validität testen. Diese sagt aus, mit welchem Ausmaß der Test das misst, was er wirklich messen soll (FEDDERSEN-PETERSEN 2008; JONNES u. GOSLING 2005; Rost 2004; Brockhaus 1994; TEMBROCK 1987). Sie bezeichnet die Gültigkeit eines reliablen Messergebnisses und misst, inwieweit das Ergebnis auf die Zielgesamtheit bezogen werden darf (KIRCHER u. SCHNEIDER 2003). Die Validität, auch Gültigkeit genannt, ist ein inhaltliches Konzept. Daraus folgt, dass man keine Maßzahlen angeben kann, welche die Höhe der Validität angeben (KREIENBROCK u.

SCHACH 2005).

Es wird zwischen interner und externer Validität unterschieden. Die interne Validität sagt aus, wie hoch die Gültigkeit für die eigentliche Fragestellung ist. Die externe Validität liefert Informationen darüber, inwieweit die Ergebnisse auf andere Populationen übertragbar sind (KREIENBROCK u. SCHACH 2005). Außerdem lässt sich die Validität nach Inhalts-, Kriteriums- und Konstruktvalidität unterscheiden (SCHNELL et al. 2008).

„Die Inhaltsvalidität ist gegeben, wenn der Inhalt der Testitems das zu messende Konstrukt in seinen wichtigsten Aspekten erschöpfend erfasst“ (BORTZ u. DÖRING 2006). In unserem Fall bedeutet dies, dass wir mit dem konstruierten Ethogramm das Verhalten der Hunde vollständig erfassen können. Abhängig davon, was gemessen werden soll, muss das Ethogramm entsprechend angepasst werden. Wenn z.B. ausschließlich das agonistische Verhalten untersucht wird, reicht es, wenn das Ethogramm nur die dazugehörigen Verhaltensweisen enthält. Bei einer allgemeineren Beschreibung einer Rasse muss das Ethogramm möglichst alle Verhaltensweisen enthalten, die ein Hund zeigen kann. Dem Beobachter muss die Möglichkeit gegeben werden, in jeder Situation das beobachtete Verhalten einzutragen.

Die Kriteriumsvalidität ist gegeben, wenn eine hohe Korrelation zwischen dem tatsächlichen Verhalten und dem durch den Test erfassten Verhalten besteht. Dies bedeutet, dass vom Verhalten innerhalb der Testsituation auf das Verhalten außerhalb des Tests geschlossen werden kann (MOOSBRUGGER u. KELAVA 2008).

Die Konstruktvalidität ist eine Erweiterung der Kriteriumsvalidität. „Ein Test ist konstruktvalide, wenn aus dem zu messenden Zielkonstrukt Hypothesen ableitbar sind, die anhand der Testwerte bestätigt werden können“ (BORTZ u. DÖRING 2006). Das bedeutet, dass vom beobachteten Verhalten auf das Verhalten in anderen Kontexten geschlossen werden kann.

2.3.4 Nebengütekriterien

Nach BÜHNER (2011) gibt es sieben Nebengütekriterien, die bei der Beurteilung der Güte eines Tests wichtig sind. Dazu gehören die Normierung, Vergleichbarkeit, Ökonomie, Nützlichkeit, Zumutbarkeit, Fairness und die Nicht-Verfälschbarkeit. In Verhaltenstests für Hunde sind die ersten fünf Kriterien wichtig und werden im Rahmen dieser Arbeit beschrieben.

Bei der „Normierung“ werden die Ergebnisse eines jeden Testprobanden mit den Ergebnissen der restlichen Probanden verglichen. Der Vergleich darf nicht willkürlich sein und man muss Merkmale bzw. Eigenschaften finden, unter denen die Individuen miteinander verglichen werden dürfen (RENTZSCH u. SCHÜTZ 2009). Das können z.B. Alter, Geschlecht oder die Rasse sein. So könnte man das Verhalten eines getesteten Hundes mit dem Verhalten der restlichen Hunde einer Rasse vergleichen und auf der Grundlage verschiedener Merkmale einordnen. In dem Fall wäre es möglich, eine Aussage darüber zu treffen, wie hoch die Spielbereitschaft eines Individuums im Vergleich zur restlichen Population ist.

Ein Test ist „vergleichbar“, wenn sich für einen Probanden in einem anderen Test ähnliche Ergebnisse ergeben (BÜHNER 2011). Dies kann nur der Fall sein, wenn beide Tests entwickelt wurden, um das Gleiche zu untersuchen.

Ein „ökonomischer“ Test ist im Vergleich zum daraus gezogenen Nutzen günstig, schnell und einfach durchzuführen. Das bedeutet, dass der Test eine möglichst kurze Durchführungszeit aufweist, wenig Material benötigt, die Ausführung einfach und die Auswertung schnell und bequem ist (LIENERT u. RATZ 1998).

Die „Nützlichkeit“ ist gegeben, wenn ein praktisches Bedürfnis für diesen Test vorliegt. Es sollte daher nicht schon ein Test vorhanden sein, der genau dasselbe mindestens genauso gut

misst. Wenn der entwickelte Test nichts Neues einbringt und keine Vorteile gegenüber der alten Methode vorweist, ist er nicht nützlich (BÜHNER 2011).

Mit der „Zumutbarkeit“ ist gemeint, dass der Test die getesteten Individuen nicht in körperlicher, psychischer und zeitlicher Hinsicht übermäßig belasten soll (MOOSBRUGGER u. KELAVA 2008).

Im Dokument Entwicklung und Evaluierung eines speziellen Verhaltenstests zur Untersuchung der rassetypischen Verhaltensweisen von Hunden der Rasse Australian Shepherd (Seite 21-25)