• Keine Ergebnisse gefunden

Festlegung des Evaluationsziels und der Evaluationsmethode

8 EVALUATION VON SEGMENTIERUNGSERGEBNISSEN

8.1 Festlegung des Evaluationsziels und der Evaluationsmethode

Sowohl der Systemdesigner als auch der Benutzer sollte zur Unterstützung der Evaluation am Beginn des Bewertungsprozesses klar spezifizieren, was vom entwickelten Bildanalysesystem erwartet wird. Außerdem muss festgelegt werden, auf welcher Grundlage die Leistungsbewer-tung erfolgen soll und welche Aussagen somit vom BewerLeistungsbewer-tungssystem geliefert werden kön-nen. Neben der Spezifikation des Evaluationsziels muss der Benutzer zu Beginn des Bewer-tungsprozesses noch die Bewertungsmethode auswählen. Hiermit legt er gleichzeitig fest, welche Art von Informationen für den späteren Anwender interessant sein könnte. Beide Punkte sollen nun eingehend betrachtet werden.

8.1.1 Festlegung des Evaluationsziels

Die Evaluation kann aus zwei verschiedenen Gründen durchgeführt werden. So lässt sich zum einen die Tauglichkeit eines Systems für eine bestimmte Segmentierungsaufgabe untersuchen.

Zum anderen kann das Ziel der Evaluation darin bestehen, mehrere Segmentierungsverfahren miteinander zu vergleichen, um das beste Verfahren in der Praxis einsetzen zu können. In beiden Fällen kann man den Einfluss sowohl von externen Parametern als auch von internen Tuning-Parametern auf das Ergebnis der Segmentierung untersuchen. Damit ergeben sich die folgenden zwei Ansätze zur Evaluation [Zhan97]:

- Verwendung derselben Parameter im Segmentierungsalgorithmus für verschiedene Varia-tionen des Bildmaterials zur Untersuchung der Brauchbarkeit und Konsistenz des Algo-rithmus für verschiedene aufnahme- und patientenspezifische Bedingungen und

- Variation der Parameter im Segmentierungsverfahren bei der Untersuchung desselben Bildmaterials zur Analyse des Einflusses der Parametereinstellungen mit dem Ziel, eine optimale Parametersetzung zu finden.

Je nach der Art des verwendeten Basisansatzes unterscheidet man bei der Evaluation zwi-schen [Phil90]:

- der Betrachtung einer offenen Welt

Es werden auch Proben untersucht, die nicht in der Bildergalerie enthalten sind. Bei die-sem Vorgehen wird der Nachweis für die Anwendbarkeit des Algorithmus zur Lösung des Segmentierungsproblems erbracht.

- der Betrachtung einer geschlossenen Welt

Hier ist jede Probe, für die der Algorithmus entwickelt wurde, auch in der benutzten Bil-dergalerie enthalten. Bei dieser Herangehensweise kann die Frage beantwortet werden, wie gut der Algorithmus zur Lösung des gezielten Problems geeignet ist.

In beiden Fällen ermöglicht die Durchführung der Tests sowohl die Bestimmung der Brauch-barkeit des Algorithmus als auch die Bestimmung der Adäquatheit des Modells [Förs94].

8.1.2 Auswahl der Evaluationsmethode

In der Literatur werden zahlreiche Möglichkeiten zur Bewertung der Leistungsfähigkeit eines Segmentierungsalgorithmus beschrieben. Nach Zhang und Dougherty ([Zhan96], [Doug98]) lassen sich dabei drei verschiedene grundsätzliche Herangehensweisen beobachten:

• die Einschätzung der Qualität durch den Menschen,

• die analytische Bewertungsmethode und

• die empirische Beurteilung.

Dabei untersucht und bewertet die analytische Methode die Segmentierungsalgorithmen di-rekt, indem sie die zugrundegelegten Prinzipien und Eigenschaften analysiert. Sie kann des-halb vor dem Segmentierungsprozess durchgeführt werden. Die empirische Analyse der Seg-mentierungsergebnisse, die sich wiederum in Gütemethoden und in Diskrepanzmethoden un-terteilen lässt, misst dagegen die Qualität indirekt durch Anwendung der Segmentierungsver-fahren an Testbildern und Vergleich der Segmentierungsergebnisse mit einem idealen Ergeb-nis. Die Bewertung durch den Menschen erfolgt auch auf der Grundlage der Segmentierungs-ergebnisse, jedoch nur in qualitativer und nicht in quantitativer Form. Diese Einordnung der einzelnen Evaluationsmethoden in den Ablauf der Segmentierung ist in Abbildung 8.2 noch einmal verdeutlicht.

Abb. 8.2: Einordnung der einzelnen Evaluationsmethoden in den zeitlichen Ablauf der Bildanalyse, nach [Zhan96]. Während die analytische Methode ausschließlich den Algorithmus betrachtet, beziehen sich die anderen drei Evaluationsansätze bei ihrer Bewertung auf die Qualität des Segmentierungser-gebnisses

Im Weiteren sollen nun diese vier Möglichkeiten genauer untersucht werden. Hierbei soll eine Beschreibung der Vorgehensweise erfolgen, und es soll auf die Vor- und Nachteile der ein-zelnen Ansätze eingegangen werden. Ein weiterer Aspekt, der in den einein-zelnen Abschnitten beachtet werden soll, ist die Verbindung der einzelnen Bewertungsmethoden zur betrachteten Aufgabenstellung.

8.1.2.1 Bewertung der Qualität durch den Menschen

Bei der Bewertung der Segmentierungsergebnisse durch den Menschen können z. B. psycho-visuelle Tests genutzt werden [Shaf02]. Hier erfolgt der Vergleich von unterschiedlichen Me-thoden zur Segmentierung an realen Daten. Bei dieser Vorgehensweise muss der Mensch zwi-schen den verschiedenen angebotenen Segmentierungsergebnissen das seiner Meinung nach

Eingabebild

segmentiertes Bild

Ergebnisbild

Referenzbild Algorithmus Segmentierung

Nachver-arbeitung Empirische

Diskrepanz-methode

Empirische Gütemethode Analytische

Methode

Bewertung durch den Menschen

und

Eingabebild

segmentiertes Bild

Ergebnisbild

Referenzbild Algorithmus SegmentierungSegmentierung

Nachver-arbeitung

Nachver-arbeitung Empirische

Diskrepanz-methode Empirische

Diskrepanz-methode

Empirische Gütemethode

Empirische Gütemethode Analytische

Methode Analytische

Methode

Bewertung durch den Menschen Bewertung

durch den Menschen

und

beste Resultat auswählen. Über eine Vielzahl derartiger Antworten erfolgt in Abhängigkeit von der zur Entscheidung benötigten Zeit eine statistische Auswertung. Trotz der Ableitung der endgültigen Gewichtung der Verfahren aus den Antworten mehrerer Probanden ist der subjektive Faktor bei dieser Art der Evaluation nicht auszuschließen. Erfolgreich eingesetzt wurde diese Methode bisher für solche Detektionsaufgaben, bei denen das erwartete Segmen-tierungsergebnis im Vorfeld nicht klar formuliert werden kann. Dieses ist z. B. bei der Seg-mentierung von Gemälden zur Unterstützung der Suche in großen Datenbanken der Fall. Ein anderes Beispiel für die Einschätzung der Güte der Segmentierung durch den Menschen ist in [Heat97] zu finden. In der Studie wurden die Ergebnisse von fünf verschiedenen Kantende-tektoren bei realen Bildern miteinander verglichen. Hierbei mussten mehrere Personen die einzelnen Segmentierungsergebnisse entsprechend der erzielten Güte bewerten. Anschließend erfolgte wiederum eine statistische Analyse der Bewertungsergebnisse. In [Fens00a] wird der Ansatz der interaktiven Korrektur des Segmentierungsergebnisses vorgeschlagen, um über die Messung der vom Experten vorgenommenen Veränderungen eine Abschätzung der erzielten Segmentierungsgüte zu erhalten.

Die bei dieser Art der Bewertung gewonnenen Aussagen können nur eine grobe Abschät-zung für die Leistungsfähigkeit eines Segmentierungsverfahrens geben. Ein Vorteil bei dieser Herangehensweise liegt jedoch in der engen Verbindung der Bewertung mit der Aufgaben-stellung. Zur Bewertung der Qualität von medizinischen Bildanalyseaufgaben, bei denen es auch um quantitative Abschätzungen geht, ist diese Bewertungsmethode jedoch nicht geeig-net.

8.1.2.2 Analytische Bewertungsmethode

Eine weitere Möglichkeit zur Bewertung eines Segmentierungsverfahrens ist die analytische Evaluation. Hierbei erfolgt eine direkte Beurteilung des Algorithmus durch die Analyse der zugrundegelegten Prinzipien, der Anforderungen, seines Nutzens, seiner Komplexität und seiner Eigenschaften. Ein Vorteil dieser Herangehensweise ist, dass keine konkrete Imple-mentierung des Algorithmus erforderlich ist. Da jedoch die Komplexität von realen Bildern nicht vollständig mathematisch beschrieben werden kann bzw. sich auch die Komplexität ei-nes Segmentierungsalgorithmus nur eingeschränkt mathematisch erfassen lässt, sind die Er-gebnisse dieser analytischen Bewertung für reale Anwendungen nur eingeschränkt aussage-kräftig. Schwierigkeiten ergeben sich hier vor allem durch das Fehlen einer einheitlichen Theorie der Bildsegmentierung. Deshalb wurde die analytische Methode bisher hauptsächlich für die Bewertung von Kantendetektoren eingesetzt. So wird in [Rame93] und [Rame94] ein Ausdruck hergeleitet, der den Zusammenhang zwischen einer Gradientenschätzung an einer bestimmten Position und der Gradientenschätzung für einen entsprechenden Nachbarpixel be-schreibt. Darauf aufbauend wird ein theoretischer Ausdruck für den mittleren Positionierungs-fehler entwickelt, der dann zur Evaluation von gradientenbasierten Kantendetektoren verwen-det wird. In [Steg98] wird ebenfalls die Qualität der Positionierung von Linien- und Kanten-punkten in Abhängigkeit vom SNR analytisch betrachtet. Courtney [Cour97] leitet aus den Testbildern Verteilungskurven ab, die den vom Algorithmus genutzten Eigenschaften ent-sprechen. Außerdem wird ein Modell vom jeweils betrachteten Algorithmus entwickelt, mit dem aus der Gestalt der Verteilungsfunktionen eine Beschreibung der Effekte auf die Ausga-beperformance abgeleitet werden kann. In [Hara96] und [Hara00] wird zur analytischen Be-wertung der Segmentierungsqualität der Ansatz der Fehlervorhersage in Abhängigkeit von der Kovarianzberechnung auf nichtlineare Probleme ausgeweitet.

Neben diesen komplizierten Betrachtungsweisen gibt es auch einige Aspekte, die relativ einfach zur Bewertung und zur Auswahl von Algorithmen genutzt werden können, wie z. B.

- die Bewertung des eingebrachten a priori Wissens bezüglich der Art des Einbringens und abhängig vom Umfang,

- die Bewertung der Verarbeitungsstrategie (parallel, sequentiell, iterativ, gemischt),

- die Beurteilung der Verarbeitungskomplexität und

- die Einschätzung der Effizienz.

So kann man z. B. beim Einsatz eines parallelen Algorithmus davon ausgehen, dass er schnel-ler als ein sequentielschnel-ler Algorithmus ist. Gleichzeitig sind bei ihm bei verrauschtem Bildmate-rial jedoch schlechtere Ergebnisse zu erwarten. Je nach Aufgabenstellung ist somit die eine oder die andere Verarbeitungsstrategie geeigneter.

Der größte Nachteil der analytischen Bewertungsmethode ist, dass sich mit ihr die wich-tigste Frage der Segmentierung nach der Sicherheit der Ergebnisse nicht beantworten lässt, da sie bezüglich praktisch relevanter Aufgabenstellungen nur sehr beschränkte Aussagen liefert.

So gehen die Natur und das Ziel der Applikation nur sehr eingeschränkt in die Bewertung ein.

Mit dieser Methode kann nur eingeschätzt werden, wie gut z. B. ein spezieller Kantenerken-nungsalgorithmus Kanten erkennt. Damit kann man dann zwar sagen, ob das jeweilige Ver-fahren gut zur Kantenerkennung geeignet ist, aber nicht, ob das jeweilige praktische Problem mit dem Ansatz gelöst werden kann. Aus diesem Grund ist die alleinige Nutzung der analyti-schen Bewertungsmethode für die Beurteilung der komplexen Aufgabenstellungen in der me-dizinischen Bildanalyse auch als ungeeignet einzustufen.

8.1.2.3 Empirische Bewertungsmethoden

Die Beurteilung der Qualität von Segmentierungsergebnissen mit der empirischen Bewer-tungsmethode erfolgt indirekt. Bei dieser Methode werden Testbilder unter Verwendung des zu untersuchenden Verfahrens segmentiert und anschließend wird die Qualität der erzielten Resultate gemessen. Grundsätzlich gibt es drei mögliche Herangehensweisen. Die Güteme-thoden und die DiskrepanzmeGüteme-thoden schätzen die Segmentierungsqualität direkt anhand des vorliegenden Segmentierungsergebnisses. Eine dritte Möglichkeit beruht auf der Bewertung der Ergebnisse einer Nachverarbeitung. In [Trie95] wird diese letzte Variante zur Bewertung von Binarisierungsverfahren genutzt, indem die Segmentierungsgüte anhand der späteren Zei-chenerkennungsrate eingeschätzt wird. Hong [Hong98] setzt diese dritte Methode zur Bewer-tung der Segmentierungsqualität von Fingerabdrücken ein, wobei er die Detektionsrate der Minutien auswertet.

Die Einschätzung der Qualität einer Segmentierung mittels Gütemethoden beruht auf der Ableitung von wünschenswerten Eigenschaften der segmentierten Bereiche in Abhängigkeit von der Aufgabenstellung. Diese Eigenschaften legen fest, wie ein ideal segmentiertes Bild aussehen sollte. Anschließend werden dann diese charakteristischen Eigenschaften anhand von Güteparametern für die entsprechenden Bildbereiche gemessen. Häufig genutzte Gütepa-rameter werden im nächsten Abschnitt ausführlich betrachtet. Ein Vorteil dieser Vorgehens-weise besteht darin, dass keine Referenzbilder erforderlich sind. Somit ist diese Evaluations-strategie auch für eine On-line-Bewertung geeignet.

Bei der Diskrepanzmethode geht man im Allgemeinen von der Annahme aus, dass sich bei komplexen Bildern und bei einer möglichst automatischen Segmentierung Fehler nicht ver-meiden lassen. Man nimmt vielmehr an, dass einige dieser Fehler in praktischen Anwendun-gen durchaus toleriert werden können. Die Bewertung eines Segmentierungsverfahrens er-folgt bei dieser Methode auf der Grundlage der Messung der Abweichung zwischen dem segmentierten Bild und einem ideal segmentierten Referenzbild. Dieses wird auch als

Gold-standard bezeichnet. Erhält man bei der Messung einen hohen Diskrepanzwert, so bedeutet dies, dass ein großer Fehler bei der Segmentierung und damit eine geringe Leistungsfähigkeit vorliegt. Im Gegensatz zum Gebiet der Bildkodierung, bei dem die Diskrepanzmethode zur Beschreibung der Kodierungsgüte benutzt wird, hat man hier das Problem, dass das Bild vom Segmentierungsergebnis sowie das Referenzbild immer unterschiedlich sind. Somit sind hier andere Messwerte, die diesem Problem Rechnung tragen, erforderlich. Die einzelnen nutzba-ren Diskrepanzwerte sind im nächsten Abschnitt ausführlich beschrieben.

Ein Vorteil der empirischen Bewertungsmethode ist, dass sie zur quantitativen Beschrei-bung der Genauigkeit eines Verfahrens genutzt werden kann. Weiterhin ist diese Herange-hensweise sehr allgemein, da sie unterschiedliche Typen von Segmentierungsalgorithmen bewerten kann. In den meisten Studien orientiert sich die Bewertung nur an dem Ergebnisbild, der Algorithmus spielt hierbei keine Rolle. Während die quantitative Bewertung bei den Gü-temethoden eher subjektiv ist aufgrund der subjektiven Auswahl der wünschenswerten Eigen-schaften, kann mit den Diskrepanzmethoden sowohl eine quantitative als auch objektive Be-wertung erreicht werden. Im Allgemeinen sind empirische Methoden komplexer als analyti-sche, da sie eine Implementation des Algorithmus zum Erzeugen der Segmentierungsergeb-nisse benötigen. Bei der Diskrepanzmethode ist daneben noch eine Erzeugung der Referenz-bilder erforderlich. Weiterhin kann man feststellen, dass die Berechnungskosten für die Eva-luation stark von der Art der Merkmale abhängen, auf deren Grundlage die Bewertung durch-geführt wird.

Durch die Nutzung von realem Bildmaterial ist es bei den empirischen Bewertungsverfah-ren möglich, eine enge Verbindung zum Applikationsgebiet herzustellen. Ein Nachteil dabei ist jedoch, dass die Evaluation für andere Benutzer nur dann zum Vergleich eigener Verfahren herangezogen werden kann, wenn die verwendeten Bilder ebenfalls mit zur Verfügung ge-stellt werden. Weiterhin haben zwar reale Bilder eine realistische Charakteristik, aber ihre Zu-fallsnatur erschwert die Allgemeinheit und die Vergleichssicherheit der Evaluationsstudie.

Bei der empirischen Gütemethode gehen die Applikation und das Ziel der Segmentierung ne-ben dem zum Test verwendeten Bildmaterial auch in die Wahl der Gütefunktion mit ein. Die empirische Diskrepanzmethode gewährleistet die Verbindung zur Applikation zum einen über das Testbildmaterial und zum anderen über das Referenzbild. Außerdem kann auch die Wahl des Diskrepanzmaßes teilweise diese Verbindung ermöglichen.

Folgende Hauptprobleme, die sich beim Einsatz der empirischen Verfahren zur Beurtei-lung der Segmentierungsqualität zeigen, müssen, um Fehler in der Bewertung zu vermeiden, bei deren Benutzung beachtet werden:

- Die zur Bewertung der Algorithmen verwendeten Gütekriterien dürfen nicht gleichzeitig auch zur Segmentierung benutzt werden, da sonst eine fehlerhafte Qualitätsbeurteilung erfolgt.

Dies bedeutet, dass, wenn die Segmentierung auf einem Homogenitätskriterium beruht, die Einschätzung der Homogenität einer Region nicht gleichzeitig als Gütemerkmal ver-wendet werden kann.

- Die Skalierungs- und Wichtungsparameter bei den Qualitätsmessparametern werden oft intuitiv gewählt, so dass die eigentlich objektive Bewertung doch wieder subjektive Fak-toren enthält.

8.1.2.4 Zusammenfassung

Da die Leistungsfähigkeit von Segmentierungsalgorithmen durch viele Faktoren beeinflusst wird, ist im Allgemeinen die Anwendung nur einer einzigen Bewertungsmethode basierend auf einem Bewertungsmaß nicht ausreichend, um alle Aspekte zu berücksichtigen. Teilweise wird ein Vektor von Bewertungsmaßen genutzt, der viele verschiedene Faktoren, wie eine Homogenitätsbetrachtung, eine Kontrastmessung, eine Kompaktheitsabschätzung und psy-cho-visuelle Wahrnehmungsparameter beinhaltet [Pal93]. Die Art der Verknüpfung der ein-zelnen Maße ist ein weiteres Forschungsgebiet. So benutzt Cavallaro [Cava02] in seinen Ar-beiten zur Gewichtung der einzelnen Bewertungsmaße sogenannte Wahrnehmungsmaße, die besagen, wie relevant das jeweilige Bewertungsmaß für die Abschätzung der Korrektheit des Segmentierungsergebnisses ist. Es werden sowohl räumliche Wahrnehmungsmaße, die Ab-stände gewichten, als auch zeitliche Wahrnehmungsmaße, die z. B. die Dauer des Auftretens eines Fehlers in Abhängigkeit von Überraschungs- und Ermüdungseffekten berücksichtigen, verwendet.

Bei einigen Evaluationsmethoden muss außerdem beachtet werden, dass bei sehr schlech-ter Bildqualität die Abweichungen zwischen verschiedenen Segmentierungsalgorithmen ge-ringer ausfallen können als die Unterschiede eines Algorithmus bei den variierenden Bildbe-dingungen selbst. Damit wäre ein Vergleich der Qualität von verschiedenen Segmentierungs-methoden nicht mehr möglich.