• Keine Ergebnisse gefunden

Festlegung der Bewertungsmaße für die empirische Evaluation

8 EVALUATION VON SEGMENTIERUNGSERGEBNISSEN

8.2 Festlegung der Bewertungsmaße für die empirische Evaluation

8.1.2.4 Zusammenfassung

Da die Leistungsfähigkeit von Segmentierungsalgorithmen durch viele Faktoren beeinflusst wird, ist im Allgemeinen die Anwendung nur einer einzigen Bewertungsmethode basierend auf einem Bewertungsmaß nicht ausreichend, um alle Aspekte zu berücksichtigen. Teilweise wird ein Vektor von Bewertungsmaßen genutzt, der viele verschiedene Faktoren, wie eine Homogenitätsbetrachtung, eine Kontrastmessung, eine Kompaktheitsabschätzung und psy-cho-visuelle Wahrnehmungsparameter beinhaltet [Pal93]. Die Art der Verknüpfung der ein-zelnen Maße ist ein weiteres Forschungsgebiet. So benutzt Cavallaro [Cava02] in seinen Ar-beiten zur Gewichtung der einzelnen Bewertungsmaße sogenannte Wahrnehmungsmaße, die besagen, wie relevant das jeweilige Bewertungsmaß für die Abschätzung der Korrektheit des Segmentierungsergebnisses ist. Es werden sowohl räumliche Wahrnehmungsmaße, die Ab-stände gewichten, als auch zeitliche Wahrnehmungsmaße, die z. B. die Dauer des Auftretens eines Fehlers in Abhängigkeit von Überraschungs- und Ermüdungseffekten berücksichtigen, verwendet.

Bei einigen Evaluationsmethoden muss außerdem beachtet werden, dass bei sehr schlech-ter Bildqualität die Abweichungen zwischen verschiedenen Segmentierungsalgorithmen ge-ringer ausfallen können als die Unterschiede eines Algorithmus bei den variierenden Bildbe-dingungen selbst. Damit wäre ein Vergleich der Qualität von verschiedenen Segmentierungs-methoden nicht mehr möglich.

Normali-sierungsfaktors ist für größere Regionen eine höhere Farbabweichung zulässig als für kleinere Regionen bei gleichem resultierenden Fehlermaß.

die Beurteilung der Güte basierend auf dem Inter-Regionen-Kontrast [Zhan96]

Hierbei wird davon ausgegangen, dass sich die Pixel unterschiedlicher Regionen mög-lichst stark unterscheiden. Ein Beispiel für ein Bewertungsmaß, welches diesen Aspekt berücksichtigt, ist der Graustufenkontrast GC. Er berechnet sich nach

,

b o

b o

f f

f GC f

+

= − (8.1)

mit fo als dem mittleren Grauwert des Objekts und fb als dem mittleren Grauwert des Hin-tergrundes.

die Ermittlung der Güte basierend auf der Regionengestalt [Zhan96]

In diesem Zusammenhang wird davon ausgegangen, dass die Gestalt der Region wichtig für die Bewertung ist. Eine Berechnungsvorschrift für die Gestaltmessung ist in [Saho88]

zu finden.

die Einschätzung der Güte basierend auf der Bootstrap Resampling Technik [Cho97]

Diese Vorgehensweise wurde von Cho [Cho97] zur Beurteilung der Güte von Kantende-tektoren verwendet. Dabei wurden mit der Bootstrap-Technik basierend auf den statisti-schen Kenngrößen des Bildes eine Vielzahl von Bootstrap-Kopien geschaffen und diese wurden dann jeweils segmentiert. Die Stabilität der Position der einzelnen segmentierten Kantenzüge wurde anschließend zur Einschätzung der Güte des verwendeten Detektions-verfahrens genutzt.

8.2.2 Einsatz von Diskrepanzmerkmalen

Ähnlich wie bei den Gütemerkmalen existiert auch bei der Diskrepanzabschätzung eine Viel-zahl verschiedener Diskrepanzmaße. Beispiele hierfür sind:

die Berechnung der Diskrepanz basierend auf der Zahl der falsch segmentierten Pixel ([Zhan96], [Liu98], [Roma01])

Bei dieser Herangehensweise wird die Segmentierung als ein Pixelklassifikationsprozess betrachtet, bei dem zwei Arten von Fehlern möglich sind. Fehler vom Typ 1 bewirken, dass Pixel der Klasse k nicht als Klasse k bezeichnet werden. Fehler vom Typ 2 treten auf, wenn Pixel anderer Klassen als Pixel der Klasse k bezeichnet werden (Abb. 8.3). Die Berechnung der Wahrscheinlichkeit von beiden Fehlertypen entsprechend der Gleichun-gen in [Zhan96] bzw. etwas abgewandelt in [Roma01] dient in diesem Fall als Diskre-panzmaß. Liu [Liu98] verwendet diese Maße für die Fehler von Typ 1 und 2 zur Bewer-tung von Segmentierungsalgorithmen zur Erkennung von Autos in Luftbildern. Wiede-mann [Wied98] benutzt die beiden Fehlertypen zur Berechnung von zusammengesetzten Diskrepanzmaßen, mit denen die Vollständigkeit, die Korrektheit, die Qualität und die Redundanz einer Segmentierung im Vergleich zum Goldstandard eingeschätzt werden kann.

die Ermittlung des Unterschieds zwischen Testdaten und Ergebnisbild basierend auf der Position der falsch segmentierten Pixel ([Zhan96], [Corr00], [Roma01], [Odet02]) Hier wird von der Annahme ausgegangen, dass nicht nur die Anzahl der Fehler, sondern auch deren Position von entscheidender Bedeutung für die Qualität eines Segmentie-rungsergebnisses ist. Zur Berechnung dieses Qualitätsmaßes gibt es die Möglichkeit, entweder den Abstand zwischen den einzelnen falsch segmentierten Pixeln und den je-weils nächsten Pixeln der falsch segmentierten Klasse zu ermitteln oder den mittleren quadratischen Abstandswert der beiden Konturen zu bestimmen entsprechend der folgen-den Gleichung:

= + ⋅

= N

i p d i

FOM N

1 2 ,

) ( 1

1

1 (8.2)

mit N=max(Ni, Na) und Ni und Na als Anzahl der Pixel der idealen und der aktuellen Kon-tur, d(i) als dem gemessenen Abstand und p als dem Skalierungsparameter [Zhan96]. Ein ähnliches Maß wird auch in [Correira] und in [Roman-Roldan] verwendet. Ein Problem bei dieser Art von Fehlermaßen ist die fehlende Differenzierung zwischen einer falsch negativen und einer falsch positiven Fehlsegmentierung. Aus diesem Grund werden in [Odet02] zwei verschiedene Maße berechnet, die zum einen den Abstand der Übersegmentierung und zum anderen den Abstand der Untersegmentierung getrennt bewerten. Da bei der menschlichen Wahrnehmung jedoch Pixel innerhalb eines gewissen Abstandes als zum Objekt gehörig angesehen werden, werden solche Abweichungen in der Berechnung der skalierbaren Diskrepanzmaße nicht so stark bestraft, wie Pixelabstände oberhalb eines festgelegten Schwellenwertes für den akzeptierbaren Abstand.

die Beurteilung der Diskrepanz basierend auf der Zahl der Objekte im Bild [Zhan96]

Dieses Maß ist nur dann geeignet, wenn eine sehr große Anzahl sehr kleiner Objekte im Bild vorhanden ist. Ein Beispiel hierfür ist die Segmentierung von Zellen in Mikroskop-bildern. Bei anderen Segmentierungsaufgaben tritt ansonsten ein sehr großer Fehler auf, wenn sich die Zahl der segmentierten Objekte bereits unterscheidet. Eine Möglichkeit zur Berechnung ist die Bestimmung der Fragmentierung über

, 1

1

q N

N A

T p

FRAG = + ⋅ − (8.3)

wobei TN die wahre Objektanzahl und AN die Anzahl der aktuellen Objekte ist. Die Grö-ßen p und q sind zwei Skalierungsfaktoren.

die Ermittlung der Diskrepanz basierend auf den Merkmalswerten der segmentierten Objekte ([Zhan96], [Corr00], [Mano98], [Erde00], [Leto02], [Yang95])

Dieser Messung wird die Hypothese zugrundegelegt, dass sich das Referenz- und das Testbild nur gering unterscheiden, so dass typische Merkmalswerte auch in beiden Bil-dern die gleiche Größe besitzen sollten. Damit kann die Differenz der unterschiedlichen Merkmalswerte zur Evaluation herangezogen werden. Eine Möglichkeit ist die

Bestim-Abb. 8.3: Beispiel für die Klassifikation nach untersegmentierten Pixeln (Fehler vom Typ 1, schwarz) und übersegmentierten Pixeln (Fehler vom Typ 2, weiß)

mung der „ultimativen Messgenauigkeit“ (UMA). Sie ist merkmalsabhängig. Typische Merkmale sind z. B. der Grauwert und statistische bzw. geometrische Merkmale wie der Flächeninhalt, die Bending Energie, der Formfaktor, die normalisierte mittlere oder abso-lute Krümmung, der Durchmesser oder die Rundheit. Man unterscheidet bei der Berech-nung zwischen der absoluten ultimativen Messgenauigkeit (AUMA) und der relativen ul-timativen Messgenauigkeit (RUMA). Sie berechnen sich nach

S R

AUMA= − , (8.4)

%,

⋅100

= − R

S

RUMA R (8.5)

wobei R das Merkmal im Referenzbild und S das Merkmal im segmentierten Bild ist. Ein Beispiel für die Durchführung der Evaluation von Split-and-Merge-Segmentierungen für MR-Datensätze des Gehirns basierend auf einer Volumenmessung ist in [Mano98] zu finden. In [Corr00] wurden zur Beschreibung der geometrischen Ähnlichkeit die Diskre-panzmaße für den Vergleich der Größen, der Objektschwerpunkte und der Kompaktheit verwendet, um segmentierte Objekte in Videosequenzen zu bewerten. Außerdem wurden Maße zur Beschreibung der Abweichung in der Helligkeit und Röte zwischen Referenz- und segmentiertem Objekt genutzt. In [Erde00] wurde ein gestaltbasiertes Ähnlichkeits-maß zur Bewertung der Segmentierungsqualität in Videosequenzen eingesetzt. Yang [Y-ang95] verwendet als Vergleichskriterium für verschiedene Ansätze zur Segmentierung weißer Blutkörperchen ein Rundheits- und ein Orientierungsmaß. Ähnlichkeitsmaße, die als Merkmale die Ausdehnung, die Kompaktheit, das umschließende Rechteck, die Ob-jektsymmetrie, den Kontrast und die Konturregelmäßigkeit zugrundelegen, werden in [Leto02] zur Beurteilung der Qualität von Luftbildsegmentierungen verwendet. Die auf-geführten Eigenschaften benutzt, weil sie gut mit den von einem menschlichen Experten genutzten Kriterien korrespondieren.

die Bestimmung der Diskrepanz basierend auf verschiedenen Quantitäten [Zhan96]

Bei diesem Merkmal wird die Anzahl der sich in segmentiertem Bild und Referenzbild überlappenden Regionen gemessen. Eine andere Möglichkeit besteht noch in der Mes-sung der symmetrischen Divergenz. Mögliche Berechnungsvorschriften finden sich in [Zhan96].

die Berechnung der Diskrepanz basierend auf der Anzahl der korrekt segmentierten Pixel [Vitu97]

Im Gegensatz zum ersten angegebenen Diskrepanzmaß wird hier zur Beurteilung der Korrektheit der Segmentierung das Verhältnis gebildet aus zum einen der bedingten Wahrscheinlichkeit eines als Kantenpunkt bezeichneten Punktes, auch ein wahrer Kan-tenpunkt zu sein und andererseits aus der bedingten Wahrscheinlichkeit eines wahren Kantenpunktes, auch tatsächlich als Kantenpunkt bezeichnet zu werden. Das beste Er-gebnis für ein Verfahren besteht in der Gleichheit dieser beiden Wahrscheinlichkeiten, d.h. in einem Wert von eins für das ermittelte Verhältnis.

die Ableitung der Diskrepanz basierend auf dem Überlappen des segmentierten Volu-mens und des VoluVolu-mens im Referenzbild [Geri01]

Akzeptierte Maße zur Bestimmung der Überlappung zwischen dem segmentierten Volu-men S und einem ReferenzvoluVolu-men R berechnen sich nach

R S

R D S

= ∩ bzw.

R R

D= S∩ . (8.6)

Die Messung liefert vergleichbare Maße, wenn die Größe der untersuchten Strukturen und die Auflösung der Bilddaten standardisiert ist. Wenn man von der Annahme ausgeht, dass die Fehler hauptsächlich an den Grenzen des Objekts auftreten, wird für einen gleichgroßen Fehler für eine kleinere Struktur ein größerer Diskrepanzwert berechnet als für eine größere Struktur.

die Berechnung der Diskrepanz basierend auf dem Hausdorff-Abstand zwischen den Konturen im Goldstandard und im real segmentierten Bild ([Chal97], [Liu02], [Ge-ri01])

Der Hausdorff-Abstand (Abb. 8.4) berechnet sich nach [Chal97] über

( )

{ }

{ ( ) }

= d a B d b A

B A

d j

i j

Hausdorff ( , ) max maxi . ,max . (8.7)

mit A und B als Konturen vom segmentierten Bild und vom Goldstandard und

i i j

i B b a

a

d( . ) = min . (8.8)

Dieser Abstand wird u.a. in [Chal97] und [Geri01] zu Bewertung der Qualität von er-kannten Grenzen in medizinischen Bildern verwendet und von Liu [Liu02] zur Beurtei-lung der Güte von Algorithmen zur Ecken und Linienerkennung.

die Bestimmung der Diskrepanz durch die Berechnung der mittleren absoluten Ober-flächenabweichung [Geri01] bzw. der Konturabweichung ([Erde00], [Fens00b]) Diese Messung integriert sowohl die Fehler infolge von Über- als auch die von Unter-segmentierung in einem Maß. Die Berechnung erfolgt auf der Grundlage der euklidischen Distanztransformation ([Geri01], [Erde00]) oder durch Nutzung der Chamfer-Distanz-Berechnung [Fens00b].

der Vergleich der durch die Konturen im Goldstandard und im segmentierten Bild eingeschlossenen Pixel ([Chal97], [Jais95])

Hierzu wird ein Pixel-zu-Pixel-Vergleich vorgeschlagen. Für alle Pixel innerhalb der bei-den Konturen wird eine pixelweise XOR-Operation durchgeführt, und die mittlere An-zahl der Pixel im Ergebnisbild, die nicht 0 sind, wird als Metrik benutzt.

die Messung der Ähnlichkeit in der Kantenstärke von der Kontur im Goldstandard und im segmentierten Bild [Corr00]

Zur Berechnung der Kantenstärke wird in beiden Fällen der Sobel-Operator eingesetzt, wobei über die Beträge der Differenzen korrespondierender Konturpixel gemittelt wird.

die Bestimmung der Differenz in den Histogrammen der Konturorientierung bzw. der Kurvigkeit der Kontur [Fens00b]

Diese Maße sind jedoch nur bei sehr gering verrauschten Bilddaten und bei solchen Seg-mentierungsalgorithmen einsetzbar, die keine zu exakte Anpassung des Segmentierungs-Abb. 8.4: Hausdorff-Abstand (durchgehende Linie) zur Cha-rakterisierung der maximalen Abweichung zwischen einer segmentierten Kontur (gepunktete Linie) und der Kontur im Goldstandard (gestrichelte Linie)

ergebnisses an die Bilddaten erlauben. In [Fens00b] werden sie zur Beurteilung des Er-gebnisses einer Segmentierung mit einem deformierbaren Modell verwendet, wo durch die Festlegung der innere Energie eine gewisse Glattheit des Ergebnisses gewährleistet ist.

die Ermittlung von Maßen zur Bestimmung der Genauigkeit der Bewegung von seg-mentiertem Objekt und Referenzobjekt ([Corr00], [Erde00])

In der Bewertung der Segmentierung von Zeitsequenzen ist zum einen die Ermittlung der zeitlichen Genauigkeit, z. B. wann das segmentierte Objekt das erste und letzte Mal in Erscheinung tritt, als auch die räumlich-zeitliche Genauigkeit von Wichtigkeit. Hinweise auf Berechnungsvorschriften hierzu finden sich in [Corr00] bzw. in [Erde00]

Das Problem bei dem Entwurf des Evaluationsszenarios besteht nun darin, aus der Vielzahl der möglichen Messgrößen diejenigen auszuwählen, mit denen die Qualität der Segmentie-rung am besten charakterisiert werden kann. Eine Hilfestellung kann hier die Analyse der menschlichen Qualitätsbewertung liefern. Merkmale, die auch von einem Experten zur Quali-tätsabschätzung verwendet werden, sollten auch bei der automatischen Bewertung eine geeig-nete Basis für die Auswertung der Evaluationsstudie darstellen. Wenn dieses Problem geklärt ist, besteht der nächste Entwurfsschritt darin, die geeignete Teststrategie zu entwickeln. Die-sem Thema widmet sich das nun folgende Unterkapitel.