• Keine Ergebnisse gefunden

8 EVALUATION VON SEGMENTIERUNGSERGEBNISSEN

8.3 Durchführung der Tests

ergebnisses an die Bilddaten erlauben. In [Fens00b] werden sie zur Beurteilung des Er-gebnisses einer Segmentierung mit einem deformierbaren Modell verwendet, wo durch die Festlegung der innere Energie eine gewisse Glattheit des Ergebnisses gewährleistet ist.

die Ermittlung von Maßen zur Bestimmung der Genauigkeit der Bewegung von seg-mentiertem Objekt und Referenzobjekt ([Corr00], [Erde00])

In der Bewertung der Segmentierung von Zeitsequenzen ist zum einen die Ermittlung der zeitlichen Genauigkeit, z. B. wann das segmentierte Objekt das erste und letzte Mal in Erscheinung tritt, als auch die räumlich-zeitliche Genauigkeit von Wichtigkeit. Hinweise auf Berechnungsvorschriften hierzu finden sich in [Corr00] bzw. in [Erde00]

Das Problem bei dem Entwurf des Evaluationsszenarios besteht nun darin, aus der Vielzahl der möglichen Messgrößen diejenigen auszuwählen, mit denen die Qualität der Segmentie-rung am besten charakterisiert werden kann. Eine Hilfestellung kann hier die Analyse der menschlichen Qualitätsbewertung liefern. Merkmale, die auch von einem Experten zur Quali-tätsabschätzung verwendet werden, sollten auch bei der automatischen Bewertung eine geeig-nete Basis für die Auswertung der Evaluationsstudie darstellen. Wenn dieses Problem geklärt ist, besteht der nächste Entwurfsschritt darin, die geeignete Teststrategie zu entwickeln. Die-sem Thema widmet sich das nun folgende Unterkapitel.

Ausgehend von den einfachen künstlichen Testbildern bis hin zu den realen Bilddaten nimmt dabei die Genauigkeit der Approximation an die realen Gegebenheiten immer weiter zu. An-dererseits nimmt die Möglichkeit zum einfachen Ableiten von Daten für den Goldstandard ab.

Eine sehr einfache Möglichkeit, Segmentierungsalgorithmen zu testen, besteht in der Ge-nerierung einfacher künstlicher Testbilder. In der Regel werden geometrische Objekte, wie z.

B. Kreise oder Vierecke, im Bild platziert und mit einer anderen Farbe als der Hintergrund eingefärbt. Mit dieser Art von Testbildern lassen sich zwar objektive Aussagen über die Brauchbarkeit eines Algorithmus gewinnen. Diese sind jedoch nur bedingt verallgemeinerbar und kaum auf das reale Problem zu übertragen, da sie zumeist wenig Ähnlichkeit mit der Rea-lität aufweisen [Hara00]. Häufig werden zur Bildsynthese auch solche Annahmen getroffen, die gleichfalls dem Segmentierungsalgorithmus zugrunde liegen. Damit sind die Ergebnisse der Untersuchungen nicht aussagekräftig [Chal97]. Ein Vorteil bei der Nutzung von künstli-chen Testbildern ist jedoch, dass zum einen sehr einfach der Goldstandard generiert werden kann und zum anderen die Einflüsse der Parametrisierung und der Initialisierung sowie die Auswirkungen einer Variation der aufnahme- und objektspezifischen Faktoren auf das Seg-mentierungsergebnis untersucht werden können.

Eine etwas bessere Approximation der Realität stellen simulierte Daten dar. So wird in [Lehm01a] eine Möglichkeit zur Erzeugung synthetischer aber realistischer Bilder durch eine Fourier-basierte Textursynthese beschrieben. Dazu werden Beispieltexturen aus realen Bil-dern gesammelt und als Fourier-Repräsentation abgespeichert. Durch eine Neukombination von Amplituden- und Phasenspektren sowie durch die Variation der Mittelwerte werden syn-thetische Texturen erzeugt (Abb. 8.5). Diese werden dann in ein Bild, welches aus drei Berei-chen (innerer und äußerer Bereich sowie Konturzone) zusammengesetzt ist, eingefügt [Lehm01b]. Die auf diese Weise generierten Bilddaten können jedoch aufgrund der Mischung der Spektren artefaktähnliche Strukturen im Bild enthalten, die so nicht in realen Bildern vor-kommen können. Eine weitere Möglichkeit, reale Gegebenheiten zu simulieren, stellt die von Cho [Cho97] genutzte Bootstrap-Methode zur Untersuchung von Kantendetektoren dar. Sie wird im Zusammenhang mit einem Vorschlag zu einer dreistufigen Bewertungsstrategie im Kapitel 10.3 ausführlicher erläutert.

Ein anderer Weg, Bilddaten zu simulieren, ist die Verwendung eines rechnerinternen Mo-dells. Diese Vorgehensweise wurde z. B. zur Erzeugung von MR-Datensätzen des Gehirns ([Wage00], [Coll98], [More00]), zur Erzeugung von koronaren Angiographien [Gree01] und zur Erzeugung von Ultraschallbildern [Jens96] eingesetzt (Abb. 8.6). Hierbei wird versucht, alle für ein Bildgebungsverfahren relevanten Aspekte eines Untersuchungsobjekts mathema-tisch zu beschreiben. Davon ausgehend wird eine Messreihe berechnet, die bei der simulierten Untersuchung entstehen würde. Alle nachfolgenden Operationen, die mit der Bilderzeugung verbunden sind, wie z. B. die Bildrekonstruktion, werden dann analog zu den realen Messrei-hen durchgeführt [Tönn93]. Durch diese Methode lassen sich Einflüsse der Bildaufnahme nur noch durch die Approximation im Rahmen des Modells untersuchen. Andererseits können

je-Abb. 8.5: Beispiel für die Erzeu-gung synthetischer Bilder mittels Fourier-basierter Textursynthese, links: histochemisch gefärbtes Motoneuron, rechts: simuliertes Bild, aus [Lehm01].

doch beliebige Variationen physikalischer Effekte simuliert werden, die in der Realität mitun-ter nur sehr selten zu beobachten wären. Ein weimitun-terer Vorteil liegt wiederum in der automati-schen Verfügbarkeit der Grundwahrheit.

Neben den bisher erläuterten Möglichkeiten zur Erzeugung künstlicher Daten lassen sich auch reale Daten zur Evaluation verwenden. Die beste Kontrollmöglichkeit liefern hierbei Phantome, die mit dem entsprechenden Untersuchungsverfahren genauso wie die realen Da-ten dargestellt werden. Da die Phantome den gleichen Bildgebungsprozess durchlaufen, las-sen sich hier auch alle Einflüsse des Bildgebungssystems untersuchen. Der Eigenschaften des Objekts dagegen, können, bis auf geometrische Charakteristiken, nicht realistisch nachgebil-det werden. Somit lassen sich die daraus resultierenden Variationen der Objekte im Bildmate-rial mit dieser Art der Bilderzeugung auch nicht untersuchen. Eine Schlussfolgerung über die Korrektheit der Segmentierung lässt sich durch das Vermessen des Phantoms ableiten.

Schließlich lässt sich auch reales, totes Material zur Evaluation verwenden. Hierbei werden im Unterschied zur vorgenannten Kategorie auch eine Vielzahl von Eigenschaften des Ob-jekts mit erfasst. Voraussetzung für diesen Ansatz ist jedoch, dass sich die Messwerte für to-tes und lebendes Material bei dem verwendeten Bildgebungsverfahren nicht unterscheiden.

Dies ist beim Röntgenverfahren und bei der CT-Bildgebung der Fall. Bei MR-Aufnahmen bewirken voneinander abweichende T1- und T2-Relaxationszeiten für totes und lebendes Ge-webe Unterschiede in den Bilddaten. Funktionelle Daten lassen sich mit diesem Ansatz über-haupt nicht gewinnen. Eine Vermessung des Untersuchungsmaterials kann hier ähnlich wie bei den Phantomdaten zur Gewinnung von Vergleichsdaten durchgeführt werden. Diese Da-ten können dann wiederum für eine Diskrepanzmessung zur Charakterisierung der Qualität des Segmentierungsverfahrens genutzt werden.

Eine weitere Möglichkeit zum Erzeugen von Testbildern für die Evaluation von Bildanaly-sealgorithmen ist die Verwendung von realem Bildmaterial in das nachträglich Abnormalitä-ten eingefügt werden. Die AbnormalitäAbnormalitä-ten können dabei zum einen gleichfalls aus realen Bil-dern stammen und zum anderen können sie anhand eines Modells generiert werden. Ein Prob-lem ist jedoch in beiden Fällen, dass die große Vielfalt bzw. auch das reale Erscheinungsbild der Abnormalitäten nicht nachgebildet werden kann. Dadurch können auch keine allgemein-gültigen Aussagen von den Tests mit diesen Bildern abgeleitet werden. Genutzt wird diese Vorgehensweise teilweise im Bereich der Tumorerkennung in Mammographien [Zwig96].

Das letzte und realistischste Testszenario basiert auf der Untersuchung von realem Bildma-terial. Hierbei tritt jedoch die Schwierigkeit auf, dass die genaue Position der zu segmentie-renden Strukturen, die für die Berechnung von Diskrepanzmaßen notwendig ist, a priori nicht zur Verfügung steht. Sie muss erst durch manuelle Markierung ermittelt werden. Die Proble-me, die damit verbunden sind, werden im Abschnitt 8.3.3 beschrieben. Eine weitere Schwie-rigkeit bei der Verwendung realer Bilddaten besteht darin, dass eine repräsentative Testmenge

Abb. 8.6: simulierte Daten durch Nutzung eines rechnerinternen Modells, links: Bei-spiel für ein simuliertes PD-MR-Bild des Gehirns, rechts: Simulation eines Ultra-schallbildes von einem Zystenphantom (http://www.bic.mni.mcgill.ca/brainweb/ und http://eswww.it.dtu.dk/~jaj/field/)

vorhanden sein muss, die alle möglichen Erscheinungsformen der zu untersuchenden Struktur enthält. Wird eine Untermenge von Bilddaten zum Test aus einer Datenbank ausgewählt, so muss darauf geachtet werden, dass nicht alle problematischen Fälle vorher als irrelevant aus der Testmenge ausgesondert werden [Sonk00]. Für einige, wenige Anwendungsbereiche, wie z. B. für die Brusttumorerkennung in Mammographien, existieren bereits größere über das In-ternet zur Verfügung gestellte Datensammlungen, in denen auch die Grundwahrheit gespei-chert ist. Für andere medizinische Anwendungsgebiete ist man seit einigen Jahren dabei, der-artige Datenbanken zu etablieren [Brow00]. Diese müssen dann auch immer mit neueren Bil-dern, Daten von neuen Modalitäten und Daten mit neuen Protokollen aktualisiert werden [Jann02]. Durch die Nutzung dieser Daten wird es dann auch möglich sein, unterschiedliche Segmentierungsansätze miteinander vergleichbar zu machen.

Im Anschluss an die Auswahl einer entsprechenden Testdatenmenge ist es erforderlich, die Durchführung der Tests zu planen.

8.3.2 Auswahl der Einflussgrößen

Bei dem Entwurf der Testszenarien muss darauf geachtet werden, dass diese Tests weder zu hart noch zu weich sein dürfen. Ist der Test zu weich, wird nur das Tuning existierender Algo-rithmen bewirkt. Im anderen Fall, wenn der Test über die Fähigkeiten der zu untersuchenden Verfahren hinausgeht, werden für alle Ansätze gleichermaßen schlechte Resultate erzielt, so dass kein Vergleich der Leistungsfähigkeit der verschiedenen Algorithmen möglich ist [Phil-90].

Um die Tests systematisch durchführen zu können, sollte man sich zunächst überlegen, welche unterschiedlichen Einflussgrößen auf das Ergebnis eines Segmentierungsverfahrens einwirken können. Diese Beeinflussung kann durch Variationen in den Objektmerkmalen, durch Effekte beim Bildaufnahmeprozess, durch Modifikationen in der Parametersetzung des Algorithmus und durch unterschiedliche Initialisierung erfolgen. Alle diese systematisch zu untersuchenden Ursachen sollten in Abhängigkeit von ihrem Einfluss auf die Verschlechte-rung der Leistungsfähigkeit des Algorithmus geordnet werden [Bail99]. Aus der geordneten Liste kann dann die Entscheidung abgeleitet werden, welches die signifikanten Einflussgrö-ßen sind, deren Wirkung genauer betrachtet werden sollte. Für die Untersuchungen muss nun der Benutzer Bereiche vorgeben, innerhalb derer die einzelnen Parameter variiert werden sol-len. Die für den jeweiligen Parameter sinnvollen Grenzen können aus dem realen Datenmate-rial abgeleitet werden.

Wichtige Einflussfaktoren auf der Verfahrensseite sind die Parametrisierung und die Initia-lisierung. Während der Einfluss der Parametrisierung durch systematisches Verändern der einzelnen Werte ermittelt werden kann, kann man den Einfluss der Initialisierung nur durch mehrfaches Ausführen des Algorithmus bei veränderten Startbedingungen messen. Wesentli-che Kenngrößen auf Seiten des Bildes, die je nach verwendetem Algorithmus eine Variation des Segmentierungsergebnisses hervorrufen können, sind u.a. das Signal-Rausch-Verhältnis (SNR), der Kontrast, das Vorhandensein von Shading-Artefakten, die Kantensteilheit zwi-schen dem Objekt und dem Hintergrund und die Kompaktheit der Objektform.

Bei künstlichen Testdaten kann die Variation des SNR dadurch erreicht werden, dass der auf die ungestörten Daten aufsummierte Rauschanteil unterschiedlich gewichtet wird. Die Kontrastmodifikation ist z. B. durch systematische Veränderung des mittleren Objektgrauwer-tes möglich. Shading-Artefakte können durch Aufsummieren von Graukeilbildern erzeugt werden, bei denen der Gradient verändert wird. Unterschiede in der Kantensteilheit lassen sich durch Boxcar-Filterung des unverrauschten Bildes erzeugen, wobei die Fenstergröße

va-riiert wird. Eine systematische Veränderung der Objektform lässt sich schwieriger generieren.

Eine Möglichkeit ist die Berechnung der Polarkoordinaten der Objektkontur mit Hilfe der fol-genden Gleichung [Pohl00]:

r(ϕ)= wradius + sin(ϕ * wFrequenz) * wAmplitude + woval * sin(ϕ)2 (8.9) wobei die vier Werte für w jeweils modifiziert werden können, um unterschiedliche Aspekte des Einflusses der Objektform auf das Segmentierungsergebnis zu untersuchen und eine mög-lichst realistische Nachbildung natürlicher Objekte zu erreichen. In Abb. 8.7 wird ein Beispiel für eine damit erzeugte systematische Formvariation gezeigt.

Abb. 8.7: Testobjekte mit konstanten Werten für wRadius von 100, wAmplitude von 20, woval von 50 sowie variablem wFrequenz von 2, 3, 4, 6, 8 und 14. Die Objekte weisen, von links nach rechts betrachtet, eine zunehmende Krümmung innerhalb der Kontur auf.

Ein anderes Beispiel für die Ableitung einer systematischen Gestaltveränderung ist in [Yu00]

zu finden, wobei hier die 3D-Gestalt über eine Metasphäre definiert wurde.

Für alle in den Tests zu untersuchenden Einflussgrößen und die dafür festgelegten Parame-terbereiche müssen nun die Bilder entweder ausgewählt oder generiert und die Vergleichsda-ten des Goldstandards bereitgestellt werden.

8.3.3 Gewinnung des Goldstandards

Ein letztes Problem, das zur Durchführung der Tests geklärt werden muss, ist die Ermittlung des Goldstandards für reale Bilder. Dieser muss manuell erstellt werden, wobei es einige Un-terschiede in der Herangehensweise gibt.

So geht Salotti [Salo96] davon aus, dass zur Erstellung der Referenzkarte das Kontextwis-sen des Menschen oder auch semantische Information nicht genutzt werden soll, da dieses dem Algorithmus auch nicht zur Verfügung steht. Um dies zu erreichen, wird in dem vorge-schlagenen Ansatz das Bild auf das 16-fache vergrößert, und es werden jeweils nur kleine Be-reiche während der manuellen Markierung angezeigt. Diese Vorgehensweise mag dann güns-tig sein, wenn nur die Leistungsfähigkeit eines bestimmten Verfahrens ohne eine konkrete Anwendung überprüft werden soll. Im Bereich der medizinischen Bildanalyse macht diese Methode jedoch keinen Sinn, da hier die Objekte auch dann vollständig erkannt werden sol-len, wenn z. B. nicht alle Bereiche sicher vom Hintergrund abgrenzbar sind.

Bryant und Boulding [Heat97] schlagen vor, zur Erstellung der Grundwahrheit viele ver-schiedene Segmentierungsansätze zu testen und die Pixel als Objektanzeigen auszuwählen, die mehrfach als zum Objekt gehörig segmentiert wurden. Diese Vorgehensweise kann jedoch gerade bei komplizierteren Segmentierungsproblemen eine fehlerhafte Vergleichsbasis erzeu-gen und sollte deshalb in der Praxis nicht eingesetzt werden.

Eine andere Herangehensweise wird in [Doug98] gewählt. Hier wird wiederum die Wahr-heitsbasis in realen Bildern manuell bestimmt. Für die Bewertung des Algorithmus werden jedoch nur solche Objektgrenzen genutzt, die mit großer Sicherheit auch tatsächlich welche sind. Unsichere Grenzpixel erhalten das Attribut „nicht sicher einzuordnen“. Diese

Charakte-risierung führt zu einer Drei-Werte-Grundwahrheit, wobei in der späteren Bewertung der Leistungsfähigkeit des Segmentierungsverfahrens die unsicheren Kandidaten nicht berück-sichtigt werden. Dieser Ausschluss von bestimmten Regionen führt auf jeden Fall zu einer subjektiven Beeinflussung des Ergebnisses der Evaluation.

Um dieses Problem zu umgehen, wird in [Chal97] die Inter- und Intraobserver Variabilität bei den Experteneingaben beachtet. So erfolgt hier eine Mittelung der Kurven verschiedener Experten, wobei die Möglichkeit einer Gewichtung bestimmter Kurvenbereiche vorgesehen ist. Trotzdem weist auch diese Vorgehensweise einige Grenzen auf, da die Neigung von indi-viduellen Beobachtern bei der Mittelung nicht berücksichtigt wird.

In [Warf02a] wird gleichfalls ein Algorithmus vorgeschlagen, mit dem die Grundwahrheit für reale Bilder aus mehreren manuellen Segmentierungen mehrerer Experten geschätzt wer-den kann. Dazu wird ein EM-ähnlicher Algorithmus eingesetzt, in dem die Grundwahrheit ein binärer Parameter ist, der aus den vollständigen Daten geschätzt wird. Zu diesen Daten zählen sowohl die einzelnen manuellen Eingaben als auch die Sensitivität und Spezifität der Exper-ten. Letztere werden als verdeckte Zufallsvariable behandelt. In dem iterativen Expectation-Maximization (EM) -ähnlichen Prozess werden diese Werte jeweils durch die Expertenwerte ersetzt, die unter der Annahme der geschätzten Grundwahrheit der vorhergehenden Iterations-stufe ermittelt wurden. Die Korrektheit dieser Vorgehensweise wird an Phantomen mit be-kannter Grundwahrheit in [Warf02b] nachgewiesen.

Ein weiteres Problem, das man im Zusammenhang mit der Erstellung der Grundwahrheit beachten muss, ist die Frage, wie detailliert die manuelle Eingabe erfolgen soll. So ist es für die Testung von Segmentierungsalgorithmen ungünstig, manuelle Markierungen z. B. aus dem Bereich der Bestrahlungsplanung zu verwenden, da hier für die Berechnung der Bestrah-lungsgrößen lediglich die ungefähren Begrenzungen mit einem gewissen Sicherheitsbereich eingezeichnet werden.

Nach der Durchführung der Tests und der ermittelten empirischen Qualitätswerte besteht im letzten Schritt des Evaluationsprozesses die Aufgabe darin, einen Vergleich der Ergebnisse mit anderen Verfahren oder mit den Anforderungen durchzuführen und diese anschließend zu dokumentieren.