Direkte Segmentierung - Aktive Segmentierung

4.2 Segmentierung

4.2.1 Direkte Segmentierung

Ist ein Segmentierungsproblem relativ einfach und die zu identifizierenden Objekte bilden zum Beispiel geschlossene homogene Regionen oder zeichnen sich durch ununterbrochene deutliche Ränder aus, dann liefern die Pixelmodelle (Regionen- und Randdetektor bzw.

Regionen- und Randbild) sehr wahrscheinlich bereits gute Näherungen der Segmentie-rungen.

(a) (b) Abbildung 4.11: Direkte Segmentierung.

(a) Ergebnis des Regionendetektors, Nachbearbeitung und Zusammenhangskomponen-tenanalyse; (b) Ergebnis des Randdetektors (Winkelprojektion), Nachbearbeitung (non-maxima-suppresion und anschließende Hysterese), Zusammenhangskomponentenanaly-se.

Zur Segmentierung ist zunächst die Diskretisierung der Ausgabe des Regionen- oder Randdetektors notwendig, so dass beispielsweise für jeden Pixel genau bestimmt werden kann, ob er zu einer Region gehört oder zum Hintergrund. Im einfachsten Fall könnte dies durch einen einfachen Schwellwert geschehen, so dass alle Pixel x mit P_r(x) >0.5 (bzw. P_b(x) > 0.5) den Wert 1 erhalten, die restlichen 0. Alle Pixel mit dem Wert 1 gehören dann zur entsprechenden Region (bzw. zum entsprechenden Rand).

Anschließend werden mit einer sogenannte Zusammenhangskomponentenanalyse die tatsächlichen Segmente identifiziert, so dass alle Segmente maximale Zusammenhangs-komponenten gemäß Definition 6 bilden. Jede einzelne Zusammenhangskomponente wird der zu erzielenden Segmentmenge U als eigenes Segment hinzugefügt.

Wie in den nächsten beiden Abschnitten angedeutet wird, können die Ergebnisse des Regionen- oder Randdetektors zusätzlich mit bestimmten Verfahren nachbearbeitet werden, so dass daraus weiche und konsistente Segmentierungen resultieren (so dass zum Beispiel kleine Löscher entfernt werden oder die Segmentkonturen weicher erscheinen).

Regionennachverarbeitung

Zur Nachbearbeitung des Ergebnisses eines Regionendetektors sei zunächst g : Ω 7→

{0,1} die Diskretisierung der Ausgabe des Regionendetektors, so dass die eine Region (1) von Hintergrund oder anderen Regionen (0) unterschieden werden kann, zum Beispiel

mit

Ω ist der Definitionsbereich des Bildes. Das Ziel ist es, eine regulariserte Form u: Ω 7→

{0,1} von g zu ermitteln, welche weiterhin möglichst ähnlich zu g ist, stetige Regions-grenzen hat und vorhandene Löcher füllt.

Ein sehr bekannter und bedeutender Ansatz ist, das Problem als ein Optimierungs-problem des sogenannten Mumford-Shah functional [75] aufzufassen.

E(u, B) =

wobei B ⊂ Ω die Menge der Begrenzungslinien (boundary set) ist, g das diskretisier-te Ergebnis des Regionendediskretisier-tektors und u die finale Segmentierung als eine stückweise geglättete (piecewise smooth) Funktion. Diese zu minimierende Energiefunktion drückt aus, dass eine Segmentierung (u, B) dann optimal ist, wenn die Regionengrenzen B Konturen von homogenen Flächen bilden und u eine Art Durchschnitt, also eine ver-besserte, geglättete Version von g ist. Der erste Ausdruck bewirkt, dass u konstant in den Regionenflächen ist, also möglichst keine Gradienten auftreten, außer an den Be-grenzungslinien. Der zweite Ausdruck sorgt für eine klein-bleibende Differenz zwischen der Ausgangs- und Ergebnissegmentierung. Der dritte Ausdruck kontrolliert die Länge der Regionengrenzen B. Die Funktion beinhaltet einen inhärenten Zielkonflikt zwischen der Länge der Regionengrenzen und der Genauigkeit der Regionen. Dies kann durch die unterschiedliche Gewichtung der Teilausdrücke abgestimmt und angepasst werden.

Eine andere, häufig verwendete Herangehensweise ist die Formulierung des Problems als sogenanntesConditional Random Field (CRF)und damit die Einbettung in die Wahr-scheinlichkeitstheorie. Ein CRF repräsentiert eine Wahrscheinlichkeitsverteilung, welche als sogenannte Gibbs-Energie formuliert wird:

P(u|g) = 1

N(x) bezeichnet hierbei die Nachbarschaft eines Pixels, welche beliebig definiert wer-den kann (z.B. vollständig verbunwer-den [46]). g ist erneut das diskretisierte Ergebnis des Regionendetektors undu die abzuleitende, finale Segmentierung. Als sogenanntes

paar-weises Potential wird φ(u(x), u(x⁰)) bezeichnet und dessen Definition bestimmt, wie die Ergebnissegmentierung auszusehen hat. Es bestimmt, mit welcher Wahrscheinlichkeit zwei Pixel bestimmter Regionen gemeinsam auftreten können, also benachbart sind. Z ist eine Normalisierungskonstante, um sicher zu stellen, dassP(u|g) eine Wahrscheinlich-keitsverteilung ist. Die WahrscheinlichWahrscheinlich-keitsverteilungP(u|g) gibt an, wie wahrscheinlich eine beliebige Segmentierunguist, gegebeng. Gesucht ist nun genau jene Segmentierung, welche die höchste Wahrscheinlichkeit hat (MAP, maximum-a-posteriori estimation).

Sowohl die Ermittlung des Minimums der Mumford-Shah-Energiefunktion als auch die Bestimmung der maximalen Wahrscheinlichkeit des CRF ist im Allgemeinen auf-grund der Komplexität der Problemstellungen nicht direkt durchführbar. Daher sind Näherungen unumgänglich. Viele Ansätze hierfür sind entwickelt worden (zum Beispiel [84, 53, 31]). Einige dieser, namentlich die sogenanntengraph cuts, stellen sogar eine Ver-bindung zwischen bestimmten CRF-Modellen und der Mumford-Shah-Energiefunktion her.

Randnachverarbeitung

Das Ergebnis eines Randdetektors enthält für jede Pixelposition und jeden Winkel die Wahrscheinlichkeit, Teil eines Randes zu sein (siehe Abbildung 4.7 (d)). Diese Vorhersa-gen bilden jedoch nicht zwangsläufig ein-pixel-breite Ränder. Daher wird zunächst das Ergebnis des Randdetektors in ein Vektorfeld überführt (Gleichung 4.4). Eine verbrei-tete Methode, aus einem Vektorfeld dann eine ein-pixel-breite Kante zu extrahieren, ist die Unterdrückung von lokalen Nicht-Maxima (non-maxima suppresion, NMS) der Vektorbeträge in Vektorrichtung. Anschließend wird mit einem als Hysterese bezeich-neten Verfahren ermittelt, ob ein Pixel tatsächlich zu einer Kontur (in diesem Kontext auch als Kante bezeichnet) gehört oder nicht. Dazu werden alle Kanten ab einem vor-definierten Schwellwert abgeschritten, solange, bis ein zweiter (niedrigerer) Schwellwert unterschritten wird, was das Ende der betrachteten Kante markiert. Diese Schritte sind wesentliche Teile des bekannten Kantendetektionsverfahrens von Canny [13] und werden in Abbildung 4.11 (b) illustriert.

Nur selten resultieren die derart ermittelten Kanten in geschlossenen Konturen (und damit Segmente). So sind anschließend oft Verfahren notwendig, welche diese bruchstück-haften Kanten mit unterschiedlichen Heuristiken zu geschlossenen Konturen vervollstän-digen [90, 91, 88, 87]. Diese Verfahren jedoch benötigen weitere Annahmen, da es auf Pixelebene im Allgemeinen unmöglich ist, vorherzusagen, ob die detektierten Kanten

auch tatsächlich wahren Konturen entsprechen.

Im Dokument Aktive Segmentierung (Seite 98-102)