• Keine Ergebnisse gefunden

7 SEGMENTIERUNGSVERFAHREN FÜR MEDIZINISCHE BILDDATEN

7.2 Segmentierungsverfahren mit einfachem Modellwissen

7.2.5 Klassifikations- und Clusteranalyseverfahren

7.2.5.1 Numerische Verfahren

Rolle spielen. Die Auswertung der Information erfolgt immer vollautomatisch, da alle Mo-dellannahmen in den Algorithmus integriert sind.

• dass eine repräsentative Stichprobe zur Verfügung steht,

• dass ein Objekt Merkmale besitzt, die für die Zugehörigkeit zu seiner Klasse charakteris-tisch sind und

• dass die Merkmale für die Objekte einer Klasse einen einigermaßen kompakten Bereich im Merkmalsraum bilden. Die Bereiche verschiedener Klassen sollten möglichst getrennt voneinander sein.

Die einzelnen Objekte des zu klassifizierenden Datensatzes stellen beliebige diskrete Abbil-dungen der zu modellierenden Wirklichkeit dar und beinhalten elementare Informationen.

Klassen mit ihrer Gesamtzahl von einheitlichen Objekten liefern dagegen globale Aussagen [Bock87]. Nach der Art der Einteilungskriterien kann man zwei verschiedene Klassenarten unterscheiden. Fasst man die Objekte unter Beachtung gleicher formaler Kriterien zusammen, führt dies zur Bildung natürlicher Klassen. Als Klassifizierungsstrategien werden in diesem Fall fest dimensionierte unüberwachte und unüberwacht lernende Strategien eingesetzt. Der Unterschied zwischen den fest dimensionierten und den lernenden Strategien besteht darin, dass bei ersteren immer von einer Anfangsstichprobe ausgegangen wird, d.h. dass gewisse Änderungen von Objekteigenschaften bei dieser Art der Klassifizierung nicht berücksichtigt werden. Im Gegensatz dazu beziehen die lernenden Verfahren die Ergebnisse vorangegange-ner Klassifikationen immer mit in die Ausgangsbasis ein [Habe89]. Beide Strategien wenden Verfahren der Clusteranalyse an. Clusteranalyseverfahren versuchen, die Gruppierungsten-denzen der Objekte im Merkmalsraum ohne bekannte Stichprobe zu ermitteln. Die Anzahl der Klassen ist dabei zu Beginn unbekannt.

Bei Problemstellungen, bei denen die Anzahl der Klassen zumeist von einem Experten fest vorgegeben ist, und die Objekte einer Klasse gleichen inhaltlichen Kriterien genügen sollen, spricht man von der Bildung semantischer Klassen. Sie unterliegen oft einer gewissen Stand-punktabhängigkeit. Zur Einordnung der Objekte in semantische Klassen kann entweder eine fest dimensionierte überwachte Strategie oder eine überwacht lernende Strategie eingesetzt werden. Bei beiden Methoden erfolgt die Klassifizierung in zwei Stufen. In der Trainingspha-se muss zuerst eine bereits klassifizierten Stichprobe ausgewertet werden. Aus dieTrainingspha-ser werden die Merkmale und deren Verteilungen abgeleitet. Die Stichprobe muss die für den betrachte-ten Problemkreis repräsentativen Objekte enthalbetrachte-ten, da Schlüsse, die aus ihr gezogen werden, nicht nur für die Stichprobe, sondern auch für alle anderen Elemente der Menge Ω zutreffen sollen. In Abhängigkeit davon muss der Umfang der Stichprobe entsprechend groß gewählt werden. Dieser Forderung kann im Bereich der medizinischen Bildverarbeitung nicht immer entsprochen werden, da z. B. bestimmte Krankheiten nur sehr selten auftreten oder eine Krankheit sehr verschiedene Erscheinungsbilder haben kann. Die zweite Stufe der überwach-ten Klassifikation beinhaltet dann die eigentliche Zuordnung der Objekte zu den einzelnen Klassen.

Ist die Stichprobe nicht repräsentativ, sind Fehler bei der Klassifikation unvermeidbar.

Fehler 1. Art treten auf, wenn die Stichprobe nicht alle Erscheinungsformen der Objekte einer Klasse umfasst, so dass es Bereiche im Merkmalsraum gibt, die dieser Klasse fälschlicherwei-se nicht zugeordnet wurden. Außerdem können Fehler 2. Art auftreten, wenn Objekte einer Klasse in der Stichprobe Merkmalswerte aufweisen, die nicht der Klasse zuzuordnen sind.

Dadurch werden Bereiche im Merkmalsraum unbegründet dieser Klasse zugeordnet

Der Zusammenhang zwischen den vier Varianten eines Klassifizierungssystems ist in Abb.

7.27 noch einmal verdeutlicht. Alle vier Möglichkeiten werden auch in der medizinischen Bildanalyse eingesetzt. Im folgenden sollen einige Vertreter der überwachten und der un-überwachten Strategien näher betrachtet werden. Im Zusammenhang mit der un-überwachten

Klassifizierungsstrategie soll die Vorgehensweise beim Minimum-Distanz-Klassifikator, beim Nächste-Nachbar-Klassifikator und beim Bayes’schen Klassifikator erläutert werden. Im Rahmen der Clusteranalyseverfahren wird auf den Nearst Mean Algorithmus und den Fuzzy-C-Mean-Algorithmus eingegangen.

Abb. 7.27: Zusammenhang zwischen den vier unterschiedlichen Varianten eines Klassifizierungs-systems, nach [Lehm97]

7.2.5.1.1 Minimum-Distanz-Klassifikator

Beim Minimum-Distanz-Klassifikator werden zuerst die Klassenmittelwerte für alle zu unter-scheidenden Objektklassen, die in der Stichprobe auftreten, berechnet. Anschließend muss ei-ne Metrik festgelegt werden, die zur Bestimmung der Abstandsmaße verwendet werden soll.

Bei Verwendung der euklidischen Metrik basiert die Klassifikationsentscheidung auf der An-nahme hypersphärischer Cluster von ungefähr derselben Größe, d.h. man geht von Bedingun-gen aus, die in der Praxis selten auftreten. Neben der euklidischen Metrik ist jedoch auch jede andere Metrik denkbar. Die Zuordnung eines unbekannten Objekts erfolgt dann anhand der ermittelten Abstände zu den einzelnen Klassenmittelpunkten. Das Objekt wird anschließend der Klasse zugeordnet, zu der der kürzeste Abstand auftrat. Diese Vorgehensweise wird in Abb. 7.28 noch einmal verdeutlicht. Bei der Anwendung des Minimum-Distanz-Klassifikators im Bereich der Diagnoseunterstützung empfiehlt es sich, wenn die Abstände zu allen Klassenmittelpunkten zu groß sind, eine Rückweisung des Objekts vorzunehmen. Die Entscheidung, wann eine Rückweisung erfolgen soll, lässt sich über die Festlegung eines Zu-rückweisungsradius rk regeln. Zurückgewiesene Objekte sollten dann einer manuellen Klassi-fikation zugeführt werden.

7.2.5.1.2 Nächste-Nachbar-Klassifikator

Der Nächste-Nachbar-Klassifikator ist ein nicht-parametrischer Klassifikator, der seine Klas-sifikationsentscheidung auch auf Grundlage einer klassifizierten Stichprobe trifft. Bei ihm wird der geometrische Abstand des betrachteten Objekts zu allen in der Stichprobe enthalte-nen und bereits klassifizierten Objekten berechnet. Die Klassenzuordnung erfolgt dann ent-sprechend der Nächste-Nachbar-Regel, die besagt, dass ein Objekt der Klasse zugeordnet wird, der sein nächster Nachbar auch angehört. Dadurch erhält man im Gegensatz zum Mini-mum-Distanz-Klassifikator meist recht komplizierte nichtlineare Trennflächen zwischen den Merkmalsgebieten der einzelnen Klassen (Abb. 7.29).

Bei dicht aneinandergrenzenden bzw. sich teilweise überlappenden Merkmalsräumen kann die Anwendung der obengenannten Regel zu Klassifikationsfehlern führen. Hier kann man die Klassifikationsgüte mitunter dadurch verbessern, dass nicht nur der nächste Nachbar zur Klassenfestlegung herangezogen wird, sondern die k-nächsten Nachbarn Berücksichtigung finden. Dabei ist jedoch zu beachten, dass die Stichprobengröße für die einzelnen Klassen dann auch größer gewählt werden muss. Die Zugrundelegung großer Stichproben hat bei dem Nächste-Nachbar-Klassifikator jedoch auch einige Nachteile. So werden durch die Tatsache, dass zur Berechnung der geometrischen Abstände jeweils die gesamte Stichprobe zur Verfü-gung stehen muss, hohe Anforderungen an die Speicherkapazität gestellt. Außerdem ergibt sich ein großer Berechnungsaufwand.

Abb. 7.28: Prinzip des Minimum-Distanz-Klassifikators. Das unklassifizierte Objekt (o) wird aufgrund des kürzesten Abstands zum Mit-telpunkt (●) der Klasse der roten Punkte zugeord-net

Abb. 7.29: Die Abgrenzung der Bereiche der Musterklassen im Merkmalsraum erfolgt beim Nächste-Nachbar-Klassifikator aufgrund der Anwendung der Nächste-Nachbar-Regel durch nichtlineare Trennlinien bzw. -flächen

7.2.5.1.3 Bayes Klassifikator

Neben den geometrischen Klassifikationsverfahren ist der statistische Ansatz in der medizini-schen Bildverarbeitung von großer Bedeutung. Bei diesen Verfahren werden die Klassen durch Verteilungs- und Dichtefunktionen beschrieben. Ein wichtiger Vertreter der statisti-schen Klassifikatoren ist der Maximum-Likelihood-Klassifikator, der auch als Bayes Klassi-fikator bezeichnet wird. Dieser KlassiKlassi-fikator unterteilt den Merkmalsraum derart, dass die Wahrscheinlichkeit, dass ein Objekt x der Klasse Ωk angehört unter der Voraussetzung, dass es den Merkmalsvektor m besitzt, maximiert wird.

Die Wahrscheinlichkeit für die korrekte Zuordnung des Merkmalsvektors m zur Klasse Ωk

lässt sich mittels der folgenden Gleichung:

(

)

=

Rk

k k

k f m

R m

p ( ), (7.38)

berechnen, wobei Rk der Bereich im Merkmalsraum ist, der der Klasse Ωk zugeordnet ist.

f(m|k) gibt die Verteilungsdichte der Merkmalsvektoren der Klasse k an. Weiterhin ergibt sich die Wahrscheinlichkeit, dass das Objekt mit seinem Merkmalvektor m∈Ωk fälschlicher-weise einer falschen Klasse Ωj zugeordnet wird, durch

(

)

=

Rj

k k

j f m

R m

p ( ). (7.39)

Die Wahrscheinlichkeit, dass ein Merkmalsvektor m∈Ωk auftritt und dieser richtig zur Klasse Ωk klassifiziert wird, ergibt sich somit durch

( )

k p

(

m Rk k

)

p Ω ⋅ ∈ Ω (7.40)

und die Wahrscheinlichkeit, dass er falsch zur Klasse Ωj zugeordnet wird durch

( )

k p

(

m Rj k

)

p Ω ⋅ ∈ Ω . (7.41)

Die Berechnung des zu erwartenden Verlustes kann dann durch die folgende Gleichung erfol-gen:

( ) ( )

=

=

⋅ Ω

= N

k j j

k j j

k N

k

k l p m R

p m

L

, 0

, 0

)

( , (7.42)

in der lkj der Verlust ist, der auftritt, wenn m zu Ωk gehört, aber zu Ωj klassifiziert wird. Der Einfachheit halber wird angenommen, dass bei richtiger Klassifizierung kein Verlust (lkk = 0) auftritt und bei falscher Klassifizierung immer der gleiche Verlust (lkj = 1). Die Aufteilung des Merkmalsraums in Bereiche Rk sollte so erfolgen, dass der Verlust minimal wird.

Die Größe, die zur Klassifizierungsentscheidung verwendet wird, ist das folgende statisti-sche Abstandsmaß

( )

( )

)

( k k

k m p f m

d = Ω ⋅ Ω . (7.43)

Ein Merkmalsvektor m wird danach einer Klasse Ωk zugeordnet, wenn gilt:

. ), ( )

(m d m j k

dk > j ∀ ≠ (7.44)

Für die Verteilungsdichten f(m|Ωk) wird zumeist angenommen, dass sie durch eine n-dimensionale Gauß’sche Normalverteilung angenähert werden können. Ein weiteres Problem stellt die Bestimmung der a priori Wahrscheinlichkeiten dar. Diese kann unter bestimmten Voraussetzungen anhand der Auftrittswahrscheinlichkeit der einzelnen Klassen in der Stich-probe geschätzt werden, oder sie wird als gleichverteilt angenommen [Lehm97].

7.2.5.1.4 Nearest Mean Clusteranalyseverfahren

Bei dem Nearest-Mean-Verfahren handelt es sich um ein iteratives, partitionierendes Cluster-analyseverfahren, mit dem versucht wird, eine gegebene Start-Partitionierung zu verbessern.

Die Bestimmung der optimalen Zerlegung erfolgt auf der Grundlage von Abstandsmaßen. Die Umsetzung des Algorithmus kann sowohl als sequentielles Verfahren als auch als Stapel-Abarbeitung realisiert werden [Ney95].

Bei der sequentiellen Vorgehensweise werden zuerst für eine vorgegebene Start-Partitionierung mit N Clustern Ci die Mittelwerte µi und die Gütemaße Gi entsprechend der folgenden Gleichungen berechnet:

=

Ci

j x

i x

N

µ 1 , (7.45)

=

Ci

x

i

i x

G µ 2 . (7.46)

Anschließend wird innerhalb einer Schleife eine Austauschoperation vorgenommen. Dazu werden nacheinander alle Objekte x aus dem Cluster Ci in alle anderen Cluster Cj bewegt. Für diese Umsortierung wird jeweils das Gütemaß Gj berechnet, und das Objekt wird dann zu dem besten Cluster Cj transferiert. Die Werte für µi, µj, Gi, Gj sowie für das totale Gütemaß Gtot werden danach entsprechend der nachfolgenden Vorschriften aktualisiert [Duda73]:

+1 + −

=

j j j

j N

x µ µ

µ , (7.47)

−1 + −

=

i i i

i N

x µ µ

µ , (7.48)

2

1 j

j j j

j x

N G N

G −µ

+ +

= , (7.49)

2

1 i

i i i

i x

N G N

G −µ

+ −

= , (7.50)

=

= N

i i

tot G

G

1

. (7.51) Der Abbruch des Algorithmus erfolgt, wenn sich das Gesamtgütemaß Gtot zwischen mehreren

aufeinanderfolgenden Schleifendurchläufen nicht mehr verändert. Ansonsten wird die Ver-besserung der Partitionierung mit einer neuen Austauschoperation fortgesetzt.

Ein Problem bei diesem Verfahren ist die Wahl der Startpartitionierung. Diese kann ent-weder durch eine völlig zufällige Zerlegung der Trainingsmenge in N Untermengen erfolgen

oder durch hierarchisches Clustering erzeugt werden. Bei der hierarchischen Clusteranalyse unterscheidet man zwischen dem top-down und dem bottom-up Ansatz. Ersterer basiert auf einem divisiven Verfahren, bei dem alle Objekte der Trainingsmenge zuerst als ein Cluster aufgefasst werden. Für dieses Cluster wird zunächst das Clusterzentrum bestimmt. Anschlie-ßend werden für alle Objekte die Abstände zu diesem Zentrum ermittelt. Das am weitesten entfernte Objekt wird als neues zweites Clusterzentrum ausgewählt, und die Werte für die Po-sition der Clusterzentren aktualisiert. Bei der Neuordnung der Objekte werden diese nun ei-nem der beiden Cluster zugeordnet. Die Zuordnung erfolgt über eine Abstandsbestimmung zum Clusterzentrum. Die Objekte werden dem Zentrum zugeteilt, zu dem der kürzeste Ab-stand auftrat. Danach wird wieder das Objekt, das am weitesten zu seinem Clusterzentrum entfernt ist, als neues Clusterzentrum gewählt und die Prozedur der Neuaufteilung der Objekte wiederholt. Der Algorithmus wird solange iterativ fortgesetzt, bis die gewünschte Klassenan-zahl erreicht ist. In Abb. 7.30 ist die beschriebene Vorgehensweise noch einmal dargestellt.

Bei dem bottom-up Ansatz wird dagegen jedes Objekt zuerst als ein Cluster aufgefasst.

Anschließend werden die Abstände aller Cluster zu allen anderen Clustern bestimmt. Die zwei Cluster, die den kleinsten Abstand zueinander aufweisen, werden zusammengefasst. Für dieses neu entstandene Cluster wird dann ein neues Clusterzentrum bestimmt, und die Ab-standsberechnung zwischen den einzelnen Clusterzentren erfolgt erneut. Der Algorithmus wird anschließend iterativ fortgesetzt, bis die gewünschte Klassenanzahl vorliegt. Die Vorge-hensweise dieses agglomerativen Verfahrens ist in Abb. 7.31 noch einmal demonstriert.

Abb. 7.31 : Ermittlung der Startpartitionierung mit dem agglomerativen Verfahren (bottom-up An-satz)

7.2.5.1.5 Fuzzy-C-Mean-Verfahren

Das Fuzzy-c-Mean-Clusteringverfahren ist eine Abwandlung des oben beschriebenen Nearst-Mean-Verfahrens. Bei diesem Verfahren wird es den Objekten erlaubt, mehr als einem Cluster zugeteilt zu werden. Ein Objekt kann somit zu unterschiedlichen Graden unterschied-lichen Clustern angehören. Dies macht sowohl beim Einsatz von Clusteranalyseverfahren zur Segmentierung als auch bei Anwendungen zur Diagnoseunterstützung Sinn. Zum einen

kön-Abb. 7.30: Ermittlung der Startpartitionierung mit dem divisiven Verfahren (top-down Ansatz)

nen so Partialvolumenpixel besser zugeordnet werden, die mehr als einen Gewebetyp verkör-pern, und zum anderen wird der Tatsache Rechnung getragen, dass der Mensch zumeist nicht schlagartig erkrankt, sondern die Erkrankung über einen gewissen Zeitraum in gewissen Ab-stufungen fortschreitet. Die Zugehörigkeit der einzelnen Objekte zu den einzelnen Klassen wird in der Partitionsmatrix abgelegt. In Abb. 7.32 ist eine solche unscharfe Zuordnung von Datenpunkten zu einem Cluster für ein einfaches Beispiel gezeigt. Die aus den Daten abgelei-teten Fuzzy-Partitionsmatrizen besitzen die folgenden Eigenschaften:

• µik ∈ [0,1], 1≤ic, 1≤km

• 1,

1

=

= c i

µik

m

m

i

ik <

<

=1

0 µ ,

wobei m die Anzahl der Objekte und c die Anzahl der Cluster bezeichnet.

Der Ansatz zur Berechnung der Cluster beim Fuzzy-C-Means-Verfahren basiert darauf, ei-ne Minimierung der mit den Zugehörigkeitswerten gewichteten Abstände zwischen den Ob-jekten und den Clusterzentren zu erreichen. Dieses Optimierungsproblem ist jedoch nume-risch schwierig zu lösen, so dass in einem iterativen Ansatz wenigstens nach einem lokalen Minimum gesucht wird [Till93]. Dieser Fuzzy-C-Means-Algorithmus besteht aus vier Einzel-schritten.

Der erste Schritt des Algorithmus beinhaltet die Festlegung der gewünschten Clusteran-zahl, die Auswahl des Abstandsmaßes d, die Wahl des Wichtungsfaktors w und die Festle-gung der AnfangsbeleFestle-gung der Fuzzy-Partitionsmatrix Ữ. Der Wichtungsfaktor w regelt dabei den Einfluss der Zugehörigkeitswerte auf das Ergebnis. Je kleiner w gewählt wird, desto we-niger Einfluss haben die kleineren Zugehörigkeitswerte auf die Klassenentscheidung. Da-durch wird das Ergebnis schärfer. Für w gegen Unendlich ergibt dagegen sich die größtmögli-che Unschärfe, d.h. jedes Objekt wird jedem Cluster zu gleigrößtmögli-chen Teilen zugeordnet. In der Praxis wird für w sehr häufig ein Wert von 2 gewählt. Eine weitere Schwierigkeit besteht in der Wahl der richtigen Clusteranzahl c. In der Praxis wird oft mit verschiedenen Clusteran-zahlen experimentiert, um die für das Problem am besten geeignet herauszufinden. Die Fest-legung der ErstbeFest-legung der Partitionsmatrix ist hingegen bei der Wahl einer dem Problem angemessenen Clusteranzahl unkritisch und beeinflusst das Ergebnis nicht wesentlich [Til-l93].

Abb. 7.32: Unscharfe Zuordnung von Datenpunkten zu einem Cluster für ein einfaches Beispiel, nach [Till93]. Die Objekte der rechten Seite werden zu einem gewissen Grad auch dem Clu-sterzentrum auf der linken Seite zuge-ordnet.

Innerhalb einer Schleife erfolgt im zweiten Schritt dann die Berechnung der Clusterzentren v unter Verwendung der Partitionsmatrix entsprechend der folgenden Gleichung:

c i

x

v m

k w ik m k

k w ik

i , 1,..,

1

1 =

=

=

=

µ µ

. (7.52)

Der dritte Schritt beinhaltet die Aktualisierung der Fuzzy-Partitionsmatrix Ữ = (µik) ent-sprechend der Vorschrift für alle Objekte, die nicht mit einem Clusterzentrum übereinstim-men (xkvi):

( )

( )

m k

c i

v x d

v x d

c j

w j k kj

w i k ki

ik , 1,.., ; 1,..,

, 1

, 1

1

1 1 1 1

=

=









=

=

µ , (7.53)

andernfalls setze



= =

. falls , 0

falls , 1

i j

i j

µik (7.54)

Zur Bewertung der Veränderung der Zuordnung der Objekte zu den Clusterzentren wird der Abstand zwischen den Partitionsmatrizen zweier aufeinanderfolgenden Schleifendurch-läufe bestimmt, wozu eine zum gewählten Distanzmaß passende Matrixnorm verwendet wird:

~ ,

~(l 1) (l) U

U

=

+ (7.55)

in der l die Anzahl der Iterationsschritte angibt. Liegt die Abweichung unter einem festgeleg-ten Grenzwert ε, so endet der Algorithmus, ansonsten wird ein erneuter Schleifendurchlauf gestartet.

Um festzustellen, welches von den durchgeführten Experimenten mit unterschiedlicher Clusteranzahl die besten Ergebnisse liefert, kann für die einzelnen Tests jeweils der Partiti-onskoeffizient F(Ữ;c) entsprechend der folgenden Gleichung bestimmt werden:

( )

~; .

1 1

∑∑

2

= =

= m

k c i

ik

c m U

F µ (7.56)

Die beste Aufteilung liegt vor, wenn der Partitionskoeffizient den größten Wert liefert.

Ein Problem des Fuzzy-C-Means-Algorithmus besteht in dem großen Rechenaufwand.

Deshalb sollte bei Verwendung dieses Algorithmus die Anzahl der Objekte sowie die Anzahl der Merkmale nicht zu groß gewählt werden.