• Keine Ergebnisse gefunden

Definition einer Klassifikationsgrenze

Im Dokument Aktive Segmentierung (Seite 61-64)

3.3 Charakterisierung des Lernproblems

3.3.2 Definition einer Klassifikationsgrenze

Neben der Wahrscheinlichkeitsdichte ˆP(~x|p) der positiven Segmente ist für die Bestim-mung der eigentlichen Segmentierung der Gleichung 3.2 in Abschnitt 3.2.1 zufolge zudem der Klassifikator ˆc(~x) erforderlich, welcher eine Klassifikationsgrenze zwischenpotentiell positiven Segmenten und den negativen Segmenten definiert. Dieser bestimmt letztend-lich die maximale Anzahl der mögletztend-lichen Segmente in der resultierenden Segmentierung, da dort nur als potentiell positiv klassifizierte Segmente berücksichtigt werden. Es ist lediglich diemaximaleAnzahl, da überlappende Segmente zugunsten des Segmentes mit der höchsten Wahrscheinlichkeit ˆP(~x|p) aussortiert werden (Algorithmus 1).

Aufgrund der besonderen Eigenschaften der Datengrundlage ist absehbar, dass kon-ventionelle Zwei-Klassen-Klassifikationsverfahren nicht die erwünschten Ergebnisse er-zielen werden. Denn mit einer nur bedingt repräsentativen Verteilung der negativen Beispiele oder dem schlichten Fehlen dieser können sie nicht umgehen.

Daher hat sich eine weitere Unterklasse des überwachten Lernens etabliert, welche in der Literatur unter dem Begriff der Ein-Klassen-Klassifikation [39, 98] (oder auch outlier detection, novelty detection oder concept learning), erstmalig erwähnt von Mo-ya und Hush [73], zu finden ist. Die Ein-Klassen-Klassifikation stellt sich zur Aufgabe, eine Klassifikationsgrenze lediglich um die positive Klasse zu legen, so dass möglichst viele positive Objekte in dieser liegen, jedoch die Wahrscheinlichkeit, dass negative Ob-jekte als vermeintlich positiv klassifiziert werden, minimiert wird. Im Gegensatz zum konventionellen überwachten Lernen kann somit nureine Seite der Entscheidungsgrenze bestimmt werden. Dadurch stellt sich jedoch die Frage, wie eng diese Grenze um die po-sitiven Beispiele gezogen werden soll? Die Antwort ist schwierig, da negative Beispiele zu dieser Entscheidung nur eingeschränkt hilfreich sind, da nicht existent oder die negative Klassenverteilung schlecht repräsentieren.

Ein anschauliches Beispiel zur theoretischen Verdeutlichung des Ein-Klassen-Lern-problems ist die Klassifikation von Internetseiten, wenn zum Beispiel Nachrichtenseiten

in einer Menge von Internetseiten identifiziert werden sollen. Dann muss der gesuch-te Klassifikator in der Lage sein, die Nachrichgesuch-tenseigesuch-ten von allen anderen möglichen Internetseitentypen (also Nicht-Nachrichtenseiten) zu trennen. Diese sind jedoch völlig beliebig und eine kleine Beispielmenge von Internetseiten, welche die Menge von „Nicht-Nachrichtenseiten“ möglichst gut repräsentiert, ist unmöglich anzugeben.

Die verbreitesten Verfahren der Ein-Klassen-Klassifikation sind Dichte-gestützte Me-thoden, wie zum Beispiel die Parzen-Dichtebestimmung in Abschnitt 3.3.1. Interessan-terweise schneidet in der in Tax’ Dissertation [98] durchgeführten Evaluierung von Ein-Klassen-Klassifikationsverfahren insbesondere die Parzen-Dichtebestimmung in fast allen Vergleichsdimensionen am besten ab.

Da die Wahrscheinlichkeitsdichte P(x|p), beziehungsweise deren Schätzung ˆP(~x|p) durch die Parzen-Dichte, in Gleichung 3.2 benötigt wird und damit sowieso zur Verfü-gung steht, ist der offensichtlichste Weg der Definition einer Klassifikationsgrenze, die Bestimmung eines Schwellwertestauf der Wahrscheinlichkeitsdichte. Dieser Schwellwert wird vom Benutzer so gewählt, dass die Anzahl der Segmente in der resultierende Seg-mentierung dessen Erwartungen entspricht. Sind zum Beispiel zu viele Segmente enthal-ten, so muss der Schwellwert verringert werden bzw. andersherum. Denkbar ist ebenso, dass der Benutzer eine feste Anzahl von erwarteten/gewünschten Segmenten definiert, aus der wiederum der entsprechende Schwellwert tautomatisch ermittelt wird. In jedem Fall ergibt sich der gesuchte Klassifikator dann folgendermaßen:

ˆ c(~x) =

p if ˆP(~x|p)> t

n else. (3.6)

Gegenüber vielen anderen Ein-Klassen-Klassifikatoren hat diese Klassifikation den essen-tiellen Vorteil, dass der Benutzer die Anzahl der als potentiell positiv geltenden Segmente leicht steuern kann.

Sowohl für die geschätzte Wahrscheinlichkeitsdichte als auch für andere Ein-Klassen-Klassifikatoren gilt definitionsgemäß, dass nur positive Beispiele zur Bestimmung des Modells berücksichtigt werden. In der praktischen Umsetzung des Prozesses der Aktiven Segmentierung ist es jedoch oft der Fall, dass trotz der schwierigen Charakterisierung der negativen Segmente, negative Beispiel verfügbar sind, obgleich sie nicht repräsentativ für die generelle Wahrscheinlichkeitsverteilung der negativen Segmente sind. Diese können dann aber trotzdem hilfreich sein, lokal die Klassifikationsgrenzen zu verfeinern, ein verbessertes Modell zu bestimmen und damit zu einer präziseren Ergebnissegmentierung

Abbildung 3.7: Veranschaulichung des Modells ˆc zur Bestimmung potentiell positiver Segmente. Ein Segment ~x ist genau dann potentiell positiv, wenn die Wahrscheinlich-keitsdichte ˆP(~x|p) über einem festen Schwellwert t liegt und die Klassenwahrscheinlich-keit ˆP(p|~x) größer als 0.5 ist (also ˆP(p|~x)>Pˆ(n|~x)).

zu gelangen. Sie helfen vorallem, die Anzahl falsch-positiver Segmente (nicht gewünschte Segmente werden fälschlicherweise als positiv klassifiziert) zu verringern.

Sind also negative Beispiel vorhanden, so kann in der Regel die Klassenwahrschein-lichkeitverteilung ˆP(p|~x) beziehungsweise ˆP(n|~x) = 1Pˆ(p|~x) bestimmt werden, was zu einer Verfeinerung der Klassifikationsgrenze, also des Klassifikators, führt

ˆ c(~x) =

p if ˆP(~x|p)> tPˆ(p|~x)> 0.5

n else. (3.7)

Die Abbildung 3.7 verdeutlicht diese Zusammenhänge.

Um die Klassenwahrscheinlichkeit P(p|x) zu approximieren, können nun beliebige Methoden des (konventionellen) überwachten Lernens benutzt werden, wie zum Beispiel die in Tabelle 3.1 aufgeführten Klassifikationsverfahren. Da die Klassifikationsergebnisse lediglich zur Verfeinerung der bereits bestehenden Klassifikationsgrenzen dienen, indem zusätzliche Informationen von Negativbeispielen verwertet werden, ist die „Inkompati-bilität“ des Lernproblems und der Klassifikatoren kein Problem.

Eine andere Möglichkeit zur Bestimmung der Klassenwahrscheinlichkeit P(p|x) ist die Bestimmung der Wahrscheinlichkeitsverteilung der negativen Segmente P(x|n), zum Beispiel erneut geschätzt mit Hilfe der Parzen-Dichtebestimmung. Die positive

Klassen-wahrscheinlichkeit kann dann über das Bayestheorem ermittelt werden:

P(p|x) = P(x|p)P(p)

P(x|n)P(n) +P(x|p)P(p) (3.8) wobei P(p) und P(n) die sogenanntenprior-Wahrscheinlichkeiten der Klassen sind und als Vorwissen (Parameter) angegeben werden. P(p) ist dann zum Beispiel das erwartete Verhältnis der Anzahl der positiven Segmente zu den Negativen. Auch hier ist zu beach-ten, dass die geschätzte Wahrscheinlichkeitsverteilung der negativen Beispiele die wahre Verteilung aus den oben genannten Gründen nur sehr schlecht wiedergeben wird. Da sie jedoch nur zur Verfeinerung der bestehende Klassifikationsgrenze dient, ist dies kein Problem.

Im Dokument Aktive Segmentierung (Seite 61-64)