• Keine Ergebnisse gefunden

Aktives Ein-Klassen-Lernen

Im Dokument Aktive Segmentierung (Seite 64-68)

3.3 Charakterisierung des Lernproblems

3.3.3 Aktives Ein-Klassen-Lernen

Um Zeit und Kosten zu sparen, sind Strategien zur Reduktion der Anzahl der notwen-digen Trainingsbeispiele zur Ermittlung eines akkuraten Modells auch im Kontext des Ein-Klassen-Lernens wünschenswert.

Aufgrund des erwarteten Ungleichgewichts positiver und negativer Segmente (we-sentlich weniger Positive) sowie der unzureichenden Charakterisierung der negativen Seg-mente wird es voraussichtlich zielführender sein, möglichst schnell potentiell der positiven Klassen zugehörige Segmente aufzudecken. Denn diese sind von größerer Wichtigkeit und es ist zudem einfacher, eindeutig gewünschte Segmente als solche zu identifizieren, anstatt den genauen Übergang von positiv-negativ (gewünscht-ungewünscht) zu benennen.

Genau diese Strategie verfolgen Garnett et al. [27] in seiner Arbeit, welche darin als active search bezeichnet wird. Sie gehen von der Nützlichkeit der bisher gewählten und klassifizierten Beispiel L aus, was genau die Anzahl der positiv klassifizierten Beispiel entspricht:

u(L) = X

(~x,y)∈L

[y=p]. (3.9)

Die Nützlichkeit u(~x) (utility function) eines noch nicht klassifizierten Segments ~x ist

dann dessen erwartete Nützlichkeit, wenn es L hinzugefügt werden würde.

u(~x) =E[u(L ∪ {~x})|~x,L]

= X

y∈{p,n}

u(L ∪ {~x})P(y|~x)

=u(L) +P(p|~x) (3.10)

Dau(L) nicht von~xabhängt, ist das „nützlichste“ Beispiel genau das, welches die Klas-senwahrscheinlichkeit P(p|~x) maximiert. Die Autoren der Arbeit über active search [27]

gehen nun noch einen Schritt weiter und untersuchen was es bewirkt, wenn die erwartete Nützlichkeit nicht für das nächste Beispiel ermittelt, sondern man gar zwei Schritte in die „Zukunft“ blickt (lookahead-Strategie). Dies hat zur Folge, dass alle Möglichkeiten zur Wahl des nächsten Beispieles berücksichtigt werden müssen, um die Nützlichkeit des übernächsten Beispiels ermitteln zu können, was in einer deutlich höheren Berechnungs-komplexität mündet.

Da in der vorliegenden Arbeit jedoch die Klassifikationsgrenze lediglich zwischen potentiell positiven und negativen Beispielen gezogen wird und die Klassenwahrschein-lichkeit P(p|~x) nur eine sehr bedingte Aussagekraft besitzt, ist deractive search-Ansatz nicht geeignet. Die meistenpotentiell positiven Segmente werden eine Klassenwahrschein-lichkeit P(p|~x) von eins haben, wodurch diese Selektionsstrategie letztendlich zu einer Zufallsauswahl degeneriert, welche lediglich garantiert, dass keine negativen Beispiele gewählt werden.

Einen anderen Ansatz verfolgen Ghasemi et al. [28] in der Arbeit über das aktive Ein-Klassen-Lernen durch Kerndichteschätzung. Der Ausgangspunkt dieses Herangehens ist eine geschätzte Wahrscheinlichkeitsdichtefunktion ˆP(~x|p), wie in Gleichung 3.5 gegeben.

Es wird versucht, mit der Wahl des nächsten Beispiels den erwarteten Fehler zu re-duzieren (expected error reduction). Hierzu wird die theoretische Qualität des Schätzers der Wahrscheinlichkeitsdichte ˆP(~x|p) über eine sogenannte Risikofunktion (oder Verlust-funktion) ermittelt, indem der Unterschied zur wahren, aber unbekannten, Wahrschein-lichkeitsdichte, geschätzt wird:

L(Lp) =

Z

( ˆP(~x|p)P(~x|p))2dx

=

Z Pˆ(~x|p)2dx−2

Z Pˆ(~x|p)P(~x|p)dx+

Z

P(~x|p)2dx. (3.11) Da der letzte Ausdruck nicht von der geschätzten Funktion ˆP beziehungsweise von deren

Parametern abhängt, ist die Minimierung der Risikofunktion äquivalent zu der Minimie-rung der Funktion ohne diesen letzten Ausdruck. Die verbreiteste Methode zur Schätzung der Risikofunktion ist das sogenannte Kreuzvalidierungsverfahren, genauer die leave-one-out-Kreuzvalidierung. Mit dessen Hilfe geben Ghasemi et al. [28] folgende Schätzung des Risikos an:

J(Lˆ p) =

Z Pˆ(~x|p)2dx− 2 n

n

X

i=1

Pˆ−i(~xi|p). (3.12)

Hierbei ist ˆP−i die Schätzung der Wahrscheinlichkeitsdichte (Gleichung 3.5) ohne Be-rücksichtigung des iten Beispiels, also auf der Beispielmenge Lp\~xi. Ghasemi et al. [28]

bezeichnen ˆJ als Kreuzvalidierungswert oder geschätztes Risiko. Da außerdem der erste Ausdruck in Gleichung 3.12 konstant bleibt, kann der gesamte Ausdruck weiterhin verein-facht werden. Mit dem zusätzlichen Ignorieren des Vorzeichens, wodurch man stattdessen ein Maximierungsproblem erhält, formulieren Ghasemi et al. [28] folgende Gleichung zur Gewichtung von ungesehenen Beispielen, welche als Bewertungsfunktion dienen kann:

u(~x) = 1 n+ 1

n+1

X

i=1

Pˆ−i(~xi|p) (3.13)

Dabei ist ~x das Beispiel, dessen „Risiko“ ermittelt werden soll und gleichzeitig das (n + 1)te Beispiel, welches als positiv angenommen wird, also Lp = Lp ∩ {~x}. Bei näherer Betrachtung wird jedoch deutlich, dass genau jenes ~x die Bewertungsfunktion maximiert, welches auch die maximale a-posterior-Wahrscheinlichkeit ˆP(~x|p) aufweist,

da

Der linke Teil der Summe der Gleichung 3.14 ist konstant und unabhängig von~x. Damit ist die Bewertungsfunktion proportional zur Dichte ˆP(~x|p).

Für das Ein-Klassen-Lern-Problem kann keine Klassenverteilung angegeben werden, da hierzu eine Verteilung der negativen Klasse P(n|x) modelliert werden müsste, was definitionsgemäß nicht möglich ist. Dadurch können Auswahlstrategien, wie das uncer-tainty sampling basierend auf derShannon-Entropie (siehe Abschnitt 3.1.1) nicht direkt angewendet werden. Aus diesem Grund verfolgen Juszczak und Duin [36] einen ande-ren Ansatz und definieande-ren für jedes Beispiel eine relative Konfidenz, welche auf deande-ren Entfernung zur Entscheidungsgrenze basiert. Beispiele, welche sich nahe der Entschei-dungsgrenze befinden, erhalten eine niedrige Konfidenz, weit entfernte Beispiele hingegen eine hohe. Anschließend werden pro Klasse (positiv und negativ) fünf Beispiele gewählt und das Modell aktualisiert. Die Auswahl der Beispiele geschieht in vier verschiedenen Varianten, so dass entweder (i) sowohl positive als auch negative Beispiele mit geringer Konfidenz (was das uncertainty sampling annähert); (ii) positive Beispiele mit niedri-ger und negative Beispiele mit hoher Konfidenz; (iii) positive Beispiele mit hoher und negative Beispiele mit niedriger Konfidenz oder (iv) sowohl positive als auch negative Beispiele mit hoher Konfidenz gewählt werden. Anhand künstlicher und realer Daten-sätze vergleichen Juszczak und Duin die Strategien mit den Ergebnissen der zufälligen

Auswahl. Sie kommen zu dem Schluss, dass, abhängig von der Wahl des Modells, manche der genannten Strategien durchaus den Klassifikationsfehler reduzieren, wenn nur weni-ge Trainingsbeispiele weni-gewählt wurden sind. Für Klassifikationsmodelle jedoch, welche auf der Bestimmung der Wahrscheinlichkeitsdichte basieren (zum Beispiele die Parzen-Dichtebestimmung, siehe Abschnitt 3.3.1), führen alle vier Strategien zu einem höheren Klassifikationsfehler und sind daher ungeeignet.

Rein explorative Kriterien, wie sie in Abschnitt 3.1.1 erwähnt worden sind, werden für das aktive Ein-Klassen-Lernen voraussichtlich nicht den erwünschten Effekt erzielen und die Anzahl der benötigten Trainingsbeispiele reduzieren können. Per Definition sind die wahren negativen Beispiele, von denen gemeinhin nicht bekannt ist, ob sie negativ sind, im Gegensatz zu den Positiven nicht repräsentativ für die wahre, unbekannte negative Verteilung. Die Berücksichtigung dichter Regionen im Beispielsraum beziehungsweise dessen Clusterstruktur (typische Explorationskriterien) kann somit leicht fehlführend sein und zu Nachfragen in Bereichen führen, welche lediglich durch eine ungünstige, aber nicht repräsentative Konstellation negativer Beispiele zustande kommen.

Mögliche Auswahlstrategien, welche nun für die Aktiven Segmentierung in Frage kom-men, werden im nächsten Abschnitt 3.4 diskutiert und in Kapitel 6 experimentell unter-sucht.

Im Dokument Aktive Segmentierung (Seite 64-68)