Erweiterung des ausgewählten Ansatzes - Umsetzung eines Fensterverfahrens zur Evaluierung von O

5.5 Umsetzung eines Fensterverfahrens zur Evaluierung von Ofﬂine-Lernverfahren

5.5.3 Erweiterung des ausgewählten Ansatzes

Der Ansatz zur Bestimmung der Fenstergröße, welcher im Rahmen dieser Arbeit umgesetzt wurde, nimmt die Ideen von Widmer und Kubat sowie von Klingenberg und Renz auf und erweitert diese.

Zur Bestimmung der Fenstergröße kann sich die Fensterverwaltung nur auf bereits verarbeitete Trainingsin-stanzen und Aussagen über deren Einﬂuss auf die Genauigkeit des Modells stützen. Anhand verschiedener Pa-rameter kann die aktuelle Lernphase beschrieben werden. Welche PaPa-rameter hierzu bestimmt werden, wird in Abschnitt 5.5.3 erläutert. Je nach detektierter Lernphase wird entschieden, wie sich die Fenstergröße verhalten soll.

Zudem ist es notwendig, eine bestimmte Menge von Instanzen in die Ermittlung der Lernphase einzubeziehen.

Die Größe dieser Menge ist ausschlaggebend für die Reaktionsgeschwindigkeit der Fensterheuristik auf Konzeptän-derungen. Die Menge, um die die Fenstergröße, im Falle einer detektierten Konzeptänderung, reduziert wird, hat ebenfalls einen Effekt auf das Lernverhalten.

Parameter zur Bestimmung der aktuellen Lernphase

Als Parameter zur Ermittelung der aktuellen Lernphase werden die aktuelle Klassiﬁkationsgenauigkeit, sowie de-ren Standardabweichung und die Shannon-Entropie herangezogen. Die Parameter werden in diesem Abschnitt erläutert.

Aus der Menge aller Trainingsinstanzen X ={x₁,x₂, ..,x_s} wird nur ein Fenster über die zuletzt hinzugefügten TrainingsinstanzenF={x_s−m,x_s−m+1, . . . ,x_s}betrachtet. Je nachdem ob das zu betrachtende Fenster größer ist als

118 5.5 Umsetzung eines Fensterverfahrens zur Evaluierung von Oﬄine-Lernverfahren

die Anzahl der Trainingsinstanzen, welche bis zu dem betrachteten Zeitpunkttgesammelt wurden, wird entweder die Fenstergröße betrachtet oder die Anzahl der bisher gesammelten Trainingsinstanzens=|X|:

m f al ls m<s

s f al ls s≤m (5.5)

Aktuelle Klassiﬁkationsgenauigkeit

Vor der Integration in das Modell wird jede Trainingsinstanz x mit dem aktuell vorliegendem Modell f() klas-siﬁziert und mit dem zu der Trainingsinstanz assoziierten Feedbackh()verglichen. Die Funktionhi t(), welche für diese Auswertung genutzt wird, ist wie folgt deﬁniert:

hi t(x) =

1 f al ls f(x) =h(x)

0 f al ls f(x)=h(x) (5.6)

Um anhand dieser binären Funktion eine Aussage über die durchschnittliche Klassiﬁkationsgenauigkeit des Modells zu erhalten, müssen mehrere dieser binären Aussagen miteinander verrechnet werden.

Die Klassiﬁkationsgenauigkeitaccfür den Zeitpunkttlässt sich wie folgt berechnen:

acc_t= 1 n

n i=1

hi t(x_t−i) (5.7)

Die Anzahlnder hierbei betrachteten Instanzen hat einen Einﬂuss auf die Anpassungsgeschwindigkeit des er-mittelten Durchschnittswertes an den realen Durchschnittswert. Je nachdem wie groß dieser Parameter gewählt wird, destoträgerreagiert das System.

Es wurde zudem eine Gewichtung der Genauigkeit eingeführt, so dass die Genauigkeit der letzten Iterationen höher gewichtet wurde, als die weiter zurückliegender. Diese Gewichtung reduziert die Trägheit der Funktionacc_t. Es wurden in verschiedenen Tests mehrere Formen der Gewichtung getestet. Verglichen wurden dabei die lineare, exponentielle und logarithmische Verteilung der Gewichte. Die besten Ergebnisse wurden von der logarithmischen Verteilung der Gewichte erzielt, dicht gefolgt von der linearen, während eine exponentielle Verteilung zu schnelle Reaktionen auf einzelne Fehlentscheidungen verursachte.

Die Funktion für die logarithmisch gewichtete Bestimmung lässt sich wie folgt beschreiben:

accWei ght ed_t= 1 n

i=1ln(i+1) n

i=1

(hi t(x_t−i)∗ln(i+1)) (5.8)

Standardabweichung

Die Standardabweichung ist ein Maß für die Streuung einer Variablen um ihren Mittelwert. In diesem Fall wird die Standardabweichung der Klassiﬁkationsgenauigkeit betrachtet (deren Bestimmung zuvor beschrieben wurde):

meanAcc_t= 1 n

n i=1

accWei ght ed_t−i st d E r r_t= 1

n−1 n

i=1

(accWei ght ed_t_−i−meanAcc_t)² (5.9)

Shannon-Entropie

Gerade zu Beginn oder nach einem Konzeptwechsel ist die Entscheidung eines Lernverfahrens von hoher Unsi-cherheit und Zufall geprägt. Die von der Fensterverwaltung genutzte Größe zur Erkennung eines solchen Verhaltens basiert auf der Entropie nach Shannon [Sha01]. Die Shannon-Entropie ist ein Maß für die Menge an

Zufallsinfor-5 Informationsauswertung 119

mationen, die in einer Folge von Informationen steckt. Die Shannon-EntropieHeiner InformationsfolgeI über dem AlphabetAist dann wie folgt deﬁniert.

H(I) =− |A|

i=1

p_i∗log_|A|(p_i) (5.10)

p_jbeschreibt die Wahrscheinlichkeit des Auftretens des j-ten Zeichens des Alphabets in der Informationsfolge.

Ist die Shannon-Entropie nahe an 1 so kann die Informationsfolge als zufällig bezeichnet werden, da jedes Zeichen mit gleicher Wahrscheinlichkeit auftritt [HRSV00]. Die Fensterverwaltung bestimmt die in der Folge von Klassiﬁkationsergebnissen enthaltene Entropie. Aufgrund eines binären Alphabetes der Funktionhi t()vereinfacht sich die oben stehende Formel wie folgt.

H(I) =−p₀∗log₂(p₀)−p₁∗log₂(p₁) p₀=1−p₁ H(I) =−p₁∗log₂(p₁)−(1−p₁)∗log₂(1−p₁) (5.11) Die Variablep₁lässt sich durch das Abzählen der Fälle vonhi t(X) =1im Fenster ermitteln und entspricht daher dem Ergebnis der Funktionacc().

shannon_t=H(I) =−acct∗log₂(acct)−(1−acc_t)∗log₂(1−acc_t) (5.12) Bei der Umsetzung dieser Funktion müssen schließlich noch die Fälle acc_t=0undacc_t =1geeignet behandelt werden – die Entropie ist in diesen Fällen 0.

Angepasstes Verfahren zur Fensterverwaltung

Im Rahmen dieser Arbeit wurde die WAH-Ansatz von Widmer und Kubat [WK96] herangezogen und erweitert.

Die Funktionsweise der erweiterten Window Adjustment Heuristic (siehe Abbildung 5.29) basiert grundlegend auf den zuvor angeführten Parametern, der Klassiﬁkationsgenauigkeit, sowie der Shannon-Entropie. Deren Aussage werden zur Bestimmung verschiedener Phasen des Lernens genutzt. Diese Phasen werden unter anderem durch die Grenzwerteafür die Shannon-Entropie undbfür die Genauigkeit beschrieben.

IF (shannon_t>a) THENLer nphase

ELSE IFacc_t<bANDacc_t<(acct−1−st d E r r_t) THENKonzept d r i f t

ELSE IFacc_t<b THENLer nphase ELSES t a bil es M od el l

a, b benutzerdeﬁnierte Grenzwerte.

Abbildung 5.29:Erweiterung des WAH-Ansatzes

Die Bestimmung der Shannon-Entropie läuft ungeachtet der Reihenfolge der Trainingsinstanzen ab. Daher ist die Aussage der Shannon-Entropie hinsichtlich auftretender Konzeptdrifts zwar nutzbar, jedoch relativ träge. Die Entropie eignet sich jedoch gut, um die instabilen Phasen (welche beispielsweise gerade am Anfang oder nach einem Konzeptdrift auftreten) von beabsichtigten Konzeptdrifts zu differenzieren.

Die nachfolgende Bestimmung einer Konzeptänderung wird ähnlich wie bei dem Ansatz von Klingenberg und Renz durchgeführt. Hierbei wurde jedoch die Bestimmung von Konzeptshifts ausgelassen. Je nach Ausprägung des Konzeptdrifts ist zu erwarten, dass in den nachfolgenden Iterationen weitere Schritte zur Behandlung von Konzeptdrift erfolgen. Bei einem Konzeptshift würden demnach mehrere Konzeptdrift-Behandlungen, bei denen sukzessive die Fenstergröße reduziert werden würde, die Behandlung von Konzeptshift ersetzen.

120 5.5 Umsetzung eines Fensterverfahrens zur Evaluierung von Oﬄine-Lernverfahren

Aus dem Ansatz von Widmer und Kubat wurde die Berücksichtigung stabiler Modelle übernommen. Indem die Fenstergröße bei stabilen Modellen unverändert bleibt, wird ein Over-Training vermieden.

Im Dokument Anpassungsfähige Kontextbestimmung zur Unterstützung von Kommunikationsdiensten (Seite 128-131)