• Keine Ergebnisse gefunden

5.4 Analyse bestehender Verfahren zur Informationsauswertung

5.4.1 Ansatz und Durchführung der Analyse

Im nächsten Schritt sollen die Verfahren auf die zuvor beschriebenen Anforderungen hin untersucht und verglichen werden. Hierzu muss ein Ansatz für die Durchführung der Analyse gewählt werden.

Ansatz aus dem Bereich Offline-Lernverfahren

Im Bereich des Data-Minings werden zur Analyse von Verfahren im Allgemeinen komplette Trainings-Datensätze betrachtet. Die Instanzen dieser Datensätze sind zeitlich unabhängig voneinander und können in beliebiger Reihen-folge auf das Lernverfahren angewandt werden. Um in diesem Zusammenhang valide Aussagen treffen zu können werden meist Verfahren wie dieTen-fold Crossvalidationgenutzt. Dieses Verfahren teilt die Trainingsmenge in zehn gleich große Teile. Daraufhin werden zehn Durchläufe gestartet. In jedem Durchlauf werden neun der Teilmen-gen zum Aufbau des Modells Teilmen-genutzt und die verbleibende Trainingsmenge als Testdatensatz, zur Bestimmung der Genauigkeit des Modells. Der Vorteil dieser Technik liegt in der Vermeidung zufälliger Clusterbildung, da jede der Partitionen bzw. deren Instanzen mindestens einmal zum Klassifizieren und neunmal zum Training genutzt werden.

Notwendige Anpassungen

Der Vergleich der verschiedenen Verfahren soll zeigen, welche Verfahren für das angestrebte, iterative Lernen geeignet sind. In diesem Zusammenhang kann eine klassische Vorgehensweise wie die Ten-fold Crossvalidation nicht direkt angewandt werden. Zum einen sollen das Laufzeitverhalten und die Genauigkeit der Modelle über den gesamten Zeitraum hinweg analysiert werden. Zum anderen sind die Testdaten zeitlichen Abhängigkeiten unterworfen, wie beispielsweise den Zeitpunkten des Auftretens der Konzeptänderung.

Ansatz aus dem Bereich Online-Lernverfahren

Das STAGGER-Konzept [SG86] ist in der gängigen Literatur ein Standard zum Vergleich von Online-Lernverfahren im Zusammenhang mit dem Auftreten von Konzeptänderungen [KM03]. Das mit dem Lernsystem STAGGER ent-wickelte Konzept basiert auf einem Domänenraum mit drei nominalen Attributen. Es gibt zudem drei binäre Ziel-konzepte mit fest vorgegebener Reihenfolge [WK96]. Anhand dieser Vorgaben lässt sich erkennen, dass es sich bei dem STAGGER-Konzept um ein sehr einfaches Lernproblem handelt. So sind insgesamt nur 27 verschiedene Attributkombinationen bzw. Instanzen möglich und entsprechend schnell kann das Konzept erlernt werden. Bei der Durchführung der Analyse anhand des STAGGER-Konzeptes werden von jedem Zielkonzept nacheinander (entspre-chend der Reihenfolge der Zielkonzepte) jeweils 40 Trainingsinstanzen generiert und einzeln auf das Lernverfahren angewendet. Zur Bestimmung der Klassifikationsgenauigkeit werden anschließend weitere 100 zufällig generierte Testbeispiele klassifiziert.

Notwendige Anpassungen

Im Gegensatz zu dem Ten-fold Crossvalidation Ansatz berücksichtigt das STAGGER-Konzept zeitliche Abhän-gigkeiten in den Kontextdaten und es ermöglicht die Bestimmung der Klassifikationsgenauigkeit auch während der Trainingsphase. Die Anforderungen sehen jedoch nicht nur die Verarbeitung von diskreten, sondern auch die Verarbeitung vonkontinuierlichen Werten. Ebenso wird eine benutzerdefinierbare Menge an Kontextklassen vor-ausgesetzt. Zudem müssen weitere Eigenschaften wie beispielsweise fehlerhafte oder fehlende Werte, sowie die Skalierbarkeit in der Anzahl der Sensoren innerhalb des zu betrachtenden Lernproblems adressiert werden.

5 Informationsauswertung 93

Aus diesen Gründen wurde ein auf die benötigten Anforderungen angepasstes Vorgehen zur Generierung von Testdaten und zur Durchführung der Analyse der Lernverfahren entworfen, welches in den folgenden Abschnitten beschrieben wird.

Betrachtung der Genauigkeit

In den Arbeiten, welche mit dem STAGGER-Konzept arbeiten, wird die durchschnittliche Wahrscheinlichkeit die richtige Klasse als Ergebnis zu erhalten als Maßstab für die Genauigkeit herangezogen. Hierzu werden in jeder Ite-ration eine bestimmte Menge von beliebig gewählten Testinstanzen generiert und klassifiziert. Die relative Menge der richtig klassifizierten Testinstanzen entspricht der Wahrscheinlichkeit mit der eine korrekte Klassifikation im Bezug auf den gesamten Domänenraum zu erwarten ist.

Andere Arbeiten nutzen hierbei auch den Ansatz von Precision und Recall. Diese Werte geben Aufschluss dar-über, wie viele Instanzen einer Klasse korrekt klassifiziert wurden (Recall) und wie viele Instanzen zusätzlich zu dieser Klasse zugeordnet wurden, obwohl sie eigentlich einer anderen Klasse angehören (Precision). In diesem Zusammenhang werden diese Werte meist für jede Klasse einzeln ermittelt, wodurch Aussagen über die Klassi-fikationsgenauigkeit innerhalb jeder Klasse möglich werden. Das sogenannte F-Maß wird dabei meist als Metrik angewandt, welches Precision und Recall vereint, indem es das harmonische Mittel zwischen beiden Werten bildet.

Im Rahmen dieser Analyse werden die Konzepte künstlich generiert, wobei alle Klassen eines Konzeptes gleicher-maßen zufällig erzeugt werden. Daher wird in diesem Fall keine Aussage über die Genauigkeit innerhalb einzelner Klassen benötigt. In dem Testszenario wird eine Instanz, welche fälschlich zu einer Klasse zugeordnet wurde und entsprechend dessen Precision-Wert beeinflusst, gleichzeitig einer anderen Klassenichtzugeordnet, was sich wie-derum in dessen Recall-Wert niederschlägt. In dieser Analyse wird eine Aussage über die Wahrscheinlichkeit einer korrekten Klassifikation innerhalb des gesamten Konzeptes benötigt. Hierzu wird die Genauigkeit analog zu dem Vorgehen bei den Arbeiten, welche mit dem STAGGER-Konzept arbeiten, berechnet, welches der Betrachtung des durchschnittlichen Recall-Wertes über das Gesamtkonzept hinweg entspricht.

Testdaten

Die Herausforderung bei dem Vergleich bestehender Verfahren besteht grundlegend in der Bereitstellung geeigneter Testdaten. Die Testdaten besitzen eine Vielzahl von Charakteristiken4:

1. Anzahl der Instanzen in der Trainingsmenge.

2. Anzahl der Sensoren innerhalb der Instanzen der Trainingsmenge.

3. Menge kontinuierlicher (KS) und diskreter Sensoren (DS).

4. Größe des Wertebereiches der diskreten Sensoren (SD).

5. Anteil nicht verfügbarer Sensorwerte (PM).

6. Anteil von Sensoren, mit fehlerbehafteten Messwerten (PB).

Um Testdaten zu erhalten, welche diesen Eigenschaften in konkret vordefinierten Wertebereichen unterliegen, wurde ein Testdatengenerator entworfen und umgesetzt. Der Aufwand und die Genauigkeit bei der Modellgene-rierung hängen im Allgemeinen von der Beschaffenheit der Sensordaten ab. Die Sensordaten können daher nicht beliebig gesetzt werden, sondern müssen im Bezug auf ein Nutzerkonzept erstellt werden. Dieses Konzept wird ebenfalls generiert und ist abhängig von den folgenden Eigenschaften:

1. Größe der Domäne der Klassenwerte (CA), beziehungsweise Anzahl der Klassen.

2. Menge der Sensoren, die für eine Klasse relevant sind (SR).

3. Wahrscheinlichkeit für fehlerhaftes Feedback (PF).

4. Häufigkeit des Auftretens von Konzeptänderungen(CD).

5. Umfang der von der Konzeptänderung beeinflussten Klassenwerte (DA).

Alle diese Eigenschaften werden als Eingabeparameter zur Generierung von Testdaten verwendet.

4 Die angegebenen Abkürzungen finden sich bei den nachfolgenden Darstellungen wieder und dienen der Beschreibung der in den jeweiligen Szenarien eingesetzten Parametern.

94 5.4 Analyse bestehender Verfahren zur Informationsauswertung

Durchführung

Die Durchführung des Vergleichs läuft wie folgt ab (für den jeweiligen Schritt sind die relevanten Parameter in Klammern angegeben):

1. Generierung der verfügbaren Sensoren (KS,DS,SD): Hierbei werden für eine Menge von Sensoren der Datentyp (kontinuierlich oder diskret) und die Wertebereiche (Domäne) festgelegt.

2. Generierung des Konzeptes h()(CA,SR):Es wird Konzept erstellt, welches CA verschiedene Klassen auf-weist. Zudem wird für jede Klasse festgelegt, welche Sensoren relevante Informationen bereithalten und welche Werte ein relevanter Sensor innerhalb einer Klasse einnehmen kann.

3. Starte mit leerer Trainingsmenge undleeren Modellen:Ohne eine Trainingsmenge ist das Modell eben-falls leer und somit kann keine Aussage getroffen werden.

4. Auswahl einer Klassek:Jede Instanz soll später zu einer Klasse zugeordnet werden können.

5. Erstellung einer InstanzX mith(X) =k(PM,PB):Hierzu werden die Sensorwerte generiert. Jeder relevante Sensor nimmt einen Wert an, welcher innerhalb der Klasse gültig ist (bezogen auf die in den Schritten 2 und 3 festgelegten Werte).

6. Klassifizierung der Instanz f(X) =k mit allen Modellen:Die generierte Instanz wird mit den Modellen ausgewertet. Wobei deren Auswertungsgeschwindigkeit gemessen wird.

7. Vergleichk=k:Die Ergebnisse des Modells werden mit denen des generierten Konzeptes verglichen. Hier-bei kann bestimmt werden, ob das Modell, innerhalb der in den Schritten 4 und 5 simulierten Situation, mit der Entscheidung des Konzeptes übereinstimmt.

8. 10 malige Wiederholung der Schritte 4 bis 7.

9. Bestimmung der durchschnittlichen Genauigkeit des Modells:Um Aussagen über die durchschnittliche Genauigkeit in der aktuellen Iteration zu erhalten werden 10 Klassifikationen durchgeführt und die durch-schnittliche Genauigkeit betrachtet.

10. Erstellung einer Instanz X mit h(X) =k (PM,PB): Eine Situation wird herausgegriffen, um als Feedback herangezogen zu werden.

11. Erweitere Instanz um Feedback(X,h(X))(PF):Zu dem Feedback wird das Resultat hinzugefügt, welches dem Konzept entspricht.

12. Füge die Instanz der Trainingsmenge hinzu.

13. Erstellung der neuen Modelle fauf Basis der erweiterten Trainingsmenge:Die verschiedenen zu analy-sierendem Lernverfahren werden angewendet, um neue Modelle zu generieren. Hierbei kann der Aufwand der Modellgenerierung gemessen werden.

14. Gegebenenfalls Modifikation des Konzeptes (CD,DA):Das Konzept wird bei Auftreten einer Konzeptän-derung modifiziert, um ein sich änderndes Benutzerverhalten nachzubilden.

15. Fahre bei Schritt 4 fort bis 250 Instanzen in der Trainingsmenge enthalten sind.

16. Speichere Messdaten.

17. 10 malige Wiederholung der Schritte 1 bis 16.

18. Ermittlung der durchschnittlichen Messwerte:Alle Messwerte werden über 10 Durchläufe gemittelt. Dies ermöglicht eine Aussage das durchschnittliche Verhalten der Lernverfahren und deren Vergleich.

Zum einen werden bei der Durchführung der Analyse das Laufzeitverhalten und der Aufwand zur Erstellung und zur Auswertung des Modells betrachtet. Zum anderen wird die Genauigkeit der Modelle über den gesamten Zeitraum hinweg ausgewertet.

Wahl der Parameter, Basisszenario

Die nächste Aufgabe besteht in der Wahl der Werte für die Parameter für ein Basisszenario. Da die Menge der adressierbaren Anwendungsszenarien möglichst breit aufgestellt sein soll, können einige Parameter nicht fest vor-gegeben werden. Andererseits ist eine Analyse über alle Kombinationen von Parametern nicht durchführbar. Für den Vergleich bestehender Verfahren wurde daher eine Reihe von Szenarien erstellt, bei denen jeweils der Einfluss einzelner Parameter analysiert wird.

Alle anderen Parameter werden im Allgemeinen auffesteWerte gesetzt. Als Grundlage für die Festlegung dieser festen Parameter wurde ein durchschnittliches, zu erwartendes Anwendungsszenario betrachtet.

Die zu verarbeitende Menge an Sensoren muss nicht mit der Menge an verfügbaren Sensoren übereinstimmen.

Durch die semantische Suche wird die Menge an zu verarbeitenden Sensoren in der Regel auf die Menge relevanter

5 Informationsauswertung 95

Sensoren eingeschränkt. Daher geht es eher um die Betrachtung der Sensoren, welche sowohl für die betrachtete Kontextdimension und das Kontextobjekt relevant sind. Die Menge an Sensoren, auf die dies zutrifft kann schwer vorhergesagt werden. In den betrachteten Szenarien handelte es sich jedoch meist um Größen von ca. 10 bis 50 Sensoren. Daher wurden 32 Sensoren als fester Parameter für die Anzahl von Sensoren gewählt, welche sich zudem zu gleichen Teilen auf kontinuierliche (KS = 16) und diskrete Sensoren (DS = 16) aufteilen. Für die diskreten Sensoren wurde ein Wertebereich von 16 verschiedenen Einträgen festgelegt (S D=16).

Bei der Suche werden jedoch auch Sensoren erfasst, welche keine Relevanz für das Konzept des Nutzers haben.

Dies kann je nach Szenario, installierten Sensoren, Sensorbeschreibung oder der Umsetzung der Suche stark variie-ren. An dieser Stelle wurde festgelegt, dass jeweils nur eine Menge von 40% der Sensoren für das aktuelle Konzept relevant ist. Das bedeutet nur 40% der Aussagen einer Trainingsinstanz sind abhängig von der Kontextklasse – alle anderen Sensorwerte sind gleich verteilt über ihren jeweiligen Wertebereich (SR=40).

Bei der Bestimmung von Kontextklassen geht es in der Regel um die Differenzierung zwischen einer relativ kleinen Menge an Kontextklassen. Bei der Bestimmung der Presence-Zustände einer Person um die Differenzie-rung zwischen Kontextklassen wie beispielsweise VERFÜGBAR, ABWESEND, BESCHÄFTIGT, oder aber bei der Steuerung von Geräten wie beispielsweise Licht um die Zustände EIN, AUS. Daher wurde hier eine Menge von 4 Kontextklassen angenommen (CA=4).

Die zu analysierenden Effekte, wie fehlende SensorwerteP M, fehlerhafte SensorwerteP B, fehlerhaftes Feedback P F oder Konzeptänderungen C D,CA werden jeweils einzeln betrachtet. In diesem Zusammenhang werden alle anderen Effekte ausgeblendet und bei der Generierung der Daten nicht herangezogen.

Einschränkungen durch Generierung der Daten

Eine kritische Betrachtung dieses Ansatzes des Vergleichs über generierte Daten zeigt auch nachteilige Eigen-schaften. So unterscheidet sich ein Vergleich anhand generierter Daten von einem Vergleich anhand von Daten, welche aus der realen Umgebung bezogen wurden. In der Realität sind die Sensordaten und das Auftreten von Kontextklassen nicht gleich verteilt. Gerade bei numerischen Attributwerten ist häufig eine Normalverteilung an-zutreffen.

In der Realität können die gesammelten Daten weitaus komplexere Eigenschaften aufweisen, wie beispielsweise die Häufung von Instanzen in bestimmten Situationen, in dem es dem Nutzer einfacher möglich ist, Feedback zu geben. Die Sensoren können zudem statistische Abhängigkeiten untereinander aufweisen.

Die Genauigkeit eines Modells ist zudem abhängig davon, wie ähnlich die zu klassifizierende Instanz den In-stanzen aus der Trainingsmenge ist. Bei dem gewählten Vorgehen werden die Beispiele zufällig gezogen, was die Wahrscheinlichkeit eine ähnliche Instanz zu ziehen abhängig von der Größe des Domänenraumes macht. In den an-gestrebten Szenarien ist zu erwarten, dass das Feedback und die Auswertung in ähnlichen Situationen stattfinden, weshalb die zu klassifizierende Instanz mit höherer Wahrscheinlichkeit den bisher erhaltenen Trainingsinstanzen ähnelt.

Die Generierung der Daten dient nur der Veranschaulichung des Verhaltens der Verfahren auf verschiedene vordefinierbare Eigenschaften in der Trainingsmenge und der Konzepte. Szenarien mit ähnlichen, vordefinierten Eigenschaften wären in der Realität zudem kaum zu konstruieren.