Klassiﬁzierung von Lernverfahren - Integration von Lernverfahren

5.3 Integration von Lernverfahren

5.3.2 Klassiﬁzierung von Lernverfahren

Wiederkehrende Konzepte

Wiederkehrende Konzepte sind in realen Domänen häuﬁg anzutreffen. Oft beruhen solche scheinbar wiederkeh-renden Konzepte jedoch auf fehlenden Informationen. So kann das Konzept eines Nutzers für das Lernverfahren, wie zwei gänzlich unterschiedliche Konzepte wirken, sobald ein Attribut zur Differenzierung zwischen den beiden Konzept-Teilen fehlt. In Abbildung 3.7 aus Abschnitt 3.4.4 wurde diese Problematik skizziert. Wenn das fehlende Attribut oder Merkmal beispielsweise die Lokation der Person beschreibt, die Person den Raum wechselt und dort ein entsprechend anderes Verhalten aufweist, so kann diese Situation für das Lernverfahren fälschlicherweise als Konzeptwechsel gedeutet werden.

Ein ständig neues Erlernen dieser wiederkehrenden Konzepte ist wohl die einfachste, aber auch inefﬁzienteste Lösung. Entsprechend bietet es sich an, eindeutig identiﬁzierbare Lernzustände mit hoher Qualität aufzubewahren und bei erneutem Bedarf wieder zu laden [HH98, WK96].

Die Herausforderung besteht nun einerseits in der Identiﬁkation akzeptabler Konzepte, welche für eine Abspei-cherung in Frage kommen. Andererseits ist es notwendig bereits gespeicherte Konzepte zu analysieren, um diese eventuell zu laden und damit Teile des aktuellen Zielkonzeptes zu ersetzen.

Zur Lösung dieser Problematiken sind wiederum heuristische Verfahren hilfreich. Allerdings ist darauf zu achten, dass nur gezielt ausgewählte Konzepte aufbewahrt werden. Speichert eine Heuristik zu viele Konzepte ab, ergibt sich daraus ein erheblicher Performanceverlust des Lernsystems durch den erhöhten Ressourcenaufwand. So wird in allen gängigen Lernsystemen, die ein solchesLangzeitgedächtnisunterstützen, bei wiederkehrenden Konzepten eine Suche imGedächtnisvollzogen [Koy01, Koy00a]. Auf der anderen Seite erzeugt ein solches Langzeitgedächtnis zusätzlichen Aufwand in Form von Speicherplatz zur Hinterlegung von Modellen, als auch Rechenkapazität zum Vergleich des aktuellen Modells mit gespeicherten zur Bestimmung, ob sich dasalteModell besser auf das aktuelle Konzept anwenden lässt.

• Vorhersagendes Lernen: Das vorhersagende Lernen bestimmt wahrscheinliche Abfolgen von Zuständen, beziehungsweise Klassen.

• Regressionsanalyse:Die Regressionsanalyse hat nicht die Prognose von Klassenwerten zum Ziel, sondern die Erstellung einer Funktion welche die erwarteten Ausgangswerte approximiert.

Für diese Arbeit müssen Kontextklassen bestimmt werden. Diese Aufgabe wird von klassiﬁzierenden Lernver-fahren durchgeführt. VerLernver-fahren, welche Zusammenhänge zwischen Attributen und Klassen anhand von Trainings-instanzen ermitteln, werden auch als induktive Lernverfahren bezeichnet. Vorhersagendes Lernenist für die An-wendung zur Bestimmung des aktuellen Kontextes nicht konzipiert. Jedoch bietet es Raum für zukünftige Erwei-terungen des Systems, um beispielsweise proaktiv Aktionen durchzuführen. Interessante Arbeiten hierzu liefern Mehlhase [Meh08] und Ferscha et. al. [FMR03].

Informationsgrundlage

Eine weitere Klassiﬁkation kann anhand der Informationsgrundlage durchgeführt werden. Die Informations-grundlage kann aus verschiedenen Elementen bestehen:

• Instanz:Eine Instanz repräsentiert die gesammelten Informationen und beinhaltet gegebenenfalls folgende Elemente:

– Attribute:Die Attribute beinhalten die Kontextinformationen.

– Klassenattribute:Die Klassenattribute beinhalten die Kontextklassen.

• Trainingsmenge:Die Trainingsmenge beinhaltet eine Menge von Instanzen (aus vorangegangenen Iteratio-nen).

• Modell:Das Modell beschreibt das bisher erlernte Konzept.

Die verschiedenen Lernziele erfordern bestimmte Informationsgrundlagen. Die Informationsgrundlage kann aus Instanzen bestehen, welche Attribute mit oder ohne Klassenattributen beinhalten oder wie im Falle des bestärken-den Lernens nur aus binären Wahr-Falsch-Aussagen.

• Unsupervised-Learner: Verfahren der Kategorie assoziierende Learner und einteilende Learner benötigen dagegen keine überwachende Instanz, weshalb sie auch als unsupervised-Learner bezeichnet werden. Bei einem einteilenden Learner wird häuﬁg eine Vorgabe für die gesuchte Anzahl von Clustern und deren Be-zeichnungen benötigt.

• Supervised-Learner:Das klassiﬁzierende Lernen benötigt Instanzen mit Attributen und Klassenattributen.

Klassenattribute werden von einer Entität geliefert, welche das System trainiert beziehungsweise überwacht.

Diese Instanz wird auch alsSupervisorbezeichnet. Daher werden Algorithmen, welche einen Supervisor zum Training benötigen auch alsÜberwachtes Lernen(engl.supervised learning) bezeichnet.

• Active-Learner, Semi-Supervised-Learner: Das Geben von Feedback bedeutet Aufwand, beziehungsweise Kosten für den Nutzer. Semi-Supervised-Learner haben zum Ziel die Menge vom benötigten Feedback zu reduzieren, indem beispielsweise nur für kritische Fälle Feedback erfragt wird. Das Problem bei dem Ansatz der Active-Learner besteht in dem angestrebten iterativen Ansatz. Ohne die Betrachtung aller Instanzen über den gesamten Lernzeitraum hinweg können die Grenzen zwischen den Kontexträumen (wo die kritischen Fälle zu suchen wären) nur schwer bestimmt werden.

Ziel dieser Arbeit ist es, ein Verfahren anzubieten, welches das Feedback des Nutzers zur Anpassung der Auswer-tung nutzt. Diese Vorgabe erlaubt die Nutzung überwachter Lernverfahren.

Zeitliche Aspekte der Informationsgrundlage

Aufgaben im Bereich des Data-Minings behandeln häuﬁg die Analyse großer Datenmengen, wie beispielsweise einer Datenbank mit Kundendaten. Die Reihenfolge der einzelnen Datensätze hat in solchen Aufgabenbereichen keine Relevanz. Verfahren, welche für diesen Aufgabenbereich entworfen wurden, behandeln daher alle Instanzen gleich, unabhängig von der Reihenfolge in welcher sie verarbeitet werden. Im Allgemeinen wird das Modell im Vorausofﬂinegeneriert und später zur Auswertung genutzt.

Andere Anwendungsszenarien erfordern eine inkrementelle Vorgehensweise. Durch die Zuführung von Trainings-und Klassiﬁkationsinstanzen in einer beliebigen Reihenfolge, ist das Lernverfahren dazu gezwungen seine Entschei-dungen bzw. Klassiﬁkationen online zu bestimmen. Die Vorteilhaftigkeit zeigt sich also durch den gleichzeitigen Trainings- und Klassiﬁkationseinsatz sowie in der Schnelligkeit von Konzeptänderungen [Ome00].

Anhand dieses Merkmals können die Lernverfahren weiter differenziert werden:

5 Informationsauswertung 89

• Ofﬂine-Learner:Sie verarbeiten Instanzen ohne Bezug zu zeitlichen Aspekten oder Reihenfolge. Alle Instan-zen haben somit die gleiche Aussagekraft.

• Online-Learner:Die Reihenfolge der Verarbeitung der Instanzen beeinﬂusst maßgeblich das resultierende Modell.NeueInstanzen haben dadurch eine höhere Relevanz als diejenigen, die zuvor verarbeitet wurden.

Beide Varianten gehen jedoch davon aus, dass alle Aussagen innerhalb einer Instanz eine Situation zu einem bestimmten Zeitpunkt beschreiben. Andere Ansätze berücksichtigen auch zeitliche Abhängigkeiten innerhalb einer Instanz. So ist beispielsweise bei Sprach- oder Schrifterkennung die Reihenfolge der Laute oder Zeichen wichtig, um das resultierende Wort zu ermitteln. In der Literatur ist dieses Problem auch unter der BezeichnungSequential Supervised-Learningzu ﬁnden.

Ablauf der Modellgenerierung

Ein weiteres Merkmal beschäftigt sich mit der Frage, ob das Lernsystem einen Modellaufbau durch jeweils ein-zelneTrainingsinstanzen ermöglicht oder ob zuerst alle Instanzen zum Training verarbeitet werden müssen und darauffolgend das Modell erstellt.

• Batch-Learner:Vollzieht eine vorherige Verarbeitung aller Trainingsinstanzen.

• Incremental-Learner:Involviert jede Instanz einzeln in den Modellaufbau.

Die folgende Tabelle 5.2 stellt die Verfahrensweisen der beiden Abläufe zur Modellgenerierung gegenüber.

Batch-Learner Incremental-Learner

1. Initialisieren des Klassiﬁkationsmodells 2. VerarbeitenallerTraininginstanzen 3. Erstellen des Klassiﬁkationsmodells

1. Initialisieren des Klassiﬁkationsmodells 2. VerarbeiteneinerTraininginstanz

3. Erstellen, Ändern des Klassiﬁkationsmodells 4. Gehe zu Schritt 2, falls noch weitere

Trainingsin-stanzen vorhanden sind

Tabelle 5.2:Verfahrensweise von Batch- und Inkrementellen Lernverfahren. In Anlehnung an [Sar04].

Verarbeitung der Trainingsdaten

Es gibt zwei grundlegende Vorangehensweisen, bei der Verarbeitung der Trainingsdaten:

• Lazy-Learner:Werten die Trainingsdaten erst zum Zeitpunkt der Anfrage aus.

• Eager-Learner:Erstellen ein Modell aus den Trainingsdaten, welches zum Anfragezeitpunkt herangezogen wird.

Ein bekanntes Beispiel für einen Lazy-Learner ist das NEARESTNEIGHBOUR-Verfahren. Bei einem solchen An-satz werden die gesammelten Trainingsinstanzen zum Anfragezeitpunkt nach möglichst vergleichbaren Instanzen durchsucht. Bei einer Vielzahl von Instanzen und Sensoren spannt sich ein hochdimensionaler Raum auf. Der Auf-wand der Auswertung wächst linear abhängig von der Anzahl der Instanzen und Sensoren.

Je nach Anwendungsszenario und den dabei zu erwartenden Mengen von Instanzen und Sensoren kann es not-wendig werden, im Vorfeld der Auswertung eine Generalisierung der Trainingsdaten durch ein Modell vorzuneh-men. Die einzelnen Instanzen werden dann nicht mehr als vereinzelte Datenpunkte im Domänenraum angesehen, sondern bilden einen Teilraum. Umschließt ein solcher Teilraum eine zu klassiﬁzierende Instanz, so erhält diese den entsprechenden Klassenwert der Trainingsinstanzen. Bei der Generalisierung handelt es sich im Allgemeinen um heuristische Verfahren. Daher kann nicht garantiert werden, dass maschinelle Lernsysteme unter der Verwendung einer Generalisierung die optimale Konzeptbeschreibung liefern [WF01]. Die Ermittlung einer ressourcensparen-den und gleichzeitig wirkungsvoll arbeitenressourcensparen-den Generalisierungsfunktion ist daher ein wichtiger Bestandteil bei der Entwicklung von Lernsystemen.

90 5.3 Integration von Lernverfahren

Im Dokument Anpassungsfähige Kontextbestimmung zur Unterstützung von Kommunikationsdiensten (Seite 98-101)