• Keine Ergebnisse gefunden

Kapitel 3 Agentenarchitekturen 66

3.5 Kognitive Architekturen

Kognitive Architekturen zielen auf allgemein intelligentes Verhalten ab. Sie werden im Sinne der KI als wissensbasierte, informationsverarbeitende Systeme realisiert und sind ihrer Struktur nach den komponentenbasierten Architekturen zuzuordnen.

Wie bei allen wissensbasierten Systemen ist Wissen von dessen Verarbeitung ge-trennt. Dies kommt besonders bei der Verwendung des Zielbegriffs zum Vorschein, der in nahezu jeder kognitiven Architektur von zentraler Bedeutung ist.

In deliberative Agentenarchitekturen sind oftmals „weiche“ Interruptmechanis-men eingebaut. Während wahrgenomInterruptmechanis-mene Informationen komplexen Bearbei-tungsfunktionen zum Update des Weltmodells und zum Erstellen von Handlungs-plänen zugeführt werden, führen andere Ereignisse direkt zur Aktivierung von Handlungsmustern. So erlauben die ursprünglich als monolithische Einagentensy-steme konzipieren Architekturen teilweise auch den Einsatz in dynamischen Umge-bungen.

SOAR

SOAR16 basiert auf den frühen KI-Systemen GPS und OPS5. Intelligenz wird ge-mäß des Rationalitätsprinzips als das optimale Erreichen von Zielen verstanden. In SOAR findet zielorientiertes Problemlösen als heuristische Suche in Problemräu-men statt. Im Prinzip wird dabei klassische Handlungsplanung, wie in Abschnitt 2.4.4 beschrieben, durchgeführt: Die Suche erfolgt durch sukzessives Anwenden von Operatoren, bis der Zielzustand erreicht ist. In Erweiterung klassischer Pla-nungssysteme ist die Problemraumsuche in einen komplexen Entscheidungszyklus eingebaut. Zur Repräsentation von Wissen stellt SOAR zwei Konzepte in Form ei-nes Langzeit- und eiei-nes Kurzzeitgedächtnisses bereit. Das Langzeitgedächtnis

spei-14. [Maes 1990].

15. [Maes, Brooks 1990] nutzten eine Form des Reinforcement Learnings (siehe Seite 64).

16. State, Operator, and Result [Laird, et al. 1987]. Die hier gewonnenen Erkenntnisse kumulierte [Newell 1990] später zu einer integrierten Theorie der menschlichen Kognition.

chert operatives Wissen zum Aufbau der Problemräume und Kontrollwissen zur Steuerung der Suchprozesse einheitlich in Form von Produktionen. Kurzzeitliches Wissen wird durch Attribut-Wert-Listen dargestellt, die zu Objekten zusammenfaßt werden. Das Kurzzeitgedächtnis bildet den Arbeitsspeicher, hier findet die ge-samte Informationsverarbeitung statt. Aus dem einheitlichen Repräsentations- und Zugriffsmechanismus sowie der Möglichkeit, den Arbeitsspeicher in Bereiche zu strukturieren ergibt sich eine starke Ähnlichkeit zu Blackboards. Die offene Gestal-tung des Arbeitsspeichers erlaubt das Hinzufügen beliebiger Module17, die diesen Speicher oder ein zugewiesenes Segment zum Informationsaustausch und zur Ko-ordinierung benutzen können.

Die Informationsverarbeitung findet in zwei Phasen statt. In der ersten Phase der Wissenssuche feuern anwendbare Produktionen des Langzeitgedächtnisses, welche auf dem Arbeitsspeicher operieren. Einerseits führt dieser Prozeß zur Generierung neuer Objekte, was wiederum andere Produktionen zur Anwendung kommen lassen kann, andererseits entstehen und ändern sich Präferenzen, die in der zweiten Phase zur Steuerung für die weitere Verwendung von Zielen, Problemräumen, Zuständen und Operatoren benutzt werden.

Abbildung 3-5: SOAR-Agentenarchitektur18

17. Neben dem Langzeitgedächtnis und den Modulen für Sensorik und Aktorik.

Langzeitgedächtnis (Produktionen)

Kurzzeitgedächtnis (Objekte)

Sensorik Motorik

ausführen verändern match

andere Module

lernen

entscheiden

In der zweiten Phase wählt die Entscheidungsprozedur anhand des aktuellen Wis-sens im Kurzzeitgedächtnis unter Zuhilfenahme vorhandener Präferenzen einen Operator und wendet diesen auf den zugehörigen Problemraum an. Durch sukzes-sive Anwendung von Operatoren wird entweder irgendwann das Ziel erreicht, oder man landet in einer Sackgasse. In diesem Fall wird ein Unterziel generiert, dessen Aufgabe es ist, den Suchprozeß aus der Sackgasse zu lenken. Kann eine Sackgasse auf diese Weise nicht aufgelöst werden, kommen problemraumunabhängige Me-chanismen wie Backtracking zur Anwendung. Zur Vermeidung von Sackgassen greift ein Chunking-Lernmechanismus, der jedesmal aktiviert wird, wenn ein er-folgreicher Weg aus einer Sackgasse gefunden wurde. Es wird eine Produktionsre-gel generiert, deren Vorbedingung den „Eingang“ der Sackgasse, d.h. die Ausgangs-situation und deren Aktionsteil das Wissen zur Auflösung der Sackgasse beschreibt.

Trifft ein Agent später auf eine ähnliche Situation, feuert die erlernte Regel und der Weg in die Sackgasse wird vermieden.

Prodigy

Einen anderen Ansatz zur Verknüpfung von Planen mit Lernen beschreitet Prodi-gy19. Herzstück dieser Architektur ist ein nichtlinearer Planer, der den Zustands-raum durch rückwärtsverkettete Suche aufspannt. Die Suchprozedur ist dabei in der Lage, mehrere Zielzustände in einem Plan zu integrieren. Planoperatoren basieren auf STRIPS, erweitern dessen Formalismus jedoch um Merkmale wie veroderte und negierte Vorbedingungen in Verbindung mit Quantoren und bedingte Effekte.

Die Operatorauswahl wurd durch Kontrollregeln heuristisch gesteuert: Selektions-und Ausschlußregeln verkleinern die Menge der anwendbaren Operatoren Selektions-und schränken so den Suchraum ein; Präferenzregeln definieren eine partielle Ordnung auf den Operatoren.

Während die Kontrollregeln den Planungsprozeß aktiv unterstützen, dienen die in Prodigy integrierten Lernkonzepte zur Effizienzsteigerung a posteriori. Automa-tisch wird Kontrollwissen zur Steigerung der Effizienz des Planungsprozesses mit Hilfe von explanation-based learning (siehe Abschnitt 2.4.5 auf Seite 64) generiert.

Zum andern existiert eine Reihe von Lernmodulen, die auf Assistenz eines Experten angewiesen sind und zwecks Steigerung der Planqualität sowie zur Akquise von Domänenwissen zum Einsatz kommen.

18. Nach [Newell, et al. 1989], S.111.

19. [Carbonell, et al. 1991], [Veloso, et al. 1995].

Theo

Theo20 integriert klassisches Problemlösen mit Lernen und Selbstreflektion. Das Wissen eines Agenten wird einheitlich in Frames verwaltet. Ein Slot, der mit einem konkreten Wert belegt ist, wird als Belief bezeichnet und kann als Teil des aktuellen Weltmodells angesehen werden. Slots ohne Werte stellen Probleme dar, die die Ak-tivierung von Problemlösungsmethoden zur Berechnung des Wertes nach sich zie-hen. Hierfür steht eine Menge von Methoden bereit, die die Verwendung von De-faultwerten, das Auswerten von Funktionen, die Übernahme von bekannten Werten aus der Framehierarchie und explanation-based learning umfassen. Ein Lernmodul, das auf statistischer Inferenz beruht, sortiert die Methoden, so daß fehlende Werte in kürzester Zeit gefunden werden können. Das Paradigma der einheitlichen Reprä-sentation wird soweit getrieben, daß auch Metawissen über Frames in Bezug auf die Beobachtung der Effizienz, Schwierigkeit und Erfolg der Frameverarbeitung durch Frames dargestellt wird. Stimulus-Response-Regeln bilden den reaktiven Part eines Theo-Agenten. Mit zunehmender Zahl dieser Regeln steigt die Reaktivität, so daß hierin ein Mittel zur Skalierung gegeben ist.