• Keine Ergebnisse gefunden

Unabhängige Ereignisse

Im Dokument Künstliche Intelligenz (Seite 20-0)

P(A|B) =P(A) so nennt man diese Ereignisse unabhängig.

Aus dieser Definition folgt zusätzlich

P(A∧B) =P(A)·P(B)

Weitere Zusammenfassungen von Malte Jakob gibt es unter i-malte.jimdofree.com

Kettenregel

Löst man die Formel der bedingten Wahrscheinlichkeit nachP(A∧B)auf, so erhält man die Produktregel:

P(A∧B) =P(A|B)·P(B)

Mit diesem Wissen können wir nun Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen mit beliebig vielen Ereignissen in einzelne bedigte Wahrscheinlichkeiten Aufspalten:

P(X1, . . . , Xn)=P(Xn|X1, . . . , Xn1)·P(X1, . . . , Xn1)

=P(Xn|X1, . . . , Xn1)·P(Xn1|X1, . . . , Xn2)·P(X1, . . . , Xn2)

=P(Xn|X1, . . . , Xn1)·P(Xn1|X1, . . . , Xn2)· · · · ·P(X2|X1)·P(X1)

=Qn

i=1P(Xi|X1, . . . , Xi1) Dies wird auch dieKettenregel genannt

Marginalisierung

Bei binären Variablen besteht die Möglichkeit, eine Variable aus der Gleichung herauszurechnen, indem man über ihre beiden Werte aufsummiert:

P(A) =P((A∧B)∨(A∧ ¬B)) =P(A∧B) +P(A∧ ¬B)

Allgemein gesprochen lässt sich aus einer beliebigen Anzahl aus Variablen eine Variable eliminieren, indem man über all ihre Werte aufsummiert:

P(X1=x1, . . . , Xd1=xd1) =X

xd

P(X1=x1, . . . , Xd1=xd1, Xd=xd)

Die über diesen, als Marginalisierung bezeichneten Prozess, entstehende Verteilung heißtRandverteilung und entspricht der Projektion eines Körpers auf seine Seitenfläche – es geht also eine Dimension verloren.

Eine Marginalisierung wird z.B. auch immer vorgenommen, wenn man eine Vier-Felder-Matrix erstellt.

Durch diese Marginalisierung lassen sich schnell und einfach fehlende Werte für die Berechnung von be-dingten Wahrscheinlichkeiten ermitteln.

Die Bayes-Formel

Hat man nun eine bedingte WahrscheinlichkeitP(A|B)berechnet, möchte aber eigentlich die Wahrschein-lichkeitP(B|A), so kann man diese Bedingungen mithilfe der Bayes-Formel umkehren:

P(A|B) = P(B|A)·P(A) P(B)

Die umgekehrten bedingten Wahrscheinlichkeiten können unter Umständen stark voneinander abweichen.

4.2 Methode der maximalen Entropie

In der Aussagenlogik haben wir bereits den Modus Ponens kennengelernt; Eine analoge Vorgehensweise für Wahrscheinlichkeiten zu haben, wäre hierbei sehr wünschenswert:

P(A) =α, P(B|A) =β P(B) =?

Der Wert von B ließe sich theoretisch über die Marginalisierung berechnen, also mittelsP(B) =P(A, B) + P(¬A, B) =P(B|A)·A+P(B|¬A)·P(¬A). Hier fehlt uns allerdings die Wahrscheinlichkeit fürP(B|¬A).

Ein Ansatz diese zu berechnen ist das Betrachten der Wahrscheinlichkeitsverteilung:

P(A, B)=(P(A, B), P(A,¬B), P(¬A, B), P(¬A,¬B)) P(A, B)=(p1, p2, p3, p4)

Durch diese vier Elementarereignisse lassen sich alle Wahrscheinlichkeiten in unserem Beispiel berechnen;

Hierfür können folgende Gleichungen aufgestellt werden:

p1= (B|A)·P(A) =α·β=

P(A) =p1+p4=

Zudem kommt noch die Normierungsbedingung, die besagt, dass p1, p2, p3+p4= 1

Nun haben wir also vier Variablen, aber nur drei Gleichungen – somit ist unser Gleichungssystem unter-bestimmt und wir müssen uns einfallen Lassen, wie wir die fehlende Information ersetzen. Aber zuerst mal sehen, wie weit wir kommen:

Fürp1 können wir die Formel für bedingte Wahrscheinlichkeiten verwenden, die dafür benötigten Werte fürP(A)undP(B|A)ins im Modus Ponens gegeben und entsprechenαundβ. Durch Marginalisierung lässt sich ebenfalls ableiten, dassp1+p2=α. Fürp1 können wir den Wert berechnen und somit auch fürp2. Es bleiben schließlich alsop3undp4übrig. Beim einsetzen der anderen Ergebnisse in die Normierungsbedingung erhalten wir nun die Gleichungp3+p4= 1−α.

Mehr Informationen gibt es nicht. Da wir aber dennoch eine Lösung wollen, müsste man raten. Beim Raten gibt es allerdings sehr viel Potential, dinge zu verzerren und falsche Wahrscheinlichkeiten anzunehmen. Wir wollen also eine Lösung, bei der wir so wenig wie möglich verzerren.

Nun gilt es also ein Optimierungsproblem zu lösen, bei dem es drum geht, so wenig Information (und somit, so wenig Falschinformation) wie möglich zu liefern. Die Bedingung für diese Optimierung muss allerdings erst noch festgelegt werden – wir müssen also nach einer Variable auflösen, um eine Gleichung zu erhalten, die wir optimieren können. In unserem Beispiel können wir recht einfach umformen:p4=−p3+ 1−α. Dies ist allerdings nur die Nebenbedingung, unter der es zu Optimieren gilt. Die Funktion, die wir optimieren möchten, ist dieEntropiefunktion, die angibt, wie unsicher etwas verteilt ist. Da wir keine konkreten Werte schätzen möchten, wollen wir entsprechend so unsicher wie möglich bleiben – wir maximieren also fürp= (P(p3), P(p4))eine FunktionH(p)unter der Nebenbedingung p4=−p3+ 1−α. Für die Entropiefunktion

Sei eine konsistente Menge (= Gleichungen sind nicht widersprüchlich) von linearen probabilistischen Gleichungen gegeben, dann existiert ein eindeutiges Maximum der Entropiefunktion unter den gege-benen Gleichungen als Nebenbedingungen. Die Dadurch definierte MaxEnt-Verteilung besitzt unter den Nebenbedingungen den minimalen Informationsgehalt.

Nun gilt es also eine mehrdimensionale Gleichung unter einer Nebenbedingungp3+p4 = 1−α⇒ p3+ p41 +αzu maximieren. Hierfür verwenden wir die Lagrangefunktion (Siehe Analysis 2)

L=−p·lnp3−p4·lnp4+λ·(p3+p41 +α)

Diese Gleichung muss jetzt jeweils partiell nachp3 undp4 abgeleitet werden. Da wir ja ein Extrem suchen, setzen wir die Ableitung gleich null, um die Extremstelle zu finden:

grad(L) =

Diese Gleichungen können wir nun gleichsetzen und erhalten schlussendlichp3=p4. Nun können wir dieses Ergebnis in die ursprüngliche Nebenbedingung einsetzen und erhalten2·p3= 1−αund dementsprechend

p3=p4= 1−α 2

Weitere Zusammenfassungen von Malte Jakob gibt es unter i-malte.jimdofree.com

Definition 4.6: Indifferente Variablen

Wenn eine beliebige Vertauschung von zwei oder mehr Variablen in den Lagrangegleichungen diese in dazu äquivalente Gleichungen überführt (=das Ergebnis bleibt gleich), so nennt man diese Variablen indifferent. Ist eine Menge von Variablen {pi1, pi2, . . . , pik} indifferent, so liegt das Entropiemaximum unter den gegebenen Nebenbedingungen an einem Punkt mitpi1=pi2 =· · ·=pik. Sind keine Nebenbedingungen gegeben, so sind alle Ereignisse gleich wahrscheinlich und es giltp1= p2=· · ·=pn= n1

Bei gewissen gegebenen Nebenbedingungen kann es jedoch dazu kommen, dass eine Lösung nicht symbo-lisch (also ohne konkrete Werte einzusetzen) lösbar ist, sondern tatsächlich numerisch (also mit den Werten) gelöst werden kann. Möchte man dies für jeden mögliche Variablenkombination durchführen, entsteht einiges an Rechenaufwand.

4.2.1 Bedingte Wahrscheinlichkeit gegen materiale Implikation

Wie aus der Wahrheitstabelle 3.1d bereits bekannt ist, ist die Implikation „Wenn A dann B“ immer Wahr, wennAfalsch ist. In Wirklichkeit lässt sich darüber jedoch keine Aussage treffen. Bei Bedingten Wahrschein-lichkeiten, bei deren Berechnung durchP(A)geteilt werden muss, ist die Aussage undefiniert, da hier nicht durch 0 geteilt werden darf. Diese Herangehensweise entspricht somit mehr der Realität.

Gibt es fürAundB Werte zwischen 1 und 0, so scheitert die materiale Implikation natürlich.

4.2.2 MaxEnt und Nichtmonotonie

Durch die Angabe von Wahrscheinlichkeiten kann neues Wissen hinzugefügt werden, ohne dass altes Wissen als ungültig deklariert wird. Somit ist Wahrscheinlichkeitslogik nicht monoton.

5 Bayes-Netze

Alle möglichen Wahrscheinlichkeitsverteilungen zu berücksichtigen kann sehr viel Zeit und Speicherplatz in Anspruch nehmen, weshalb das Schließen mit Wahrscheinlichkeiten für den alltäglichen Gebrauch meist zu aufwändig scheint.

Mit der Annahme, dass alle Ereignisse unabhängig sind (z.B. es einem Einbrecher egal ist, ob aktuell ein Erdbeben stattfindet oder nicht), lässt sich P(X1, . . . , Xd)durch das Produkt der individuellen Wahr-scheinlichkeitsverteilungen ausdrücken, anstatt jegliche Kombination in bedingten Wahrscheinlichkeiten zu berechnen.

Oft liegt die Realität irgendwo dazwischen. Manche Variablen sind voneinander abhängig, andere nicht, wiederum andere nur bedingt.

Ein klassisches Beispiel ist das Alarm-Beispiel; Ein Alarm kann durch einen Einbruch (P(Ein) = 0,001), aber auch durch ein leichtes Erdbeben (P(Erd) = 0,002) ausgelöst werden:

P(Al|Ein, Erd) = 0,95 P(Al|Ein,¬Erd) = 0,94 P(Al|¬Ein, Erd) = 0,29 P(Al|¬Ein,¬Erd) = 0,001

Die beiden Nachbarn des Hauses, John und Mary, sollen den Besitzer anrufen, wenn sie den Alarm hören.

Hierbei kann es sein, dass der Alarm manchmal überhört wird, oder man andere Geräusche für den Alarm hält:

P(M|Al) = 0,70 P(M|¬Al) = 0,01 P(J|Al) = 0,90 P(J|¬Al) = 0,05

Denkt man logisch darüber nach, sind dies die einzigen Abhängigkeiten in dieser Situation und alle anderen Wahrscheinlichkeiten (z.B. Wenn ich angerufen werde, wie groß ist die Wahrscheinlichkeit, dass bei mir gerade tatsächlich eingebrochen wurde?) lassen sich mit dieser Wissensbasis berechnen.

Um den Überblick besser behalten zu können kann man diese Wissensbasis auch graphisch als sogenanntes Bayes-Netz darstellen, wie in Abbildung 5.1 gezeigt. Die (bedingten) Wahrscheinlichkeiten werden neben dem jeweiligen Knoten als Conditional Probability Table, kurz CPT dargestellt. Bei der Zeichnung zeigt jede Kante eine Abhängigkeit zwischen den Wahrscheinlichkeiten. Wie genau bestimmt wird, wo Kanten gezeichnet werden müssen, wird nachfolgend erklärt.

5.1 Bedingte Unabhängigkeit

Analog zur Unabhängigkeit gilt:

Definition 5.1: Bedingte Unabhängigkeit

Zwei VariablenAundB heißenbedingt unabhängig gegeben C, wenn P(A, B|C) =P(A|C)·P(B|C)

Dies muss für alle Kombinationen der Werte vonA undB (also die Komplette Verteilung) der Fall sein. Zudem lässt sich aus dieser Gleichung ableiten

P(A|B, C) =P(A|C) P(B|A, C) =P(B|C)

Überprüfen wir nun die Wahrscheinlichkeiten von John und Mary, so sind sie definitiv nicht unabhängig, da sie vom Alarm beeinflusst werden. Gegeben des Alarms, sind die Beiden jedoch bedingt unabhängig,

Weitere Zusammenfassungen von Malte Jakob gibt es unter i-malte.jimdofree.com

Einburch P(Ein)

0,001 Erdbeben P(Erd)

0,002

Alarm

Ein Erd P(Al)

w w 0,95

w f 0,94

f w 0,29

f f 0,001

John Al P(J)

w 0,90 f 0,05

Mary

Al P(M) w 0,70 f 0,01 Abbildung 5.1: Das Bayes-Netz zu dem Alarm-Beispiel

weshalb zwischen den beiden keine weitere Kante eingetragen wird. Auch zu den EreignissenErdbebenund Einbruchwird keine Kante zu den Nachbarn gezogen, da diese nur auf den Alarm reagieren.

5.2 Anwendung

Nun wenden wir unsere Wissensbasis mal an und berechnen dieSensitivität(Also: Wenn eingebrochen wird, wie hoch ist die Wahrscheinlichkeit, dass ein Anruf erfolgt); Mathematisch ausgedrückt: P(J|Ein), oder P(M|Ein). Oder aber auch „Wie groß ist die Wahrscheinlichkeit, dass tatsächlich eingebrochen wird, wenn angerufen wird?“, z.B.P(Ein|J).

P(J|Ein)lässt sich beispielsweise wie folgt berechnen: Zuerst nehmen wir die Formel für Bedingte Wahr-scheinlichkeiten:

P(J|Ein) = P(J, Ein) P(Ein)

Allerdings reagiert John nur auf den Alarm; Dieser ist in der Formel noch nicht enthalten. Indem wir die Formel derMarginalisierunganwenden und somit den Alarm hinzufügen

P(J|Ein) =P(J, Ein, Al) +P(J, Ein,¬Al) P(Ein)

FürP(J, Ein, Al)lässt sich die Produktregel verwenden:

P(J, Ein, Al) =P(J|Al, Ein)·P(Al, Ein) =P(J|Al, Ein)·P(Al|Ein)·P(Ein) DaJ undEinbedingt unabhängig sind, kannEinausP(J|Al, Ein)herausgelassen werden:

P(J, Ein, Al) =P(J|Al)·P(Al|Ein)·P(Ein)

Dasselbe gilt analog fürP(J, Ein,¬Al). Diese Werte können wir nun in die vorherige Gleichung einsezten:

P(J|Ein) =P(J|Al)·P(Al|Ein)·P(Ein) +P(J|¬Al)·P(¬Al|Ein)·P(Ein) P(Ein)

Nun lässt sichP(Ein)noch herauskürzen:

P(J|Ein) =P(J|Al)·P(Al|Ein) +P(J|¬Al)·P(¬Al|Ein)

In dieser Formel fehlen uns allerdings nochP(Al|Ein)undP(¬Al|Ein); Somit müssen wir diese mithilfe der Marginalisierung noch berechnen:

P(Al|Ein) = P(Al, Ein)

P(Ein) =P(Al, Ein, Erd) +P(Al, Ein,¬Erd) P(Ein)

Hier wenden wir nun wieder die Kettenregel an, um an die benötigten bedingten Wahrscheinlichkeiten zu kommen:

P(Al|Ein) = P(Al|Ein, Erd)·P(Ein, Erd) +P(Al|Ein,¬Erd)·P(Ein,¬Erd) P(Ein)

Da die Ereignisse Einbruch und Erdbeben voneinander unabhängig sind, entsprichtP(Ein, Erd) =P(Ein)· P(Erd)(analog auch bei¬Erd):

P(Al|Ein) =P(Al|Ein, Erd)·P(Ein)·P(Erd) +P(Al|Ein,¬Erd)·P(Ein)·P(¬Erd) P(Ein)

Nun können wirP(Ein)erneut herauskürzen

P(Al|Ein) =P(Al|Ein, Erd)·P(Erd) +P(Al|Ein,¬Erd)·P(¬Erd) P(¬Al|Ein)ist entsprechend das Gegenereignis =1−P(Al|Ein).

Nun können alle Werte in die Formeln eingesetzt werden und man erhältP(J|Ein) = 0,9·0,94 + 0,05· 0,06 = 0,849. Analog lässt sich diese Wahrscheinlichkeit auch für MaryP(M|Ein) = 0,659 berechnen.

Möchte man berechnen, wie hoch die Wahrscheinlichkeit ist, überhaupt angerufen zu werden, wenn ein Einbruch stattfindet, so berechnet manP(J∨M|Ein). Dies geht am einfachsten über das Gegenereignis, also, dass weder John noch Mary anrufen:

P(J∨M|Ein) =P(¬(¬J,¬M)|Ein) = 1−P(¬J,¬M|Ein)

Da John und Mary unabhängige Ereignisse sind, giltP(¬J,¬M|Ein) =P(¬J|Ein)·P(¬M|Ein).

Zudem fehlt erneut das Alarm-Ereignis, was wir somit über die Marginalisierung hinzufügen müssen:

P(¬J|Ein)·P(¬M|Ein) =P(¬J|Ein)·P(¬M|Ein)·(Al|Ein) +P(¬J|Ein)·P(¬M|Ein)·P(¬Al|Ein) Zu guter Letzt berücksichtigen wir, dass John und Mary eigentlich nur auf den Alarm reagieren, und nicht auf den Einbruch. Da wir die Verknüpfung zwischen Alarm und Einbruch schon hinzugefügt haben, müssen wir nur noch die Bedingungen tauschen. Somit ergibt sich eine Endformel von:

P(J∨M|Ein) = 1−[P(¬J|Ein)·P(¬M|Ein)·(Al|Ein) +P(¬J|Ein)·P(¬M|Ein)·P(¬Al|Ein)]

Setzt man die bekannten Werte ein, so erhält man einen wert von0,915; Es erfolgt somit bei 91,5% aller Einbrüche ein Anruf.

Mithilfe der Bayes-Formel lässt sich auch schnell berechnen, mit welcher Wahrscheinlichkeit tatsächlich ein Einbruch stattfindet, wenn John, Mary oder beide anrufen.

In diesem Beispiel wurde das Alarm-Ereignis sehr häufig zwischen den Einbruch und die Anrufe mittels P(J|Ein) =P(J|Al)·P(Al|Ein) +P(J|¬Al)·P(¬Al|Ein)eingeschoben.

Definition 5.2: Konditionierung

Allgemein lässt sich sagen, dass zwischen Zwei Variablen A und B eine weitere VariableC mittels folgender Formel – auchKonditionierung genannt – eingeschoben werden kann:

P(A|B) =X

c

P(A|B, C=c)·P(C=c|B)

SindAundB zudem bedingt unabhängig, so lässt sich die Formel weiter vereinfachen:

P(A|B) =X

c

P(A|C=c)·P(C=c|B)

Weitere Zusammenfassungen von Malte Jakob gibt es unter i-malte.jimdofree.com

5.3 Entwicklung von Bayes-Netzen

Ein gut entwickeltes Bayes-Netz ist wesentlich kompakter und informativer als die gesamte Wahrscheinlich-keitsverteilung. Zudem benötigt es weniger Speicherplatz: Bei Variablenv1, . . . , vn mit jeweils |v1|, . . . ,|vn|

unabhängige Einträge. In unserem Alarm-Beispiel, bei dem jede Variable nur wahr oder Falsch sein kann, ergibt sich somit ein Speicherplatzbedarf von251 = 31Werten.

Möchte man den Bedarf eines Bayes-Netzes berechnen, so benötigt man die Gesamtzahl aller Einträge aller CPTs. Für einen Knotenvi mit ki Elternknotenei1, . . . , eiki hat die entsprechende Tabelle

Einträge. Das Alarm-Beispiel hat nach dieser Formel 10 Einträge: je 1 für Einbruch und Erdbeben, 4 für Alarm, und je 2 für John und Mary.

Die verschiedenen es und vs und deren Mächtigkeiten sind allerdings etwas undurchsichtig, um einen allgemeinen Schluss daraus zu ziehen; Konstruieren wir deshalb ein einfacheres Beispiel: Alle n Variablen habenbmögliche Werte und jeder Knoten hatkElternknoten. Somit ergibt sich für den Speicherplatzbedarf von Bayes-Netzen n(b−1)bk, während die vollständige Verteilung bn1 Einträge benötigt. Bayes-Netze ergeben also dann Sinn, wenn die durchschnittliche Anzahl an Elternknoten viel kleiner ist als die Gesamtzahl der Knoten. In anderen Worten heißt dieslokale Vernetzung – jeder Knoten hat also nur ein paar wenige Nachbarn, von denen er abhängt. Diese Modularisierung verringert die Komplexität eines Netzes enorm.

Doch wie erstellt man ein gutes Bayes-Netz? Meist erfolgt das Erstellen der Netzstruktur noch manuell.

Hierbei ist es sehr wichtig, dass die Variablen in der Richtigen Reihenfolge ausgewählt werden, also von Ursache zu Wirkung. In dieser festgelegten Reihenfolge wird nun Knoten für Knoten hinzugefügt. Bei jedem neuen Knoten muss für alle bereits vorhandenen Knoten berechnet werden, ob diese (bedingt) unabhängig sind, bzw. es nur zu kleinen Abweichungen kommt. Haben die Knoten einen gemeinsamen Elternknoten, so muss die bedingte Unabhängigkeit geprüft werden, ansonsten die normale Unabhängigkeit. Sind sie (be-dingt) unabhängig, wird keine Kante eingetragen; Sind sie hingegen (be(be-dingt) abhängig, muss eine Kante eingetragen werden.

Sind nun alle Kanten eingetragen, müssen die CPTs gefüllt werden. Dies geschieht entweder in aufwändiger Handarbeit, oder wird mittels einer Datenbank automatisch berechnet. Nun ist das Bayes-Netz fertig!

5.4 Semantik von Bayes-Netzen

Eine Bedingung an Bayes-Netze ist, dass keine Zyklen entstehen; Ist dies der Fall, so können alle Kno-ten aufsteigend nummeriert werden (die Kinder haben also immer größere Nummern als die Elternkno-ten). Unter Verwendung aller bedingten Unabhängigkeiten muss für einen Knoten Xn nun nicht mehr die Wahrscheinlichkeitsverteilung aller darüberliegenden Knoten berechnet werden, da diese sich bereits in den Wahrscheinlichkeiten der Elternknoten widerspiegelt. Es gilt also „Ein Knoten eines Bayes-Netzes ist bedingt unabhängig von allen Nicht-Nachfolgern gegeben dessen Eltern“:

P(Xn|X1, . . . , Xn1) =P(XN|Eltern(Xn)) Mit diesem Wissen lässt sich die Kettenregel für Bayes-Netze stark vereinfachen:

P(X1, . . . , Xn) =

Mit diesem gesammelten Wissen, lassen sich Bayes-Netze nun wie folgt definieren:

Definition 5.3: Bayes-Netze Ein Bayes-Netz ist definiert durch

• Eine Menge von Variablen und einer Menge von gerichteten Kanten zwischen ebendiesen

• Jede Variable hat endlich viele mögliche Werte

• Die Variablen und Kanten stellen gemeinsam einen gerichteten, azyklischen Graphen dar (es gibt also keine Pfade der Form (Xi, . . . , Xi))

• Zu jeder Variablen Xi ist die bedingte Wahrscheinlichkeitstabelle CP T = P(Xi|Eltern(Xi)) angegeben

6 Maschinelles Lernen

Das Maschinelle Lernen ist ebenfalls Teil der KI, da Lernen etwas ist, was Menschen aktuell besser können als Maschinen. Somit ist es laut unserer Definition aus 1.1 ein Punkt der KI. Unter Lernen ist hierbei nicht das Auswendiglernen von Wissen (z.B. Vokabeln oder Gedichte) gemeint, sondern das Erlernen von Fertigkeiten (z.B. Klavierspielen oder Klettern).

Für das Lernen gibt es verschiedene Ansätze, z.B. Lernen durch Verstärkung oder Lernen mit Lehrer.

Nachfolgend konzentrieren wir uns auf letzteres. Beim Lernen mit Lehrer erhält der Agent (Das Computer-programm, das wir trainieren wollen), Fertig aufbereitete Daten, die er analysieren kann, um ein Muster zu erkennen. Nimmt man z.B. eine vereinfachte Klassifizierung von Äpfeln in zwei Handelsklassen A und B, basierend auf den Merkmalen Größe und Farbe. Beim Lernen mit Lehrer bekommt der Agent also tausende Datensätze, bei denen Größe und Farbe gegeben ist, sowie das sogenanntelabel, also wie der Apfel schluss-endlich Klassifiziert wurde. Anhand dieser Daten muss das Programm nun lernen, welche Kombination von Größe und Farbe in Handelsklasse A kommt, und welche Handelsklasse B zugewiesen wird. Allgemein formu-liert ist der Agent nichts andere als eine Funktion, die einenn-dimensionalen Eingabevektor nimmt und einen Klassen- oder Funktionswert ausgibt. Die verschiedenen Faktoren für die Berechnung dieses Ergebnisses lernt er aus den Trainingsdaten.

Mit nur diesen beiden Variablen lässt sich dieser Sachverhalt leicht in ein Koordinatensystem eintragen und die Grenze von selbst ermitteln; Geht es allerdings um komplexere Zusammenhänge, bei denen mehrere Hundert bis Tausend Aspekte berücksichtigt werden, gibt es keine einfache Trennlinie mehr, sondern für einenn-dimensionalen Merkmalsraum einen−1-dimensionale Hyperfläche. Diese Optisch darzustellen, ist unmöglich.

Definition 6.1: Maschinelles Lernen

Ein Agent heißt lernfähig, wenn sich seine Leistungsfähigkeit auf neuen, unbekannten Daten im Laufe der Zeit (nach Analyse vieler Trainingsdaten) verbessert (natürlich gemessen an einem geeigneten Maßstab).

Definition 6.2: Terminologie für maschinelles Lernen

Klassifikation/Classifier: bildet einen Merkmalsvektor auf einen Klassenwert ab, der eine feste An-zahl an Alternativen besitzt. (z.B. Apfelsortierung)

Approximation: Bildet einen Merkmalsvektor auf eine reelle Zahl ab (z.B. Prognose Aktienkurs)

Definition 6.3: Lernfähiger Agent

Ein Lernfähiger Agent kann durch folgende Merkmale definiert werden:

Aufgabe: Die Aufgabe eines Agenten ist es meist, eine Abbildung zu lernen (z.B. Größe und Farbe eines Apfels zu einer Handelsklasse)

Perfomance-Maß: Woran wird die Qualität des Agenten gemessen? (z.B. Anteil der korrekt klassi-fizierten Äpfel)

Variabler Agent: Ein variabler Agent ist eine Klasse von Agenten; Also eine Berechnungsvorschrift für das Ergebnis, dessen Faktoren aber noch nicht feststehen und erst durch das Lernverfahren festgelegt werden.

Trainingsdaten: Die Daten, bzw. die Erfahrung, von denen gelernt werden soll.

Testdaten: Die Testdaten müssen bisher unbekannte Daten sein, die aber ebenfalls bereits klassifiziert sind. Anhand dieser Daten kann überprüft werden, wie gut der Agent generalisieren und somit den richtigen Wert bei neuen Daten berechnen kann.

6.1 Datenanalyse

Oft kann es hilfreich sein, die Trainingsdaten vorab zu analysieren, um prognostizieren zu können, welche Regeln bzw. Ergebnisse der Agent liefern könnte. Hierfür können viele verschiedene statistische Auswertungen gemacht werden; z.B. Kann für jedes Merkmali eines Patientenpinnerhalb des Datensatzesx(=xpi) der Mittelwertberechnet werden:

Von dort kann auch dieStandardabweichung, also was für±Schwankungen um den Mittelwert herum normal sind, berechnet werden:

Zudem gibt es dieKovarianz, die angibt, wie sich verschiedene Merkmale zueinander verhalten. Ist diese positiv, sind sie komplementär (also wenn Wert A sinkt/steigt, dann sinkt/steigt auch Wert B), ist sie negativ, so sind sie konträr (also wenn Wert A sinkt, steigt Wert B und anders herum).

σij = 1 N−1

XN p=1

(xpi −xi)(xpj−xj)

Die Kovarianz kann schließlich noch normiert werden, damit sie sich immer zwischen -1 und 1 bewegt – dies nennt sich dann Korrelationskoeffizient. Je näher er an |1| ist, desto stärker ist die Korrelation (z.B.

1 bedeutet, wenn Merkmal A um 5% steigt, steigt auch Merkmal B um 5%; -1 bedeutet, dass Merkmal B stattdessen um 5% sinkt).

Kij= σij

si·sj

So lässt sich eine Tabelle mit den Korrelationen zwischen allen Merkmalen des Merkmalsvektors erstellen, die angibt, wie diese voneinander abhängen könnten. Oft sind die Zahlen hierbei etwas unübersichtlich, weswegen stattdessen ein Dichteplot (ein Raster mit unterschiedlich hellen Quadraten) verwendet wird.

Möchte man nur die Stärke der Korrelation analysieren und nicht die Art (positiv oder negativ), so kann als Basis der Betrag des Korrelationskoeffizienten verwendet werden.

Weitere Zusammenfassungen von Malte Jakob gibt es unter i-malte.jimdofree.com

6.2 Perzeptron

Das Perzeptron ist ein Agent, der zwei Mengen unterscheiden kann, die linear separabel sind.

Definition 6.4: Lineare Separabilität

Der Wertθ wird als Schwelle bezeichnet.

EinPerzeptron ist ein Agent, der Mengen in zwei Merkmale unterteilen kann, die linear separabel sind.

Definition 6.5: Perzeptron

Seiw= (w1, . . . , wn)Rn ein Gewichtsvektor undx∈Rn ein Eingabevektor. EinPerzeptron stellt eine Funktion P:Rn→ {0,1}dar, die Folgender Regel entspricht:

P(x) =

1 falls w∗x=Pn

i=1wixi>0 0 sonst

Wie wir an der Definition des Perzeptrons sehen, kann dies lediglich Klassen unterscheiden, die durch eine Ursprungsebene getrennt werden. Lineare Separabilität lässt allerdings auch affin lineare Trennebenen zu. Wie dieses Problem einfach behoben werden kann, wird später erklärt. Zuerst betrachten wir jedoch die Funktion, mit der das Perzeptron die Werte auswlernt.

Die Lernfunktion initialisiert zuerst den Vektor w mit beliebigen reellen Zahlen ungleich 0. Dann führt er für alle Elemente aus der Menge M+ das Skalarprodukt aus. Ist das Ergebnis kleiner oder Gleich null, so addiert er den entsprechenden Vektor x auf das bisherige w. Dasselbe geschieht bei M, nur dass auf wx < 0 geprüft wird und x entsprechend abgezogen wird, wenn dies der Fall ist. Dieser Vorgang wird so lange wiederholt, bis alle Werte aus den beiden Mengen korrekt klassifiziert werden. Fertig.

Die Ersetzungen vonw=w+xundw=w−xführen innerhalb der einzelnen Mengen immer dazu, dass

Die Ersetzungen vonw=w+xundw=w−xführen innerhalb der einzelnen Mengen immer dazu, dass

Im Dokument Künstliche Intelligenz (Seite 20-0)