• Keine Ergebnisse gefunden

Prädikatenlogik erster Stufe

Im Dokument Künstliche Intelligenz (Seite 18-21)

Da es sich bei der Aussagenlogik um eine binäre Logik handelt (bei der man also für jede Aussage eine Variable benötigt, die angibt, ob sie wahr oder falsch ist), muss es für jeden Sachverhalt eine eigene Variable geben. Ebenso können Beziehungen zwischen Variablen (z.B. Person A steht weiter rechts als Person B) nur in einer weiteren Variable ausgedrückt werden (z.B. C, sodass C (A∧B)). Dies führt zu einer explosionsartigen Erhöhung an Variablen.

Um dies zu vermeiden, gibt es die Prädikatenlogik erster Stufe. Diese funktionieren ähnlich zu Funktio-nen, denn sie akzeptieren eine vorgegebene Anzahl an Argumenten, die sie dann auswerten. So lassen sich verschiedenste Sachverhalte sehr viel kompakter darstellen als durch die Aussagenlogik.

Für diese Funktionen können auch gewisse Regeln gelten, wie z.B. die Symmetrie (f(x, y) =f(y, x)) Wie von Kurt Gödel bewiesen ist die Prädikatenlogik erster Stufe vollständig, was bedeutet, dass sich durch dieses Kalkül jede wahre Aussage beweisen lässt. Allerdings hat diese Prädikatenlogik erster Stufe ihre Grenzen: Keine ihrer Formeln kann eine Aussage über den Wahrheitsgehalt anderer Formeln treffen.

Höhere Stufen der Prädikatenlogik sind leider nicht vollständig. Zudem ist die Prädikatenlogik erster Stufe nicht in der Lage, zu beweisen, dass eine Aussage falsch ist – sie kann nur beweisen, dass eine Aussage wahr ist. Zu guter Letzt gibt es einige Aussagen, die sich innerhalb der Prädikatenlogik selbst widersprechen können.

4 Schließen mit Unsicherheit

Ein letztes Problem der Prädikatenlogik ist ihre binäre Natur: Dinge sind entweder wahr oder falsch – Ausnahmen, wie z.B. ein Pinguin, der zwar ein Vogel ist, aber nicht fliegen kann, lassen sich nicht mit der bestehenden Wissensbasis vereinen, da sich dann zwei widersprüchliche Aussagen ableiten lassen.

Um diese monotone „es stimmt oder es stimmt nicht“-Logik zu ersetzen, muss mit Wahrscheinlichkei-ten betrachtet werden; Ein Ergebnis ist selWahrscheinlichkei-ten definitiv wahr oder falsch, sondern es hat nur eine gewisse Wahrscheinlichkeit, dass es richtig ist. So ist auch genug Spielraum für Ausnahmen.

Bevor jedoch mit den Wahrscheinlichkeiten gerechnet werden kann, müssen einige grundlegende Rechen-regeln geklärt werden.

4.1 Rechnen mit Wahrscheinlichkeiten

Anstelle von binären Wahrscheinlichkeiten gibt es nunZufallsvariablen, die einen gewissen Wert annehmen können. Dieses Annehmen eines Wertes wird auchEreignis genannt.

Definition 4.1: Ereignisse

SeiΩdie zu einem Versuch gehörende endliche Menge von Ereignissen. Jedes Ereignisω∈Ωsteht für einen möglichen Ausgang des Versuchs. Schließen sich die Ergebnisseωi Ωgegenseitig aus, decken aber alle möglichen Ausgänge des Versuchs ab, so werden sie Elementarereignissegenannt.

So sind die Elementarereignisse für einmaliges Würfeln mit einem herkömmlichen sechsseitigen WürfelΩ = {1,2,3,4,5,6}. Andere Ereignisse, wie das Würfeln einer geraden Zahl ({2,4,6}) oder das Würfeln einer Zahl, die kleiner ist als fünf ({1,2,3,4}), sind keine Elementarereignisse, da sie sich nicht gegenseitig ausschließen, also eine Vereinigung der beiden Ereignisse nicht zu einer leeren Menge führt:{2,4,6}∩{1,2,3,4}={2,4} ̸=

.

Irgendein Ereignis wird es immer geben, daher ist Ω das sichere Ereignis; Da im Umkehrschluss nicht nichts passieren kann, istdasunmögliche Ereignis

Anstelle vonA∩B kann auchA∧B geschrieben werden, da giltx∈A∩B⇔x∈A∧x∈B

Zufallsvariablen können entweder diskret sein, was bedeutet, dass es zwischen zwei festgelegten Werten kei-nen weiteren Wert gibt, oder sie sind stetig, was bedeutet, dass es, wie bei reellen Zahlen auch, zwischen zwei beliebigen Werten immer einen weiteren gibt. Bei letzteren ist die Anzahl der Möglichkeiten somit unendlich – diese Möglichkeit soll hier nicht behandelt werden; Wir gehen stattdessen von diskreten Zufallsvariablen mit endlichen Möglichkeiten aus.

So lässt sich bei gleich großen Chancen (je|1|) mit der Laplace-Formel für jedes Ereignis eine Wahrschein-lichkeit berechnen:

Definition 4.2: Laplace-Wahrscheinlichkeit

SeiΩ =1, ω2, . . . , ωn} endlich. Es sei kein Elementarereignis bevorzugt, d.h. man setzt Symmetrie bezüglich der Häufigkeit des Auftretens aller Elementarereignisse voraus. DieWahrscheinlichkeitP(A) des EreignissesAist dann

P(A) =|A|

|| =Anzahl der für A günstigen Fälle Anzahl der möglichen Fälle Aus dieser Definition lassen sich einige Regeln ableiten:

1. P(Ω) = 1

2. P() = 0

3. Für paarweise unvereinbare EreignisseAundB giltP(A∨B) =P(A) +P(B) 4. Für zwei zueinander Komplementäre EreignisseAund¬AgiltP(A) +P(¬A) = 1 5. Für beliebige EreignisseAundB giltP(A∨B) =P(A) +P(B)−P(A∧B) 6. FürA⊆B giltP(A)≤P(B)

7. SindA1, . . . , An die Elementarereignisse, so giltPn

i=1P(Ai) = 1 (Normierungsbedingung)

Zudem gibt es eineWahrscheinlichkeitsverteilungverschiedener Variablen, die angeben, wie wahrscheinlich die Kombination verschiedener Variablen ist:

P(A, B) = (P(A, B), P(A,¬B), P(¬A, B), P(¬A,¬B)) dieser Vektor kann auch als Matrix angegeben werden:

P(A, B) B

w f

A w P(A, B) P(A,¬B) f P(¬A, B) P(¬A,¬B)

Diese Wahrscheinlichkeitsverteilung kann insgesamt d Variablen bzw. Dimensionen X1, . . . , Xd haben, die jeweilsnverschiedene Werte annehmen können. Somit enthält die Verteilung Werte vonP(X1=x1, . . . , Xd= xd)wobeix1, . . . , xd jeweils nWerte annehmen können.

Dies resultiert in einerd-dimensionalen Matrix, die insgesamtndElemente beinhaltet. Einer derndWerte ist jedoch redundant, da er immer über die Werte der anderennund der Normierungsbedingung berechnet werden kann. Somit wird die Verteilung bereits durchnd1 Werte eindeutig charakterisiert.

4.1.1 Bedingte Wahrscheinlichkeiten

Manche Wahrscheinlichkeiten weisen einen statistischen Zusammenhang auf (z.B. ist die Wahrscheinlichkeit zu schnell zu fahren bei einem Studenten höher, als bei einem nicht-Studenten).

Definition 4.3: Bedingte Wahrscheinlichkeit

Für zwei EreignisseAundB ist die Wahrscheinlichkeit fürAunter der BedingungB definiert durch P(A|B) =P(A∧B)

P(B)

Da wir die Berechnung fürP jeweils kennen, kann die Formel auch vereinfacht werden:

P(A|B) =

|AB|

||

|B|

||

= |A∧B|

|| · ||

|B| =|A∧B|

|B|

Definition 4.4: Unabhängige Ereignisse Gilt für zwei Ereignisse AundB

P(A|B) =P(A) so nennt man diese Ereignisse unabhängig.

Aus dieser Definition folgt zusätzlich

P(A∧B) =P(A)·P(B)

Weitere Zusammenfassungen von Malte Jakob gibt es unter i-malte.jimdofree.com

Kettenregel

Löst man die Formel der bedingten Wahrscheinlichkeit nachP(A∧B)auf, so erhält man die Produktregel:

P(A∧B) =P(A|B)·P(B)

Mit diesem Wissen können wir nun Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen mit beliebig vielen Ereignissen in einzelne bedigte Wahrscheinlichkeiten Aufspalten:

P(X1, . . . , Xn)=P(Xn|X1, . . . , Xn1)·P(X1, . . . , Xn1)

=P(Xn|X1, . . . , Xn1)·P(Xn1|X1, . . . , Xn2)·P(X1, . . . , Xn2)

=P(Xn|X1, . . . , Xn1)·P(Xn1|X1, . . . , Xn2)· · · · ·P(X2|X1)·P(X1)

=Qn

i=1P(Xi|X1, . . . , Xi1) Dies wird auch dieKettenregel genannt

Marginalisierung

Bei binären Variablen besteht die Möglichkeit, eine Variable aus der Gleichung herauszurechnen, indem man über ihre beiden Werte aufsummiert:

P(A) =P((A∧B)∨(A∧ ¬B)) =P(A∧B) +P(A∧ ¬B)

Allgemein gesprochen lässt sich aus einer beliebigen Anzahl aus Variablen eine Variable eliminieren, indem man über all ihre Werte aufsummiert:

P(X1=x1, . . . , Xd1=xd1) =X

xd

P(X1=x1, . . . , Xd1=xd1, Xd=xd)

Die über diesen, als Marginalisierung bezeichneten Prozess, entstehende Verteilung heißtRandverteilung und entspricht der Projektion eines Körpers auf seine Seitenfläche – es geht also eine Dimension verloren.

Eine Marginalisierung wird z.B. auch immer vorgenommen, wenn man eine Vier-Felder-Matrix erstellt.

Durch diese Marginalisierung lassen sich schnell und einfach fehlende Werte für die Berechnung von be-dingten Wahrscheinlichkeiten ermitteln.

Die Bayes-Formel

Hat man nun eine bedingte WahrscheinlichkeitP(A|B)berechnet, möchte aber eigentlich die Wahrschein-lichkeitP(B|A), so kann man diese Bedingungen mithilfe der Bayes-Formel umkehren:

P(A|B) = P(B|A)·P(A) P(B)

Die umgekehrten bedingten Wahrscheinlichkeiten können unter Umständen stark voneinander abweichen.

Im Dokument Künstliche Intelligenz (Seite 18-21)