Bayes’sche Netze - Hochschule Wismar Fachbereich Wirtschaft

Bayes’sche Netze sind gerichtete, azyklische Graphen. Jeder Knoten steht f¨ur eine Variable, die mit einem Wahrscheinlichkeitswert behaftet ist. Die Kanten modellie-ren die Abh¨angigkeiten zwischen denselben. Ein klassisches Bayes’sches Netz enth¨alt nur diskrete Variablen, was bedeutet, daß jeder Knoten eine Menge an Zust¨anden besitzt, die er einnehmen kann. Des Weiteren ist jedem Knoten eine Tabelle zu-geordnet, welche die bedingten Wahrscheinlichkeiten f¨ur einen seiner Zust¨ande in Abh¨angigkeit von den Zust¨anden seiner Elternknoten enth¨alt.

Diese Wahrscheinlichkeitstabelle kann f¨ur einen Knoten X auch als Funktion ψ:Eltern(X)∪X →[0,1]

betrachtet werden. Das Bayes’sche Netz wird durch seine Struktur und die Wahr-scheinlichkeitstabelle komplett bestimmt.

Abbildung 3.3 zeigt exemplarisch ein Bayes’sches Netz mit f¨unf Knoten. Es wird ein Alarm auf einer Krankenhausstation modelliert und ob dann eine Schwester oder ein Arzt eintreffen. Die Knoten enthalten nur boolsche Variablen (W f¨ur wahr und F f¨ur falsch), haben also nur zwei Zust¨ande. Aus Gr¨unden der ¨Ubersichtlichkeit wurden die Wahrscheinlichkeiten f¨ur den Zustandfalsch in den Tabellen weggelas-sen, da gilt: P(X =F|Eltern(X)) = 1−P(X = W|Eltern(X)) . Das Netz l¨aßt

Abbildung 3.3: Beispiel eines Bayes’schen Netzes sich folgendermaßen interpretieren:

Ein Sensor versagt mit einer h¨oheren Wahrscheinlichkeit (0,002), als daß es zu ei-nem Notfall (Herzversagen) kommt (Wahrscheinlichkeit 0,001).

Die Ausl¨osung des Alarms h¨angt davon ab, ob es ein Herz- oder Sensorversagen gab.

Die Wahrscheinlichkeit f¨ur einen Alarm nur aufgrund eines Herzversagens ist dabei h¨oher (0,94) als nur auf Grund eines Sensorversagens (0,29). Bei einem Sensorfehler wird der Alarm demnach mit 71% Wahrscheinlichkeit nicht ausgel¨ost. In ¨außerst seltenen F¨allen treten Fehlalarme ohne Herz- oder Sensorversagen auf (0,001).

Bei einem Alarm erscheint immer eine Schwester (Wahrscheinlichkeit 1,00), dies ist eine h¨ohere Wahrscheinlichkeit, als das Erscheinen eines Arztes (0,80). Allerdings kommt eine Schwester auch ohne Alarm f¨unfmal ¨ofter vorbei als ein Arzt (Schwe-ster: 0,05; Arzt: 0,01).

Insofern der Zustand eines Knotens bekannt ist, kann daraus auf die Wahrschein-lichkeiten f¨ur die Zust¨ande der anderen Knoten geschlossen werden. Diese Zustands-kenntnis nennt man Evidenz, den Schlußvorgang Inferenz. In Bezug auf Abb. 3.3 bedeutet dies, daß errechnet werden kann, mit welcher Wahrscheinlichkeit ein Herz-versagen stattfand, wenn ein Arzt erscheint. F¨ur den Fall, daß die Evidenz des Endknotens bekannt ist und die dazu erkl¨arenden Gewichtungen der anderen Kno-ten berechnet werden sollen, ist diese Eigenschaft unabdingbar.

Man unterscheidet anhand der Struktur zwischen einfachen und komplexen Bayes’schen Netzen, jedoch ist diese Einteilung eher subjektiver Natur. Komplexe Netze klassi-fizieren erwiesenermaßen viel besser als einfache, haben aber den Nachteil, daß sie langsam lernen und zum ¨Ubertrainieren (Auswendiglernen) neigen.

3.6.1 Bayestheorem

Die Grundlage f¨ur Bayes’sche Netze ist das Bayestheorem, welches nach dem engli-schen Mathematiker Thomas Bayes benannt wurde. F¨ur zwei Ereignisse lautet die Formel (vgl. [Cleve & L¨ammel, 2004] S. 81):

P(A|B) = P(B|A)∗P(A) P(B)

Dabei ist P(B|A) die Wahrscheinlichkeit f¨ur das EreignisB unter der Bedingung, daß A auftritt. F¨ur endlich viele Ereignisse l¨aßt sich das Bayestheorem unter Ver-wendung der Definition f¨ur bedingte Wahrscheinlichkeiten formulieren (P(A|B) =

P(A∩B)

P(B) ). Sei A_i mit i= 1, . . . , n eine Zerlegung des Ereignisraumes in disjunkte Ereignisse, so gilt:

P(Ai|B) =P(B|Ai)∗P(Ai)

P(B) = P(B|Ai)∗P(Ai) Pn

j=1P(B|A_i)∗P(Ai)

3.6.2 Naive Bayes

Eine Sonderform Bayes’scher Netze ist das Naive Bayes Verfahren. Es basiert auf der Grundannahme, daß jedes Attribut lediglich vom Klassenattribut abh¨angt.

p(C|F1, . . . , Fn)

Insofern die Zahl der Attribute n sehr hoch ist, oder ein Attribut sehr viele Aus-pr¨agungen annehmen kann, ist es problematisch, dieses Modell mit Wahrheitstabel-len zu beschreiben. Unter Verwendung des Bayestheorems (s. 3.6.1) gilt:

p(C|F1, . . . , Fn) = p(C)p(F1, . . . , Fn|C) p(F1, . . . , Fn)

Hierbei ist lediglich der Z¨ahler des Bruches von Interesse, da der Nenner nicht von C abh¨angt und aufgrund der Tatsache, daß die Werte der Attribute Fi bekannt sind, konstant ist. Der Z¨ahler kann unter Nutzung der Definiton f¨ur die bedingte Wahrscheinlichkeit umformuliert werden:

p(C, F1, . . . , Fn) = p(C)p(F1, . . . , Fn|C)

= p(C)p(F1|C)p(F2, . . . , Fn|C, F1)

= p(C)p(F1|C)p(F2|C, F1)p(F3, . . . , F_n|C, F1, F2) usw. . . .

Hier kommt nun die Annahme hinzu, daß alle AttributeFivoneinander unabh¨angig sind. Dies ist in der Realit¨at relativ selten, daher ist diese Annahme ”naiv“, was zu dem Namen der Methode f¨uhrte. Trotzdem erzielen Naive Bayes Klassifikatoren in der Praxis h¨aufig gute Ergebnisse, unter der Bedingung, daß die Attribute nicht zu stark korreliert sind. F¨ur jedes Merkmal Fj, unter der Bedingung, daß j 6= i bedeutet dies, daß:

p(Fi|C, Fj) =p(Fi|C) Hieraus ergibt sich die Gesamtformel:

p(C, F1, . . . , F_n) =p(C)p(F1|C)p(F2|C)p(F3|C). . .=p(C)

i=1

p(Fi|C).

Unter der Annahme der Attributunabh¨angigkeit kann die Wahrscheinlichkeitsver-teilung ¨uber der KlasseC demnach wie folgt formuliert werden:

p(C|F1, . . . , F_n) = 1 Zp(C)

i=1

p(Fi|C)

Hierbei istZ ein Faktor zur Skalierung, der lediglich auf den Werten der Attribute F1, . . . , F_n beruht. F¨ur den Fall, daß alle Auspr¨agungen der Attribute bekannt sind, istZ konstant.

Der Klassifikator arbeitet auf Basis des sogenanntenMaximum A Posteriori Prin-zips (kurz:MAP), welches stehts die wahrscheinlichste Hypothese ausw¨ahlt.

Bei zu starker Attributabh¨angigkeit gibt es eine Erweiterung des Klassifikationsver-fahrens in Form eines Baumes zwischen den Attributen. Dieser wird Baumerweiter-ter naiver Bayes-Klassifikator genannt [Wikimedia Foundation].

Ein wesentlicher Grund f¨ur die Anwendung des Naive Bayes Verfahrens im Rahmen dieser Arbeit ist neben den guten Ergebnissen ebenso die hohe Geschwindigkeit des Klassifikators.

3.6.3 Bayes’sche Netze versus Neuronale Netze

Aufbau und Methoden beider Netztypen erscheinen ¨ahnlich, jedoch existieren Un-terschiede teils gr¨oßerer Natur, die im Folgenden kurz betrachtet werden sollen (nach [Russell & Norvig, 1995], [Graf, 2005]).

Zum einen sind Bayes’sche Netze

”offen“, man kann die Wahrheitstabellen der ein-zelnen Knoten betrachten und gegebenenfalls anpassen. Es ist erkennbar, welche Werte bestimmtes Netzverhalten erzeugen. Neuronale Netze dagegen repr¨asentieren ihr gelerntes Wissen als Ganzes und lassen keine R¨uckschl¨usse durch die Betrach-tung einzelner Neuronen zu.

Andererseits ist die Inferenz bei Neuronalen Netzen deutlich schneller als bei Bayes’-schen Netzen. Daf¨ur sind entsprechende Bayes’sche Netze teils erheblich kleiner als die entsprechenden neuronalen Varianten.

Des Weiteren kann man Bayes’sche Netze bereits vor Beginn der Lernphase mit sinn-vollen Vorgaben f¨ur die Wahrheitstabellen f¨ullen und so den Lernprozeß abk¨urzen.

Dies bedeutet, daß ein solches Netz bereits im untrainierten Zustand brauchbare Resultate liefern kann. In [Younes, 1998] wurde die Eignung Bayes’scher Netze f¨ur Echtzeitanwendungen hinsichtlich ihrer Inferenzgeschwindigkeit untersucht und f¨ur gegeben erachtet.

Bei Neuronalen Netzen ist die Inferenzrichtung durch die Ein- und Ausgabeneuro-nen festgelegt, w¨ahrend die Bayes’schen Netze Inferenz in jede Richtung durchf¨uhren k¨onnen.

Auch k¨onnen Bayes’sche Netze eine feiner strukturierte Ausgabe erzeugen, da sie f¨ur ihre ggf. mehreren Ausgabeknoten eine zweidimensionale Ausgabe haben (Zu-stand plus Wahrscheinlichkeiten f¨ur jeden Zu(Zu-stand).

Im Hinblick auf andere Arbeiten ([Picard, 2001], [Kort, 2001], [Picard, 1998]) und darauf, daß im Projekt bereits gute Erfahrungen mit Bayes’schen Netzen gesammelt wurden ([Graf, 2005], [Morgenstern, 2005]), werden diese somit als Klassifikations-algorithmus bevorzugt. Auch wurde in den Tests, in denen Weka-eigene Mittel f¨ur Neuronale Netze eingesetzt wurden (MultiLayerPerceptron), eine unverh¨altnism¨aßig hohe Zeitdauer f¨ur das Trainieren des Netzes festgestellt. Die Ergebnisse desselben lagen indessen nicht wesentlich ¨uber denen des Bayes’schen Netzes oder des J48 Entscheidungsbaumes.

Im Dokument Hochschule Wismar Fachbereich Wirtschaft (Seite 29-33)