Komponenten und Cliquen - Methoden der Sozialstrukturforschung

1.Weiterhin geh¨ort zur Beschreibung eines Graphen eine Angabe, ob der Graph in Komponenten zerf¨allt und aus wie vielen Komponenten er be-steht. Zur Definition von Komponenten beziehen wir uns zun¨achst auf einen ungerichteten Graphen mit der Knotenmenge {ω1, . . . , ωn}. Dann ist mit dem BegriffWeg eine Folge von Knoteni0, . . . , imgemeint, so dass es zwischen je zwei aufeinander folgenden Knoten eine Kante gibt.⁶ Man sagt auch, dass ein solcher Weg vom Knoteni0 zum Knotenimf¨uhrt; die

5Um derartige statistische Berechnungen zu erleichtern, erzeugen die meisten TDA-Befehle zur Analyse von Graphen Ausgabefiles, die unmittelbar zur Erzeugung einer normalen Datenmatrix verwendet werden k¨onnen, an die sich statistische Auswertungen anschließen k¨onnen.

6Bei dieser allgemeinen Definition ist also zugelassen, dass dieselbe Kante innerhalb eines Wegs mehrfach auftreten kann. Wenn dies ausgeschlossen werden soll, sprechen wir von Wegen ohne Kantenwiederholungen.

Anzahl der Kanten, alsom, wirdL¨ange des Weges genannt. Im allgemei-nen kann es zwischen jeweils zwei Knoten eines ungerichteten Graphen einen, mehrere oder auch keinen Weg geben. Darauf bezieht sich der Be-griff einer Komponente: Eine Komponente eines ungerichteten Graphen ist ein maximaler Subgraph, bei dem f¨ur jeweils zwei Knoten gilt, dass sie durch mindestens einen Weg miteinander verbunden sind (oder anders for-muliert: jeder Knoten ist von jedem anderen Knoten aus erreichbar). Ein ungerichteter Graph, der nur aus einer einzigen Komponente besteht, wird zusammenh¨angend genannt. Als Beispiel kann man an den in Abschnitt 1.2.1 (S. 15) angegebenen Graphen danken, der aus 5 Knoten und 2 Kan-ten besteht. Dieser Graph ist nicht zusammenh¨angend, sondern zerf¨allt in 3 Komponenten.

2.Diese Definition gilt nur f¨ur ungerichtete Graphen. Bei gerichteten Gra-phen, wie in unserem Beispiel, kann man zun¨achst in zwei unterschiedlichen Weisen von Wegen sprechen:

a) Eine Folge von Knoten i0, . . . , im wird ein (gerichteter) Weg von i0

nach im genannt, wenn jeweils zwei aufeinander folgende Knoten ik

undik+1durch eine gerichtete Kante vonik nachik+1verbunden sind.

b) Eine Folge von Knoteni0, . . . , im wird ein Semi-Weg von i0 nachim

genannt, wenn jeweils zwei aufeinander folgende Knoten ik undik+1

durch eine Kante verbunden sind, die vonik nach ik+1 oder vonik+1

nach ik f¨uhrt.

Dementsprechend unterscheidet man bei gerichteten Graphen zwischen zwei Arten von Komponenten: EineKomponente ist ein maximaler Sub-graph, bei dem jeweils zwei Knoten durch mindestens einen Weg verbunden sind (oder anders formuliert: jeder Knoten ist von jedem anderen Knoten aus durch einen gerichteten Weg erreichbar); dagegen spricht man von ei-nerSemi-Komponente, wenn nur gefordert wird, dass jeweils zwei Knoten durch mindestens einen Semi-Weg verbunden sind. Ein gerichteter Graph, der nur aus einer einzigen Komponente besteht, wird zusammenh¨angend oder auchunzerlegbar genannt.

3.Anhand von Abb. 2.3.1 erkennt man bereits, dass in unserem Beispiel der Graph nur aus einer Semi-Komponente besteht, allerdings nur dann, wenn man nicht zwischen

”positiven“ und

”negativen“ Beziehungen unter-scheidet. Unterscheidet man zwischen den beiden Arten von Beziehungen, findet man, dass nur der erste Graph zusammenh¨angend ist, der zweite da-gegen aus 5 unterschiedlichen Komponenten besteht. Die praktischen Be-rechnungen k¨onnen mit demgcon-Befehl durchgef¨uhrt werden. Box 3.3.1 zeigt das Skript. Im Unterschied zur Vorgehensweise in Box 3.2.1 wird jetzt ein ungerichteter Multigraph definiert. Dann kann f¨ur jeden der bei-den Graphen, aus bei-denen der Multigraph besteht, mit demgcon-Befehl ein Ausgabefile erzeugt werden, aus dem man ersehen kann, ob und ggf. wie

38 3 METHODEN DER DARSTELLUNG UND ANALYSE

Box 3.3.1 Skript zur Berechnung von Semi-Komponenten.

nvar( # Befehl zum Erzeugen von Variablen dfile = sm1.dat, # Name des Datenfiles

I = c1, # Variable I wird aus Spalte 1 gebildet J = c2, # Variable J wird aus Spalte 2 gebildet V1 = if eq(c3,1) then 1 else -1, # V1 ist 1 wenn c3 = 1 ist V2 = if eq(c3,0) then 1 else -1, # V2 ist 1 wenn c3 = 0 ist );

gdd( # Befehl zum Erzeugen eines Graphen opt = 1, # Option 1: Kantenliste

gt = 2, # Graphtyp 2: ungerichtet und bewertet ) = I,J,V1,V2; # Variablen fuer zwei Kantenlisten gcon( # Berechnung fuer den ersten Graphen

gn = 1, # Angabe der Nummer des Graphen ) = gcon1.dat; # Angabe eines Ausgabefiles

gcon( # Berechnung fuer den zweiten Graphen gn = 2, # Angabe der Nummer des Graphen ) = gcon2.dat; # Angabe eines Ausgabefiles

gcon1.dat gcon2.dat

der Graph in Komponenten zerf¨allt. Diese Files sind ebenfalls in der Box angegeben. In der ersten Spalte befindet sich die Nummer der Komponen-te. Dann folgt die Anzahl der Knoten, aus denen die Komponente besteht.

3.3 KOMPONENTEN UND CLIQUEN 39

Box 3.3.2 Skript zur Berechnung von Komponenten.

nvar( # Befehl zum Erzeugen von Variablen dfile = sm1.dat, # Name des Datenfiles

gdd( # Befehl zum Erzeugen eines Graphen opt = 1, # Option 1: Kantenliste

gt = 4, # Graphtyp 4: gerichtet und bewertet ) = I,J,V1,V2; # Variablen fuer zwei Kantenlisten gdcon( # Berechnung fuer den ersten Graphen

gn = 1, # Angabe der Nummer des Graphen opt = 3, # Ausgabe als Knotenliste ) = gdcon1.dat; # Angabe eines Ausgabefiles

gdcon( # Berechnung fuer den zweiten Graphen gn = 2, # Angabe der Nummer des Graphen opt = 3, # Ausgabe als Knotenliste ) = gdcon2.dat; # Angabe eines Ausgabefiles

gdcon1.dat gdcon2.dat

In der dritten und vierten Spalte stehen die Knotennummern.⁷ Aus dem

7In den meisten Ausgabefiles gibt es f¨ur Knotennummern zwei Spalten, da TDA zwi-schen internen und externen Knotennummern unterscheidet. Externe Knotennummern sind diejenigen, die in einem Datenfile verwendet werden, um eine Kantenliste zu defi-nieren. Sie brauchen weder mit 1 zu beginnen noch m¨ussen sie fortlaufend sein. Interne

zweiten Ausgabefile (gcon2.dat) erkennt man, dass der zweite Graph in 5 Komponenten zerf¨allt. 20 der insgesamt 25 Knoten geh¨oren zur ersten Komponente, die Knoten 5 und 24 bilden die zweite Komponente, und die restlichen drei Komponenten bestehen aus jeweils einem Knoten.

4.F¨ur die Berechnung von Komponenten gerichteter Graphen stelltTDA den gdcon-Befehl zur Verf¨ugung. Box 3.3.2 zeigt das Skript, das wir zur Berechnung verwendet haben. Wiederum enth¨alt die Box auch die beiden Ausgabefiles; die erste Spalte gibt die Nummer der Komponente an, dann folgenden die interne und externe Knotennummer. Man erkennt, dass es im ersten Graphen 4 Komponenten gibt, wobei jedoch drei Komponenten nur aus jeweils einem Knoten bestehen: 5, 18 und 19.⁸ Alle ¨ubrigen Kno-ten geh¨oren einer gemeinsamen Komponente an, d.h. alle M¨adchen, die zu dieser Komponente geh¨oren, sind durch mindestens einen”positiven“ Weg miteinander verbunden. Der zweite Graph zerf¨allt in 24 unterschiedliche Komponenten. Nur zwei M¨adchen (19 und 23) geh¨oren zu einer gemein-samen Komponente. Wie Tabelle 3.1.1 zeigt, haben diese beiden M¨adchen eine wechselseitige

”negative“ Beziehung.

5.Wie bereits am Ende von Abschnitt 2.3 angedeutet wurde, wird bei der Analyse sozialer Netzwerke oft die Absicht verfolgt, die Knoten eines Gra-phen in irgendeiner Weise in

”zusammengeh¨orige Teilgruppen“ (” signifi-cant clusterings“) einzuteilen. Da dieser Absicht meistens keine bestimmte Idee zugrunde liegt, kann sie auf fast beliebig viele unterschiedliche Weisen verfolgt werden, und dementsprechend vielf¨altig sind die in der Literatur vorgeschlagenen Methoden. Wir beschr¨anken uns hier zur Erg¨anzung der Betrachtung von Komponenten auf den Begriff einerClique. Bei einem un-gerichteten Graphen ist damit ein maximaler Teilgraph gemeint, in dem jeweils zwei Knoten direkt durch eine Kante miteinander verbunden sind.⁹ Bei gerichteten Graphen kann man wiederum zwei Varianten unterschei-den: In einer (echten) Clique sind jeweils zwei Knoten in beiden Richtungen durch eine gerichtete Kante verbunden; in Semi-Cliquen sind jeweils zwei Knoten durch mindestens eine gerichtete Kante verbunden.

6.Zur Illustration berechnen wir die Semi-Cliquen im ersten Graphen, der die

”positiven“ Beziehungen erfasst. Box 3.3.3 zeigt das Skript, das zur Berechnung verwendet wurde. Nach dem Einlesen der Daten werden diejenigen Kanten ausgew¨ahlt, bei denen die Kantenbewertung 1 ist, und

Knotennummern entstehen durch eine Abbildung der externen Knotennummern auf die nat¨urlichen Zahlen 1, . . . , n, wobeindie Anzahl der Knoten des Graphen ist. Wenn man, wie in unserem Beispiel, bereits zur Definition der Kantenliste bei 1 beginnen-de fortlaufenbeginnen-de Nummern w¨ahlt, sind interne und externe Knotennummern nat¨urlich identisch.

8Es sind dies diejenigen Knoten, bei denen der Eingangs- oder der Ausgangsgrad Null ist. Solche Knoten bilden in einem gerichteten Graphen immer isolierte Komponenten.

9Oft wird zus¨atzlich gefordert, dass eine Clique mindestens drei Mitglieder hat.

Box 3.3.3 Skript zur Berechnung von Semi-Cliquen.

nvar( # Befehl zum Erzeugen von Variablen dfile = sm1.dat, # Name des Datenfiles

I = c1, # Variable I wird aus Spalte 1 gebildet J = c2, # Variable J wird aus Spalte 2 gebildet V = c3, # Variable V wird aus Spalte 3 gebildet );

tsel = V[1]; # Auswahl der Kanten mit dem Wert 1 gdd( # Definition eines ungericheten

opt = 1, # bewerteten Graphen gt = 2,

) = I,J,V;

gcliq( # Berechnung von Cliquen

min = 3, # Mindestgroesse

sort, # Sortieren der Knotennummern ) = cliq.dat; # Ausgabefile

K C N Mitgliedsnummern

diese Kanten werden dann verwendet, um einen ungerichteten Graphen zu definieren. Schließlich werden mit demgcliq-Befehl die Semi-Cliquen berechnet und das Ergebnis in das Ausgabefilecliq.datgeschrieben. Im unteren Teil der Box sieht man den Inhalt dieses Files. Jede Zeile bezieht sich auf eine Semi-Clique. In Spalte 1 findet man die Nummer der Kom-ponente, zu der die Semi-Clique geh¨ort (wie bereits besprochen wurde, besteht der Graph 1 nur aus einer Komponente, die mehr als einen Kno-ten umfasst). Dann folgt in Spalte 2 die laufende Nummer der Semi-Clique und in Spalte 3 die Anzahl ihrer Mitglieder. Schließlich werden in den rest-lichen Spalten die Knotennummern der Cliquenmitglieder angegeben. Man erkennt also, dass es in diesem Graph 18 Semi-Cliquen gibt; 4 von ihnen haben vier, die ¨ubrigen jeweils drei Mitglieder. Man erkennt auch, dass sich

42 3 METHODEN DER DARSTELLUNG UND ANALYSE

Semi-Cliquen (und im allgemeinen auch Cliquen) ¨uberschneiden k¨onnen.

Z.B. geh¨ort der Knoten Nr. 5 zu 9 unterschiedlichen Semi-Cliquen.

Im Dokument Methoden der Sozialstrukturforschung (Seite 18-21)