• Keine Ergebnisse gefunden

5 Ans¨ atze der Clusteranalyse

N/A
N/A
Protected

Academic year: 2022

Aktie "5 Ans¨ atze der Clusteranalyse"

Copied!
6
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

G. Rohwer, C. Dudel Wintersemester 2010/11

Methoden der Datenrepr¨ asentation und Klassifikation

Kapitel 5: Ans¨ atze der Clusteranalyse

5 Ans¨ atze der Clusteranalyse

5.1 Unterschiedliche Ans¨atze

1.Wie k¨onnen Cluster definiert werden?

2.Abst¨ande und H¨aufigkeiten 3.Eine unvollst¨andige ¨Ubersicht 5.2 Partitionierende Verfahren

1.Ans¨atze mit Clusterzentren 2.Ans¨atze ohne Clusterzentren 3.Rechentechnische Probleme 4.Illustration mit artifiziellen Daten 5.Beispiele mit Berufsstrukturdaten 5.3 Vergleiche von Partitionen

1.Ein einfacher Index 2.Substitutionsmetriken

In diesem Kapitel beginnen wir mit der Diskussion von Methoden der Clu- steranalyse bzw. Klassifikation. Zun¨achst besch¨aftigen wir uns mit der Frage, wie Cluster definiert werden k¨onnen, und geben eine kurze ¨Uber- sicht ¨uber unterschiedliche Verfahren der Clusteranalyse. Dann werden partitionierende Verfahren besprochen.

Folgende Notationen werden verwendet: N ={1, . . . , n}repr¨asentiert die Menge der Objekte, die von beliebiger Art sein k¨onnen. Es wird angenom- men, dass eine AbstandsmatrixD= (dij) gegeben ist, die f¨ur jeweils zwei Elementei, j∈ N einen Abstanddij angibt. F¨ur Teilmengen von N, die als Cluster betrachtet werden k¨onnen, wird meistens der BuchstabeC, f¨ur Partitionen wird der BuchstabeP verwendet.

5.1 Unterschiedliche Ans¨ atze

1. Wie k¨onnen Cluster definiert werden?

Clusteranalyse dient hier als Sammelbegriff f¨ur eine breite Palette von Verfahren, deren Gemeinsamkeit im Wesentlichen nur darin besteht, dass sie die Objektmenge N irgendwie in Cluster einteilen. Somit stellt sich zun¨achst die Frage, wie Cluster definiert werden k¨onnen. Eine gelegent- lich verfolgte Idee f¨ur die Definition von Clustern wurde von K. D. Bailey (1983: 255) so formuliert:

”It is axiomatic in cluster analysis, as in all classification, that individuals or variables in a class are considered to be more similar to each other than to individuals or variables not in the class.”

(2)

Tats¨achlich f¨uhrt diese Idee zu einer sehr engen Clusterdefinition, die sich nur selten realisieren l¨asst. Um das deutlich zu machen, pr¨azisieren wir zun¨achst die Formulierung. Eine echte TeilmengeC⊂ N wird einseparier- baresoder kurz einS-Cluster genannt, wennC mindestens zwei Elemente hat und folgende Bedingung erf¨ullt ist:

max{dij|i, j∈C}<min{dij|i∈C, j /∈C} (5.1) max{dij|i, j∈C}wird auch alsDurchmesser des ClustersC bezeichnet.

Die Bedingung sagt, dass der Clusterdurchmesser kleiner sein sollte als der kleinste Abstand zu einem Objekt außerhalb des Clusters.

Verwendet man das so formulierte Kriterium, lautet die Frage, ob sich N in zwei oder mehr S-Cluster einteilen l¨asst. Wie man sehen wird, ist das oft nicht der Fall.

Als Beispiel betrachten wir eine MengeN ={1, . . . ,5}, die f¨unf Schul- abschl¨usse repr¨asentiert: 1 = ohne Hauptschulabschluss, 2 = Hauptschul- abschluss, 3 = Realschulabschluss, 4 = Fachhochschulreife, 5 = Abitur.

Es wird folgende Abstandsmatrix angenommen:

0.0 2.0 3.0 4.5 5.5 2.0 0.0 1.0 2.5 3.5 3.0 1.0 0.0 1.5 2.5 4.5 2.5 1.5 0.0 1.0 5.5 3.5 2.5 1.0 0.0

(5.2)

Man erkennt, dass es kein S-Cluster gibt, das den Schulabschluss 1 als Element enth¨alt (denn wollte man den Abschluss 2 hinzuf¨ugen, m¨usste man auch alle anderen Abschl¨usse mit aufnehmen). Es liegt also nahe, vor der Bildung von S-Clustern alle Elemente aus N zu entfernen, die keine Elemente von S-Clustern sein k¨onnen. In unserem Beispiel ist das das Element 1. Es bleibt die reduzierte Menge{2,3,4,5}, die sich in die beiden S-ClusterC1={2,3}undC2={4,5}zerlegen l¨asst.

Als ein weiteres Beispiel betrachten wir die Berufsstrukturdaten aus Abschnitt 2.3. Geht man von der Abstandsmatrix f¨ur die acht L¨ander aus (Tabelle 2.3-2), findet man, dass die L¨ander 6 (Schweden) und 8 (Ja- pan) nicht f¨ur S-Cluster verwendet werden k¨onnen. Die restlichen L¨ander k¨onnen in drei S-Cluster partitioniert werden: (Griechenland, T¨urkei), (Deutschland, Schweiz), (Grossbritannien, USA).

In der Literatur findet man eine F¨ulle unterschiedlicher Clusterkon- zeptionen, die im Vergleich zur Idee der S-Cluster oft nur sehr schwache Anforderungen stellen. Hier sind einige Beispiele.

”Classification can be described as the activity of dividing a set of objects into a smaller number of classes in such a way that objects in the same class are similar to one another and dissimilar to objects in other classes.“ (Gordon 1987: 119)

”[. . .] an investigator would like to group together variables so that they are as homogenous as possible within subsets, and as different as possible between subsets.“ (Cliff et al. 1986: 201)

0 10 20 30 40 50 60 70 80 90 100

0 100 200 300 400 500 600 700 800

Abb. 5.1-1 Altersverteilung (absolute H¨aufigkeiten in 1000) der M¨anner (durchgezogene Linie) und Frauen (gestrichelte Linie) in Deutschland 1999.

”Cluster analysis refers to a wide variety of techniques used to group entities into homogeneous subgroups on the basis of their similarities.“ (Lorr 1983: 1)

”Basically, one wants to form groups in such a way that objects in the same group are similar to each other, whereas objects in different groups are as dissimilar as possible.“ (Kaufman und Leonard 1990: 1)

”Roughly speaking, the goal of a clustering algorithm is to group the objects of a database into a set of meaningful subclasses.“ (Ankerst et al. 1999: 49-60) Offenbar liefern diese Zitate nur relativ vage Hinweise, wie Cluster gebildet werden sollten, jedoch keine Definitionen des Clusterbegriffs.

2. Abst¨ande und H¨aufigkeiten

Bei vielen ¨Uberlegungen zur Clusteranalyse vermischen sich zwei Ideen:

Einerseits die Idee, dass Objekte innerhalb desselben Clusters ¨ahnlich sein sollten; und andererseits eine Idee, die mit H¨aufigkeiten operiert: dass Cluster aus denjenigen Objekten gebildet werden sollten, die

”geh¨auft“

vorkommen. Zum Beispiel:

”The goal of clustering, in general, is to discover dense and sparse regions in a dataset.“ (Ganti, Gehrke und Ramakrishnan 1999: 73)

Es ist bemerkenswert, dass es keinen wesentlichen Zusammenhang zwi- schen den beiden Ideen gibt. ¨Uberlegungen, die mit ¨Ahnlichkeiten bzw.

Abst¨anden argumentieren, sind zun¨achst von ganz anderer Art als ¨Uberle- gungen, die mit H¨aufigkeiten argumentieren. W¨ahrend H¨aufigkeiten eine Bezugnahme auf Daten voraussetzen, ist das bei einer Betrachtung von Abst¨anden nicht erforderlich. ¨Uberlegungen, die mit Abst¨anden argumen- tieren, k¨onnen sich beispielsweise auf Merkmalsr¨aume beziehen, ohne dass Daten erforderlich sind. Ein gutes Beispiel ist die Kemeny-Metrik f¨ur Rangordnungen (vgl. Abschnitt 2.1,§3).

(3)

4 5 ANS ¨ATZE DER CLUSTERANALYSE

0 5 10

0 5

Abb. 5.1-2 100 mit einer zweidimensionalen Normalverteilung erzeugte Punkte; 50 mit dem Mittelwert (3,3), 50 dem Mittelwert (6,5).

0 5 10

0 0.1 0.2 0.3

0 5 10

0 0.1 0.2 0.3

Abb. 5.1-3 H¨aufigkeitsverteilungen f¨ur die X- und Y-Koordinaten der 100 Punkte in Abbildung 5.1-2.

Um die Problematik von an H¨aufigkeiten orientierten Clusteranalysen zu verdeutlichen, gen¨ugt bereits eine Betrachtung eindimensionaler H¨aufig- keitsfunktionen. Als Beispiel betrachte man die Altersverteilungen in Ab- bildung 5.1-1. Kann man anhand dieser H¨aufigkeitsfunktionen sinnvolle Cluster abgrenzen?

Es ist n¨utzlich, sich die unterschiedlichen Ans¨atze auch anhand eines zweidimensionalen Beispiels zu verdeutlichen. Daf¨ur verwenden wir 100 Werte einer zweidimensionalen Normalverteilung, die ersten 50 mit dem Mittelwert (3,3) die anderen 50 mit dem Mittelwert (6,5). Abbildung 5.1-2 zeigt die erzeugten Punkte.1

Wie k¨onnte in diesem Beispiel ein Ansatz verfolgt werden, der sich an H¨aufigkeiten orientiert. Abbildung 5.1-3 macht deutlich, dass es jedenfalls

1Die Daten wurden mit dem Skriptcl1.cf, die Abbildung mitclplot1.cferzeugt.

5.2 PARTITIONIERENDE VERFAHREN 5

nicht gen¨ugen w¨urde, nur die eindimensionalen H¨aufigkeitsprojektionen zu betrachten.

Dagegen f¨uhrt eine Orientierung an Abst¨anden zu einer anderen Idee.

Sie besteht darin, einige Punkte als Clusterzentren auszuw¨ahlen und dann alle ¨ubrigen Punkte demjenigen Clusterzentrum zuzuordnen, zu dem ihr Abstand am kleinsten ist. Dies ist die Grundidee der sogenannten parti- tionierenden Verfahren der Clusteranalyse.

3. Eine unvollst¨andige ¨Ubersicht

Zum Abschluss dieses Abschnitts geben wir eine kurze ¨Ubersicht ¨uber die in der Literatur haupts¨achlich verfolgten und verwendeten Ans¨atze der Clusteranalyse.

Partitionierende Verfahren, bei denen die Anzahl der Cluster vorge- geben werden muss und dann versucht wird, optimale Zuordnungen der Objekte zu Clustern zu finden; dabei werden optimale Zuordnun- gen durch unterschiedliche Kriterien definiert. Einige dieser Verfahren werden im n¨achsten Abschnitt besprochen.

Hierarchische Verfahren, die nicht unmittelbar Cluster erzeugen, son- dern eine hierarchische Repr¨asentation der Struktur einer Abstands- matrix liefern. Es gibt haupts¨achlich zwei Arten: agglomerative und divisive Verfahren. Einige dieser Verfahren werden im n¨achsten Kapitel besprochen.

Verfahren, die durch Dichotomisierungen einer Abstandsmatrix erzeug- te Graphen verwenden. Solche Verfahren werden in Abschnitt??be- sprochen.

Verfahren, die sich explizit an H¨aufigkeiten orientieren. Solche Verfah- ren werden in diesem Text nicht besprochen.2

Schließlich kann hier auch noch auf eine weitere Vorgehensweise hin- gewiesen werden, die darin besteht, zun¨achst r¨aumliche Bilder (einer Abstandsmatrix) zu erzeugen (z.B. mit Verfahren der multidimensio- nalen Skalierung oder Korrespondenzanalyse) und dann Cluster durch visuelle Anschauung zu bestimmen.3

5.2 Partitionierende Verfahren

In diesem Abschnitt besprechen wir einige Ans¨atze der partitionierenden Clusteranalyse. Hierbei muss die Anzahl der zu bildenden Cluster, im

2Vgl. Everitt (1993: Kap. 6); Ankerst et al. (1999).

3Diese Vorgehensweise wird oft vorgeschlagen, man vgl. beispielsweise Kruskal und Wish (1978: 43ff.), Lorr (1983: 45). Es gibt jedoch auch Kritik, vgl. die Hinweise bei Bailey (1994: 73).

(4)

Folgendenkgenannt, vorgegeben werden. Gesucht ist dann eine Partitio- nierung der Objektmenge in k disjunkte TeilmengenC1, . . . , Ck, so dass es sich um gut definierte Cluster handelt. Daf¨ur k¨onnen unterschiedli- che Kriterien verwendet werden. Man kann in erster Linie zwei Ans¨atze unterscheiden. Einerseits Ans¨atze, die f¨ur jedes Cluster ein Clusterzen- trum suchen und dann alle Objekte ihrem n¨achstgelegenen Clusterzen- trum zuordnen; andererseits Ans¨atze, die ohne Clusterzentren auskom- men. Wie sich unterschiedliche Partitionierungen vergleichen lassen, wird im n¨achsten Abschnitt besprochen.

1. Ans¨atze mit Clusterzentren

a) Ein erstes Kriterium setzt voraus, dass die Objekte durch Zeilen (oder Spalten) einer Datenmatrix gegeben sind:

xi= (xi1, . . . , xim) (i= 1, . . . , n)

und dass euklidische Abst¨ande verwendet werden. Dann kann f¨ur jedes ClusterClein Mittelwert

¯ xl:= 1

nl

X

iCl

xi

definiert werden (nlbezeichnet die Anzahl der Elemente inCl), und es wird m¨oglich, folgendes Kriterium zu verwenden:

k

X

l=1

X

i∈Cl

kxi−¯xlk2−→ min (5.3)

Es wird auch alsAbstandsquadratsummenkriterium bezeichnet. Je- der Vektorxiwird dem n¨achstgelegenen Clusterzentrum ¯xlzugeord- net, und die Clusterzentren sollen so bestimmt werden, dass die ge- samten quadrierten Abst¨ande zu den Clusterzentren m¨oglichst klein werden.

b) Wenn zun¨achst eine beliebige AbstandsmatrixD= (dij) gegeben ist, kann das Abstandsquadratsummenkriterium nicht verwendet wer- den. Man kann stattdessen Objekte – zun¨achst willk¨urlich – bestim- men, die als Clusterzentren dienen sollen. Hat man beispielsweise mObjekte als Zentrumsobjekte f¨urmCluster festgelegt, kann man alle ¨ubrigen Objekte jeweils demjenigen Cluster zuordnen, zu dessen Zentrumsobjekte sie den geringsten Abstand aufweisen. Ein weiter (rechentechnisch sehr aufwendiges) Problem besteht dann allerdings darin, diejenigen Zentrumsobjekte zu finden, die eine global optimale L¨osung liefern.

2. Ans¨atze ohne Clusterzentren

Die beiden in§1 besprochenen Kriterien verwenden Clusterzentren. Man kann auch versuchen, ohne Clusterzentren auszukommen.

a) Man kann beispielsweise folgendes Kriterium betrachten:

k

X

l=1

1 nl

X

i,j∈Cl:j<i

dij −→ min (5.4)

Unterschiedliche Varianten des Kriteriums entstehen, wenn man nicht durch nj, sondern beispielsweise durch nj(nj −1) dividiert;

H. Sp¨ath, der mit unterschiedlichen Varianten ausf¨uhrlich experi- mentiert hat, h¨alt die in (5.4) angegebene Variante f¨ur die praktisch brauchbarste.4

b) Anstatt sich auf eine Art von durchschnittlicher Abstandsgr¨oße in den Clustern zu beziehen, wie bei den Kriterien der Art (5.4), kann man auch den durch max{dij|i, j ∈ Cl}definierten Clusterdurch- messer verwenden. Dann entsteht folgendes Kriterium:

k

X

l=1

max{dij|i, j∈Cl} −→ min (5.5)

In diesem Fall sollen also die Cluster so gebildet werden, dass die Summe ihrer Durchmesser minimal wird.

3. Rechentechnische Probleme

Die Hauptschwierigkeit resultiert daraus, dass die Anzahl der M¨oglich- keiten zur Einteilung einer Menge von N Objekten ink Cluster schnell außerordentlich groß wird. Zum Beispiel kann man 10 Objekte auf 34105 verschiedene Weisen in vier Cluster einteilen; aber bei 19 Objekten gibt es bereits 11,259,666,000 M¨oglichkeiten.5 Es ist deshalb in den meisten F¨allen praktisch nicht m¨oglich, Cluster zu finden, die den globalen Minima der oben angegebenen Kriterien entsprechen.

Die normalerweise verwendeten Verfahren k¨onnen nur lokale Minima der Kriterien finden. Oft handelt es sich um sog. Austauschverfahren.

D.h. ausgehend von einer (irgendwie, zuf¨allig) gebildeten Anfangsparti- tion werden solange Objekte zwischen den Partitionen ausgetauscht, bis sich das Kriterium nicht weiter verkleinern l¨asst. F¨ur das Kriterium (5.3) wird eine besonders oft verwendete Variante dieses Austauschverfahrens alsk-means Algorithmus bezeichnet.6 F¨ur das Kriterium (5.4) wurde ein

4Vgl. Sp¨ath (1983: 92ff.; 1988).

5Vgl. Jain und Dubes (1988: 91).

6Vgl. Hartigan (1975: Kap. 4); Bacher (1994: 308ff.).

(5)

8 5 ANS ¨ATZE DER CLUSTERANALYSE

0 5 10

0 5

Abb. 5.2-1 Einteilung der 100 Punkte aus Abbildung 5.1-2 in drei Cluster unter Verwendung des Kriteriums (5.4). Die Kreise deuten die Clustermittelpunkte an.

Austauschverfahren von H. Sp¨ath entwickelt.7 Teilweise andere Verfahren wurden f¨ur das Kriterium (5.5) vorgeschlagen.8

Bei der Verwendung partitonierender Verfahren sollte man also daran denken, dass die normalerweise verf¨ugbaren Programme nur lokale Minima der Kriterien finden k¨onnen. Es ist deshalb sinnvoll, die Berechnungen mit unterschiedlichen Anfangspartitionen zu wiederholen, um einen gewissen Einblick in das Auftreten unterschiedlicher lokaler Minima zu gewinnen.

4. Illustration mit artifiziellen Daten

Zur Illustration partitionierender Verfahren verwenden wir das Kriterium (5.4). Wir beginnen mit den in Abschnitt 5.1 (§5) beschriebenen artifiziel- len Daten: 100 Realisierungen einer zweidimensionalen Normalverteilung (Abbildung 5.1-2). Daraus wird eine (100,100)-Matrix mit euklidischen Abst¨anden gebildet und als Eingabe f¨ur ein partitionierendes Verfahren verwendet.9

Versucht man, durch Minimierung des Kriteriums (5.4) zwei Cluster zu bilden, erh¨alt man bei 100 Wiederholungen mit zuf¨allig gebildeten An- fangspartitionen als beste L¨osung folgende Einteilung: Die Punkte 1–51 (ohne Nr. 32) geh¨oren zum ersten, die Punkte 32 und 52–100 zum zwei-

7Vgl. Sp¨ath (1983: 143ff.). Dieses Verfahren liegt auch der TDA-Prozedurclpzugrun- de, die f¨ur die sp¨ateren Illustrationen verwendet wird.

8Vgl. Hansen und Jaumard (1987); Charikar und Panigrahy (2001).

9Das Datenfile mit der Abstandsmatrix wurde mit dem Skriptcl1a.cferzeugt und cl1a.datgenannt.

5.2 PARTITIONIERENDE VERFAHREN 9

Box 5.2-1 Verwendung der Berufsstrukturdaten aus Tabelle 2.3-3 f¨ur eine Einteilung der L¨ander in zwei, drei bzw. vier Cluster.

urkei Griechenland

Deutschland Japan Schweiz

Schweden Grossbritannien

USA

ten Cluster.10 Bis auf den Punkte Nr. 32 (der mit den Koordinaten (3.96,4.74) einen Grenzfall bildet) entspricht dies Ergebnis dem datener- zeugenden Prozess.

Aber warum zwei Cluster? Bildet man drei Cluster, entsteht sogleich ein vollst¨andig anderes Bild, s. Abbildung 5.2-1.11 In diesem Fall wird auch bei 100 Wiederholungen ein optimales Ergebnis nur in acht F¨allen erreicht.

5. Beispiele mit Berufsstrukturdaten

Jetzt verwenden wir die Berufsstrukturdaten aus Abschnitt 2.3. Wir be- ginnen mit der Abstandsmatrix in Tabelle 2.3-3 f¨ur die acht L¨ander. Fol- gende Tabelle zeigt das Ergebnis, wenn man zwei, drei bzw. vier Cluster bildet:12

Land 1 2 3 4 5 6 7 8

2 Cluster 1 1 2 2 2 2 2 2 3 Cluster 1 1 3 2 3 2 2 3 4 Cluster 1 1 2 4 2 3 4 2

In diesem Beispiel entsteht auch eine hierarchische Struktur, wie sie in Box 5.2-1 noch einmal verdeutlicht wird. (Das ist bei partitionierenden Verfahren im Allgemeinen nicht der Fall.)

Verwendet man die Abstandsmatrix f¨ur die geschlechtsspezifischen Be- rufsverteilungen aus Abschnitt 2.3 (§6), findet man wiederum eine hierar- chische Struktur:13

M1, . . . ,M8

F1,F2,F8

(F3,F4,F5,F7)(F6)

10Verwendet wurde das Skriptclp1.cf.

11Verwendet wurde das Skriptclp1a.cf.

12Verwendet wurde das Skriptclp2.cf.

13Erzeugt mit dem Skriptclp3.cf.

(6)

5.3 Vergleiche von Partitionen

Manchmal m¨ochte man zwei oder mehr Partitionen derselben Objektmen- ge daraufhin vergleichen, wie ¨ahnlich oder un¨ahnlich die durch sie vor- genommenen Klassifikationen sind. Erforderlich ist dann eine Abstands- funktion, die jeweils zwei Partitionen f¨ur dieselbe Objektmenge eine Zahl zuordnet, die als ihr Abstand interpretiert werden kann. In der Litera- tur findet man viele unterschiedliche Vorschl¨age.14 In diesem Abschnitt besprechen wir zwei Ideen.

1. Ein einfacher Index

Bei der ersten Idee werden alle Paare von Objekten betrachtet, und bei jedem Paar wird festgestellt, ob die beiden Objekte von einer Partition in dieselbe oder in eine unterschiedliche Klasse eingeordnet werden. Daraus wird dann ein Index gebildet.15

Um eine genaue Definition zu geben, beziehen wir uns auf zwei Parti- tionenP undPf¨ur die Objektmenge N ={1, . . . , n}. F¨ur die Partition P wird eine (n, n)-MatrixP= (pij) gebildet: pij = 1, wenn die Objek- tei und j durch die PartitionP demselben Cluster zugeordnet werden;

pij = 0 andernfalls. Analog wird eine MatrixP= (pij) f¨ur die Partition Pgebildet. Dann wird ein Abstand zwischen den Partitionen durch

d(P, P) := 2 n(n−1)

X

j<i

|pij−pij| (5.6)

definiert. Es wird also erfasst, welchen Anteil an den insgesamtn(n−1)/2 Paaren diejenigen Paare haben, bei denen die Objekte unterschiedlichen Clustern zugeordnet werden. Der maximale Wert des Index ist offenbar 1.

Zur Illustration verwenden wir die drei Partitionen f¨ur die Berufsstruk- turdaten, die in§5 des vorangegangenen Abschnitts gebildet wurden (2 Cluster: P, 3 Cluster: P’, vier Cluster P”). Die zu P’ geh¨orende Matrix sieht beispielsweise so aus:

P=

0 1 0 0 0 0 0 0

1 0 0 0 0 0 0 0

0 0 0 0 1 0 0 1

0 0 0 0 0 1 1 0

0 0 1 0 0 0 0 1

0 0 0 1 0 0 1 0

0 0 0 1 0 1 0 0

0 0 1 0 1 0 0 0

14Man vgl. etwa Hubert und Arabie (1985).

15Eine axiomatische Begr¨unding f¨ur diesen Index haben Mirkin und Chernyi (1970) gegeben.

Bildet man analog die MatrizenPundP′′, findet man folgende Abst¨ande:

d(P, P) = 9/28 = 0.32,d(P, P′′) = 11/28 = 0.39 undd(P, P′′) = 2/28 = 0.07. Offenbar sind sichPundP′′sehr ¨ahnlich.

2. Substitutionsmetriken

Ein anderer Ansatz orientiert sich an der Idee einer Substitutionsmetrik.16 Als Leitfaden dient die Frage, wieviele Operationen erforderlich sind, um zwei Partitionen einer Objetmenge in ¨Ubereinstimmung zu bringen. Dabei ist zu ber¨ucksichtigen, dass die Partitionen eine unterschiedliche Anzahl von Clustern aufweisen k¨onnen.

Angenommen, die Partitionen P und P bestehen aus den Clustern {C1, . . . , Cm} bzw. Clustern {C1, . . . , Cm } undm ≥ m. Dann werden zur Partition P m−m leere Cluster hinzugef¨ugt, so dassP ebenfalls aus m Clustern besteht. Dann kann man alle m¨oglichen Zurordnungen zwischen den ClusternC1, . . . , CmundC1, . . . , Cm betrachten und f¨ur jede Zuordnung die Anzahl der Objekte bestimmen, die einem anderen Cluster zugeordnet werden m¨ussen, um die Partitionen in ¨Ubereinstimmung zu bringen. Schließlich verwendet man diejenige Zuordnung der Cluster, bei denen die Anzahl der erforderlichen Vertauschungsoperationen minimal ist.

Verwendet man zur Illustration wieder die PartitionenP,P und P′′

f¨ur die Berufsstrukturdaten, findet man, dass drei Operationen erforderlich sind, umP undP in ¨Ubereinstimmung zu bringen, dass man f¨urPund P′′ jedoch nur eine Operation ben¨otigt.

16Day ...; Charon et al. (2006).

Referenzen

ÄHNLICHE DOKUMENTE

(liest aktuelle

mit dergleichen Raumflucht, aus der die gleichen drei schematischen Menschen in unter- schiedlichen Größen heraussprinten, nur daß hier der Grau-Schwarzeinsatz einen

Be- zeichnung der 1 D-Güterzuglokomotiven, Type II der russischen Staatsbahn, weil dieser Typ zuerst für die russische ostchinesische Bahn gebaut

12 Denn wie der Leib eine Einheit ist, doch viele Glieder hat, alle Glieder des Leibes aber, obgleich es viele sind, einen einzigen Leib bilden: so ist es auch mit Christus.. 13

Die Zäsuren, die im Titel gesetzt sind, die Jahre 1897 und 1933, beziehen sich zum einen auf die Zulassung von Frauen zum Studium an der philosophischen Fakultät in Wien, zum

Anerbieten der Herren Facbgenossen, das ein oder andre wichtigere Werk eingehend besprechen zu wollen, werden mit Dank angenommen; jedoch sollen einem und demselben Herrn

Anerbieten der Herren Fachgenossen, das eine oder andre wichtigere Werk eingehend besprechen zu wollen, werden mit Dank angenommen; jedoch sollen einem und demselben Herrn

Anerbieten der Herren Fachgenossen, das eine oder andre wichtigere Werk eingehend besprechen zu wollen, werden mit Dank angenommen; jedoch sollen einem und demselben Herrn