9 Nutzungsszenarien in der Wikipedia
9.7 Verteilung der Inhalte auf die Wissendomänen
9.7.1 Bestehende Ordnung in der Wikipedia
In der Wikipedia existiert bereits ein umfassendes System zur sachsystematischen Ver-‐‑
ortung der Artikel. Es wurde von der Community 2004 in Betrieb genommen. Dieses System umfasst mehrere 1000 Kategorien, ist oft zehn und mehr Kategorien tief und lässt auch Mehrfachzuordnungen zu (z.B.: Lemma „Katze“: Kat-‐‑
zen/Hauskatze/Haustier24). Da das bestehende Kategoriensystem sehr groß ist, Mehr-‐‑
fachzuordnungen zulässt, keine eindeutigen Zuweisungsregeln hat und zudem belie-‐‑
big erweiterbar ist, ist es für die hier durchzuführende Untersuchung nicht geeignet.
Allerdings soll es bei der Erstellung des zur Analyse und zur Verwendung im Kon-‐‑
textmodell erstellten Systems berücksichtigt werden, da der Geltungsbereich gleich bleibt und so das Kategoriensystem der Wikipedia für die hier gewünschte Klassifika-‐‑
tion der Inhalte eine gute Grundlage liefert.
Die Erstellung eines Ordnungssystems ist eigentlich ein komplexer und aufwändiger Prozess. Für das Kategoriensystem in der Wikipedia trifft diese Vorgehensweise nicht zu. Wie auch für die Erstellung der Inhalte, gilt hier das Prinzip des kollektiven Wis-‐‑
sens, zu dem jeder etwas beitragen kann. Jeder kann Kategorien hinzufügen und diese jeweils anderen Kategorien unterordnen. Jede Kategorie kann beliebig vielen anderen Kategorien zugordnet werden.
Die Artikel werden den Kategorien ihrem Inhalt entsprechend zugewiesen. Es gilt, dass Oberkategorien allgemeinere Begriffe repräsentieren als Unterkategorien. Ansons-‐‑
ten gibt es keine genauen Zuweisungsregeln außer den Grundsätzen, dass ein Lemma entweder zum Fachgebiet gehören muss, Teil (von) oder zeitlich oder örtlich zugehörig ist25. Jeder Artikel kann mehrfach zugeordnet werden, dabei sollte allerdings eine Seite nicht gleichzeitig einer Kategorie und einer ihrer Unterkategorien zugeordnet werden26. Kategorien sollten, wenn sie mehr als 200 Einträge haben, in Unterkategorien aufgeteilt werden. Die jeweilige Aufteilung der Kategorien wird den Fachbereichen überlassen – nur die allgemeinen Oberkategorien sind für alle Themen-‐‑ und Fachbereiche gleich. In
24 Siehe Wikipedia: Katze [http://de.wikipedia.org/wiki/Katze], 19.Juli 2010.
25Zum Katgoriensystem in der Wikipedia und die Zuordnungsregeln siehe
[http://de.wikipedia.org/wiki/Wikipedia:Kategorien] (zuletzt abgerufen 26.9.2013) und [http://de.wikipedia.org/wiki/Hilfe:Kategorien] (zuletzt abgerufen 26.9.2013).
26 Ebda.
einer Beschreibung, die jede Kategorie auf ihrer Kategorienseite erhält, werden der Zweck der Kategorie und die Abgrenzungskriterien zu den anderen Kategorien fest-‐‑
gehalten. Anders als bei Kategoriensystemen für spezielle, abgegrenzte Fachgebiete, muss das System in der Wikipedia auch sehr allgemeine Bereiche umfassen.
Die Beziehungen zwischen den Kategorien selbst sind nicht weiter definiert. Es werden zwar Zuordnungsregeln für die Unterkategorien gegeben, allerdings nicht für alle.
Außerdem gibt es auch eindeutige Anweisungen für Mehrfachzuordnungen, zum Bei-‐‑
spiel sollen Artikel, die zu „Räumliche Systematik: Inselgruppe als Thema: Kanarische Inseln“ gehören auch zum jeweiligen Staat zugeordnet werden27. Auf den jeweiligen Seiten der Unterkategorien befinden sich dann wiederum Zuweisungsregeln. Die wei-‐‑
tere Untergliederung ist relativ kurz, klickt man sich, je nach Inselgruppe, durch die einzelnen Kategorien, so kommt man nach weiteren drei (Insel Panarea, gehört zu den Liparischen Inseln) bis fünf (Britische Jungferninseln) zum Artikel. Über die Konsis-‐‑
tenz der Zuordnung lässt sich durch die große Zahl der Kategorien ad hoc wenig sa-‐‑
gen.
Für das Anliegen dieser Arbeit ist eine so feine Untergliederung aus oben genannten Gründen weder sinnvoll noch machbar. Daher gibt es vor allem für die hierarchisch niedrigeren Unterkategorien des Kategoriensystems der Wikipedia für die hier inten-‐‑
dierten Untersuchungen keine weitere Verwendung.
Statistiken zum Kategoriensystem in der Wikipedia
Um die Verwendungsmöglichkeiten des Kategoriensystems der Wikipedia für die hier geplanten Untersuchungen genauer zu betrachten wurden weitere Aspekte untersucht.
Die Kategorien des Systems sind alphabethisch geordnet den Wikipedia-‐‑Seiten zu ent-‐‑
nehmen. Am 3. August 2010 hatte z.B. der Buchstabe B ca. 9500 Kategorien. Das zeigt deutlich, dass das System auf Grund seiner Größe schwierig zu handhaben ist. Abge-‐‑
sehen davon wären keine einheitlichen Schlussfolgerungen für ein System von der durchsuchten Domain auf die Präferenzen der Nutzer möglich, es sei denn, man abs-‐‑
trahierte wieder von den detaillierten Domains bzw. fasste diese in Klassen zusammen,
was so gesehen ja das Ziel des hier erstellten Kategoriensystems ist.
27 Ebda.
Die Kategorien mit den meisten Zuordnungen sind wiederum recht allgemeiner Natur (bereinigt von Kategorien, die nicht inhaltlicher sondern organisatorischer Natur sind):
Tabelle 9-1 Kategorien mit den meisten Zuordnungen in der Deutschsprachigen Wikipedia 1 Mann [287.329 Einträge]
2 Deutscher [88.665 Einträge]
3 Frau [48.269 Einträge]
4 Autor [31.351 Einträge]
5 US-‐‑Amerikaner [29.156 Einträge]
6 Schauspieler [21.628 Einträge]
7 Österreicher [12.422 Einträge]
8 Literatur [Deutsch] [9.281 Einträge]
9 Franzose [8.609 Einträge]
10 US-‐‑amerikanischer Film [7.923 Einträge]
11 Brite [7.800 Einträge]
12 US-‐‑amerikanischer Musiker [6.367 Einträge]
13 Schweizer [6.148 Einträge]
14 SPD-‐‑Mitglied [6.105 Einträge]
15 Literarisches Werk [6.056 Einträge]
16 Roman, Epik [5.982 Einträge]
17 Geboren im 20. Jahrhundert [5.568 Einträge]
18 Fluss in Europa [5.276 Einträge]
19 Pkw-‐‑Modell [5.263 Einträge]
20 Italiener [5.223 Einträge]
21 Fußballspieler [Deutschland] [4.577 Einträge]
22 Literatur [Englisch] [4.427 Einträge]
Da es sich hierbei um die am öftesten vergebenen Kategorien handelt, lässt dies bereits erste Rückschlüsse auf die inhaltlichen Schwerpunkte der Wikipedia zu (siehe z.B.
Rang 21: Fußballspieler (Deutschland)). Allerdings ist das nur bedingt aussagekräftig.
Betrachtet man die absoluten Zahlen der Einträge in den meistbenutzten Kategorien, so ist bereits ab Rang 8 die Population unter 10.000 Einträgen, was in Relation zu der gesamten Artikelanzahl (Stand: 4. August 2010, 9:46 Uhr: 1.090.454 Artikel) relativ we-‐‑
nig ist.
Die ersten drei meistbenutzen Kategorien („Mann“, „Deutscher“, „Frau“) haben zwar deutlich mehr Einträge, sind aber wiederum sehr allgemein und vermutlich wurden viele Artikel sowohl der Kategorie „Mann“ als auch „Deutscher“ zugeordnet. Was al-‐‑
lerdings eine gewisse Aussagekraft hat ist, dass Kategorie „Mann“ + die Kategorie
„Frau“ (hier gibt es vermutlich keine doppelten Zuordnungen) gesamt 33559828 Einträ-‐‑
ge hat, was eine große Abdeckung der Kategorie „Personen“ ergibt, wie die späteren Stichproben auch bestätigen.
28 Stand: 4. August 2010
Da es zum Zeitpunkt der Untersuchung nur 26 nicht kategorisierte Artikel gab29, kann man diese Artikelzahl realistisch ins Verhältnis setzen zur Gesamtartikelanzahl, was immerhin einen Prozentsatz von 30,8 % für die Artikel über Personen ergibt. Um Aus-‐‑
sagen über weitere Klassen von Artikelgegenständen machen zu können müssen diese ebenso eindeutigen Oberklassen wie „Person“ zugeordnet werden können. Darüber hinaus ist weiterhin von Interesse, auch den thematischen Bereich, dem die Artikelge-‐‑
genstände entstammen, zu erfassen, also z.B. Sport, Wissenschaft oder Kunst/Kultur.