Probleme bei Aufbau und Nutzung des Datenbestandes

2 Universal-Suchmaschinen

2.3 Probleme bei Aufbau und Nutzung des Datenbestandes

Universal-Suchmaschinen müssen damit zurechtkommen, dass sie mit dem WWW eine rie-sengroße Dokumentenkollektion bearbeiten, die durch rasantes Wachstum und eine hohe Fluktuationsrate gekennzeichnet ist. Die Inhalte einzelner Seiten oder ganzer Websites wer-den laufend verändert oder sogar gelöscht. Eine von Ntoulas / Cho / Olston durchgeführte Un-tersuchung ergab, dass binnen Jahresfrist von 100 Webseiten 80 „verschwinden“, von den restlichen 20 bleibt nur jede zweite inhaltlich unverändert.³⁸

Darüber hinaus sollten die Suchmaschinen-Nutzer die Authentizität, Qualität und Re-levanz der indexierten Dokumente stets kritisch hinterfragen. Da Universal-Suchmaschinen möglichst viele Dokumente in ihren Datenbestand (Index) aufnehmen wollen, verzichten sie auf eine Auswahl nach inhaltlichen Gesichtspunkten und vorab definierten Qualitätskriterien.

Die Indexierung erfolgt in Anbetracht der Dokumentenmenge weitestgehend automatisiert und ohne intellektuelle Kontrolle.

Die Autoren der Studie geben außerdem an, dass innerhalb eines Jahres ca. vier Fünftel der Hyperlinks modifiziert werden.

Wenn es keine automatische Weiterleitung gibt, führt der Aufruf der ursprünglichen URL dann oft ins Leere – erkennbar an dem HTTP-Statuscode „404 – File not Found“, der bei ei-nem so genannten „Dead Link“ angezeigt wird. Dass die Integrität und Persistenz (Langzeit-verfügbarkeit) der Informationsbestände im WWW nicht garantiert werden kann, wirkt sich nachteilig auf die (wissenschaftliche) Nutzbarkeit und Zitierfähigkeit aus.

39 Nebenwirkungen sind indexierte Seiten mit Sicherheitsri-siken (Viren, Dialer, Phishing-Versuche) und unerwünschte Inhalte wie zum Beispiel Dublet-ten. Die Suchmaschinenbetreiber sind zwar bemüht, jegliche Dubletten zu eliminieren, da die-se Index und Trefferlisten aufblähen, doch nicht immer sind sie dabei erfolgreich. Neben leicht identifizierbaren Dubletten (komplett gespiegelte Server oder dieselben Dokumente in unterschiedlichen Angeboten) gibt es auch „partielle Dubletten“, also unterschiedliche Versi-onen desselben Dokuments. Während in Datenbanken in der Regel nur eine, nämlich die end-gültige Fassung eines Dokuments abgelegt wird (z. B. die Druckversion eines Artikels), exis-tieren von vielen Dokumenten im Web unterschiedliche Versionen, die nicht leicht durch au-tomatische Verfahren als solche erkannt werden können.⁴⁰

38 Ntoulas / Cho / Olston (2004), S. 2.

39 Bekavac (2004), S. 399; Lewandowski (2005), S. 73, 75.

40 Bekavac (2004), S. 399; Lewandowski (2005), S. 72f.

Ein zusätzliches Problem beim Aufbau des Datenbestandes ergibt sich durch das so genannte „Index-Spamming“. Die Hyperlinkstruktur des WWW (Dokumente sind mit anderen Dokumenten verknüpft) ermöglicht einerseits das Crawling und liefert Hinweise auf den Stel-lenwert bestimmter Dokumente, andererseits machen sich Search Engine Optimizer (SEO) dieses Spezifikum zu Nutze, indem sie den Index einer Suchmaschine mit unerwünschten In-halten (Spam) füllen, um das Ranking zugunsten ihrer Auftraggeber zu manipulieren. Da dies die Qualität der Trefferlisten verschlechtert, sind Suchmaschinen bestrebt, entsprechende Si-tes zu erkennen und aus dem Index auszuschließen. Dazu werden verschiedene Verfahren eingesetzt, die als Betriebsgeheimnis gelten und deshalb nicht im Detail dokumentiert sind.

Im Spannungsfeld zwischen Spam und nützlichen Inhalten, die nur über einen Umweg gefun-den wergefun-den können, stehen „Teaser-Seiten“, die aus einer Vielzahl potentieller Suchwörter bestehen.⁴¹

Inhalte, die von den Suchmaschinen aus Unvermögen oder (mehr oder weniger) frei-willig nicht in ihre Indexe aufgenommen werden, sind Teil des so genannten „Invisible Web“ (auch „Deep Web“ oder „Hidden Web“).⁴² Dazu zählen: (1) Dokumente, die (noch) nicht verlinkt sind und deshalb von keinem Crawler gefunden werden können. (2) Inhalte, die erst nach der letzten Indexierung einer Webseite hinzugefügt wurden. (3) Inhalte, die von der Indexierung ausgeschlossen wurden – entweder durch den Meta-Robots-Tag, den W3C Robots Exclusion Standard oder eine absichtlich verzögerte Antwort (woraufhin der Crawler technische Probleme „vermutet“ und den Vorgang abbricht).⁴³ (4) Inhalte, die in bestimmten Formaten vorliegen – Probleme gibt es bei multimedialen und interaktiven Inhalten (weil z. B.

Informationen aus eingebettetem Flash oder Java nicht extrahiert werden können) und auch bei einigen PDF-Dokumenten (abhängig von der PDF-Version, dem Erstellungswerkzeug, den gewählten Einstellungen oder auch dem Zugriffsschutz).⁴⁴

41 Lewandowski (2005), S. 39, 78, 80.

(5) Dynamisch („on the fly“) generierte Inhalte, die das Resultat einer Nutzer-Eingabe oder -Auswahl darstellen – diesen

42 Anderson (2008), S. 65f.; Bates (2004), S. 3; Sherman / Price (2003).

43 Der Meta-Robots-Tag im Head-Bereich einer Webseite steuert das Verhalten kooperativer Crawler, die diese Seite besu-chen. Die zulässigen Werte sind „index“ (Seite indexieren), „noindex“ (Seite nicht indexieren), „follow“ (den Links auf der Seite folgen) und „nofollow“ (den Links auf der Seite nicht folgen). Fehlt der Meta-Robots-Tag, dann wird dies als Zustim-mung zur Indexierung und Linkverfolgung interpretiert. Der 1994 entwickelte Robots-Exclusion-Standard besagt, dass Crawler beim Auffinden einer Webseite zuerst die Datei „robots.txt“ im Stammverzeichnis (Root) einer Domain aufsuchen müssen. In dieser Datei kann festgelegt werden, ob und wie die Webseite von einem Crawler besucht werden darf. Website-Betreiber haben so die Möglichkeit, ausgesuchte Bereiche ihrer Webpräsenz für (bestimmte) Suchmaschinen zu sperren – vo-rausgesetzt, der Crawler hält sich auch an diesen De-facto-Standard. Vgl. Weichselgartner / Baier (2007), S. 177;

http://www.lexikon-suchmaschinenoptimierung.de/meta-robots-tag.htm.

44 Weichselgartner / Baier (2007), S. 177.

Input können Crawler nicht vornehmen. (6) Inhalte, die nur nach einer Registrierung erreich-bar sind – Crawler können keine Benutzerkennung (Login und Passwort) eintippen. (7) Inhal-te in DaInhal-tenbanken (abgesehen davon, dass sie oft lizenzpflichtig und deshalb zugangsbe-schränkt sind) – Crawler können keine Suchanfragen an Online-Datenbanken schicken, daher bleiben viele wissenschaftsrelevante Informationen (z. B. Volltexte, Abstracts, Metadaten, Zi-tationen, Patente) in Datenbanken verborgen.

Bergman schätzte im Jahre 2001 die Größe des Invisible Web auf das 550-fache des Surface Web⁴⁵ – Lewandowski und Mayr demonstrierten, dass diese Zahl zu hoch angesetzt war und konstatierten weiteren Forschungsbedarf.⁴⁶

45 Bergman (2001).

46 Lewandowski / Mayr (2006), v. a. S. 533-536.

Im Dokument Möglichkeiten und Grenzen von Suchmaschinen bei der wissenschaftlichen Recherche im Internet (Seite 18-21)